РЕСУРСЫ
Шаблоны опросов
РЕШЕНИЯ
ПРОДУКТЫ
Глоссарий

Коэффициент корреляции: что это такое

1. Определение

Коэффициент корреляции — это статистический показатель, измеряющий силу и направление линейной стохастической (вероятностной) связи между двумя количественными переменными. Его значение всегда находится в диапазоне от -1 до +1, где крайние значения означают строгую функциональную связь.

2. Происхождение и контекст

Классический коэффициент линейной корреляции (коэффициент корреляции Пирсона) был разработан и введён в статистическую практику английским математиком Карлом Пирсоном в конце XIX — начале XX века на основе идей Фрэнсиса Гальтона. Он стал фундаментальным инструментом анализа данных в различных науках.

3. Суть метода простыми словами

Это число, которое показывает, как две величины «согласованы» друг с другом. Если с ростом одной величины вторая также в среднем растет — корреляция положительная (близко к +1). Если с ростом одной вторая в среднем падает — корреляция отрицательная (близко к -1). Если закономерности нет — корреляция близка к 0.

4. Как применяется метод

Типичный процесс корреляционного анализа включает шаги:
  1. Сбор данных по двум переменным. Формируются два параллельных набора данных (X и Y) для одной и той же группы наблюдений (например, стаж работы и зарплата для 50 сотрудников).
  2. Предварительный графический анализ. Строится диаграмма рассеяния (scatter plot) для визуальной оценки возможной линейной связи и выявления аномальных значений (выбросов).
  3. Выбор и расчет коэффициента. Для количественных данных, имеющих нормальное распределение, рассчитывается коэффициент корреляции Пирсона (r). Для иных случаев могут применяться коэффициенты Спирмена или Кендалла.
  4. Проверка статистической значимости. Рассчитывается p-value (уровень значимости) для полученного коэффициента. Низкий p-value (обычно < 0.05) позволяет отвергнуть нулевую гипотезу об отсутствии связи и считать корреляцию статистически значимой.
  5. Интерпретация результата. Анализируется величина и знак коэффициента. На практике сила связи часто оценивается так: |r| < 0.3 — слабая; 0.3 ≤ |r| < 0.7 — умеренная; |r| ≥ 0.7 — сильная.
Не забудьте создать опрос онлайн на FOQUZ.ONLINE для успешного развития бизнеса

5. Примеры

  • Положительная корреляция (r ≈ +0.85): Связь между количеством часов, затраченных на подготовку к экзамену, и итоговой оценкой. Чем больше часов, тем выше оценка.
  • Отрицательная корреляция (r ≈ -0.65): Связь между уровнем безработицы в регионе и объёмом розничных продаж. Чем выше безработица, тем ниже продажи.
  • Корреляция, близкая к нулю (r ≈ 0.1): Связь между размером обуви и уровнем IQ. Ожидаемо, отсутствует.
  • Классический пример ложной корреляции: Высокая положительная корреляция между количеством пожарных на месте происшествия и размером ущерба. Это не значит, что пожарные вызывают ущерб; обе переменные зависят от третьей — масштаба пожара.

6. Области применения

Статистика, экономика, социология, психология, медицина и эпидемиология, биология, data science, маркетинговые исследования, контроль качества.

7. Преимущества

  • Позволяет количественно измерить и сравнить силу связи между двумя переменными.
  • Прост в вычислении и интерпретации.
  • Является основой для многих других, более сложных статистических методов (регрессионный анализ, факторный анализ).
  • Позволяет выявлять потенциальные зависимости для дальнейшего, более глубокого исследования.

8. Ограничения и недостатки

  • Измеряет только линейную связь. Нелинейная зависимость может давать коэффициент, близкий к нулю.
  • Корреляция не означает причинно-следственной связи (causation). Две переменные могут меняться вместе из-за влияния третьей, скрытой переменной.
  • Чувствителен к выбросам (аномальным значениям), которые могут сильно искажать результат.
  • Сила корреляции, рассчитанная для одной группы, может не воспроизводиться для другой (проблема экстраполяции).