Кросс-таблицы (таблицы сопряжённости) — это метод представления и анализа совместного распределения двух или более категориальных (номинальных или порядковых) переменных в виде матрицы. Они показывают частоту (или процент) наблюдений, попавших в каждую возможную комбинацию категорий этих переменных.
2. Происхождение и контекст
Метод является базовым инструментом описательной статистики и анализа таблиц сопряжённости, широко применяемым в социологии, маркетинге, эпидемиологии и других науках с начала XX века. Он служит основой для проверки статистических гипотез о наличии связи между переменными с помощью критерия хи-квадрат.
3. Суть простыми словами
Это способ увидеть, как одна характеристика распределяется в зависимости от другой. Например, чтобы понять, отличается ли выбор бренда телефона у мужчин и женщин, можно построить таблицу, где строки — это пол, а столбцы — бренды. В ячейках будет видно, сколько мужчин выбрали iPhone, сколько женщин — Samsung и т.д. Это позволяет наглядно сравнить предпочтения разных групп.
4. Как применяется метод
1.Выбор переменных для анализа: Определяются две или более категориальные переменные из набора данных, между которыми предполагается наличие связи (например, «пол» и «выбор напитка», «уровень дохода» и «тип отпуска»).
2.Построение таблицы сопряжённости: Создаётся матрица, где строки представляют категории одной переменной (например, мужчины/женщины), а столбцы — категории другой переменной (кофе/чай/вода). На пересечении строки и столбца указывается абсолютная частота — количество респондентов, попавших в данную комбинацию.
3.Расчёт процентных распределений: Для упрощения интерпретации абсолютные частоты обычно переводятся в проценты. Проценты могут рассчитываться:
По строкам: Показывает распределение второй переменной внутри каждой категории первой (например, % мужчин, выбирающих каждый напиток).
По столбцам: Показывает распределение первой переменной внутри каждой категории второй (например, % любителей кофе среди мужчин и женщин).
От общего итога: Показывает долю каждой комбинации от общего числа респондентов.
4.Визуальный анализ и поиск закономерностей: Анализируется, есть ли заметные различия в распределениях. Например, если среди мужчин 60% выбирают кофе, а среди женщин — 20%, это указывает на возможную связь.
5.Проверка статистической значимости связи: Для подтверждения того, что обнаруженные различия не случайны, применяется статистический критерий, чаще всего — хи-квадрат Пирсона (χ²). Низкое p-значение (обычно <0.05) свидетельствует о наличии статистически значимой связи между переменными.
6.Измерение силы связи (опционально): Если связь значима, вычисляются коэффициенты, показывающие её силу, например, коэффициент V Крамера или фи-коэффициент. Их значения лежат в диапазоне от 0 (нет связи) до 1 (сильная связь).