- •2. Анализ связей между номинальными признаками
- •2.1. Анализ номинальных данных как одна из главных задач социолога
- •2.1.1. Роль номинальных данных в социологии
- •2.1. 2 . Соотношение между причинно-следственными отношениями и формальными методами их изучения
- •2.2. Классификация задач анализа связей номинальных признаков
- •2 .2. 1 . Диалектика в понимании признака и его значений.
- •2.2.3. Выделение двух основных групп методов анализа номинальных данных. Место рассматриваемых подходов в этой группировке
- •2.3 . Анализ связей типа "признак-признак"
- •2.3.1.1. Понимание отсутствия связи между признаками как их статистической независимости.
- •2.3.2. Коэффициенты связи, основанные на моделях прогноза
- •2.3.2.1. Выражение представлений о связи через прогноз
2.3.1.1. Понимание отсутствия связи между признаками как их статистической независимости.
Приведем простой пример, иллюстрирующий рассматриваемый подход к пониманию связи между двумя номинальными признаками. Предположим, что перед нами стоит задача оценки того, зависит ли профессия респондента от его пола. Пусть наша анкета содержит соответствующие вопросы и в ней перечисляются пять вариантов профессий, закодированных цифрами от 1 до 5; для обозначения же мужчин и женщин используются коды 1 и 2 соответственно. Для краткости обозначим первый признак (т.е. признак, отвечающий вопросу о профессии респондента) через Y, а второй (отвечающий полу) - через X. Итак, наша задача состоит в том, чтобы определить, зависит ли Y от X.
Предположим, что исходная таблица сопряженности, вычисленная для каких-то 100 респондентов имеет вид:
Таблица 8. Пример таблицы сопряженности для двух независимых признаков
Профессия |
Пол |
Итого |
|
1 |
2 |
|
|
1 |
18 |
2 |
20 |
2 |
18 |
2 |
20 |
3 |
45 |
5 |
50 |
4 |
0 |
0 |
0 |
5 |
9 |
1 |
10 |
Итого |
90 |
10 |
100 |
Вероятно, любой человек согласится, что в таком случае признаки можно считать независимыми, поскольку и мужчины, и женщины в равной степени выбирают ту или иную профессию: первая и вторая профессии пользуются одинаковой популярностью и у тех и у других; третью – выбирает половина мужчин, но и половина женщин; четвертую не любят ни те, ни другие и т.д. Итак, мы делаем вывод: независимость признаков означает пропорциональность столбцов (строк; с помощью несложиных арифметических выкладок можно показать, что пропорциональность столбцов эквивалентна пропорциональности строк) исходной частотной таблицы. Заметим, что в случае пропорциональности “внутренних” столбцов таблицы сопряженности, эти столбцы будут пропорциональны также и столбцу маргинальных сумм по строкам. То же – и для случая пропорциональности строк они будут пропорциональны и строке маригинальных сумм по столбцам.
Приведенная частотная таблица получена эмпирическим путем, является результатом изучения выборочной совокупности респондентов. Вспомним, что в действительности нас интересует не выборка, а генеральная совокупность. Из математической статистики мы знаем, что выборочные данные никогда стопроцентно не отвечают “генеральным”. Любая, самая хорошая выборка всегда будет отражать генеральную совокупность лишь с некоторым приближением, любая закономерность будет содержать т.н. выборочную ошибку, случайную погрешность. Учитывая это, мы, вероятно, будем полагать, что, если столбцы выборочной таблицы сопряженности мало отличаются от пропорциональных, то такое отличие скорее всего объясняется именно выборочной погрешностью и вряд ли говорит о том, что в генеральной совокупности наши признаки связаны. Так мы проинтерпретируем, например, таблицу 9 (по сравнению с таблицей 8 в ней четыре частоты изменены на единицу) и, наверное, таблицу 10 (те же частоты изменены на две единицы). А как быть с таблицей 11?
Таблица 9. Первый пример таблицы сопряженности , частоты которой мало отличаются от ситуации независимости признаков
Профессия |
Пол |
Итого |
|
1 |
2 |
|
|
1 |
17 |
3 |
20 |
2 |
19 |
1 |
20 |
3 |
45 |
5 |
50 |
4 |
0 |
0 |
0 |
5 |
9 |
1 |
10 |
Итого |
90 |
10 |
100 |
Таблица 10. Второй пример таблицы сопряженности, частоты которой сравнительно мало отличаются от ситуации независимости признаков
Профессия |
Пол |
Итого |
|
1 |
2 |
|
|
1 |
16 |
4 |
20 |
2 |
20 |
0 |
20 |
3 |
45 |
5 |
50 |
4 |
0 |
0 |
0 |
5 |
9 |
1 |
10 |
Итого |
90 |
10 |
100 |
Таблица 11. Пример таблицы сопряженности, частоты которой значительно отличаются от ситуации независимости признаков
Профессия |
Пол |
Итого |
|
1 |
2 |
|
|
1 |
15 |
5 |
20 |
2 |
20 |
0 |
20 |
3 |
46 |
4 |
50 |
4 |
0 |
0 |
0 |
5 |
9 |
1 |
10 |
Итого |
90 |
10 |
100 |
Общая идея здесь ясна: сильное отклонение от пропорциональности заставляет нас сомневаться в отсутствии связи в генеральной совокупности, слабое отклонение говорит о том, что наша выборка не дает нам оснований для таких сомнений. Но насколько сильным должно быть указанное отклонение для того, чтобы описанные сомнения возникли?
Н аука не дает точного ответа. Она предлагает нам лишь такой его вариант, который формулируется в вероятностных терминах. Этот ответ можно найти в математической статистике. Чтобы его воспринять, необходимо взглянуть на изучаемую связь, опираясь на своеобразное математико-статистическое видение мира. Опишем соответствующие рассуждения в следующем параграфе. Сразу скажем, что эти рассуждения типичны для математической статистики – речь идет об одной из основных решаемых ей задач – проверке статистической гипотезы.