- •Ю.Н.Толстова
- •Isbn 5-89176-086-x10
- •Isbn 5-89176-086-x10 Содержание
- •Часть 1. Что такое анализ социологических данных? (методологический аспект)
- •Часть 2. Описательная статистика. Изучение связи между номинальными признаками
- •Введение
- •Часть 1. Что такое анализ данных? (Методологический аспект)
- •1. Поиск статистических закономерностей как основная цель, стоящая перед эмпирической социологией. Роль анализа данных в ее достижении
- •1.1. Эмпирическая основа для изучения социальных явлений
- •1.2. Понятие статистической закономерности. Роль статистических и нестатистических закономерностей в эмпирической социологии
- •1.3. Проблема соотнесения формального и содержательного при формировании представлений о закономерности в социологии
- •Формирование и операционализация понятий при анализе данных (на условном примере)*
- •1.4. Статистическая закономерность как результат "сжатия" исходных данных
- •1.5. Основные цели анализа данных
- •2. Математические методы как средство познания социальных явлений
- •2.1. Роль математизации научного знания
- •2.2. Априорная модель изучаемого явления. Эмпирическая и математическая системы.
- •2.3. Основные цели применения математических методов в социологии
- •3. Актуальность для социологии задач, решаемых математической статистикой
- •3.1. Основные задачи математической статистики с позиции потребностей социологии
- •3.2. Случайные величины и распределения вероятностей как основные объекты изучения математической статистики и эмпирической социологии
- •4. Математическая статистика и анализ данных: линия размежевания
- •4.1. Проблема соотношения выборки и генеральной совокупности.
- •4.2. Отсутствие строгих обоснований возможности применения конкретных методов математической статистики. Эвристичность многих алгоритмов анализа данных
- •4.3. Использование шкал низких типов
- •5. Специфика использования методов анализа данных в социологии
- •5.1. Необходимость соотнесения модели, "заложенной" в методе, с содержанием задачи
- •5.2. Связь разных этапов исследования друг с другом
- •5.3. Другие методологические принципы анализа социологических данных
- •Примечания к части I.
- •Часть 2. Описательная статистика. Измерение связи между номинальными признаками
- •1. Описательная статистика.
- •1.1. Одномерные частотные распределения.
- •1.1.1. Представление одномерной случайной величины в выборочном социологическом исследовании. Стоящие за ним модели
- •Пример таблицы сопряженности при наличии связи между признаками х и y
- •1.1.2. Проблема разбиения диапазона изменения признака на интервалы
- •1.1.3.Кумулята
- •1.1.4. Проблема пропущенных значений
- •1.2. Меры средней тенденции и отвечающие им модели
- •1.3. Меры разброса и отвечающие им модели
- •1.3.1. Необходимость введения мер разброса
- •1.3.2 Дисперсия. Квантильные размахи
- •1.3.3. Интуитивное представление о разбросе значений номинального признака.
- •1.3.4. Мера качественной вариации.
- •1.3.5. Определение энтропии. Ее “социологический” смысл. Энтропийный коэффициент разброса
- •2. Анализ связей между номинальными признаками
- •2.1. Анализ номинальных данных как одна из главных задач социолога
- •2.1.1. Роль номинальных данных в социологии
- •2.1.2. Соотношение между причинно-следственными отношениями и формальными методами их изучения
- •2.1.3. О понятии таблицы сопряженности.
- •Общий вид таблицы сопряженности
- •2.2. Классификация задач анализа связей номинальных признаков
- •2.2.1. Диалектика в понимании признака и его значений.
- •2.2. Классификация рассматриваемых задач и отвечающих им методов
- •2.2.3. Выделение двух основных групп методов анализа номинальных данных. Место рассматриваемых подходов в этой группировке
- •2.3. Анализ связей типа "признак-признак"
- •2.3.1. Коэффициенты связи, основанные на критерии "хи-квадрат"
- •2.3.1.1. Понимание отсутствия связи между признаками как их статистической независимости.
- •Пример таблицы сопряженности для двух независимых признаков
- •Второй пример таблицы сопряженности, частоты которой сравнительно мало отличаются от ситуации независимости признаков
- •2.3.1.2. Функция "Хи-квадрат" и проверка на ее основе гипотезы об отсутствии связи
- •2.3.1.3. Нормировка значений функции "Хи-квадрат”.
- •2.3.2. Коэффициенты связи, основанные на моделях прогноза
- •2.3.2.1. Выражение представлений о связи через прогноз
- •2.3.2.2. Коэффициенты, основанные на модальном прогнозе
- •Пример частотной таблицы, использованный для расчета коэффициента r
- •2.3.2.3. Общее представление о пропорциональном прогнозе
- •2.3.3. Коэффициенты связи, основанные на понятии энтропии
- •2.3.3.1. Условная и многомерная энтропия
- •2.3.3.2. Смысл энтропийных коэффициентов связи. Их формальное выражение
- •2.3.4. Коэффициенты связи для четырехклеточных таблиц сопряженности. Отношения преобладаний
- •2.3.5. Проблема сравнения коэффициентов связи
- •2.3.6. Учет фактической многомерности реальных связей. Многомерные отношения преобладаний
- •Актуальность многомерных связей в социологии.
- •Многомерные отношения преобладаний.
- •2.4. Связь типа "альтернатива-альтернатива"
- •2.4.1. Смысл локальной связи . Возможные подходы к ее изучению
- •2.4.2. Детерминационный анализ (да). Выход за пределы связей рассматриваемого типа
- •2.5. Анализ связей типа "группа альтернатив - группа альтернатив" и примыкающие к нему задачи
- •2.5.1. Классификация задач рассматриваемого типа
- •2.5.2. Анализ фрагментов таблицы сопряженности.
- •Разложение таблицы 20 на подтаблицы
- •Четырехклеточная таблица, получающаяся в результате деления диапазона изменения каждого признака на две части с помощью рассматриваемого алгоритма
- •2.5.3. Методы поиска сочетаний значений независимых признаков (предикторов), детерминирующих "поведение" респондентов
- •2.5.3.1. Понятие зависимой и независимых переменных. Общая постановка задачи.
- •2.5.3.2. Алгоритм thaid
- •2.5.3.3. Алгоритм chaid
- •2.5.4. Методы да, thaid, chaid с точки зрения поиска обобщенных взаимодействий
- •2.5.5. Поиск логических закономерностей: элементы исчисления высказываний; понятие закономерности; алгоритм поиска; его сравнение с да.
- •Элементы исчисления высказываний.
- •Логические закономерности, характеризующие заданный класс объектов.
- •Сравнение рассмотренного алгоритма с да.
- •2.5.6. Поиск логических закономерностей и теория измерений. Элементы узкого исчисления предикатов
- •Описание языка узкого исчисление предикатов
- •Интересующие социолога закономерности как формулы узкого исчисления предикатов
- •Вид искомых аксиом
- •2.6. Анализ связей типа "признак - группа признаков": номинальный регрессионный анализ (нра)
- •2.6.1. Общая постановка задачи
- •2.6.2. Повторение основных идей классического регрессионного анализа, рассчитанного на т. Н. "количественные" признаки
- •2.6.3. Дихотомизация номинальных данных. Обоснование допустимости применения к полученным дихотомическим данным любых "количественных" методов
- •2.6.4. Общий вид линейных регрессионных уравнений с номинальными переменными. Их интерпретация
- •2.6.5. Типы задач, решаемых с помощью нра. Краткие сведения о логит- и пробит- моделях регрессионного анализа
- •Приложения к части II Приложение I Разные способы расчета медианы и предполагаемые ими модели
- •Приложение 2 Схемы, иллюстрирующие предложенные в п. 2.2.2 и 2.2.3
- •Использованная в книге классификация рассмотренных методов анализа связей
- •Классификация рассмотренных методов на базе предположений о существовании латентных переменных.
- •Предметный указатель
- •Литература
Приложения к части II Приложение I Разные способы расчета медианы и предполагаемые ими модели
Опишем разные способы расчета медианы на примере.
Предположим, что для 10 школьников значения коэффициента IQ, определенные с помощью шкалы интеллекта Стенфорда-Бине, оказались равными:
113, 120, 119, 115, 122, 126, 120, 112, 120, 119.
Известно, что значением коэффициента может быть любое целое число от 0 до 150. Покажем, каким способами можно рассчитать медиану этого распределения.
Прежде всего необходимо определить тип используемой шкалы. Учитывая, что множество шкальных значений велико и что пороги различимости различий между соседними шкальными значениями для человека (и для респондента, и для социолога) достаточно велики, будем считать, что равенства типа 128-127=113-112 отражают реальность. Поэтому будем считать шкалу интервальной (полагаем очевидным то, что отношения равенства и порядка между шкальными значениями тоже отражают одноименные эмпирические отношения).
Способ расчета медианы и, как следствие, получаемое значение искомой величины определяется модельными соображениями, интерпретацией исходных данных (связанной в первую очередь с нашими представлениями о порождении данных и о соотнесении выборки и генеральной совокупности). Рассмотрим возможные варианты.
а) Выборка – это и есть генеральная совокупность. Кроме названных чисел у нас в принципе ничего нет. Тогда медиану целесообразно найти с помощью вариационного ряда:
112, 113, 115, 119, 119, 120, 120, 120, 122, 126
Ме = 119,5
В таком случае естественной будет следующая функция распределения.
Рис. 1. Вид функции распределения при отождествлении выборки с генеральной совокупности
Однако более отвечающей реальности (хотя и опирающейся на непроверяемые модельные соображения) представляется другая функция распределения. В ее основе лежат два предположения. Первое состоит в том. что, вообще говоря, в качестве значения нашей переменной может служит любое действительное число из рассматриваемого диапазона. Подчеркнем, что здесь фактически две посылки: первая состоит в том, что в принципе нам могут встретиться любые целочисленные значения; против нее вряд ли кто-либо будет возражать; вторая же – говорит о возможности встретить нецелочисленные значения. Последняя посылка обычно по вполне понятным причинам вызывает сомнения. Принять ее – значит полагать, что в принципе измеряемая переменная непрерывна, что к ее дискретности приводит несовершенство используемого способа измерения и отсутствие более адекватных измерительных алгоритмов. После принятия указанного предположения функцию распределения естественно представлять следующим образом (отрезки построенной ломаной линии соединяют левые концы стрелок с предыдущего рисунка).
Второе предположение есть предположение о постепенности, равномерности накопления объектов в каждом заданном выборкой интервале. Так, если в процессе построения графика накопленных частот (выборочного аналога функции распределения) в точке Х = 115 у нас “накопилось” 30% объектов, а в точке 119 – уже 50%, то мы считаем, что 20% объектов, попавших в интервал (115, 119), равномерно распределены в этом интервале и что, вследствие этого, соответствующий фрагмент функции распределения есть отрезок прямой, соединяющий точки (115, 30) и (119, 50). Заметим, что здесь у нас не встает вопрос о том, к какому из двух соседних интервалов относить точку их “стыка”.
Медиана в таком случае находится традиционным способом, отраженном на рисунке. Заметим, что в рассматриваемой ситуации она равна 119 (а не 119,5, как выше).
Рис. 2. Вид функции распределения при предположениях (а) о непрерывности рассматриваемой случайной величины и (б) равномерном накоплении единиц совокупности в каждом заданном выборкой интервале. Ме = 119
На деле социолог обычно пользуется еще более сильным предположением. А именно, при высказанных выше предположениях он задает некоторое разбиение диапазона изменения рассматриваемого признака на интервалы (о встающих здесь проблемах мы говорили в п. 1.1.2) и полагает, что в действительности для него при рассмотрении какого-либо конкретного объекта имеет смысл не то, какое именно значение признака этому объекту отвечает, а то, в какой интервал это значение попадает. При построении выборочного представления функции распределения доля объектов, отвечающих какому-либо интервалу, откладывается, вообще говоря, от любой точки последнего. На следующих двух рисунках отражены наиболее распространенные варианты: на первом – указанная доля откладывается от середины интервала, на втором – от его правого конца. Значения медиан обозначены на рисунках.
Рис. 3. Вид функции распределения при предположениях (а) о непрерывности рассматриваемой случайной величины и (б) заданном априори разбиении на интервалы диапазона ее изменения; (в) отнесении точки “стыка” двух интервалов направо; (г) равномерном накоплении единиц совокупности в промежутке от середины одного интервала до середины другого. Ме = 117,5.
Рис. 4. Вид функции распределения при предположениях (а) о непрерывности рассматриваемой случайной величины и (б) заданном априори разбиении на интервалы диапазона ее изменения; (в) отнесении точки “стыка” двух интервалов направо; (г) равномерном накоплении единиц совокупности в каждом интервале. Ме = 119