Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Зарубин В.Г. Социология.doc
Скачиваний:
4
Добавлен:
21.04.2019
Размер:
1.68 Mб
Скачать

Тема одиннадцатая Формально-математические методы прикладного социологического исследования

  1. Организация выборки.

  2. Шкалы измерения.

  3. Средние величины и показатели вариации количественного признака.

  4. Графическое изображение рядов распределения.

  5. Нормированные оценки.

  6. Нормальное распределение.

Проведение прикладного социологического исследования включает в качестве основного элемента аппарат формально-математических методов.

1. Организация выборки.

Прикладное социологическое исследование начинается с формулирования гипотезы. Гипотеза представляет собой предположение о степени выраженности того или иного свойства или о связи тех или иных свойств у некоторой совокупности объектов. Гипотеза нуждается в эмпирической проверке. Проверка предполагает измерение изучаемого свойства у объектов – носителей этого свойства. Как правило, измерить исследуемое свойство у всех объектов невозможно – их число слишком велико. Поэтому при проведении исследования ограничиваются лишь небольшой группой представителей – выборкой.

  • Генеральная совокупность – множество всех объектов, относительно которых формулируется исследовательская гипотеза. Число элементов генеральной совокупности называется объемом генеральной совокупности и обычно обозначается N.

  • Выборка – это группа элементов генеральной совокупности, отобранная для измерения изучаемого свойства. Число элементов этой группы называется объемом выборки и обозначается n.

  • Выборка должна быть такой, чтобы выводы, полученные при ее изучении, можно было распространить на генеральную совокупность, она должна быть представительной (представлять генеральную совокупность), или, что, то же самое, она должна быть репрезентативной.

  • Репрезентативность выборки обеспечивается соблюдением двух предъявляемых к ней требований. Первое касается ее объема, второе – способа ее организации.

Правила формирования объема выборки:

  • Есть формулы, позволяющие определить объем выборки заранее, до начала исследования. Однако далеко не всегда ими можно воспользоваться (в этих формулах присутствует величина дисперсии, а она, как правило, до начала исследования неизвестна). Строгих рекомендаций по предварительному определению объема выборки не существует. Многое зависит от цели исследования и степени важности результата.

  • Если речь идет о диагностике и прогнозировании, то традиционным объемом выборки в социологии считается от 500 до 1000-1500 человек.

  • Для сравнения двух выборок их общая численность должна быть не менее 50 человек, и выборки должны быть приблизительно равны по объему.

  • При изучении взаимосвязи между какими-либо свойствами объем выборки должен быть 35-50 человек.

Способы организации выборки:

  • Организация выборки должна обеспечить всем элементам генеральной совокупности равные шансы попасть в выборку. Если это требование выполнено, выборка называется случайной.

  • При составлении выборки можно поступать двояко; после того, как объект отобран, и исследуемое свойство измерено, он может быть возвращен или не возвращен в генеральную совокупность.

  • Повторной называют выборку, при формировании которой отобранный для исследования элемент перед отбором следующего возвращается в генеральную совокупность.

  • Бесповторной называют выборку, при формировании которой отобранный элемент в генеральную совокупность не возвращается. Формулы, используемые при вычислении статистических коэффициентов при повторной и бесповторной выборке, несколько отличаются (первые – легче), но при большом объеме генеральной совокупности и при большом объеме выборки разница между ними стирается.

Способы формирования выборки.

  • Наиболее распространенный способ формирования выборки – простой случайный отбор; из общего списка элементов генеральной совокупности отбирают элементы в выборку, например, жеребьевкой.

  • Другой способ формирования выборки – стратифицированный случайный отбор – отбор по свойствам генеральной совокупности. Исследователь заранее определяет качества, влияющие на изучаемые свойства (пол, возраст, образование), и вычисляет процентное соотношение численности групп (страт) в генеральной совокупности, различающихся по этим свойствам. Все группы должны присутствовать в выборке с тем же процентным соотношением их численности. Поэтому заранее определяется численность каждой группы, а дальше в каждую группу подбираются испытуемые по принципу простого случайного отбора.

2. Шкалы измерения

  • Измерение – это приписывание объектам числовых характеристик по определенным правилам. Результат измерения (число) называют показателем, значением признака, значением переменной.

В зависимости от того, какие свойства объектов изучаются, они могут быть измерены при помощи четырех типов шкал.

  • Номинативная шкала (шкала наименований) классифицирует объекты по названию (по полу, национальности, месту проживания). Номинативная шкала позволяет распределить все объекты выборки по ячейкам – классам. Для удобства обработки данных при обозначении классов можно использовать числа (например, мужской пол - 1, женский – 2). При этом необходимо помнить, что числовая характеристика класса носит чисто условный характер и не имеет никакого отношения к степени выраженности изучаемого свойства.

  • Порядковая шкала классифицирует объекты по принципу «больше - меньше». Как и номинальная, порядковая шкала распределяет объекты по классам, но здесь классы упорядочены по степени выраженности свойства. Каждому классу приписывается число – ранг, и степень выраженности свойства объекта определяется его рангом. В порядковой шкале должно быть не менее трех классов – рангов. Например, на вопрос, согласны ли Вы с тем или иным утверждением, можно предложить три варианта ответа: «согласен», «согласен с оговорками», «не согласен». Обычно ранг 1 приписывается объектам с самой низкой степенью выраженности свойства («не согласен»).

Основным недостатком порядковой шкалы является то, что по рангам нельзя определить количественную оценку различий. Например, два испытуемых, выбравших вариант ответа «согласен с оговорками», могут по данному вопросу отличаться более существенно, чем испытуемые, выбравшие варианты «согласен с оговорками» и «не согласен». Этот недостаток порядковой шкалы можно несколько уменьшить, увеличив число рангов (например, можно добавить варианты «полностью согласен» и «категорически не согласен»), однако шкала с большим количеством рангов имеет свои недостатки.

  • Интервальная шкала классифицирует объекты по принципу «больше на определенное число единиц – меньше на определенное число единиц». Интервальная шкала имеет единицу измерения, например, один балл (при измерении качества выполненного задания), один градус (при измерении температуры). Отличительная особенность интервальной шкалы – произвольность выбора нулевой точки. Это исключает возможность определять, во сколько раз или на сколько процентов измеряемое свойство у одного объекта выражено сильнее, чем у другого.

Наиболее естественным примером интервальной шкалы является шкала измерения температуры (по Цельсию) – термометр. Здесь нуль градусов – это совсем не отсутствие тепла, это условный ноль, ноль по договоренности. И если вчера температура воздуха была 10, а сегодня – 30, то это вовсе не значит, что сегодня в три раза теплее, чем вчера.

  • Шкала равных отношений (или просто шкала отношений) классифицирует объекты пропорционально степени выраженности измеряемого свойства. Эта шкала предполагает наличие абсолютного нуля. Поэтому шкалы отношений используют обычно для измерения физических величин – расстояния, скорости, веса. Свойства, присущие человеку, вряд ли можно измерять по шкале отношений. Нельзя ведь сказать; «Иванов в два раза честнее, чем Сидоров», или: «кандидатура Иванова в полтора раза больше подходит на должность директора, чем кандидатура Петрова».

  • В социологии шкалу отношений используют при измерении количественных признаков: число детей в семье, стаж работы, время проживания в данном населенном пункте. Кроме того, шкала отношений используется для работы со статистическим материалом: при подсчете числа объектов, обладающих (или не обладающих) тем или иным свойством, при сравнении числа объектов в разных классах.

  • От того, по какой шкале измерен изучаемый признак, зависит выбор статистических коэффициентов для проверки гипотезы. Поэтому очень важно определить шкалу измерения.

Шкала наименований и порядковая шкала при решении этого вопроса не вызывают сомнений. Что же касается интервальной шкалы и шкалы отношений (их называют метрическими), то здесь даже у опытного исследователя могут возникнуть сомнения.

Предположим, мы определяем уровень зарплаты работников некоторого предприятия (в рублях). У этой шкалы нет абсолютного нуля (нет работников, не получающих зарплату), а это – признак интервальной шкалы.

Однако одна и та же разница, скажем в три тысячи рублей, в одних случаях считается существенной (например, между зарплатами семь и десять тысяч), в других – незначительной (семьдесят и семьдесят три тысячи). Здесь удобнее было бы говорить о разнице в процентах, а это – признак шкалы отношений.

3. Средние величины и показатели вариации количественного признака.

  • Пусть некоторый признак у элементов выборки объема n измерен по метрической шкале, и при этом получен набор значений x1, x2, …,xk. Будем для определенности считать, что x1< x2<… < xk . Пусть значение x1,встречается у элементов выборки n1 раз, x2 n2 раз, …, xk - nk раз. Числа n1, n2,…,nk называются эмпирическими частотами. Ясно, что

  • Перечень всех значений признака с их эмпирическими частотами называется дискретным рядом распределения.

Пусть дискретный ряд распределения зарплаты работников предприятия (в тысячах рублей) имеет вид:

xi

12

13

14

20

24

ni

2

9

6

5

3

  • В этом ряду значение 13 наблюдается чаще, чем любое другое, его эмпирическая частота 9. Значение с максимальной эмпирической частотой называется модой данного ряда. Для рассматриваемого ряда мода равна 12. Понятие моды можно использовать и для номинальной шкалы.

  • В рассматриваемом примере объем выборки равен 25. Если все 25 наблюдаемых значений выписать в виде неубывающей последовательности, то получится полный вариационный ряд. Середина этого ряда (тринадцатое место) придется на число 14. Половина значений меньше или равны этому значению, половина – больше или равны ему. Значение, обладающее таким свойством, называется медианой ряда распределения. Если полный вариационный ряд имеет четное число членов, то его середина придется на границу между двумя значениями. В таком случае медианой называют среднее арифметическое этих граничных значений.

  • Средней (или средневзвешенной) ряда распределения называется среднее арифметическое значение этого ряда:

Здесь xi и ni – как и выше, значения признака и соответствующие им эмпирические частоты, n – объем выборки.

Для рассматриваемого ряда

Мода, медиана, средняя, - это средние величины ряда распределения. Чаще всего используется последняя из них. Однако в некоторых случаях мода и медиана являются более точными и естественными характеристиками. Например, если речь идет об уровне заработной платы работников крупного предприятия, и разброс зарплат высок, лучшей характеристикой средней зарплаты является медиана. Если исследуется вопрос о количестве детей в семье, в качестве средней величины естественно рассматривать моду. При вычислении статистических коэффициентов в качестве средней величины практически всегда используют средневзвешенную. При большом объеме выборки и равномерном распределении мода, медиана и средняя отличаются друг от друга незначительно.

Не менее важными характеристиками ряда распределения являются показатели индивидуальных различий элементов выборки, показатели неоднородности, нестабильности. В качестве таких показателей для дискретного ряда распределения используется несколько коэффициентов.

  • Размах R определяется как разность между максимальным и минимальным значениями признака:

R=xk-x1

Для нашего ряда размах равен 24-12=12 тысяч рублей.

Размах очень удобен для вычисления, но используется редко: он зависит только от крайних значений и мало характеризует ряд в целом.

  • Среднее абсолютное отклонение ряда d определяется следующей формулой:

где xi и ni – значения признака и их эмпирические частоты, - средняя, n - объем выборки.

Для нашего ряда

При вычислении статистических характеристик ряда распределения обычно используются такие показатели вариации как дисперсия и стандартное отклонение.

  • Дисперсия признака – это средний квадрат всевозможных отклонений значений xi от средней:

При вычислении статистических коэффициентов, для расчета которых используется дисперсия, ее значение находят по формуле, несколько отличающейся от предыдущей:

Это число обычно называют несмещенной оценкой дисперсии, оно более точно выражает нестабильность генеральной совокупности относительно изучаемого признака. При большом объеме выборки разница между формулой дисперсии и формулой ее несмещенной оценки стирается.

  • Стандартное или, что, то же самое, среднеквадратичное отклонение определяется как арифметический квадратный корень из дисперсии:

При статистической обработке материала используют обычно несмещенную оценку стандартного отклонения (под знаком квадратного корня – несмещенная оценка дисперсии).

На практике и в теоретических исследованиях стандартное отклонение используется чаще, чем дисперсия. Дело в том, что стандартное отклонение измеряется в тех же единицах, что и сам признак, дисперсия же – в квадратных единицах.

Для нашего ряда

S=4,04

На практике для вычисления дисперсии используется формула:

Ее справедливость легко доказать, используя определение дисперсии. Здесь - средний квадрат, – квадрат средней.

Для нашего ряда

= =268,5

Расхождение (0,02) с вычисленным по определению значением дисперсии появилось в связи с округлением величин, и это расхождение несущественно.

4. Графическое изображение рядов распределения

Даже на самой начальной стадии работы исследователя не так интересует, сколько раз наблюдается значение xi, как, насколько часто оно встречается в общем ряду наблюдений.

  • Эта величина характеризуется относительной частотой значения xi, или, что, то же самое, статистической вероятностью появления этого значения:

где -эмпирическая частота значения , n – объем выборки.

  • Перечень наблюдаемых на выборке значений и их относительных частот называется статистическим рядом распределения признака.

Сумма относительных частот статистического ряда равна 1:

Статистический ряд распределения, заданного таблицей дискретному ряду, выглядит следующим образом:

xi

12

13

14

20

24

ni

0,08

0,36

0,24

0,20

0,12

  • Статистический ряд удобно изображать графически: по оси абсцисс откладывают значения xi, по оси ординат – их относительные частоты ni. Полученные точки соединяют ломаной линией, которая называется полигоном распределения. На рисунке изображен полигон распределения данного ряда.

рис

  • При работе со статистическим материалом может получиться очень длинный дискретный ряд распределения, работать с таким рядом неудобно. В таких случаях целесообразно объединить близкие по величине значения признака в группы – интервалы. Число значений, попавших интервал, называется эмпирической частотой данного интервала.

  • Относительной частотой интервала называется отношение его эмпирической частоты к общему числу наблюдений (к объему выборки). Перечень интервалов и их относительных частот называется статистическим интервальным рядом распределения.

При разбиении шкалы на интервалы необходимо заранее решить вопрос о числе интервалов и длине каждого из них. Решение того и другого вопроса зависит от специфики исследования, от того, что представляет собой исследуемый признак (возраст, уровень зарплаты, число детей в семье). Каждый раз эти вопросы решаются по-разному. Однако есть общие рекомендации, которые следует иметь ввиду. Число интервалов рекомендуется выбирать так, чтобы их было не меньше 6 и не больше 20. Если эмпирическая частота некоторого интервала слишком мала, то его следует объединить с соседним. Работать удобнее с интервалами одинаковой длины, но это не всегда целесообразно. В таблице распределения фиксируют только границы интервалов. В тех случаях, когда некоторое значение попало на границу двух интервалов, его относят к последующему.

Пусть распределение оценок за тест (по 100-балльной шкале) задано следующей таблицей.

Интервалы

0-30

30-50

50-60

60-70

70-80

80-90

90-95

95-100

Эмпирические частоты

50

130

240

250

180

110

30

10

Статистический интервальный ряд этого распределения имеет вид.

Интервалы

0-30

30-50

50-60

60-70

70-80

80-90

90-95

95-100

Относительные частоты

0,05

0,13

0,24

0,25

0,18

0,11

0,03

0,01

Интервальный ряд удобно изображать гистограммой. На горизонтальной оси откладываются границы интервалов. На каждом полученном отрезке (интервале) строится прямоугольник, площадь которого должна быть равна относительной частоте соответствующего интервала. Для этого необходимо, чтобы высота прямоугольника была равна отношению относительной частоты интервала к его длине.

Гистограмма рассмотренного ряда изображена следующим образом (в качестве единичного интервала здесь выбран интервал в 10 баллов).

Рис

Из построения гистограммы следует, что площадь любого ее выделенного сектора можно интерпретировать как долю наблюдений, имеющих значения в выделенной части графика.

5. Нормированные оценки

Для того, чтобы можно было сравнивать числовые характеристики распределения двух или нескольких признаков, измеренных в разных единицах, необходимо привести значения этих признаков к одной и той же единице измерения. В качестве такой единицы в социологических исследованиях принято использовать нормированную оценку, или, что, то же самое, z-оценку.

  • Нормированная оценка zi значения xi определяется следующим равенством:

Здесь - средняя, S – стандартное отклонение.

Величина (модуль zi)показывает, на сколько единиц стандартного отклонения значение xi отклоняется от среднего , а знак zi – в какую сторону от среднего значения отклоняется xi: если zi<0, то xi отклоняется в сторону меньших значений, при zi>0 – в сторону больших значений.

Если все значения xi заменить их нормированными оценками, то в полученном ряде распределения средняя будет равна 0, а стандартное отклонение – 1.

Иногда график распределения (полигон и гистограмму) строят не для относительных частот, а для нормированных оценок. Это дает возможность сравнивать два распределения совершенно различных признаков по их наглядному представлению.

Отметим, что графики одного и того же распределения, построенные для относительных частот и для нормированных оценок, имеют одну и ту же форму, они могут различаться только масштабом по осям координат.

Очевидно, что, чем короче интервалы, тем точнее гистограмма характеризует распределение. В идеальном случае, если каждый интервал содержит всего по одному значению, верхняя граница гистограммы превращается в полигон.

Рассмотрим две характеристики графика ряда распределения.

  • Асимметрия As – степень отклонения графика от симметричного вида относительно средней. Показатель асимметрии вычисляется по формуле:

Здесь zi и niz-оценка и эмпирическая частота значения xi, n –объем выборки. Для симметричного распределения асимметрия равна 0. Неравенство As>0 означает, что в распределении чаще встречаются значения, меньшие средней, As>0 – наоборот.

  • Эксцесс Ex – мера плосковершинности или остроконечности графика.

Островершинное распределение характеризуется положительным эксцессом, плосковершинное – отрицательным. Средневершинное распределение имеет нулевой эксцесс.

5. Нормальное распределение

Иногда два совершенно различных по своей природе признака имеют очень похожие графики распределения. Так как график полностью характеризует распределение, то такое совпадение оказывается весьма полезным: можно подробно изучить одно из этих распределений и обо всех свойствах другого судить по уже изученному.

Еще в XIX веке было доказано, что основные демографические показатели (продолжительность жизни, возраст вступления в брак), а также многие антропометрические признаки (рост, вес) подчинены строгой закономерности: чаще всего в распределении встречаются средние значения и близкие к ним; чем больше отклонение значения от средней, тем реже это значение встречается в общем числе наблюдений.

В дальнейшем в медицинских, психологических, социологических исследованиях было доказано, что и многие другие признаки удовлетворяют этим свойствам. Речь идет о так называемом нормальном, или, что, то же самое, гауссовом, распределении (по имени немецкого математика Гаусса, внесшего большой вклад в развитие всех разделов математики, и, в частности, математической статистики).

График нормального распределения называется нормальной кривой и выглядит следующим образом.

рис

Французский математик Муавр нашел аналитический вид функции, графиком которой является нормальная кривая:

Здесь - средняя, S - стандартное отклонение, e – основание натурального логарифма, π – число «пи».

Однако использовать эту формулу для проверки того, является ли полученное в исследовании распределение нормальным, достаточно сложно. На практике для проверки обычно используют некоторые свойства нормального распределения.

  1. Мода, медиана и средняя равны между собой (их нормированная оценка равна 0).

  2. Кривая нормального распределения симметрична относительно вертикальной прямой, проходящей через среднюю.

  3. Асимметрия и эксцесс нормального распределения равны 0.

  4. В интервале ( ) содержится 68,23% всех значений, в интервале ( – 95,44%, в интервале ( )- 99,96%.

Обычно нормальную кривую строят для нормированных оценок. В этом случае площадь фигуры, заключенной между нормальной кривой и осью абсцисс (площадь гистограммы), равна 1.

Многие важные статистические коэффициенты годятся только для нормального распределения. Поэтому, несмотря на их привлекательность использовать их следует очень осторожно – только в том случае, если уже проверено, что распределение является нормальным.

Контрольные вопросы по теме:

  • Тесты

Литература: