Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
1-42ИСиПП.docx
Скачиваний:
51
Добавлен:
11.05.2015
Размер:
3.05 Mб
Скачать

42. Основные статистические способы анализа социологических данных и области их применения.

Существует два основных класса задач, решаемых с помо­щью статистических методов анализа. Задачей дескриптивной (описательной) статистики является описание распределения переменной-признака в конкретной выборке. Методы дескрип­тивной статистики позволяют также анализировать взаимосвязь между различными переменными. Другой класс задач, связан­ный с необходимостью вывести свойства большой совокупно­сти , основываясь на имеющейся информации о свойствах вы­борки из этой совокупности, решается с помощью методов ин­дуктивной статистики,основанной на вероятностном подхо­де к принятию решений.

Представление данных

В основе статистических методов обработки, полученных в ходе исследования эмпирических данных, лежит предваритель­ное упорядочение первичных данных главным образом при по­мощи статистической группировки и составления статистиче­ских таблиц.

Распределение изучаемой совокупности на однородные группы по существенным для нее признакам называется ста­тистической группировкой.Основное назначение группировки состоит в установлении численности каждой отдельно взятой части совокупности, расчлененной в соответствии со значением определенного признака, и в изучении влияния причин и зави­симости явлений. Главным вопросом метода группировки явля­ется правильный выбор группировочных признаков.

Независимо от того, какие статистические методы и модели собирается использовать исследователь, первым шагом в анали­зе данных всегда является построение частотных распределе­нийдля каждой изучаемой переменной. Частоты могут быть абсолютными и относительными.

Как правило, для последующей статистической обработки или более наглядного представления данных отдельные значе­ния признаков объединяются в интервалы.В этом случае час­тоты соотносятся уже не с каждым отдельным значением при­знака, а с рядом значений, попадающих в определенный интер­вал. Интервальные ряды могут строиться с равными и неравными интервалами.

Для представления данных используют табличныйи гра­фическийметоды.

Построение таблицы подчинено определенным правилам. Основное содержание таблицы должно быть отражено в назва­нии. Таблицы бывают простые, групповыеи комбинационные. Простые таблицы представляют собой перечень отдельных еди­ниц совокупности с количественной характеристикой каждой из них в отдельности. В групповых таблицах содержится группи­ровка единиц совокупности по одному признаку, а в комбина­ционных — по двум и более признакам.

Частотное распределение отображается в виде диаграмм и графиков (гистограмма, полигон, кумулята). Главным достоин­ством графического изображения является его наглядность.

Самый распространенный метод графического представле­ния одномерных распределений — это гистограмма. Каждый столбик соответствует интервалу значений переменной, причем его середина совмещается с серединой данного интерва­ла. Высота столбика отражает частоту попадания наблюдавшихся значений переменной в определенный интервал.

Гистограмма распределения населения по среднедушевому доходу.

Если просто соединить между собой точки, соответствую­щие абсолютным или относительным частотам (ось ординат) для середин интервалов, получится так называемый полигон распределения.

Полигон распределения населения по среднедушевому доходу.

При построении кумуляты(рис 8.3) на оси абсцисс откла­дываются границы интервалов, а на оси ординат — накопленные частоты, соответствующие верхним границам интервалов. Кумулята позволяет бы­стро определить процент лиц, находящихся ниже или выше за­данной величины признака.

Кумулята распределения населения по стажу работы.

Меры центральной тенденции

Следующим шагом, как правило, является получение некоторых обобщающих характеристик, позволяющих глубже понять осо­бенности объекта наблюдения. Сюда относится, прежде всего, среднее значение признака, вокруг которого варьируют осталь­ные его значения. Различают несколько видов средних величин: среднее арифметическое, мода, медиана и т.д.

Среднее есть абстрактная типическая характеристика всей совокупности.

Среди всего многообразия средних практически наиболее часто используемой считается среднее арифметическое. Среднее арифметическое () есть частное от деления суммы всех зна­чений признака на их число.

Самой простой из мер центральной тенденции является мо­да (Мо). Мода—значение в совокупности наблюде­ний, которое встречается чаще всего. Для номинальных пере­менных мода — это единственный способ указать наиболее ти­пичное, распространенное значение.

В интервальном ряду (с равными интервалами) модальным является класс с наибольшим числом наблюдений. Значение моды находится в его пределах и вычисляется по формуле:

Медианойназывается значение признака у той единицы со­вокупности, которая расположена в середине ряда частотного распределения. В интервальном ряду с различными значениями частот вычисление медианы распадается на два этапа: сначала находят медианный интервал, которому соответствует первая из накопленных частот, превышающая половину всего объема со­вокупности, а затем находят значение медианы по формуле:

Целесообразность использования того или иного типа сред­ней величины зависит, по крайней мере, от следующих условий:

  • цели усреднения;

  • уровня измерения признака;

  • вычислительных соображений.

Меры колебаемости значений признаков

Для характеристики рядов распределения оказывается не­достаточным указание только средней величины данного при­знака, поскольку два ряда могут иметь, к примеру, одинаковые средние арифметические, но степень концентрации или разброса значений вокруг средней будет совершенно различной. Характе­ристикой такого разброса служат показатели колебаемости — разность между максимальным и минимальным значениями признака в некоторой совокупности (вариационный размах),а также другие показатели: среднее абсолютное отклонение, среднее квадратическое отклонение и т. п.

Среднее абсолютное отклонение (d) — это мера вариа­ции, представляющая собой среднее из абсолютных величин отклонений отдельных значений признака от среднего значения признака:

Среднее линейное и среднее квадратическое отклонение являются мерой абсолютной колебаемости признака и всегда выражаются в тех же единицах измерения, в которых выражен изучаемый признак. Это не позволяет сопоставлять между собой средние отклонения различных признаков (в случае разных еди­ниц измерения) в одной и той же совокупности, а также одного и того же признака в разных совокупностях с различными сред­ними. Чтобы иметь такую возможность, средние отклонения часто выражаются в процентах к среднему арифметическому, т.е. в виде относительных величин.

Отношение среднего линейного или среднего квадратического отклонения к среднему арифметическому называется ко­эффициентом вариации.

Очевидно, что тот из рядов имеет большее рассеяние, у ко­торого коэффициент вариации больше.

Анализ таблиц сопряженности размера 2X2

Простейшая задача о взаимосвязи возникает тогда, когда имеются два признака, каждый из которых принимает два зна­чения.

Основы корреляционного анализа

Закономерности при проявлении социально-экономических и политических процессов складываются под влиянием множе­ства причин, которые действуют одновременно и взаимосвяза­но. Изучением взаимосвязанности между несколькими величи­нами в основном занимается корреляционный анализ.

Наиболее широко известной мерой связи служит коэффи­циент корреляции Пирсона (rхy):

Коэффициент корреляции может изменяться от -1 до +1. Если он равен 0, то связь между признаками отсутствует.

После вычисления коэффициента корреляции возникает во­прос, насколько показателен этот коэффициент и не обусловле­на ли зависимость, которую он фиксирует случайными отклоне­ниями. Иначе говоря, необходимо проверить гипотезу о том, что полученное значение коэффициента корреляции значимо отли­чается от 0. Если гипотеза H0(rху=0) будет отвергнута, говорят,

что величина коэффициента корреляции статистически значима, т.е. эта величина не обусловлена случайностью, при уровне зна­чимости.

Для случая, когда n< 50, применяется критерий Стьюдента (t):

Коэффициенты ранговой корреляции (Спирмена, Кендалла) используются для измерения взаимосвязи между качественными признаками, значения которых могут быть упорядочены или проранжированы по степени убывания или нарастания данного качества у исследуемых объектов. Наиболее простым с точки зрения процедуры вычисления является коэффициент ранговой корреляции Спирмена(rs):

Величина rsтакже как и коэффициент корреляции Пирсона изменяется от -1 до +1. Значимость коэффициента корреляции Спирмена для n<100 определяется по таблице критических значений коэффициента rs, зависящего от задаваемого уровня значимости аи n. Если n>100, то критические значения на­ходятся по таблице значений критических точек стандартного нормального распределения. Наблюдаемые значения критерия вычисляются по формуле

Коэффициенты ранговой корреляции используются как ме­ры взаимозависимости между рядами рангов, а не как меры свя­зи между значениями самих переменных.

1В зависимости от уровня рассмотрения процесса под совокупным продуктом может пониматься как валовой внутренний продукт (ВВП), так и объем производимой продукции отдельной хозяйственной единицей.