Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Основы анализа данных.docx
Скачиваний:
21
Добавлен:
06.06.2015
Размер:
125.53 Кб
Скачать

Основы анализа данных

    1. Логика построения количественного исследования, место статистических моделей и процедур в социологическом исследовании.

Термин «количественный подход» в социологическом исследовании подчеркивает специфику его формы – прежде всего математической формы представления знания. Результаты количественных исследований представляются, как правило, в виде шкал, таблиц, гистограмм, а их содержание выражается в процентах и коэффициентах. В фокусе количественных исследований – общественные структуры, как надындивидуальные объективные образования, детерминирующие жизнь людей. В качестве объекта - определенные социальные общности (группы). Одна из основных задач количественного соц исследования — состоит в определении причин и следствий. К количественным методам исследования относятся: социологический опрос,контент анализ документов,метод интервью,наблюдениеи эксперимент. Особую группу методов составляют методы математической статистики. Они позволяют осуществлять анализ и интерпретацию первичной социологической информации, а также верифицировать уже полученные данные. В большинстве социологических исследований анализируется анкетная информация. Условно эти данные можно представить в виде матрицы, строкам которой соответствуют объекты (анкеты), а столбцам - признаки (отдельные вопросы и подвопросы анкеты). Термины «признак» и «переменная» являются синонимами.

    1. Понятие выборочной и генеральной совокупности. Параметры генеральной совокупности, оценки этих параметров на выборочной совокупности. Распространение выводов, сделанных на выборочной совокупности, на генеральную совокупность: основания, ограничения.

Множество элементов, составляющих объект исследования, называют генеральной совокупностью (ГС). Наиболее простым, на первый взгляд, способом сбора данных является сплошное обследование ГС. Однако применение сплошного обследования не всегда представляется возможным. В этом случае применяется выборочное обследование. Суть выборочного метода - обследованию подвергается только часть элементов ГС, которая называется выборочной совокупностью (ВС). Выборочной совокупностью (выборкой) называют совокупность случайно отобранных объектов.

Развитие теории вероятностей позволило теоретически обосновать возможность применения выборочного метода. В основе теоретического обоснования выборочного метода лежит закон больших чисел. Физический смысл этого закона: «при очень большом числе случайных явлений средний их результат практически перестает быть случайным и может быть предсказан с большой степенью определенности».

Использование выборки дает достаточно точное представление о генеральной совокупности, но всегда принято говорить о допустимой погрешности в полученных результатах (3-5%). Качество выборки зависит:

- от меры однородности объектов генеральной совокупности по наиболее важным характеристикам (например, уровень дохода в большинстве маркетинговых исследований);

- от количества различных социальных групп в изучаемой аудитории (исследование среди топ-менеджеров будет провести проще, чем полноценное исследование общественного мнения по тому или иному вопросу);

- от требуемого уровня надежности результатов.

Основными параметрами генеральной совокупности являются математическое ожидание (генеральная средняя) М(Х) и среднее квадратическое отклонение s. Это постоянные величины, которые можно оценить по выборочным данным. Оценка генерального параметра, выражаемая одним числом, называется точечной.

Точечной оценкой генеральной средней (мат ожид) является выборочное среднее .

Выборочным средним называется среднее арифметическое значение признака выборочной совокупности. Если все значения x1, x2,..., xn признака выборки различны (или если данные не сгруппированы), то:

Если же все значения признака x1, x2,..., xn имеют соответственно частоты n1, n2,..., nk, причем n1 + n2 +...+ nk = n (или если выборочное среднее вычисляется по вариационному ряду), то

В том случае, когда статистические данные представлены в виде интервального вариационного ряда, при вычислении выборочного среднего значениями вариант считают середины интервалов.

Выборочное среднее является основной характеристикой положения, показывает центр распределения совокупности, позволяет охарактеризовать исследуемую совокупность одним числом, проследить тенденцию развития, сравнить различные совокупности (выборочное среднее является той точкой, сумма отклонений наблюдений от которой равна 0).

Для оценки степени разброса (отклонения) какого-то показателя от его среднего значения, наряду с максимальным и минимальным значениями, используются понятия дисперсии и стандартного отклонения.

Дисперсия выборки или выборочная дисперсия (от английского variance) – это мера изменчивости переменной. Выборочной дисперсией Dв называют среднее арифметическое квадратов отклонения наблюдаемых значений признака от их среднего значения . Дисперсия меняется от нуля до бесконечности. Крайнее значение 0 означает отсутствие изменчивости, когда значения переменной постоянны.

Среднее квадратическое отклонение (стандартное отклонение), (от английского standard deviation) вычисляется как корень квадратный из дисперсии. . Чем выше дисперсия или стандартное отклонение, тем сильнее разбросаны значения переменной относительно среднего.

Непараметрическими характеристиками положения являются мода и медиана.

Модой Mo называется варианта, имеющая наибольшую частоту или относительную частоту.

Медианой Me называется варианта, которая делит вариационный ряд на две части, равные по числу вариант. При нечетном числе вариант (n=2k+1) Me = xk+1, а при четном числе вариант (n=2k) Me = (xk + xk+1)/2.

    1. Исследовательские и статистические гипотезы. Понятие нулевой и альтернативной статистической гипотезы. Логика проверки гипотез: понятие статистического критерия, две основные характеристики статистического критерия: величина и достоверность. Понятие уровня значимости.

Гипотеза (по Ядову) – обоснованное предположение о структуре социальных объектов, характере связи между изучаемыми явлениями и возможных подходов к решению социальных проблем.

Статистическая гипотеза – утверждение относительно неизвестного параметра генеральной совокупности на основе выборочного исследования: нулевая – гипотеза об отсутствии в генеральной совокупности различий распределений (средних) / признаки не связаны; альтернативная – о значимости различий распределений / наличие статистически значимой связи. Параметры распределения – числовые характеристики, указывающие на то, где в «среднем» располагаются значения признака, насколько эти значения изменчивы и наблюдаются ли преимущественные проявления определенных значений признака: «математическое ожидание, дисперсия, мода, медиана.

Статистический критерий — строгое математическое правило, по которому принимается или отвергается та или иная статистическая гипотеза с известным уровнем значимости. Построение критерия представляет собой выбор подходящей функции от результатов наблюдений (ряда эмпирически полученных значений признака), которая служит для выявления меры расхождения между эмпирическими значениями и гипотетическими.

Уровень значимости — допустимая для данной задачи вероятность ошибки первого рода (ложноположительного решения, false positive), то есть вероятность отклонить нулевую гипотезу, когда на самом деле она верна. Уровень значимости — это такое (достаточно малое) значение вероятности события, при котором событие уже можно считать неслучайным. Уровень значимости обычно обозначают греческой буквой  (альфа). Популярными уровнями значимости являются 10 %, 5 %, 1 %, и 0,1 %. Эмпирический – достигнутая вероятность ошибки первого рода. Критический - пороговая вероятность шибки первого рода.

Статистически значимое различие (связь) – различие (связь) настолько велика, что вероятность его возникновения вследствие простой случайности мала.

Степень свободы – количество значений в распределении, которые свободны для изменения (объем выборки, числа признаков).

Чем больше величина зависимости, тем более она надежна. Надежность – говорит о том, насколько вероятно, что зависимость будет вновь обнаружена, т.е. подтвердится на данных другой выборки, извлеченной из этой же популяции.

Статистические критерии подразделяются на следующие категории:

  • Критерии значимости. Проверка на значимость предполагает проверку гипотезы о численных значениях известного закона распределения: — нулевая гипотеза. или — конкурирующая гипотеза.

  • Критерии согласия. Проверка на согласие подразумевает проверку предположения о том, что исследуемая случайная величина подчиняется предполагаемому закону. Критерии согласия можно также воспринимать, как критерии значимости. Критериями согласия являются:

  1. Критерий Пирсона

  2. Критерий Колмогорова

  3. Критерий Крамера — Мизеса — Смирнова

  4. Z-тест

  • Критерии проверки на однородность. При проверке на однородность случайные величины исследуются на факт значимости различия их законов распределения (т.е. проверки того, подчиняются ли эти величины одному и тому же закону). Используются в факторном анализе для определения наличия зависимостей.

Это разделение условно, и зачастую один и тот же критерий может быть использован в разных качествах.