Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
KL_MiMSI.doc
Скачиваний:
81
Добавлен:
10.05.2015
Размер:
2.88 Mб
Скачать

Лекция 32. Обработка данных.

 

План.

1. Цикл обработки данных. Подготовка документов к обработке на ЭВМ.

2. Поиск связей между переменными.

 

Обработка данных - сложный этап в проведении исследования.

При планировании обработки необходимо учитывать:

1. Общий объем (массив информации, то есть то количество документов, который будет поступать).

2. Количество документов в каждом массиве (если мы подразделяем всю выборочную совокупность на подмассивы).

Это обычно бывает в следующих случаях:

- если у нас разные виды инструментария. Например, анкеты для рабочих и ИТР или школьников и предпринимателей;

- если нужно выделить подмассивы по типам поселения, административным районам, предприятиям, организациям и т.д.

3. Также учитывается трудоемкость операций, которая зависит от вида и формы документов (анкет, бланков интервью и т.д.). Например, от наличия открытых вопросов и от того, была ли предусмотрена система кодирования, чаще от самой системы кодирования, т.к. практически всегда кодирование осуществляется на этапе разработки информации.

4. Число и сложность математических методов анализа,какие потребуются на этапе обработки ( построение перекрестных таблиц, индексов или рассчет коэффициентов корреляций).

5. Наличие специалистов, имеющих опыт обработки информации.

6. Количество компьютеров.

7. Сроки проведения исследования.

Весь цикл обработки можно поделить на 3 этапа:

1. Разработка логической схемы обработки и анализа информации.

Логическая схема объединяет цели исследования, методы их решения, математические и технические средства, реализующие это решение. Основные моменты схемы должны отражаться в организационно-техническом плане исследования и уточняться по мере разработки инструменитария.

В схеме обязятельно описывается перечень приемов и методов обработки информации, которые обеспечивают решение задач исследования и проверку гипотез. При этом дается методическое обоснование, почему именно применяется тот или иной метод.

2. Основные направления анализа. Планирование и разработка математического обеспечения на ЭВМ.

В настоящее время для обработки первичных данных большинством социологических служб ипользуется международная программа SPSS, которая обладает большими возможностями.

Приступая к обработке первичной информации необходимо учитывать следующее.

- если нет соответствующей программы, ее надо разработать паралельно с подготовительным этапом;

- знать, что может каждая программа.

3. Подготовка документов к обработке на ЭВМ.

Это один из самых трудоёмких этапов. Если имеются открытые вопросы, то их необходимо ”закрыть” Для этого осуществляется:

- классификация полученных ответов на открытые вопросы.

В ходе осуществляемой классификации все ответы выписываются вручную. Затем,все полученные варианты ответов на открытые вопросы сводятся к их ограниченному количеству (обычно получается не более 10-20 вариантов). Например, на открытый вопрос ”В каких аспектах семейной жизни Вам удалось себя реализовать?” могут быть получены такие ответы как: “в рождении и воспитании детей,” "родила и воспитала хороших детей", “родился ребенок” и т.д. Все приведенные варианты можно свести к одному : в рождении детей. Точно такая же работа проводится и в отношении других аспектов семейной жизни.

- затем составляется кодификатор (открытый вопрос приобретает форму закрытого).

- далее осуществляется кодирование ответов в каждом документе в соответствии с произведенной классификацией. Это можно делать и позже, после контроля на качество.

Требуется высокое качество заполнения документов. Обычно содержатся разные ошибки.

Осуществляется проверка документов по 3 направлениям:

- надежность;

- полнота;

- технологичность.

Проверка на надежность осуществляется с целью обнаружения отклонений от выборки. Проверка на полноту обязательна. Это наиболее часто встречающиеся виды отклонений. Может быть незаполненным один вопрос, несколько, часть вопросов или все. Если можно устранить эти ошибки , то их корректируют. Либо документ изымается. Для этого нужно определить критерии, которыми руководствуются. Браковка анкет осуществляется, как правило, в следующих случаях:

- если менее 30 % основных вопросов заполнено, то такие анкеты бракуются;

- когда респондент не отвечает на единичные вопросы, то отмечается позиция - “нет ответа”. Если данная позиция не предусмотрена, то она вводится дополнительно;

- если отсутствуют данные о социально-демографических характеристиках, то такая анкета также бракуется, так как дальнейший анализ становится невозможным.

Проверка на технологичность состоит во внимательном просмотре ясности, четкости, понятности, "отводки кодов". Непонятный, нечеткий почерк часто делает анкету непригодной для обработки.

Также предусмотренно, если в тех вопросах, где можно давать только один вариант ответа, два и более, то по решению, либо эти вопросы исключаются (чаще), либо первый вариант принимается, а остальные исключаются.

Все анкеты нумеруются, чтобы можно было проследить за каждой, выйти на индивидуальные оценки, относящиеся к одному и тому же респонденту и проконтролировать работу каждого анкетера или интервьюера.

Далее осущесвляется статистическая обработка. Цель ее: обобщение информации. Результаты обобщения называют социологическими данными. Затем наступает собственно обработка.

Она предполагает:

- создание формы анкеты (её “шапки”);

- набивку анкет (ввод их в соответствии с программой. Скорость, с которой осуществляется набивка анкет зависит от их объема, количество специалистов по обработке и их квалификации);

- поиск связи между переменными (при этом можно рассчитать двойные и тройные корреляции);

- графическое изображение взаимосвязи между переменными.

Переменной называется признак, который может принимать различные значения (пол, возраст, образование, удовлетворенность работой, политическая активность и т.д.). Переменные бывают зависимые и независимые. Переменная зависимая - это такая переменная, которую следует объяснить (например, удовлетворенность работой зависит от оплаты труда). Переменная независимая - сама объясняет или вызывает изменения в изучаемом явлении (оплата труда опосредует удовлетворенность работой).

После обработки можно получить:

- одномерное (линейное) распределение ( процентное соотношение ответов на все вопросы;

- статистическое распределение. Эти данные можно интерпретировать на основе логического анализа поведения, но необходимо получить глубокую информацию о связи явлений.

Основная трудность заключается в том, что социолог не всегда точно может определить истинность этих связей. При этом может получиться так называемая ложная коррекция, которая является бедствием. Поэтому необходимо помнить, что математические методы - это только формальный аппарат установления связи, но содержание связи, ее истинность и ложность может определить только исследователь, основываясь на опыте, знании и чутье.

Примерами ложной коррекции являются , например. такие как” От чего зависит количество детей помимо уровня доходов, национальности, социального положения, образования?”

- от количества книг в домашней библиотеке (чем больше книг, тем меньше детей);

- от количества выкуренных сигарет.

А голландские социологи в шутку подсчитали зависимость количества детей от количества аистов.

При подготовке заданий по рассчету кореляций обычно используются следующие знаки . Так, при записи используется знак ":". Если мы хотим, например, рассчитать корреляцию между вопросами № 13 и № 15, то запись будет выглядеть: 13:15; или 18 Х 21.

А форма записи: 13:15,17,18 означает, что исследуется связь между 13-ым вопросом и другими, следующими за ним;

А такая запись отражает то, что мы изучаем взаимосвязь переменной № 4 по варианту ответа 1 и расчитывает тройную корреляцию 4/1*(18:21).

Но парные связи фиксируют только тесноту связи. Если зависимость менее 5%, то связь считается очень слабой, и не указывают причинно-следственную зависимость.

Если мы исследуем связи трехмерные, то мы должны уяснить себе, что их смысл в том, что на тесноту взаимосвязи каких-то двух факторов, в какой-то степени определяющих ее природу, оказывает влияние третий фактор. Его иногда называют мешающим. Включение 3-го фактора было уникальным явлением для социологии.

Например. 3-й фактор - степень ответственности работников. Руководящие кадры более загружены, чем работники с меньшей ответственностью, но они находят свою работу более интересной. Но и у них удовлетворенность работой снижается, если они перегружаются. Или другой пример. Высокая текучесть связана с высоким уровнем заработной платы. Это показалось странным. Тогда ввели третий фактор - характер и содержание труда. Оказалось, что молодых рабочих чаще ставят на неквалифицированную работу.

При анализе социологических данных необходимо знать:

- исследователь всегда в процессе интерпретации оперирует 3-м фактором;

- третий фактор выступает выводом как результат исследования;

- третий фактор - наиболее общее и результирующее по отношению к 2-м исследуемым явлениям.

Обработка данных предусматривает первоначальную подготовку . Прежде всего надо осуществит кодирование.

Кодирование – процесс присвоения количественных значений.

Кодирование – средство, с помощью которого информации придаётся форма связного и продолжительного сообщения.

Кодированная информация позволяет применить математические методы, а данные позволяют выявить то, что без обращения к цифровой интерпретации могло оказаться скрытым (аналогия азбука Морзе).

Важно учитывать при кодировании определение типа переменной с точки зрения шкалы её измерения.

Коды – это ничто иное, как цифровое выражение наших операциональных определений. Они позволяют перейти к обработке и к анализу. Надо руководствоваться требованиями экономичности.

Исследователь / Источник / Цифровые коды / Обработка данных / Цифровые коды / Выводы / Читатель

Кодирование - присвоение шифра ответом. Нумерация вопроса – порядок их рассмотрения.

Код позволяет эмпирический материал трансформировать в символы, пригодные для дальнейших расчётов.

Различают три вида кодирования:

  1. Позиционное.

Например, вопрос:

Каковы ваши ожидания от реформ в России?

- Я верю в то, что реформы будут идти благополучно.

- Я в целом верю, что реформы будут идти в правильном направлении и принесут больше плюсов чем минусов.

Как вы оцениваете экономическую ситуацию в стране?

- положительно

- отрицательно

- в чём-то положительно, в чём-то отрицательно

  1. Сплошное.

С какими из следующих утверждений вы согласны?

- демократия не может существовать вне закона.

Значения 001; 002; 003 и т. д. В таблицу либо ставится номер вопроса, либо не ставится и порядок не изменяется

Оставляют шифр для свободных ответов. Последний шифр для не -ответивших.

Т.е. коды неверно передают значения

Позиционные 11; 1; 2

Порядковое 3; 001; 002; 003

3. Смешанное - используется, если есть табличные данные. Таблица включает несколько вопросов.

При этом необходимо учитывать:

а) Достаточно ли шифров зарезервировано для открытых вопросов?

б) Есть ли кодификатор выделенные группы формализованных ответов для открытых вопросов?

в) Нет ли повторов шифров?

г) Нет ли пропусков или скачков шифров в ответах на один вопрос?

При помощи компьютерных программ мы можем осуществлять многие операции по обработке, но составление таблиц – удел человека.

Исследователь после набивки анкет получает распределение мнений в абсолютных значениях и в процентах.

Простейший вид таблицы – одномерные.

Пример: Участвовали ли вы в выборах в областную думу?

Участие в выборах

В % к числу опрошенных

1

Да

56

2

Нет

21

3

Отказ отвечать

23

Эту таблицу можно записать и так

Участие в выборах

В % к числу опрошенных

Участвовали

56

Не участвовали

21

Отказались отвечать

23

Ценность одномерных таблиц состоит в описании, но они ещё не содержат результатов анализа. Таблицы надо комментировать:

- Результаты опросов в большинстве случаев выражены в процентах, а не в абсолютных значениях.

Проценты дают возможность выявить относительную величину двух и более чисел.

1. Выражение х % числа можно легко умножать и делить (Проценты, это, как правило, числа <|100|)

2. При этом одно из чисел – базовое превращается в 100 – число которое делится само и на которое легко делить другие числа

К процентам обращаются и тогда, когда необходимо сравнить два и более числа. Процент яснее показывает различия между регионами, категориями населения и т.д.

Но если объём выборки невелик, то лучше использовать абсолютные значения.

Например: 30 человек на 10% к 3 человекам.

Лишь при сравнении количественных результатов они имеют смысл.

Пример:

а) 1000 чел. – голосовали за Буша из всех опрошенных избирателей;

б) 10000 чел. – величина выборки.

И а) и б) не говорят ни о чём, а С/Ш М/Д этими числами даёт некоторые и мы должны выявить отношения, значит мы можем записать.

1000/10000 = 10% от 0.1%

1000/10000, 10/100 и 10% - математически равнозначные выражения.

Но самый простой способ последний:

Теневая функция/отношений м,д - упростить выражение двумя или несколькими функциями.

Как вычислять десятичные доли процентов?

Очень часто процентное выражение теряет какую-то долю своей простоты.

Пример: 27.6%, 42.2%, 84.85%

Лучше 24%, 42%, 85, т.к. Если мы сравниваем 11.5%, 11.9%, 12.4%, то следует сохранить десятичные знаки, иначе мы все три числа приведём к 12%.

Но очень часто десятичные знаки могут ввести в заблуждение, т.к. создают видимость большей точности.

- мы должны учитывать, что при отбрасывании десятичных знаков всегда выигрывает в наглядности и точности

- точность - это точность расчёта процентов, а не точность результатов

Можно ли использовать абсолютные числа в таблицах?

Да, но это утяжеляет таблицу. Можно использовать и абсолютные значения.

Но имеется много случаев, когда о.д. приняты во внимание абсолютные величины внутри выборочной совокупности по полученному результату или в проекции на генеральную совокупность, чтобы избежать неправильных выводов.

При случаях меньше 100 лучше указывает абсолютные величины и обозначает их в таблицах соответствующим образом (например, брать в скобки). Это происходит потому что при малой величине выборки диапазон ошибок больше значителен.

Если сумма ответов больше 100% (когда можно в вопросе отменить несколько вариантов ответа), то не следует корректировать базу, а нужно указать почему у неё получилось больше 100%.

Лекция 33. Анализ результатов КСИ.

План

1.Стадии анализа результатов

2.Интерпретация данных

Первый шаг анализа состоит в том, чтобы одномерные таблицы дополнить двумерными или многомерными. Наряду с общим результатом вычисление распределено по различным группам, по возрасту полу, типу населения (численность жителей).

Второй шаг – переход от двумерной таблицы к трёхмерной. В двухмерной таблице отличается по одному признаку, в трёх мерной по двум.

Пример Двумерная таблица

Пойдёте ли вы на выборы двумерная

Женщины

18-30

лет

31-40

лет

41-50

лет

51-60

лет

Пойду

Не пойду

Ещё не решил

трёхмерная

мужчины

18-30

лет

31-40

лет

41-50

лет

51-60

лет

Пойду

Не пойду

Ещё не решил

Или по и тому же принципу.

Интересуетесь ли вы ходом предвыборной компании? Это даёт больше глубоко проанализировать данные. И мы, например, можем увидеть, что то, что мужчины в меньшей степени интересуются ходом предвыборной компании справедливо лишь для определённой возрастной группы.

Фактор, открытое влияние которого на результаты исследовать, мы называем в нашем примере либо «возраст» принимается за константу и сравнение идей по полу, либо некоторый «пол» константа, а сравнение происходит по возрастным группам.

Если «пол» константа и изменяется возраст, то пол – контрольная переменная, если возраст константы ,а анализ происходит по «полу», то «возраст» будет контрольной переменной.

2 вопрос (корреляции)

Общие результаты, как уже мы говорили, представляют интерес в качестве описания, но по ним еще нельзя делать выводы о взаимосвязях их можно интерпретировать, то есть предположить, как следует понимать выявление обстоятельства, но насколько эти предложения определены, этот вопрос открытым.

  1. Подготавливает распределения по полу, возрасту …

  2. Составляет двухмерной таблице позволяет получить не только большое дифференцированное описание с/м., но результате сравнения по различным путем мы начинаем выявлять в/связь явлений так наз-я.

Ложная корреляция – является часто ловушкой для исследователя.

Дело в том, что многие из двумерных таблиц таят в себе подводные рифы.

Две опасности:

1. Результаты по группам не отличаются друг от друга Н-р. по образованию. В действительности совпадение результатов оказывается лишь кажущимся образование влияет на что-либо, но это влияние перекрываются другим ф-м.

Результаты сравниваемых групп откланяются друг от друга и на этом основании делается вывод о наличии взаимосвязи. В действительности нет В/С, имеет место ложная корреляция, вызванная другим функциям, который имеет фактически тесную связь со синтаксическим признаком, по которому произведены группировки в табл.

Выявление ложных корреляций – один из существующих признаков квалифицированного анализа. Ср-во выявления ложных корреляций – введение дополнений ф-ра , введение контрольной переменной, вследствие чего двумерная таблица преобразуется в трехмерную.

Благодаря этой процедуре в 1 случае скрытое различие проявляется, во 2 различия становятся слабее , исчезает или преобразуется как некий скрытый «мешающий» в свою пративоположениях.

Для обоснования ложной и истинной корреляции Цойзель предложил символические формы изображения.

Х  Х  Х – для ложной корреляции (ассим).

Х  Х Х – для истинной корреляции (асим).

Н – р., в ходе одного из вопросов было выявлено, что женщины, которые пользуются губной помадой в большей степени интересуются политикой, чем те, которые не пользуются(Германия). Это можно отнести к разряду систематических анекдотов и возникает вопрос: как найти этому объяснения. М.д. женщины, которые пользуются помадой, хотят иметь собеседников - мужчин и поэтому интересуются политикой.

Эта корреляция была снята введение контрольного ф-ра «школьного образования». Было дано следующее объяснение.

Более высокий уровень школьного образования ведет к лучшим политическим занятиям, а, следовательно, к большему интересу к политике.

Только учитывание ф-ра принадлежности к более высоким социальным слоям населения, который в начале 60-х годов в ФРГ вызывает то, что женщины из этих слоев с одной стороны, чаще используют губную помаду, а с другой стороны, чаще получают среднее школьное образование.

В результате мы получаем:

Использование Принадлежность к Среднее школьное Лучшее политическое

губной помады  более высоким  образование  знание

социальным слоям

В позиции слева образуют симметричную форму, то есть указывают ложную корреляцию. Асимметричное изображение невозможно, так как употребление команды не может само по себе обусловить принадлежность к высшим социальным слоям населения. 3 позиции справа на схеме образуют асимметричную фигуру, то есть являются истинной корреляцией. То есть связь м/д употр. Губной помады проходит ч/р истинную и ложную корреляцию. Наряду с истинными и ложными корреляциями следует различать условные. Условные корреляция имеет место в том случае, если при введении контрольной переменной становится очевидным, что наблюдаемая в начале корреляция с различной степенью в зависимости от контр. ф-ра. Это значит, корреляция проявляется в полной мере лишь при наличии еще одного ф-ра, она не просто обнаруживает себя. Для этого необходимо совместное действие 2-х ф-в, то есть в случае наличия Х действует У, но лишь при условии, что действует также и Z.

При группировки материалов для обработки не следует ограничиваться распределение только по демографическим признакам – пол, возраст, семейное положение, профессия, величина населенного пункта. Необходимо проводить объем всех данных исследования отдельно или комбинированно по каждому направлении, которое кажется вероятным.

Н-р., группы с различными убеждениями в области политики, с различными политическими предпочтениями различным уровнем информатики, различной степенью политического участия и т.д.

(Cross-tabulation) Перекрестное моделирование предполагает корреляционные сортировки:

а) Ответы на вопросы анкеты и демографических признаков (в зависимости от пола, возраста, величены населенного пункта).

б) демографических признаков с демографическими критериями (пол от возраста и т.д.)

в) Ответы на вопросы анкеты с ответы на другие вопросы анкеты как соотносится интерес к политике с участием в выборах.

г) всех интересующих комбинаций м/д демографическими признаками по ответам на вопросы анкеты с другими признаками, другими ответами или комбинациями из них.

Корреляционные сортировки производят в следующих основных целях:

  1. В целях описания, чтобы можно было в дополнение к другим результатам описать положение вещей по различным группам населения. Пр. как думают молодые, как думают пожилые.

  2. Чтобы проверить на противоречивость (отсутствие противоречий) насколько последовательно или непоследовательно, ясно или сбивчиво выражена установка, способ поведения.

Вопросы, ответы на которые позже д.б. сопоставлены для проверки устойчивости точек зрения располагаются в интервью по возможности на большом расстоянии или по крайней мере разделены буферными вопросами Н-р. В какой мере сторонники какой-либо партии поддерживают определенные политические мероприятия, которые эти партии провозгласили в своей программе. Выявление непосредственных позиций респ-в важная задача. При этом иногда оказывается, что опрашиваемые, которые чувствуют себя принадл. К нескольким группам, придерживаются противоположного мнения, попадают в ситуацию конфликта.

Интересны случаи, когда анализ-ся устойчивость мнения при разд-м опросе Н-р. мужа и жены о сбережениях.

  1. При различного вида шкалирования, чистоты измерять степень различия, интенсивность. Пример: Насколько интенсивна поддержка демократического гос-ва со стороны различных граждан.

  2. Для выявления в какой в/с с другими данными находится какой либо результат опроса.

  3. Для контроля, являются ли наблюдения зависимости истинными (причинными) ложными или условными.

  4. Для проверки тезисов, гипотиз.

 

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]