Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
ond.docx
Скачиваний:
3
Добавлен:
17.07.2019
Размер:
125.73 Кб
Скачать

Основні етапи обробки емпіричних даних

У процесі обробки даних соціологічних досліджень можна виокремити такі змістовні етапи:

1) кодування інформації;

2) введення інформації в комп'ютер;

3) перевірка введених даних та коригування помилок;

4) проведення обчислень та аналіз результатів.

Якщо передбачається обробка даних на комп'ютері, слід разом із фахівцем з інформатики метод кодування зібраної інформації (нумерація запитань та варіантів відповідей в анкеті для опитування, нумерація пунктів і варіантів значень у кодувальному листку контент-аналізу та ін.) узгодити з можливостями відповідного програмного забезпечення. Немає загальновизнаних стандартів на кодування інформації. Наприклад, є пакети програм, що вимагають нумерувати всі варіанти відповідей в анкеті послідовними натуральними числами (1, 2, 3...), а є інші, які наполягають на нумеруванні варіантів відповідей окремо в межах кожного запитання. Таких прикладів можна навести дуже багато. Тому обраний без урахування можливостей і особливостей програмного забезпечення метод кодування може призвести до необхідності після завершення збирання інформації проводити велику ручну роботу з перекодування інформації перед введення її в комп'ютер. У ряді ситуацій для однієї частини значені обирають коди до початку збирання інформації, для другої — коди обирають лише після того, як всю інформацію зібрано (на приклад, відкриті запитання в анкетах для опитування). Цю роботу також слід планувати з урахуванням методів майбутньої обробки та можливостей програмного забезпечення.

Після того як інформація зібрана і закодована, переходять де введення даних в комп'ютер. Ця трудомістка робота потребує багато часу. Вводять дані, як правило, не соціологи, а оператори. Вони повинні швидко і без помилок перенести закодовану інформацію з одного носія (наприклад папір) на інший (магнітний диск) і не приймати жодних рішень щодо цієї інформації (наприклад, вирішувати, чи вводити анкету, яка не цілком заповнена). Тому навіть у разі, коли всі коди обрані до початку етапу збирання інформації, перед тим як передати зібрану інформацію до введення, слід уважно переглянути всі анкети.

У процесі введення оператори можуть припускатися помилок. Крім того, помилки можуть бути і в самих анкетах. Так, у відповіді на запитання анкети "Де Ви зараз працюєте?" респондент вказав, що він безробітний, а на запитання "Ким Ви зараз працюєте?" (на іншій сторінці анкети) дав відповідь — "слюсарем". Тому або в процесі введення (що більш бажано), або відразу після закінчення введення слід проконтролювати введену інформацію і або скоригувати помилки (якщо це помилки введення), або відкинути ті анкети, що містять недостовірні дані. Для цієї роботи бажано мати спеціальні програми, які на основі вимог соціологів відбирають ті анкети, що цих вимог не задовольняють. Вимоги стосуються можливих значень кодів для певних ознак. Наприклад, "Коди ознаки 23 мають бути тільки 1, 2, 3" або "Якщо ознака 23 має значення 3, то ознаки 24 та 26 мають мати значення або 2, або З".

Тільки після завершення контролю починається власне аналіз даних — побудова таблиць, обчислення статистичних показників, перевірка статистичних гіпотез, побудова нових (додаткових) ознак та ін.

Результати обчислень на комп'ютері подаються в більшості випадків у вигляді надрукованих на папері таблиць. Корисним для змістовного аналізу даних є подання результатів у вигляді різного типу графіків (гістограм, діаграм, полігонів тощо). Графіки дають змогу наочно представити зв'язки та залежності між ознаками, роблять аналіз ефективнішим.

У процесі аналізу даних соціолог використовує різні програми: текстовий редактор (для підготовки звіту), пакет ілюстративної комп'ютерної графіки (для підготовки графіків у звіт або слайдів для публічного виступу з результатами) і, звичайно, пакет програм для аналізу даних. Сучасні пакети програм — це результат копіткої роботи колективів висококваліфікованих фахівців. Кожний пакет розробляється для певного типу комп'ютерів. Крім того, як правило, кожний пакет програм має свої формати даних, і інформація, підготовлена для одного пакета, не може безпосередньо оброблятися засобами іншого пакета. Більшість пакетів мають у своєму складі спеціальні програми перекодування даних у формати найвідоміших пакетів програм (їх називають програмами експорту та імпорту даних).

Пакети обробки соціологічних даних включають, як правило, такі функціональні блоки програм.

1. Програми настроювання на конкретне дослідження та введення інформації в комп'ютер. Ці програми дають змогу описати структуру даних, що оброблятимуться (наприклад, вказати кількість ознак, допустимі значення їх та ін.), та ввести дані в комп'ютер відповідно до цієї структури. Від простоти і зручності користування програмою залежать час, необхідний для введення інформації в комп'ютер, та надійність введених даних.

2. Програми контролю та коригування даних, завдяки яким соціолог може знайти та виправити у введених даних помилки, відкинути недостовірні дані.

3. Програми перетворення введених даних. Цей блок включає в себе програми перекодування даних (зміна кодів значень ознак, об'єднання кількох значень певної ознаки в одне та ін.), ремонту вибірки, побудови додаткових ознак (значення яких обчислюються на основі значень наявних ознак), побудови підвибірок, що задовольняють певні умови, експорту даних у формати інших пакетів та імпорту їх.

4. Програми математично-статистичного аналізу. Це, як правило, програми побудови різних таблиць, розрахунку статистичних показників, перевірки статистичних гіпотез, кореляційного, регресійного, дисперсійного, кластерного та факторного методів аналізу.

5. Програми наочного представлення та виведення результатів обчислень. Цей блок включає програми виведення на екран дисплея, друкуючий пристрій або на спеціальне обладнання різних таблиць, графіків, діаграм, гістограм, малюнків та інших форм представлення результатів роботи пакета.

Є досить велика кількість пакетів програм для аналізу соціологічних даних, розроблених у різних країнах і розрахованих для використання на різних типах комп'ютерів. Серед них є пакети, що розвиваються не один десяток років і мають версії для роботи майже на будь-яких типах комп'ютерів (наприклад, SPSS, SAS, ВМОР). Пакети різняться зручністю та легкістю експлуатації, швидкістю та точністю обчислень, набором математичних методів аналізу, наявністю документації, ціною та іншими показниками.

Одним зі світових лідерів у статистичній обробці даних для соціальних наук є американський пакет SPSS. Роботи над цим пакетом ведуться протягом кількох десятків років. Є версії пакета для різних типів комп'ютерів. Пакет включає в себе велику кількість різних статистичних методів аналізу даних і має великі можливості для обробки як кількісних, так і якісних (що вимірюються в номінальних або порядкових шкалах) даних. Хоча пакет не орієнтований безпосередньо на обробку саме соціологічних даних, але наявність широкого спектра процедур статистичного аналізу, поєднана з досить гнучкою спеціалізованою мовою програмування, дає змогу за наявності певного досвіду розв'язувати найрізноманітніші завдання аналізу даних. Пакет досить великий (займає багато пам'яті на дискові). Пакет SPSS має змістовний і великий за обсягом комплект документації, в якому описуються можливості пакета і який може розглядатись як підручник з комп'ютерного аналізу даних. На жаль, немає українізованих або русифікованих версій пакета. На заваді широкому використанню його в Україні може стати також ціна — залежно від конфігурації — від кількох сотень до кількох тисяч доларів США.

Чи не єдиним досить поширеним в Україні вітчизняним спеціалізованим пакетом програм для аналізу даних соціологічних досліджень на персональних комп'ютерах є пакет ОСА (обробка соціологічних анкет). Цей пакет призначений для безпосереднього використання соціологами, що мають мінімальні навички самостійної роботи з комп'ютером. Є українська та російська версії пакета. Пакет ОСА, звичайно ж, значно поступається пакетові SPSS у кількості методів статистичного аналізу даних. До ОСА включено основні методи стандартного арсеналу процедур аналізу даних, що використовуються в соціології. Спілкування з пакетом організовано українською або російською (залежно від версії) мовою з активним використанням меню. Це полегшує роботу з пакетом, дає змогу вибирати на екрані комп'ютера необхідні операції й одразу бачити результат обробки (виконання окремих операцій забирає секунди).

Розглянемо можливості пакета ОСА та технологію його застосування для аналізу даних.

Пакет ОСА дає змогу обробляти ознаки, задані в метричній, порядковій або номінальній шкалі. При цьому розрізняють номінальні шкали з несумісними (респондент може вибрати тільки одну із запропонованих відповідей) та із сумісними альтернативами (респондент може вибрати будь-яку кількість із запропонованих йому відповідей).

Дані для аналізу мають бути підготовлені у вигляді двох файлів. Перший з них містить текст питальника, введений у спеціальному форматі, паспорт масиву. У другому файлі зберігаються власне дані, зібрані в ході дослідження. Паспорт містить для кожної ознаки:

— її назву; наприклад, "Задоволеність умовами праці";

— відповідне запитання з питальника; наприклад, "Як Ви оцінюєте умови праці на Вашому підприємстві?";

— перелік усіх варіантів відповідей, запропонованих респондентові, та відповідні числові коди, наприклад, "З — повністю задовільні, 2 — непогані, 1 — незадовільні";

— тип шкали (метрична, порядкова, номінальна або номінальна із сумісними альтернативами).

Назви ознак, варіанти відповідей можна брати безпосередньо з анкети (як фрази українською мовою) — це дуже зручно. Якщо, наприклад, текст питальника готувався за допомогою комп'ютера, то паспорт досить просто можна одержати, пе реформ ату вав -ши цей текст. Крім того, пакет містить засоби для безпосереднього введення паспорта. Паспорт і текст питальника готують кваліфіковані фахівці, які знають, як кодуватимуть і як оброблятимуть зібрані дані.

Процес введення зібраних даних у комп'ютер не потребує високої спеціальної кваліфікації. Це дає змогу залучити до введення зібраних даних велику кількість виконавців, а окремі частини даних вводити паралельно на кількох комп'ютерах. Після завершення процедури введення ці частини об'єднуються в один масив для аналізу. В процесі введення здійснюється контроль на відповідність інформації, що вводиться, паспорту. Комп'ютер, наприклад, "не дозволить" ввести кілька кодів відповідей на запитання з несумісними альтернативами або такий код, якого немає серед можливих кодів відповідей.

Первинні дані мають бути певним чином упорядковані. Для цього застосовують різноманітні статистичні методи — групування, обчислення узагальнюючих параметрів та коефіцієнтів, кореляційний, регресійний, кластерний, факторний аналіз та ін. Проте незалежно від того, який метод аналізу застосовується, першим і абсолютно необхідним кроком обробки даних е попереднє впорядкування інформації, переважно за допомогою статистичного групування та побудови статистичних таблиць.

Структура відповідей на запитання анкети наводиться в таблиці, де для кожного з можливих значень ознаки записано, скільки разів воно трапляється в сукупності зібраних даних. Таку таблицю називають таблицею одновимірного розподілу, одновимірною таблицею, або варіаційним рядом. Пакет ОСА дає змогу за лічені секунди побудувати один або кілька (навіть кілька десятків або кілька сотень) одновимірних розподілів. Результати обчислень можуть бути виведені на екран комп'ютера (для безпосереднього аналізу на екрані), на друкуючий пристрій або у файл на дискові.

Для ознаки "Задоволеність умовами праці" одновимірна таблиця має такий вигляд:

Задоволеність умовами праці*

Значення

Частота

% до всіх

% до значень

Цілком задоволений

45

12,61

12,93

Більше задоволений, ніж не задоволений

88

24,65

25,29

Більше не задоволений, ніж задоволений

105

29,41

30,17

Повністю не задоволений

110

30,81

31,61

Без відповіді

9

2,52

* Було опитано 357 осіб, відповіли на запитання "Чи задоволені Ви умовами праці на Вашому підприємстві" 348 осіб (97,48 %).

Кількість опитаних у досліджуваній сукупності — 357. Для 348 опитаних (що становить 97,48 % загального обсягу сукупності) відоме значення ознаки "Задоволеність умовами праці". Для інших (у нашому випадку їх 9) значення цієї ознаки не відоме (наприклад, інформація збиралася методом опитування, і деякі робітники підприємства не захотіли відповісти на поставлене запитання). Аналізуючи таблицю, ми бачимо, наприклад, що задоволених умовами праці — 45, а це становить 12,61 % загального обсягу сукупності та 12,93 % кількості робітників, які відповіли на поставлене запитання. Ми бачимо також, що переважна більшість опитаних робітників (29,41 % + 30,81 % - 60,22 %) або повністю, або частково не задоволені умовами праці.

Для ознак, заданих у метричних шкалах, пакет дає змогу всі значення ознаки розбити на певні інтервали, а вже потім будувати одновимірну таблицю.

Для того щоб полегшити аналіз великої кількості таблиць та мати можливість порівняти кілька таблиць, обчислюють узагальнюючі характеристики рядів розподілу. Одна з таких характеристик (її використовують дуже часто) — міри центральної тенденції. Для кількісної ознаки обчислюють середнє арифметичне значення цієї ознаки для всіх об'єктів сукупності. Для номінальних ознак узагальнюючою характеристикою ряду є мода — значення, що найбільш часто трапляється в одновимірній таблиці. Так, у наведеній вище таблиці модальним для ознаки "Задоволеність умовами праці" є значення "повністю не задоволений" (саме таких відповідей на поставлене запитання було найбільше). Для ознак, вимірюваних у порядкових шкалах, часто обчислюють таку міру центральної тенденції, як медіана — середній ряд упорядкованого ряду значень. Медіана має просту і водночас корисну властивість — принаймні половина всіх досліджуваних об'єктів має значення ознаки, не більші, ніж медіана, і водночас принаймні половина об'єктів — значення, не менші, ніж медіана.

Слід зауважити, якщо впорядкувати шкали за рівнем вимірювання (найвищий рівень — це метричні шкали, потім — порядкові шкали, далі — номінальні шкали), то можна сформулювати таке загальне правило: якщо певний показник визначений для шкали певного рівня вимірювання, то його можна обчислювати і для шкал більш високого рівня, але, звичайно, не можна обчислювати для шкал нижчого рівня.

Отже, застосувавши це правило для розглянутих нами мір центральної тенденції, можна легко упевнитися, що моду можна обчислювати не тільки для номінальних шкал, а й для порядкових та метричних шкал, але медіану не можна обчислювати для ознак, виміряних у номінальній шкалі.

Для того щоб оцінити весь ряд розподілу, обчислюють статистичні показники варіації ознак, або міри варіації. Для метричних ознак це — дисперсія, середнє квадратичне відхилення та коефіцієнт варіації. Для якісних ознак розроблено спеціальні індекси якісної варіації. Чим більшим є значення відповідного показника варіації, тим більше розсіяні навколо середнього значення реальні значення ознаки, а отже, тим обережніше при побудові змістових висновків слід оперувати із середнім значенням.

Міри варіації дають змогу оцінити, наскільки сукупність однорідна за певною ознакою. Якщо вона неоднорідна, може виникнути потреба розбити цю сукупність на кілька однорідних за цією ознакою частин і аналізувати кожну з них окремо. Припустимо, ми вивчаємо задоволеність умовами праці на підприємстві. З логічних міркувань або з результатів попередніх досліджень нам відомо, що заробітна плата робітника впливає на задоволеність його умовами праці. Нехай коефіцієнт варіації заробітної плати для всієї сукупності робітників дорівнює 0,7. Тоді всю сукупність робітників слід розбити на приблизно однакові за рівнем заробітної плати групи (наприклад, так, щоб у кожній групі коефіцієнт варіації заробітної плати не перевищував 0,4) і проводити аналіз задоволеності умовами праці для кожної групи окремо.

Графічне зображення даних

Дуже корисним для змістовного аналізу є зображення даних у графічній формі. Графіки та діаграми в деяких випадках сприймаються читачем легше, ніж стовпчики чисел статистичних таблиць. Зручно використовувати графічне зображення даних і під час публічних виступів — на телебаченні, конференціях тощо.

Найпоширенішими формами графічного зображення одновимірних розподілів є гістограма (або стовпчикова діаграма), полігон розподілу та секторна діаграма.

Гістограма — це послідовність стовпчиків, розміщених вертикально (вертикальна гістограма) чи горизонтально (горизонтальна гістограма). Кожний стовпчик має висоту (або довжину), пропорційну кількості (або частці, або відсотку) об'єктів, що мають відповідне значення ознаки. Так, на рис. 1 зображено горизонтальну гістограму розподілу відповідей на запитання про задоволеність

Ознака 5. Задоволеність власним становищем. Запитання: Чи задоволені Ви власним становищем?

Кількість об'єктів 431. Є значень 430 (99,7 %).

Рис. 1. Горизонтальна гістограма зображення відповідей

власним становищем. Для кожного стовпчика гістограми вказано відповідну частоту та відсоток. Отже, конфігурація стовпчиків гістограми дає уявлення про тенденцію, а числа необхідні для більш детального аналізу. Як правило, при побудові гістограм використовують рівні інтервали, а отже, стовпчики мають однакову ширину. Масштаб зображення краще обирати так, щоб відношення висоти найбільшого стовпчика до ширини гістограми було приблизно 3:5. Досить часто гістограму зображують не у вигляді окремих стовпчиків, а як суцільний контур.

У процесі аналізу досить часто виникає необхідність розбити метричні ознаки на нерівні інтервали. Саме на нерівні інтервали розбивають, як правило, такі ознаки, як прибуток, вік та ін. Це пов'язано з тим, що діапазон значень ознаки може бути досить істотним, а також з необхідністю виділити певним чином наповнені інтервали. При побудові гістограм на нерівних інтервалах висоту стовпчика відкладають пропорційно не до частки (відсотка), а до щільності розподілу відповідної ознаки. У побудованій таким чином гістограмі не висота, а площа кожного зі стовпчиків пропорційна до кількості (або частки, або відсотка) об'єктів, що мають відповідне значення ознаки. Так, на рис. 2 зображено вертикальну гістограму вікового складу опитаних респондентів. Порівнювати "наповненість" вікових груп слід шляхом порівняння не висоти стовпчиків, а їхньої площі* Звичайно, завжди слід пам'ятати: при побудові гістограми припускається, що всередині одного розрядного інтервалу щільність розподілу є сталою величиною (не змінюється).

Ознака 177. Вік (згрупований).

Кількість об'єктів 431. Є значень 399 (92,7 %).

Рис. 2. Вертикальна гістограма вікового складу опитаних респондентів

Якщо центри верхніх горизонтальних ліній стовпчиків гістограми з'єднати відрізками прямої, то вийде фігура, яку називають "полігон розподілу". На рис. З зображено полігон розподілу респондентів за віком (аналогічний гістограмі на рис. 2). Полігон дає уявлення про форму статистичного розподілу ознаки.

Для ілюстрації досить часто застосовують таку форму подання даних, як секторна діаграма. На рис. 4 зображено секторну діаграму розподілу респондентів за віком (аналогічна гістограмі на рис. 2). Вибірка представлена у вигляді кола. Кожній віковій групі (а їх 4) відповідає виділений певним кольором сектор цього кола, при цьому площа кожного сектора пропорційна кількості респондентів (або частці, або відсотку) у відповідній віковій групі.

Ознака 177. Вік (згрупований).

Кількість об'єктів 431. Є значень 399 (92,7 %).

Рис. 3. Полігон розподілу респондентів за віком

Ознака 177. Вік (згрупований).

Кількість об'єктів 431. Є значень 399 (92,7 %).

Порівнювати кілька розподілів зручно, якщо розмістити полігони цих розподілів, побудованих в однаковому масштабі, на одному рисунку. При цьому кожен з полігонів зображується або іншим кольором, або іншою лінією (штрихованою, хвилястою тощо). Таке поєднання на одному рисунку кількох графіків дає змогу ефективно та швидко порівнювати між собою розподіли, що має на меті виокремлення ділянок, які збігаються, тенденцій зміни ознак.

Крім допомоги в аналізі даних, графіки надзвичайно ефективні з огляду на подання результатів досліджень. ? графіки робочі та ілюстративні. Перші, як правило, досить насичені числами, другі — більш яскраві та "зовнішньо привабливі". Майже всі комп'ютерні пакети програм аналізу даних продукують певні робочі графіки. Для підготовки ілюстративних графіків є спеціалізовані пакети програм — "пакети ілюстративної графіки". Ці програмні комплекси не призначені для обчислення та аналізу даних, але дають змогу обчислені засобами інших пакетів показники зобразити в різних графічних формах, включаючи тривимірні конфігурації із затіненням. При цьому написи можна робити різними шрифтами (горизонтально, вертикально, вздовж будь-якої лінії, використовуючи різні кольори). Графіки можна доповнювати рисунками або "прив'язувати" їх до географічної мапи. Результати такої побудови можуть бути виведені на високоякісні друкуючі пристрої, у файл для подальшого використання у видавничих системах, на прозору плівку у вигляді кольорових слайдів або просто демонструватися у певній послідовності на екрані комп'ютера під час доповіді.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]