Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Змістовний модуль 1.docx
Скачиваний:
18
Добавлен:
18.08.2019
Размер:
596.75 Кб
Скачать

3.5. Підготовка даних до обробки

Інформацію, отриману під час опитування, готують до по­дальшої обробки. Зібрана інформація має відповідати вимо­гам повноти, надійності, технологічності,

Під час вивчення дослідник часто стикається з відмовою частини респондентів брати участь в опитуванні або відпові­дати на окремі запитання. Через це необхідно на стадії кон­струювання інструментарію ретельно будувати запитання. Важливу роль відіграють також психологічні фактори взає­мовідносин між анкетером (інтерв’юером) та респондентом, час і місце проведення опитування. Одержати всі відповіді майже ніколи не вдається. Тому після проведення опитуван­ня здійснюють контроль повноти даних і вибраковують ан­кети з надмірною кількістю “пропусків”.

Загальних норм, стандартів наповнення інструментарію немає. Дослідник має їх визначити для себе сам, виходячи з поставлених завдань та вибраних статистичних методів об­робки. Як правило, вимоги до наповнення відкритих запи­тань суб’єктивного характеру (думка, погляди читача) не можуть бути високими, тому що багато респондентів зали­шають їх без відповіді, не маючи чіткої точки зору.

Під надійністю даних розуміють, по-перше, відповідність структури вибірки структурі генеральної сукупності, по-дру­ге, змістовну однаковість інтерпретації запитань і відповідей дослідником і респондентом, по-третє, точність і логічну несуперечливість відповідей.

Якщо структура генеральної сукупності відома, під час формування вибірки та проведення опитування стежать за дотриманням пропорційної відповідності соціально-демогра­фічного складу респондентів цій структурі. Незважаючи на це, бажано ще раз перевірити вже зібраний матеріал, одержа­ти кількісні показники реального складу респондентів і, якщо виявлено розбіжності із структурою генеральної сукупності, виконати так званий ремонт вибірки.

Є два способи “відремонтувати” вибірку: за допомогою вилучення документів (заповнених бланків інструментарію) з масиву та за допомогою додаткового опитування.

Обсяг вибіркової сукупності слід визначати з деяким за­пасом (10—20 % для анкетних опитувань) для компенсації втрат, які будуть спричинені вибракуванням певної частини анкет під час перевірок. Якщо відхилення від вибірки неве­ликі, користуючись запасом обсягу вибірки і вилученням відповідних анкет з масиву, вирівнюють структуру вибірки. Для цього беруть за основу соціально-демографічну групу з найбільш заниженою квотою у вибірці і відносно неї перера­ховують в абсолютних числах, якими б за обсягом мали бути інші групи пропорційно до структури генеральної сукупності. За кожною групою підраховують різницю між її теоретич­ним та наявним (перебільшеним) розміром і так визнача­ють, скільки анкет з кожної групи треба вилучити. Випадко­вим способом або підрахунком інтервалу (кроку) визнача­ють порядкові номери анкет, що вилучаються, окремо в кожній скорочуваній групі.

Інколи роблять додаткове опитування, відбираючи респон­дентів, які мають представляти недостатньо заповнені у вибірці соціально-демографічні групи. Анкети, одержані під час додаткового опитування, перевіряють на якість даних, як і анкети основного масиву.

Причиною для вибраковування анкети може бути не тільки велика кількість “пропусків”. Деякі люди відповідають на­вмання, трапляються й “жартівники”. Інколи людина не зовсім точно зрозуміла запитання, у підкреслений варіант вкладає трохи інший зміст, ніж складач анкети, або вважає, що запитання сформульовано недостатньо гостро, не акту­ально, і тому відповідає на своє власне запитання, більш “пра­вильне”.

Фальсифікацію анкет можна розпізнати за змістом відпо­відей, особливо відкритих. Якщо в масиві, одержаному з од­ного населеного пункту, є подібні анкети, роблять припущен­ня, що їх заповнювала одна людина. Припускають також, що ця людина — респондент, тому одну анкету залишають, як його власну, а решту (“за іншого”) вилучають з подальшої обробки. Коли ж виявляється, що фальшиві анкети вигаду­вав анкетер (таке іноді трапляється в масштабних досліджен­нях із одноразовим залученням тимчасових помічників у ролі анкетерів та інтерв’юерів), ці анкети вибраковують усі.

Вилучаються й анкети, заповнені несерйозно, поспіхом, “аби відчепилися”. Їх можна розпізнати за характерними відпові­дями на відкриті запитання (або коли таких відповідей май­же немає), за логічною суперечливістю відповідей на пов’я­зані між собою запитання. Але треба приймати рішення про відбраковку виважено, обережно. Може статися, що вся ан­кета заповнена вдумливо, а два-три запитання викликали іронію респондента лише через їх недосконалу побудову. Цілком імовірно, що і для решти респондентів ці запитання мали дещо дивний або недоречний вигляд, тобто не “спрацю­вали” так, як передбачалося. У такому разі можна прийняти рішення про відмову від статистичної обробки саме цих за­питань. Щоб не було таких неприємних сюрпризів, недоско­налість інструментарію намагаються виявити у пробному (пілотажному) дослідженні.

Технологічністю даних називають можливість оператив­но й легко працювати з відповідями. Для цього необхідно, щоб варіанти відповідей були позначені одноманітно, чітко, відкриті відповіді вписані зрозумілим почерком, сформульо­вані ясно і не допускали подвійного тлумачення. Забезпе­чення цих вимог особливо важливе, коли анкети кодуються та вводяться в ЕОМ операторами, що не мають безпосереднього відношення до дослідження. Тому виникає потреба виконати технічну корекцію відповідей. Анкети можуть містити ме­ханічні огріхи респондентів — відповідь помилково занесе­на у поле сусіднього запитання, вписана дуже нерозбірливо, містить вузькопрофесійні абревіатури (такі як скорочена назва місця роботи), маловідомі слова одного з розмовних діалектів тощо. Такі відповіді редагують, а якщо це неможливо — вибраковують анкету.

Після перевірки якості інформації підраховують кількість документів у робочому масиві (кожний вид документа — анкети, бланки інтерв’ю, картки аналізу формулярів — окремо), одночасно нумеруючи їх. Якщо документи логічно взаємопов’язані між собою — наприклад, опитували читачів, чиї формуляри потрапили у вибірку для аналізу — на них проставляють однакові номери. До речі, такі документи ви­лучати з масиву треба всі разом, якщо бракується хоча б один із них. Нумерація необхідна, якщо обробка здійснюється за допомогою ЕОМ. При виявленні помилок у комп’ютерній копії масиву даних лише номер анкети дає можливість звер­нутися до першоджерела на папері.

Підготовка масиву до статистичного аналізу завершуєть­ся процедурою кодування відповідей. Для повноцінного ви­користання статистичних методів необхідно, щоб початкові дані були формалізовані, тобто подані у вигляді чисел, інтер­валів або уніфікованих варіантів. Формалізовані відповіді становлять так звану кількісну (математичну) модель якіс­них властивостей досліджуваного об’єкта.

Процес формалізації починається ще на етапі підготовки інструментарію, коли “кристалізуються” списки варіантів майбутніх напівзакритих і закритих запитань. Після одер­жання всього масиву зібраних даних і перевірки його якості закривають усі відкриті запитання. Ця робота складається з трьох частин: підготовка списків відповідей, класифікація (узагальнення) відповідей, “заміна” відповідей респондентів їхніми формалізованими аналогами (кодування).

Класифікацію проводять для кожного запитання окре­мо. Виняток становлять запитання, які мають спільну пред­метну основу, наприклад, якщо пропонувалося респонденту назвати газети, які він передплачував у минулому році, пе­редплачує тепер і які збирається передплачувати у наступно­му році, то ці три запитання доцільно закривати спільно.

Усі відповіді виписують в окремий список безповторним способом, тобто тотожні за змістом формулювання подають­ся лише одним прикладом, але з підрахованою кількістю повторів (частотою). Рахунок ведеться на папері за допомо­гою “паличок”. Можуть траплятись формулювання, в яких міститься фактично декілька відповідей. Такі формулюван­ня розбивають на прості неподільні вислови, які починають фігурувати в загальному списку окремо один від одного.

Одержаний список детально аналізують з метою узагаль­нення відповідей, тобто об’єднання їх у характерні смислові групи, у більш загальні класи. Фактографічна інформація класифікується, як правило, легше, ніж особисті думки, по­гляди, пропозиції респондентів.

Обробку відкритих запитань найчастіше закінчують уза­гальненням відповідей. Одержані частоти переводять у відсот­ки, а у звіті аналізують їх лише в порівнянні між собою, не маючи можливості простежити зв’язки з іншими запитан­нями анкети. Таке вимушене обмеження пов’язане з висо­кою трудомісткістю ручної обробки даних.

Якщо планується побудування комбінаційних таблиць, після узагальнення відкритих відповідей одержаний список варіантів знову “розчиняють” у масиві анкет, тобто кожній відповіді в анкеті приписують відповідний варіант. Викону­ють цю процедуру за допомогою кодів, тому називається вона кодуванням відкритих відповідей, а формалізований спи­сок варіантів з кодами — кодифікатором. Комплексним формулюванням відповідатимуть одночасно декілька кодів. В анкеті заздалегідь передбачають вільні місця для майбутніх кодів біля кожного відкритого запитання. Користуються і таким прийомом: оцінюють імовірну кількість майбутніх формальних варіантів (наприклад, їх не може бути більше 5-7) і в такій же кількості поряд із запитанням друкують ланцюжок кодів, які наповнюватимуться конкретними зна­ченнями після узагальнення відповідей.

Подальша робота залежить від запланованого способу обробки даних.

Системи кодування можна поділити на символьні і по­зиційні. У позиційній системі кожному варіанту анкети відве­дене місце (позиція) на спеціальній картці, і для фіксації да­них ці позиції або заштриховують олівцем, або пробивають. Для обробки таких карток необхідне спеціальне обладнання.

Більш поширена символьна система кодування, в якій кожний варіант позначається певним символом, кодом. Під символом розуміють умовну позначку, яка може бути номе­ром, літерою, коротким словом. Найпоширеніші цифрові коди, що зумовлено їх високою технологічністю (спрощується вве­дення в ЕОМ). Коди не повинні повторюватися в межах од­ного запитання, можуть не повторюватися взагалі в межах всієї анкети (так зване наскрізне, або безперервне, кодуван­ня), і, навпаки, нумерація варіантів може починатися з оди­ниці у кожному наступному запитанні (періодичне кодуван­ня). Оскільки в наскрізній системі всі коди унікальні, для великих анкет (декілька десятків запитань) доводиться ко­ристуватися дво- і тризначними числами. Це дещо переван­тажує інструментарій і уповільнює перенесення даних на ма­шинні носії у порівнянні з компактнішою періодичною си­стемою кодування, але дає можливість виявляти такі помил­ки операторів, як уведення коду в позицію іншого запитання.

При застосуванні персонального комп’ютера порядок по­передньої підготовки масиву до обробки може бути дещо іншим. На комп’ютер можна перекласти рутинну роботу з перевірки репрезентативності вибірки, логічності відповідей. З’являється навіть така цінна можливість, як швидке закрит­тя відкритих відповідей однією людиною: машина бере на себе складання списків відповідей і автоматичне кодування за кодифікатором (звичайно, не на папері, а лише у комп’ю­терній пам’яті), соціологу залишається творча робота — кла­сифікація, яка проводиться також за допомогою ЕОМ. Але, крім наявності відповідного програмного забезпечення, для використання таких можливостей необхідне введення повно­го масиву даних у комп’ютер до виконання всіх подальших процедур, тобто традиційно остання операція підготовки да­них (уведення в ЕОМ) має бути першою. Зокрема відкриті иідповіді необхідно вводити в їх первісному вигляді. Деяка частка введених анкет пізніше виявиться вибракуваною. Це все, звичайно, помітно збільшує обсяг роботи з перенесення да­них на магнітний диск, але витрати потім повністю перекри­ваються оперативністю, зручністю і точністю обробки.