Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
ЛБ_2.doc
Скачиваний:
33
Добавлен:
01.02.2015
Размер:
973.31 Кб
Скачать

Дисциплина: Системы статистического анализа данных Лабораторная работа №2 Управление данными.

В процессе работы вам могут понадобиться преобразованные данные, являющиеся результатом некоторых действий над исходными данными файла. К примеру. Иногда желательно упорядочить данные файла по какому-либо признаку. Нередко возникает необходимость обработки не всех данных файла, а лишь их подмножества, выделяемого по определенным критериям.

1. Реализация в системе spss

    1. Обработка пропущенных и резко выделяющихся (аномальных) значений

В процессе работы с программой SPSS вы нередко будете сталкиваться с проблемой отсутствующих данных. Обратимся к переменным из примера. Вполне вероятна ситуация, когда кто-либо из участников программы отсутствовал при проведении тестирования или не ответил на вопрос о своем возрасте, либо не указал количество полных родственников в семье. Подобные случаи приводят к тому, что в данных рабочего файла появляются пропущенные значения. Пропущенные значения не только мешают осмысливать данные, но и могут оказывать нежелательное влияние на результаты анализа.

Некоторые статистические процедуры игнорируют объекты (строки), в которых содержится хотя бы одно пропущенное значение. Если, к примеру, из 35 наблюдений 13 имеют пропущенные значения по разным переменным, то анализу будет подлежать немногим более 60 % данных файла, что, несомненно, исказит результаты.

Большинство статистических методов SPSS позволяет учитывать пропуски в данных двумя принципиально различными способами: построчно (listwise) и попарно (pairwise). При построчном учете пропусков SPSS перед выполнением операции проверяет строки (объекты) на наличие пропущенных значений и в случае обнаружения последних исключает соответствующие строки из анализа целиком.

Этот способ позволяет получить наиболее корректные статистические результаты, однако потери данных при этом максимальны. При попарном учете пропусков обработка выполняется без дополнительных проверок, и в процессе вычислений не выполняются только те операции, которые требуют наличия пропущенного значения. Таким образом, в анализе участвуют все введенные данные, но результаты анализа содержат погрешности.

Мы рекомендуем вам по возможности решать проблему пропущенных значений на этапе ввода и кодирования данных, а не полагаться на то, что SPSS сделает это за вас. В любом случае, чем больше пропусков в исходных данных, тем менее точны и корректны результаты анализа.

Для номинальной переменной проблема пропущенных значений решается легко: вы можете просто ввести для нее еще одну градацию, которая соответствует пропуску в данных. Для количественной переменной (метрической или порядковой), имеющей множество возможных значений, в SPSS предусмотрены специальные процедуры заполнения пропусков:

в меню Преобразовать есть команда Заменить пропущенные значения. При всем соблазне ее использовать следует помнить, что результаты обработки данных с заменой пропусков фиктивными значениями, например средними, вряд ли могут вызвать доверие. Поэтому лучше на месте пропуска честно оставлять пустую ячейку. А вопрос о построчном или попарном учете пропусков решать отдельно для каждого конкретного метода анализа данных.

В справочной системе SPSS часто используется два термина: системные пропущенные значения (system missing values)ипользовательские пропущенные значения (user missing values).Под физически пропущенными значениями понимаются значения, не введенные в компьютер. В редакторе данных пустые ячейки, не содержащие значений, помечены точкой. Логически пропущенные значения — это специальные значения переменной, отражающие невозможность адекватного кодирования некоторой ситуации.Если, например, 1, 2 и 3 — тестовые оценки испытуемого, 8 означает, что тест не завершен, а 9 фиксирует неявку испытуемого, то значения 8 и 9 относятся к логически пропущенным, поскольку их нельзя интерпретировать как результаты теста.

Если в определенных случаях у переменных отсутствуют значения, например, если на вопрос не был дан ответ, ответ неизвестен, или существуют другие причины, пользователь может с помощью кнопки Missing объявить эти значения как пропущенные. Пропущенные значения можно исключить из последующих вычислений.

В примере пропущенным значением, определяемым пользователем, мы присваивается вариант ответа "0" (нет данных) для переменной sex.

Чтобы задать пропущенные значения, нужно кликнуть в поле Missing на кнопке с тремя точками . Откроется диалоговое окно Define Missing Values (Определение пропущенных значений).

По умолчанию предлагается вариант No missing values (Нет пропущенных значений),то есть все значения в настоящее время рассматриваются как допустимые.

Для задания пользовательских пропущенных значений нужно кликнуть на кнопке Discrete missing values (Отдельные пропущенные значения).Для одной переменной можно задать до трех пользовательских пропущенных значений.

Альтернативный вариант: при выборе кнопки Range and one optional Discrete missing value (Диапазон и единичное отсутствующее значение),при этом все значения в диапазоне отMinimum (Наименьшее значение)доMaximum (Наибольшее значение)включительно объявляются как пропущенные. Кроме того, можно объявить как отсутствующее еще одно значение вне этого диапазона. Для одной переменной можно задать до трех пользовательских пропущенных значений.

Ввести для переменной sex значение "0". Проделась соответствующие действия для всех переменных, которые содержат пропущенные значения.

К сожалению, при сборе данных, как правило, не удается избежать пропущенных значений. Во многих статистических методах, прежде всего одномерных, учет пропущенных значений не составляет проблемы, так как, кроме соответствующего уменьшения количества наблюдений, не нужно вносить никаких дополнительных изменений в расчетный метод. Однако при двумерном, а тем более при многомерном анализе пропущенные значения в списках переменных создают более значительные проблемы, так как одного-единственного отсутствующего значения достаточно, чтобы сделать всю выборку непригодной для анализа.

Анализ пропущенных значений

Процедура Анализ пропущенных значений выполняет три основных функции:

  • Описывает структуру пропущенных данных. Где расположены пропущенные значения? Насколько широкую область они охватывают? Есть ли тенденция к пропуску значений в нескольких наблюдениях у пар переменных? Принимают ли данные крайние значения? Носят ли пропуски случайный характер?

  • Оценивает средние, среднеквадратичные отклонения, ковариации и корреляции для различных методов обработки пропущенных значений: по спискам, попарно, регрессия или ОМП (максимизация ожиданий). Попарный метод выводит также частоты полных пар наблюдений.

  • Производит вставку (импутацию) на место пропущенных значений оценочных значений, используя метод регрессии или ОМП (максимизация ожиданий); впрочем, есть метод, который обычно дает более точные результаты - это множественная импутация.

Анализ пропущенных значений помогает в борьбе с рядом серьезных проблем, порождаемых неполнотой данных. Если наблюдения с пропущенными значениями имеют систематические отличия от наблюдений без пропущенных значений, результаты могут вводить в заблуждение. Кроме того, пропущенные данные могут снизить точность рассчитанной статистики, поскольку информации окажется меньше, чем планировалось. Во многих статистических процедурах подразумевается, что анализ основан на полных наблюдениях, а для учета отсутствующих значений требуется более сложная теория.

Статистики. Одномерная статистика, включая число непропущенных значений, среднее, среднеквадратичное отклонение, число пропущенных значений и число крайних значений. Оценки среднего, ковариационные матрицы и матрицы корреляции, полученные списочным методом, попарно, методом ОМП или регрессией. Критерий Литтла MCAR с результатами ОМП. Сводка средних по разным методам. Для групп, определенных по соотношению пропущенных и непропущенных значений: t-критерии. Для всех переменных: структуры пропущенных значений, выведенные как наблюдения по переменным.

Данные. Данные могут быть категориальными или количественными (непрерывными). Но оценка статистики и импутация пропущенных значений возможны только для количественных данных. Для каждой переменной пропущенные значения, не помеченные как системные значения отсутствия, должны быть определены как пользовательские значения отсутствия. Например, если ответу Не знаю на пункт анкеты присвоен код 5 и нужно обработать его как пропущенный, пометьте для этого пункта значение 5 как пользовательское значение отсутствия. 

Чтобы выполнить анализ пропущенных значений

Выберите в меню Анализ (Analyze)> Анализ пропущенных значений (Missing Value Analysis). Выберите хотя бы одну количественную переменную для оценки статистики и, если нужно, импутации пропущенных значений.

Для того, чтобы определить резко выделяющиеся (аномальные значения), необходимо построить коробчатую диаграмму (GraphsLegacy Dialogs - Boxplot) и графически определить выделяющиеся значения (и их наличие вообще). Если в ходе анализа были выявлены резко выделяющиеся значения и было принято решение их удалить, то удаление осуществляется в ручную.

Отбор данных

Отбор данных — это выбор наблюдений по определенным критериям; так, например, при опросе респондентов можно отобрать только мужчин, постом не менее 180 см. После этого все вычисления можно проводить только с этими отобранными наблюдениям.

Для отбора данных в SPSS существует три принципиальные возможности:

  • выбор наблюдений по определенному условию (логическому выражению);

  • извлечение случайной выборки наблюдений из файла данных;

  • разделение наблюдений на группы в соответствии со значениями одной или нескольких переменных.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]