- •Первое знакомство с spss Запуск программы
- •Создание рабочего каталога
- •Окна программы
- •Главное окно
- •Структура файла данных
- •Имя переменной
- •Тип переменной
- •Дробная часть числа
- •Ширина переменной
- •Метки переменных
- •Метки значений переменных
- •Пропуски
- •Столбцы
- •Выравнивание
- •Шкала измерения
- •Ввод данных
- •Вставка ячеек
- •Поиск данных
- •Пример файла данных
- •Управление данными
- •Знакомство с возможностями управления данными
- •Получение сводки по данным
- •Обработка пропущенных значений
- •Преобразование данных
- •Ранжирование
- •Перекодировка в новую переменную
- •Перекодировка существующей переменной
- •Выбор объектов для анализа
- •Сортировка объектов
- •Объединение данных разных файлов
- •Печать результатов и выход из программы
- •Диаграммы
- •Графика в программе spss
- •Редактирование графиков и диаграмм
- •Частоты
- •Пошаговые алгоритмы вычислений
- •Столбиковые диаграммы
- •Гистограммы
- •Описательные статистики и процентили
- •Описательные статистики
- •Пошаговый алгоритм вычислений
- •Критерий независимости хи-квадрат
- •Пошаговый алгоритм вычислений
- •Представление результатов
- •Терминология, используемая при выводе
- •Корреляции
- •Пошаговые алгоритмы вычислений
- •Представление результатов
- •Средние значения
- •Пошаговый алгоритм вычислений
- •Представление результатов
- •Сравнение двух средних и t-критерий
- •Уровень значимости
- •Пошаговые алгоритмы вычислений
- •Применение t-критерия для независимых выборок
- •Применение t-критерия для зависимых выборок
- •Применение t-критерия для одной выборки
- •Представление результатов
- •Результаты применения t-критерия для независимых выборок
- •Результаты применения t-критерия для зависимых выборок
- •Результаты применения t-критерия для одной выборки
- •Терминология, используемая при выводе
Описательные статистики
Описательные статистики (descriptive statistics) - это различные вычисляемые показатели, характеризующие распределение значений переменной. Эти показатели условно можно разбить на несколько групп. Первая группа - меры центральной тенденции, вокруг которых «группируются» данные: среднее значение, медиана и мода. Вторая группа характеризует изменчивость значений переменной относительно среднего: стандартное отклонение и дисперсия. Диапазон изменчивости характеризуется минимумом, максимумом и размахом. Асимметрия и эксцесс представляют меру отклонения формы распределения от нормального вида. Кроме того, существуют величины, выражающие погрешности некоторых статистик: стандартная ошибка среднего, стандартная ошибка асимметрии и стандартная ошибка эксцесса. Последние два показателя вычисляются программой вместе с асимметрией и эксцессом по умолчанию. При помощи команды Описательные статистики (Descriptive)можно вычислить любую из указанных величин.
Пошаговый алгоритм вычислений
Для применения команды Описательные статистики (Descriptives) мы откройте файл ex01.sav. Число объектов, или значений каждой переменной, в этом файле равно 100, поэтому при вычислении характеристик распределения для различных переменных программа будет считать N равным 100. Сначала необходимо выполнить три подготовительных шага.
Шаг 1 В меню Анализ (Analyze) выберите команду Описательные статистики → Описательные (Descriptive Statistics → Descriptives). На экране появится диалоговое окно Описательные статистики (Descriptives), показанное на рис. 7.1.
Рис. 7.1. Диалоговое окно Descriptives
В диалоговом окне Описательные статистики (Descriptives) необходимо задать переменные, для которых будут вычислены описательные статистики. В левой части окна находится список всех доступных переменных текущего файла данных. Помимо кнопок и списков диалоговое окно содержит флажок Сохранять стандартизованные значения в переменных (Save standardized values as variables). Если этот флажок установлен, то программа произведет z-преобразоваиие (стандартизацию) всех выбранных переменных, создав таким образом новые переменные. Исходные переменные при этом останутся без изменений, а новым переменным будут присвоены старые имена, но начинающиеся с буквы z. Под стандартизованными (или z-npeобразованиыми) значениями переменной понимается такое ее распределение, среднее значение которого равно 0, а стандартное отклонение - 1.
Шаг 2 Для того чтобы создать таблицу описательных статистик, предлагаемую программой по умолчанию и включающую среднее значение, стандартное 1 отклонение, максимум и минимум, выполните следующие действия: В качестве переменной анализа выбираем отметка1 и отметка2.
Если вам понадобится вычислить дополнительные характеристики, не вычисляемые программой по умолчанию, то перед щелчком на кнопке ОК нужно щелкнуть на кнопке Параметры (Options), расположенной в нижнем правом углу диалогового окна Описательные статистики (Descriptives). Откроется диалоговое окно Описательные статистики: Параметры (Descriptives: Options), в котором с помощью флажков можно задать все упоминавшиеся выше характеристики, за исключением двух: медианы и моды (рис. 7.2). Последние две характеристики доступны только через команду Частоты (Frequencies). Кроме того, вы не увидите в диалоговом окне флажков, соответствующих стандартным ошибкам асимметрии и эксцесса, поскольку они всегда вычисляются автоматически. Установите флажки, соответствующие нужным характеристикам, и щелкните на кнопке Продолжить (Continue). При желании можно также установить один из четырех переключателей в группе Порядок отображения (Display Order).
Рис. 7.2. Диалоговое окно Descriptives: Options
Описательные статистики |
||||||||||
|
N |
Минимум |
Максимум |
Среднее |
Стд. отклонение |
Дисперсия |
Асимметрия |
Эксцесс |
||
|
Статистика |
Статистика |
Статистика |
Статистика |
Статистика |
Статистика |
Статистика |
Стд. ошибка |
Статистика |
Стд. ошибка |
отметка1 |
100 |
3,30 |
4,85 |
3,9630 |
,30597 |
,094 |
,317 |
,241 |
-,056 |
,478 |
отметка2 |
100 |
3,55 |
4,85 |
4,2205 |
,27589 |
,076 |
-,007 |
,241 |
-,357 |
,478 |
N валидных (целиком) |
100 |
|
|
|
|
|
|
|
|
|
Рис. 7.3. Окно вывода SPSS
Обратите внимание, что все выводимые данные уместились на одной странице и целиком видны на экране. Такая ситуация встречается достаточно редко, чаще вам придется пользоваться обеими полосами прокрутки, чтобы видеть результаты анализа. Кроме того, для быстрой навигации внутри окна вывода вы можете использовать иерархическую структуру в виде дерева объектов в левой части окна.
Результаты обработки говорят о том, что в отношении рассматриваемых переменных доступны любые методы статистического анализа: значения асимметрии и эксцесса по модулю не превышают 1 для всех переменных.
Таблицы сопряженности и критерий
хи-квадрат
Таблицы сопряженности, или кросстабуляции, служат для описания связи двух или более номинативных (категориальных) переменных. Примерами номинативных переменных являются пол (женский, мужской), класс (А, Б, В), местность (город, пригород, село), ответ (да, пет) и т. д. Таблицы сопряженности неприменимы к непрерывным переменным, однако последние можно разбить на интервалы. Так, возраст человека, который следует считать непрерывным из-за большого числа его возможных значений, можно разбить на интервалы от 0 до 19 лет, от 20 до 39 лет, от 40 до 59 лет и т. д. В частности, представление непрерывной переменной в виде интервалов с помощью таблиц сопряженности иногда полезно для их наглядного представления. Напротив, для статистического анализа перевод непрерывных (количественных) переменных в номинативные не целесообразен, так как теряется существенная часть информации о различии объектов. Так, когда два человека в возрасте 39 и 40 лет попадают в соседние возрастные категории, с точки зрения анализа они ничем не будут отличаться от пары людей в возрасте 20 и 59 лет.
Для работы с таблицами сопряженности в программе SPSS используется команда Таблицы сопряженности (Crosstab).
Таблицы сопряженности
Обратимся к файлу ex0l.sav. С помощью команды Частоты (Frequencies) мы можем узнать, что среди школьников 39 юношей и 61 девушка, что 33 из них увлекаются спортом, 37 - компьютером и 30 - искусством. Однако команда Frequencies (Частоты) не позволяет ответить на вопросы, сколько девушек увлекаются спортом или сколько юношей - искусством. Для этого в SPSS существует команда Таблицы сопряженности (Crosstabs). Вполне логично, что для ответа на наш вопрос необходимо «сопрячь», или «пересечь», подмножество учащихся определенного пола с подмножеством учащихся с определенным увлечением. Такое сопряжение удобно представить в виде таблицы, строки которой соответствуют полу, столбцы - увлечению. Тогда в ячейке, находящейся, например, на пересечении строки «мужской» и столбца «искусство», мы увидим количество (частоту) юношей, которые увлекаются искусством. Поскольку существуют 2 градации пола и 3 градации внешкольных увлечений (хобби), наша перекрестная таблица будет состоять из 2х3=6 ячеек. Можно составлять и сложные таблицы сопряженности, включающие три и более переменные, однако эта операция имеет смысл лишь для больших объемов данных, поскольку в противном случае частоты большинства ячеек будут малыми или нулевыми. Рассмотрим, что произойдет, например, если для данных файла ex01.sav создать таблицу сопряженности пол-хобби-класс-вуз. Эта таблица будет содержать 2х3х3х4=72 ячейки; вспомним, что при этом число объектов составляет лишь 100. Очевидно, что большинство ячеек таблицы сопряженности будет иметь значения от 0 до 1-2. При задании этих четырех номинативных переменных программа SPSS вместо «четырехмерной» таблицы построит 12 двухмерных таблиц размерностью 2 х 3, «вложенных» в одну таблицу.