Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Статистика_методичка.doc
Скачиваний:
66
Добавлен:
12.02.2016
Размер:
1.25 Mб
Скачать

2. Группировка данных в пакете statistica

2.1. Цель работы

Группировка данных в пакете STATISTICA, построение рядов распределений, их визуализация с помощью средств пакета STATISTICA.

2.2. Краткие теоретические сведения.

Исследование, например, различного рода технологических процессов, массовых общественных явлений включает этапы сбора статистической информации и ее первичной обработки, сведения и группировки результатов наблюдения в определенные совокупности, обобщения и анализа полученных материалов.

Разбиение совокупности на группы, однородные по какому-либо признаку, называется группировкой. Признак, по которому происходит объединение отдельных единиц совокупности в однородные группы, называется группировочным признаком (он может быть как количественным, так и качественным). Количественные границы выделяемых групп очерчивает интервал, представляющий собой промежуток между максимальными и минимальными значениями признака в группе. Интервал – это значение варьирующего признака, лежащее в определенных границах.

Группировка, в которой для характеристики групп применяется численность группы, называется рядом распределения. Ряд распределения состоит из двух элементов: варианты – отдельного значения варьирующего признака, которое он принимает в ряду распределения, и частоты – численность отдельных вариант, т.е. частота повторения каждой варианты. Если частота выражена в долях единицы или в процентах к итогу (к общей сумме частот), то это – частость.

Ряды распределения, построенные по качественным группировочным признакам, называются атрибутивными. Ряды распределения, построенные по количественным группировочным признакам, называются вариационными. Дискретный вариационный ряд характеризует распределение единиц совокупности по дискретному группировочному признаку. Интервальный вариационный ряд строится в случае непрерывной вариации группировочного признака у единиц совокупности (величина признака может принимать в определенных пределах любые значения, отличающиеся друг от друга на сколь угодно малую величину).

Графическим изображением вариационного ряда при дискретной вариации признака является полигон распределения, при непрерывной вариации – гистограмма [3,4].

2.3. Способы группировки данных в пакете statistica

В пакете STATISTICA широкие возможности по проведению группировки, построению рядов распределения и их графиков предоставляют Frequency tables – Таблицы частот (рисунок 1.7) и Tables and banners -Таблицы и заголовки в меню Analysis-Анализ модуля Basic Statistics and Tables – Основные статистики и таблицы.

2.3.1. Построение таблицы частот (простая группировка данных)

Таблицы частот представляют собой простейший метод анализа, когда группировка данных и построение ряда распределения производится по одному группировочному признаку.

Открывшееся диалоговое окно (рисунок 1.8) содержит опции:

  • Переменные – выбор переменных для построения таблицы частот.

  • Таблицы частот – вычисление таблицы частот для каждой выбранной переменной.

  • Гистограммы – построение графиков гистограмм для каждой выбранной переменной с наложенной кривой нормального распределения.

Рисунок 1.7 – Выбор Frequency tables – Таблицы частот в меню Analysis–Анализ в модуле Basic Statistics and Tables – Основные статистики и таблицы

Рисунок 1.8 – Диалоговое окно меню Frequency tables – Таблицы частот

Щелчок по кнопке Variables – Переменные открывает окно Select the variables for analysis – Выбрать переменные для анализа, где следует мышью указать на имя переменной и либо дважды щелкнуть по ней мышью, либо нажать на ОК. Для примера выберем переменную выберем переменную Age – Возраст из файла ex1.sta.

Для группировки данных предназначен ряд опций под общим названием Categorization method for tables & graphs – Метод категоризации для таблиц и графиков. Рассмотрим некоторые из этих методов на примере файла данных ex1.sta.

1) Опция All distinct values – Все разл. значения позволяет получить дискретный ряд распределения, где будут перечислены все встречающиеся значения вариант. Пример применения этой опции для построения ряда распределения переменной Age – Возраст приведен на рисунке 1.9.

Таблица выводится на экран происходит нажатием кнопки Frequency tables – Таблица частот или кнопки ОК в диалоговом окне меню Frequency tables – Таблицы частот (см. рисунок 1.8).

Здесь: CountЧастота; Cumul. countНакопленная частота;

PercentЧастость;Cumul. percentНакопленная частость

Missingдополнительная строка, отображающая количество пропущенных (отсутствующих) данных. На экране эта строка появляется, если включен режим Missing Data (MD) Count – Считать пропущенные данные(см. рисунок 1.8).

Рисунок 1.9 – Таблица частот (ряд распределения), полученная для переменной Age – Возраст с помощью опции All distinct values – Все различающиеся значения

Выбрать показатели, которые пользователь хочет видеть на экране помимо частоты, можно с помощью группы опций под общим названием Display options – Опции отображения (см. рисунок 1.8). Если убрать все галочки, то нажав на кнопку Frequency tables – Таблица частот, получим простую таблицу частот, имеющую лишь две графы: варианты и их частоты.

Группировочный признак наряду с количественным значением может иметь качественное представление. Отметив галочкой with text values – с текстовыми значениями, получим атрибутивный ряд распределения. Пример применения этой опции для построения ряда распределения переменной Football – Футбол приведен на рисунке 1.10.

В противном случае качественные значения переменной будут отображены количественно (рисунок 1.11).

Рисунок 1.10 – Таблица частот, полученная для переменной Football – Футбол с помощью опции All distinct values – Все различающиеся значения с включенной опцией with text values – с текстовыми значениями

Рисунок 1.11 – Таблица частот, полученная для переменной Football – Футбол с помощью опции All distinct values – Все различающиеся значения с отключенной опцией with text values – с текстовыми значениями

2) Опция No. of exact intervals – Число равных интервалов позволяет получить ряд распределения с заданным количеством равных интервалов. Пример применения этой опции для построения ряда распределения переменной Age – Возраст приведен на рисунке 1.12.

Рисунок 1.12 – Таблица частот, полученная для переменной Age – Возраст с помощью опции No. of exact intervals – Число равных интервалов. Число интервалов задано равным 6

3) Опция «Neat» intervals app.no. – Приближенное число интервалов позволяет получить наглядную частотную таблицу, в которой границы интервалов имеют «круглые» значения. Применив эту опцию для построения ряда распределения переменной Age – Возраст, получим легкую для чтения и наглядную группировку, приведенную на рисунке 1.13. При этом следует помнить, что выполненные с помощью данной опции группировки не всегда имеют заданное пользователем число интервалов.

Рисунок 1.13 – Таблица частот, полученная для переменной Age – Возраст с помощью опции No. of exact intervals – Число равных интервалов. Число интервалов задано равным 5

4) Опция Step size – Размер шага позволяет провести группировку иначе, изначально задав желаемую величину интервала и начало первого интервала, которое чаще всего является минимальным значением признака (отметить at minimum) или 0 – в окне starting at – начать с указать 0. Пользователь может назначить любую другую точку отсчета. Пример применения этой опции для построения ряда распределения переменной Age – Возраст приведен на рисунке 1.14.

Рисунок 1.14 – Таблица частот (ряд распределения), полученная для переменной Age – Возраст с помощью опции Step size – Размер шага. Размер шага задан равным 4

5) Опции Integer categories – Целые категории строит таблицу частот только для целых значений наблюдений, все нецелые величины показателя будут проигнорированы.

В программе предусмотрены и более сложные способы группировки данных, когда пользователь сам разбивает значения признаков на классы. Например, опция User specified categories – Определенные пользователем категории открывает диалоговое окно, где пользователь может осуществить свой выбор.

Графически таблицы частот представляются в пакете STATISTICA в виде гистограмм. Все настройки, произведенные для таблицы частот, действуют и в отношении гистограмм. На график переменной также накладывается гипотетическая кривая нормального распределения (отображается красным цветом).