Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
MU_po_statistik.docx
Скачиваний:
65
Добавлен:
06.06.2015
Размер:
1.22 Mб
Скачать

5.3. Возможности применения пакета статистического анализа Statistica при анализе данных

Statistica предлагает широкий набор методов для разведочного анализа.

Описательные статистики и графики. Программа вычисляет практически все используемые описательные статистики общего характера: медиану, моду, квартили, заданные пользователем процентили, среднее значение и стандартное отклонение, квартильный размах, доверительные интервалы для среднего, асимметрию и эксцесс (и их стандартные ошибки), гармоническое и геометрическое среднее, а также многие специальные описательные статистики. Как и во всех других модулях системы Statistica, в разведочном анализе данных доступны разнообразные графики и диаграммы, в т.ч. различные виды диаграмм размаха и гистограмм, гистограммы двумерных распределений (трехмерные и категоризованные), двух- и трехмерные диаграммы рассеяния с помеченными подмножествами данных, нормальные и полунормальные вероятностные графики и графики с исключенным трендом, К-К и В-В графики и т.д. Имеется набор критериев для подгонки нормального распределения к данным (критерии Колмогорова-Смирнова, Лилиефорса и Шапиро-Уилкса).

Группировка. Практически все описательные статистики и графики могут быть построены для данных, категоризованных (сгруппированных) по значениям одной или нескольких группирующих переменных. Например, с помощью нескольких щелчков мыши можно сгруппировать имеющиеся данные о людях по полу и возрасту, а затем просмотреть категоризованные гистограммы, диаграммы размаха, нормальные вероятностные графики, диаграммы рассеяния и т.д. В случае, если было выбрано более двух категоризованных переменных, автоматически будет построен каскад соответствующих графиков. Имеется возможность производить категоризацию по числовым (непрерывным) переменным, например, можно потребовать, чтобы значения переменной были разбиты на заданное число интервалов; с помощью инструмента перекодировки можно в реальном времени задать специальный способ перекодировки переменной (возможна категоризация практически любой сложности, заданная через соотношения между любыми переменными файла данных). В дополнение к этому, в системе имеется специализированная процедура иерархической группировки, позволяющая осуществлять категоризацию данных по многим (до шести) переменным и строить различные категоризованные графики, описательные статистики и корреляционные матрицы для подгрупп (пользователь может в интерактивном режиме игнорировать некоторые факторы в полной таблице группировок и исследовать статистики по маргинальным таблицам). Многочисленные возможности форматирования и расстановки меток позволяют получать таблицы и отчеты презентационного качества, содержащие длинные метки и описания переменных. При этом важно отметить, что процедура группировки выполняется для чрезвычайно больших объемов данных (например, по одной категоризующей переменной можно построить до 300 групп), а ее результаты содержат все соответствующие статистики дисперсионного анализа (включая полные таблицы ANOVA, критерии проверки гипотез типа критерия Левена однородности дисперсии, семь различных апостериорных (post-hoc) критериев и т.д.). Как и во всех других модулях системы Statistica, для достижения высокой - не имеющей аналогов в сравнении с другими пакетами - точности результатов здесь можно производить вычисления с повышенной точностью (если нужно - с четырехкратной). Благодаря интерактивному характеру системы изучение данных становится очень простым делом. Например, графики для разведочных статистик можно построить непосредственно по любой таблице результатов, просто указав мышью на отдельные ячейки или группы ячеек. Одним щелчком мыши можно получать каскады графиков (в том числе сложных, например, со множественными категориями), которые затем можно просматривать в режиме демонстрации слайдов, просто нажимая кнопку «Продолжить». В дополнение к большому числу готовых статистических графиков пользователь может самостоятельно задавать различные типы визуализации исходных данных, описательных статистик, взаимосвязей между статистиками, группировок и категоризаций с помощью средств прямого доступа (point-and-click), что позволяет существенно упростить задачу. Средства графического разведочного анализа (описанные в разделе Графики) объединены с собственно статистическими процедурами, что существенно облегчает визуальный анализ данных (например, в интерактивном режиме можно удалять выбросы, выделять подмножества данных, осуществлять сглаживание и подгонку функций, а богатые средства работы с кистью позволяют легко выявлять и/или выделять нужные данные). См. также раздел Блоковые статистики, ниже.

Корреляции

В системе имеется большой набор методов для исследования корреляций между переменными. Прежде всего, могут быть вычислены все основные характеристики связи между переменными, в том числе: коэффициент корреляции Пирсона r, коэффициент ранговой корреляции Спирмена R, тау (b, c) Кендалла, Гамма, тетрахорический r, Фи, V Крамера, коэффициент сопряженности C, D Соммера, коэффициенты неопределенности, частные и получастные корреляции, автокорреляции, различные меры расхождения и т.д. Нелинейные корреляции, регрессия для цензурированных данных и другие более специализированные меры корреляции реализованы в модулях Нелинейное оценивание, Анализ выживаемости и Statistica Линейные и Нелинейные модели. Корреляционные матрицы могут быть вычислены с построчным, попарным удалением пропусков или с подстановкой среднего вместо пропущенных значений. Как и во всех других модулях системы Statistica, для достижения высокой - не имеющей аналогов среди других пакетов - точности результатов здесь можно производить вычисления с повышенной точностью (где требуется - с "учетверенной"). Как и все численные результаты, корреляционные матрицы в системе Statistica выводятся в виде таблиц, имеющих богатые возможности форматирования данных (см. ниже) и визуализации численных результатов; так, можно "указать" на конкретный корреляционный коэффициент и вызвать для него контекстное меню всевозможных "описательных диаграмм" (диаграммы рассеяния с доверительными интервалами, различные объемные гистограммы двумерных распределений, вероятностные графики и т.д.). Богатые средства закрашивания позволяют выделять (или, наоборот, затенять) отдельные точки на диаграмме рассеяния и таким образом оценивать их влияние на положение линии регрессии (и других подогнанных кривых). Таким образом исследуются, например, выбросы или резко выделяющиеся наблюдения. Поддерживаются разнообразные форматы глобального вывода корреляций; значимые коэффициенты корреляции могут автоматически выделяться цветом, каждую ячейку таблицы результатов можно расширить и посмотреть число n наблюдений, по которым вычислен коэффициент и уровень значимости p, можно запросить подробные результаты, включающие все описательные статистики (попарные средние и стандартные отклонения, B-веса, пересечения, и т.д.). Как и все численные результаты, корреляционные матрицы выводятся в виде таблиц, поддерживающих операцию масштабирования и интерактивно управляемый формат вывода значащих цифр (например, от +0.4 до +0.41358927645193); таким образом, матрицы больших размеров можно сжимать (с помощью операции уменьшения, либо изменением формата вывода, что делается перетягиванием границ столбцов с помощью мыши). Это облегчает зрительное восприятие и, в частности, помогает быстро находить коэффициенты, превосходящие заданную величину или имеющие определенный уровень значимости (соответствующие ячейки в таблице результатов будут помечены красным цветом).

Диаграмма рассеивания, матричная диаграмма рассеивания, анализ по группам. Как и во всех других диалоговых окнах вывода, здесь доступны различные общие параметры графического вывода, позволяющие проводить дальнейшее изучение закономерностей и взаимосвязей между переменными; например, двух- и трехмерные диаграммы рассеяния (с метками наблюдений или без них) служат для выявления зависимостей по подмножествам наблюдений или последовательностям переменных. Корреляционные матрицы могут быть категоризованы группирующими переменными и представляться графически в виде категоризованных диаграмм рассеяния. Могут быть также выведены последовательности таблиц результатов "группировки корреляционных матриц" (по одной матрице на каждое подмножество наблюдений), которые возможно использовать в дальнейшем при Моделировании структурных уравнений [SEPATH] в модуле Линейные и Нелинейные модели Statistica). Вся корреляционная матрица может быть представлена на одном графике (со сколь угодно большим разрешением) в виде матрицы диаграмм рассеяния; такие матрицы можно интерактивно просматривать, "увеличивая" нужные участки графика (или прокручивая график в режиме увеличения). Имеется также возможность строить категоризованные матричные диаграммы рассеяния (одна матричная диаграмма на каждое подмножество данных). Можно поступить иначе и построить матричные диаграммы рассеяния для нескольких подмножеств (например, задаваемых уровнями группирующей переменной или сколь угодно сложными условиями выбора наблюдений), где отдельные подмножества данных изображаются различными маркерами. Для визуализации корреляционных матриц и поиска в них глобальных закономерностей имеется еще много других графических методов (контурные графики, несглаженные поверхности, пиктограммы и т.д.). Все эти операции требуют лишь нескольких щелчков мыши, а для выбора параметров предоставляются различные средства быстрого доступа. Одновременно на экране можно открыть любое число таблиц результатов и графиков, что принципиально облегчает интерактивный разведочный и сравнительный анализ.

Быстрые основные статистики и блоковые статистики

В дополнение к описательным статистикам и корреляциям (о них было рассказано в двух предыдущих разделах) и таблицам частот (см. далее) в системе Statistica имеются интерактивные средства, позволяющие одним щелчком мыши вычислять основные статистики и строить графики в любой момент в течение сеанса работы. Быстрые основные статистики доступны из всех панелей инструментов и контекстных меню и выдают результат немедленно без каких-либо промежуточных диалоговых окон (см. иллюстрацию), если только пользователь не выберет другой режим. Более того, по умолчанию эти быстрые процедуры даже не требуют, чтобы были выбраны переменные для анализа - они выбираются автоматически по выделенному блоку ячеек или диапазону столбцов (или строк) в открытой в данный момент таблице исходных данных или таблице результатов. Быстрые основные статистики - очень удобный способ быстро получать "общие" сведения об исследуемых переменных. Сюда входит полный набор описательных статистик (включая порядковые статистики), корреляции и таблицы частот вместе с ожидаемыми нормальными частотами и другие числовые характеристики, а также большой набор встроенных статистических графиков. Выходные результаты для всех статистик и графиков могут быть сгруппированы по значениям некоторой переменной.

Блоковые статистики. Кроме того, все входные и выходные таблицы системы Statistica поддерживают функции Блоковые статистики и Блоковые статистические графики (см. иллюстрацию), выдающие статистики и статистические графики для произвольного выделенного блока ячеек в открытой в данный момент таблице исходных данных или таблице результатов. Результаты можно выводить по столбцам или по строкам выделенного блока в зависимости от смысла содержащихся в нем данных (исходные данные, нагрузки факторов, средние значения, частоты и т.д.). Например, применив метод Монте-Карло из модуля Моделирование структурными уравнениями (SEPATH), можно выделить блок чисел (например, оценок параметров для последовательных испытаний) в таблице результатов и построить для них описательные статистики (средние значения, медианы, квартили), гистограммы, вероятностные графики, диаграммы размаха и т.д.

Методы множественной регресси. В модуле Множественная регрессия реализован полный набор методов линейной и фиксированной нелинейной регрессии. Эти методы включают простую, множественную, пошаговую регрессию (с пошаговым/блоковым включением или исключением предикторов), иерархическую, нелинейную (полиномиальную, экспоненциальную, логарифмическую и т.д.) и гребневую (ридж) регрессию, с включением или без включения константы (свободного члена), модели взвешенных наименьших квадратов. Программа вычисляет полный набор статистик и дополнительных анализов, включая полную таблицу регрессии (с значениями стандартной ошибки для B, Beta и свободного члена, коэффициента детерминации R2 и скорректированного R2 для моделей с константой и без нее и таблицей дисперсионного анализа), матрицы частных и получастных корреляций, корреляции и ковариации коэффициентов регрессии, матрицу выметания (обратную матрицу), статистику Дарбина-Уотсона d, расстояния Махаланобиса и Кука, удаленные остатки, доверительные интервалы для предсказанных значений и многие другие статистики.

Предсказанные значения и остатки. Широкие возможности анализа остатков и выбросов предоставляют многочисленные графики: диаграммы рассеяния, гистограммы, нормальные и полунормальные вероятностные графики, графики с удаленным трендом, графики частных корреляций, различные построчные графики и диаграммы остатков и выбросов и др. Значения зависимой переменной для отдельных наблюдений можно просмотреть визуально с помощью разведочных пиктографиков и других многомерных графиков, доступных непосредственно из меню таблицы результатов. Остаточные и предсказанные значения можно автоматически добавлять к текущему файлу данных. Процедура прогнозирования позволяет проводить анализ типа "что-если" и интерактивно вычислять предсказанные значения по задаваемым с клавиатуры значениям предикторов.

Внутригрупповые статистики. В системе Statistica можно проанализировать чрезвычайно большие планы (более 500 переменных). Кроме того, имеются дополнительные средства (специальный аппарат) для сверхбольших задач регрессии (с тысячами переменных), Двуступенчатый метод наименьших квадратов, преобразования Бокса-Кокса и Бокса-Тидвелла. Система Statistica имеет также специальные модули общего нелинейного оценивания (Нелинейное оценивание, Обобщенные линейные модели (GLZ), Обобщенные аддитивные модели (GAM), Частные модели наименьших квадратов (PLS)) с помощью которых можно оценить практически любую определенную пользователем нелинейную модель и где имеется целый ряд предопределенных моделей, включая логит-, пробит- модели и др. В системе Statistica также имеется дополнительный модуль SEPATH - Моделирование структурными уравнениями, который позволяет анализировать чрезвычайно большие матрицы корреляций, ковариаций и моментов (для моделей со свободным членом).

Непараметрические статистики. Модуль Непараметрическая статистика содержит полный набор непараметрических статистик, включая все стандартные тесты и некоторые специальные прикладные статистики, в частности, критерий Вальда-Вольфовица, U тест Манна-Уитни (с точными вероятностями вместо нормальных аппроксимаций для малых выборок), критерии Колмогорова-Смирнова, критерий Вилкоксона парных сравнений, ранговый дисперсионный анализ Краскела-Уоллиса, медианный тест, критерий знаков, ранговый дисперсионный анализ Фридмана, Q- критерий Кохрена, критерий МакНемара, коэффициент конкордации Кендалла, тау (b, c) Кендалла, ранговая корреляция Спирмена R, точный критерий Фишера, критерии хи-квадрат, статистики V-квадрат, Фи, Гамма, d Соммера, коэффициенты сопряженности и другие (специальные непараметрические критерии и статистики входят также в состав некоторых других модулей, см. например, Анализ выживаемости, Анализ процессов и др.) Все (ранговые) критерии могут работать с совпадающими рангами и вносят поправку на малый объем выборки и совпадающие ранги. Как и во всех других модулях системы Statistica, процедуры всех критериев снабжены разнообразными графическими инструментами (здесь доступны различные типы диаграмм рассеяния, специальные диаграммы размаха, линейные графики, гистограммы и много других двух- и трехмерных графиков).

Общая модель дисперсионного и ковариационного анализа. В модуле Дисперсионный анализ реализованы методы общего одномерного и многомерного дисперсионного и ковариационного анализа, которые являются подмножеством Общих Линейных Моделей, в которых можно обрабатывать планы практически неограниченной сложности. Имеется возможность задавать планы непосредственно, определив реальные переменные и уровни факторов, поэтому даже не очень опытные пользователи системы Statistica могут анализировать в этом модуле чрезвычайно сложные планы. По умолчанию в процедурах модуля используется подход, основанный на модели средних, но пользователь может также вычислить суммы квадратов типа I (последовательные, в порядке по умолчанию или заданном пользователем), типа II или типа III; для неполных планов могут также быть исследованы гипотезы типа IV. Для планов любого типа могут использоваться фиксированные или переменные ковариаты. Можно анализировать неполные планы (вложенные, на латинских квадратах, на греко-латинских квадратах, планы с единственным наблюдением на ячейку, случайные блочные планы и т.д.); пользователь может задать объединенные члены ошибки дисперсионного анализа. Могут быть построены апостериорные критерии для маргинальных средних или для эффектов взаимодействия (включая межгрупповые факторы, факторы повторных измерений, или и те и другие): критерий наименьшей значимой разности (НЗР), критерий Ньюмена-Кеулса, критерий множественных сравнений Дункана, критерий Шеффе, критерий Тьюки достоверно значимой разности (ДЗР), обобщенный Спьотволлом и Столайном критерий Тьюки для выборок неравного размера.

Для всех основных эффектов, взаимодействий и спланированных сравнений могут быть выведены полные статистики дисперсионного анализа; программа вычисляет также множественные таблицы классификации и SSCP-матрицы. Для всех эффектов могут быть выведены таблицы результатов, в которых отмечены цветом все значимые эффекты; в такой таблице, можно исследовать маргинальные средние или просмотреть мгновенные графики отдельных главных эффектов и взаимодействий, для чего достаточно просто дважды щелкнуть по эффекту. Для любых одно- и многомерных планов может быть проведен анализ контрастов неограниченной сложности. Пользователь может задавать частные эффекты взаимодействия, простые эффекты, полиномиальные контрасты и экспериментировать с произвольными комбинациями коэффициентов контраста. Имеются средства, упрощающие и ускоряющие задание параметров в сложных анализах: в дополнение к функции Быстрое заполнение, позволяющей автоматизировать ввод коэффициентов контраста, имеется широкий выбор предопределенных контрастов, доступных по одному щелчку мыши (включая полиномиальные, отклонение, разность, Хельмерта, простые и повторные). При анализе неполных планов со случайно распределенными пропущенными ячейками процедура анализа контрастов автоматически отмечает все пустые ячейки и помогает пользователю строить проверяемые гипотезы. Большую помощь при анализе оказывают богатые графические возможности модуля (автоматическое построение графиков взаимодействий, в том числе заданных пользователем каскадов графиков компонент ("срезов") для многофакторных взаимодействий, внутригрупповых распределений переменных и внутригрупповых корреляций, определенные пользователем диаграммы размаха для медиан, квартилей, средних, стандартных отклонений, стандартных ошибок и т.д. для произвольных сочетаний факторов и многие другие, см. далее). Могут быть исследованы гипотезы параллельности (т.е. отсутствия взаимодействий, включающих ковариаты); могут быть подсчитаны полные результаты одномерной и многомерной регрессии и выведены или нарисованы скорректированные средние. Программа вычисляет также поправки Гринхауса-Гейсера и Хюнха-Фельдта для факторов повторных измерений; для таких факторов автоматически вычисляются одно- и многомерные результаты. Пользователь может исследовать SS-матрицы (сумм квадратов) гипотез и ошибок, и там, где это возможно, программа выполняет полный канонический анализ с вычислением канонических корней, собственных значений, долю дисперсии, приходящуюся на каждый корень, а также стандартизованную и нестандартизованную дискриминантную функцию.

Для визуализации результатов при исследовании гипотез и предположений в моделях дисперсионного анализа имеется большое число различных типов графиков: графики распределений, графики "ствол и листья", категоризованные и составные графики корреляций и подгоночных функций, позволяющие сравнивать соотношения между зависимыми измерениями (и/или) ковариатами по ячейкам высших порядков, графики средних против стандартных отклонений или дисперсий, обычные и категоризованные нормальные, полунормальные вероятностные графики и графики с исключенным трендом, графики корреляций внутри ячеек и т.д. Там, где это может потребоваться, можно одним щелчком мыши получать каскады графиков, которые затем можно просматривать в режиме, подобном демонстрации слайдов, просто нажимая кнопку Далее. Кроме того, имеется большой набор статистических процедур для проверки предположений: C Кохрена, критерий Хартли, критерий Бартлета, критерий Левена, M Бокса, непараметрический критерий Сена и Пури, критерий Колмогорова-Смирнова, критерий сферичности Моучли и т.д. При этом подгонку моделей структурированных средних (с константами), построенных по матрицам моментов для одной и нескольких выборок, можно осуществлять также средствами модуля SEPATH (Моделирование структурными уравнениями) системы Statistica, в котором можно оценивать модели MANOVA с явной неоднородностью дисперсий/ковариаций в разных группах и/или с явными структурными моделями для зависимой переменной, различными для каждой группы.

Графические возможности Statistica сочетают максимально широкий набор научных и технических графиков (со встроенными аналитическими процедурами) с возможностями настройки, рисования и управления составными графиками, которые обычно встречаются в приложениях для создания презентаций и рисования. Statistica предоставляет сотни двумерных и трехмерных графиков, включая двумерные и трехмерные тернарные графики, специализированные четырехмерные графики, многомерные графики, категоризированные мультиграфики, матричные графики, пиктограммы, мозаики, спектральные двумерные и трехмерные графики, составные графики и много других специализированных процедур. Также, представлены гибкие и простые в использовании средства пользовательской настройки новых типов графиков и добавления соответствующих команд на панели инструментов.

Существует несколько способов работы с графиками в Statistica. Можно сказать, что эти методы представляют несколько типов "интерфейсов" между числами и графиками.

Например, значения, представленные на круговой диаграмме, отображают значения столбца в таблице исходных данных (например, переменная Продажи) в нескольких наблюдениях (например, наблюдения называются: 2002, 2003, 2004, и т.д.) В то же время, значения на круговой диаграмме могут являться результатом неких вычислений. Например, часть диаграммы представляет относительные частоты наблюдений, принадлежащие к определенным категориям одной из гистограмм или процедурам частотной категоризации (например, количество лет с объемом продаж до 10 млн. долл., между 10 и 20 млн. долл., свыше 20 млн. долл.).

Вне зависимости от метода создания графика (то есть, вне зависимости от источника представления данных и способа вычислений), все графики Statistica поддерживают возможности настройки, а средства управления несколькими графиками позволяют изменять окружение графика и совмещать его с другими графиками или документами.

Электронный учебник по статистике можно найти на сайте Statsoft по адресу: http://www.statsoft.ru/home/textbook/

Для расчета прогнозных (оптимальных) величин факторов, влияющих на результаты сельскохозяйственного производства с использованием пакета Statistica были составлены графики парных корреляционных зависимостей (чистого дохода сельскохозяйственного производства и отдельных экономических факторов). По этим графикам могут быть рассчитаны оптимальные объемы вносимых удобрений, и другие показатели. На рис.5.8 представлен график зависимости чистого дохода сельскохозяйственного производства от нагрузки сельскохозяйственных угодий на одного работника в сельском хозяйстве и удельного веса сельскохозяйственных угодий. Предсказанные значения могут быть описаны линейной зависимостью. При средней величине чистого дохода в муниципальных образованиях, выбранного в качестве приоритетного (см.табл.5.8) 7025 руб./га нагрузка сельскохозяйственных угодий не должна превышать 10 га на одного работника, занятого в сельскохозяйственном производстве, оптимальный удельный вес сельскохозяйственных угодий 22%.

Рис.5.8. График зависимости чистого дохода сельскохозяйственного производства от нагрузки сельскохозяйственных угодий на одного работника в сельском хозяйстве и удельного веса сельскохозяйственных угодий

Оптимальная средняя площадь крестьянских фермерских хозяйств должна составлять 7 га, личных подсобных хозяйств – 0,14 га, участков под огородничеством – 0,05 га, участков под садоводством – 0,08 га (рис. 5.9).

Рис.5.9. График зависимости чистого дохода сельскохозяйственного производства от средней площади сельскохозяйственных предприятий, находящихся в частной собственности

По данным графикам были рассчитаны оптимальные величины экономических факторов сельскохозяйственного производства в районах Московской области (табл.5.3).

Таблица 5.3

Прогноз экономических факторов сельскохозяйственного производства в муниципальных образованиях Московской области

Наименование показателя

нагрузка сельскохозяйственных угодий на одного работника, занятого в сельскохозяйственном производстве

10 га

удельный вес сельскохозяйственных угодий

22%

удельный вес пашни

45%

средняя площадь крестьянских фермерских хозяйств

7 га

средняя площадь личных подсобных хозяйств

0,14 га

средняя площадь участков под огородничеством

0,05 га

средняя площадь участков под садоводством

0,08 га

Для этого по оси Х были отложены средние показатели сельскохозяйственного производства. На пересечении с осью Y были определены величины экономических факторов в районе. В результате были получены следующие показатели: нагрузка сельскохозяйственных угодий на одного работника, занятого в сельскохозяйственном производстве – 10 га, удельный вес сельскохозяйственных угодий – 22%, удельный вес пашни – 45%, средняя площадь крестьянских фермерских хозяйств – 7 га, личных подсобных хозяйств - 0,14 га, участков под огородничеством - 0,05 га, участков под садоводством - 0,08 га.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]