Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
информатика.docx
Скачиваний:
33
Добавлен:
01.06.2015
Размер:
803.33 Кб
Скачать
  1. Графический анализ данных в программе «Statistica». 2d-графики: гистограммы, графики ящика, линейные графики, круговые диаграммы. Редактирование графиков.

Графические средства STATISTICA могут быть использованы в следующих целях [2]: • для визуализации численных и текстовых значений непосредственно из электронных таблиц с исходными данными или таблиц с результатами анализа; • для вывода результатов анализа в виде последовательностей графиков.

В STATISTICA существуют различные способы доступа к графическим средствам:

• через верхнее меню, выбрав команду Graphs (графики); • через контекстное меню, щелкнув правой кнопкой мыши на ячейке данных; • при помощи панели инструментов Graphs, для ее вызова надо щелкнуть правой кнопкой мыши на панели инструментов и в появившемся контекстном меню выбрать пункт Graphs или выбрать меню View (вид) -> Toobars (панели) -> Graphs.

Множество графиков в системе STATISTICA можно условно разделить на два класса: • статистические графики; • пользовательские (блоковые) графики.

На панели инструментов Graphs некоторые группы кнопок отделены друг от друга вертикальными вдавленными полосками. Это отделение Stats 2D Graphs (статистических 2D графиков), Stats 3D Graphs (статистических 3D графиков) и Stats categorized Plots (статистических категоризованных графиков) друг от друга.

Stats 2D Graphs — это визуальный анализ данных на плоскости, который осуществляется при помощи разнообразных гистограмм, диаграмм рассеяния, вероятностных графиков, линейных графиков, диаграмм диапазонов, диаграмм размахов, круговых диаграмм, столбчатых графиков, графиков последовательных значений и т.д.

Виды статистических 2D графиков [6].

2D Histogramms являются графическими представлениями распределения частот выбранных переменных. Для каждого интервала (класса) рисуется столбец, высота которого пропорциональна частоте класса. Гистограмма наглядно показывает, какие значения или диапазоны значений исследуемой переменной являются наиболее частыми, насколько сильно они различаются, как сконцентрировано большинство наблюдений вокруг среднего, является распределение симметричным или нет, имеет ли оно моду или несколько мод. Различают несколько видов гистограмм.

2D Histogramms Regular (простые) представляет собой столбчатую диаграмму распределения частот для выбранной переменной (если выбрано более одной переменной, то для каждой из них будет построен отдельный график).

2D Histogramms Multiple (составные) изображают распределение частот для нескольких переменных на одном графике. Частоты для всех переменных откладываются по левой оси У. Значения всех исследуемых переменных откладываются по одной оси X, что облегчает сравнение анализируемых переменных. Например, исследователя может заинтересовать динамика изменения веса студентов до

и после сессии.

2D Histogramms Double-Y(c двойной осью У). Гистограмму с двойной осью У можно считать комбинацией двух по-разному масштабированных составных гистограмм. Для этой гистограммы можно выбрать две различные группы переменных. Для каждой из выбранных переменных будет изображено распределение частот, :но частоты переменных из первого списка, называемого Left У (левая ось У), будут ; откладываться по левой оси У, а частоты переменных из второго списка, называемого ; Right У (правая ось У), будут откладываться по правой оси У. Имена всех переменных , из двух списков будут внесены в условные обозначения и будут сопровождаться бук- 1 вами L или R, обозначающими соответственно левую или правую ось У. Этот график | полезен для визуального сравнения распределений переменных с разными частотами. :

2D Histogramms Hanging Bars (висячие столбцы). Гистограмма висячих столбцов является «наглядным критерием проверки на нормальность распределения», который помогает определить области распределения, где возникают расхождения между наблюдаемыми и ожидаемыми нормальными частотами. В то время как стандартным способом представления подогнанного к наблюдаемому распределению нормального распределения является наложение на гистограмму наиболее

подходящей нормальной кривой, гистограмма висячих столбцов предлагает противоположный способ: столбцы, представляющие наблюдаемые частоты для последовательных диапазонов значений, «подвешиваются» к наиболее подходящей нормальной кривой. Если исследуемое распределение хорошо приближается к нормальной кривой, то нижние ребра всех столбцов должны образовать прямую горизонтальную линию.

Для построения гистограмм можно использовать кнопку со всплывающей подсказкой 2D Histogramms на панели графиков или команды верхнего меню Graphs -> 2D Histogramms. Откроется диалоговое окно 2D Histogramms (рис. 3.1). На вкладке Advanced (дополнительно) в поле Graph type (тип графика)

указывается тип графика: Regular; Multiple; Double-Y.

В поле Fit type (тип подгонки) выбираются виды аппроксимирующих законов плотностей распределений: Of (выключить); Normal; Beta; Exponential и т.д.

В иоле Showing type (тип показа) указываются форматы графиков: Standard; Hanging Bars; Cumulative. Последний формат дает графическое изображение накопленных частот.

В рамке Intervals (интервалы) производятся установки режимов категоризации. В режиме Integer mode (целые числа), если не установлена галочка в поле Auto, программа округлит каждое значение выделенной переменной до целого числа и создаст одну категорию (или график в случае категоризованных графиков) для каждого целочисленного значения. При выборе этого метода кнопка Change variable (изменить переменную) позволит выбрать другую переменную. Если число целых категорий превзойдет 256, программа автоматически использует метод категоризации, включающий 16 категорий.

В поле ввода справа от режима Categories (категории) вводится необходимое число категорий. Программа разделит полный диапазон значений переменной на заданное число интервалов одинаковой длины (длина интервалов не будет целым числом).

После выбора опции Boundaries (границы) надо нажать кнопку Specify Boundaries (задать границы) и ввести список границ для выделенной переменной в появившемся диалоговом окне. Например, если ввести 1 3 4 9, то будут созданы 5 диапазонов значений выделенной переменной: Х< - 1;1<Х<=3\3<Х<=

4;4<Х<=9}Х>9. Как видно из примера, интервалы могут иметь различную длину. Процедура работает, если в поле Fit type выбран режим Off Опцию Codes (коды) можно использовать, если переменная содержит коды, по которым нужно задать категории. После выбора этой опции надо нажать кнопку Specify Codes (задать коды) и ввести нужные коды в появившемся диалоговом окне. Процедура работает, если в поле Fit type выбран режим Off.

После выбора метода Multiple subsets (сложные подгруппы) надо нажать кнопку Specify subsets (задание подгрупп) и в появившемся окне задать условия выбора. Этот метод позволяет использовать более одной переменной для определения групп. В рамке Statistics выбираются критерии соответствия эмпирических распределений распределениям, приведенным в поле Fit type. На вкладке Appearance (внешний вид) можно указать стиль графика и стиль документа.

В построенном программой графике можно изменить заголовок, название осей координат. Для этого надо выделить заголовок, щелкнуть на нем правой кнопкой мыши и в появившемся контекстном меню выбрать команду Title Properties (свойства заголовка). Аналогично щелчком правой кнопки мыши

на любой из подписей осей координат можно вызвать их контекстное меню и произвести соответствующие изменения. Есть и другой способ изменения обозначений графика. Двойным щелчком

мыши в области графика откроется окно All Options, в котором можно изменить параметры графика. На вкладке Graph Titles Text можно изменить заголовок и формат заголовка диаграммы. Заголовки и формат заголовков осей можно изменить, используя вкладку Axis:Title. По умолчанию выбрана ось X. В списке Axis: ее можно изменить на У left, Y right или Тор.

2D Scatterplots (диаграммы рассеяния) визуализируют зависимость между двумя переменными X и У. Данные изображаются точками в двумерном пространстве, где оси соответствуют переменным (X — горизонтальной, а У— вертикальной оси). Если переменные сильно связаны, то множество точек данных принимает определенную форму. Подгонка функций к диаграммам рассеяния позволит увидеть

зависимости между переменными. Если переменные не связаны, то точки образуют «облако рассеяния». В программе реализованы диаграммы рассеяния нескольких типов.

2D Scatterplots Regular (диаграммы рассеяния, простые) визуализируют зависимость между двумя переменными X и У. Для уточнения типа зависимости можно поэкспериментировать с различными типами подгонки. Для этого нужно щелкнуть кнопкой 2D Scatterplots внизу экрана. Открывшееся окно аналогично окну при построении нового графика. Но есть отличие. В первом случае свойства(тип подгонки, тип графика, переменные) будут применяться для уже построенного графика, а во втором — будет построен новый график.

2D Scatterplots Multiple (составные). В отличие от простой диаграммы рассеяния, на которой одна переменная представлена по горизонтальной, а вторая — по вертикальной оси, составная диаграмма рассеяния состоит из нескольких зависимостей и изображает несколько корреляций. Значения одной переменной (X) откладываются по горизонтальной оси, а по вертикальной — значения нескольких переменных (У). Для каждой переменной У используется разный цвет и вид точек, который указан в условных обозначениях, так что на графике можно отличить зависимости для различных переменных. Диаграмма рассеяния составного типа используется для сравнения структуры нескольких корреляционных зависимостей путем изображения их на одном графике, использующем один

общий масштаб. Чтобы точки, соответствующие различным переменным по оси У, не накладывались друг на друга, надо изменить вид маркеров (точек), соответствующих этим переменным. Для этого надо на любой из точек щелкнуть два раза левой кнопкой мыши и вызвать окно General, в котором нужно щелкнуть на кнопку Markers и в появившемся окне изменить размер, вид, цвет точек.

2D Scatterplots Double-Y(c двойной осью У). Диаграмму рассеяния такого типа можно рассматривать как комбинацию двух составных диаграмм рассеяния для одной переменной X и двух различных наборов (списков) переменных У. Для переменной X и каждой из переменных Убудет построена диаграмма рассеяния, но переменные из первого списка (Left У) будут откладываться по левой оси У, в то время как переменные из второго списка (Right У), будут откладываться по правой оси У. Имена всех переменных У из двух списков будут включены в условные обозначения, сопровождаемые буквой L или /?. Диаграммы рассеяния с двойной осью У можно использовать для сравнения структуры нескольких корреляционных зависимостей путем изображения их на одном графике. При этом в силу

независимости масштабов, используемых для двух списков переменных, этот график облегчает сравнение переменных, значения которых принадлежат разным диапазонам.

2D Scatterplots Frequency (частот). Программа подсчитывает частоты перекрывающихся точек. Размеры маркеров точек на графике соответствуют значениям частот. Имеет смысл использовать, когда хотя бы одна из переменных категориальная (измерена в номинальной шкале). Если переменные непрерывные и частоты равны 1, график совпадает с простой диаграммой рассеяния,

2D Scatterplots Bubble (пузырьков). Аналогична диаграмме частот, но должна быть назначена переменная весов.

2D Scatterplots Quartile (квантилей). На графиках квантилей изображается зависимость между квантилями двух переменных, позволяющая оценить сходство эмпирических распределений. Если точки данных попадают на линию регрессии, то можно сделать вывод, что две переменные имеют одинаковое распределение. По сути график квантилей — это изображение зависимости между функциями распределений переменных.

2D Scatterplots Voronoi (Вороного). Диаграмма этого вида является в большей степени аналитическим средством, чем средством графического представления данных. Программа разделяет пространство между точками данных, представленных координатами X, Yb двухмерном пространстве. Пространство между отдельными точками данных делится границами на такие области, каждая точка которых находится ближе к заключенной внутри точке данных, чем к любой другой соседней точке данных.

Для построения диаграмм рассеяния можно использовать кнопку со всплывающей подсказкой 2D Scatterplots на панели графиков или команды верхнего меню Graphs -> Graphs Scatterplots. Откроется диалоговое окно.

2D Scatterplots (рис. 3.2), На вкладке Advanced в поле Graph type можно выбрать типы диаграмм: Regular; Multiple; Double-Y; Frequency; Bubble; Quartile; Voronoi В поле Fit type можно осуществить подгонку функции, которая будет наложена на график. Возможен выбор следующих функций: Linear; Polynomial; Logarithmic;Exponential; Distance WeightedLS;NegExpon. WeightedLS; Spline; Lowess.

В рамке Elipse опция Normal задает построение эллипса в предположении о нормальном распределении двумерной случайной величины (X, У). Ориентация эллипса определяется знаком линейной корреляции между двумя переменными (более длинная ось эллипса накладывается на линию регрессии). Эллипс

показывает прогнозируемый интервал для одного нового наблюдения при данных оценках параметров двумерного нормального распределения. Если число наблюдений мало, то эллипс может выйти за пределы области, показанной на графике. Опция Range (размах) означает построение эллипса фиксированного размера. При этом длины его проекций на оси Хп У соответственно равны среднему

(размах *k), где среднее и размах относятся к переменной Хил и Г, a k — текущее значение коэффициента, которое задается в поле Coefficient. Опция Regression bands (границы регрессии) применяется для линейной или полиномиальной подгонки. Позволяет указать доверительные границы для выбранной линии регрессии. В поле Level (уровень) надо ввести значение вероятности того, что подогнанная линия попадет между доверительными границами. В рамке Statistics выбираются статистические характеристики зависимости между переменными: R square (квадрат коэффициента корреляции); Correlation and p (коэффициент корреляции и уровень значимости р)\ Regression equation

(уравнение регрессии).

2D Box Plots (графики ящика — диаграммы размаха). На диаграммах размаха диапазоны или характеристики распределения значений выбранной переменной (переменных) изображаются отдельно для групп наблюдений, заданных значениями категориальной (группирующей) переменной. Для каждой группы наблюдений вычисляется центральная тенденция (например, медиана или среднее) и вариационные статистики или статистики диапазона (например, квартили, стандартные ошибки или стандартные отклонения), и выбранные значения изображаются на диаграмме размаха выбранного типа. Программа вокруг средней точки рисует прямоугольник, представляющий выбранный диапазон разброса, и отрезок, также отражающий диапазон разброса, концы которого расположены вне прямоугольника. Для построения можно использовать кнопку со всплывающей подсказкой 2D Box Plots на панели графиков или команды верхнего меню Graphs -* 2D Graphs -> 2D Box Plots. Откроется диалоговое окно модуля (рис. 3.3).

В поле Graph type указывается тип графика диаграммы размаха: Box Whiskers (ящик с усами), Whiskers (усы), Boxes (ящики), Columns (столбцы), High Low-Close (верхние и нижние засечки). Можно выбрать один из двух форматов: Regular (простой), Multiple (составной).

Если нажать кнопку Variables, откроется диалоговое окно, в котором в правой части надо выбрать группирующую переменную (независимую), а в левой — зависимую. Если не предполагается при анализе использовать группирующую переменную, в правой части можно не указывать имя переменной. В рамке Grouping intervab (группирование интервалов) указываются опции, часть

которых устанавливается на вкладке Categorized (категоризация). Если выделить опцию Codes, кнопка Change Variable преобразуется в Specify codes (задать коды). Если выделить опцию Multiple Subsets (сложное подмножество), кнопка Change Variable преобразуется в Specify Subsets (задать подмножества). В рамке Middle point (средняя точка) выбирается статистика для оценки среднего: Mean (среднее) и Median (медиана) и стиль изображения среднего: Point (точка) и Line (линия).

В поле Fit можно осуществить подгонку функции к средним точкам диаграммы размаха путем выбора одной из заранее определенных функций или щелкнув мышью на кнопке Custom Function (пользовательский график) для самостоятельного задания функции, которая будет наложена на фафик. Возможен выбор следующих функций: Linear; Polynomial; Logarithmic; Exponential; Distance Weighted LS; NegExpon. Weighted LS; Spline; Lowess. В рамках Box и Whiskers указываются статистики для оценки разброса зависимой переменной: Std.error (стандартная ошибка), Conf.Interval (доверительный интервал), Min-Max (мини-макс), Constant (константа) для первого поля и Std.dev. (стандартное отклонение), Std.error, Conf .Interval для второго поля. Эти статистики соответствуют значению среднего — Mean. При изхменении статистики оценки среднего на Median меняются статистики оценки

разброса в указанных полях. В полях появятся соответственно оценки Percentiles (про- центили) и Non Outlier range (без выбросов). Там же, в этих полях, указываются коэффициенты перед этими статистиками. В рамке Outliers (выбросы) задаются режимы обработки выбросов: Outliers & Extremes (выбросы и крайние точки); Off (выключить); Outliers, Outl & Extremes.

На 2D Line Plots (линейных графиках) отдельные точки данных соединены линией. По оси Xоткладываются номера (имена) случаев, по оси У— значения переменной. Это простой способ представления и исследования последовательностей значений. Выделяют несколько различных типов линейных графиков. Regular (простые). Простые линейные графики используются для представления и исследования последовательностей значений (обычно, когда порядок значений является существенным). Кроме того, линейные графики применяются при построении графиков непрерывных функций, таких как функции подгонки или теоретические распределения. Пустая ячейка данных (т.е. пропущенные данные) «разрывает» линию.

Double-Y(c двойной осью У). Линейный график с двойной осью К можно рассматривать как комбинацию двух по-разному масштабированных составных линейных графиков. Для каждой выбранной переменной используется свой шаблон линии. Линейный график с двойной осью У можно использовать для сравнения последовательностей значений нескольких переменных, накладывая их линейные представления на один график. В то же время в силу независимости шкал,

используемых для двух осей, этот график может облегчить сопоставление переменных, трудно поддающихся сравнению (т.е. имеющих значения в разных диапазонах).Multiple (составные). В отличие от простых линейных графиков, на которых представлена последовательность значений одной переменной, на составном линейном графике изображаются несколько последовательностей значений

(переменных). Для каждой переменной используется и указывается в условных обозначениях свой шаблон и цвет линии. Этот тип линейных графиков используется для сравнения последовательностей значений нескольких переменных (или нескольких функций) путем изображения их на одном графике, использующем один общий масштаб (например, для сравнения нескольких одновременных

экспериментальных процессов, социальных явлений, цен акций или товаров, форм кривых текущих характеристик и т.п.).

XY Trace (трассировочные). На трассировочных графиках сначала строится диаграмма рассеяния двух переменных, а затем отдельные точки данных соединяются линией (в порядке их считывания из файла данных). В этом смысле трассировочные графики визуализируют «путь» последовательного процесса

(движение, изменение явления во времени и т.п.).

Aggregated (агрегированные). Агрегированными линейными графиками называются графики, которые изображают последовательность средних для последовательных подмножеств выбранной переменной. Можно выбрать число последовательных наблюдений, по которым будет вычислено среднее, а при необходимости диапазон значений в каждом подмножестве будет выделен значками типа отрезков.

Агрегированные линейные графики используются для представления и исследования последовательностей большого числа значений. Для построения линейных графиков надо выбрать кнопку со всплывающей подсказкой 2D line Plots или использовать команды Graphs -> 2D Graphs -> Graphs Line Variables (графики -> 2D графики -* линейные графики переменных).

  1. Графический анализ данных в программе «Statistica». 2D-графики: диаграммы рассеяния, диаграммы размаха. Инструмент Brushing. Редактирование графиков.

  2. Графический анализ данных в программе «Statistica». 3D-графики: гистограммы двух переменных, диаграммы диапазонов. Инструмент 3D Rotation control. Редактирование графиков.

  3. Описательные статистики в программе «Statistica». Структурные характеристики. Вариационные характеристики.

  4. Способы проверки данных на нормальность распределения в программе «Statistica».

  5. Простая линейная корреляция Пирсона. Работа в программе.

  6. Критерий Стьюдента сравнения средних выборок. Основные способы работы в программе «Statistica».