Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

01 КАСЮК С. Т. ПЕРВИЧНЫЙ, КЛАСТЕРНЫЙ, РЕГРЕССИОННЫЙ И ДИСКРИМИНАНТНЫЙ АНАЛИЗ ДАННЫХ СПОРТИВНОЙ МЕДИЦИНЫ НА КОМПЬЮТЕРЕ

.pdf
Скачиваний:
134
Добавлен:
14.03.2016
Размер:
5.88 Mб
Скачать

лиз) – группа Base (Базовая статистика) – окно Basic Statistics (Основные статистики и таблицы) Descriptive statistics (Описательные статистики). В окне этого модуля во вкладке Normality (Нормальность) установим флажок в опции

Shapiro-Wilk's W test (критерий Шапиро–Уилка) и нажмем на кнопку Histograms (Гистограммы).

Получаем гистограмму (рисунок 3.9), в еѐ окне значение статистики критерия Шапиро–Уилка W = 0,952 при р < 0,783. Расчетное значение критерия Шапи- ро–Уилка Wрасч больше табличного значения Wтабл = 0,842 для n = 10 и р = α = 0,05. Следовательно нулевая гипотеза о нормальном распределении остатков не отклоняется при уровне значимости α = 0,05. Остатки регрессионной модели нормальные, что является очевидным и из гистограммы. Анализ остатков является ключевым в оценке адекватности или качества регрессионной модели.

Рисунок 3.8 – Таблица остатков регрессионной модели

15 Вернемся в окно Residual analysis (Анализ остатков) и, нажав кнопку

Residuals vs. independent var. (Остатки и независимые переменные) (рису-

нок 3.7), выведем на экран диаграмму рассеивания для независимой переменной и остатков (рисунок 3.10).

16 Таким образом мы получили регрессионную модель

Расстояние y = 6,000000 – 4,000000 · Время x,

адекватную по F-критерию Фишера, со значимыми коэффициентами регрессии, нормально распределенными остатками и высоким значением коэффициента детерминации. Эту модель можно использовать для предсказаний.

81

Рисунок 3.9 – Гистограмма остатков регрессионной модели

Рисунок 3.10 – Диаграмма рассеивания для независимой переменной и остатков

82

17 Откроем вновь окно Multiple Regression Results (Результаты множест-

венной регрессии) (рисунок 3.5), перейдем на вкладку Residuals/ assumplions/prediclion (Остатки/предсказанные/наблюдаемые) и нажмем кнопку Predict dependent variable (Предсказать зависимую переменную). На экране появится окно Specify values for indep. vars (Задайте значения независимых пе-

ременых) (рисунок 3.11).

Рисунок 3.11 – Окно Specify values for indep. vars

(Задайте значения независимых переменых)

Зададим в этом окне значение независимой переменной Время x = 7,5 и нажмем ОК. На экране появится таблица с предсказанным значением пройденного расстояния (рисунок 3.12).

Итак, мы получили значение пройденного расстояния 21 км при участии спортсменов в спортивном ориентировании.

Рисунок 3.12 – Предсказание с помощью модели пройденного расстояния за время 7,5 часа

83

3.7 Методы отбора переменных в регрессионные модели

Большинство реальных анализируемых процессов и объектов являются сложными, для их описания требуется много признаков и показателей. Поэтому типична ситуация, когда при построении регрессионных моделей приходится иметь дело с десятками переменных и, соответственно, производить отбор переменных для построения модели. Данная задача совсем не так проста, как кажется. На первый взгляд, нужно отобрать только те переменные, которые непосредственно связаны с решаемой задачей. Однако даже после того, как посторонние переменные будут отсеяны, нет гарантии успешного решения [8].

Входные переменные могут иметь низкую значимость, то есть линейная зависимость между ними и выходной переменной может либо отсутствовать, либо быть очень слабой. Такие переменные не способствуют повышению точности полученных оценок, а только усложняют модель.

Входные переменные могут коррелировать между собой, что приводит к мультиколлинеарности и, как следствие, к снижению точности и устойчивости модели, к противоречивости результатов [8].

Существует общая рекомендация, которая в первом приближении дает возможность построить хорошую регрессионную модель: 1) включить в рассмотрение все переменные, которые позволяют повысить точность оценок, получаемых с помощью регрессии; 2) составить список переменных, которые неадекватны решаемой задаче — коррелированные переменные, измеренные с большими ошибками переменные и так далее [8].

После того как нежелательные переменные будут исключены, среди оставшихся производится поиск тех, набор которых обеспечит лучшую регрессионную модель. Однако и на этом этапе возникает ряд проблем. Во-первых, понятие «лучшая модель» не имеет строгих критериев и во многом субъективно. Вовторых, ни один из известных методов отбора не гарантирует получение набора переменных, позволяющих достичь наилучшего результата. Зачастую такого набора просто не существует. В-третьих, различные методы отбора приводят к различным результатам. Поэтому на практике аналитики чаще всего ставят целью получить не наилучший, а приемлемый набор входных переменных, который позволит соблюсти баланс между противоречивыми требованиями [8].

В пакете STATISTICA 10 реализованы два метода отбора переменных:

1)метод прямого выбора (forward selection);

2)метод обратного исключения (backward elimination).

Метод прямого выбора (forward selection) начинается с пустой модели, в которую еще не включена ни одна переменная, и содержит следующие шаги [8]:

1 Для первой переменной, вводимой в модель, основным критерием выбора является высокая корреляция с выходной переменной. Если полученная в результате модель не обладает достаточной значимостью, из этого следует, что среди

84

доступных переменных исходной выборки значимые переменные отсутствуют. В противном случае переходим ко второму шагу.

2 Для каждой из остальных переменных вычисляется последовательная F-статистика для данной переменной и переменных, уже включенных в модель. Пусть имеются четыре переменные x1, х2, х3, x4. Например, сначала могут вычисляться последовательные F-статистики F(x2 | х1), F(x3 | х1), F(x4 | x1), то есть производится выбор между переменными х2, х3 и х4 при условии, что переменная х1 уже включена в модель. Затем вычисляются F(x3 | х1, х2) и F(x4 | х1, х2). При этом каждый раз выбирается та переменная, для которой значение последовательной F-статистики будет наибольшим Fmax.

3 Для значения Fmах проводится тест значимости. Если после добавления переменной, выбранной на шаге 2, модель не обладает достаточной значимостью, то алгоритм останавливается и текущая модель остается без переменой, выбранной на шаге 2. В противном случае изменение модели принимается и осуществляется переход на шаг 2 для выбора следующей переменной.

Процесс продолжается до тех пор, пока все значимые переменные не будут включены в модель.

Метод обратного исключения (backward elimination) начинает процесс от-

бора входных переменных с полной модели, в которую включаются все доступные переменные. Этот метод также содержит три шага [8]:

1 Решается задача регрессии с помощью полной модели, в которой присутствуют все доступные переменные, например x1, х2, х3, x4.

2 Для каждой переменной в модели вычисляется частная F-статистика, то

есть F(x1 | х2, х3, x4), F(x2 | х1, х3, x4), F(x3 | х1, х2, x4) и F(x4 | х1, х2, x3). Предпочтение отдается переменной, для которой значение частной F-статистики будет наи-

меньшим Fmin.

3 Проводится тест значимости Fmin. Если статистика Fmin не указывает на достаточно высокую значимость, то связанная с ней переменная исключается из модели и происходит возврат к шагу 2. Если статистика Fmin указывает на высокую значимость, то алгоритм останавливается и формируется отчет о текущем состоянии модели. Если это первый проход алгоритма, то мы имеем полную модель и, следовательно, все доступные переменные являются значимыми. Если проход не первый, то модель уменьшается на одну или несколько переменных.

Метод перебора всех возможных регрессий является единственным спосо-

бом, гарантирующим, что будет построена наилучшая модель. Однако, если аналитическая задачи содержат очень большое число потенциальных входных переменных, то метод перебора всех возможных регрессий становится нереализуемым на практике. Если имеется k потенциальных входных переменных, то для перебора всех возможных вариантов потребуется перебрать 2k – 1 комбинаций. Так, для 10 потенциальных входных переменных нужно перебрать уже 210 – 1 = 1023 комбинации, а для двадцати – 220 – 1 = 1048575 и так далее. Этого метода нет в пакете

STATISTICA 10.

85

3.8 Пример проведения множественного регрессионного анализа в пакетe STATISTICA 10

Проведем множественный регрессионный анализа данных на примере приведенном в литературе [8]. Имеется набор данных, содержащий информацию о пищевой ценности завтраков из сухих злаков. Каждый вид продукта описывается признаками, в зависимости от значений которых рассчитывается пищевая ценность продукта. Набор данных содержит 77 наблюдений. Таблица данных распо-

ложена по адресу http://paws.wcu.edu/emcnelis/DataFiles/Cereals.xls.

Выборка данных содержит следующие признаки продукта:

наименование – наименование продукта;

производитель – производитель продукта;

тип – заливается холодной или горячей водой;

калорийность – содержание калорий в одной порции продукта;

– белок – содержание белка, г;

жиры – содержание жиров, г;

натрий – содержание натрия, мг;

– волокна – содержание пищевых волокон, г;

углеводы – содержание углеводов, г;

сахар – содержание сахара, г;

калий – содержание калия, мг;

витамины – содержание ежедневной рекомендуемой дозы витаминов (0,25 или 100%);

вес одной порции;

вода – количество чашек воды на порцию;

№ витрины – витрина, на которой расположен продукт;

пищевая ценность продукта.

Предполагается, что признаки, описывающие каждый продукт, влияют на его пищевую ценность. Цель анализа – обнаружить закономерности в этих связях. Если закономерности будут найдены, то с их помощью можно определять пищевую ценность новых продуктов, описываемых тем же набором признаков, разрабатывать новые рецептуры с требуемой пищевой ценностью.

Пусть требуется смоделировать линейную зависимость между выходной пе-

ременной пищевая ценность продукта и входными переменными калорийность, белок, жиры, углеводы.

В процессе анализа могут возникнуть следующие вопросы [8]: 1 Все ли признаки влияют на пищевую ценность продукта?

2 Какие из признаков влияют сильнее, а какие – слабее?

3 Какие из признаков способствуют повышению пищевой ценности продукта, а какие – уменьшению?

3 Как влияет изменение отдельного признака на пищевую ценность?

86

Рисунок 3.13 – Окно Opening file
(Открытие файла)

Алгоритм решения:

 

 

1 Открываем

в

пакете

STATISTICA 10 файл Cereals.xls: вкладка

Home (Главная) – команда Open (Открыть) Open Document (Открыть документ) – в окне Open (Открыть) необ-

ходимо выбрать файл Cereals.xls и нажать кнопку ОК. В возникшем окне Opening file (Открытие файла) (рисунок 3.13) не-

обходимо нажать кнопку Import all sheets to a Workbook (Импортировать все листы в Рабочую книгу). Затем в появив-

шемся окне Open Excel Workbook (От-

крыть рабочую книгу Excel) (рисунок 3.14) необходимо поставить галочки в оп-

циях Get variable names from first row (Имена переменных из первой строки) и Get case names from first column (Имена наблюдений из первого столбца) и

нажать кнопку ОК. Затем в появившемся окне Import Text Label Values (Импорт значений текстовых меток) (рисунок 3.15) необходимо поставить галочку в оп-

ции Do this for all numeric variables when the data is text (Делать это для всех числовых переменных, где текстовые данные) и нажать кнопку Import as Text

Labels (Импорт. как текстовые метки). На экране появится импортированная из Excel таблица пищевой ценности продуктов (рисунок 3.16).

Рисунок 3.14 – Окно Open Excel Рисунок 3.15 – Окно окне Import Text Label

Workbook (Открыть рабочую

Values (Импорт значений

книгу Excel)

текстовых меток)

2 Вычислим описательные статистики для исходных данных: во вкладке Statistics (Анализ) в группе Base (Базовые статистики) необходимо выбрать ко-

манду Basic Statistics (Основные статистики и таблицы) – затем в возникшем окне Basic Statistics and Tables (Основные статистики и таблицы) выбрать пункт Descriptive statistics (Описательные статистики) и нажать ОК. В возник-

87

шем окне Descriptive statistics (Описательные статистики), нажав кнопку Variables (Переменные), выберем переменные для анализа – пищевая ценность про-

дукта и калорийность, белок, жиры, углеводы. Затем выберем статистические по-

казатели – Valid N (N набл.), Mean (Среднее), Conf. limits for means (Доверит.

интервал среднего) 95%, Minimum & maximum (Минимум и максимум),

Range (Размах), Variance (Дисперсия), Standard Deviation (Стандартное от-

клонение), Std. err. of mean (Стандартн. ошибка среднего) – и нажмем кнопку

Summary (OK). На экране появится таблица вычисленных статистических показателей (рисунок 3.17).

Рисунок 3.16 – Фрагмент таблицы пищевой ценности продуктов

Рисунок 3.17 – Описательные статистики для исходных данных

3 Проверим характер распределения переменных на нормальность по критерию Колмогорова–Смирнова. На вкладке Graphs (Графика) в группе Common

(Общие) выбрем команду Histogram (Гистограмма) и в окне 2D Histograms

(2М Гистограммы) во вкладке Advanced (Дополнительно), нажав кнопку Variables (Переменные), выбрем переменные для анализа – пищевая ценность про-

дукта и калорийность, белок, жиры, углеводы. Затем поставим галочку в опции

Kolmogorov-Smimov test (Критерий Колмогорова–Смирнова) и, нажав кнопку

ОК, построим гистограммы с расчетными значениями критерия. В таблице 3.3 представлены расчетные значения этого критерия, которые для всех переменных меньше табличного значения Dтабл = 0,25438 для n = 77 и α = 0,05. Следовательно

88

можно считать, что эмпирические распределения переменных не отличаются от нормального, и регрессионный анализ можно проводить.

Таблица 3.3 – Расчетные значения критерия Колмогорова–Смирнова

Наименование показателя

Расчетное значение

критерия Колмогорова–Смирнова Dрасч

 

белок

0,1961

калорийность

0,2027

жиры

0,2454

углеводы

0,0729

пищевая ценность продукта

0,1304

4 Проведем корреляционный анализ. Во вкладке

Statistics (Анализ) в группе

Base (Базовые статистики)

выберем команду Basic Statistics (Основные статистики и таблицы) – затем в окне

Basic Statistics and Tables (Основные статистики и таблицы) выберем пункт

Correlation matrices (Пар-

ные и частные корреляции)

инажмем ОК. В появившем-

ся окне Product-Moment and

Partial Correlations (Парные

ичастные корреляции) (ри-

сунок 3.18), нажав кнопку

One variable list (Квадрат-

Рисунок 3.18 – Окно Product-Moment and Partial

ная матрица), выберем пе-

 

ременные для анализа – пи- Correlations (Парные и частные корреляции)

щевая ценность продукта и

калорийность, белок, жиры, углеводы. Затем нажмем кнопку Summary (ОК). На экране появится таблица с результатами корреляционного анализа (рисунок 3.19).

Между переменной пищевая ценность продукта и калорийность наблюдается сильная отрицательная корреляция, средняя корреляция переменной пищевая ценность продукта наблюдается с переменными белок и жиры, самая слабая корре-

ляция с переменной пищевая ценность продукта у переменной углеводы.

89

Рисунок 3.19 – Таблица с результатами корреляционного анализа

5 Откроем модуль Multiple Regression (Множественная регрессия): во вкладке Statistics (Анализ) в группе Base (Базовые статистики) необходимо выбрать команду Multiple Regression (Множественная регрессия). На экране появится стартовое окно этого модуля (рисунок 3.20), в котором, нажав кнопку Variables (Переменные), необходимо выбрать зависимую переменную (Dependent var.) – пищевая ценность продукта – и независимые переменные (Independent var.) калорийность, белок, жиры, углеводы. На этот раз будем использовать вкладку Advanced (Дополнительно), в которой поставим галочку в опции

Advanced options (stepwise or ridge regression) (Пошаговая или гребневая рег-

рессия) и нажмем кнопку ОК.

Рисунок 3.20 – Стартовое окно модуля

Multiple Regression (Множественная регрессия)

90