Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Методические указания и задания МАД.doc
Скачиваний:
40
Добавлен:
05.05.2019
Размер:
752.64 Кб
Скачать

2. Множественная регрессия

Главные понятия

Целью множественного корреляционно-регрессионного анализа (Multiply Regression) является установление и количественная оценка тесноты связей между парами независимых переменных (предикторов), оценка их влияния на зависимую переменную и построение уравнения регрессии: .

Коэффициенты парной корреляции выражают тесноту линейной связи независимых переменных. Коэффициенты частной корреляции (Partial Correlation) также выражают тесноту связи пары переменных, но после учета влияния оставшихся переменных.

Коэффициент множественной детерминации R2 (R-квадрат) - оценивает влияние вариации всех m предикторов на вариацию результата и изменяется в пределах от 0 до 1.

Коэффициент множественной корреляции (Multiply R) - численная характеристика силы связи зависимой переменной со всеми предикторами. Изменяется в пределах от 0 до 1.

Регрессионная модель выражает взаимосвязь зависимой переменной с предикторами и имеет вид , где ошибка модели. Частный случай линейные модели: .

Для оценки качества регрессионной модели используют метод дисперсионного анализа, который предполагает разложение общей суммы квадратов Total SS на две составляющие, одна из которых объясняется уравнением регрессии (Regression SS) – это вариация относительно линии регрессии, а другая характеризует остаток, необъясненную часть (Residual SS). При делении каждого из слагаемых соответствующее число степеней свободы получают дисперсии (MS, Mean SS).

F-критерий Фишера-Снедекора для оценки надежности (статистической значимости) уравнения регрессии предполагается вычисление F-отношения дисперсии регрессии к остаточной. Его p-значение сравнивается с уровнем значимости 0,05. При p<0,05 уравнение регрессии статистически значимо.

Расчетные формулы и комментарии приведены в Приложении.

Пример 2.1. Стандартный регрессионный анализ

Данные. Пример основан на сопоставлении данных объектов переписи 1960 и 1970 гг. приведенных в файле poverty.sta из папки Examples/Datasets директории STATISTICA. (30 записей – районов).

Имена переменных:

POP_CHNG изменение населения;

N_EMPLD количество занятых в сельском хозяйстве;

PR_POOR процент семей ниже уровня бедности;

TAX_RATE налоговая ставка;

PT_PHONE процент жителей с телефоном;

PT_RURAL процент сельского населения;

AGE средний возраст.

Цель исследования: выявить переменные, наилучшим образом предсказывающие процент семей ниже черты бедности.

Выполнение анализа. Из меню Statistics выбрать Multiple Regression и в диалоге Multiple Linear RegressionQuick задать переменные: зависимую (Dependent) – PT_POOR, независимые (Independent) – все остальные.

На закладке Advanced отметить Review descriptive statistics, correlation matrix (Просмотр описательной статистики и корреляционных матриц). После нажатия OK откроется обзор результатов, где можно выбрать Means& standard deviations и просмотреть полученные статистики.

Распределение переменныхDistribution of variables можно изучить с помощью пункта Histograms из меню Graphs, выбрав PT_POOR или все переменные и задав в опции Categories (интервалы) число 16. Как видно, распределение переменной PT_POOR не вполне соответствует нормальному – есть выделяющиеся значения и имеются два пункта (две крайние колонки) с высоким процентом бедных семей (выше, чем ожидаемый в соответствии с нормальным распределением). Тем не менее, будем считать это в рамках допустимого.

Это решение несколько субъективно; озабоченность может вызывать то, что некоторые наблюдения отстоят от среднего за пределами ±3 стандартных отклонений. В таких случаях рекомендуется провести анализ дважды, включая и исключая выбросы, для уверенности в отсутствии их серьезного влияния на характер взаимосвязей.

Распределение можно рассмотреть также в диалоге Review descriptive statisticsAdvanced с помощью диаграмм Box&Whisker, указав опцию Median/Quartile/Range.

Выполнение собственно регрессионного анализа производится нажатием кнопки OK в диалоге Review descriptive statistics.

Просмотр результатов выполняется в текстовом окне диалога Multiple Regression Results. Прежде всего, уравнение множественной регрессии имеет высокую значимость. Множественное корреляционное отношение R=0,8821, коэффициент множественной детерминации R2=0,7782; это означает высокую долю вариации предикторов в вариации переменной PT_POOR. Значение F-отношения (F=13,44909 при p=0,000002) подтверждает статистическую значимость уравнения. Значит, с помощью независимых переменных можно «предсказывать» уровень бедности.

Коэффициенты регрессии. Для выяснения, какие переменные вносят в предсказание наибольший вклад, исследуются коэффициенты регрессии (В-коэффициенты). Нажмите кнопку Summary: Regression results и рассмотрите таблицу коэффициентов.

В таблице представлены стандартизованные коэффициенты регрессии (Beta) и линейные коэффициенты регрессии (В). Значения Beta-коэффициентов позволяют сопоставить относительный вклад каждой независимой переменной в предсказание зависимой переменной. Переменные POP_CHNG, PT_RURAL и N_EMPLD являются наиболее важными в предсказании, к тому же только первые две из них статистически значимы (их p-значения менее 0,05). Коэффициент регрессии для POP_CHNG отрицателен – чем меньше изменение населения в районе, тем больше там число семей ниже уровня бедности. Регрессионный вес для PT_RURAL положителен – чем выше процент сельского населения в районе, тем выше уровень бедности.

Частные корреляции. Другим способом оценки уникального вклада каждой независимой переменной является вычисление коэффициентов частной и получастной корреляции. Нажмите кнопку Partial correlations на закладке Advanced в диалоге Results. Частная корреляция – это корреляция между соответствующей независимой переменной, после учета других переменных, и зависимой переменной, после учета других переменных. Частные корреляции представляют уникальный вклад соответствующей независимой переменной в предсказание зависимой переменной.

Получастная корреляция – это корреляция между соответствующей независимой переменной, после учета других переменных, и зависимой переменной без учета других переменных. Квадрат получастной корреляции – это показатель процента общей вариации, объясненной соответствующей независимой переменной, в то время как квадрат частной корреляции – это показатель доли остаточной вариации, объясненной после согласования зависимой переменной со всеми другими независимыми переменными.

В данном примере частные и получастные корреляции относительно совпадают. Однако иногда их значения могут сильнее отличаться (получастные корреляции обычно ниже).

Анализ остатков. После подбора уравнения регрессии необходимо исследовать предсказанные и остаточные последовательности. К примеру, выбросы могут серьезно искажать результаты и привести к ошибочным выводам. В диалоге Multiple Regression Results на закладке Residuals/assumptions/prediction нажмите кнопку Perform residual analysis.

Точечные диаграммы остатков. Изучение рядов стандартизованных остатков необходимо для определения значительных отклонений (выбросов). На закладке Residuals можно воспользоваться кнопкой Casewise plot of residuals; по умолчанию будет распечатан ряд остатков в виде точечной диаграммы в шкале 3sigma. Если какой-либо остаток выходит за пределы ±3 стандартных отклонений, его, вероятно, нужно исключить и провести анализ сначала, чтобы увериться в том, что ключевые результаты не искажены.

Точечные диаграммы выбросов. Быстро обнаружить выбросы можно на закладке Outliers, нажав кнопку Casewise plot of outliers и указав тип остатка. Можно выбрать расстояние Махаланобиса (Mahalanobis distances), которое упрощенно говоря, покажет расстояния остатков от центра тяжести (среднее по всем переменным). В данном примере наиболее удаленным будет район Shelby, который и в исходной таблице выделяется среди других наблюдений.

Удаленные остаткиDeleted Residuals. Удаленный остаток – это стандартизованный остаток для некоторого наблюдения, который получается, если наблюдение исключить из анализа. Процедура регрессии определяет прямую, выражающую связь между зависимой и независимой переменными. Если наблюдение является явным выбросом (как Shelby в данном примере), то оно «оттягивает» линию регрессии. В результате, если выброс исключить, то появляется другая линия (и другие В-коэффициенты). Следовательно, если удаленный остаток сильно отличается от стандартизованного, то можно ожидать, что соответствующее наблюдение серьезно влияет на регрессионный анализ. В данном примере удаленный остаток для Shelby указывает выброс, влияющий на анализ. На диаграмме связи стандартизованных остатков и удаленных остатков, построенной с помощью кнопки Residuals vs. deleted residuals на закладке Scatterplots, явно виден выброс.

STATISTICA предлагает интерактивное средство для исключения остатков (BrushingTool, кисть) с целью экспериментальной проверки влияния остатков на линию парной регрессии. Если это средство активировать на панели инструментов, курсор превратится в «крестик», а рядом с диаграммой появится диалоговое окно. Для временного удаления отдельных точек нужно выбрать опцию Auto Apply , а затем указать курсором нужную точку на графике – эта точка автоматически исключится (временно). Для ее возврата нужно нажать кнопку Reset All.

Диаграммы нормальных вероятностейNormal probability plots. Диалог Residual Analysis предлагает множество диаграмм, большинство из которых понятно интерпретируются. Но следует прокомментировать диаграммы нормальных вероятностей.

Как известно, множественный регрессионный анализ предполагает существование линейной связи между переменными и нормальное распределение остатков. При нарушении этих предположений окончательные выводы могут быть неточными. Диаграмма нормальных вероятностей показывает, имеются ли таковые нарушения.

Нажав кнопку Normal plot of residuals на закладке Probability plots, получите эту диаграмму. Здесь по оси абсцисс откладываются наблюдаемые остатки (в упорядоченной по возрастанию последовательности), а по оси ординат – z-значения стандартного нормального распределения. В случае нормального распределения остатков точки на диаграмме расположены вдоль прямой (диагонали), в противном случае точки существенно отклоняются от нее.

3. Дисперсионный анализ (ANOVA/MANOVA)

Главные понятия

Основная цель дисперсионного анализа – это объяснение вариации переменной за счет влияющих факторов или случайных воздействий и разложение общей суммы квадратов отклонений от средних на компоненты, с последующей оценкой значимости. Разложение суммы квадратов часто называют разложением дисперсии.

Общая сумма квадратов (Total SS) является общей оценкой вариации переменной Y.

Межгрупповая сумма квадратов, или SS эффекта (Effect), объясняется различием между средними значениями в группах и общим средним, которое возникает как эффект воздействия фактора.

Внутригрупповая сумма квадратов, или SS остатка (Residual): внутри каждой группы значения переменной Y предполагаются однородными, и их вариация не связана с вариацией фактора; при проведении эксперимента эта сумма не может быть предсказана или объяснена.

Разложение дисперсии (суммы квадратов) на составляющие:

.

Дисперсии (MS, Mean Squares) вычисляются путем деления соответствующих SS на число степеней свободы.

Расчетные формулы и комментарии приведены в Приложении.

При вызове модуля ANOVA из меню Statistics открывается стартовая панель General ANOVA/MANOVA, в которой нужно указать тип диалога из следующих вариантов:

- One-way ANOVA – однофакторный дисперсионный анализ с одной категориальной независимой переменной;

- Main effects ANOVA – многофакторный дисперсионный анализ главных эффектов (без учета взаимодействий) нескольких независимых переменных;

-Factorial ANOVA –дисперсионный анализ эффектов взаимодействия высших порядков для нескольких независимых переменных;

- Repeated measures ANOVA – дисперсионный анализ с повторными измерениями.

Пример 3.1. Однофакторный дисперсионный анализ One-way ANOVA.

Это простейший тип диалога для случая одной независимой переменной (фактора) и одной зависимой (результата).

Данные взяты из файла sales figures.sta из папки Examples/Datasets с данными об объемах продаж некоторой компании в четырех регионах. С помощью команды File/Open Examples откройте таблицу с готовыми статистическими данными.

Цель анализа – выяснить влияние регионального фактора на объемы продаж.

Вызовите модуль ANOVA из меню Statistics. На открывшейся стартовой панели General ANOVA/MANOVA укажите тип диалога – One-way ANOVA и нажмите OK.

В диалоге выбора переменных укажите зависимую переменную SALE и независимую (фактор) – REGION.

В окне ANOVA Results на закладке Quick нажмите кнопку All effects/Graphs. В таблице Table of All Effects будет представлена межгрупповая сумма квадратов для переменной REGION, степень свободы, значения дисперсии F-отношения и его вероятности. По их величинам можно сделать вывод о значимости влияния фактора на уровни продаж. Двойным щелчком в этой таблице на имени переменной REGION можно вывести на экран диаграмму средних по четырем регионам (A,B,C,D).

По кнопке All Effects с закладки Quick можно получить таблицу одномерного теста значимости, в которой представлены значения межгрупповой и внутригрупповой сумм квадратов и их оценка значимости

Более детально эти и другие результаты можно просмотреть на закладке Summary.

Пример 3.2. Простой факторный анализ с повторными измерениями – Simple Factorial ANOVA with Repeated MeasuresПлан 2х2(between)х3(repeated measures).

В этом примере рассматриваются два межгрупповых фактора c двумя уровнями каждого и один фактор повторных измерений с тремя уровнями.

Данные. Откройте файл Adstudy.sta из папки Examples/Datasets. В нем представлены данные об оценках покупателями рекламы двух типов напитков Pepsi и Coke. Покупатели (мужчины и женщины) оценивают рекламу напитков, что фиксируется в таблице (25 оценок).

Цель анализа – установить сходство или различие в оценивании напитков.

Спецификация анализа. Первый межгрупповой фактор – GENDER (пол) с двумя уровнями Male и Female. Другой межгрупповой фактор – ADVERT (напиток) с двумя уровнями Pepsi и Coke. Эти факторы пересекаются, т.е. уровни одного фактора представлены в обеих группах второго фактора. Каждому из представителей заданы по 3 вопроса о рекламе (повторные измерения). Эти три уровня так называемого внутреннего (внутриобъектного) фактора представлены переменными Measures01, Measures02, Measures03.

В диалоге выбора переменных укажите Measures01, Measures02, Measures03 как зависимые переменные, а GENDER и ADVERT как факторы – в поле Categorial predictors. Затем нажмите кнопку OK.

Если не сделать дополнительных уточнений, то анализ будет проводиться в форме MANOVA – для трех различных зависимых переменных Measures01, Measures02, Measures03. Для определения фактора повторных измерений необходимо нажать кнопку Within effects, вызвать диалог Specify Within-subjects Factors и задать число уровней 3, а фактор определить именем RESPONSE (по умолчанию, R1). Отметим, что в этом диалоге можно определить только один внутренний фактор, а при необходимости работы с большим числом нужно использовать модуль Advanced Linear/Nonlinear Models.

Уровни для межгрупповых факторов определяются автоматически, что можно увидеть в просмотре по кнопке Factor codes. Учитывается также взаимодействие (Between effects) между этими факторами. Нажмите OK.

Выполнение анализа. В окне ANOVA Results представлено множество разных вариантов таблиц и графиков. Начните с просмотра итогов на закладке Quick – по кнопке All effects. В таблице представлены суммы квадратов для различных эффектов и их оценки значимости. Только один из эффектов (исключая Intercept) статистически значим – это RESPONSE (p=0,007).

Вернитесь в окно ANOVA Results (внизу слева) и выберите кнопку All effects/Graphs. Полученная таблица Table of all effects позволяет рассмотреть индивидуальные эффекты, в том числе графически – двойным щелчком на имени эффекта. Щелкнув на эффекте RESPONSE, получите диаграмму средних. Она показывает наличие убывающей тенденции. Несмотря на то, что значимых взаимодействий нет, рассмотрим взаимодействия высших порядков, чтобы понять сущность убывающей тенденции средних.

Двойным щелчком на строчке RESPONSE*GENDER*ADVERT в таблице Table of all effects вызовите диалог выбора переменных - Specify the arrangement of the factors in the plot и укажите в первой колонке ADVERT, во второй GENDER, в третьей RESPONSE, а затем нажмите OK. В полученном окне диаграмм три графика соответствуют средним по трем уровням измерений, в каждом из графиков определены разные положения средних в соответствии с полом, а типам напитков соответствуют линии средних разного цвета.

Как видно, образы средних, распределенные по уровням межгрупповых факторов, не показывают каких-либо видимых отличий от их общего образа в первом графике.

Пример 3.3. Полный факторный план для двух межгрупповых факторов с 2 и 3 уровнями – A 2x3 Between-Groups ANOVA Design.

Данные взяты из файла rats.sta – поведение крыс в лабиринте, он открывается с помощью команды File/ Open Examples.

Коды 1–free и 2–restricted использованы в категориальной переменной-предикторе ENVIRNMT, чтобы определять, принадлежит ли соответствующая крыса к группе обитающих в свободной или ограниченной среде. Коды, используемые для второй независимой переменной (STRAIN, напряжение), есть 1–Bright (ярко выражено), 2–Mixed (смешанный тип), и 3–Dull (безразличный). Зависимая переменная в эксперименте – ERRORS (число допущенных ошибок).

Спецификация анализа. Вызовите модуль ANOVA из меню Statistics.

На открывшейся стартовой панели General ANOVA/MANOVA укажите тип диалога – Factorial ANOVA и нажмите OK. В диалоге выбора переменных задайте зависимую (ERRORS) и категориальные (ENVIRNMT и STRAIN) переменные. Коды задайте по кнопке Factor codes.

По нажатию OK в таблице ANOVA Results выберите All effects/Graphs. В этой таблице представлены основные итоги. Оба главных эффекта статистически значимы (p<0,05), а взаимодействие – нет.

Рассмотрим предельные средние (средние в соответствии с наименьшими квадратами). Выделите в таблице эффект ENVIRNMT, нажмите дополнительно кнопку Spreadsheet и OK. В полученной таблице будут видны средние значения зависимой переменной по двум уровням фактора ENVIRNMT. Итог таков: крысы из свободной среды обитания делают меньше ошибок, чем крысы из ограниченной среды. Это же можно увидеть и на диаграмме (двойной щелчок на эффекте ENVIRNMT).

Для просмотра диаграмм взаимодействий вернитесь в таблицу All effects/Graphs и выделите эффект ENVIRONMT*STRAIN. По нажатию OK в диалоге Arrangement of Factors задайте в первой колонке переменную STRAIN, а во второй ENVIRNMT. По нажатию OK появится диаграмма средних, из которой видно, что крысы из ограниченной среды (пунктирная линия) делают больше ошибок, чем крысы из свободной среды (непрерывная линия). В то же время крысы безразличные делают больше ошибок, чем крысы среднего типа, и больше, чем беспокойные.