Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
598070_078D2_zorina_t_g_slonimskaya_m_a_marketi...doc
Скачиваний:
296
Добавлен:
24.09.2019
Размер:
3.85 Mб
Скачать

Пример.

В таблице Е частота покупки рыбных продуктов респондентами сопряжена с числом членов их семей. По данным кросс-табуляции можно сформулировать следующую нулевую гипотезу: "Частота покупки рыбных продуктов потребителями не зависит от числа членов их семей".

Таблица Е. Наблюдаемая частота покупки рыбных продуктов в зависимости от числа членов семьи

Число членов семьи

Всего

1-2

3-4

5 и более

1-3 раза в неделю

4

13

5

22

Несколько раз в месяц

27

79

13

119

Реже 2 раз в месяц

17

33

8

58

Всего

48

125

26

199

Для того, чтобы проверить нулевую гипотезу рассчитаем критерий χ2. Определяем ожидаемую частоту распределения признаков:

…;

Результаты расчета ожидаемой частоты покупки рыбных продуктов представлены в таблице Ж.

Таблица Ж. Ожидаемая частота покупки рыбных продуктов в зависимости от числа членов семьи

Число членов семьи

Всего

1-2

3-4

5 и более

1-3 раза в неделю

5,3

13,8

2,9

22

Несколько раз в месяц

28,7

74,7

15,5

119

Реже 2 раз в месяц

14,0

36,4

7,6

58

Всего

48

125

26

199

В данном случае таблица содержит три строки и три столбца, то есть распределение характеризуется четырьмя степенями свободы (3-1)x(3-1)=4. Вычисленное значение χ2 – 3,7. Так как оно меньше критического значения, равного 9,5 для 4-х степеней свободы и α=0,05 (см. табл. 2 прил.), нулевая гипотеза принимается.

Для таблиц с произвольным числом строк и столбцов используется коэффициент сопряженности признаков Пирсона

Если переменные не зависят друг от друга, то коэффициент сопряженности также равен нулю. Чем ближе данный показатель к единице, тем теснее связь между переменными. При этом он не может быть равен единице.

Существуют и другие меры связи между переменными в таблице сопряженности признаков, однако они используются реже.

Кросс-табуляция позволяет проанализировать взаимосвязь между номинальными переменными. Однако любые интервальные переменные могут быть использованы для формирования групп и, следовательно, для формирования номинальных переменных. Например, переменные «возраст» и «доход» являясь относительными, могут использоваться для определения категорий и стать номинальными.

В большинстве случаев маркетинговые исследования не идут дальше построения таблиц сопряженности признаков, и даже в рамках проектов, использующих более сложные аналитические методы, кросс-табуляция выступает в качестве важного компонента.

5.2.2. Дисперсионный анализ. Ковариационный анализ.

Дисперсионный и ковариационный анализ – статистические методы анализа маркетинговой информации, которые используются для изучения различий средних значений зависимых переменных, вызванных влиянием контролируемых независимых переменных, при условии, что учтено влияние неконтролируемых независимых переменных.

С помощью дисперсионного анализа исследуют влияние одной или нескольких независимых переменных на одну зависимую переменную (одномерный анализ) или на несколько зависимых переменных (многомерный анализ). При этом должна быть зависимая переменная, измеренная с помощью интервальной или относительной шкалы, и как минимум одна независимая переменная или фактор. В обычном случае независимые переменные принимают только дискретные значения (и относятся к номинальной или порядковой шкале); в этой ситуации также говорят о факторном анализе. Если же независимые переменные принадлежат к интервальной шкале или к шкале отношений, то их называют ковариациями, а соответствующий анализ — ковариационным.

Дисперсионный и ковариационный анализ целесообразно применять в случаях, когда необходимо выяснить ответы на следующие вопросы.

  • Различаются ли разные сегменты рынка с точки зрения объема потребления товара?

  • Различается ли отношение розничных, оптовых торговцев и торговых агентов к полити­ке распределения, проводимой фирмой?

  • Влияет ли осведомленность потребителей о магазине (высокая, средняя и низкая) на предпочтение данного магазина?

  • Как меняется намерение потребителей купить товар данной торговой марки при раз­личных уровнях цены и распределения?

  • Влияет ли на выбор потребителем данной торговой марки уровень образования (ниже среднего, среднее, колледж, высшее) и возраст?

  • Как осведомленность об универмаге (высокая, средняя, низкая) и представление о нем (позитивное, нейтральное, негативное) влияют на предпочтение потребителем этого магазина?

  • При определении намерений потребителей относительно приобретения товара извест­ной фирмы в зависимости от цены необходимо учесть отношение к торговой марке.

Несмотря на то, что дисперсионный и ковариационный анализы используют чаще всего для анализа экспериментальных данных, они также полезны для анализа результатов опроса или данных наблюдений.

К статистикам, используемым в дисперсионном анализе, относятся:

ŋ2 , эта-квадрат – корреляционное отношение. С ее помощью выражают степень влияния или силу эффекта X (независимой переменной или переменных) на Y (зависимую переменную). Значение ŋ2 лежит в интервале от 0 до 1.

F-критерий (F-статистика) – отношение межгрупповой дисперсии к дисперсии ошибки, с помощью которого проверяют равенство категориальных средних в выборочных совокупностях.

MS, средний квадрат – это сумма квадратов отклонений наблюдений, поделенная на соответствующее ей число степеней свободы.

SSx, вариация переменной Y, обусловленная различием средних между группами (межгрупповая вариация). Вариация переменной Y, связанная с вариацией средних значений категорий переменной X. Она представляет собой вариацию между уровнями переменной Х или долю в сумме квадратов переменной Y, связанную с переменной X.

SSошибки, вариация переменной Y, обусловленная вариацией внутри каждой группы категорий (внутригрупповая дисперсия). Это вариация переменной Y, обусловленная изменением внутри каждой из групп переменной X. Она осуществляется за счет всех факторов, кроме X (при исключенном X).

Общая сумма квадратов SSy. Полная дисперсия переменной Y.

Процедура выполнения дисперсионного и ковариационного анализов состоит из следующих этапов (рисунок. 5.3).

Первым шагом осуществления анализа необходимо решить, разницу между средними в каких выборках, следует рассчитывать. В связи с этим возникает вопрос о выборе переменных для исследования.

В самом простом случае имеется предположение, что существует зависимость между некоторыми переменным. Для того, чтобы проверить существование такой зависимости, необходимо типизировать переменные, а затем определить какая из них будет зависимой и какая (какие) независимой. Зависимая переменная – метрическая, то есть, измерена с помощью интервальной или относительной шкалы, а независимые переменные – категориальные, измеренные с помощью порядковой или номинальной. Независимые переменные получили название факторов.

Рисунок 5.3. Процедура дисперсионного анализа.

1. Определение зависимой и независимой переменной (переменных).

Пусть Y — зависимая переменная, а xiнезависимая переменная. xiэто категориаль­ная переменная, имеющая k категорий (уровней, групп). Для каждой группы xi существует п наблюдений Y. Для упрощения часто допускают, что размеры выборок в группах переменной xi (групповые размеры) равны, но это допущение необязательно.

Пример.

Специалистами службы маркетинга одного из предприятий молочной отрасли был проведен опрос потребителей молочных продуктов. После предварительного анализа результатов, специалисты выявили необходимости более детального исследования факторов, от которых зависит предпочтительный объем разовой покупки творожного десерта.

Были сформулированы следующие предположения:

1. Существует зависимость между предпочтительным объемом покупки творожного десерта и семейным положением. Предположительно семейные люди приобретают творожные десерты для детей.

Вопрос о предпочтительном объеме творожного десерта в качестве вариантов ответа предполагал восемь различных вариантов размеров порций (200 г, 250 г, 300 г и т.д.), а вопрос о семейном положении имел три категории ответов (не женат; женат; разведен). Таким образом, в данном случае в качестве зависимой переменной выступает предпочтительный объем творожного десерта, а в качестве независимой – семейное положение.

2. Предпочтительный объем разовой покупки творожного десерта зависит как от наличия детей у покупателя (семейного положения), так и от уровня дохода (который косвенно может быть определен с помощью рода занятий), поскольку творожный десерт не относится к категории продуктов, входящих в минимальную потребительскую корзину.

В качестве вариантов ответов на вопрос о роде занятий было выделено девять категорий: руководитель; предприниматель; специалист; служащий; студент; домохозяйка; пенсионер; преподаватель; военнослужащий. Следовательно, в такой постановке задачи зависимой переменной является предпочтительный объем разовой покупки творожного десерта, а независимыми переменными – семейное положение и род занятий.

Продолжение примера.

3. Между семейным положением, родом занятий, возрастом покупателей и предпочтительным для них объемом творожных десертов имеет место зависимость. Вероятное всего покупатели молодого возраста приобретают творожные десерты в больших объемах.

Так как возможные ответы на вопрос о возрасте в анкете были представлены в виде интервальной шкалы, в данной модели он будет служить ковариатой, а факторами – семейное положение и род занятий покупателей. Зависимая переменная – предпочтительный объем разовой покупки творожного десерта.

2. Выбор метода разложения дисперсии. Метод разложения дисперсии зависит от количества и типа используемых переменных (рисунок 5.4).

Рисунок 5.4. Выбор метода разложения дисперсии в зависимости от количества и типа переменных.

Пример 1.

Для проверки предположения №1 о существовании зависимости между предпочтительным объемом покупки творожного десерта и семейным положением целесообразно применение однофакторного дисперсионного анализа, где

в качестве зависимой переменной будет выступать предпочтительный объем разовой покупки творожного десерта;

в качестве фактора – семейное положение покупателя.

Пример 2.

Для проверки предположения №2 о зависимости предпочтительного объема покупок творожного десерта от семейного положения и рода деятельности покупателей возможно применение многофакторного дисперсионного анализа, где

в качестве зависимой переменной будет выступать предпочтительный объем разовой покупки творожного десерта;

в качестве факторов – семейное положение и род занятий покупателя.

Пример 3.

Для проверки предположения №3 о наличии зависимости предпочтительного объема покупок творожного десерта от семейного положения, рода деятельности и возраста покупателей возможно применение ковариационного анализа, где

в качестве зависимой переменной будет выступать предпочтительный объем разовой покупки творожного десерта;

в качестве факторов – семейное положение и род занятий покупателя;

в качестве ковариаты – возраст покупателя.

3. Разложение полной дисперсии.

Для изучения различий между средними дисперсионный анализ исполь­зует разложение полной вариации, наблюдаемой в зависи­мой переменной.

В дисперсионном анализе разделение вариации, зависимой переменной, на вариацию, обусловленную различием средних внутри групп плюс вариацию, обуслов­ленную внутригрупповой изменчивостью.

Эту вариацию вычисляют как сумму квадратов с поправкой на среднее (на число степеней свободы) (SS). Дисперсионный анализ называют так потому, что он изучает изменчивость или дисперсию выборки (применительно к зависимым переменным) и, исходя из этой изменчиво­сти, определяет, действительно ли выборочные средние равны между собой.

Полную вариацию в однофакторном дисперсионном анализе, обозначаемую SS, можно разложить на два компонента:

где нижние индексы относятся к группам переменной X. SSx - это вариация переменной Y, связанная с различием средних между группами пере­менной X. Она представляет вариацию между категориями переменной Х (межгрупповая из­менчивость). Другими словами, SSx это доля в сумме квадратов переменной Y, обуслов­ленная действием независимой переменной или фактором X. SSошибки - это вариация переменной Y, связанная с вариацией внутри каждой группы переменной Х, ее вычисляют не учитывая фактор Х.

где Xij – результат i-го наблюдения j-го варианта или группы;

nj – количество наблюдений j-го варианта;

n – общее количество наблюдений во всех вариантах;

– среднее значение для j-го варианта;

– общее среднее для всех n наблюдений.

В таблице 5.8 представлены базовые статистики, рассчитываемые в рамках однофакторного дисперсионного анализа.

Таблица 5.8. Базовая таблица однофакторного дисперсионного анализа.

Компоненты дисперсии

Сумма квадратов

Cтепени свободы

Средний квадрат

F-критерий

Межгрупповая

k - 1

Внутригрупповая

n - k

Общая

n - 1

Смысл разложения полной вариации в переменной SSy на компоненты SSx и SSошибки в том, чтобы наглядно представить и затем изучить различия в групповых средних. В дис­персионном анализе рассматривают несколько различных групп (например, сильное, среднее, слабое использование, отсутствие использования товара). Если нулевая гипотеза верна, и все группы имеют одно и то же среднее значение совокупности, то можно оценить, насколько сильно отличаются выборочные средние вследствие только выборочной (случайной) вариации. Если наблюдаемое различие в выборочных средних больше ожидаемого, то логично заключить, что эта дополнительная вариация связана с различиями в групповых средних в совокупности.

Пример 1.

Для проверки предположения №1 о существовании зависимости между предпочтительным объемом покупки творожного десерта и семейным положением был проведен однофакторный дисперсионный анализ с помощью программного пакета SPSS. Результаты представлены в таблицах А и Б.

Таблица А. Дескриптивные статистики. Зависимая переменная: объем творожного десерта.

Семейное положение

Среднее

Стандартное отклонение

Количество наблюдений

Не женат (не замужем)

2,55

1,830

580

Женат (замужем)

2,12

1,305

366

Разведен (а)

1,93

0,979

55

Итого

2,36

1,633

1001

Продолжение примера 1.

Таблица Б. Оценка эффектов межгрупповых факторов.

Компоненты дисперсии

Сумма квадратов

Степени свободы

Средний квадрат

F-критерий

Значимость

Скорректированная модель

52,757

2

26,378

10,074

0,000

Свободный член

1921,127

1

1921,127

733,690

0,000

Семейное положение

52,757

2

26,378

10,074

0,000

Ошибка

2613,207

998

2,618

Итого

8230,000

1001

Скорректированный итог

2665,964

1000

Как видно из таблицы Б в данном случае SSy = 2665,964, SSx = 52,757, SSошибки = 2613,207. Таким образом, полная вариация предпочтительного объема разовой покупки творожного десерта составляет 2665,964, из которых 52,757 объясняется различием средних между женатыми, неженатыми и разведенными покупателями, а 2613,207 – объяснятся изменениями средних прочих факторов, исключая семейное положение покупателей.

Процедура многофакторного дисперсионного анализа аналогична процедуре однофакторного дисперсионного анализа. Многофакторный анализ не меняет общую логику дисперсионного анализа, а лишь несколько усложняет ее, поскольку, кроме учета влияния на зависимую переменную каждого из факторов по отдельности, следует оценивать и их совместное действие. Таким образом, то новое, что вносит в анализ данных многофакторный дисперсионный анализ, касается в основном возможности оценить межфакторное взаимодействие. Тем не менее, по-прежнему остается возможность оценивать влияние каждого фактора в отдельности. Взаимодействия имеют место, когда эффекты одного фактора на зависимую переменную зависят от уровня других факторов. Статистики, соответствующие многофакторному дисперсион­ному анализу, также определяются аналогично определению статистик в однофакторном дис­персионном анализе.

Отклонение от основных предпосылок дисперсионного анализа — нормальности распределения исследуемой переменной и равенства дисперсий в ячейках (если оно не чрезмерное) — не сказывается существенно на результатах дисперсионного анализа при равном числе наблюдений в ячейках, но может быть очень чувствительно при неравном их числе. Кроме того, при неравном числе наблюдений в ячейках резко возрастает сложность аппарата дисперсионного анализа. Поэтому рекомендуется при неравном числе наблюдений для расчетов рекомендуется использовать соответствующие пакеты прикладных программ (STATISTICA, SPSS и др.)

Рассмотрим простой пример эксперимента с равным количеством наблюдений, в который входят факторы X1 и Х2. В этом случае полная вариация раскладывается следующим образом:

где SSx1 - это вариация переменной Y, связанная с различием средних между группами пере­менной X1;

SSx2 - это вариация переменной Y, связанная с различием средних между группами пере­менной X2;

SSx1x2 - это вариация переменной Y, связанная с взаимодействием X1 и X2.

Большее влияние X1 будет отражаться в большем отличии среднего в уровнях X1 и более вы­соком значении SSx1. Это же касается и фактора Х2. Чем сильнее взаимодействие между факто­рами X1 и X2, тем больше значение SSx1x2. С другой стороны, если X1 и X2 зависят один от дру­гого, то значение SSx1x2 приближается к нулю.

В таблице 5.9 представлен общий вид вычисления значений, с помощью двухфакторного дисперсионного анализа при равном числе наблюдений.

Таблица 5.9. Базовая таблица двухфакторного дисперсионного анализа при равном числе наблюдений.

Компоненты дисперсии

Сумма квадратов

Число степеней свободы

Средние квадраты

F-критерий

Модель

(n-1) + (k-1) + (n-1)(k-1)

Межгрупповая (фактор x1)

n - 1

Межгрупповая (фактор x2)

k - 1

Взаимодействие

(k-1)(n-1)

Ошибка

knl - kl

Общая

knl - 1

Пример 2.

Для проверки предположения №2 о зависимости предпочтительного объема покупок творожного десерта от семейного положения и рода деятельности покупателей был проведен двухфакторный дисперсионный анализ с помощью программного пакета SPSS. Результаты представлены в таблицах В и Г.

Таблица В. Дескриптивные статистики. Зависимая переменная: объем творожного десерта.

Семейное положение

Род занятий

Среднее

Стандартное отклонение

Количество наблюдений

Не женат (не замужем)

Руководитель

3,29

2,555

14

Предприниматель

2,32

2,239

34

Специалист предприятия

2,79

1,931

247

Служащий предприятия

2,56

1,861

144

Студент

2,20

1,331

108

Преподаватель

1,53

0,681

30

Военнослужащий

4,00

0,000

3

Итого

2,55

1,830

580

Женат (замужем)

Руководитель

2,29

0,859

24

Предприниматель

1,20

0,447

5

Специалист предприятия

2,15

1,614

152

Служащий предприятия

2,09

1,202

107

Студент

2,25

1,288

12

Домохозяйка

2,06

0,744

62

Пенсионер

2,00

0,000

4

Итого

2,12

1,305

366

Разведен (а)

Предприниматель

1,40

0,507

15

Специалист предприятия

2,11

1,100

19

Служащий предприятия

1,40

0,548

5

Студент

2,75

1,389

8

Преподаватель

2,00

0,000

8

Итого

1,93

0,979

55

Итого

Руководитель

2,66

1,729

38

Предприниматель

1,96

1,853

54

Специалист предприятия

2,53

1,815

418

Служащий предприятия

2,34

1,618

256

Студент

2,24

1,327

128

Домохозяйка

2,06

0,744

62

Пенсионер

2,00

0,000

4

Преподаватель

1,63

0,633

38

Военнослужащий

4,00

0,000

3

Итого

2,36

1,633

1001

Продолжение примера 2.

Таблица Г. Оценка эффектов межгрупповых факторов.

Компоненты дисперсии

Сумма квадратов

Степени свободы

Средний квадрат

F-критерий

Значимость

Скорректированная модель

143,765

18

7,987

3,110

0,000

Свободный член

718,788

1

718,788

279,855

0,000

Семейное положение

19,513

2

9,757

3,799

0,023

Род занятий

38,971

8

4,871

1,897

0,057

Семейное положение * Род занятий

25,208

8

3,151

1,227

0,280

Ошибка

2522,199

982

2,568

Итого

8230,000

1001

Скорректированный итог

2665,964

1000

Как видно из таблицы Г в данном случае SSy = 2665,964, SSx1 = 19,513, SSx2 = 38,971, SSx1x2 = 25,208, SSошибки = 2522,199. Таким образом, полная вариация предпочтительного объема разовой покупки творожного десерта составляет 2665,964, из которых 19,513 объясняется различием средних семейного положения покупателя, 38,971 – различием средних рода занятий, 25,208 – взаимодействием семейного положения и рода занятий, а 2522,199 – объяснятся изменениями средних прочих факторов.

При осуществлении ковариационного анализа зависимая переменная статистически корректируется на основе связанной с ней дополнительной информацией (ковариатой), с тем, чтобы устранить вносимую извне изменчивость и повысить эффективность анализа.

Следовательно, ковариату используют для уда­ления посторонней вариации из зависимой переменной, поскольку самыми важными являют­ся эффекты факторов. Вариацию в зависимой переменной, обусловленную ковариатой, удаля­ют корректировкой среднего значения зависимой переменной в пределах каждого из факторов (условий экс­перимента). Затем, исходя из скорректированных оценок, выполняют дисперсионный анализ.

Рассмотрим простой пример эксперимента с равным количеством наблюдений, в который входят факторы X1 и Х2 и ковариата Z. В этом случае полная вариация раскладывается следующим образом:

где SSz - это вариация переменной Y, связанная с различием средних между группами ковариаты Z.

Пример 3.

Для проверки предположения №3 о наличии зависимости предпочтительного объема покупок творожного десерта от семейного положения, рода деятельности и возраста покупателей был проведен двухфакторный дисперсионный анализ с помощью программного пакета SPSS. Результаты представлены в таблице Д.

Таблица Д. Оценка эффектов межгрупповых факторов.

Компоненты дисперсии

Сумма квадратов

Степени свободы

Средний квадрат

F-критерий

Значимость

Скорректированная модель

156,874

19

8,257

3,228

0,000

Свободный член

282,126

1

282,126

110,305

0,000

Возраст

13,108

1

13,108

5,125

0,024

Семейное положение

9,211

2

4,606

1,801

0,166

Род занятий

38,601

8

4,825

1,887

0,059

Семейное положение * Род занятий

27,410

8

3,426

1,340

0,220

Ошибка

2509,090

981

2,558

Итого

8230,000

1001

Скорректированный итог

2665,964

1000

Как видно из таблицы Д в данном случае SSy = 2665,964, SSx1 = 9,211, SSx2 = 38,601, SSx1x2 = 27,410, SSz = 13,108, SSошибки = 2509,090. Таким образом, полная вариация предпочтительного объема разовой покупки творожного десерта составляет 2665,964, из которых 9,211 объясняется различием средних семейного положения покупателя, 38,601 – различием средних рода занятий, 27,410 – взаимодействием семейного положения и рода занятий, 13,108 – различием средних возраста (ковариаты), а 2509,090 – объяснятся изменениями средних прочих факторов.

4. Измерение эффектов.

В однофакторном дисперсионном анализе сила влияния переменной X на Y измеряется с помощью SSx. Поскольку SSx связана с ва­риацией средних значений групп X, то относительное значение SSx растет с увеличением раз­личий между средними значениями Y в группах X. Относительное значение SSx также увели­чивается при уменьшении вариаций Y внутри групп X. Эффект влияния переменной X на Y вычисляют по формуле:

Значение корреляционного отношения ηг лежит в пределах от 0 до 1. Оно равно нулю, когда все групповые средние равны, т.е. переменная X не влияет на Y. Значение ηг равно 1, когда внутри каждой из групп переменной X изменчивость отсутствует, но имеется некоторая измен­чивость между группами. Таким образом, ηг представляет собой меру вариации Y, которая объ­ясняется влиянием независимой переменной X. Мы не только можем измерить влияние X на Y, но и проверить его значимость.

Пример 1.

Исходя из данных таблицы Б, определим эффект влияния семейного положения на предпочтительный объем разовой покупки творожного десерта.

.

Таким образом, 1,98% вариации предпочтительного объема разовой покупки творожного десерта обусловлено влияем семейного положения покупателя, что указывает на слабый эффект.

При многофакторном дисперсионном анализе эффект влияния определяется с помощью множественной корреляции. Множественная корреляция – это степень объединенного влияния двух или более факторов или полный эффект. Так при осуществлении двухфакторного дисперсионного анализа эффект объединенного влияния имеет следующий вид:

.

Пример 2.

Исходя из данных таблицы Г, определим эффект влияния семейного положения на предпочтительный объем разовой покупки творожного десерта.

.

Таким образом, 3,14% вариации предпочтительного объема разовой покупки творожного десерта обусловлено влияем семейного положения и рода занятий покупателя, что указывает на слабый эффект. Однако, сравнив эффекты влияния однофакторного (пример 1) и двухфакторного дисперсионного анализа, можно сделать вывод, что введение рода занятий в качестве дополнительной переменной увеличивает эффект влияния.

В случае осуществления ковариационного анализа при измерении эффекта степень влияния ковариаты не учитывают. Методика же расчета множественной регрессии аналогична многофакторному дисперсионному анализу.

Пример 3.

Исходя из данных таблицы Д, определим эффект влияния семейного положения на предпочтительный объем разовой покупки творожного десерта.

.

Таким образом, 2,82% вариации предпочтительного объема разовой покупки творожного десерта обусловлено влияем семейного положения и рода занятий покупателя, что указывает на слабый эффект. Однако, сравнив эффекты влияния двухфакторного дисперсионного (пример 2) и ковариационного анализа, можно сделать вывод, что эффект влияния с введением ковариаты уменьшился. Возможно, это связано с наличием взаимного влияния ковариаты и одного их факторов.

  • Оценка полной дисперсииMSy:

5. Проверка значимости.

В однофакторном дисперсионном анализе проверяют нулевую гипотезу, утверждающую, что групповые средние в рассматриваемой совокупности равны.

В соответствии с нулевой гипотезой значения SSX и SSошибки зависят от одного источника ва­риации. В таком случае оценка дисперсии совокупности Y может определяться межгрупповой или внутригрупповой вариацией. Иначе говоря, оценка дисперсии совокупности Y:

и ли

Нулевую гипотезу можно проверить с помощью F-статистики, рассчитываемой как отно­шение между этими двумя оценками дисперсий:

Эта статистика подчиняется F-распределению с числом степеней свободы (df), равным (k 1) и (nk). Таблица распределения. F-статистики приведена в приложении 3. F-распределение представляет собой распределение вероят­ностей отношений выборочных дисперсий. Значение F зависит от числа степеней свободы в числителе и знаменателе.

Пример 1.

Исходя из данных таблицы Б, проведем проверку значимости влияния семейного положения на предпочтительный объем разовой покупки творожного десерта.

Исходя из приложения 3, находим, что для 2 и 998 степеней свободы критическое значение F-статистики равно 3,00 при уровне значимости α = 0,05. Посколь­ку вычисленное значение F -статистики больше критического, мы отклоняем нулевую ги­потезу.

В многофакторном дисперсионном анализе проверку значимости осуществляют путем оценки значимости полного эффекта:

.

Если полный эффект статистически значимый, то на следующем этапе изучают значимость эффекта. Если нулевая гипотеза утвер­ждает, что взаимодействие между факторами отсутствует, то соответствующий F-критерий вы­числяют по формуле:

.

Если окажется, что эффект взаимодействия статистически значимый, значит, эффект X1 за­висит от Х2, и наоборот. Поскольку эффект (влияние) одного фактора неоднородный, а зависит от уровня другого фактора, то вообще бессмысленно проверять значимость главных эффектов. Однако имеет смысл проверить значимость главного эффекта каждого фактора, если эффект взаимодействия статистически незначимый. В таком случае проверка значимости главного эффекта для каждого отдельного фактора производится следующим образом:

.

Пример 2.

Исходя из данных таблицы Г, оценим значимость полного эффекта:

с 18 и 982 степенями свободы. Полный эффект статистически значимый при уровне значимости, равном 0,05.

F-критерий для проверки значимости эффекта взаимодействия равен:

с 8 и 982 степенями свободы. Сравнивая с табличным значением (1,94) можно сделать вывод, что эффект взаимодействия статистически незначимый при уровне значимости, равном 0,05.

Поскольку эффект взаимодействия статистически незначимый, оценим значимость глав­ных эффектов. F-критерий для проверки значимости эффекта семейного положения равен:

с 2 и 982 степенями свободы. Сравнивая с табличным значением (3,00) можно сделать вывод, что эффект семейного положения покупателей статистически значимый при уровне значимости, равном 0,05.

F-критерий для проверки значимости эффекта рода занятий равен:

с 8 и 982 степенями свободы. Сравнивая с табличным значением (1,94) можно сделать вывод, что эффект рода занятий покупателей статистически незначимый при уровне значимости, равном 0,05.

Проверку значимости при ковариационном анализе осуществляют аналогично процедуре многофакторного дисперсионного анализа с той лишь разницей, что наряду с оценкой главных эффектов факторов, осуществляется оценка главных эффектов ковариат.

Значимость суммарного эффекта ковариат, как и эффект каждой ковариаты, проверяют с помощью соответствующих F-критериев. Коэффициенты ковариат позволяют понять влияние, оказываемое на зависимую переменную. Ковариационный анализ наиболее полезен, когда ковариата линейно связана с зависимой переменной и не связана с факторами.

При работе с ковариатами может случиться, что значение F становится меньше (менее значимое) после включения в план ковариат. Это обычно указывает на то, что ковариаты не только коррелируют с зависимой переменной, но и с межгрупповыми факторами.

Пример 3.

Исходя из данных таблицы Д, оценим значимость полного эффекта:

с 19 и 981 степенями свободы. Полный эффект статистически значимый при уровне значимости, равном 0,05.

F-критерий для проверки значимости эффекта взаимодействия равен:

с 8 и 981 степенями свободы. Сравнивая с табличным значением (1,94) можно сделать вывод, что эффект взаимодействия статистически незначимый при уровне значимости, равном 0,05.

Поскольку эффект взаимодействия статистически незначимый, оценим значимость глав­ных эффектов. F-критерий для проверки значимости главного эффекта семейного положения равен:

с 2 и 981 степенями свободы. Сравнивая с табличным значением (3,00) можно сделать вывод, что семейного положения покупателей статистически незначимый при уровне значимости, равном 0,05.

F-критерий для проверки значимости эффекта рода занятий равен:

с 8 и 981 степенями свободы. Сравнивая с табличным значением (1,94) можно сделать вывод, что эффект рода занятий покупателей статистически незначимый при уровне значимости, равном 0,05.

F-критерий для проверки значимости эффекта возраста покупателей (ковариаты) равен:

с 1 и 981 степенями свободы. Сравнивая с табличным значением (3,84) можно сделать вывод, что эффект возраста покупателей статистически значимый при уровне значимости, равном 0,05.

Поскольку по сравнению с результатами двухфакторного анализа (пример 2) главный эффект семейного положения уменьшился с введением в модель ковариаты, можно сделать вывод о том, что существует корреляция между возрастом и семейным положением покупателей.

6. Интерпретация результатов.

Если нулевую гипотезу о равенстве групповых средних не отклоняют, то независимые пере­менные не оказывают статистически значимого влияния на зависимую переменную. С другой стороны, если нулевую гипотезу отклонить, то эффекты независимых переменных на зависимую трактуются как статистически значимые. Другими словами, среднее значение зависимой пере­менной различно для различных групп независимой переменной. Сравнение значений груп­повых средних показывает характер влияния независимой переменной.

Пример 1.

Посколь­ку вычисленное значение F-статистики больше критического, мы отклоняем нулевую ги­потезу. Заключаем, что средние значения совокупностей для женатых, неженатых и разведенных покупателей действительно различаются между собой.

Таким образом, предположение № 1 о существовании зависимости между предпочтительным объемом покупки творожного десерта и семейным положением верно.

Пример 2.

Посколь­ку вычисленное значение F-статистики полного эффекта больше критического, мы отклоняем нулевую ги­потезу. Заключаем, что средние значения совокупностей для покупателей с разным семейным положением и родом занятий действительно различаются между собой.

Таким образом, предположение № 2 о зависимости предпочтительного объема покупок творожного десерта от семейного положения и рода деятельности покупателей верно. При этом статистически значимое влияние на предпочтительный объем разовой покупки творожного десерта оказывает лишь семейное положение.

Пример 3.

Посколь­ку вычисленное значение F-статистики полного эффекта больше критического, мы отклоняем нулевую ги­потезу. Заключаем, что средние значения совокупностей для покупателей с разным семейным положением, родом занятий и возрастом действительно различаются между собой.

Таким образом, предположение № 3 о наличии зависимости предпочтительного объема покупок творожного десерта от семейного положения, рода деятельности и возраста покупателей верно. При этом статистически значимое влияние из данной совокупности факторов на предпочтительный объем разовой покупки творожного десерта оказывает возраст покупателей.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]