- •Маркетинговые исследования Зорина т.Г., Слонимская м.А.
- •Содержание
- •Предисловие
- •1. Организация и содержание маркетинговых исследований
- •1. Фиксирование целей исследования.
- •2. Определение объекта исследования.
- •Контрольные вопросы
- •2. Определение проблемы и формулирование цели маркетингового исследования
- •Контрольные вопросы
- •3. Выбор проекта и разработка плана маркетингового исследования.
- •Линейное программирование
- •Теория массового обслуживания
- •Теория связи
- •Теория вероятностей
- •Методы деловых игр
- •Экономико-статистические методы
- •Экономико-математическое моделирование
- •Экспертиза
- •Контрольные вопросы:
- •4. Методы сбора маркетинговой информации
- •4.1. Качественные методы сбора информации
- •4.1.1. Сбор и анализ вторичной информации.
- •4.1.2. Фокус-группы
- •Топик-гайд
- •4.1.3. Глубинные интервью
- •4.1.4. Проективные методы
- •4.2. Количественные методы сбора информации
- •4.2.1. Выборочные методы в маркетинговых исследованиях
- •4.2.1.1. Основы формирования выборочной совокупности
- •4.2.1.2. Расчет размера и ошибки выборки
- •Точность - δ
- •4.2.2. Опросы
- •4.2.3. Наблюдения
- •Форма для регистрации наблюдений с целью изучения поведения покупателей апельсиновых соков в магазине самообслуживания.
- •4.2.4. Эксперименты
- •4.2.5. Полевые работы
- •Б) Методика задавания вопросов.
- •Контрольные вопросы
- •5. Методы анализа маркетинговой информации
- •5.1. Подготовительные этапы статистического анализа
- •5.2. Статистические методы анализа маркетинговой информации
- •5.2.1. Описательный анализ. Базовые методы анализа
- •Для того, чтобы проверить нулевую гипотезу рассчитаем критерий χ2. Определяем ожидаемую частоту распределения признаков:
- •5.2.2. Дисперсионный анализ. Ковариационный анализ.
- •5.2.3. Корреляционный и регрессионный анализ.
- •1. Понятие качества полуфабрикатов в сознании потребителей связано с их вкусом.
- •2. Понятие качества полуфабрикатов в сознании потребителей связано с их вкусом, полезностью, содержанием наполнителей и экологичностью.
- •2. Понятие качества полуфабрикатов в сознании потребителей связано с их вкусом и экологичностью.
- •5.2.4. Дискриминантный анализ
- •5.2.5. Факторный анализ.
- •5.2.6. Кластерный анализ.
- •1. Ваш месячный бюджет на приобретение продуктов питания обычно составляет?
- •5. Сколько человек в Вашей семье?
- •6. Есть ли в Вашей семье дети?
- •7. Ваш основной род занятий?
- •5.2.7. Многомерное шкалирование.
- •1. Выявление степени сходства меду заведениями общественного питания, расположенными в центре г. Минска, и определение их конкурентных позиций.
- •2. Оценка восприятия респондентами заведений общественного питания, наиболее посещаемых в дневное время суток.
- •Контрольные вопросы
- •6. Подготовка отчета о результатах маркетингового исследования
- •Контрольные вопросы
- •Литература
- •Значения хи-квадрат критерия Пирсона
Пример.
В таблице Е частота
покупки рыбных продуктов респондентами
сопряжена с числом членов их семей.
По данным кросс-табуляции можно
сформулировать следующую нулевую
гипотезу: "Частота покупки рыбных
продуктов потребителями не зависит от
числа членов их семей".
Таблица
Е. Наблюдаемая
частота покупки рыбных продуктов в
зависимости от числа членов семьи
Число членов
семьи
Всего
1-2
3-4
5 и более
1-3 раза в неделю
4
13
5
22
Несколько раз
в месяц
27
79
13
119
Реже 2 раз в месяц
17
33
8
58
Всего
48
125
26
199
…;
Результаты
расчета ожидаемой
частоты покупки рыбных продуктов
представлены
в таблице Ж.
Таблица
Ж. Ожидаемая
частота покупки рыбных продуктов в
зависимости от числа членов семьи
Число членов
семьи
Всего
1-2
3-4
5 и более
1-3 раза в неделю
5,3
13,8
2,9
22
Несколько раз
в месяц
28,7
74,7
15,5
119
Реже 2 раз в месяц
14,0
36,4
7,6
58
Всего
48
125
26
199
В
данном случае таблица содержит три
строки и три столбца, то есть распределение
характеризуется четырьмя степенями
свободы (3-1)x(3-1)=4.
Вычисленное значение χ2
– 3,7. Так как оно меньше критического
значения, равного 9,5 для 4-х степеней
свободы и α=0,05 (см. табл. 2 прил.), нулевая
гипотеза принимается.
Для того, чтобы проверить нулевую гипотезу рассчитаем критерий χ2. Определяем ожидаемую частоту распределения признаков:
Для таблиц с произвольным числом строк и столбцов используется коэффициент сопряженности признаков Пирсона
Если переменные не зависят друг от друга, то коэффициент сопряженности также равен нулю. Чем ближе данный показатель к единице, тем теснее связь между переменными. При этом он не может быть равен единице.
Существуют и другие меры связи между переменными в таблице сопряженности признаков, однако они используются реже.
Кросс-табуляция позволяет проанализировать взаимосвязь между номинальными переменными. Однако любые интервальные переменные могут быть использованы для формирования групп и, следовательно, для формирования номинальных переменных. Например, переменные «возраст» и «доход» являясь относительными, могут использоваться для определения категорий и стать номинальными.
В большинстве случаев маркетинговые исследования не идут дальше построения таблиц сопряженности признаков, и даже в рамках проектов, использующих более сложные аналитические методы, кросс-табуляция выступает в качестве важного компонента.
5.2.2. Дисперсионный анализ. Ковариационный анализ.
Дисперсионный и ковариационный анализ – статистические методы анализа маркетинговой информации, которые используются для изучения различий средних значений зависимых переменных, вызванных влиянием контролируемых независимых переменных, при условии, что учтено влияние неконтролируемых независимых переменных.
С помощью дисперсионного анализа исследуют влияние одной или нескольких независимых переменных на одну зависимую переменную (одномерный анализ) или на несколько зависимых переменных (многомерный анализ). При этом должна быть зависимая переменная, измеренная с помощью интервальной или относительной шкалы, и как минимум одна независимая переменная или фактор. В обычном случае независимые переменные принимают только дискретные значения (и относятся к номинальной или порядковой шкале); в этой ситуации также говорят о факторном анализе. Если же независимые переменные принадлежат к интервальной шкале или к шкале отношений, то их называют ковариациями, а соответствующий анализ — ковариационным.
Дисперсионный и ковариационный анализ целесообразно применять в случаях, когда необходимо выяснить ответы на следующие вопросы.
Различаются ли разные сегменты рынка с точки зрения объема потребления товара?
Различается ли отношение розничных, оптовых торговцев и торговых агентов к политике распределения, проводимой фирмой?
Влияет ли осведомленность потребителей о магазине (высокая, средняя и низкая) на предпочтение данного магазина?
Как меняется намерение потребителей купить товар данной торговой марки при различных уровнях цены и распределения?
Влияет ли на выбор потребителем данной торговой марки уровень образования (ниже среднего, среднее, колледж, высшее) и возраст?
Как осведомленность об универмаге (высокая, средняя, низкая) и представление о нем (позитивное, нейтральное, негативное) влияют на предпочтение потребителем этого магазина?
При определении намерений потребителей относительно приобретения товара известной фирмы в зависимости от цены необходимо учесть отношение к торговой марке.
Несмотря на то, что дисперсионный и ковариационный анализы используют чаще всего для анализа экспериментальных данных, они также полезны для анализа результатов опроса или данных наблюдений.
К статистикам, используемым в дисперсионном анализе, относятся:
ŋ2 , эта-квадрат – корреляционное отношение. С ее помощью выражают степень влияния или силу эффекта X (независимой переменной или переменных) на Y (зависимую переменную). Значение ŋ2 лежит в интервале от 0 до 1.
F-критерий (F-статистика) – отношение межгрупповой дисперсии к дисперсии ошибки, с помощью которого проверяют равенство категориальных средних в выборочных совокупностях.
MS, средний квадрат – это сумма квадратов отклонений наблюдений, поделенная на соответствующее ей число степеней свободы.
SSx, вариация переменной Y, обусловленная различием средних между группами (межгрупповая вариация). Вариация переменной Y, связанная с вариацией средних значений категорий переменной X. Она представляет собой вариацию между уровнями переменной Х или долю в сумме квадратов переменной Y, связанную с переменной X.
SSошибки, вариация переменной Y, обусловленная вариацией внутри каждой группы категорий (внутригрупповая дисперсия). Это вариация переменной Y, обусловленная изменением внутри каждой из групп переменной X. Она осуществляется за счет всех факторов, кроме X (при исключенном X).
Общая сумма квадратов SSy. Полная дисперсия переменной Y.
Процедура выполнения дисперсионного и ковариационного анализов состоит из следующих этапов (рисунок. 5.3).
Первым шагом осуществления анализа необходимо решить, разницу между средними в каких выборках, следует рассчитывать. В связи с этим возникает вопрос о выборе переменных для исследования.
В самом простом случае имеется предположение, что существует зависимость между некоторыми переменным. Для того, чтобы проверить существование такой зависимости, необходимо типизировать переменные, а затем определить какая из них будет зависимой и какая (какие) независимой. Зависимая переменная – метрическая, то есть, измерена с помощью интервальной или относительной шкалы, а независимые переменные – категориальные, измеренные с помощью порядковой или номинальной. Независимые переменные получили название факторов.
Рисунок 5.3. Процедура дисперсионного анализа.
1. Определение зависимой и независимой переменной (переменных).
Пусть Y — зависимая переменная, а xi— независимая переменная. xi— это категориальная переменная, имеющая k категорий (уровней, групп). Для каждой группы xi существует п наблюдений Y. Для упрощения часто допускают, что размеры выборок в группах переменной xi (групповые размеры) равны, но это допущение необязательно.
Пример.
Специалистами
службы маркетинга одного из предприятий
молочной отрасли был проведен опрос
потребителей молочных продуктов. После
предварительного анализа результатов,
специалисты выявили необходимости
более детального исследования факторов,
от которых зависит предпочтительный
объем разовой покупки творожного
десерта. Были
сформулированы следующие предположения: 1.
Существует зависимость между
предпочтительным объемом покупки
творожного десерта и семейным положением.
Предположительно семейные люди
приобретают творожные десерты для
детей. Вопрос
о предпочтительном объеме творожного
десерта в качестве вариантов ответа
предполагал восемь различных вариантов
размеров порций (200 г, 250 г, 300 г и т.д.), а
вопрос о семейном положении имел три
категории ответов (не женат; женат;
разведен). Таким образом, в данном случае
в качестве зависимой переменной
выступает предпочтительный объем
творожного десерта, а в качестве
независимой – семейное положение. 2.
Предпочтительный объем разовой покупки
творожного десерта зависит как от
наличия
детей у покупателя (семейного
положения),
так и от
уровня дохода (который косвенно может
быть определен с помощью рода
занятий),
поскольку творожный десерт не относится
к категории продуктов, входящих в
минимальную потребительскую корзину. В
качестве вариантов ответов на вопрос
о роде занятий было выделено девять
категорий: руководитель; предприниматель;
специалист; служащий; студент; домохозяйка;
пенсионер; преподаватель; военнослужащий.
Следовательно, в такой постановке
задачи зависимой переменной является
предпочтительный объем разовой покупки
творожного десерта, а независимыми
переменными – семейное положение и
род занятий.
Продолжение
примера.
3.
Между семейным положением, родом
занятий, возрастом покупателей и
предпочтительным для них объемом
творожных десертов имеет место
зависимость.
Вероятное всего покупатели молодого
возраста приобретают творожные десерты
в больших объемах.
Так
как возможные ответы на вопрос о возрасте
в анкете были представлены в виде
интервальной шкалы, в данной модели он
будет служить ковариатой, а факторами
– семейное положение и род занятий
покупателей. Зависимая переменная –
предпочтительный объем разовой покупки
творожного десерта.
2. Выбор метода разложения дисперсии. Метод разложения дисперсии зависит от количества и типа используемых переменных (рисунок 5.4).
Рисунок 5.4. Выбор метода разложения дисперсии в зависимости от количества и типа переменных.
Пример 1.
Для
проверки предположения №1 о существовании
зависимости между предпочтительным
объемом покупки творожного десерта и
семейным положением целесообразно
применение однофакторного дисперсионного
анализа, где
в
качестве зависимой переменной будет
выступать предпочтительный объем
разовой покупки творожного десерта; в
качестве фактора – семейное положение
покупателя.
Пример 2.
Для
проверки предположения №2 о зависимости
предпочтительного объема покупок
творожного десерта от семейного
положения и рода деятельности покупателей
возможно
применение многофакторного дисперсионного
анализа, где
в
качестве зависимой переменной будет
выступать предпочтительный объем
разовой покупки творожного десерта; в
качестве факторов – семейное положение
и род занятий покупателя.
Пример 3.
Для
проверки предположения №3 о наличии
зависимости
предпочтительного объема покупок
творожного десерта от семейного
положения, рода деятельности и возраста
покупателей возможно
применение ковариационного анализа,
где
в
качестве зависимой переменной будет
выступать предпочтительный объем
разовой покупки творожного десерта; в
качестве факторов – семейное положение
и род занятий покупателя; в
качестве ковариаты – возраст покупателя.
3. Разложение полной дисперсии.
Для изучения различий между средними дисперсионный анализ использует разложение полной вариации, наблюдаемой в зависимой переменной.
В дисперсионном анализе разделение вариации, зависимой переменной, на вариацию, обусловленную различием средних внутри групп плюс вариацию, обусловленную внутригрупповой изменчивостью.
Эту вариацию вычисляют как сумму квадратов с поправкой на среднее (на число степеней свободы) (SS). Дисперсионный анализ называют так потому, что он изучает изменчивость или дисперсию выборки (применительно к зависимым переменным) и, исходя из этой изменчивости, определяет, действительно ли выборочные средние равны между собой.
Полную вариацию в однофакторном дисперсионном анализе, обозначаемую SS, можно разложить на два компонента:
где нижние индексы относятся к группам переменной X. SSx - это вариация переменной Y, связанная с различием средних между группами переменной X. Она представляет вариацию между категориями переменной Х (межгрупповая изменчивость). Другими словами, SSx — это доля в сумме квадратов переменной Y, обусловленная действием независимой переменной или фактором X. SSошибки - это вариация переменной Y, связанная с вариацией внутри каждой группы переменной Х, ее вычисляют не учитывая фактор Х.
где Xij – результат i-го наблюдения j-го варианта или группы;
nj – количество наблюдений j-го варианта;
n – общее количество наблюдений во всех вариантах;
– среднее значение для j-го варианта;
– общее среднее для всех n наблюдений.
В таблице 5.8 представлены базовые статистики, рассчитываемые в рамках однофакторного дисперсионного анализа.
Таблица 5.8. Базовая таблица однофакторного дисперсионного анализа.
Компоненты дисперсии |
Сумма квадратов |
Cтепени свободы |
Средний квадрат |
F-критерий |
Межгрупповая |
|
k - 1 |
|
|
Внутригрупповая
|
|
n - k |
|
|
Общая
|
|
n - 1 |
|
|
Смысл разложения полной вариации в переменной SSy на компоненты SSx и SSошибки в том, чтобы наглядно представить и затем изучить различия в групповых средних. В дисперсионном анализе рассматривают несколько различных групп (например, сильное, среднее, слабое использование, отсутствие использования товара). Если нулевая гипотеза верна, и все группы имеют одно и то же среднее значение совокупности, то можно оценить, насколько сильно отличаются выборочные средние вследствие только выборочной (случайной) вариации. Если наблюдаемое различие в выборочных средних больше ожидаемого, то логично заключить, что эта дополнительная вариация связана с различиями в групповых средних в совокупности.
Пример 1.
Для
проверки предположения №1 о существовании
зависимости между предпочтительным
объемом покупки творожного десерта и
семейным положением был
проведен однофакторный дисперсионный
анализ с помощью программного пакета
SPSS.
Результаты представлены в таблицах А
и Б. Таблица
А. Дескриптивные статистики. Зависимая
переменная: объем творожного десерта.
Семейное
положение
Среднее
Стандартное
отклонение
Количество
наблюдений
Не
женат (не замужем)
2,55
1,830
580
Женат (замужем)
2,12
1,305
366
Разведен (а)
1,93
0,979
55
Итого
2,36
1,633
1001
Продолжение
примера 1.
Таблица
Б. Оценка эффектов межгрупповых
факторов.
Компоненты
дисперсии
Сумма
квадратов
Степени
свободы
Средний квадрат
F-критерий
Значимость
Скорректированная
модель
52,757
2
26,378
10,074
0,000
Свободный член
1921,127
1
1921,127
733,690
0,000
Семейное
положение
52,757
2
26,378
10,074
0,000
Ошибка
2613,207
998
2,618
Итого
8230,000
1001
Скорректированный
итог
2665,964
1000
Как
видно из таблицы Б в данном случае SSy
= 2665,964, SSx
= 52,757, SSошибки
= 2613,207. Таким образом, полная вариация
предпочтительного объема разовой
покупки творожного десерта составляет
2665,964, из которых 52,757 объясняется
различием средних между женатыми,
неженатыми и разведенными покупателями,
а 2613,207 – объяснятся изменениями средних
прочих факторов, исключая семейное
положение покупателей.
Процедура многофакторного дисперсионного анализа аналогична процедуре однофакторного дисперсионного анализа. Многофакторный анализ не меняет общую логику дисперсионного анализа, а лишь несколько усложняет ее, поскольку, кроме учета влияния на зависимую переменную каждого из факторов по отдельности, следует оценивать и их совместное действие. Таким образом, то новое, что вносит в анализ данных многофакторный дисперсионный анализ, касается в основном возможности оценить межфакторное взаимодействие. Тем не менее, по-прежнему остается возможность оценивать влияние каждого фактора в отдельности. Взаимодействия имеют место, когда эффекты одного фактора на зависимую переменную зависят от уровня других факторов. Статистики, соответствующие многофакторному дисперсионному анализу, также определяются аналогично определению статистик в однофакторном дисперсионном анализе.
Отклонение от основных предпосылок дисперсионного анализа — нормальности распределения исследуемой переменной и равенства дисперсий в ячейках (если оно не чрезмерное) — не сказывается существенно на результатах дисперсионного анализа при равном числе наблюдений в ячейках, но может быть очень чувствительно при неравном их числе. Кроме того, при неравном числе наблюдений в ячейках резко возрастает сложность аппарата дисперсионного анализа. Поэтому рекомендуется при неравном числе наблюдений для расчетов рекомендуется использовать соответствующие пакеты прикладных программ (STATISTICA, SPSS и др.)
Рассмотрим простой пример эксперимента с равным количеством наблюдений, в который входят факторы X1 и Х2. В этом случае полная вариация раскладывается следующим образом:
где SSx1 - это вариация переменной Y, связанная с различием средних между группами переменной X1;
SSx2 - это вариация переменной Y, связанная с различием средних между группами переменной X2;
SSx1x2 - это вариация переменной Y, связанная с взаимодействием X1 и X2.
Большее влияние X1 будет отражаться в большем отличии среднего в уровнях X1 и более высоком значении SSx1. Это же касается и фактора Х2. Чем сильнее взаимодействие между факторами X1 и X2, тем больше значение SSx1x2. С другой стороны, если X1 и X2 зависят один от другого, то значение SSx1x2 приближается к нулю.
В таблице 5.9 представлен общий вид вычисления значений, с помощью двухфакторного дисперсионного анализа при равном числе наблюдений.
Таблица 5.9. Базовая таблица двухфакторного дисперсионного анализа при равном числе наблюдений.
Компоненты дисперсии |
Сумма квадратов |
Число степеней свободы |
Средние квадраты |
F-критерий |
Модель |
|
(n-1) + (k-1) + (n-1)(k-1) |
|
|
Межгрупповая (фактор x1) |
|
n - 1 |
|
|
Межгрупповая (фактор x2) |
|
k - 1 |
|
|
Взаимодействие |
|
(k-1)(n-1) |
|
|
Ошибка |
|
knl - kl |
|
|
Общая |
|
knl - 1 |
|
|
Пример 2.
Для проверки
предположения №2 о зависимости
предпочтительного объема покупок
творожного десерта от семейного
положения и рода деятельности покупателей
был проведен двухфакторный дисперсионный
анализ с помощью программного пакета
SPSS.
Результаты представлены в таблицах В
и Г. Таблица
В. Дескриптивные статистики. Зависимая
переменная: объем творожного десерта.
Семейное
положение
Род занятий
Среднее
Стандартное
отклонение
Количество
наблюдений
Не
женат (не замужем)
Руководитель
3,29
2,555
14
Предприниматель
2,32
2,239
34
Специалист
предприятия
2,79
1,931
247
Служащий
предприятия
2,56
1,861
144
Студент
2,20
1,331
108
Преподаватель
1,53
0,681
30
Военнослужащий
4,00
0,000
3
Итого
2,55
1,830
580
Женат (замужем)
Руководитель
2,29
0,859
24
Предприниматель
1,20
0,447
5
Специалист
предприятия
2,15
1,614
152
Служащий
предприятия
2,09
1,202
107
Студент
2,25
1,288
12
Домохозяйка
2,06
0,744
62
Пенсионер
2,00
0,000
4
Итого
2,12
1,305
366
Разведен (а)
Предприниматель
1,40
0,507
15
Специалист
предприятия
2,11
1,100
19
Служащий
предприятия
1,40
0,548
5
Студент
2,75
1,389
8
Преподаватель
2,00
0,000
8
Итого
1,93
0,979
55
Итого
Руководитель
2,66
1,729
38
Предприниматель
1,96
1,853
54
Специалист
предприятия
2,53
1,815
418
Служащий
предприятия
2,34
1,618
256
Студент
2,24
1,327
128
Домохозяйка
2,06
0,744
62
Пенсионер
2,00
0,000
4
Преподаватель
1,63
0,633
38
Военнослужащий
4,00
0,000
3
Итого
2,36
1,633
1001
Продолжение
примера 2.
Таблица
Г. Оценка эффектов межгрупповых
факторов.
Компоненты дисперсии
Сумма квадратов
Степени свободы
Средний квадрат
F-критерий
Значимость
Скорректированная модель
143,765
18
7,987
3,110
0,000
Свободный член
718,788
1
718,788
279,855
0,000
Семейное положение
19,513
2
9,757
3,799
0,023
Род занятий
38,971
8
4,871
1,897
0,057
Семейное положение * Род занятий
25,208
8
3,151
1,227
0,280
Ошибка
2522,199
982
2,568
Итого
8230,000
1001
Скорректированный итог
2665,964
1000
Как видно из
таблицы Г в данном случае SSy
= 2665,964, SSx1
= 19,513, SSx2
= 38,971, SSx1x2
= 25,208, SSошибки
= 2522,199. Таким образом, полная вариация
предпочтительного объема разовой
покупки творожного десерта составляет
2665,964, из которых 19,513 объясняется
различием средних семейного положения
покупателя, 38,971 – различием средних
рода занятий, 25,208 – взаимодействием
семейного положения и рода занятий, а
2522,199 – объяснятся изменениями средних
прочих факторов.
При осуществлении ковариационного анализа зависимая переменная статистически корректируется на основе связанной с ней дополнительной информацией (ковариатой), с тем, чтобы устранить вносимую извне изменчивость и повысить эффективность анализа.
Следовательно, ковариату используют для удаления посторонней вариации из зависимой переменной, поскольку самыми важными являются эффекты факторов. Вариацию в зависимой переменной, обусловленную ковариатой, удаляют корректировкой среднего значения зависимой переменной в пределах каждого из факторов (условий эксперимента). Затем, исходя из скорректированных оценок, выполняют дисперсионный анализ.
Рассмотрим простой пример эксперимента с равным количеством наблюдений, в который входят факторы X1 и Х2 и ковариата Z. В этом случае полная вариация раскладывается следующим образом:
где SSz - это вариация переменной Y, связанная с различием средних между группами ковариаты Z.
Пример 3.
Для
проверки предположения №3 о наличии
зависимости
предпочтительного объема покупок
творожного десерта от семейного
положения, рода деятельности и возраста
покупателей был
проведен двухфакторный дисперсионный
анализ с помощью программного пакета
SPSS.
Результаты представлены в таблице Д. Таблица
Д. Оценка эффектов межгрупповых
факторов.
Компоненты дисперсии
Сумма квадратов
Степени свободы
Средний квадрат
F-критерий
Значимость
Скорректированная модель
156,874
19
8,257
3,228
0,000
Свободный член
282,126
1
282,126
110,305
0,000
Возраст
13,108
1
13,108
5,125
0,024
Семейное положение
9,211
2
4,606
1,801
0,166
Род занятий
38,601
8
4,825
1,887
0,059
Семейное положение * Род занятий
27,410
8
3,426
1,340
0,220
Ошибка
2509,090
981
2,558
Итого
8230,000
1001
Скорректированный итог
2665,964
1000
Как
видно из таблицы Д в данном случае SSy
= 2665,964, SSx1
= 9,211, SSx2
= 38,601, SSx1x2
= 27,410, SSz
= 13,108, SSошибки
= 2509,090. Таким образом, полная вариация
предпочтительного объема разовой
покупки творожного десерта составляет
2665,964, из которых 9,211 объясняется различием
средних семейного положения покупателя,
38,601 – различием средних рода занятий,
27,410 – взаимодействием семейного
положения и рода занятий, 13,108 – различием
средних возраста (ковариаты), а 2509,090 –
объяснятся изменениями средних прочих
факторов.
4. Измерение эффектов.
В однофакторном дисперсионном анализе сила влияния переменной X на Y измеряется с помощью SSx. Поскольку SSx связана с вариацией средних значений групп X, то относительное значение SSx растет с увеличением различий между средними значениями Y в группах X. Относительное значение SSx также увеличивается при уменьшении вариаций Y внутри групп X. Эффект влияния переменной X на Y вычисляют по формуле:
Значение корреляционного отношения ηг лежит в пределах от 0 до 1. Оно равно нулю, когда все групповые средние равны, т.е. переменная X не влияет на Y. Значение ηг равно 1, когда внутри каждой из групп переменной X изменчивость отсутствует, но имеется некоторая изменчивость между группами. Таким образом, ηг представляет собой меру вариации Y, которая объясняется влиянием независимой переменной X. Мы не только можем измерить влияние X на Y, но и проверить его значимость.
Пример 1.
Исходя
из данных таблицы Б, определим эффект
влияния семейного положения на
предпочтительный объем разовой покупки
творожного десерта.
. Таким
образом, 1,98% вариации предпочтительного
объема разовой покупки творожного
десерта обусловлено влияем семейного
положения покупателя, что указывает
на слабый эффект.
При многофакторном дисперсионном анализе эффект влияния определяется с помощью множественной корреляции. Множественная корреляция – это степень объединенного влияния двух или более факторов или полный эффект. Так при осуществлении двухфакторного дисперсионного анализа эффект объединенного влияния имеет следующий вид:
.
Пример 2.
Исходя
из данных таблицы Г, определим эффект
влияния семейного положения на
предпочтительный объем разовой покупки
творожного десерта.
. Таким
образом, 3,14% вариации предпочтительного
объема разовой покупки творожного
десерта обусловлено влияем семейного
положения и рода занятий покупателя,
что указывает на слабый эффект. Однако,
сравнив эффекты влияния однофакторного
(пример 1) и двухфакторного дисперсионного
анализа, можно сделать вывод, что
введение рода занятий в качестве
дополнительной переменной увеличивает
эффект влияния.
В случае осуществления ковариационного анализа при измерении эффекта степень влияния ковариаты не учитывают. Методика же расчета множественной регрессии аналогична многофакторному дисперсионному анализу.
Пример 3.
Исходя
из данных таблицы Д, определим эффект
влияния семейного положения на
предпочтительный объем разовой покупки
творожного десерта.
. Таким
образом, 2,82% вариации предпочтительного
объема разовой покупки творожного
десерта обусловлено влияем семейного
положения и рода занятий покупателя,
что указывает на слабый эффект. Однако,
сравнив эффекты влияния двухфакторного
дисперсионного (пример 2) и ковариационного
анализа, можно сделать вывод, что эффект
влияния с введением ковариаты уменьшился.
Возможно, это связано с наличием
взаимного влияния ковариаты и одного
их факторов.
Оценка полной дисперсииMSy:
5. Проверка значимости.
В однофакторном дисперсионном анализе проверяют нулевую гипотезу, утверждающую, что групповые средние в рассматриваемой совокупности равны.
В соответствии с нулевой гипотезой значения SSX и SSошибки зависят от одного источника вариации. В таком случае оценка дисперсии совокупности Y может определяться межгрупповой или внутригрупповой вариацией. Иначе говоря, оценка дисперсии совокупности Y:
и ли
Нулевую гипотезу можно проверить с помощью F-статистики, рассчитываемой как отношение между этими двумя оценками дисперсий:
Эта статистика подчиняется F-распределению с числом степеней свободы (df), равным (k — 1) и (n— k). Таблица распределения. F-статистики приведена в приложении 3. F-распределение представляет собой распределение вероятностей отношений выборочных дисперсий. Значение F зависит от числа степеней свободы в числителе и знаменателе.
Пример 1.
Исходя
из данных таблицы Б, проведем проверку
значимости влияния семейного положения
на предпочтительный объем разовой
покупки творожного десерта.
Исходя
из приложения 3, находим, что для 2 и 998
степеней свободы критическое
значение F-статистики
равно 3,00 при уровне значимости α
= 0,05. Поскольку вычисленное значение
F
-статистики больше критического, мы
отклоняем нулевую гипотезу.
В многофакторном дисперсионном анализе проверку значимости осуществляют путем оценки значимости полного эффекта:
.
Если полный эффект статистически значимый, то на следующем этапе изучают значимость эффекта. Если нулевая гипотеза утверждает, что взаимодействие между факторами отсутствует, то соответствующий F-критерий вычисляют по формуле:
.
Если окажется, что эффект взаимодействия статистически значимый, значит, эффект X1 зависит от Х2, и наоборот. Поскольку эффект (влияние) одного фактора неоднородный, а зависит от уровня другого фактора, то вообще бессмысленно проверять значимость главных эффектов. Однако имеет смысл проверить значимость главного эффекта каждого фактора, если эффект взаимодействия статистически незначимый. В таком случае проверка значимости главного эффекта для каждого отдельного фактора производится следующим образом:
.
Пример 2.
Исходя
из данных таблицы Г, оценим значимость
полного эффекта:
с 18 и 982 степенями
свободы. Полный эффект статистически
значимый при уровне значимости, равном
0,05.
F-критерий
для проверки значимости эффекта
взаимодействия равен:
с 8 и 982 степенями
свободы. Сравнивая с табличным значением
(1,94) можно сделать вывод, что эффект
взаимодействия статистически незначимый
при уровне значимости, равном 0,05.
Поскольку эффект
взаимодействия статистически незначимый,
оценим значимость главных эффектов.
F-критерий
для проверки значимости эффекта
семейного положения равен:
с 2 и 982 степенями
свободы. Сравнивая с табличным значением
(3,00) можно сделать вывод, что эффект
семейного положения покупателей
статистически значимый при уровне
значимости, равном 0,05.
F-критерий
для проверки значимости эффекта рода
занятий равен:
с 8 и 982 степенями
свободы. Сравнивая с табличным значением
(1,94) можно сделать вывод, что эффект
рода занятий покупателей статистически
незначимый при уровне значимости,
равном 0,05.
Проверку значимости при ковариационном анализе осуществляют аналогично процедуре многофакторного дисперсионного анализа с той лишь разницей, что наряду с оценкой главных эффектов факторов, осуществляется оценка главных эффектов ковариат.
Значимость суммарного эффекта ковариат, как и эффект каждой ковариаты, проверяют с помощью соответствующих F-критериев. Коэффициенты ковариат позволяют понять влияние, оказываемое на зависимую переменную. Ковариационный анализ наиболее полезен, когда ковариата линейно связана с зависимой переменной и не связана с факторами.
При работе с ковариатами может случиться, что значение F становится меньше (менее значимое) после включения в план ковариат. Это обычно указывает на то, что ковариаты не только коррелируют с зависимой переменной, но и с межгрупповыми факторами.
Пример 3.
Исходя
из данных таблицы Д, оценим значимость
полного эффекта:
с 19 и 981 степенями
свободы. Полный эффект статистически
значимый при уровне значимости, равном
0,05.
F-критерий
для проверки значимости эффекта
взаимодействия равен:
с 8 и 981 степенями
свободы. Сравнивая с табличным значением
(1,94) можно сделать вывод, что эффект
взаимодействия статистически незначимый
при уровне значимости, равном 0,05.
Поскольку эффект
взаимодействия статистически незначимый,
оценим значимость главных эффектов.
F-критерий
для проверки значимости главного
эффекта семейного положения равен:
с 2 и 981 степенями
свободы. Сравнивая с табличным значением
(3,00) можно сделать вывод, что семейного
положения покупателей статистически
незначимый при уровне значимости,
равном 0,05.
F-критерий
для проверки значимости эффекта рода
занятий равен:
с 8 и 981 степенями
свободы. Сравнивая с табличным значением
(1,94) можно сделать вывод, что эффект
рода занятий покупателей статистически
незначимый при уровне значимости,
равном 0,05.
F-критерий
для проверки значимости эффекта возраста
покупателей (ковариаты) равен:
с 1 и 981 степенями
свободы. Сравнивая с табличным значением
(3,84) можно сделать вывод, что эффект
возраста покупателей статистически
значимый при уровне значимости, равном
0,05.
Поскольку по
сравнению с результатами двухфакторного
анализа (пример 2) главный эффект
семейного положения уменьшился с
введением в модель ковариаты, можно
сделать вывод о том, что существует
корреляция между возрастом и семейным
положением покупателей.
6. Интерпретация результатов.
Если нулевую гипотезу о равенстве групповых средних не отклоняют, то независимые переменные не оказывают статистически значимого влияния на зависимую переменную. С другой стороны, если нулевую гипотезу отклонить, то эффекты независимых переменных на зависимую трактуются как статистически значимые. Другими словами, среднее значение зависимой переменной различно для различных групп независимой переменной. Сравнение значений групповых средних показывает характер влияния независимой переменной.
Пример 1.
Поскольку
вычисленное значение F-статистики
больше критического, мы отклоняем
нулевую гипотезу. Заключаем, что
средние значения совокупностей для
женатых, неженатых и разведенных
покупателей действительно различаются
между собой.
Таким образом,
предположение № 1 о существовании
зависимости между предпочтительным
объемом покупки творожного десерта и
семейным положением верно.
Пример 2.
Поскольку
вычисленное значение F-статистики
полного эффекта больше критического,
мы отклоняем нулевую гипотезу.
Заключаем, что средние значения
совокупностей для покупателей с разным
семейным положением и родом занятий
действительно различаются между собой.
Таким образом,
предположение № 2 о зависимости
предпочтительного объема покупок
творожного десерта от семейного
положения и рода деятельности покупателей
верно. При
этом статистически значимое влияние
на предпочтительный объем разовой
покупки творожного десерта оказывает
лишь семейное положение.
Пример 3.
Поскольку
вычисленное значение F-статистики
полного эффекта больше критического,
мы отклоняем нулевую гипотезу.
Заключаем, что средние значения
совокупностей для покупателей с разным
семейным положением, родом занятий и
возрастом действительно различаются
между собой.
Таким образом,
предположение № 3 о наличии
зависимости
предпочтительного объема покупок
творожного десерта от семейного
положения, рода деятельности и возраста
покупателей верно.
При этом
статистически значимое влияние из
данной совокупности факторов на
предпочтительный объем разовой покупки
творожного десерта оказывает возраст
покупателей.