- •Глава 11. Маркетинговые исследования с использованием статистических методов
- •11.1. Прогнозирование объема продаж с использованием корреляционно-регрессионного анализа в системе statistica
- •11.2. Сегментирование конечного потребителя услуг кинотеатра с использованием кластерного анализа в системе statistica Игрунова о.М., Чекрышова и.И., Манакова е.В.
- •11.3. Исследование вкусовых предпочтений потребителей шоколада с использованием методов шкалирования Игрунова о.М., Виноградова и.Ю., Лаврентьева е.В.
- •Результаты «слепого» тестирования образца №1 по критериям «внешний вид» и «запах» (бренд Alpen Gold молочный)
- •11.4. Прогнозирование тенденций изменения спроса на потребительском рынке с использованием нейросетевого подхода Игрунова о.М.
- •Глава 12. Приложения моделей и методов статистического анализа в социально-экономической среде Платонова и.В., Соловьева ю.В., Иванова а.А.
- •12.1. Выбор зарубежного партнера с использованием многомерного регрессионного анализа
- •Коэффициенты модели
- •95% Доверительные границы
- •12.2. Выбор иностранного контрагента с использованием нелинейных моделей регрессионного анализа
- •95% Доверительные границы
- •95% Доверительные границы
- •95% Доверительные границы
- •95% Доверительные границы
- •12.3. Применение кластерного анализа для классификации потребителей снековой продукции
Коэффициенты модели
Переменная |
Коэффициент |
Стандартная ошибка |
t-значение |
Вероятность |
x1 |
−8,0972 e–4 |
9,853 e–4 |
−0,8218 |
0,4233 |
x2 |
−0,078143 |
0,06427 |
−1,2159 |
0,2417 |
x3 |
−0,047757 |
0,027279 |
−1,7507 |
0,0991 |
x4 |
0,19428 |
0,046245 |
4,2011 |
0,0007 |
Константа |
0,47826 |
0,97835 |
0,48884 |
0,6316 |
Таблица 12.3
Дисперсионный анализ
|
Степени свободы |
Сумма квадратов |
Среднее квадратич. |
F-значение |
Вероятность |
Модель |
4 |
4,1088 |
1,027 |
14,554 |
0,0000 |
Остатки |
16 |
1,1293 |
0,070581 |
|
|
Всего |
20 |
5,2381 |
|
|
|
Подправленный R*2 = 0,7844, R2 = 0,7337
95% Доверительные границы
−0,0028985 a1 0,001279
−0,21439 a2 0,058103
−0,10559 a3 0,010071
0,096243 a4 0,29231
−1,5957 a0 2,5523
Табличное значение t-критерия Стьюдента (tрасч) превышает расчетное значение. Вероятности превышают уровень значимости = 0,05. Следовательно, данная модель содержит фактор, незначительно влияющий на y.
Чтобы улучшить данную модель, на втором этапе необходимо определить наиболее значимые критерии (факторные переменные).
Наибольшие трудности в использовании аппарата множественной регрессии возникают при наличии мультиколлинеарности факторов, когда более чем два фактора связаны между собой линейной зависимостью, то есть присутствует совокупное воздействие факторов друг на друга. Наличие мультиколлинеарности факторов может означать, что некоторые факторы будут всегда действовать в унисон. В результате вариация в исходных данных перестает быть полностью независимой – и нельзя оценить воздействие каждого фактора в отдельности. Чем сильнее мультиколлинеарность факторов, тем менее надежна оценка распределения суммы объясненной вариации по отдельным факторам с помощью метода наименьших квадратов (МНК).
Если рассматривается регрессия у = а + b ∙ x + c ∙ z + d ∙ ν + , то для расчета параметров с применением МНК предполагается равенство:
Sy = Sфакт + S,
где: Sy – общая сумма квадратов отклонений
;
Sфакт – факторная (объясненная) сумма квадратов отклонений
;
S – остаточная сумма квадратов отклонений .
В свою очередь, при независимости факторов друг от друга выполнимо равенство:
Sфакт = Sx + Sz + Sν,
где Sx, Sz, Sν – суммы квадратов отклонений, обусловленные влиянием соответствующих факторов. Если же факторы интеркоррелированы, то данное равенство нарушается.
Включение в модель мультиколлинеарных факторов нежелательно, так как:
затрудняется интерпретация параметров множественной регрессии как характеристик действия факторов в «чистом» виде, ибо факторы коррелированы; параметры линейной регрессии теряют экономический смысл;
оценки параметров ненадежны, обнаруживают большие стандартные ошибки и меняются с изменением объема наблюдений (не только по величине, но и по знаку), что делает модель непригодной для анализа и прогнозирования.
Для оценки мультиколлинеарности факторов можно использовать определитель матрицы парных коэффициентов корреляции между факторами.
Если бы факторы не коррелировали между собой, то матрица парных коэффициентов корреляции между факторами была бы единичной матрицей, поскольку все недиагональные элементы (xi, xj) были бы равны нулю.
Существует ряд подходов преодоления сильной межфакторной корреляции. Самый простой путь устранения мультиколлинеарности состоит в исключении из модели одного или нескольких факторов.
В рассматриваемом случае корреляционная матрица будет выглядеть так:
Точных количественных критериев для определения мультиколлинеарности нет, но принимается, что переменные будут считаться коллинеарными, если парный линейный коэффициент корреляции находится в пределах [см.: 5].
Таким образом, явной мультиколлинеарности не наблюдается. Отрицательное значение парного линейного коэффициента корреляции указывает на существование обратной зависимости между факторными признаками x1 и x4, x2 и x4, x3 и x4, однако значения парного линейного коэффициента корреляции невелики, чтобы на этом этапе можно было сделать определенные выводы.
Отбор факторов, включаемых в регрессию, является одним из важнейших этапов практического использования методов регрессии. Подходы к отбору факторов на основе показателей корреляции могут быть разными. Они приводят построение уравнения множественной регрессии соответственно к разным методикам.
В зависимости от того, какая методика построения уравнения регрессии принята, меняется алгоритм ее решения.
На практики удобнее применять следующие методы построения уравнения множественной регрессии:
метод исключения;
метод включения;
пошаговый регрессионный анализ.
Каждый из методов по-своему решает проблему отбора факторов, давая в целом близкие результаты: отсев факторов из полного его набора (метод исключения), дополнительное включение фактора (метод включения), и, наконец, исключение ранее введенного фактора (шаговый регрессионный анализ).
Пошаговые процедуры в общем случае обеспечивают получение наборов переменных и оказываются оптимальными или близкими к оптимальным.
Суть метода заключается в том, что на каждом следующем шаге (то есть при переходе от отбора k переменных к отбору k + 1 переменной) учитываются результаты предыдущего шага.
Так, при переходе с k = 1 на k = 2 перебирают не все возможные пары, а лишь те, в которых непременно участвует переменная x(i1(1)), отобранная на первом шаге. Соответственно, при переходе от шага «k» к шагу «k + 1» первые k информативных переменных считаются уже определенными на предыдущем шаге, так, что при оптимизации критерия остается перебрать p – k, поочередно присоединяя каждую из них к уже отобранной на предыдущем шаге группе переменных:
x(i1(1)), x(i2(2)), … , x(ik(k)).
Все остальные характеристики процедуры (оптимизируемый критерий, правило выбора оптимального числа предикторов и т. д.) остаются теми же, что и в методе всех возможных регрессий. Нетрудно подсчитать, что при пошаговой реализации процедуры отбора наиболее существенных объясняющих переменных число необходимых переборов снижается с 2p – 2 до p + (p – 1) + (p – 2) + … + 2 = (p + 2)(p – 1)/2 (то есть при p = 20 вместо 1 048 574 переборов, необходимых в методе всех возможных регрессий, понадобится всего 209 переборов различных вариантов составов предикторов).
В данном случае использован метод пошаговой регрессии в обратном порядке, то есть от рассмотрения всей совокупности критериев, влияющих на решение о выборе поставщика, мы перешли к наиболее значимым из них. Следовательно, при применении указанного метода для данной модели получим следующие результаты.
Таблица 12.4
Коэффициенты модели
Переменная |
Коэффициент |
Стандартная ошибка |
t-значение |
Вероятность |
x2 |
−0,081009 |
0,045433 |
−1,783 |
0,0915 |
x3 |
−0,044682 |
0,017562 |
−2,5443 |
0,0203 |
x4 |
0,20796 |
0,021987 |
9,4581 |
0,0000 |
Таблица 12.5
Дисперсионный анализ
|
Степени свободы |
Сумма квадратов |
Среднее квадратич. |
F-значение |
Вероятность |
Модель |
3 |
4,0611 |
1,3537 |
19,551 |
0,0000 |
Остатки |
17 |
1,1177 |
0,069237 |
|
|
Всего |
20 |
5,2381 |
|
|
|
Подправленный R*2 = 0,7356, R2 = 0,7753.
Среди всех объясняющих переменных были выбраны три наиболее информативных (в смысле критерия) предиктора (x(4), x(3), x(2)), поскольку
max R2y.(x(4), x(3), x(2)) = 0,7753.
На этом этапе можно остановиться. На следующем шаге объясняющую переменную x(2) в модель включать нецелесообразно, так как коэффициент при x2 не значим, – следовательно, включение x2 в модель нецелесообразно, x2 можно пренебречь. Наряду с этим, значения коэффициента регрессии при x(3) и x(4) статистически значимо отличаются от нуля при уровне значимости a = 0,05 (в таблице также приведены величины среднеквадратических ошибок).
Подсчет подправленного (на несмещенность) значения коэффициента детерминации R*2y.(x(4), x(3)) дает:
= 0,7356.
Среди возможных объясняющих переменных выбирается наиболее информативная (в смысле критерия) пара предикторов. Поскольку уровень значимости соблюдается только для x(3) и x(4), то наиболее информативной парой предикторов оказываются объясняющие переменные:
x(4) – надежность оборудования (в баллах),
x(3) – стоимость запасных частей для тягачей (в долл. США).
Коэффициенты детерминации на этом и последующем шаге подсчитываются как квадраты соответствующих множественных коэффициентов корреляции.
Кроме того, если учитывать значение парного линейного коэффициента корреляции между значением результативного признака и факторным признаком x(4) ( ), то можно говорить о наиболее сильном влиянии критерия надежности оборудования на выбор оптимального зарубежного партнера.
Таким образом, с помощью метода пошаговой регрессии было установлено, что стоимость изделия и срок поставки являются менее существенными факторами при выборе поставщика, нежели стоимость запасных частей к оборудованию и надежность продукции согласно международным рейтингам. Основная причина заключается в специфике деятельности ОАО «МАШ» (в целом) и отдела ВЭД (в частности).
Таким образом, сейчас многие зарубежные фирмы производят оборудование, предназначенное для обслуживания аэродрома – и предложение зачастую превышает спрос на продукцию. Поэтому в ходе переговоров возможно снизить цену на оборудование, используя страх поставщиков потерять заказ в конкурентной борьбе.
Однако, как только договор на покупку подписан, продавец поднимает цену на запасные части, если этот пункт не был оговорен заранее. К тому же, анализ контрактов, заключенных отделом ОАО «МАШ», позволяет сделать вывод о том, что количество договоров на поставку запасных частей в несколько раз превышает аналогичные контракты, предметом которых является само оборудование. Таким образом, затраты на запасные части являются существенным критерием при выборе зарубежного партнера.
Особенностью международного аэропорта является необходимость обеспечивать как авиационную, так и экологическую безопасность.
При оценке продукции контрагента учитываются стандарты международной организации ИКАО, присвоившей ОАО «МАШ» III категорию, требования СЭС г. Москвы, различных природоохранных организаций, контролирующих деятельность ОАО «МАШ». Это объясняет повышенные требования к надежности и безопасности закупаемого оборудования.
В заключение хотелось бы отметить, что данная методика может применяться в различных отраслях экономики. Дифференциация по сферам деятельности повлияет на изменение критериев выбора зарубежного партнера; вместе с тем, оценка критериев будет производиться аналогичным методом.
Модель позволяет оценить потенциального контрагента, используя методику, рассмотренную выше, то есть когда нужно найти другого поставщика, делается оценка по некоторой выборке из базы, результаты оценки записываются в записи соответствующей таблицы и по установленным критериям выбирается поставщик.
Кроме того, можно повторно оценивать поставщиков из имеющейся базы данных организации, если какие-либо критерии выбора изменились в ходе переговоров.