- •Глава 11. Маркетинговые исследования с использованием статистических методов
- •11.1. Прогнозирование объема продаж с использованием корреляционно-регрессионного анализа в системе statistica
- •11.2. Сегментирование конечного потребителя услуг кинотеатра с использованием кластерного анализа в системе statistica Игрунова о.М., Чекрышова и.И., Манакова е.В.
- •11.3. Исследование вкусовых предпочтений потребителей шоколада с использованием методов шкалирования Игрунова о.М., Виноградова и.Ю., Лаврентьева е.В.
- •Результаты «слепого» тестирования образца №1 по критериям «внешний вид» и «запах» (бренд Alpen Gold молочный)
- •11.4. Прогнозирование тенденций изменения спроса на потребительском рынке с использованием нейросетевого подхода Игрунова о.М.
- •Глава 12. Приложения моделей и методов статистического анализа в социально-экономической среде Платонова и.В., Соловьева ю.В., Иванова а.А.
- •12.1. Выбор зарубежного партнера с использованием многомерного регрессионного анализа
- •Коэффициенты модели
- •95% Доверительные границы
- •12.2. Выбор иностранного контрагента с использованием нелинейных моделей регрессионного анализа
- •95% Доверительные границы
- •95% Доверительные границы
- •95% Доверительные границы
- •95% Доверительные границы
- •12.3. Применение кластерного анализа для классификации потребителей снековой продукции
95% Доверительные границы
4,6006 0 4,7753
−2,6793 1 −2,4121
Таблица 12.17
Дисперсионный анализ
|
Степени свободы |
Сумма квадратов |
Среднее квадратич. |
F-значение |
Вероятность |
Модель |
1 |
0,96151 |
0,96151 |
14296 |
0,0000 |
Остатки |
10 |
6,7258 е–4 |
6,7258 е–5 |
|
|
Всего |
11 |
0,96218 |
|
|
|
= 0,9992; R2y(x) = 0,9993.
Значения коэффициента детерминации (R2), критерия Фишера (F) и t-статистики позволяют сделать вывод о том, что рассмотренная модель достаточно точно описывает зависимость, приведенную в таблице 12.16.
В ходе проведенного анализа было обнаружено следующее.
Экспорт необработанных кристаллов не позволяет расширять ассортимент производимой продукции, так как рынок находится в стадии насыщения, что прежде всего обусловлено отставанием технологий производства российских предприятий от мировых стандартов.
В связи с этим предприятию рекомендуется производственное сотрудничество с иностранными контрагентами, которые располагают более мощными производственными возможностями в целях повышения технологического уровня конечной продукции.
Долгосрочное сотрудничество с китайской фирмой, несмотря на видимую привлекательность низких затрат, не имеет перспективы относительно размещения заказов на другие виды продукции.
Наиболее выгодным вариантом сотрудничества является обработка кристаллов на базе американской компании.
Таким образом, рассмотренные модели позволяют, используя регрессионный анализ, проводить оценку результатов сотрудничества с иностранным контрагентом.
Кроме того, так же можно проводить повторную оценку эффективности сотрудничества, если значения показателей сдвинулись с течением времени: изменение рыночной конъюнктуры вызвало рост/спад продаж, сокращение ЖЦТ; возрос объем выплат в качестве компенсаций по жалобам вследствие брака продукции и т. д.
В заключение хотелось бы отметить, что данная методика может применяться в различных отраслях экономики. Дифференциация по сферам деятельности повлияет на жизненный цикл товара, объем инвестиций на начальном этапе; вместе с тем, оценивать результаты сотрудничества с иностранным контрагентом можно будет по той же методике.
12.3. Применение кластерного анализа для классификации потребителей снековой продукции
Целью данного исследования является применение одного из методов многомерной классификации объектов – кластерного анализа – к выборке, состоящей из 189 объектов, для определения кластеров (сегментов) и описания их характеристик.
Вышеуказанные 189 объектов представляют собой количество анкет, заполненных респондентами в ходе маркетингового исследования рынка снековой продукции. Чтобы выявить анкеты с похожими ответами на вопросы, которые впоследствии сформируют сегмент (кластер), необходимо определить признаки кластеризации (объединения) объектов. Автор работы использовал 7 таких признаков (и, соответственно, 7 вопросов анкеты):
как часто вы употребляете снековую продукцию;
насколько важен дизайн упаковки;
упаковку какого объема предпочитаете приобретать;
сколько видов вкусов должна иметь сушеная закуска;
насколько острой должна быть сушеная закуска;
насколько важен состав снека;
употребляете ли мясные снеки.
Варианты ответа на каждый вопрос были закодированы в числа от 1 до 5. Чтобы определить сегменты (выявить кластеры), автором работы были использованы методы кластер-анализа.
Методы кластер-анализа
В общей (нестрогой) постановке проблема автоматической классификации объектов заключается в том, чтобы всю анализируемую совокупность объектов , статистически представленную в виде матриц, разбить на сравнительно небольшое, заранее известное или нет, число однородных (в определенном смысле) групп или классов [5, с. 484].
Наиболее сложен в задаче автоматической классификации момент, связанный с определением понятия однородности объектов.
В общем случае понятие однородности объектов определяется заданием правила вычисления величины, характеризующей либо расстояние d(Oi, Oj) между объектами Oi и Oj из исследуемой совокупности О (i, j = 1, 2, … , n), либо степень близости (сходства) r(Oi, Oj) тех же объектов. Если задана функция d(Oi, Oj), то близкие в смысле этой метрики объекты считаются однородными, принадлежащими одному классу. При этом необходимо сопоставление d(Oi, Oj) с некоторым пороговым значением, определяемым в каждом конкретном случае по-своему.
При задании расстояний и мер близости нужно помнить о необходимости соблюдения следующих естественных требований: требования симметрии (d(Oi, Oj) = d(Oj, Oi) и r(Oi, Oj) = r(Oj, Oi)); требования максимального сходства объекта с самим собой (r(Oi, Oi) = max r(Oi, Oj) при 1 ≤ j ≤ n) и требования при заданной метрике монотонного убывания r(Oi, Oj) по d(Oi, Oj), то есть из d(Ok, Ol) ≥ d(Oi, Oj) должно с необходимостью следовать выполнение неравенства r(Ok, Ol) ≤ r(Oi, Oj).
Выбор метрики (или меры близости) является узловым моментом исследования, от которого решающим образом зависит окончательный вариант разбиения объектов на классы при заданном алгоритме разбиения.
В качестве примеров расстояний и мер близости, сравнительно широко используемых в задачах кластер-анализа, можно привести следующие ниже.
Обычное евклидово расстояние: .
Взвешенное евклидово расстояние: .
обычно применяется в ситуациях, в которых каждой из компонент x(k) вектора наблюдений Х так или иначе удается приписать некоторый неотрицательный «вес» ωk, пропорциональный степени его важности с точки зрения вопроса об отнесении заданного объекта к тому или иному классу.
Хеммингово расстояние используется как мера различия объектов, задаваемых дихотомическими признаками. Оно задается с помощью формулы:
и равно числу νij несовпадений значений соответствующих признаков в рассматриваемых i-м и j-м объектах [5, с. 488].
С точки зрения априорной информации об окончательном числе классов, на которое требуется разбить исследуемую совокупность объектов, задачи кластер-анализа можно подразделить на 3 основных типа:
а) число классов априори задано;
б) число классов неизвестно и подлежит определению;
в) число классов неизвестно, но его определение не входит в условие задачи; требуется построить так называемое иерархическое дерево исследуемой совокупности, или дендрограмму.
Выделяют следующие три типа кластер-процедур:
процедуры иерархические;
процедуры параллельные;
процедуры последовательные.
Принцип работы иерархических агломеративных (дивизимных) процедур состоит в последовательном объединении (разделении) групп элементов – сначала самых близких (далеких), а затем все более отдаленных друг от друга (приближенных друг к другу). При этом агломеративные процедуры начинают обычно с объединения отдельных элементов, а дивизимные – с разъединения всей исходной совокупности наблюдений.
Примеры иерархических алгоритмов.
Агломеративный иерархический алгоритм «ближайшего соседа» (или «одной связи»). Этот алгоритм исходит из матрицы расстояний между наблюдениями, в которой расстояние между кластерами определено по правилу «ближайшего соседа». На первом шаге алгоритма каждое наблюдение рассматривается как отдельный кластер. Далее на каждом шаге работы алгоритма происходит объединение двух самых близких кластеров, размерность которых снижается на единицу. Работа алгоритма заканчивается, когда все исходные наблюдения объединены в один класс.
Агломеративные иерархические алгоритмы «средней связи» и «полной связи» (или «дальнего соседа»). В алгоритме средней связи под расстоянием между кластерами понимается среднее из расстояний между всевозможными парами представителей этих кластеров. В алгоритме полной связи (или дальнего соседа) расстояние между двумя кластерами определяется как расстояние между двумя самыми отдаленными друг от друга представителями своих кластеров.
Метод Уорда. Данный метод построен таким образом, чтобы оптимизировать минимальную дисперсию внутри кластеров. Эта целевая функция известна как внутригрупповая сумма квадратов или сумма квадратов отклонений (СКО): , где xj – значение признака j-го объекта. На первом шаге, когда каждый кластер состоит из одного объекта, СКО равна нулю. По методу Уорда объединяются те группы или объекты, для которых СКО получает минимальное приращение. При использовании метод ориентирован на нахождение кластеров приблизительно равных размеров [140, с. 174].
При достаточно большом числе наблюдений применяются последовательные кластер-процедуры, которые составляют сущность метода k-средних и предусматривают использование итерационных алгоритмов, на каждом шаге которых последовательно обсчитывается небольшая часть исходных наблюдений.
Пусть наблюдения Х1, Х2, … , Хn требуется разбить на заданное число k (k ≤ n) однородных классов.
Смысл описываемого алгоритма – в последовательном уточнении эталонных точек E(ν) = {e(ν)1, e(ν)2, … , e(ν)k} (v – номер итерации, v = 0, 1, 2, …) с соответствующим перерасчетом приписываемых им «весов»
.
При этом нулевое приближение E(0) строится с помощью случайно выбранных первых k точек исследуемой совокупности, то есть , , i = 1, 2, … , k.
Затем на первом шаге «извлекается» точка Хk+1 и выясняется, к какому из эталонов e(0)i она оказалась ближе всего. Именно этот, самый близкий к Хk+1, эталон заменяется эталоном, определяемым как центр тяжести старого эталона и присоединенной к нему точки Хk+1 (с увеличением на единицу соответствующего ему веса), а все другие эталоны остаются неизменными и т. д. Таким образом, пересчет эталонов и весов на ν-м шаге, то есть при извлечении очередной точки Хk+ν, происходит по следующему правилу:
, если , или:
, если ,
или i = 1, 2, … , k.
При этом, если обнаруживается несколько одинаковых минимальных значений , то можно условиться относить точку Хk+ν к эталону с минимальным порядковым номером [5, с. 509].
Окончательное разбиение S исследуемой совокупности многомерных наблюдений на K классов производится в соответствии с правилом минимального дистанционного разбиения S (E) относительно центров тяжести (эталонов) Е = Е(n–k), которое является частным случаем разбиений общей схемы эталонных алгоритмов, получающихся при φ(X, El) = p(X, El), то есть:
.
Если оказывается, что р(Х, El) = p(X, Ej), то точку Х относят к тому из классов Sl и Sj , который обладает меньшим порядковым номером.
На случай неизвестного числа классов следует задаться двумя константами Φ0 и Ψ0, названными соответственно мерой грубости и мерой точности. Алгоритм также состоит в последовательном построении эталонных точек и весов , но число классов k(v) может меняться при этом от итерации к итерации.
На нулевом шаге итерации берется любое начальное k(0) и полагается ω(0)j = 1, E(0)j = Xj (j = 1, … , k(0)).
Затем производится процедура «огрубления» эталонных точек. Подсчитывается расстояние между двумя ближайшими эталонными точками, и это расстояние сравнивается с заданной мерой грубости Φ0. Если это минимальное расстояние меньше Φ0, то соответствующая пара эталонных точек заменяется их взвешенным средним с весом, равным сумме соответствующих двух весов. Процедура «огрубления» заканчивается тогда, когда расстояние между любыми двумя эталонными точками не меньше, чем Φ0. Пусть в результате процедуры «огрубления» мы имеем число эталонных точек , эталонные точки E(0)j и веса ω(0)j .
На первом шаге итерации извлекается точка Xk(0)+1 и вычисляется расстояние от Xk(0)+1 до ближайшей к ней эталонной точки E(0)j . При этом, если расстояние больше Ψ0, то Xk(0)+1 объявляется новой эталонной точкой Еk(0)+1 = Xk(0)+1 с весом , а все остальные эталонные точки и соответствующие им веса остаются неизменными.
Если это минимальное расстояние меньше Ψ0, то самый близкий к Xk(0)+1 эталон заменяется эталоном, определяемым как центр тяжести старого эталона и присоединенной к нему точки Xk(0)+1. Вес точки Xk(0)+1 считается равным 1. Вес этого нового эталона равен сумме весов объединяемых точек: старого эталона и точки Xk(0)+1.
Все остальные эталоны и соответствующие веса остаются неизменными. Таким образом, пересчет эталонов и весов в этом случае происходит точно так же, как и в обычном методе k-средних.
После процедуры «огрубления» эталонных точек переходят ко второму шагу итерации и так далее.
Выбирая различные константы Φ0 и Ψ0, мы будем с помощью этого алгоритма получать различные разбиения. Выбор величин Φ0 и Ψ0 можно считать удачным, если разбиение, соответствующее этим величинам, признано оптимальным или с точки зрения экспертов, или в смысле принятых функционалов качества разбиения [5, с. 510–511].
Для классификации объектов методом кластерного анализа автор работы использовал программу STATISTICA, VI версию. Объекты объединялись по семи признакам, характеризующим предпочтения потребителей к продукту (как часто приобретают, насколько важен дизайн упаковки, упаковку какого объема предпочитают покупать, какое число вкусов предпочтительно, предпочтения к остроте, важность состава продукта, отношение к мясным закускам). Сначала был применен иерархический метод кластеризации, с использованием метода Уорда и евклидова расстояния, который позволил определить по дендрограмме число кластеров. Результат показан на рисунке 12.5.
Дендрограмма отражает присутствие четырех кластеров. Чтобы получить их четкие характеристики, автор применил метод k-средних при известном числе кластеров (4).
Результат применения метода k-средних демонстрирует рисунок 12.6. Он показывает профили требований каждого из сегментов (кластеров).
Рисунок 12.5. Дендрограмма метода Уорда для определения оптимального числа кластеров
Рисунок 12.6. Профили требований полученных сегментов (кластеров)
Таблица 12.18
Значения кластеров
|
Кластер 1 |
Кластер 2 |
Кластер 3 |
Кластер 4 |
Частота приобретения (1) |
3,355556 |
3,052632 |
3,098039 |
2,916667 |
Важность дизайна упаковки (2) |
2,177778 |
2,491228 |
3,196079 |
1,750000 |
Объем упаковки (3) |
4,022222 |
3,561404 |
3,137255 |
3,166667 |
Сколько вкусов (4) |
3,422222 |
2,789474 |
3,235294 |
2,555556 |
Степень остроты (5) |
3,711111 |
2,982456 |
3,196079 |
3,027778 |
Важность состава (6) |
2,533333 |
4,157895 |
4,196078 |
1,861111 |
Отношение к мясным закускам (7) |
4,288889 |
1,000000 |
3,784314 |
1,888889 |
Таблица 12.18 показывает значения параметров для каждого из 4 кластеров.
Таблица 12.19
Евклидово расстояние между кластерами
|
№ 1 |
№ 2 |
№ 3 |
№ 4 |
№ 1 |
0,000000 |
2,112810 |
0,743705 |
1,219647 |
№ 2 |
2,112810 |
0,000000 |
1,239576 |
0,977976 |
№ 3 |
0,743705 |
1,239576 |
0,000000 |
1,665712 |
№ 4 |
1,219647 |
0,977976 |
1,665712 |
0,000000 |
Таблица 12.19 содержит данные о евклидовом расстоянии между кластерами. Из таблицы видно, что самый большой разрыв в расстоянии между первым и вторым кластерами, самый маленький – между первым и третьим.
Таблица 12.20
Отдельная характеристика полученных кластеров
Характеристика кластера 1 (45) |
|
Характеристика кластера 2 (57) |
||||||
№ |
Значение |
Standard |
Variance |
№ |
Значение |
Standard |
Variance |
|
(1) |
3,355556 |
0,933117 |
0,870707 |
(1) |
3,052632 |
0,811107 |
0,657895 |
|
(2) |
2,177778 |
1,211477 |
1,467677 |
(2) |
2,491228 |
1,071094 |
1,147243 |
|
(3) |
4,022222 |
0,865734 |
0,749495 |
(3) |
3,561404 |
1,000313 |
1,000627 |
|
(4) |
3,422222 |
1,270091 |
1,613131 |
(4) |
2,789474 |
1,145439 |
1,312030 |
|
(5) |
3,711111 |
0,626035 |
0,391919 |
(5) |
2,982456 |
0,767445 |
0,588972 |
|
(6) |
2,533333 |
0,943880 |
0,890909 |
(6) |
4,157895 |
0,701770 |
0,492481 |
|
(7) |
4,288889 |
0,968181 |
0,937374 |
(7) |
1,000000 |
0,000000 |
0,000000 |
|
|
|
|||||||
Характеристика кластера 3 (51) |
Характеристика кластера 4 (36) |
|||||||
№ |
Значение |
Standard |
Variance |
№ |
Значение |
Standard |
Variance |
|
(1) |
3,098039 |
0,755113 |
0,570196 |
(1) |
2,916667 |
0,937321 |
0,878571 |
|
(2) |
3,196079 |
0,938501 |
0,880784 |
(2) |
1,750000 |
1,024695 |
1,050000 |
|
(3) |
3,137255 |
0,800490 |
0,640784 |
(3) |
3,166667 |
0,910259 |
0,828571 |
|
(4) |
3,235294 |
1,011696 |
1,023529 |
(4) |
2,555556 |
1,080858 |
1,168254 |
|
(5) |
3,196079 |
0,848990 |
0,720784 |
(5) |
3,027778 |
0,810154 |
0,656349 |
|
(6) |
4,196078 |
0,693386 |
0,480784 |
(6) |
1,861111 |
0,723198 |
0,523016 |
|
(7) |
3,784314 |
0,986179 |
0,972549 |
(7) |
1,888889 |
1,007905 |
1,015873 |
Из таблицы 12.20 видно, что в первом кластере представлено 45 объектов из 189, во второй вошло 57 объектов, в третьем кластере 51 объект, четвертый включает в себя 36 объектов. Таким образом, самые «мощные» кластеры – второй и третий.
В результате применения на практике иерархической процедуры кластерного анализа с помощью программы STATISTICA выявлено 4 кластера, подробные характеристики которых получены после использования последовательной процедуры кластеризации методом k-средних при известном числе классов.