Добавил:

Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.

Вуз:

Национальный исследовательский университет «МИЭТ»

Предмет:

[НЕСОРТИРОВАННОЕ]

Файл:

Глава 11-12 (ЛМВ) а.doc

Скачиваний:

Добавлен:

16.08.2019

Размер:

2.2 Mб

Скачать

☆

<<< < Предыдущая 1 2 3 4 5 6 7 8 9 1011 / 1111

95% Доверительные границы

4,6006  ₀  4,7753

−2,6793  ₁  −2,4121

Таблица 12.17

Дисперсионный анализ

	Степени свободы	Сумма квадратов	Среднее квадратич.	F-значение	Вероятность
Модель	1	0,96151	0,96151	14296	0,0000
Остатки	10	6,7258 е^–4	6,7258 е^–5
Всего	11	0,96218

= 0,9992; R²_y₍_x₎ = 0,9993.

Значения коэффициента детерминации (R²), критерия Фишера (F) и t-статистики позволяют сделать вывод о том, что рассмотренная модель достаточно точно описывает зависимость, приведенную в таблице 12.16.

В ходе проведенного анализа было обнаружено следующее.

Экспорт необработанных кристаллов не позволяет расширять ассортимент производимой продукции, так как рынок находится в стадии насыщения, что прежде всего обусловлено отставанием технологий производства российских предприятий от мировых стандартов.

В связи с этим предприятию рекомендуется производственное сотрудничество с иностранными контрагентами, которые располагают более мощными производственными возможностями в целях повышения технологического уровня конечной продукции.

Долгосрочное сотрудничество с китайской фирмой, несмотря на видимую привлекательность низких затрат, не имеет перспективы относительно размещения заказов на другие виды продукции.

Наиболее выгодным вариантом сотрудничества является обработка кристаллов на базе американской компании.

Таким образом, рассмотренные модели позволяют, используя регрессионный анализ, проводить оценку результатов сотрудничества с иностранным контрагентом.

Кроме того, так же можно проводить повторную оценку эффективности сотрудничества, если значения показателей сдвинулись с течением времени: изменение рыночной конъюнктуры вызвало рост/спад продаж, сокращение ЖЦТ; возрос объем выплат в качестве компенсаций по жалобам вследствие брака продукции и т. д.

В заключение хотелось бы отметить, что данная методика может применяться в различных отраслях экономики. Дифференциация по сферам деятельности повлияет на жизненный цикл товара, объем инвестиций на начальном этапе; вместе с тем, оценивать результаты сотрудничества с иностранным контрагентом можно будет по той же методике.

12.3. Применение кластерного анализа для классификации потребителей снековой продукции

Целью данного исследования является применение одного из методов многомерной классификации объектов – кластерного анализа – к выборке, состоящей из 189 объектов, для определения кластеров (сегментов) и описания их характеристик.

Вышеуказанные 189 объектов представляют собой количество анкет, заполненных респондентами в ходе маркетингового исследования рынка снековой продукции. Чтобы выявить анкеты с похожими ответами на вопросы, которые впоследствии сформируют сегмент (кластер), необходимо определить признаки кластеризации (объединения) объектов. Автор работы использовал 7 таких признаков (и, соответственно, 7 вопросов анкеты):

как часто вы употребляете снековую продукцию;
насколько важен дизайн упаковки;
упаковку какого объема предпочитаете приобретать;
сколько видов вкусов должна иметь сушеная закуска;
насколько острой должна быть сушеная закуска;
насколько важен состав снека;
употребляете ли мясные снеки.

Варианты ответа на каждый вопрос были закодированы в числа от 1 до 5. Чтобы определить сегменты (выявить кластеры), автором работы были использованы методы кластер-анализа.

Методы кластер-анализа

В общей (нестрогой) постановке проблема автоматической классификации объектов заключается в том, чтобы всю анализируемую совокупность объектов , статистически представленную в виде матриц, разбить на сравнительно небольшое, заранее известное или нет, число однородных (в определенном смысле) групп или классов [5, с. 484].

Наиболее сложен в задаче автоматической классификации момент, связанный с определением понятия однородности объектов.

В общем случае понятие однородности объектов определяется заданием правила вычисления величины, характеризующей либо расстояние d(O_i, O_j) между объектами O_i и O_jиз исследуемой совокупности О (i, j = 1, 2, … , n), либо степень близости (сходства) r(O_i, O_j) тех же объектов. Если задана функция d(O_i, O_j), то близкие в смысле этой метрики объекты считаются однородными, принадлежащими одному классу. При этом необходимо сопоставление d(O_i, O_j) с некоторым пороговым значением, определяемым в каждом конкретном случае по-своему.

При задании расстояний и мер близости нужно помнить о необходимости соблюдения следующих естественных требований: требования симметрии (d(O_i, O_j) = d(O_j, O_i) и r(O_i, O_j) = r(O_j, O_i)); требования максимального сходства объекта с самим собой (r(O_i, O_i) = max r(O_i, O_j) при 1 ≤ j ≤ n) и требования при заданной метрике монотонного убывания r(O_i, O_j) по d(O_i, O_j), то есть из d(O_k, O_l) ≥ d(O_i, O_j) должно с необходимостью следовать выполнение неравенства r(O_k, O_l) ≤ r(O_i, O_j).

Выбор метрики (или меры близости) является узловым моментом исследования, от которого решающим образом зависит окончательный вариант разбиения объектов на классы при заданном алгоритме разбиения.

В качестве примеров расстояний и мер близости, сравнительно широко используемых в задачах кластер-анализа, можно привести следующие ниже.

Обычное евклидово расстояние: .

Взвешенное евклидово расстояние: .

обычно применяется в ситуациях, в которых каждой из компонент x⁽^k⁾ вектора наблюдений Х так или иначе удается приписать некоторый неотрицательный «вес» ω_k, пропорциональный степени его важности с точки зрения вопроса об отнесении заданного объекта к тому или иному классу.

Хеммингово расстояние используется как мера различия объектов, задаваемых дихотомическими признаками. Оно задается с помощью формулы:

и равно числу ν_ij несовпадений значений соответствующих признаков в рассматриваемых i-м и j-м объектах [5, с. 488].

С точки зрения априорной информации об окончательном числе классов, на которое требуется разбить исследуемую совокупность объектов, задачи кластер-анализа можно подразделить на 3 основных типа:

а) число классов априори задано;

б) число классов неизвестно и подлежит определению;

в) число классов неизвестно, но его определение не входит в условие задачи; требуется построить так называемое иерархическое дерево исследуемой совокупности, или дендрограмму.

Выделяют следующие три типа кластер-процедур:

процедуры иерархические;
процедуры параллельные;
процедуры последовательные.

Принцип работы иерархических агломеративных (дивизимных) процедур состоит в последовательном объединении (разделении) групп элементов – сначала самых близких (далеких), а затем все более отдаленных друг от друга (приближенных друг к другу). При этом агломеративные процедуры начинают обычно с объединения отдельных элементов, а дивизимные – с разъединения всей исходной совокупности наблюдений.

Примеры иерархических алгоритмов.

Агломеративный иерархический алгоритм «ближайшего соседа» (или «одной связи»). Этот алгоритм исходит из матрицы расстояний между наблюдениями, в которой расстояние между кластерами определено по правилу «ближайшего соседа». На первом шаге алгоритма каждое наблюдение рассматривается как отдельный кластер. Далее на каждом шаге работы алгоритма происходит объединение двух самых близких кластеров, размерность которых снижается на единицу. Работа алгоритма заканчивается, когда все исходные наблюдения объединены в один класс.
Агломеративные иерархические алгоритмы «средней связи» и «полной связи» (или «дальнего соседа»). В алгоритме средней связи под расстоянием между кластерами понимается среднее из расстояний между всевозможными парами представителей этих кластеров. В алгоритме полной связи (или дальнего соседа) расстояние между двумя кластерами определяется как расстояние между двумя самыми отдаленными друг от друга представителями своих кластеров.
Метод Уорда. Данный метод построен таким образом, чтобы оптимизировать минимальную дисперсию внутри кластеров. Эта целевая функция известна как внутригрупповая сумма квадратов или сумма квадратов отклонений (СКО): , где x_j – значение признака j-го объекта. На первом шаге, когда каждый кластер состоит из одного объекта, СКО равна нулю. По методу Уорда объединяются те группы или объекты, для которых СКО получает минимальное приращение. При использовании метод ориентирован на нахождение кластеров приблизительно равных размеров [140, с. 174].

При достаточно большом числе наблюдений применяются последовательные кластер-процедуры, которые составляют сущность метода k-средних и предусматривают использование итерационных алгоритмов, на каждом шаге которых последовательно обсчитывается небольшая часть исходных наблюдений.

Пусть наблюдения Х₁, Х₂, … , Х_n требуется разбить на заданное число k (k ≤ n) однородных классов.

Смысл описываемого алгоритма – в последовательном уточнении эталонных точек E^(ν) = {e^(ν)₁, e^(ν)₂, … , e^(ν)k} (v – номер итерации, v = 0, 1, 2, …) с соответствующим перерасчетом приписываемых им «весов»

При этом нулевое приближение E⁽⁰⁾ строится с помощью случайно выбранных первых k точек исследуемой совокупности, то есть , , i = 1, 2, … , k.

Затем на первом шаге «извлекается» точка Х_k₊₁ и выясняется, к какому из эталонов e⁽⁰⁾_i она оказалась ближе всего. Именно этот, самый близкий к Х_k₊₁, эталон заменяется эталоном, определяемым как центр тяжести старого эталона и присоединенной к нему точки Х_k₊₁ (с увеличением на единицу соответствующего ему веса), а все другие эталоны остаются неизменными и т. д. Таким образом, пересчет эталонов и весов на ν-м шаге, то есть при извлечении очередной точки Х_k₊_ν, происходит по следующему правилу:

, если , или:

, если ,

или i = 1, 2, … , k.

При этом, если обнаруживается несколько одинаковых минимальных значений , то можно условиться относить точку Х_k₊_ν к эталону с минимальным порядковым номером [5, с. 509].

Окончательное разбиение S исследуемой совокупности многомерных наблюдений на K классов производится в соответствии с правилом минимального дистанционного разбиения S (E) относительно центров тяжести (эталонов) Е = Е⁽ⁿ^–^k⁾, которое является частным случаем разбиений общей схемы эталонных алгоритмов, получающихся при φ(X, E_l) = p(X, E_l), то есть:

Если оказывается, что р(Х, E_l) = p(X, E_j), то точку Х относят к тому из классов S_l и S_j , который обладает меньшим порядковым номером.

На случай неизвестного числа классов следует задаться двумя константами Φ₀ и Ψ₀, названными соответственно мерой грубости и мерой точности. Алгоритм также состоит в последовательном построении эталонных точек и весов , но число классов k(v) может меняться при этом от итерации к итерации.

На нулевом шаге итерации берется любое начальное k(0) и полагается ω⁽⁰⁾_j = 1, E⁽⁰⁾_j = X_j (j = 1, … , k(0)).

Затем производится процедура «огрубления» эталонных точек. Подсчитывается расстояние между двумя ближайшими эталонными точками, и это расстояние сравнивается с заданной мерой грубости Φ₀. Если это минимальное расстояние меньше Φ₀, то соответствующая пара эталонных точек заменяется их взвешенным средним с весом, равным сумме соответствующих двух весов. Процедура «огрубления» заканчивается тогда, когда расстояние между любыми двумя эталонными точками не меньше, чем Φ₀. Пусть в результате процедуры «огрубления» мы имеем число эталонных точек , эталонные точки E⁽⁰⁾_j и веса ω⁽⁰⁾_j .

На первом шаге итерации извлекается точка X_k₍₀₎₊₁ и вычисляется расстояние от X_k₍₀₎₊₁ до ближайшей к ней эталонной точки E⁽⁰⁾_j . При этом, если расстояние больше Ψ₀, то X_k₍₀₎₊₁ объявляется новой эталонной точкой Е_k₍₀₎₊₁ = X_k₍₀₎₊₁ с весом , а все остальные эталонные точки и соответствующие им веса остаются неизменными.

Если это минимальное расстояние меньше Ψ₀, то самый близкий к X_k₍₀₎₊₁ эталон заменяется эталоном, определяемым как центр тяжести старого эталона и присоединенной к нему точки X_k₍₀₎₊₁. Вес точки X_k₍₀₎₊₁ считается равным 1. Вес этого нового эталона равен сумме весов объединяемых точек: старого эталона и точки X_k₍₀₎₊₁.

Все остальные эталоны и соответствующие веса остаются неизменными. Таким образом, пересчет эталонов и весов в этом случае происходит точно так же, как и в обычном методе k-средних.

После процедуры «огрубления» эталонных точек переходят ко второму шагу итерации и так далее.

Выбирая различные константы Φ₀ и Ψ₀, мы будем с помощью этого алгоритма получать различные разбиения. Выбор величин Φ₀ и Ψ₀ можно считать удачным, если разбиение, соответствующее этим величинам, признано оптимальным или с точки зрения экспертов, или в смысле принятых функционалов качества разбиения [5, с. 510–511].

Для классификации объектов методом кластерного анализа автор работы использовал программу STATISTICA, VI версию. Объекты объединялись по семи признакам, характеризующим предпочтения потребителей к продукту (как часто приобретают, насколько важен дизайн упаковки, упаковку какого объема предпочитают покупать, какое число вкусов предпочтительно, предпочтения к остроте, важность состава продукта, отношение к мясным закускам). Сначала был применен иерархический метод кластеризации, с использованием метода Уорда и евклидова расстояния, который позволил определить по дендрограмме число кластеров. Результат показан на рисунке 12.5.

Дендрограмма отражает присутствие четырех кластеров. Чтобы получить их четкие характеристики, автор применил метод k-средних при известном числе кластеров (4).

Результат применения метода k-средних демонстрирует рисунок 12.6. Он показывает профили требований каждого из сегментов (кластеров).

Рисунок 12.5. Дендрограмма метода Уорда для определения оптимального числа кластеров

Рисунок 12.6. Профили требований полученных сегментов (кластеров)

Таблица 12.18

Значения кластеров

	Кластер 1	Кластер 2	Кластер 3	Кластер 4
Частота приобретения (1)	3,355556	3,052632	3,098039	2,916667
Важность дизайна упаковки (2)	2,177778	2,491228	3,196079	1,750000
Объем упаковки (3)	4,022222	3,561404	3,137255	3,166667
Сколько вкусов (4)	3,422222	2,789474	3,235294	2,555556
Степень остроты (5)	3,711111	2,982456	3,196079	3,027778
Важность состава (6)	2,533333	4,157895	4,196078	1,861111
Отношение к мясным закускам (7)	4,288889	1,000000	3,784314	1,888889

Таблица 12.18 показывает значения параметров для каждого из 4 кластеров.

Таблица 12.19

Евклидово расстояние между кластерами

	№ 1	№ 2	№ 3	№ 4
№ 1	0,000000	2,112810	0,743705	1,219647
№ 2	2,112810	0,000000	1,239576	0,977976
№ 3	0,743705	1,239576	0,000000	1,665712
№ 4	1,219647	0,977976	1,665712	0,000000

Таблица 12.19 содержит данные о евклидовом расстоянии между кластерами. Из таблицы видно, что самый большой разрыв в расстоянии между первым и вторым кластерами, самый маленький – между первым и третьим.

Таблица 12.20

Отдельная характеристика полученных кластеров

Характеристика кластера 1 (45)				Характеристика кластера 2 (57)
№	Значение	Standard	Variance	№	Значение	Standard	Variance
(1)	3,355556	0,933117	0,870707	(1)	3,052632	0,811107	0,657895
(2)	2,177778	1,211477	1,467677	(2)	2,491228	1,071094	1,147243
(3)	4,022222	0,865734	0,749495	(3)	3,561404	1,000313	1,000627
(4)	3,422222	1,270091	1,613131	(4)	2,789474	1,145439	1,312030
(5)	3,711111	0,626035	0,391919	(5)	2,982456	0,767445	0,588972
(6)	2,533333	0,943880	0,890909	(6)	4,157895	0,701770	0,492481
(7)	4,288889	0,968181	0,937374	(7)	1,000000	0,000000	0,000000

Характеристика кластера 3 (51)				Характеристика кластера 4 (36)
№	Значение	Standard	Variance	№	Значение	Standard	Variance
(1)	3,098039	0,755113	0,570196	(1)	2,916667	0,937321	0,878571
(2)	3,196079	0,938501	0,880784	(2)	1,750000	1,024695	1,050000
(3)	3,137255	0,800490	0,640784	(3)	3,166667	0,910259	0,828571
(4)	3,235294	1,011696	1,023529	(4)	2,555556	1,080858	1,168254
(5)	3,196079	0,848990	0,720784	(5)	3,027778	0,810154	0,656349
(6)	4,196078	0,693386	0,480784	(6)	1,861111	0,723198	0,523016
(7)	3,784314	0,986179	0,972549	(7)	1,888889	1,007905	1,015873

Из таблицы 12.20 видно, что в первом кластере представлено 45 объектов из 189, во второй вошло 57 объектов, в третьем кластере 51 объект, четвертый включает в себя 36 объектов. Таким образом, самые «мощные» кластеры – второй и третий.

В результате применения на практике иерархической процедуры кластерного анализа с помощью программы STATISTICA выявлено 4 кластера, подробные характеристики которых получены после использования последовательной процедуры кластеризации методом k-средних при известном числе классов.

178

<<< < Предыдущая 1 2 3 4 5 6 7 8 9 1011 / 1111

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]

#
05.06.2015460.29 Кб32випэшечка.doc
#
18.09.20191.2 Mб3Волны де Бройля.doc
#
27.09.2019185.86 Кб2Высшая нервная деятельность.doc
#
25.09.201981.05 Кб2ГЕГЕЛЬ.docx
#
05.06.201522.53 Кб10Генезис капитализма.doc
#
16.08.20192.2 Mб3Глава 11-12 (ЛМВ) а.doc
#
15.11.20192.27 Mб3Глава 4_автоматы.DOC
#
05.06.20152.98 Mб18Глава_испр 1.doc
#
05.06.20152.55 Mб8Глава_испр_2.doc
#
05.06.2015948.74 Кб11Глава_испр_3.doc
#
27.09.201972.19 Кб1Гомеостаз.doc