Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Глава 11-12 (ЛМВ) а.doc
Скачиваний:
3
Добавлен:
16.08.2019
Размер:
2.2 Mб
Скачать

95% Доверительные границы

4,6006  0  4,7753

−2,6793  1  −2,4121

Таблица 12.17

Дисперсионный анализ

Степени свободы

Сумма квадратов

Среднее квадратич.

F-значение

Вероят­ность

Модель

1

0,96151

0,96151

14296

0,0000

Остатки

10

6,7258 е–4

6,7258 е–5

Всего

11

0,96218

= 0,9992; R2y(x) = 0,9993.

Значения коэффициента детерминации (R2), критерия Фишера (F) и t-ста­тистики позволяют сделать вывод о том, что рассмотренная модель до­ста­точ­но точно описывает зависимость, приведенную в таблице 12.16.

В ходе проведенного анализа было обнаружено следующее.

Экспорт необработанных кристаллов не позволяет расширять ассор­ти­мент производимой продукции, так как рынок находится в стадии на­сы­ще­ния, что прежде всего обусловлено отставанием технологий про­из­вод­ства российских предприятий от мировых стандартов.

В связи с этим предприятию рекомендуется производственное со­труд­ничество с иностранными контрагентами, которые располагают более мощ­ными производственными возможностями в целях повышения тех­но­ло­ги­ческого уровня конечной продукции.

Долгосрочное сотрудничество с китайской фирмой, несмотря на види­мую привлекательность низких затрат, не имеет перспективы относительно размещения заказов на другие виды продукции.

Наиболее выгодным вариантом сотрудничества является обработка кристаллов на базе американской компании.

Таким образом, рассмотренные модели позволяют, используя ре­грес­си­онный анализ, проводить оценку результатов сотрудничества с ино­стран­ным контрагентом.

Кроме того, так же можно проводить повторную оценку эффективности сотрудничества, если значения показателей сдвинулись с течением времени: изменение рыночной конъюнктуры вызвало рост/спад продаж, сокращение ЖЦТ; возрос объем выплат в качестве компенсаций по жалобам вследствие брака продукции и т. д.

В заключение хотелось бы отметить, что данная методика может приме­няться в различных отраслях экономики. Дифференциация по сферам дея­тель­ности повлияет на жизненный цикл товара, объем инвестиций на началь­ном этапе; вместе с тем, оценивать результаты сотрудничества с ино­стран­ным контрагентом можно будет по той же методике.

12.3. Применение кластерного анализа для классификации потребителей снековой продукции

Целью данного исследования является применение одного из методов многомерной классификации объектов – кластерного анализа – к выборке, состоящей из 189 объектов, для определения кластеров (сегментов) и опи­са­ния их характеристик.

Вышеуказанные 189 объектов представляют собой количество анкет, заполненных респондентами в ходе маркетингового исследования рынка сне­ко­вой продукции. Чтобы выявить анкеты с похожими ответами на во­просы, которые впоследствии сформируют сегмент (кластер), необходимо опре­делить признаки кластеризации (объединения) объектов. Автор работы использовал 7 таких признаков (и, соответственно, 7 вопросов анкеты):

  1. как часто вы употребляете снековую продукцию;

  2. насколько важен дизайн упаковки;

  3. упаковку какого объема предпочитаете приобретать;

  4. сколько видов вкусов должна иметь сушеная закуска;

  5. насколько острой должна быть сушеная закуска;

  6. насколько важен состав снека;

  7. употребляете ли мясные снеки.

Варианты ответа на каждый вопрос были закодированы в числа от 1 до 5. Чтобы определить сегменты (выявить кластеры), автором работы были использованы методы кластер-анализа.

Методы кластер-анализа

В общей (нестрогой) постановке проблема автоматической клас­си­фи­кации объектов заключается в том, чтобы всю анализируемую совокупность объектов , статистически представленную в виде матриц, раз­бить на сравнительно небольшое, заранее известное или нет, число одно­родных (в определенном смысле) групп или классов [5, с. 484].

Наиболее сложен в задаче автоматической классификации момент, свя­зан­ный с определением понятия однородности объектов.

В общем случае понятие однородности объектов определяется заданием правила вычисления величины, характеризующей либо расстояние d(Oi, Oj) между объектами Oi и Oj из исследуемой совокупности О (ij = 1, 2, … , n), либо степень близости (сходства) r(OiOj) тех же объектов. Если задана функция d(OiOj), то близкие в смысле этой метрики объекты считаются однородными, принадлежащими одному классу. При этом необходимо сопо­ставление d(OiOj) с некоторым пороговым значением, определяемым в каж­дом конкретном случае по-своему.

При задании расстояний и мер близости нужно помнить о необ­хо­ди­мости соблюдения следующих естественных требований: требования сим­мет­рии (d(OiOj) = d(OjOi) и r(OiOj) = r(OjOi)); требования максимального сходства объекта с самим собой (r(OiOi) = max r(OiOj) при 1 ≤ j ≤ n) и тре­бования при заданной метрике монотонного убывания r(OiOj) по d(OiOj), то есть из d(OkOl) ≥ d(OiOj) должно с необходимостью следовать выпол­нение неравенства r(OkOl) ≤ r(OiOj).

Выбор метрики (или меры близости) является узловым моментом исследования, от которого решающим образом зависит окончательный вариант разбиения объектов на классы при заданном алгоритме разбиения.

В качестве примеров расстояний и мер близости, сравнительно широко используемых в задачах кластер-анализа, можно привести следующие ниже.

Обычное евклидово расстояние: .

Взвешенное евклидово расстояние: .

обычно применяется в ситуациях, в которых каждой из компонент x(k) вектора наблюдений Х так или иначе удается приписать некоторый неотрицательный «вес» ωk, пропорциональный степени его важности с точки зрения вопроса об отнесении заданного объекта к тому или иному классу.

Хеммингово расстояние используется как мера различия объектов, зада­ваемых дихотомическими признаками. Оно задается с помощью формулы:

и равно числу νij несовпадений значений соответствующих признаков в рас­сматриваемых i-м и j-м объектах [5, с. 488].

С точки зрения априорной информации об окончательном числе классов, на которое требуется разбить исследуемую совокупность объектов, задачи кластер-анализа можно подразделить на 3 основных типа:

а) число классов априори задано;

б) число классов неизвестно и подлежит определению;

в) число классов неизвестно, но его определение не входит в условие задачи; требуется построить так называемое иерархическое дерево исследуемой совокупности, или дендрограмму.

Выделяют следующие три типа кластер-процедур:

  • процедуры иерархические;

  • процедуры параллельные;

  • процедуры последовательные.

Принцип работы иерархических агломеративных (дивизимных) про­це­дур состоит в последовательном объединении (разделении) групп элементов – сначала самых близких (далеких), а затем все более отдаленных друг от дру­га (приближенных друг к другу). При этом агломеративные процедуры начи­нают обычно с объединения отдельных элементов, а дивизимные – с разъ­еди­нения всей исходной совокупности наблюдений.

Примеры иерархических алгоритмов.

  1. Агломеративный иерархический алгоритм «ближайшего соседа» (или «од­ной связи»). Этот алгоритм исходит из матрицы расстояний меж­ду на­блю­дениями, в которой расстояние между кластерами опре­де­лено по правилу «ближайшего соседа». На первом шаге алгоритма каж­дое наблюдение рассматривается как отдельный кластер. Далее на каждом шаге работы алгоритма происходит объединение двух самых близких кластеров, размерность которых сни­жается на еди­ницу. Работа алго­ритма заканчивается, когда все исходные наблюдения объеди­не­ны в один класс.

  2. Агломеративные иерархические алгоритмы «средней связи» и «пол­ной связи» (или «дальнего соседа»). В алгоритме средней связи под рас­стоянием между кластерами понимается среднее из рас­сто­яний между всевозможными парами представителей этих кластеров. В алгоритме полной связи (или дальнего соседа) расстояние между двумя клас­терами определяется как расстояние между двумя самыми от­да­лен­ными друг от друга представителями своих кластеров.

  3. Метод Уорда. Данный метод построен таким образом, чтобы опти­мизировать минимальную дисперсию внутри кластеров. Эта целевая функция известна как внутригрупповая сумма квадратов или сумма квадратов отклонений (СКО): , где xj – значе­ние признака j-го объекта. На первом шаге, когда каждый кластер состо­ит из одного объекта, СКО равна нулю. По методу Уорда объеди­няются те группы или объекты, для которых СКО получает мини­мальное приращение. При использовании метод ориентирован на нахож­дение кластеров приблизительно равных размеров [140, с. 174].

При достаточно большом числе наблюдений применяются после­до­ва­тельные кластер-процедуры, которые составляют сущность метода k-сред­них и предусматривают использование итерационных алгоритмов, на каж­дом шаге которых последовательно обсчитывается небольшая часть исход­ных наблюдений.

Пусть наблюдения Х1Х2, … , Хn требуется разбить на заданное число (k ≤ n) однородных классов.

Смысл описываемого алгоритма – в последовательном уточнении эта­лонных точек E(ν) = {e(ν)1, e(ν)2, … , e(ν)k} (v – номер итерации, = 0, 1, 2, …) с со­ответствующим перерасчетом приписываемых им «весов»

.

При этом нулевое приближение E(0) строится с по­мощью случайно выбран­ных первых k точек исследуемой совокупности, то есть , , i = 1, 2, … , k.

Затем на первом шаге «извлекается» точка Хk+1 и выясняется, к какому из эталонов e(0)i она оказалась ближе всего. Именно этот, самый близкий к Хk+1, эталон заменяется эталоном, определяемым как центр тяжести старого эталона и присоединенной к нему точки Хk+1 (с увеличением на единицу соответствующего ему веса), а все другие эталоны остаются неизменными и т. д. Таким образом, пересчет эталонов и весов на ν-м шаге, то есть при из­влечении очередной точки Хk+ν, происходит по следующему правилу:

, если , или:

, если ,

или i = 1, 2, … , k.

При этом, если обнаруживается несколько одинаковых минимальных значений , то можно условиться относить точку Хk+ν к эталону с минимальным порядковым номером [5, с. 509].

Окончательное разбиение S исследуемой совокупности многомерных на­блю­дений на K классов производится в соответствии с правилом мини­маль­ного дистанционного разбиения (E) относительно центров тяжести (эта­лонов) Е = Е(nk), которое является частным случаем разбиений общей схемы эталонных алгоритмов, получающихся при φ(XEl) = p(XEl), то есть:

.

Если оказывается, что р(ХEl) = p(XEj), то точку Х относят к тому из клас­сов Sl и Sj , который обладает меньшим порядковым номером.

На случай неизвестного числа классов следует задаться двумя констан­тами Φ0 и Ψ0, названными соответственно мерой грубости и мерой точности. Алгоритм также состоит в последовательном построении эталон­ных точек и весов , но число классов k(v) может меняться при этом от итерации к итерации.

На нулевом шаге итерации берется любое начальное k(0) и полагается ω(0)j = 1, E(0)j = Xj (j = 1, … , k(0)).

Затем производится процедура «огрубления» эталонных точек. Подсчи­тывается расстояние между двумя ближайшими эталонными точками, и это расстояние сравнивается с заданной мерой грубости Φ0. Если это мини­маль­ное расстояние меньше Φ0, то соответствующая пара эталонных точек заме­ня­ется их взвешенным средним с весом, равным сумме соответ­ствую­щих двух весов. Процедура «огрубления» заканчивается тогда, когда расстояние между любыми двумя эталонными точками не меньше, чем Φ0. Пусть в ре­зуль­тате процедуры «огрубления» мы имеем число эталонных точек , эталонные точки E(0)j и веса ω(0)j .

На первом шаге итерации извлекается точка Xk(0)+1 и вычисляется рас­стоя­ние от Xk(0)+1 до ближайшей к ней эталонной точки E(0)j . При этом, если расстояние больше Ψ0, то Xk(0)+1 объявляется новой эталонной точкой Еk(0)+1 = Xk(0)+1 с весом , а все остальные эталонные точки и соответствующие им веса остаются неизменными.

Если это минимальное расстояние меньше Ψ0, то самый близкий к Xk(0)+1 эталон заменяется эталоном, определяемым как центр тяжести старого эта­лона и присоединенной к нему точки Xk(0)+1. Вес точки Xk(0)+1 считается равным 1. Вес этого нового эталона равен сумме весов объединяемых точек: ста­рого эталона и точки Xk(0)+1.

Все остальные эталоны и соответствующие веса остаются неизменными. Таким образом, пересчет эталонов и весов в этом случае происходит точно так же, как и в обычном методе k-средних.

После процедуры «огрубления» эталонных точек переходят ко второму шагу итерации и так далее.

Выбирая различные константы Φ0 и Ψ0, мы будем с помощью этого алгоритма получать различные разбиения. Выбор величин Φ0 и Ψ0 можно считать удачным, если разбиение, соответствующее этим величинам, при­зна­но оптимальным или с точки зрения экспертов, или в смысле принятых функционалов качества разбиения [5, с. 510–511].

Для классификации объектов методом кластерного анализа автор рабо­ты использовал программу STATISTICA, VI версию. Объекты объеди­нялись по семи признакам, характеризующим предпочтения потреби­те­лей к про­дукту (как часто приобретают, насколько важен дизайн упаковки, упаковку какого объема предпочитают покупать, какое число вкусов пред­поч­ти­тель­но, пред­поч­тения к остроте, важность состава продукта, отно­ше­ние к мяс­ным закус­кам). Сначала был применен иерархический метод кластеризации, с ис­поль­зо­ванием метода Уорда и евклидова расстояния, который позволил опре­делить по дендрограмме число кластеров. Результат показан на рисунке 12.5.

Дендрограмма отражает присутствие четырех кластеров. Чтобы полу­чить их четкие характеристики, автор применил метод k-средних при из­вест­ном числе кластеров (4).

Результат применения метода k-средних демонстрирует рисунок 12.6. Он показывает профили требований каждого из сегментов (кластеров).

Рисунок 12.5. Дендрограмма метода Уорда для определения оптимального числа кластеров

Рисунок 12.6. Профили требований полученных сегментов (кластеров)

Таблица 12.18

Значения кластеров

Кластер 1

Кластер 2

Кластер 3

Кластер 4

Частота приобретения (1)

3,355556

3,052632

3,098039

2,916667

Важность дизайна упаковки (2)

2,177778

2,491228

3,196079

1,750000

Объем упаковки (3)

4,022222

3,561404

3,137255

3,166667

Сколько вкусов (4)

3,422222

2,789474

3,235294

2,555556

Степень остроты (5)

3,711111

2,982456

3,196079

3,027778

Важность состава (6)

2,533333

4,157895

4,196078

1,861111

Отношение к мясным закускам (7)

4,288889

1,000000

3,784314

1,888889

Таблица 12.18 показывает значения параметров для каждого из 4 кластеров.

Таблица 12.19

Евклидово расстояние между кластерами

№ 1

№ 2

№ 3

№ 4

№ 1

0,000000

2,112810

0,743705

1,219647

№ 2

2,112810

0,000000

1,239576

0,977976

№ 3

0,743705

1,239576

0,000000

1,665712

№ 4

1,219647

0,977976

1,665712

0,000000

Таблица 12.19 содержит данные о евклидовом расстоянии между клас­терами. Из таблицы видно, что самый большой разрыв в расстоянии между первым и вторым кластерами, самый маленький – между первым и третьим.

Таблица 12.20

Отдельная характеристика полученных кластеров

Характеристика кластера 1 (45)

Характеристика кластера 2 (57)

Значение

Standard

Variance

Значение

Standard

Variance

(1)

3,355556

0,933117

0,870707

(1)

3,052632

0,811107

0,657895

(2)

2,177778

1,211477

1,467677

(2)

2,491228

1,071094

1,147243

(3)

4,022222

0,865734

0,749495

(3)

3,561404

1,000313

1,000627

(4)

3,422222

1,270091

1,613131

(4)

2,789474

1,145439

1,312030

(5)

3,711111

0,626035

0,391919

(5)

2,982456

0,767445

0,588972

(6)

2,533333

0,943880

0,890909

(6)

4,157895

0,701770

0,492481

(7)

4,288889

0,968181

0,937374

(7)

1,000000

0,000000

0,000000

Характеристика кластера 3 (51)

Характеристика кластера 4 (36)

Значение

Standard

Variance

Значение

Standard

Variance

(1)

3,098039

0,755113

0,570196

(1)

2,916667

0,937321

0,878571

(2)

3,196079

0,938501

0,880784

(2)

1,750000

1,024695

1,050000

(3)

3,137255

0,800490

0,640784

(3)

3,166667

0,910259

0,828571

(4)

3,235294

1,011696

1,023529

(4)

2,555556

1,080858

1,168254

(5)

3,196079

0,848990

0,720784

(5)

3,027778

0,810154

0,656349

(6)

4,196078

0,693386

0,480784

(6)

1,861111

0,723198

0,523016

(7)

3,784314

0,986179

0,972549

(7)

1,888889

1,007905

1,015873

Из таблицы 12.20 видно, что в первом кластере представлено 45 объек­тов из 189, во второй вошло 57 объектов, в третьем кластере 51 объект, чет­вертый включает в себя 36 объектов. Таким образом, самые «мощные» клас­теры – второй и третий.

В результате применения на практике иерархической процедуры клас­терного анализа с помощью программы STATISTICA выявлено 4 клас­тера, подробные характеристики которых получены после использования по­сле­довательной процедуры кластеризации методом k-средних при известном числе классов.

178

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]