Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
диплом_NY_30 (1).doc
Скачиваний:
46
Добавлен:
16.02.2016
Размер:
2.87 Mб
Скачать

3.3. Ефективність побудови гібридної інтелектуальної системи для рішення задач кластеризації та регресії

Для доведення адекватності та ефективності розробленої методики побудови гібридної інтелектуальної системи для вирішення задач кластеризації та регресії були оброблені дані по десяти підприємствах м. Львова. Метою експерименту стало дослідження можливості різних поєднань методів кластеризації та мір подібності задовільно вирішувати завдання кластеризації підприємств по сформованій системі. У результаті експерименту повинне бути виявлене таке поєднання методу кластеризації та міри схожості, яке найкращим з точки зору змістовного аналізу групує підприємства. Використання результатів експерименту може дозволити: по-перше, визначити необхідну кількість кластерів для тестової вибірки та інших груп підприємств, по-друге, створити початкове розбиття та реалізувати всі варіанти методу k-середніх на тестовій вибірці, по-третє, зіставити отримані рішення кластеризації даних і, оцінивши їх стійкість, достовірність, на основі змістовного аналізу, побудувати підсумкове розбиття всіх груп підприємств на типи. Якість одержуваних у процесі експерименту кластерних рішень буде оцінюватися формально за значенням помилки, а потім за результатами змістовного аналізу. Момент зупинення процедури кластеризації, тобто кількість і склад одержуваних кластерів, буде визначатися спільним аналізом покрокового графіка об’єднання і дендрограми методу.

Експеримент буде здійснюватися з групою всіх ієрархічних агломеративних методів за допомогою перебору всіх можливих поєднань методів і мір подібності для кластеризації тестової вибірки.

Метод одиночного зв’язку. Як і слід було очікувати, метод одиночної зв’язку виявився непридатний. Задовільного рішення отримано не було, тому що у всіх розглянутих випадках з різними мірами подібності проявився ланцюговий ефект. Жоден з методів з використанням даної міри не привів до рішення. І цей результат слід було очікувати, так як вихідні дані не є категоріальними.

Загальні результати кластеризації різними методами подано у додатку Г. Таким чином, при використанні ітераційного методу k-середніх слід встановити значення числа кластерів рівне трьом як найбільш ймовірне, проте перевірити слід на чотири кластери.

У табл. 3.2 – 3.3 представлені рішення методом k-середніх для трьох та чотирьох кластерів.

Таблиця 3.2

Загальні результати розбиття на 3 кластери тестової вибірки методом к-середніх

Between SS

Within SS

F

p

Характеристика рішення кластеризації

Х1=3132,755

Х1= 203,7136

78,81345

2,02734000000000E-22

1 кластер

2 кластер

3 кластер

Х2=2021,738

Х2= 129,3104

80,1282

1,47841700000000E-22

13

25

12

Таблиця 3.3

Загальні результати розбиття на 3 кластери тестової вибірки методом к-середніх

Between SS

Within SS

F

p

Характеристика рішення кластеризації

Х1= 3043,145

Х1= 293,3229

74,3522

4,39826800000000E-21

1 кластер

2 кластер

3 кластер

4 кластер

Х2= 1965,359

Х2= 185,69

75,8526

2,98142500000000E-21

9

24

8

9

У таблицях наведені значення міжгрупових (Between SS) і внутрішньогрупових (Within SS) дисперсій ознак. Чим менше значення внутрішньогрупової дисперсії і більше значення міжгрупової дисперсії, тим краще ознака характеризує приналежність об’єктів до кластеру і тим «якісніше» кластеризація. Параметри F та p також характеризують внесок ознаки в поділ об’єктів на групи. Кращій кластеризації відповідають більші значення першого і менші значення другого параметра Ознаки з великими значеннями р можна з процедури кластеризації виключити.

З таблиць випливає, що для подальшого проведення регресійного аналізу необхідно використовувати розбиття на 3 кластери.

Для досліджуваної задачі ми можемо дізнатися які чинники є кращими предикторами успішного фінансового положення підприємств м. Львова. Для кожного кластеру розглянемо найпростішу регресійну модель – лінійну, а для всієї вибірки даних побудуємо лінійну модель і визначимо всі її характеристики.

Перевіримо статистичну значимість параметрів моделі та адекватність моделі за критерієм Фішера.

Коефіцієнт кореляції (Multiple R) показує, що зв’язок між залежною та незалежною змінними низький, Multiple R = 0,30502846 (0,7 – 0,9) тобто низька тіснота зв’язку.

Коефіцієнт детерминации (R?= 0,09304236) показує, що (1-0,09304236) 91% змін продуктивності пояснюється змінами рентабельності.

Скорегований коефіцієнт детермінації (adjusted R?) – коефіцієнт враховує кількість змінних моделі, скорегований на кількість незалежних змінних.

Standard error of estimate (Standard error of estimate) = 6,277283356 – (стандартна помилка оцінки). Міра розсіювання спостережуваних значень щодо регресійної прямої.

Intercept – параметр (оцінка вільного члена регресії, якщо обрана регресія, що включає вільний член) = 8,826368505.

Std.Error (стандартна помилка оцінки вільного члена) =8,729387.

p – ймовірність за допомогою якого відхиляється гіпотеза про не значимість.

t = 1,0111, р = 0,3510 (значення t-критерію та рівень значимості р) для перевірки гіпотези про рівністю нулю вільного члена.

F = 0,6155239, df = 1,6, p = 0,462557 (значення F-критерію, df – число ступінів свободи та рівень значимості p) використовується для перевірки гіпотези про залежність пре дикторів та відгуків.

1-р =1-0,462557= 53,8% що модель адекватна.

Параметр статистично значимий на рівні 64,9% (1-0,3510).

Параметр статистически значим на уровне 53,8 % (1-0,462557).

Таким чином, лінійна функція буде мати наступний вигляд (3.1):

,

(3.1)

Набрати формулу 3.1 у редакторі формул

З наведених результатів аналізу випливає, що залежність між відгуком і предикторами не сильна (R2> 0,75), побудована лінійна регресія не адекватно описує взаємозв’язок між відгуком і предикторами, вільний член статистично значущий.

Також в програмному продукті визначається стандартизовані (Beta) і нестандартизовані (Std.Err.of Beta) регресійні коефіцієнти (ваги), їх стандартні помилки і рівні значущості. Коефіцієнти Beta оцінюються за стандартизованимb даними, які мають вибіркове середнє, дорівнює 0 і стандартне відхилення, рівне 1. Тому величини Beta дозволяє порівняти вклади кожного предиктора в пророкування відгуку.

Приведене дослідження в програмному продукті на прикладі формування груп схожих за фінансовими показниками обраних підприємств дозволило провести кластерний аналіз за допомогою двох типів методів: ієрархічні, ітеративні (метод k-means), та виявити вид моделі, та значимість змінних за допомогою регресійного аналізу. Після проведення кластерного аналізу підприємства були розбиті на три кластери з вилученням двох ознак. За допомогою статистичних показників розрахованих даним програмним продуктом було визначено, що саме три кластери та така кількість ознак, є оптимальним для угрупування обраних підприємств.