Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
диплом_NY_30 (1).doc
Скачиваний:
46
Добавлен:
16.02.2016
Размер:
2.87 Mб
Скачать

2.3. Побудова моделі гібридної інтелектуальної системи з використанням математичного апарату

Одним з найважливіших етапів при побудові ГІС є побудова достовірної моделі, яку можливо представити у вигляді багаторівневої ієрархічно впорядкованої структури. Ієрархія, як певний тип системи, заснований на припущенні, що елементи системи можуть групуватися в незв’язні множини. Елементи кожної групи чинять вплив на елементи іншої групи. Представлення у вигляді ієрархічної структури різних методів певного класу задач є найбільш зручним способом для реалізації гібридної інтелектуальної системи.

Ієрархія будується методом структурної декомпозиції (формування структур «зверху»).

Одним з варіантів побудови ієрархії пропонується знайти незалежні групи (кластери) та їх характеристики у всій множині аналізованих даних, далі для кожного кластера вирішити задачу регресії – визначити за відомими характеристиками об’єкта значення деякого його параметра.

Може існувати множина функцій, які однаково класифікують одну і ту ж навчальну вибірку. У результаті завдання побудови функції класифікації і регресії можна формально описати як завдання вибору функції з мінімальним ступенем помилки (1.1):

(1.1)

Набрати формулу 1.1 у редакторі формул

де f – функція класифікація або регресії з множини всіх F;

c (yi ,f(xi)) – функція витрат, в якій f(xi) – значення залежної змінної, знайдене за допомогою функцій f для вектора xi, а yi – її точне (відоме) значення.

Дана множина об’єктів даних I, кожен з об’єктів представлений набором атрибутів. Потрібно побудувати множину кластерів C=с1,c2,...,ck,...,cg і відображень F множини I на множині C, тобто F : I→C, так, щоб кожний об’єкт Ij належав одній і тільки одній підмножині розбиття. При цьому об’єкти, що належать одному і того ж кластеру, повинні бути подібними, а об’єкти, що належать різним кластерам – різнорідними [39; 41; 52 – 53]. Відображення F задає модель даних, що є рішенням задачі. Якість рішення задачі визначається кількістю вірно класифікованих об’єктів даних.

Множина I визначається наступним чином (1.2):

I = i1,i2,...,ij ,...,in

(1.2)

де i j – досліджуваний об’єкт.

Кожен з об’єктів характеризується набором параметрів (1.3):

ij = x1, x2,..., xh,..., xm

(1.3)

Кожна змінна x h може набувати значення з деякої множини (1.4):

х h = v1h, v 2h ,

(1.4)

Задача кластеризації полягає в побудові множини (1.5 – 1.6):

C= c1, c2,...,ck,...,cg ,

(1.5)

ck= ij, ip, ij ϵ I, ip ϵ I,d ij, i p, < σ,

(1.6)

де c k кластер, що містить схожі один на одного об’єкти з множини I.

де σ – величина, що визначає міру близькості для включення об’єктів в один кластер;

де d ij, i p - міра близькості між об’єктами (відстань).

Подібність між об’єктами Ii, Ij визначимо через поняття відстані між векторами вимірювань, так як інтуїтивно зрозуміло, що чим менше відстань між об’єктами, тим вони більш схожі.

Якщо відстань dii, ip менше деякого значення σ, то кажуть, що елементи близькі і містяться в один кластер. В іншому випадку говорять, що елементи відмінні один від одного і їх поміщають в різні кластеру.

Розписати пояснення до кожного елемента формули

Рішенням задачі кластерного аналізу є розбиття, які задовольняють критерію оптимальності. Цей критерій може являти собою деякий функціонал, що виражає рівні бажаності різних розбиття угруповань, який називають цільовою функцією.

Далі для множини C= c1, c2,...,ck,...,cg застосовується регресійний аналіз. Задачу побудови функції регресії можна формально описати як задачу вибору функції з мінімальним ступенем помилки.

Функція F (X), що описує залежність умовного середнього значення результативної ознаки У від заданих значень фактора, називається функцією (рівнянням) регресії.

Для точного опису рівняння регресії необхідно знати умовний закон розподілу результативної ознаки У. У статистичній практиці таку інформацію отримати зазвичай не вдається, тому обмежуються пошуком підходящих апроксимацій для функції F (X), заснованих на вихідних статистичних даних. Значення змінної X в і-ому спостереженні будемо позначати через xi, відповідні їм значення величини У – через yi i = 1,..., n.

Для лінійної моделі передбачається, що спостережувані величини пов’язані між собою залежністю виду (1.7):

yi = b0+b1xi +ci,

(1.7)

де b0,b1 – невідомі параметри (коефіцієнти рівняння);

ci – незалежні нормально розподілені випадкові величини з нульовим математичним очікуванням і дисперсією σ 2 .

Іноді с називають помилками спостереження. Загальна задача регресійного аналізу полягає в тому, щоб за спостереженнями xi, yi оцінити параметри моделі b0 ,b1 «найкращим чином»; побудувати довірчі інтервали для b0, b1; перевірити гіпотезу про значущість рівняння і коефіцієнтів регресії; оцінити ступінь адекватності, отриманої залежності і т.д. Якщо під «найкращим чином» розуміти мінімальну суму квадратів відстаней до прямої від спостережуваних точок, обчислених вздовж осі координат, то такий метод побудови рівняння регресії називається методом найменших квадратів [54]. В якості міри можна використовувати мінімум суми квадратів відстаней від точок до прямої, обчислених уздовж осі абсцис; мінімум суми квадратів відстаней довжин перпендикулярів, опущених з точок на пряму і т.д. Лінійна модель з декількома предикторами називається лінійною множинною регресійною моделлю, а саме (1.8):

yi = b1x1i + b2x 2i + + bp xpi+b0+ci ,

(1.8)

де b0, b1, b2,…….bр – відомі параметри моделі, які обчислюються за допомогою систем нормальних рівнянь.

Для гібридної інтелектуальної системи, яка буде вирішувати одну з задач Data Mining, задачу кластеризації, в якості алгоритмів були обрані агломеративні методи побудови ієрархій кластерів. Тому що, ієрархічні алгоритми забезпечують порівняно високу якість кластеризації і не вимагають попереднього завдання кількості кластерів. Для рішення задачі регресії було обрано будувати не тільки лінійний вид функції, але й інші, які дозволять більш якісніше проаналізувати всю сукупність вхідних даних.

Проведений аналіз виявив проблеми, які можуть виникнути при виборі методів для вирішення поставленого завдання. Класичні ієрархічні алгоритми працюють тільки з категорійними атрибутами, коли будується повне дерево вкладених кластерів. Використання методів глобального пошуку (генетичні алгоритми) значно збільшить обчислювальну складність алгоритму. Алгоритм оптимізації цільової функції в неієрархічних алгоритмах, заснованих на відстанях, носить ітеративний характер, і на кожній ітерації потрібно розраховувати матрицю відстаней між об’єктами. При великому числі об’єктів це неефективно і потребує серйозних обчислювальних ресурсів. Має масу недоліків в алгоритмі k-means підхід з ідеєю пошуку кластерів сферичної або еліпсоїдної форми. Підхід добре працює, коли дані в просторі утворюють компактні згустки, що добре відрізняються одне від одного. А якщо дані мають вкладену форму, то жоден з алгоритмів сімейства k-means ніколи не впорається з таким завданням. Також алгоритм погано працює у випадку, коли один кластер значно більше за інших, і вони знаходяться близько один від одного – виникає ефект «розщеплення» великого кластеру.

Втім, дослідження в галузі вдосконалення алгоритмів кластеризації йдуть постійно. Розроблені цікаві розширення алгоритму k-means для роботи з категорійними атрибутами (k-modes) і змішаними атрибутами (k-prototypes).

Таким чином, не існує єдиного універсального алгоритму кластеризації. При використанні будь-якого алгоритму важливо розуміти його переваги і недоліки, враховувати природу даних, з якими він краще працює і здатність до масштабованості.

Розроблена методика побудови гібридної інтелектуальної системи для рішення основних задач Data Mining, а саме кластеризації та регресії веде до підвищення ефективності аналізу статистичної інформації. Тому запропонована методика може знайти застосування у багатьох галузях.

Формалізований метод побудови гібридної інтелектуальної системи для рішення основних задач Data Mining, а саме кластеризації та регресії дозволяє кластери зі схожими об’єктами, а потім відносно побудованих кластерів проводити регресійний аналіз, тобто проводити аналіз взаємозв’язків.