Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Розширений електронний конспект з курсу ІАД, 20...doc
Скачиваний:
53
Добавлен:
13.09.2019
Размер:
1.52 Mб
Скачать

3. Методи інтелектуального аналізу даних

Технології дейтамайнінгу використовують велику кількість методів, частина з яких запозичена з інструментарію штучного інтелекту, а інша належить або до класичних статистичних методів, або до інноваційних методів, породжених останніми досягненнями інформаційних технологій. Вищий рівень класифікації методів дейтамайнінгу може ґрунтуватися на тому, чи зберігаються дані після дейтамайнінгу незмінними, чи вони фільтруються для подальшого викорис­тання.

На рис. показано дерево методів дейтамайнінгу, де відображені основні види і підвиди методів, причому гілкування можна продовжити, оскільки низка методів, наприклад, кластерний аналіз, нейромережі, дерева рішень мають багато різновидів. Оскільки деякі з наведених методів були розглянуті поверхово раніше в контексті ідентифікації інструментів штучного інтелекту чи як складові деяких продуктів дейтамайнінгу, то зупинимося на короткому аналізі складових дерева методів дейтамайнінгу. Доклад­нішому висвітленню нейромереж, генетичних алгоритмів і про­грамних агентів будуть присвячені окремі параграфи даного розділу.

Дерево методів дейтамайнінгу

Збереження даних

У той час, як при дистиляції шаблонів ми аналізуємо дані, виділяємо необхідний зразок і потім залишаємо їх, то, застосовуючи метод збереження, дані зберігаються для зіставляння з шаблоном. Коли надходять нові елементи даних, то вони порівнюються з попереднім рядом даних.

Метод «найближчого сусіда» (самий схожий сусід, «nearest neighbor») — добре відомий приклад підходу, який ґрунтується на збереженні даних. При цьому ряд даних тримається в пам’яті для порівняння з новими елементами даних. Коли презентується новий запис для передбачення, знаходяться «відхилення» між ним і подібними низками даних, а найподібніший ідентифікується.

Міркування за аналогією (case-based reasoning — cbr) або міркування за прецедентами (аналогічними випадками). Даний метод має дуже просту ідею: щоб зробити прогноз на майбутнє або вибрати правильне рішення, система cbr знаходить близькі аналогії в минулому за різних умов і відбирає ту відповідь, яка за схожими ознаками була правильною. Інструментальні засоби міркування за прецедентами знаходять записи в базі даних, які подібні до описаних записів. Користувач описує, яким сильним зв’язок має бути перед тим, як новий випадок пропонується увазі. Цей тип інструментальних засобів також називається міркуванням на основі пам’яті (memory-based reasoning).

Кластерний аналіз — це спосіб групування багатовимірних об’єктів, що базується на поданні результатів окремих спостережень точками геометричного простору з наступним виділенням груп як «грон» цих точок. Термін «кластерний аналіз» запропонований к. Тріоном 1939 року (cluster, англ. — гроно, скупчення, пучок). Синонімами (хоч з обмовками і не завжди) є вирази: автоматична класифікація, таксономія, розпізнавання без навчання, розпізнавання образів без учителя, самонавчання та ін. У дейтамайнінгу використовується, головно, для класифікації (так­сономії).

Основна мета кластерного аналізу — виділити у початкових багатовимірних даних такі однорідні підмножини, щоб об’єкти всередині груп були схожими за певними ознаками, а об’єкти з різних — несхожими. Під «схожими» розуміється близькість об’єктів у багатовимірному просторі ознак, і тоді завдання зводиться до виділення в цьому просторі природних скупчень об’єктів, які і вважаються однорідними групами. В кластерному аналізі використовуються десятки різних алгоритмів і методів (один з таких методів — k-means реалізований у системі дейтамайнінгу knowledgestudio).