- •Електронний конспект лекцій з дисципліни «Інтелектуальний аналіз даних»
- •Тема 1. Інтелект як високоорганізована кібернетична система
- •2. Формалізація понять алгоритмічності та декларативності
- •3. Означення інтелектуальної системи
- •Тема 2. Знання як інформаційна основа інтелектуальних систем
- •1. Знання як основа інформаційної системи
- •2. Моделі знань
- •3. Методи інтелектуального аналізу даних
- •1. Знання як основа інформаційної системи
- •2. Моделі знань
- •Тема 3. Концепція інтелектуального аналізу даних.
- •1. Розвиток і призначення дейтамайнінгу (data mining)
- •2. Характеристика процесів і активностей інтелектуального аналізу даних.
- •3. Методи інтелектуального аналізу даних
- •Mineset — візуальний інструмент аналітика
- •2. Характеристика процесів і активностей інтелектуального аналізу даних.
- •3. Методи інтелектуального аналізу даних
- •Збереження даних
- •Дистиляція даних
- •Тема 4. Методи інтелектуального аналізу даних
- •2. Основні етапи та алгоритми інтелектуального аналізу даних
- •3. Огляд алгоритмів та іс Data Mining
- •Тема 5. Особливості статистичного аналізу даних.
- •1. Логіка прикладного статистичного моделювання
- •2. Типи моделей взаємозв’язку. Задача регресії в іад. Сутність і види статистичних прогнозів
- •3. Ідентифікація часових рядів. Аналіз та коригування рівнів часового ряду
- •2.Типи моделей взаємозв’язку. Задача регресії в іад
- •Забезпечення адекватності регресійної моделі
- •2. Сутність і види статистичних прогнозів
- •3. Ідентифікація часових рядів. Перевірка на стаціонарність
- •Тема 6. Перспективні прикладні системи іад
- •2. Орієнтовані на знання системи підтримки прийняття рішень
- •3. Нейронні мережі. Визначення та еволюція нейронних мереж
- •1. Головна їх властивість — здібність до навчання.
- •Застосування нейронних мереж
- •Математична модель біологічного нейрона
- •Математична модель штучного нейрона
- •Загальна схема генетичних алгоритмів
- •Узагальнена схема реалізації генетичного алгоритму
3. Методи інтелектуального аналізу даних
Технології дейтамайнінгу використовують велику кількість методів, частина з яких запозичена з інструментарію штучного інтелекту, а інша належить або до класичних статистичних методів, або до інноваційних методів, породжених останніми досягненнями інформаційних технологій. Вищий рівень класифікації методів дейтамайнінгу може ґрунтуватися на тому, чи зберігаються дані після дейтамайнінгу незмінними, чи вони фільтруються для подальшого використання.
На рис. показано дерево методів дейтамайнінгу, де відображені основні види і підвиди методів, причому гілкування можна продовжити, оскільки низка методів, наприклад, кластерний аналіз, нейромережі, дерева рішень мають багато різновидів. Оскільки деякі з наведених методів були розглянуті поверхово раніше в контексті ідентифікації інструментів штучного інтелекту чи як складові деяких продуктів дейтамайнінгу, то зупинимося на короткому аналізі складових дерева методів дейтамайнінгу. Докладнішому висвітленню нейромереж, генетичних алгоритмів і програмних агентів будуть присвячені окремі параграфи даного розділу.
Дерево методів дейтамайнінгу
Збереження даних
У той час, як при дистиляції шаблонів ми аналізуємо дані, виділяємо необхідний зразок і потім залишаємо їх, то, застосовуючи метод збереження, дані зберігаються для зіставляння з шаблоном. Коли надходять нові елементи даних, то вони порівнюються з попереднім рядом даних.
Метод «найближчого сусіда» (самий схожий сусід, «nearest neighbor») — добре відомий приклад підходу, який ґрунтується на збереженні даних. При цьому ряд даних тримається в пам’яті для порівняння з новими елементами даних. Коли презентується новий запис для передбачення, знаходяться «відхилення» між ним і подібними низками даних, а найподібніший ідентифікується.
Міркування за аналогією (case-based reasoning — cbr) або міркування за прецедентами (аналогічними випадками). Даний метод має дуже просту ідею: щоб зробити прогноз на майбутнє або вибрати правильне рішення, система cbr знаходить близькі аналогії в минулому за різних умов і відбирає ту відповідь, яка за схожими ознаками була правильною. Інструментальні засоби міркування за прецедентами знаходять записи в базі даних, які подібні до описаних записів. Користувач описує, яким сильним зв’язок має бути перед тим, як новий випадок пропонується увазі. Цей тип інструментальних засобів також називається міркуванням на основі пам’яті (memory-based reasoning).
Кластерний аналіз — це спосіб групування багатовимірних об’єктів, що базується на поданні результатів окремих спостережень точками геометричного простору з наступним виділенням груп як «грон» цих точок. Термін «кластерний аналіз» запропонований к. Тріоном 1939 року (cluster, англ. — гроно, скупчення, пучок). Синонімами (хоч з обмовками і не завжди) є вирази: автоматична класифікація, таксономія, розпізнавання без навчання, розпізнавання образів без учителя, самонавчання та ін. У дейтамайнінгу використовується, головно, для класифікації (таксономії).
Основна мета кластерного аналізу — виділити у початкових багатовимірних даних такі однорідні підмножини, щоб об’єкти всередині груп були схожими за певними ознаками, а об’єкти з різних — несхожими. Під «схожими» розуміється близькість об’єктів у багатовимірному просторі ознак, і тоді завдання зводиться до виділення в цьому просторі природних скупчень об’єктів, які і вважаються однорідними групами. В кластерному аналізі використовуються десятки різних алгоритмів і методів (один з таких методів — k-means реалізований у системі дейтамайнінгу knowledgestudio).