- •Електронний конспект лекцій з дисципліни «Інтелектуальний аналіз даних»
- •Тема 1. Інтелект як високоорганізована кібернетична система
- •2. Формалізація понять алгоритмічності та декларативності
- •3. Означення інтелектуальної системи
- •Тема 2. Знання як інформаційна основа інтелектуальних систем
- •1. Знання як основа інформаційної системи
- •2. Моделі знань
- •3. Методи інтелектуального аналізу даних
- •1. Знання як основа інформаційної системи
- •2. Моделі знань
- •Тема 3. Концепція інтелектуального аналізу даних.
- •1. Розвиток і призначення дейтамайнінгу (data mining)
- •2. Характеристика процесів і активностей інтелектуального аналізу даних.
- •3. Методи інтелектуального аналізу даних
- •Mineset — візуальний інструмент аналітика
- •2. Характеристика процесів і активностей інтелектуального аналізу даних.
- •3. Методи інтелектуального аналізу даних
- •Збереження даних
- •Дистиляція даних
- •Тема 4. Методи інтелектуального аналізу даних
- •2. Основні етапи та алгоритми інтелектуального аналізу даних
- •3. Огляд алгоритмів та іс Data Mining
- •Тема 5. Особливості статистичного аналізу даних.
- •1. Логіка прикладного статистичного моделювання
- •2. Типи моделей взаємозв’язку. Задача регресії в іад. Сутність і види статистичних прогнозів
- •3. Ідентифікація часових рядів. Аналіз та коригування рівнів часового ряду
- •2.Типи моделей взаємозв’язку. Задача регресії в іад
- •Забезпечення адекватності регресійної моделі
- •2. Сутність і види статистичних прогнозів
- •3. Ідентифікація часових рядів. Перевірка на стаціонарність
- •Тема 6. Перспективні прикладні системи іад
- •2. Орієнтовані на знання системи підтримки прийняття рішень
- •3. Нейронні мережі. Визначення та еволюція нейронних мереж
- •1. Головна їх властивість — здібність до навчання.
- •Застосування нейронних мереж
- •Математична модель біологічного нейрона
- •Математична модель штучного нейрона
- •Загальна схема генетичних алгоритмів
- •Узагальнена схема реалізації генетичного алгоритму
Електронний конспект лекцій з дисципліни «Інтелектуальний аналіз даних»
Розробники:
Коцюк Ю.А., ст. викладач кафедри математичного моделювання та інформаційних технологій в економіці НУ “ОА”
Ковальчук В.М., викладач кафедри математичного моделювання та інформаційних технологій в економіці НУ “ОА”
Вступ
Розвиток методів запису і зберігання даних привів до бурхливого зростання об'ємів інформації. Об'єми даних стали настільки значні, що людині просто не під силу проаналізувати їх самостійно, хоча необхідність проведення такого аналізу цілком очевидна, адже такі "сирі дані" містять знання, які можуть бути використаний при ухваленні рішень. Для того, щоб провести автоматичний аналіз значних обсягів даних, використовується технологія інтелектуального аналізу - data mining (здобич, розкопка знань). Це нова технологія аналізу даних, мета якої полягає у виявленні прихованих закономірностей у вигляді значущих особливостей, кореляцій, тенденцій і шаблонів. Більшість сучасних систем інтелектуального аналізу даних засновані на методах штучного інтелекту, містять засоби інтерпретації, що і дозволяє знаходити розчинену в терабайтних сховищах не очевидну, але дуже цінну інформацію. Фактично, говориться про те, що в процесі інтелектуального аналізу система не відштовхується від наперед висунутих гіпотез, а пропонує їх сама.
Існує безліч визначень інтелектуального аналізу даних (Data Mining), але в цілому вони співпадають у виділенні чотирьох основних ознак. Згідно визначення Григорія Піатецького-Шапіро — одного з ведучих світових експертів в даній області, data mining — це дослідження і виявлення засобами штучного інтелекту в "сирих даних" прихованих структур, шаблонів або залежності, які:
· раніше не були відомі;
· нетривіальні;
· практично корисні;
· доступні для інтерпретації людиною і необхідні для ухвалення рішень в різних сферах діяльності.
Специфіка сучасних вимог до продуктивної обробки інформації наступна:
· дані мають необмежений обсяг;
· дані є різнорідними (кількісними, якісними, текстовими);
· результати повинні бути конкретними і зрозумілими;
· інструменти для обробки "сирих даних" повинні бути прості у використанні.
Традиційна математична статистика, що довгий час претендувала на роль основного інструменту аналізу даних, не завжди відповідає потребам сьогодення. Головна причина цього — концепція усереднювання по вибірці, що приводить до операцій над фіктивними величинами. Методи математичної статистики виявилися корисними головним чином для перевірки наперед сформульованих гіпотез і для "грубого розвідувального аналізу", що становить основу оперативної аналітичної обробки даних (on-line analytical processing, olap). Окрім того, стандартні статистичні методи відкидають нетипові спостереження — так звані піки та сплески. Проте окремі нетипові значення можуть становити самостійний інтерес для дослідження, характеризуючи деякі виняткові, але важливі явища. Навіть сама ідентифікація цих спостережень, не говорячи про їх подальший аналіз, може бути корисною для розуміння сутності досліджуваних об’єктів чи явищ.
В основу сучасної технології data mining покладена концепція шаблонів (патернів), що відбивають певні фрагменти багатоаспектних зв’язків у множині даних, характеризуючи закономірності, притаманні підвибіркам даних, які можна компактно подати у зрозумілій людині формі. Шаблони знаходять методами, що виходять за межі апріорних припущень стосовно структури вибірки та вигляду розподілів значень аналізованих показників. Важлива особливість цієї технології полягає в нетривіальності знайдених шаблонів. Це означає, що вони мають відбивати неочевидні, несподівані регулярності у множині даних, складові так званого прихованого знання. Адже сукупність первинних («сирих») даних може містити й глибинні шари знань.