Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Розширений електронний конспект з курсу ІАД, 20...doc
Скачиваний:
53
Добавлен:
13.09.2019
Размер:
1.52 Mб
Скачать

Електронний конспект лекцій з дисципліни «Інтелектуальний аналіз даних»

Розробники:

Коцюк Ю.А., ст. викладач кафедри математичного моделювання та інформаційних технологій в економіці НУ “ОА”

Ковальчук В.М., викладач кафедри математичного моделювання та інформаційних технологій в економіці НУ “ОА”

Вступ

Розвиток методів запису і зберігання даних привів до бурхливого зростання об'ємів інформації. Об'єми даних стали настільки значні, що людині просто не під силу проаналізувати їх самостійно, хоча необхідність проведення такого аналізу цілком очевидна, адже такі "сирі дані" містять знання, які можуть бути використаний при ухваленні рішень. Для того, щоб провести автоматичний аналіз значних обсягів даних, використовується технологія інтелектуального аналізу - data mining (здобич, розкопка знань). Це нова технологія аналізу даних, мета якої полягає у виявленні прихованих закономірностей у вигляді значущих особливостей, кореляцій, тенденцій і шаблонів. Більшість сучасних систем інтелектуального аналізу даних засновані на методах штучного інтелекту, містять засоби інтерпретації, що і дозволяє знаходити розчинену в терабайтних сховищах не очевидну, але дуже цінну інформацію. Фактично, говориться про те, що в процесі інтелектуального аналізу система не відштовхується від наперед висунутих гіпотез, а пропонує їх сама.

Існує безліч визначень інтелектуального аналізу даних (Data Mining), але в цілому вони співпадають у виділенні чотирьох основних ознак. Згідно визначення Григорія Піатецького-Шапіро — одного з ведучих світових експертів в даній області, data mining — це дослідження і виявлення засобами штучного інтелекту в "сирих даних" прихованих структур, шаблонів або залежності, які:

· раніше не були відомі;

· нетривіальні;

· практично корисні;

· доступні для інтерпретації людиною і необхідні для ухвалення рішень в різних сферах діяльності.

Специфіка сучасних вимог до продуктивної обробки інформації наступна:

· дані мають необмежений обсяг;

· дані є різнорідними (кількісними, якісними, текстовими);

· результати повинні бути конкретними і зрозумілими;

· інструменти для обробки "сирих даних" повинні бути прості у використанні.

Традиційна математична статистика, що довгий час претендувала на роль основного інструменту аналізу даних, не завжди відповідає потребам сьогодення. Головна причина цього — концепція усереднювання по вибірці, що приводить до операцій над фіктивними величинами. Методи математичної статистики виявилися корисними головним чином для перевірки наперед сформульованих гіпотез і для "грубого розвідувального аналізу", що становить основу оперативної аналітичної обробки даних (on-line analytical processing, olap). Окрім того, стандартні статистичні методи відкидають нетипові спостереження — так звані піки та сплески. Проте окремі нетипові значення можуть становити самостійний інтерес для дослідження, характеризуючи деякі виняткові, але важливі явища. Навіть сама ідентифікація цих спостережень, не говорячи про їх подальший аналіз, може бути корисною для розуміння сутності досліджуваних об’єктів чи явищ.

В основу сучасної технології data mining покладена концепція шаблонів (патернів), що відбивають певні фрагменти багатоаспектних зв’язків у множині даних, характеризуючи закономірності, притаманні під­вибіркам даних, які можна компактно подати у зрозумілій людині формі. Шаблони знаходять методами, що виходять за межі апрі­орних припущень стосовно структури вибірки та вигляду розподілів значень аналізованих показників. Важлива особливість цієї технології полягає в нетривіальності знайдених шаблонів. Це означає, що вони мають відбивати неочевидні, несподівані регулярності у множині даних, складові так званого прихованого знання. Адже сукупність первинних («сирих») даних може містити й глибинні шари знань.