Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
лекція1.doc
Скачиваний:
9
Добавлен:
09.08.2019
Размер:
98.82 Кб
Скачать

Лекція 1.

В лекції докладно розглянуте поняття Data Mining. Описано виникнення, перспективи та проблеми Data mining. Дано погляд на технологію Data Mining як на частину ринку інформаційних технологій.

"За останні роки, коли, прагнучи підвищення ефективності та прибутковості бізнесу, при створенні БД всі стали користуватися засобами обробки цифрової інформації, з'явився й побічний продукт цієї активності – гори зібраних даних: І от усе більше поширюється ідея про те, що ці гори повні золота".

1. У минулому процес видобутку золота в гірській промисловості складався з вибору ділянки землі й подальшого її просівання велику кількість разів. Іноді шукач знаходив кілька коштовних самородків або міг натрапити на золотоносну жилу, але в більшості випадків він взагалі нічого не знаходив і йшов далі до іншого багатообіцяючого місця або ж зовсім кидав добувати золото, вважаючи це заняття даремною витратою часу.

Сьогодні з'явилися нові наукові методи й спеціалізовані інструменти, що зробили гірську промисловість набагато більш точною та продуктивною. Data Mining для даних розвилася майже таким же способом. Старі методи, що застосовувалися математиками й статистиками, забирали багато часу, щоб у результаті одержати конструктивну й корисну інформацію.

Сьогодні на ринку представлена безліч інструментів, що включають різні методи, які роблять Data Mining прибутковою справою, усе більш доступним для більшості компаній.

Термін Data Mining одержав свою назву із двох понять: пошуку коштовної інформації у великій базі даних (data) і видобутку гірської руди (mining). Обидва процеси вимагають або просівання величезної кількості сирого матеріалу, або розумного дослідження й пошуку шуканих цінностей.

Термін Data Mining часто переводиться як видобуток даних, витяг інформації, розкопка даних, інтелектуальний аналіз даних, засобу пошуку закономірностей, витяг знань, аналіз шаблонів, "витяг зерен знань із гір даних", розкопка знань у базах даних, інформаційна проходка даних, "промивання" даних. Поняття "виявлення знань у базах даних" (Knowledge Discovery in Databases, KDD) можна вважати синонімом Data Mining.

Поняття Data Mining, що з'явилося в 1978 році, придбало високу популярність у сучасному трактуванні приблизно з першої половини 1990-х років. До цього часу обробка й аналіз даних здійснювався в рамках прикладної статистики, при цьому в основному вирішувалися завдання обробки невеликих баз даних.

Про популярність Data Mining говорить і той факт, що результат пошуку терміна "Data Mining" у пошуковій системі Google (на вересень 2008 року) – більше 18 мільйонів сторінок.

Що ж таке Data Mining?

Data Mining – мультидисциплінарна область, що виникла й розвивається на базі таких наук як прикладна статистика, розпізнавання образів, штучний інтелект, теорія баз даних та ін., див. Рис. 1.1.

Рис. 1.1. Data Mining як мультидисциплінарна область

Статистика – це наука про методи збору даних, їхньої обробки й аналізу для виявлення закономірностей, властивому досліджуваному явищу.

Статистика є сукупністю методів планування експерименту, збору даних, їхні подання й узагальнення, а також аналізу й одержання висновків на підставі цих даних.

Статистика оперує даними, отриманими в результаті спостережень або експериментів.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]