Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
L_SOEI_Part1.doc
Скачиваний:
9
Добавлен:
24.11.2019
Размер:
458.75 Кб
Скачать

47

Лекции по курсу «Системы обработки экономической информации»

Тема 1. Общее представление о Data Mining

Вопросы:

  1. Что такое Data Mining

  2. Области использования Data Mining

  3. Типы закономерностей

  4. Классы систем Data Mining

1. Что такое Data Mining

С развитием технологий записи и хранения данных на людей обрушились колоссальные потоки информационной руды в самых различных областях- коммерции, производстве, науке, медицине и т.д. Стало понятно, что без продуктивной переработки потоки сырых данных образуют никому не нужную свалку.

Методов традиционной статистики оказалась явно недостаточно для качественного анализа больших объемов данных.

Главная причина – недостаточность концепции усреднения по выборке для поиска неизвестных закономерностей. Методы статистики оказались полезными главным образом для проверки заранее сформулированных гипотез и для грубого разведочного анализа, составляющего основу оперативной аналитической обработки данных (OLAP).

В основу современной технологии Data Mining положена концепция шаблонов (паттернов), отражающих фрагменты многоаспектных отношений в данных. Поиск шаблонов производится методами, не ограниченными рамками априорных предположений (как это делается в статистике) о структуре распределения и виде распределения значений анализируемых показателей.

Примеры характерных различий между традиционной статистикой (OLAP) и Data Mining приведены в таблице 1.

OLAP (статистика)

Data Mining

Каковы средние показатели травматизма для курящих и некурящих?

Какова средняя величина ежедневных покупок по украденной и не украденной кредитной карточке?

Встречаются ли точные шаблоны в описаниях людей, подверженных повышенному травматизму?

Существуют ли стереотипные схемы покупок для случаев мошенничества с кредитными карточками?

Важная особенность Data Mining – нетривиальность разыскиваемых шаблонов. Это означает, что найденные шаблоны должны отражать неочевидные, неожиданные регулярности в данных, составляющие так называемые скрытые знания. Сырые данные (raw knowledge) содержат глубинный пласт знаний, при грамотной раскопке которого могут быть обнаружены настоящие самородки.

Сущность Data Mining можно определить следующими положениями:

Data Mining – это процесс обнаружения в сырых данных:

  • ранее неизвестных;

  • нетривиальных;

  • практически полезных;

  • доступных интерпретации знаний, необходимых для принятия решений в различных сферах человеческой деятельности.

2. Области использования Data Mining

Методы Data Mining могут использоваться практически во всех областях человеческой деятельности. Однако наибольшее распространение они получили:

  1. В торговле:

  • анализ покупательской корзины с целью выяснения товаров, которые покупатели стремятся приобрести вместе;

  • исследование временных шаблонов и создание прогнозирующих моделей с целью оптимизации запасов.

  1. В банковском деле:

  • для выявления мошенничества с кредитными карточками;

  • сегментации клиентов;

  • прогнозирования изменений клиентуры.

  1. Специальные приложения:

  • медицина – для создания экспертных систем по постановке медицинских диагнозов;

  • молекулярная генетика и генная инженерия: для расшифровки генома человека и наследственных заболеваний;

  • прикладная химия – для анализа высокомолекулярных соединений и создания соединений с требуемыми свойствами: лекарства, парфюмерия и т.д.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]