Лекции по курсу «Системы обработки экономической информации»

Тема 1. Общее представление о Data Mining

Вопросы:

Что такое Data Mining
Области использования Data Mining
Типы закономерностей
Классы систем Data Mining

1. Что такое Data Mining

С развитием технологий записи и хранения данных на людей обрушились колоссальные потоки информационной руды в самых различных областях- коммерции, производстве, науке, медицине и т.д. Стало понятно, что без продуктивной переработки потоки сырых данных образуют никому не нужную свалку.

Методов традиционной статистики оказалась явно недостаточно для качественного анализа больших объемов данных.

Главная причина – недостаточность концепции усреднения по выборке для поиска неизвестных закономерностей. Методы статистики оказались полезными главным образом для проверки заранее сформулированных гипотез и для грубого разведочного анализа, составляющего основу оперативной аналитической обработки данных (OLAP).

В основу современной технологии Data Mining положена концепция шаблонов (паттернов), отражающих фрагменты многоаспектных отношений в данных. Поиск шаблонов производится методами, не ограниченными рамками априорных предположений (как это делается в статистике) о структуре распределения и виде распределения значений анализируемых показателей.

Примеры характерных различий между традиционной статистикой (OLAP) и Data Mining приведены в таблице 1.

OLAP (статистика)

Data Mining

Каковы средние показатели травматизма для курящих и некурящих?

Какова средняя величина ежедневных покупок по украденной и не украденной кредитной карточке?

Встречаются ли точные шаблоны в описаниях людей, подверженных повышенному травматизму?

Существуют ли стереотипные схемы покупок для случаев мошенничества с кредитными карточками?

Важная особенность Data Mining – нетривиальность разыскиваемых шаблонов. Это означает, что найденные шаблоны должны отражать неочевидные, неожиданные регулярности в данных, составляющие так называемые скрытые знания. Сырые данные (raw knowledge) содержат глубинный пласт знаний, при грамотной раскопке которого могут быть обнаружены настоящие самородки.

Сущность Data Mining можно определить следующими положениями:

Data Mining – это процесс обнаружения в сырых данных:

ранее неизвестных;
нетривиальных;
практически полезных;
доступных интерпретации знаний, необходимых для принятия решений в различных сферах человеческой деятельности.

2. Области использования Data Mining

Методы Data Mining могут использоваться практически во всех областях человеческой деятельности. Однако наибольшее распространение они получили:

В торговле:

анализ покупательской корзины с целью выяснения товаров, которые покупатели стремятся приобрести вместе;
исследование временных шаблонов и создание прогнозирующих моделей с целью оптимизации запасов.

В банковском деле:

для выявления мошенничества с кредитными карточками;
сегментации клиентов;
прогнозирования изменений клиентуры.

Специальные приложения:

медицина – для создания экспертных систем по постановке медицинских диагнозов;
молекулярная генетика и генная инженерия: для расшифровки генома человека и наследственных заболеваний;
прикладная химия – для анализа высокомолекулярных соединений и создания соединений с требуемыми свойствами: лекарства, парфюмерия и т.д.

1 / 251 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 > Следующая >>>

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]

#
10.11.2019121.34 Кб2lr1.doc
#
10.11.2019271.87 Кб0lr3.doc
#
10.11.2019114.69 Кб3lr4.doc
#
10.11.2019324.1 Кб0lr7.doc
#
23.11.2019674.3 Кб7L_11-12_KVN10.doc
#
24.11.2019458.75 Кб9L_SOEI_Part1.doc
#
16.04.2019537.75 Кб30MAKROEKON_-MYeTOD_641.docx
#
18.04.20191.23 Mб5MathCAD_ЗАСТАВКИ_сжато.doc
#
21.08.2019820.74 Кб3MathCAD_основы работы_ЗАСТАВКИ.doc
#
26.11.20191.04 Mб4Mekhanika.doc
#
26.11.2019275.46 Кб3Mekhanika.doc