Скачиваний:
13
Добавлен:
01.03.2022
Размер:
1.47 Mб
Скачать

Облачные вычисления

Основные разработчики

Облачные вычисления

Основные игроки рынка

52

Облачные вычисления

Основные игроки Российского рынка

53

4. Перспективные

информационные технологии,

понятия и проблемы

Data Mining интеллектуальный анализ данных

Data Mining переводится как "добыча" или "раскопка данных". Нередко рядом с Data Mining встречаются слова "обнаружение знаний в базах данных" (knowledge discovery in databases) и "интеллектуальный анализ данных". Их можно считать синонимами Data Mining. Возникновение всех указанных терминов связано с новым витком в развитии средств и методов обработки данных.

54

Перспективные информационные

технологии, понятия и проблемы

Колоссальные потоки информационной «руды» в самых различных областях. Что делать с этой информацией? Без продуктивной переработки потоки сырых данных образуют никому не нужную свалку.

Специфика современных требований к такой переработке следующие:

Данные имеют неограниченный объем

Данные являются разнородными (количественными, качественными, текстовыми)

Результаты должны быть конкретны и

понятны

Инструменты для обработки сырых данных должны быть просты в использовании

Перспективные информационные

технологии, понятия и проблемы

Методы математической статистики— концепция усреднения по

выборке

Методы математической статистики

оказались полезными главным образом

для проверки заранее

сформулированных гипотез

(verification-driven data mining) и для

“грубого” разведочного анализа,

составляющего основу оперативной

аналитической обработки данных

(online analytical processing, OLAP).

56

Перспективные информационные

технологии, понятия и проблемы

В основу современной технологии Data Mining (discovery-driven data mining) положена концепция шаблонов (паттернов), отражающих фрагменты многоаспектных взаимоотношений в данных.

Эти шаблоны представляют собой

закономерности, свойственные подвыборкам данных, которые могут быть компактно выражены в понятной человеку форме.

Поиск шаблонов производится методами, не ограниченными рамками априорных предположений о структуре выборке и виде распределений значений анализируемых показателей.

57

Перспективные информационные

технологии, понятия и проблемы

Примеры формулировок задач для OLAP и Data Mining

OLAP

Data Mining

Каковы средние показатели

Встречаются ли точные шаблоны в

травматизма для курящих и

описаниях людей, подверженных

повышенному травматизму?

некурящих?

 

Каковы средние размеры

Имеются ли характерные

телефонных счетов

портреты клиентов, которые, по

существующих клиентов в

всей вероятности, собираются

сравнении со счетами бывших

отказаться от услуг телефонной

клиентов отказавшихся от

компании?

услуг телефонной компании)?

 

Какова средняя величина

Существуют ли стереотипные

ежедневных покупок по

схемы покупок для случаев

украденной и не украденной

мошенничества с кредитными

кредитной карточке?

карточками?

Перспективные информационные

технологии, понятия и проблемы

Важное положение Data Mining

нетривиальность разыскиваемых шаблонов.

Это означает, что найденные шаблоны должны отражать неочевидные, неожиданные (unexpected) регулярности в данных, составляющие так называемые скрытые знания (hidden knowledge).

К обществу пришло понимание, что сырые данные (raw data) содержат глубинный пласт знаний, при грамотной раскопке которого могут быть обнаружены настоящие самородки

Data Mining — это процесс обнаружения в

сырых данных ранее неизвестных, нетривиальных, практически полезных и доступных интерпретации знаний, необходимых для принятия решений в различных сферах

человеческой деятельности

Перспективные информационные

технологии, понятия и проблемы

60

Соседние файлы в папке 2017