Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

os2016-22-04-dist

.pdf
Скачиваний:
10
Добавлен:
21.03.2016
Размер:
4.5 Mб
Скачать

Приложения для больших данных и основные модели использования

Извлечение

Распознавание

Синтез

Извлечение потоковых данных Извлечение данных из Web Поиск изображений Создание отчетов

Интерфейсы человек-машина Статистические вычисления Кластеризация и классификация Машинное обучение

Фотореализм Реалистическая анимация

Синтез аудио/видео/изображений Синтез документов

Поддержка приложений «завтрашнего дня»

Распознавание данных

Извлечение

Что такое …?

Это …?

Модель Поиск модели

 

Сегодня

Модель отсутствует

Потоковая передача данных и

 

обработка транзакций в режиме

 

реального времени на статичных

 

структурированных наборах данных

 

Завтра

 

Аналитическая обработка

Мультимодальное

динамических

распознавание

неструктурированных

данных

мультимодальных

на базе модели

наборов данных

 

в режиме реального времени

Синтез

Что если …?

Создание модели

Крайне ограниченный реализм

Фотореалистичная анимация на базе физической модели

22

Реалии компаний

Около половины (44%) имеют >100TB данных

37% уже начали

Лишь 28% не будут

может лишь думают, что не будут )

использовать технологии Big Data

Истории успеха

VISA: автоматическое обнаружение мошенников, сохраняет около 2 миллиардов $ каждый год

IBM Watson: Обработка денежных транзакций в реальном времени.

+15% к количеству детектируемых мошеннических действий

+60% к безопасности транзакций

-50% ложных тревог

World Of Tanks: анализ поведения игроков и целевая работа с клиентами

Отток игроков уменьшился на 30% по сравнению со стандартными техниками анализа игровой индустрии

Поведение клиентов

Вход: база данных чеков Вопрос: какие товары наиболее хорошо продаются

в определенное время (года, недели, дня)? Решение: разбиваем товары на группы, разбиваем время на периоды, применяем data mining

Результат:

-для клиентов со средней суммой чека весной характерно приобретать товар группы №10 (в 2 раза чаще случайного поведения);

-для них же зимой характерно совместное приобретение товаров групп № 5, 7, 9

-

Выявление подозрительных транзакций

Вход: база транзакций

Технология: neural networks, cluster analysis.

Решение:

• Автоматическое выявление нетипичных транзакций.

• Автоматическое выявление транзакций, похожих на указанные пользователем.

Результат:

В 7 раз больше «плохих» транзакций по сравнению со случайной выборкой.

Картины «в стиле» – с применением ИНС

Файлы (а также их надсистемы и подсистемы)

Большие данные и задачи будущего

Методики анализа данных

Иерархия памяти и системы хранения данных

Файлы и файловые системы

Хранение и обработка файлов

Драйверы внешних устройств

29

 

Язык простых

 

Статистические

 

Интеллектуальный

 

Анализ больших

 

запросов

 

методы

 

 

анализ данных

 

данных

 

 

 

 

 

Сбор структуриро-

Применение

 

Обнаружение ранее

Обработка

ванных данных,

математических методов

 

неизвестных нетривиальных и

неструктурированных,

подготовка

систематизации, обработки и

практически полезных

распределенных,

запросов и

использования

 

доступных для интерпретации

непрерывно

извлечение

статистических данных,

 

знаний, необходимых для

прирастающих данных

выборок

с учетом априорных

 

принятия решений

огромных объёмов для

 

 

представлений об

 

Ассоциация - поиск паттернов (образцов)

получения

 

 

 

Последовательность

 

 

анализируемых данных

 

воспринимаемых

 

 

 

Классификация - группировка объектов (для

 

 

 

 

 

 

заранее заданных классов)

человеком результатов

 

 

 

 

 

Кластеризация – выделение групп

 

 

 

 

 

 

 

 

 

 

 

 

Прогнозирование - анализ временных рядов

 

 

 

 

 

 

 

 

 

 

 

Реляционная

Параметрические и

 

Искусственные нейронные

Смешение и интеграция

 

модель данных

 

непараметрические

 

 

сети

 

данных

 

 

 

процедуры

 

Генетические алгоритмы

Прогнозная аналитика

 

 

Дисперсионный анализ

 

Деревья решений

Имитационное

 

 

Регрессионный анализ

 

Эволюционное

 

моделирование

 

 

Анализ временных рядов

 

программирование

Пространственный

 

 

Кластерный анализ

 

Ассоциативная память

 

анализ

 

 

Дискриминантный анализ

Нечёткая логика

Распознавание образов

 

 

Факторный анализ

 

 

 

Визуализация

 

 

Многомерное

 

 

 

 

аналитических данных

 

 

 

шкалирование

Анализ

 

 

 

 

 

 

 

 

 

 

Технология

 

 

Хранение

Технология реализации

 

работы с

 

 

 

 

 

 

хранилищ NoSQL

 

реляционными

 

 

 

 

 

Технология MapReduce

 

моделями

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]