os2016-22-04-dist
.pdfПриложения для больших данных и основные модели использования
Извлечение
Распознавание
Синтез
Извлечение потоковых данных Извлечение данных из Web Поиск изображений Создание отчетов
Интерфейсы человек-машина Статистические вычисления Кластеризация и классификация Машинное обучение
Фотореализм Реалистическая анимация
Синтез аудио/видео/изображений Синтез документов
Поддержка приложений «завтрашнего дня»
Распознавание данных |
Извлечение |
Что такое …? |
Это …? |
Модель Поиск модели
|
Сегодня |
Модель отсутствует |
Потоковая передача данных и |
|
обработка транзакций в режиме |
|
реального времени на статичных |
|
структурированных наборах данных |
|
Завтра |
|
Аналитическая обработка |
Мультимодальное |
динамических |
распознавание |
неструктурированных |
данных |
мультимодальных |
на базе модели |
наборов данных |
|
в режиме реального времени |
Синтез
Что если …?
Создание модели
Крайне ограниченный реализм
Фотореалистичная анимация на базе физической модели
22
Реалии компаний
Около половины (44%) имеют >100TB данных
37% уже начали
Лишь 28% не будут (а
может лишь думают, что не будут )
использовать технологии Big Data
Истории успеха
•VISA: автоматическое обнаружение мошенников, сохраняет около 2 миллиардов $ каждый год
•IBM Watson: Обработка денежных транзакций в реальном времени.
•+15% к количеству детектируемых мошеннических действий
•+60% к безопасности транзакций
•-50% ложных тревог
•World Of Tanks: анализ поведения игроков и целевая работа с клиентами
•Отток игроков уменьшился на 30% по сравнению со стандартными техниками анализа игровой индустрии
Поведение клиентов
Вход: база данных чеков Вопрос: какие товары наиболее хорошо продаются
в определенное время (года, недели, дня)? Решение: разбиваем товары на группы, разбиваем время на периоды, применяем data mining
Результат:
-для клиентов со средней суммой чека весной характерно приобретать товар группы №10 (в 2 раза чаще случайного поведения);
-для них же зимой характерно совместное приобретение товаров групп № 5, 7, 9
-…
Выявление подозрительных транзакций
Вход: база транзакций
Технология: neural networks, cluster analysis.
Решение:
• Автоматическое выявление нетипичных транзакций.
• Автоматическое выявление транзакций, похожих на указанные пользователем.
Результат:
В 7 раз больше «плохих» транзакций по сравнению со случайной выборкой.
Картины «в стиле» – с применением ИНС
Файлы (а также их надсистемы и подсистемы)
Большие данные и задачи будущего
Методики анализа данных
Иерархия памяти и системы хранения данных
Файлы и файловые системы
Хранение и обработка файлов
Драйверы внешних устройств
29
|
Язык простых |
|
Статистические |
|
Интеллектуальный |
|
Анализ больших |
|
|
запросов |
|
методы |
|
|
анализ данных |
|
данных |
|
|
|
|
|
||||
Сбор структуриро- |
Применение |
|
Обнаружение ранее |
Обработка |
||||
ванных данных, |
математических методов |
|
неизвестных нетривиальных и |
неструктурированных, |
||||
подготовка |
систематизации, обработки и |
практически полезных |
распределенных, |
|||||
запросов и |
использования |
|
доступных для интерпретации |
непрерывно |
||||
извлечение |
статистических данных, |
|
знаний, необходимых для |
прирастающих данных |
||||
выборок |
с учетом априорных |
|
принятия решений |
огромных объёмов для |
||||
|
|
представлений об |
|
• |
Ассоциация - поиск паттернов (образцов) |
получения |
||
|
|
|
• |
Последовательность |
||||
|
|
анализируемых данных |
|
воспринимаемых |
||||
|
|
|
• |
Классификация - группировка объектов (для |
||||
|
|
|
|
|
|
заранее заданных классов) |
человеком результатов |
|
|
|
|
|
|
• |
Кластеризация – выделение групп |
||
|
|
|
|
|
|
|
||
|
|
|
|
|
• |
Прогнозирование - анализ временных рядов |
|
|
|
|
|
|
|
|
|
|
|
• |
Реляционная |
• |
Параметрические и |
|
• |
Искусственные нейронные |
• |
Смешение и интеграция |
|
модель данных |
|
непараметрические |
|
|
сети |
|
данных |
|
|
|
процедуры |
|
• |
Генетические алгоритмы |
• |
Прогнозная аналитика |
|
|
• |
Дисперсионный анализ |
|
• |
Деревья решений |
• |
Имитационное |
|
|
• |
Регрессионный анализ |
|
• |
Эволюционное |
|
моделирование |
|
|
• |
Анализ временных рядов |
|
программирование |
• |
Пространственный |
|
|
|
• |
Кластерный анализ |
|
• |
Ассоциативная память |
|
анализ |
|
|
• |
Дискриминантный анализ |
• |
Нечёткая логика |
• |
Распознавание образов |
|
|
|
• |
Факторный анализ |
|
|
|
• |
Визуализация |
|
|
• |
Многомерное |
|
|
|
|
аналитических данных |
|
|
|
шкалирование |
Анализ |
|
|
|
|
|
|
|
|
|
|
|
||
• |
Технология |
|
|
Хранение |
• |
Технология реализации |
||
|
работы с |
|
|
|
|
|
|
хранилищ NoSQL |
|
реляционными |
|
|
|
|
|
• |
Технология MapReduce |
|
моделями |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|