Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
ответики.docx
Скачиваний:
119
Добавлен:
13.03.2016
Размер:
684.82 Кб
Скачать

16. Возможности Rapid Miner для работы с данными.

С википедии:

RapidMiner (прежнее название YALE) — среда для проведения экспериментов и решения задач машинного обученияиинтеллектуального анализа данных. Эксперименты описываются в виде суперпозиций произвольного числа произвольным образом вложенных операторов, и легко строятся средствами визуального графического интерфейсаRapidMiner-а.

RapidMiner — открытый программный продукт, свободно распространяемый под лицензией GNU AGPLv3.

RapidMiner может работать и как отдельное приложение, и как «интеллектуальный движок», встраиваемый в другие приложения, включая коммерческие.

Приложениями RapidMiner-а могут быть как исследовательские (модельные), так и прикладные (реальные) задачи интеллектуального анализа данных, включая анализ текста(text mining),анализ мультимедиа(multimedia mining),анализ потоков данных(data stream mining).

Функциональные возможности

RapidMiner предоставляет более 400 операторов для всех наиболее известных методов машинного обучения, включая ввод и вывод, предварительную обработку данных и визуализацию.

RapidMiner интегрирует в себя < операторы WEKA.

Имеется встроенный язык сценариев, позволяющий выполнять массивные серии экспериментов.

Концепция многоуровневого представления данных (multi-layered data view) обеспечивает эффективную и прозрачную работу с данными.

Графическая подсистема обеспечивает многомерную визуализацию данных и моделей.

Имеется пошаговый учебник, включающий популярное введение в машинное обучениеиинтеллектуальный анализ данных.

Реализация и технологии

Программное обеспечение написано целиком на Java, поэтому работает во всех основных операционных системах.

Для представления экспериментов как суперпозиций операторов применяется язык XML.

Встраивание в другие приложения осуществляется посредством Java API.

Поддерживаются механизмы плагинов (plugin) и расширений (extension).

История

Начальная версия была разработана в 2001 году группой Искусственного Интеллекта технологического иниверситета в Дортмунде (Artificial Intelligence Unit of Dortmund University of Technology).

Начиная с 2004 года исходные коды RapidMiner-а доступны на SourceForge.

Более подробно, более неформальным языком: Вот интерфейс. Вы закидываете данные, а потом просто перетаскиваете операторы в GUI, формируя процесс обработки данных. От вас — только понимание того, что вы делаете. Весь код берёт на себя среда. «Под капот» можно, конечно, залезть, но в большинстве случаев это просто не надо.

Важные фичи

  • Хороший GUI. По сути, каждый функциональный блок собран в кубик. Ничего нового в подходе, но очень крутое исполнение. Обычно разница между классическим программированием и визуальным сильно бьёт по функциональности. Например, в SPSS Modeler всего 50 узлов, а тут целых 250 в базовой загрузке.

  • Есть хорошие инструменты подготовки данных. Обычно предполагается, что данные готовятся где-то ещё, но тут уже есть готовый ETL. В том же коммерческом SPSS возможностей для подготовки куда меньше.

  • Расширяемость. Есть старый добрый язык R. Полностью интегрированы операторы система WEKA. В общем, это не «детский сад» и не закрытый фреймворк. Надо будет спуститься на низкий уровень — без проблем.

  • Дружит с Hadoop (отдельное платное расширение с незамысловатым названием Radoop), причём как с чистым, так и с коммерческими реализациями. То есть когда вы решите молотить не табличку XLS с демо-набором данных, а боевую БД, да еще и при помощи модного ныне Apache Spark — всё сразу встанет как надо. Самое приятное — писать код не надо. Можно в майнере аналитиком написать скрипт через всё тот же GUI и отдать в обработку.

  • Архитектурно данные снаружи. Ставим платформу, грузим данные и начинаем смотреть, где какие кореляции, что можем спрогнозировать. Это и плюс, и минус, почему — ниже.

  • Кроме IDE есть ещё сервер. Rapid Miner Studio создаёт процессы, а на сервере их можно публиковать. Что-то типа планировщика — сервер знает, какой процесс когда запускать, с какой частой, что делать, если где-то что-то отвалилось, кто отвечает за каждый из процессов, кому как отдавать ресурсы, куда выгружать результаты. В общем, все-все-все современные плюшки.

  • А ещё сервер же умеет сразу строить минимальные отчёты. Можно выгружать не в XLS, а рисовать графику прямо там. Это нравится маркетингу маленьких компаний и удобно для небольших проектов. И, естественно, это очень недорого (даже в коммерческой версии) в сравнении с Моделлером и SAS. Но — сразу говорю — области применения у них разные.

  • Быстрое развитие. Только поднялся серьезный шум вокруг Apache Spark — через пару месяцев вышел релиз о поддержке базового функционала.

Минусы

  • Деньги. С 2011 года в опенсорс уходит предпоследняя версия продукта. С выходом новой предыдущая становится опенсорсной. Cтартер не позволяет строить процессы, обработка которых съест больше гигибайта оперативной памяти. Триал две недели.

  • Компания по Гартнеру не самая большая. Это плохо для внедрения и поддержки, потому что своими силами они это делать не могут. С другой стороны, всё это для больших бизнесов по политике компании отдаётся на интеграторов (то есть, как раз нам).

  • Авторитет компании пока не накоплен — внедрений не так много, молодая. За SAS ещё никого не увольняли, даже если бюджет в три раза выше, а здесь имя не на слуху.

  • Плохо с консалтингом, нет формализованных процессов техподдержки. Предполагается, что это всё делают, опять же, интеграторы. Мы и делаем, но с точки зрения большого бизнеса нельзя не упомянуть про эту особенность.

  • Не все вещи анализируются на сервере, в некоторых случаях платформа пробует агрегировать данные на локальной машине. Это плохо, когда модель требует всей базы, то есть когда нельзя взять и прогнать алгоритм на небольшом куске данных. Предполагается, что вы используете Hadoop или аналог для решения этой проблемы. Там всё есть.

  • Аналитика классических баз данных (то, что не Big Data по критерию многообразия) на шаг позади классических решений. То есть если вы захотите сделать предагрегацию перед выгрузкой in-database, то это нужно задать ручками явно, сам RapidMiner до этого не догадается.

Задачи Итак, перед нами чистое поле для решения любых задач. Наиболее частые в России, решающиеся такими инструментами — это:

  • Анализ транзакций (например, банковских) для противодействия мошенничеству.

  • Клиентская аналитика. Это самая горячая тема. Проще всего и выгоднее всего бывает выстроить модель оттока клиентов и отмечать флагом тех, кто к этому готов. Для рынка телекомов, например, переход абонента куда-то ещё — это трагедия, потому что людей больше не становится. Поэтому за флажок «клиент может убежать» они готовы платить реальные деньги.

  • Персональные рекомендации. Это любит розница — что кому предложить. Как раз тот случай, когда вы только-только не купили презервативы, а про вас уже запомнили, что через несколько месяцев нужно давать скидки на детское питание.

  • Прогнозирование поставок и продаж. При том, что есть готовые пакеты для этого, RapidMiner тупо дешевле. Не надо покупать Боинг, если у вас средний бизнес. И не надо покупать тот же JDA (он стоит как два Боинга). Нет, там всё очень круто и по возможностям, и по интеграции — но банально мало кто может позволить себе это купить.

  • Текстовая аналитика — о чём люди пишут. Например, анализ эмоционального оттенка отзывов или комментариев в автоматическом режиме. Это «50 жаловались на связь в Волгограде по улице Победы», «20 похвалили сервис», «Основная причина недовольства абонентов — частые разрывы соединения» и так далее.

  • Часто бывает нужна готовая интеграция на уровне базы и веб-сервисов. По сути, тут ничего не надо писать, задаётся только частота опроса, какие модель и процесс использовать, и кто потребитель. Для асинхронных или месячных отчётов ещё проще, есть даже подтягивания данных из Дропбокса для совсем малого бизнеса и готовая интеграция с Амазоновскими сервисами.

  • Коммерческий RapidMiner очень хорошо работает с большими данными. Exadata и Vertica — классические базы данных 2.0 или массивно-параллельные СУБД — поддерживаются «во все тяжкие».

RapidMiner vs IBM SPSS Modeler У RM гораздо шире функциональные возможности по обработке, банально больше узлов. С другой стороны, в SPSS есть режимы «автопилота». Авто-модели (Auto Numeric, Auto Classifier) — перебирают несколько возможных моделей с разными параметрами, выбирают несколько лучших. Не сильно опытный аналитик может построить на таком адекватную модель. Она почти наверняка будет уступать в точности построенным опытным специалистом, но есть сам факт — можно построить модель ничего не понимая в этом. В RM есть аналог (Loop and Deliver Best), но он все же требует хотя бы выбрать модели и критерии выбора лучшего. Автоматическая предобработка данных (Auto Data Prep) — другая известная фишка SPSS — иначе и чуть более муторно реализована в RapidMiner. В SPSS сборка данных выполняется одним узлом Automated Data Preparation, галочками проставляется, что нужно сделать с данными. В RapidMiner — собирается из атомарных узлов в произвольной последовательности. 

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]