- •5. Тренды в цифровой трансформации при внедрении систем интеллектуального анализа данных 37
- •Введение
- •1. Цифровая трансформация
- •Причины стратегии цифровой трансформации
- •Перспективы всеобщего перехода в «цифру»
- •2. Примеры новых бизнес-моделей
- •3. Системы интеллектуального анализа данных
- •4. Методы интеллектуального анализа данных
- •4.1. Статистические методы
- •4.2 Кибернетические методы
- •Анализ и прогноз на основе нейронных сетей,
- •Эволюционное программирование,
- •Метод группового учета аргументов.
- •4.2.1 Анализ и прогноз на основе нейронных сетей
- •4.2.2 Эволюционное программирование
- •4.2.3 Генетический алгоритм
- •4.2.4 Метод группового учета аргументов
- •4.3 Оптимизационные методы
- •4.4 Экспертные методы
- •Метод последовательного логического вывода,
- •Предметно-ориентированные аналитические системы.
- •4.4.1 Ассоциативные средства
- •4.4.2 Метод последовательного логического вывода
- •4.4.3 Методы визуализации данных и результатов их анализа
- •4.4.4 Предметно-ориентированные аналитические системы
- •4.5. Работа с Big Data
- •5. Тренды в цифровой трансформации при внедрении систем интеллектуального анализа данных
- •Список использованных источников
3. Системы интеллектуального анализа данных
В интеллектуальные платформы входит – системы класса Big Data (BD), Machine Learning (ML), Deep Learning (DL), NLP и прочие.
Интеллектуальный анализ данных (также называют ИАД, data mining, KDD — knowledge discovery in databases или обнаружение знаний в базах данных) – процесс обработки данных с целью выявления повторяющихся шаблонов, признаков или закономерностей и установления взаимосвязей между ними, возможность их применения для решения задач поддержки принятия решений.
Сфера применения ИАД:
экономика,
здравоохранение,
страхование,
торговля,
различные области, связанные с контролем и прогнозированием состояния сложных динамических систем,
где применяются какие-либо данные.
В рамках проведения ИАД могут выполняться различные операции, которые реализуются с помощью разнообразных алгоритмов. В основе этих алгоритмов находится мощный аппарат математических, логических и статистический методов, которые заключаются в проверке гипотез и поиске зависимостей.
У многих возникает вопрос, для чего используют системы интеллектуального анализа данных. К основным направлениям деятельности относится:
управление данными как активом компании,
выявление и назначение владельцев данных,
управление архитектурой данных как дисциплина по созданию и ведению стандартов данных в системах или при взаимодействии между ними,
процессы создания и ведения моделей данных,
интеграция данных, процессы перемещения и трансформации данных согласно требованиям пользователей,
управление хранением данных и операциями с данными с данными в СУБД,
защита данных – процессы предотвращения неавторизованного доступа к данным,
управление НСИ в частности создания «единой версии правды» критичных для организации данных, к примеру, клиенты, продукты, материалы и т.д.,
процессы ведения статичных справочных данных (страны, классификации и т.д.),
создание хранилища данных – процессы создания централизованного окружения для хранения и использования данных в целях отчетности и аналитики,
выявление критичных данных – элементов данных, имеющих существенное влияние на регуляторную, операционную, управленческую отчетность, а также на деятельность компании в целом,
управление метаданными как объектами описаний данных и их характеристик – название, расположение, критичность, качество, бизнес-правила, связи с другими объектами,
инициатива по управлению методами измерения и улучшения качества данных организации,
процессы и методология управления жизненным циклом данных от создания до удаления, включая соответствие всем внутренним и внешним требованиям,
управление контентом – процессы оцифровки, сбора и классификации информации из бумажных и электронных документов.
Наиболее важные технологии и компоненты архитектуры в работе с данными:
Накопление и хранение – озера данных.
Обработка данных – map reduce, machine learning, ИИ.
Архитектуры конвейеров обработки – Лямбда и Каппа архитектуры.
Ведущими же методами анализа и дизайна становятся DDD (Domain Driven Design) и онтологический подход, входит в обиход цифровой двойник.
Цифровой двойник – образ, информационная модель, репрезентация объекта или явления физического реального мира в виде набора данных в информационной системе, а также методы сбора, накопления, обработки этих данных, методы воздействия с помощью данных на объект реального мира: посылка команд на объект через предусмотренные у объекта реальности интерфейсы: физический, аудио-, свето-, электронный. На его основе можно предположить с большой вероятностью, что будет происходить с объектом реального мира в таких же обстоятельствах или ситуациях, как в смоделированной моделей с цифровым двойником.
Методологии для построения архитектурных моделей:
ARIS (Architecture of Integrated Information System) – язык и семейство нотаций в программном продукте ARIS.
IDEF (Integrated Computer Automated Manufacturing Definition) – семейство нотаций моделирования из середины 70-х США.
Archimate® – язык описания архитектуры, развиваемый консорциумом OpenGroup.
Самые распространенные системы интеллектуального анализа данных – Data Lineage (зависимость между объектами метаданными, выявленная по запросам, сервисам, интеграционным процессам и визуализации каталогом) и Impact analysis (действия по изучения влияния изменений в одних системах на другие на основе построенного data lineage). На рисунке 3.1 представлен пример полного детального раскрытия data lineage с учетом каждого поля изучаемого объекта метаданных.
Рисунок 3.1 – Пример детального представления data lineage
Ведущие аналитические агентства в области каталогизации данных:
Informatica.
IBM.
Oracle.
Alation.
SAP (только для объектов систем SAP).
На российском рынке также можно найти решения от компании Manta.
С методами интеллектуального анализа данных мы познакомимся подробнее дальше.