Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
ИТ_Пантелеева_БСТ1904.docx
Скачиваний:
35
Добавлен:
04.03.2022
Размер:
9.83 Mб
Скачать

3. Системы интеллектуального анализа данных

В интеллектуальные платформы входит – системы класса Big Data (BD), Machine Learning (ML), Deep Learning (DL), NLP и прочие.

Интеллектуальный анализ данных (также называют ИАД, data mining, KDD — knowledge discovery in databases или обнаружение знаний в базах данных) – процесс обработки данных с целью выявления повторяющихся шаблонов, признаков или закономерностей и установления взаимосвязей между ними, возможность их применения для решения задач поддержки принятия решений.

Сфера применения ИАД:

  1. экономика, 

  2. здравоохранение, 

  3. страхование, 

  4. торговля, 

  5. различные области, связанные с контролем и прогнозированием состояния сложных динамических систем,

  6. где применяются какие-либо данные.

В рамках проведения ИАД могут выполняться различные операции, которые реализуются с помощью разнообразных алгоритмов. В основе этих алгоритмов находится мощный аппарат математических, логических и статистический методов, которые заключаются в проверке гипотез и поиске зависимостей.

У многих возникает вопрос, для чего используют системы интеллектуального анализа данных. К основным направлениям деятельности относится:

  1. управление данными как активом компании,

  2. выявление и назначение владельцев данных,

  3. управление архитектурой данных как дисциплина по созданию и ведению стандартов данных в системах или при взаимодействии между ними,

  4. процессы создания и ведения моделей данных,

  5. интеграция данных, процессы перемещения и трансформации данных согласно требованиям пользователей,

  6. управление хранением данных и операциями с данными с данными в СУБД,

  7. защита данных – процессы предотвращения неавторизованного доступа к данным,

  8. управление НСИ в частности создания «единой версии правды» критичных для организации данных, к примеру, клиенты, продукты, материалы и т.д.,

  9. процессы ведения статичных справочных данных (страны, классификации и т.д.),

  10. создание хранилища данных – процессы создания централизованного окружения для хранения и использования данных в целях отчетности и аналитики,

  11. выявление критичных данных – элементов данных, имеющих существенное влияние на регуляторную, операционную, управленческую отчетность, а также на деятельность компании в целом,

  12. управление метаданными как объектами описаний данных и их характеристик – название, расположение, критичность, качество, бизнес-правила, связи с другими объектами,

  13. инициатива по управлению методами измерения и улучшения качества данных организации,

  14. процессы и методология управления жизненным циклом данных от создания до удаления, включая соответствие всем внутренним и внешним требованиям,

  15. управление контентом – процессы оцифровки, сбора и классификации информации из бумажных и электронных документов.

Наиболее важные технологии и компоненты архитектуры в работе с данными:

  1. Накопление и хранение – озера данных.

  2. Обработка данных – map reduce, machine learning, ИИ.

  3. Архитектуры конвейеров обработки – Лямбда и Каппа архитектуры.

Ведущими же методами анализа и дизайна становятся DDD (Domain Driven Design) и онтологический подход, входит в обиход цифровой двойник.

Цифровой двойник – образ, информационная модель, репрезентация объекта или явления физического реального мира в виде набора данных в информационной системе, а также методы сбора, накопления, обработки этих данных, методы воздействия с помощью данных на объект реального мира: посылка команд на объект через предусмотренные у объекта реальности интерфейсы: физический, аудио-, свето-, электронный. На его основе можно предположить с большой вероятностью, что будет происходить с объектом реального мира в таких же обстоятельствах или ситуациях, как в смоделированной моделей с цифровым двойником.

Методологии для построения архитектурных моделей:

  1. ARIS (Architecture of Integrated Information System) – язык и семейство нотаций в программном продукте ARIS.

  2. IDEF (Integrated Computer Automated Manufacturing Definition) – семейство нотаций моделирования из середины 70-х США.

  3. Archimate® – язык описания архитектуры, развиваемый консорциумом OpenGroup.

Самые распространенные системы интеллектуального анализа данных – Data Lineage (зависимость между объектами метаданными, выявленная по запросам, сервисам, интеграционным процессам и визуализации каталогом) и Impact analysis (действия по изучения влияния изменений в одних системах на другие на основе построенного data lineage). На рисунке 3.1 представлен пример полного детального раскрытия data lineage с учетом каждого поля изучаемого объекта метаданных.

Рисунок 3.1 – Пример детального представления data lineage

Ведущие аналитические агентства в области каталогизации данных:

  1. Informatica.

  2. IBM.

  3. Oracle.

  4. Alation.

  5. SAP (только для объектов систем SAP).

На российском рынке также можно найти решения от компании Manta.

С методами интеллектуального анализа данных мы познакомимся подробнее дальше.