Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
shpory1-9.doc
Скачиваний:
4
Добавлен:
23.09.2019
Размер:
110.59 Кб
Скачать
  1. Понятие систем поддержки принятия решений. Knowledge Discovery in Databases и Data Mining.

В области информационных технологий, существуют два взаимодополняющих направления развития:

1)Системы, ориентированные на оперативную обработку данных – системы оперативной обработки транзакций (OLTPOnLine Transaction Processing).

2)Системы, ориентированные на анализ данных – системы поддержки принятия решений (СППР, или DSSDecision Support System).

OLTP‑системы ориентированы на процессы повседневной рутинной обработки (переработки) данных. СППР являются в определенном смысле вторичными, по отношению к ним.

Основное назначение СППР – дать возможность управляющему звену самостоятельно формулировать произвольные запросы к ИС и анализировать получаемые данные. СППР предназначены для комплексного многомерного анализа данных, анализа динамики данных, выявления тенденций и скрытых закономерностей. Такие системы ориентированы на обработку нерегламентированных запросов аналитиков к данным. СППР базируются на трех концепциях:

1. Хранилища данных(Data Warehouse).

2.Оперативная аналитическая обработка (OLAPOnLine Analitical Processing).

3.Интеллектуальный анализ данных – обширная область, под которой понимают Data Mining (добыча, извлечение данных), т. е. выявление закономерностей и прогноз или более широко – Business Intelligence – средства анализа и обработки информации масштаба предприятия.

С СППР связана теория принятия решений – область исследования, вовлекающая понятия и методы математики, статистики, экономики, менеджмента и психологии, которая изучает закономерности выбора людьми путей решения разного рода задач, а также исследует способы поиска наиболее выгодных из возможных решений.

Огромные объемы информации, накапливаемые в системах управления современными предприятиями, привели к созданию СППР. Существуют различные определения СППР. В общем виде можно говорить о СППР как о системах, призванных облегчить работу людей, выполняющих анализ информации (аналитиков). СППР решают 3 основные задачи: ввод данных; хранение данных; анализ данных.

СППР – это системы, обладающие средствами ввода, хранения и анализа данных с целью поиска решений.

Известны 2 подхода к анализу данных с помощью ИС. В 1 подходе программа поддержки принятия решений используется для визуализации информации – извлечения данных из источников и представления аналитику в удобной форме (в форме таблиц, сводных отчетов, графиков). Во 2 варианте программа поддержки принятия решений используется для построения модели. Во многих областях, например, в экономике, практически невозможно получить математические зависимости, связывающие входные и выходные данные системы управления. Однако известны интеллектуальные методы анализа, такие как нейронные сети, классификация, кластеризация и другие, которые позволяют изучать такие системы и даже извлекать скрытые знания. Причем в различных областях можно применять одни и те же базовые методы анализа:

– оперативная аналитическая обработка данных (OLAP – On Line Analytical Processing);

– извлечение знаний из баз данных (KDD – Knowledge Discovery in Databases).

Иногда OLAP и KDD объединяют термином Business Intelligence – BI (бизнес‑интеллект).

СППР, прежде всего, должна обладать средствами отбора и представления пользователю данных в удобной для восприятия и анализа форме. Наиболее удобными для анализа являются многомерные данные, описывающие предметную область сразу с нескольких точек зрения. Для описания таких наборов данных вводится понятие многомерных кубов (гиперкубов, метакубов). По осям такого куба размещаются параметры, а в ячейках – зависящие от них данные. Технология комплексного многомерного анализа данных и представления результатов этого анализа в удобной для использования форме получила название OLAP – On Line Analytical Processing – оперативная аналитическая обработка данных. Пример трехмерного куба, хранящего информацию о продаже трех товаров в нескольких городах по четырем кварталам.

Такая модель представления данных позволяет получать нужную информацию, производя соответствующие сечения (срезы) OLAP-куба и представляя эти срезы в виде сводных отчетов.

KDD – извлечение знаний в виде зависимостей, правил, моделей из БД. Это процесс поиска полезных знаний в "сырых данных". KDD включает в себя этапы подготовки данных, выбора информативных признаков, очистки данных, применения методов "добычи данных" (Data Mining – DM), постобработки данных, интерпретации полученных результатов.

Этапы КДД: Источники данных, Исходные данные (подготовка данных), Очищенные данные(очистка), Трансформированные данные(трансформация), Модели(Data Mining), Знания(интерпретация).

Вне зависимости от предметной области применяются одни и те же операции:

1. Подготовка исходного набора данных. Этот этап заключается в создании набора данных из различных источников.

2. Очистка данных. Это заполнение пропусков данных, удаление аномальных значений, отбор наиболее значимых признаков, понижение размерности данных.

3. Трансформация данных. Это преобразование данных, например, цифровое кодирование, масштабирование.

4. Data Mining – добыча данных. На этом шаге применяются различные алгоритмы для нахождения знаний: нейронные сети, деревья решений, алгоритмы кластеризации и установления ассоциаций и т.д. В результате строятся различные модели. В Data Mining используются не аналитические модели, а информационные модели. В информационном моделировании известна только структура модели, например, нейронная сеть, а параметры модели обучаются на основе данных, описывающих поведение объекта. Информационные модели основаны на машинном обучении. В машинном обучении параметры модели обучаются либо на заранее подготовленных данных, либо на ошибках модели.

5. Постобработка данных.Интерпретация результатов и практическое применение полученных знаний в бизнесе.

Описанный процесс повторяется итеративно, а реализация этих этапов позволяет автоматизировать процесс извлечения знаний. Важно, что извлеченные знания можно тиражировать, то есть применять аналитиками, не знакомыми с методами анализа данных.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]