Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Дополнение к теме 7.doc
Скачиваний:
3
Добавлен:
19.12.2018
Размер:
89.6 Кб
Скачать

7.5 Хранилища данных

Традиционный анализ данных осуществляется на основе набора готовых отчетов, а его результат – принятие определенного бизнес-решения. Для принятия эффективных управленческих решений руководителю может потребоваться исследование десятков тысяч комбинаций данных, не укладывающихся в имеющийся набор готовых отчетов. Эти проблемы легко решаются при использовании хранилищ данных.

Хранилище данных (ХД) – совокупность данных, ориентированная на предметную область, интегрированная, статичная, не разрушаемая, предназначенная для поддержки принятия решений.

Предметная ориентированность означает, что хранилище предоставляет данные, связанные с одним организационным процессом. Например, компания предоставляет клиентам услуги городской телефонной связи, мобильной связи и Интернет. Каждым видом услуг занимаются разные отделы, имеющие свои БД и создающие свои отдельные отчеты. Создание общего хранилища данных о клиентах может обеспечить единый взгляд на приобретаемые услуги. Из него исключаются ненужные для анализа данные (индексы, номера телефонов и т.д.). Основываясь на демографических данных клиентов и тенденциях их покупательского поведения в прошлом, компания может предложить им новые услуги.

Интегрированность означает применение единых законов именования и способов вычисления значений данных, полученных из разных источников. Напр, могут использоваться несколько разных форматов представления дат или один и тот же показатель может называться по-разному, («дата выполнения» и «дата исполнения»). При записи (погружении) в хранилище данных такие несоответствия устраняются автоматически. В процессе погружения данные:

1) очищаются – устраняется ненужная или служебная информация;

2) агрегируются – вычисляются суммы, средние значения и т.д.;

3) изменяются – происходит преобразование типов данных, изменение структур хранения;

4) объединяются из разных источников;

5) синхронизируются – приводятся к одному моменту времени.

Статичность (независимость от времени) означает, что хранилище данных содержит как исторические данные, так и данные, которые имели статус текущих при последнем погружении. Временные рамки изменяются в пределах от нескольких месяцев до нескольких лет.

Неразрушаемая совокупность данных означает, что в хранилище помещается большой объем данных, которые никогда больше не подвергаются изменениям. Т.о. пользователи, выполняющие один и тот же запрос к хранилищу данных, получат один и тот же результат.

В настоящее время кроме хранилищ данных создаются витрины данных или киоски данных.

Киоск данных – это небольшое хранилище данных, обслуживающее одно из направлений бизнеса компании или одно ее структурное подразделение. Стоимость разработки киоска в десятки и сотни раз ниже стоимости корпоративного хранилища данных, а результат его внедрения окупается очень быстро.

7.6 Аналитические информационные системы

В настоящее время информационные системы можно разделить на два класса:

1) системы оперативной обработки данных (OLTP – OnLine Transaction Processing);

2) системы аналитической обработки данных.

OLTP-системы создаются для обеспечения повседневной деятельности компании, и используют данные, хранящиеся в оперативной БД. Принцип работы – поиск информации по регламентированным запросам. Они используют реляционные СУБД, которые автоматизируют выпуск отчетов, позволяют перевести их хранение в электронный вид и распространять по корпоративной сети между сотрудниками.

Системы аналитической обработки данных используют хранилища данных. Для них характерна массовая и длительная обработка запросов. Они делятся на 2 группы:

1) статической аналитической обработки данных. Это системы поддержки принятия решений (DSS – Decision Support System);

2) аналитической оперативной обработки данных (OLAP – OnLine Analytical Processing).

DSS-системы используют данные о деятельности компании за несколько лет. Данные носят статический характер, т.е. при хранении не изменяются. В DSS-системах обеспечивается выдача отчетов в соответствии с заранее сформулированными требованиями. В них предъявляются существенно менее жесткие требования ко времени выполнения запроса, чем в OLTP-системах ( в диапазоне от нескольких минут до нескольких часов и даже суток).

OLAP-системы являются дальнейшим развитием OLTP- и DSS-систем и позволяют аналитику динамически формировать вопросы, которые требуются для решаемой им аналитической задачи. Эти системы служат для анализа деятельности компании или ее подразделений и прогнозирования их будущего состояния не только на основе накопленных данных о деятельности компании в прошлом, но также и внешних источников данных.

Если OLTP-системы отвечают на вопросы типа «Сколько было продано товара?», то OLAP-системы могут дать ответы на сложные вопросы «Как надо увеличить расходы на маркетинг, чтобы прибыль выросла на определенное количество процентов?».

В OLAP-системе пользователь может осуществлять гибкий просмотр информации, получать произвольные срезы данных и выполнять аналитические операции агрегирования и детализации, сравнения во времени и т. д.

К недостаткам OLAP-систем следует отнести их сложность при разработке и внедрении.

Для более глубокого анализа данных применяется также технология Data Mining – новая технология интеллектуального анализа данных с целью выявления скрытых закономерностей в виде значимых особенностей, зависимостей и тенденций.

Другими словами, Data Mining – это исследование и обнаружение с помощью средств искусственного интеллекта в данных таких закономерностей, которые:

1) ранее не были известны;

2) нетривиальны;

3) практически полезны;

4) доступны для интерпретации человеком и необходимы для принятия решений в различных сферах деятельности.

Результаты поиска отражают неочевидные, неожиданные закономерности, так называемые скрытые знания.