7.5 Хранилища данных
Традиционный анализ данных осуществляется на основе набора готовых отчетов, а его результат – принятие определенного бизнес-решения. Для принятия эффективных управленческих решений руководителю может потребоваться исследование десятков тысяч комбинаций данных, не укладывающихся в имеющийся набор готовых отчетов. Эти проблемы легко решаются при использовании хранилищ данных.
Хранилище данных (ХД) – совокупность данных, ориентированная на предметную область, интегрированная, статичная, не разрушаемая, предназначенная для поддержки принятия решений.
Предметная ориентированность означает, что хранилище предоставляет данные, связанные с одним организационным процессом. Например, компания предоставляет клиентам услуги городской телефонной связи, мобильной связи и Интернет. Каждым видом услуг занимаются разные отделы, имеющие свои БД и создающие свои отдельные отчеты. Создание общего хранилища данных о клиентах может обеспечить единый взгляд на приобретаемые услуги. Из него исключаются ненужные для анализа данные (индексы, номера телефонов и т.д.). Основываясь на демографических данных клиентов и тенденциях их покупательского поведения в прошлом, компания может предложить им новые услуги.
Интегрированность означает применение единых законов именования и способов вычисления значений данных, полученных из разных источников. Напр, могут использоваться несколько разных форматов представления дат или один и тот же показатель может называться по-разному, («дата выполнения» и «дата исполнения»). При записи (погружении) в хранилище данных такие несоответствия устраняются автоматически. В процессе погружения данные:
1) очищаются – устраняется ненужная или служебная информация;
2) агрегируются – вычисляются суммы, средние значения и т.д.;
3) изменяются – происходит преобразование типов данных, изменение структур хранения;
4) объединяются из разных источников;
5) синхронизируются – приводятся к одному моменту времени.
Статичность (независимость от времени) означает, что хранилище данных содержит как исторические данные, так и данные, которые имели статус текущих при последнем погружении. Временные рамки изменяются в пределах от нескольких месяцев до нескольких лет.
Неразрушаемая совокупность данных означает, что в хранилище помещается большой объем данных, которые никогда больше не подвергаются изменениям. Т.о. пользователи, выполняющие один и тот же запрос к хранилищу данных, получат один и тот же результат.
В настоящее время кроме хранилищ данных создаются витрины данных или киоски данных.
Киоск данных – это небольшое хранилище данных, обслуживающее одно из направлений бизнеса компании или одно ее структурное подразделение. Стоимость разработки киоска в десятки и сотни раз ниже стоимости корпоративного хранилища данных, а результат его внедрения окупается очень быстро.
7.6 Аналитические информационные системы
В настоящее время информационные системы можно разделить на два класса:
1) системы оперативной обработки данных (OLTP – OnLine Transaction Processing);
2) системы аналитической обработки данных.
OLTP-системы создаются для обеспечения повседневной деятельности компании, и используют данные, хранящиеся в оперативной БД. Принцип работы – поиск информации по регламентированным запросам. Они используют реляционные СУБД, которые автоматизируют выпуск отчетов, позволяют перевести их хранение в электронный вид и распространять по корпоративной сети между сотрудниками.
Системы аналитической обработки данных используют хранилища данных. Для них характерна массовая и длительная обработка запросов. Они делятся на 2 группы:
1) статической аналитической обработки данных. Это системы поддержки принятия решений (DSS – Decision Support System);
2) аналитической оперативной обработки данных (OLAP – OnLine Analytical Processing).
DSS-системы используют данные о деятельности компании за несколько лет. Данные носят статический характер, т.е. при хранении не изменяются. В DSS-системах обеспечивается выдача отчетов в соответствии с заранее сформулированными требованиями. В них предъявляются существенно менее жесткие требования ко времени выполнения запроса, чем в OLTP-системах ( в диапазоне от нескольких минут до нескольких часов и даже суток).
OLAP-системы являются дальнейшим развитием OLTP- и DSS-систем и позволяют аналитику динамически формировать вопросы, которые требуются для решаемой им аналитической задачи. Эти системы служат для анализа деятельности компании или ее подразделений и прогнозирования их будущего состояния не только на основе накопленных данных о деятельности компании в прошлом, но также и внешних источников данных.
Если OLTP-системы отвечают на вопросы типа «Сколько было продано товара?», то OLAP-системы могут дать ответы на сложные вопросы «Как надо увеличить расходы на маркетинг, чтобы прибыль выросла на определенное количество процентов?».
В OLAP-системе пользователь может осуществлять гибкий просмотр информации, получать произвольные срезы данных и выполнять аналитические операции агрегирования и детализации, сравнения во времени и т. д.
К недостаткам OLAP-систем следует отнести их сложность при разработке и внедрении.
Для более глубокого анализа данных применяется также технология Data Mining – новая технология интеллектуального анализа данных с целью выявления скрытых закономерностей в виде значимых особенностей, зависимостей и тенденций.
Другими словами, Data Mining – это исследование и обнаружение с помощью средств искусственного интеллекта в данных таких закономерностей, которые:
1) ранее не были известны;
2) нетривиальны;
3) практически полезны;
4) доступны для интерпретации человеком и необходимы для принятия решений в различных сферах деятельности.
Результаты поиска отражают неочевидные, неожиданные закономерности, так называемые скрытые знания.