Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

9306

.pdf
Скачиваний:
0
Добавлен:
25.11.2023
Размер:
2.5 Mб
Скачать

30

Рис. 1.14. Слияние двух узлов сценария Группировка и Скрипт 38. Сравните ваш сценарий с приведенным ниже на рис.1.15

Рис. 1.15. Фрагмент сценария для п.п. 29-37

39.Сохраните проект и завершите работу.

40.Дополнительное задание. Откройте и посмотрите Демопример по анализу данных (главное меню Файл).

1.5.Вопросы для самопроверки:

1.Что такое проект в Deductor Studio?

2.Как создать новый проект и как сохранить текущий проект под другим именем?

31

3.Сколько проектов можно одновременно открыть в Deductor Studio?

4.Сколько вкладок на панели управления Deductor Studio?

5.Сколько мастеров имеется в Deductor Studio?

6.Что такое сценарий и узел сценария?

7.Вы импортировали текстовый файл, создав узел импорта. После чего обнаружили, что неправильно задали параметры импорта. Как легче всего исправить ошибку?

8.Что позволяет сделать обработчик Настройка набора данных?

9.Какие характеристики набора данных показывает визуализатор Статистика?

10.Как обнаружить имеются ли в поле набора данных пропущенные

значения?

11.К существующему в сценарии узлу импорта необходимо еще добавить один визуализатор. Что предпринять?

12.Для чего предназначен обработчик Замена данных?

13.Для чего предназначен узел Фильтр?

14.Какие условия фильтрации существуют в Deductor?

15.Сколько записей будет отфильтровано в результате фильтра «([Размер ссуды, руб.] в интервале [2000..5000]) И ([Цель ссуды] = 'Покупка товара') И ([Цель ссуды] = 'Иное')»?

16.Для чего предназначен обработчик Калькулятор?

17.Как ввести формулу для расчета значений столбца?

18.Чем отличаются функции IF и IFF?

19.Как посмотреть описание той или иной функции?

20.Для чего предназначен обработчик Скрипт?

21.Можно ли настроить соответствия столбцов, которые имеют

различный тип?

22. Чем отличается копирование ветви от применения скрипта?

32

2. Технологии сбора и хранения данных в аналитических информационных системах 2.1. Консолидация данных и хранилища данных

Прежде чем приступать к анализу данных, необходимо выполнить ряд процедур, цель которых – «доведение» данных до приемлемого уровня качества и информативности, а также организовать их интегрированное хранение в структурах, обеспечивающих их целостность, непротиворечивость, высокую скорость и гибкость выполнения аналитических запросов.

Консолидация – комплекс методов и процедур, направленных на извлечение данных из различных источников, обеспечение необходимого уровня их информативности и качества, преобразование в единый формат, в котором они могут быть загружены в хранилище данных или аналитическую систему.

Консолидация данных является начальным этапом реализации любой аналитической задачи или проекта. В основе консолидации лежит процесс сбора и организации хранения данных в виде, оптимальном с точки зрения их обработки на конкретной аналитической платформе или решения конкретной аналитической задачи. Сопутствующими задачами консолидации являются оценка качества данных и их обогащение.

Основные критерии оптимальности с точки зрения консолидации данных:

обеспечение высокой скорости доступа к данным;

компактность хранения;

автоматическая поддержка целостности структуры данных;

контроль непротиворечивости данных.

Впроцессе консолидации данных решаются следующие задачи:

выбор источников данных;

разработка стратегии консолидации;

оценка качества данных;

33

обогащение;

очистка;

перенос в хранилище данных (ХД).

Аналитические приложения не содержат развитых средств ввода и редактирования данных, а работают с уже сформированными выборками.

Ключевым понятием консолидации является источник данных – объект, содержащий структурированные данные, которые могут оказаться полезными для решения аналитической задачи. Необходимо, чтобы используемая аналитическая платформа могла осуществлять доступ к данным из этого объекта непосредственно либо после их преобразования в другой формат. В противном случае очевидно, что объект не может считаться источником данных.

Выделяют три основных подхода к организации хранения данных:

1.Данные, хранящиеся в отдельных (локальных) файлах, например, в текстовых файлах с разделителями, документах Word, Excel и т. д. Такого рода источником может быть любой файл, данные в котором организованы в виде столбцов и записей. Столбцы должны быть типизированы, то есть содержать данные одного типа, например, только текстовые или только числовые. Преимущество таких источников в том, что они могут создаваться и редактироваться с помощью простых и популярных офисных приложений, работа с которыми не требует от персонала специальной подготовки. К недостаткам следует отнести то, что они далеко не всегда оптимальны с точки зрения скорости доступа к ним, компактности представления данных и поддержки их структурной целостности. Например, ничто не мешает пользователю табличного процессора разместить в одном столбце данные различных типов (числовые и текстовые), что впоследствии обязательно приведет к проблемам при их обработке в аналитическом приложении.

2.Базы данных (БД) различных СУБД, таких как Oracle, SQL Server, Firebird, dBase, FoxPro, Access и т. д. Файлы БД лучше поддерживают

34

целостность структуры данных, поскольку тип и свойства их полей жестко задаются при построении таблиц. Однако для создания и администрирования БД требуются специалисты с более высоким уровнем подготовки, чем для работы с популярными офисными приложениями.

3. Специализированные хранилища данных (ХД) являются наиболее предпочтительным решением, поскольку их структура и функционирование специально оптимизируются для работы с аналитической платформой. Большинство ХД обеспечивают высокую скорость обмена данными с аналитическими приложениями, автоматически поддерживают целостность и непротиворечивость данных. Главное преимущество ХД перед остальными типами источников данных – наличие семантического слоя, который дает пользователю возможность оперировать терминами предметной области для формирования аналитических запросов к хранилищу.

Другой важной задачей, которую требуется решить в рамках консолидации, является оценка качества данных с точки зрения их пригодности для обработки с помощью различных аналитических алгоритмов и методов. В большинстве случаев исходные данные являются «грязными», то есть содержат факторы, не позволяющие их корректно анализировать, обнаруживать скрытые структуры и закономерности, устанавливать связи между элементами данных и выполнять другие действия, которые могут потребоваться для получения аналитического решения. К таким факторам относятся ошибки ввода, пропуски, аномальные значения, шумы, противоречия и т. д. Поэтому перед тем, как приступить к анализу данных, необходимо оценить их качество и соответствие требованиям, предъявляемым аналитической платформой. Если в процессе оценки качества будут выявлены факторы, которые не позволяют корректно применить к данным те или иные аналитические методы, необходимо выполнить соответствующую очистку данных.

35

Очистка данных – комплекс методов и процедур, направленных на устранение причин, мешающих корректной обработке аномалий, пропусков, дубликатов, противоречий, шумов и т. д.

Еще одной операцией, которая может понадобиться при консолидации данных, является их обогащение.

Обогащение – процесс дополнения данных некоторой информацией, позволяющей повысить эффективность решения аналитических задач.

Обогащение позволяет более эффективно использовать консолидированные данные. Его необходимо применять в тех случаях, когда данные содержат недостаточно информации для удовлетворительного решения определенной задачи анализа. Обогащение данных позволяет повысить их информационную насыщенность и, как следствие, значимость для решения аналитической задачи.

Место консолидации в общем процессе анализа данных может быть представлено в виде структурной схемы (рис. 2.1).

Рис. 2.1. Процесс консолидации данных Из источников данных всех перечисленных уровней информация в

соответствии с некоторым регламентом должна перемещаться в ХД .

36

Принято считать, что у истоков концепции ХД стоял технический директор компании Prism Solutions Билл Инмон, который в начале 1990-х гг. опубликовал ряд работ, ставших основополагающими для последующих исследований в области аналитических систем.

Воснове концепции ХД лежат следующие положения:

интеграция и согласование данных из различных источников, таких как обычные системы оперативной обработки, базы данных, учетные системы, офисные документы, электронные архивы, расположенные как внутри предприятия, так и во внешнем окружении;

разделение наборов данных, используемых системами выполнения транзакций и СППР.

Хранилище данных – разновидность систем хранения, ориентированная на поддержку процесса анализа данных, обеспечивающая целостность, непротиворечивость и хронологию данных, а также высокую скорость выполнения аналитических запросов.

Назначение хранилища данных – своевременно обеспечить аналитика всей информацией, необходимой для проведения анализа, построения моделей и принятия решений. Цель хранилища данных – не анализ данных, а подготовка данных для анализа и их консолидация.

Использование концепции ХД в СППР и анализе данных способствует достижению таких целей, как:

своевременное обеспечение аналитиков и руководителей всей информацией, необходимой для выработки обоснованных и качественных управленческих решений;

создание единой модели представления данных в организации;

создание интегрированного источника данных, предоставляющего удобный доступ к разнородной информации и гарантирующего получение одинаковых ответов на одинаковые запросы из различных аналитических приложений.

37

Основные требования к ХД

Чтобы ХД выполняло функции, соответствующие его основной задаче – поддержке процесса анализа данных, – оно должно удовлетворять требованиям, сформулированным Р. Кимбаллом, одним из авторов концепции ХД:

высокая скорость получения данных из хранилища;

автоматическая поддержка внутренней непротиворечивости данных;

возможность получения и сравнения срезов данных;

наличие удобных средств для просмотра данных в хранилище;

обеспечение целостности и достоверности хранящихся данных. Согласно определению Б. Инмона, ХД – это предметно-

ориентированный, интегрированный, неизменяемый и поддерживающий хронологию набор данных, предназначенный для обеспечения принятия управленческих решений.

Под предметной ориентированностью в данном случае подразумевается, что ХД должно разрабатываться с учетом специфики конкретной предметной области, а не аналитических приложений, с которыми его предполагается использовать. Структура ХД должна отражать представления аналитика об информации, с которой ему приходится работать.

Интегрированность означает, что должна быть обеспечена возможность загрузки в ХД информации из источников, поддерживающих различные форматы данных и созданных в различных приложениях – учетных системах, базах данных, электронных таблицах и других офисных приложениях, поддерживающих структурированность данных (например, текстовые файлы с разделителями). При этом данные, допускающие различный формат (например, числа, дата и время), в процессе загрузки должны быть преобразованы к единому представлению. Кроме того, очень важно проверить загружаемые данные на целостность и непротиворечивость, обеспечить необходимый уровень их обобщения (агрегирования). Объем данных в хранилище должен

38

быть достаточным для эффективного решения аналитических задач, поэтому в ХД может накапливаться информация за несколько лет и даже десятилетий.

Принцип неизменчивости предполагает, что в отличие от обычных систем оперативной обработки данных в ХД данные после загрузки не должны подвергаться каким-либо изменениям за исключением добавления новых данных.

Поддержка хронологии означает соблюдение порядка следования записей, для чего в структуру ХД вводятся ключевые атрибуты Дата и Время. Кроме того, если физически упорядочить записи в хронологическом порядке, например, в порядке возрастания атрибута Дата, можно уменьшить время выполнения аналитических запросов.

Чтобы соблюсти все перечисленные требования для построения и работы ХД, используется не одно приложение, а система, в которую входит несколько программных продуктов. Одни из них представляют собой собственно систему хранения данных, другие – средства их просмотра, извлечения, загрузки и т. д.

В последние десятилетия технология ХД стремительно развивается. Десятки компаний предлагают на рынке свои решения в области ХД , и тысячи организаций уже используют это мощное средство поддержки аналитических проектов.

Хранилище данных Deductor Warehouse – это специально организованная база данных, ориентированная на решение задач анализа данных и поддержки принятия решений, обеспечивающая максимально быстрый и удобный доступ к информации.

Deductor Warehouse соответствует модели ROLAP (схема «снежинка») и может быть развернуто на одной из следующих СУБД:

-Firebird 1.5 и выше;

-MS SQL Server 2000 и выше;

-Oracle начиная с версии 9i;

39

- локально (база данных Firebird) с использованием библиотеки fbclient.dll (поставляется вместе с Deductor).

ROLAP – Relational OLAP – реляционные ХД , использующие классическую реляционную модель, в которой данные хранятся в реляционных таблицах, но образуют специальные структуры, эмулирующие многомерное представление данных.

Хранилище данных Deductor Warehouse в Deductor Studio Academic основано на реляционной базе данных (Firebird), которая содержит таблицы для хранения информации и таблицы связей, обеспечивающие целостное хранение сведений. Поверх реляционной базы данных реализован специальный слой, который преобразует реляционное представление к многомерному. Хранение данных в многомерном виде в специальной структуре – хранилище данных – облегчает последующий доступ к данным, их анализ и обработку.

2.2. Архитектура хранилища данных

Круг задач интеллектуального анализа данных весьма широк, а сами задачи существенно различаются по уровню сложности. Поэтому в зависимости от специфики решаемых задач и уровня их сложности архитектура ХД и модели данных, используемых для их построения, могут различаться.

Хранилище данных (ХД) Deductor Warehouse включает в себя потоки данных, поступающие из различных источников, и специальный семантический слой, содержащий так называемые метаданные (данные о данных).

Семантический слой – механизм, позволяющий аналитику оперировать данными посредством терминов предметной области.

Объекты хранилища данных Deductor Warehouse перечислены далее.

Измерение – это последовательность значений одного из анализируемых параметров. Например, для параметра «время» это последовательность календарных дней, для параметра «место проживания» – список названий

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]