Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

9306

.pdf
Скачиваний:
0
Добавлен:
25.11.2023
Размер:
2.5 Mб
Скачать

60

В нашем случае целесообразно искать дубликаты в записях со всеми столбцами. Это будут входы (рис. 2.15). Противоречия разумнее искать по выходному полю Возможна смена оператора, т.е. если встретятся два полностью одинаковых по характеристикам телефонных звонков клиента, а поле Возможна смена оператора у них будет различаться, то это сигнал о вероятной ошибке в данных.

Рис. 2.15. Назначения полей в обработчике Дубликаты и противоречия При использовании обработчика Дубликаты и противоречия возможно

отображение результатов обработки с помощью одноименного визуализатора

Дубликаты и противоречия (рис. 2.16).

Рис. 2.16. Визуализатор «Дубликаты и противоречия»

61

В нашем случае было найдено 27 противоречий и 22 группы дубликатов с общим числом 46 записей. Примем решение удалить противоречия, а от каждой группы дубликатов оставить одну запись.

Наиболее простой способ сделать это состоит в следующем.

1.Удалить противоречия, используя обработчик Фильтрация с условием «Противоречие=ложь».

2.Отфильтровать все дубликаты и сгруппировать их по измерениям Дубликат

и Группа дубликатов, остальные поля будут фактами с функцией агрегации

первый. В результате мы получим по 1 записи для каждой группы дубликатов. 3. К отфильтрованному набору данных, не содержащему дубликатов, при помощи объединения (обработчик Слияние) добавить набор данных, полученный на шаге 2.

Фрагмент сценария, осуществляющего эти действия, приведен на рис. 2.17.

Рис. 2.17. Устранение противоречий и дубликатов

Шаг 3 – восстановление пропусков

Пропуски содержат 2 поля, причем доля пропусков составляет 13,7%. В этих условиях предпочтительнее выбрать их восстановление.

Для автоматизации этого процесса предназначен специальный многофункциональный обработчик Парциальная обработка. Он также находится в группе узлов Очистка данных мастера обработки.

Парциальная обработка служит для восстановления пропущенных данных, редактирования аномальных значений и сглаживания данных.

62

Рис. 2.18. Задание вариантов обработки пропусков Параметры восстановления задаются на первом шаге Мастера. Для

каждого поля на выбор предлагается три варианта обработки пропусков (рис. 2.18). В нашем примере все поля с пропусками относятся к типу

неупорядоченных. Остальные два шага Мастера пропустим, т.к. они относятся к очистке и сглаживанию временных рядов.

После выполнения обработчика в таблице можно убедиться, что значения восстановлены (рис. 2.19.).

Рис. 2.19. Восстановленные значения

63

Алгоритм подставил наиболее вероятное значение (строится плотность распределения вероятностей, и отсутствующие данные заменяются значением, соответствующим ее максимуму).

Шаг 4 – выявление аномалий

Анализ визуализатора Статистика (минимальные и максимальные значения полей) позволил сделать вывод об отсутствии аномальных выбросов в данных файла сотовые операторы.txt.

Перед выявлением аномалий полезно также изучить распределение данных (гистограмму), и те поля, в которых оно нормальное, проанализировать на выбросы методом «сигм»: любые значения ряда, отличающиеся от среднего больше чем на три среднеквадратических отклонения, являются потенциальными аномалиями.

Потенциальные аномалии можно обнаружить и на графике, для чего используют визуализатор Диаграмма (для аномальных точек используют один цвет, например, красный цвет, для не аномальных – белый).

Шаг 5 – фильтрация

Фильтрация в очистке и предобработке используется для получения очищенной выборки после принятия решений о судьбе «грязных» записей и для вспомогательных действий.

В рассматриваемом примере фильтрация использовалась для исключения дубликатов и противоречий (см. сценарий на рис. 2.17).

Шаг 6 – совокупная оценка качества

Всего записей: до очистки – 607, после очистки – 557, удалено 8,24%. Выводы: в целом качество данных можно признать очень хорошим; проблемы, возникшие с пропущенными и аномальными данными, были решены стандартными методами.

64

2.7. Практическая работа «Загрузка информации в ХД»

После создания структуры хранилища данных (см. п. 2.4.) оно представляет собой «пустое» ХД Deductor Warehouse 6 с настроенным семантическим слоем. В таком виде оно готово к загрузке в него данных из внешних структурированных источников. Для этого необходимо написать соответствующий сценарий в Deductor Studio.

Сценарий загрузки должен выполнять следующие функции:

1.Импорт данных в Deductor Studio из базы данных, учетной системы или предопределенных файлов.

2.Опциональная предобработка данных, например, очистка или преобразование формата.

3.Загрузка данных в измерения и процессы хранилища DW.

Исходными данными для ХД «ВОДА» служат 3 текстовых файла: Измерения.txt, Водные объекты.txt и Загрязнители.txt. Сценарий загрузки должен быть настроен на использование в качестве источников данных именно этих файлов (рис. 2.20).

На этапе загрузки данных в хранилище необходимо выполнить редактирование данных с помощью инструмента «Парциальная предобработка», в результате чего будут восстановлены пропущенные данные и удалены аномалии.

Каталог

 

 

Сценарий

 

 

Водные объекты.txt

 

 

загрузки

 

 

 

 

 

 

данных

Хранилище

 

 

 

Загрязнители.txt

load.ded

 

данных ХД

 

 

 

 

 

 

 

 

 

Измерения.txt

 

 

 

 

 

 

 

 

 

Рис. 2.20. Схема сценария загрузки

65

При создании сценария необходимо строго придерживаться следующих

правил:

1.Первыми загружаются все измерения, имеющие атрибуты. Только после загрузки всех измерений загружаются данные в процессы.

2.Среди измерений также имеется правило на порядок загрузки: загружать измерения нужно, начиная с самого верхнего уровня иерархии и спускаться по иерархии ниже, в противном случае иерархия не будет создана.

3.Допускается не загружать отдельно измерения, не имеющие атрибутов и не состоящие в иерархии измерений. Значения таких измерений можно при использовании специальной опции создавать во время загрузки в процесс.

I.С помощью Мастера импорта последовательно загрузите 3 текстовых файла в Deductor в следующей последовательности:

Водные объекты.txt – перечень рек, озер в Нижегородской области;

Загрязнители.txt – названия загрязнителей;

Измерения.txt – данные о вредных веществах в воде.

Замечание. В сценарии загрузки используйте относительные пути к текстовым файлам, это означает, что файл должен находиться в той же папке, что и файл со сценарием (рис.1.8).

II. Выполните комплекс мероприятий по очистке и предобработке данных с помощью инструмента «Парциальная предобработка» (восстановите пропущенные данные и удалите аномалии).

III. При загрузке данных в хранилище сначала загружаются таблицы измерений со своими атрибутами, и только после этого загружается таблица процесса Измерения.txt.

1.Для загрузки первого измерения Объект.Код, встав на первом узле сценария, вызовите Мастер экспорта, из списка приемников нужно

66

выбрать Deductor Warehouse, далее из списка доступных хранилищ укажите ранее созданное пустое хранилище «ВОДА». На следующей вкладке требуется указать в какое именно измерение будет загружаться информация; выберем Объект.Код (рис. 2.21).

Рис. 2.21. Выбор объекта для экспорта После этого нужно установить соответствие элементов объекта ХД с

полями входного источника данных (таблицы Водные объекты.txt), рис. 2.22.

Рис. 2.22. Настройка соответствия полей

67

Если имена полей в текстовом файле и метки в семантическом слое хранилища не совпадают, то нужно проверить и скорректировать (с помощью обработчика Настройка набора данных) типы соответствующих данных источника и приемника.

Нажатие кнопки Пуск загружает в измерение данные. При этом старые данные, если они были, будут заменены новыми.

2.Проделайте аналогичные действия еще для одного измерения –

Загрязнитель.Код.

Остались еще 3 измерения (без атрибутов) Запись.Номер, Дата, Створ. Их значения можно загрузить на этапе экспорта в процесс (для этого при загрузке должен быть установлен флаг Автоматически добавлять значения измерений).

3.Загрузите данные в процесс Мониторинг, повторив сначала действия, аналогичные перечисленным выше.

Вотличие от загрузки измерений здесь появляются два специфических шага. На одном нужно задать параметры для контроля непротиворечивости информации в ХД – указать измерения, по которым следует удалять данные из хранилища (в нашем примере нужно поставить флажок по полю Дата).

Рис. 2.23. Параметры для контроля непротиворечивости информации в ХД

68

Так как измерение Дата установлено на удаление, то при повторной загрузке в процесс Мониторинг из него будут удалены и загружены заново данные за те даты, которые совпадают в источнике и хранилище.

На последней странице настроек (шаг 6 мастера экспорта) оставьте настройки по умолчанию.

4.Сохраните файл сценария под именем load.ded в той же папке, где находятся текстовые файлы таблиц.

Врезультате ХД «ВОДА» будет заполнено конкретными сведениями, а также создан сценарий загрузки в него информации из внешних источников.

Рис. 2.24. Сценарий загрузки данных в хранилище Такого рода сценарий привязан не к самим данным, а только к их

структуре, то есть в нем смоделирована последовательность действий, которую нужно выполнить для загрузки данных в хранилище: указаны имена файлов источников, соответствие полей и т.д. Таким образом, сценарий может использоваться неоднократно для пополнения ХД.

Созданное ХД позволяет обеспечить целостность и непротиворечивость данных, их централизованное хранение, автоматически обеспечивает всю необходимую поддержку процесса анализа данных.

2.8. Практическая работа «Извлечение информации из ХД» Задание 1. Импортировать данные из процесса Мониторинг за последние три месяца от имеющихся данных.

1.С помощью Мастер импорта выберите тип источника данных Deductor Warehouse, на следующем шаге – ХД «ВОДА», а затем процесс

Мониторинг.

69

2.Определите, какие измерения и атрибуты из выбранного на предыдущем шаге процесса должны быть импортированы (поставьте флажки у следующих полей: Дата, Объект.Наименование, Загрязнитель.Код, Загрязнитель.Наименование, ПДК, Створ).

Рис. 2.25. Выбор импортируемых фактов и атрибутов

3.Определите импортируемые факты (здесь Загрязнитель.Значение) и виды их агрегаций (рис.2.26), в большинстве случаев требуется агрегация в виде суммы.

Рис. 2.26. Выбор импортируемых фактов

4.Для измерения Дата определите срез «Все данные за последние три месяца от имеющихся данных» (рис.2.27).

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]