Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

9306

.pdf
Скачиваний:
0
Добавлен:
25.11.2023
Размер:
2.5 Mб
Скачать

50

16. Добавьте в процесс ссылки на 5 измерений: Запись.Номер, Дата, Объект.Код, Загрязнитель.Код, Створ и добавьте ссылку на факт: имя –

CONT_MEASURE, метка – Загрязнитель значение, тип – вещественный.

17. Проектирование структуры и метаданных ХД закончено, можно закрыть окно Редактора.

Рис. 2.11. Описание метаданных ХД «ВОДА»

51

2.5.Оценка качества данных, очистка и предобработка

Внастоящее время технологии оценки качества данных широко используются не только в процессе анализа данных, но и в информационных системах самого различного назначения, а реализующие их программные средства стали привычным явлением на рынке программного обеспечения. Рассмотрим несколько практических аспектов оценки качества данных.

Оценка качества данных является необходимым этапом в процессе подготовки их к загрузке в хранилище данных и дальнейшего их анализа. Она позволяет своевременно выявить в данных проблемы, которые не позволят их корректно анализировать, снизят значимость и достоверность результатов анализа, следствием чего может стать выработка неверных управленческих решений. Контроль качества данных должен проводиться на всех этапах аналитического процесса – от извлечения данных из источников до их обработки в аналитической системе, поскольку для каждого этапа характерно наличие своих проблем с качеством данных.

Проблемы с качеством встречаются в отдельных наборах данных таких, как файлы и базы данных, например, как результат ошибок при вводе, утери информации и других загрязнений данных. Когда интеграции подлежит множество источников данных, например в хранилищах, интегрированных системах баз данных или глобальных информационных Интернет-системах, необходимость в очистке данных существенно возрастает. Это происходит оттого, что источники часто содержат разрозненные данные в различном представлении.

Термин «качество данных» появился задолго до IT-технологий. Изначально под качеством данных понималось количество ошибок при вводе и форматировании данных. В контексте современных аналитических технологий

качество данных – совокупность их свойств и характеристик, определяющих

степень пригодности к анализу.

Сравнительная характеристика уровней качества данных приводится в табл. 3.

52

Таблица 3.

Уровни качества данных

Уровень

 

Факторы

 

Проявления

 

Технический

Нарушения в структуре данных

Мешают

интегрирова-

 

Некорректное

 

наименование

нию

данных,

их

 

таблиц и полей

 

 

 

загрузке в ХД и в

 

Некорректные

 

форматы

и

аналитические системы

 

кодировки данных

 

 

 

 

 

 

 

Нарушение

полноты

и

 

 

 

 

 

целостности данных

 

 

 

 

 

 

Противоречия

и

дубликаты

на

 

 

 

 

 

уровне таблиц и файлов БД

 

 

 

 

 

Аналитический

Пропуски

 

 

 

Снижают

достовер-

 

Аномальные

и

фиктивные

ность данных и иска-

 

значения, опечатки

 

жают результаты

их

 

Шумы

 

 

 

анализа,

не

позволяют

 

Противоречия

и

дубликаты

на

использовать некоторые

 

уровне записей

 

 

 

аналитические методы

Концептуальный

Собранные и консолидирован-

Отсутствие

или недос-

 

ные

данные

в

недостаточной

таток

данных

для

 

мере

отражают

исследуемые

анализа

 

 

 

 

процессы

 

 

 

 

 

 

 

С целью повышения качества данных используется комплекс методов и алгоритмов, получивших название очистка данных (cleaning, refinement).

Предобработку данных можно рассматривать как комбинацию методов очистки и специальных методов оптимизации данных для решения конкретной аналитической задачи и приведения их в соответствие с требованиями, определяемыми спецификой задачи и способами ее решения.

Соотношение между очисткой и предобработкой дается на схеме (рис.2.12).

53

Рис. 2.12. Связь между очисткой и предобработкой Типичный набор инструментов предобработки и подготовки данных к

анализу, поставляемый с большинством аналитических платформ, содержит следующие средства:

1.Очистка от шумов и сглаживание рядов данных.

Очень часто ряды данных содержат быстрые случайные изменения значений, которые можно рассматривать как шум. Шум мешает выполнять анализ данных, делает неустойчивой работу аналитических алгоритмов, не позволяет обнаруживать в данных скрытые закономерности, структуры, тенденции.

2.Восстановление пропущенных значений необходимо, потому что пустые значения вызывают неопределенность при работе многих аналитических алгоритмов. Даже одно пропущенное значение может вызвать сбой в процессе анализа данных, который может привести к непредсказуемым результатам. Если же пропущенных данных много, то это может привести к недостаточному объему информации в анализируемой выборке.

3.Редактирование аномальных значений.

Аномальные значения также требуют большого внимания при подготовке данных к анализу. В большинстве случаев они являются просто ошибками ввода. Если же аномальные значения – это действительные события,

54

вызванные исключительными обстоятельствами, то они все равно не отражают реальную ситуацию в исследуемом процессе, а только искажают истинную его картину. С другой стороны, исследование аномального поведения данных позволит прогнозировать условия, вызывающие аномальные события и их последствия, исследовать реакцию информационно-аналитических систем на аномальные изменения условий.

4.Обработка дубликатов и противоречий.

Дубликаты и противоречия также весьма распространенные явления в данных. Дубликатами являются просто одинаковые данные (записи). Они могут дублировать информацию об одном и том же событии, а могут содержать идентичную информацию о двух различных, но похожих событиях. В первом случае дубликаты должны быть просто удалены, а во втором случае требуют более тонкой обработки. Противоречия возникают там, где нарушается логика причинно-следственной связи. Например, два одинаковых события являются следствием различных исходных условий, или одинаковые условия породили различные события. Противоречия существенно мешают анализу данных, особенно при использовании их для построения систем, основанных на обучении (нейронных сетей, деревьев решений и т.д.).

5.Снижение размерности входных данных.

В основе работы большинства аналитических моделей лежит принцип обобщения, т.е. чтобы получить на выходе модели даже единственное значение, нужно подать на её вход некоторый набор значений, на основе соотношений между которыми и будет определено выходное. При разработке аналитической модели изначально стараются привлечь максимум собранной информации об исследуемом объекте. Это влечет к тому, что набор входных переменных разрастается, что приводит к усложнению аналитической модели, делает ее уязвимой к некачественным данным, увеличивает время, требуемое на аналитическую обработку. Для снижения размерности производится поиск входных признаков (атрибутов, показателей), которые обладают высокой

55

степенью статистической взаимозависимости. Такие данные могут быть исключены из рассмотрения без существенного ущерба для результатов анализа.

6.Устранение незначащих факторов.

Не все имеющиеся в распоряжении аналитика данные являются одинаково важными с точки зрения целей анализа. Экономический показатель, включаемый в рассмотрение при анализе, должен вносить достаточный вклад в решение задачи, участвовать в объяснении причинно-следственной связи между исходными данными и результатом, т.е. между входными и выходными факторами должна быть высокая степень взаимной зависимости. Если между каким-либо входным фактором и выходным результатом такая связь мала или вообще отсутствует, то использование этого входного фактора бессмысленно или даже вредно, поскольку может увести решение в ложном направлении. Чаще всего критерием для определения значимости входных факторов является некоторый показатель значимости, который согласовывается со степенью зависимости (корреляции) искомого решения от данного фактора. Если показатель значимости входного фактора меньше некоторого порога, то этот фактор может быть определен как слабо влияющий на решение и исключен из рассмотрения без существенного ухудшения качества анализа.

В целом последние две задачи похожи, т.к. в них из анализа исключаются данные, которые в контексте решаемой задачи являются избыточными и только создают дополнительные вычислительные затраты, усложняют используемую аналитическую модель. Принципиальной разницей является только то, что в первом случае в качестве критерия для исключения факторов используется степень взаимной зависимости (корреляции) между входными факторами. Следовательно, чем выше эта степень, тем больше оснований для исключения факторов. Во втором случае используется степень связи между входными факторами и результатом. Это значит, чем ниже эта степень, тем больше оснований для исключения фактора.

56

2.6. Методы и инструменты аудита данных в Deductor

Для проведения первичной оценки качества массива данных, представленного аналитику, необходима определенная последовательность действий, которую называют аудитом данных. Эту процедуру желательно проводить самой первой, она заканчивается отчетом и выводами о качестве данных.

Первичная оценка качества данных подразумевает в первую очередь выявление и обработку объективных ошибок и отклонений – дубликаты, противоречия, пропуски, аномалии (для упорядоченных наборов еще присутствует процедура сглаживания). Аудит данных, как правило, не предполагает полную очистку данных и устранение всех проблем, он ориентирован больше на их идентификацию.

Рассмотрим рекомендуемую схему аудита (рис.2.13).

Рис. 2.13. Последовательность аудита данных

57

В табл. 4 сведены инструменты для решения задач аудита данных в

Deductor Studio.

 

 

 

Таблица 4

 

Методы и инструменты аудита данных в Deductor

Задача

Метод

Обработчик/

Визуализатор

 

 

 

1

 

 

Визуализатор

 

 

Стандартные статистические

Статистика,

 

Изучение

статистические

 

показатели: минимум, максимум,

 

статистики

функции в

 

 

среднее и т.п.

обработчике

 

 

 

 

 

 

Калькулятор.

2

Проверка и

 

Обработчик и

 

устранение

 

визуализатор

 

дубликатов и

Дубликаты и

 

 

 

противоречий

 

противоречия

 

 

 

 

3

 

Для неупорядоченных данных:

 

 

 

подстановка константы;

 

 

 

подстановка среднего;

 

 

 

подстановка наиболее вероятного

Обработчики

 

Обработка

значения.

Парциальная

 

пропусков

Для упорядоченных данных:

обработка,

 

 

подстановка константы;

Калькулятор

 

 

подстановка среднего;

 

 

 

интерполяция (путем

 

 

 

сглаживания ряда).

 

4

 

Статистический метод на основе

Обработчики

 

Выявление

отклонения среднего от

Парциальная

 

выбросов

среднеквадратического

обработка,

 

 

отклонения.

Калькулятор

Рассмотрим проведение аудита данных на конкретном примере. Для этого будем использовать данные из текстового файла сотовые операторы.txt и

готовый сценарий audit.ded. В этом файле представлена статистика опроса клиентов телекоммуникационных компаний, полученная в ходе исследования возможности смены одного сотового оператора другим в зависимости от оценки критериев предлагаемых ими услуг. Фрагмент множества данных файла

сотовые операторы.txt представлен в табл. 5.

58

Таблица 5

Фрагмент набора данных сотовые операторы.txt

Пол

ВУЗ

Место жительства

сотовые операторы

сколько лет клиент

кол-во звонков в день

кол-во мин в день

Сумма оплаты в месяц (в руб.)

пользуюсь SMS

оценка критерия стоимость

оценка критерия качество связи)

возможна смена оператора

 

 

 

 

 

 

 

 

 

 

 

 

м

ННГУ

обл.

МТС

более

более

более

300

да

3

4

нет

3 лет

10

30

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

м

ННГУ

НН

Билайн

более 3

6-10

10-30

200

нет

4

4

да

 

 

 

 

лет

 

 

 

 

 

 

 

м

ННГАСУ

НН

Теле2

более 3

более

10-30

350

да

 

 

нет

 

 

 

 

лет

10

 

 

 

 

 

 

м

ННГУ

НН

Билайн

1-3

6-10

10-30

200

нет

4

 

нет

года

 

 

 

 

 

 

 

 

 

 

 

 

 

м

НГТУ

НН

НСС

до 1

1-5

10-30

600

да

4

3

нет

года

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

м

НГГУ

обл.

Билайн

до

6-10

до 10

300

да

3

4

нет

года

 

 

 

 

 

 

 

 

 

 

 

 

ж

ННГУ

НН

МТС

 

более

10-30

100

да

4

4

да

 

 

 

 

 

10

 

 

 

 

 

 

ж

ННГАСУ

НН

МТС

1-3

6-10

10-30

200

да

2

4

нет

года

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

ж

ННГУ

обл.

Теле2

1-3

более

более

300

да

4

4

нет

года

10

30

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

При проведении аудита нужно ответить на следующие вопросы:

Есть ли в данных дубликаты, противоречия, пропуски, аномалии?

Какова доля неполных и некорректных записей в общем объеме?

Какие поля представляют интерес для анализа?

Какова степень пригодности данных к дальнейшему анализу?

Шаг 1 – изучение статистики

Рис. 2.14. Статистика по набору данных сотовые операторы.txt

59

В двух столбцах (рис. 2.14) присутствуют пропущенные значения. Это значит, что необходимой операцией будет работа с пропусками.

Шаг 2 – дубликаты и противоречия

Противоречивыми являются группы записей, в которых содержатся строки с одинаковыми входными факторами, но разными выходными. В такой ситуации непонятно, какое результирующее значение верно. Противоречивые данные исключаются.

Дубликаты – это записи с одинаковыми входными и выходными данными. Такие данные приводят к избыточности, поэтому дублирующая информация исключается.

Для автоматизации процесса поиска дубликатов и противоречий предназначен специальный обработчик Дубликаты и противоречия. Он находится в группе узлов Очистка данных мастера обработки.

Настройка параметров обработчика заключается в указании назначения полей. Суть обработки состоит в том, что определяются входные и выходные поля. Алгоритм ищет во всем наборе записи, для которых одинаковым входным полям соответствуют одинаковые (дубликаты) или разные (противоречия) выходные поля. На основании этой информации создаются два дополнительных логических поля – Дубликат и Противоречие, принимающие значения истина или ложь, и дополнительные числовые поля Группа дубликатов и Группа противоречий, в которые записываются номер группы дубликатов и группы противоречий, содержащих данную запись. Если запись не является дубликатом или противоречием, то соответствующие поля будут пустыми (null).

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]