Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

8879

.pdf
Скачиваний:
5
Добавлен:
25.11.2023
Размер:
1.99 Mб
Скачать

Для того чтобы построить качественный классификатор, необходимо иметь качественные данные. Никакой из методов построения классификаторов, основан-

ный на нейронных сетях или статистический, никогда не даст классификатор нуж-

ного качества, если имеющийся набор примеров не будет достаточно полным и представительным для той задачи, с которой придется работать системе.

Истинная цель обучения ИНС состоит в таком подборе ее архитектуры и па-

раметров, которые обеспечат минимальную погрешность распознавания тестового множества данных, не участвовавших в обучении.

Эффективность предсказаний нейросетей проверяется сравнением фактиче-

ского значения и предсказанного.

Критериями качества предсказания будут служить следующие параметры:

Число эпох и время обучения – показатели, которые определяют, насколько долго сеть способна улучшать предсказания на тестовом множестве.

Под эпохой обучения понимают однократное предъявление сети набора обуча-

ющих примеров. Число эпох и время обучения меняются в зависимости от заданно-

го темпа обучения.

Процент распознанных примеров на обучающем и тестовом множествах.

MSE (Mean Squared Error) – среднеквадратическая ошибка значений. Она показы-

вает, насколько предсказанные моделью значения оказались близки к обучаю-

щему или тестовому множествам.

Ошибки рассчитываются по следующей формуле соответственно:

=

,

где N – число обучающих примеров,

– реальное входное значение, получен-

ное на i-м примере, – желаемое значение.

 

Максимальная ошибка – это максимальный модуль разности между предсказан-

ным и фактическим значениями среди всех обработанных примеров.

2.4 Контрольные вопросы

51

Контрольные вопросы к разделу 1.

1.Что такое ETL-системы?

2.Чем вызвана необходимость использования ETL?

3.Каковы основные этапы процесса ETL и решаемые им задачи?

4.Как вы понимаете термин «качество данных»?

5.Почему оценке качества данных уделяют большое внимание на всех этапах подготовки данных к анализу?

6.Каковы основные цели оценки качества данных?

7.Какие выводы о качестве данных могут быть сделаны по результатам его оценки?

8.Какие аспекты качества данных можно оценить с помощью профайлинга?

9.Какие приемы можно использовать для визуальной оценки качества данных с помощью таблиц?

10.Какие проблемы в данных можно выявить с помощью графиков и диаграмм?

11.Какие ошибки в данных являются трудноформализуемыми?

12.Зачем необходимо выполнять очистку данных?

13.Что включает в себя трансформация данных?

14.В чем отличие трансформации данных от предобработки и очистки?

15.Что понимают под факторным анализом?

16.Что такое корреляционный анализ?

17.Что понимают под выявлением дубликатов и противоречий данных?

18.Что такое выравнивание по скользящему окну?

19.Что включает в себя прогнозирование данных?

20.Что представляют собой дубликаты и противоречия?

21.Всегда ли дубликаты и противоречия являются следствием ошибок и их необ-

ходимо удалять?

22.В каких случаях обработку дубликатов и противоречий не производят совсем?

23.Какие значения множества данных могут рассматриваться как аномальные?

24.Каково ожидаемое влияние аномальных значений на результаты анализа?

52

25.Как применяется визуальный анализ для выявления аномалий в одномерных и двумерных множествах данных?

26.Всегда ли аномальные значения являются нежелательными в данных?

27.Какие методы корректировки аномальных значений вам известны?

28.Что понимается в данных под пропущенным значением?

29.Почему пропущенные значения в анализируемых данных необходимо восста-

навливать?

Контрольные вопросы к разделу 2.

1.Каковы цели и задачи визуализации данных в аналитических технологиях?

2.Для чего используется визуализация источников данных?

3.Зачем нужен визуальный контроль данных, после их загрузки в аналитическое приложение?

4.Чем отличаются средства визуализации общего назначения от специализиро-

ванных?

5.Какие средства визуализации данных относят к визуализаторам общего назна-

чения и почему?

6.В чем отличие графика от диаграммы? Какие виды диаграмм вам известны?

7.По какому принципу строится гистограмма, и какую информацию о поведе-

нии исследуемой величины из нее можно извлечь?

8.Для каких целей служит визуализатор Статистика?

9.Почему визуализация многомерных данных может оказаться проблематичной c точки зрения пользователя?

10.В чем заключается OLAP-анализ и каковы его цели?

11.Какова структура OLAP-куба?

12.Какие манипуляции с измерениями можно производить, чтобы сделать пред-

ставление куба более информативным?

13.В чем заключаются операции транспонирования и детализации, каковы их це-

ли?

14.Что такое кросс-диаграмма, и для каких целей она используется?

53

Контрольные вопросы к разделу 3.

1.Дайте определения KDD и Data Mining.

2.Дайте определения задачам Data Mining (классификация, регрессия, кластери-

зация, ассоциативные правила).

3.Какие существуют алгоритмы Data Mining.

4.Способы машинного обучения: обучение с учителем и без учителя. Методы формирования тестовой и обучающей выборки.

5.В чем суть модели Дерево решений.

6.Алгоритмы построения деревьев решений.

7.Описание алгоритмов ID3 и С4.5. Их достоинства и недостатки.

8.Каким свойством деревьев решений обусловлена их высокая объясняющая способность.

9.Критерии оптимизации деревьев решений (упрощение деревьев решений)

Контрольные вопросы к разделу 4.

1.Что такое ассоциация?

2.Что представляет собой транзакция в теории ассоциативных правил?

3.Как определяются поддержка и достоверность, и какова их роль в процессе поиска ассоциативных правил?

4.Чем определяется значимость и полезность ассоциативных правил, и какими показателями она характеризуется?

5.Почему стратегия поиска ассоциативных правил путем проверки поддержки и достоверности всех возможных ассоциаций, полученных на основе набора транзакций, неэффективна?

6.Чем определяется частота предметного набора, и какие предметные наборы называются популярными (или частыми)?

7.Какую роль играют популярные наборы в процессе поиска ассоциативных правил с помощью алгоритма a priori?

8.Какое свойство предметных наборов лежит в основе алгоритма a priori?

54

9. Как образуется иерархия предметов в процессе поиска ассоциативных правил?

Приведите примеры.

10.Каковы преимущества и недостатки поиска ассоциативных правил при рас-

смотрении иерархии предметов?

11.На каких иерархических уровнях чаще встречаются предметы, ассоциации между которыми имеют большую поддержку?

12.Почему, если объект встречается редко на верхних уровнях иерархии, анали-

зировать ассоциации с его потомками на нижних уровнях не имеет смысла?

13.Для каких целей применяют понижение порога минимальной поддержки для нижних уровней иерархии?

Контрольные вопросы к разделу 5.

1.Что представляет искусственная нейронная сеть?

2.Дайте определение искусственного нейрона.

3.Какая операция выполняется в теле нейрона над сигналами, поступающими по входным связям?

4.Перечислите и поясните применяемые виды активационных функций.

5.В чем заключается процесс обучения нейронной сети?

6.Что называют многослойным персептроном?

7.Какое основное отличие искусственных нейронов, которые используются для построения нейронных сетей, получивших название персептронов?

8.К какому типу алгоритмов обучения относится алгоритм обратного рас-

пространения, и в чем отличительная черта этих алгоритмов.

9.Для каких целей используется визуализация выходной ошибки модели в

процессе обучения?

10.Почему в процессе анализа данных требуется контроль качества использу-

емых аналитических моделей?

11.Для каких моделей используются таблица сопряженности и диаграмма рас-

сеяния и как с их помощью оценить точность модели?

55

3. Методические указания по подготовке к практическим занятиям

3.1Общие рекомендации по подготовке к практическим занятиям

Входе подготовки к практическим занятиям необходимо изучать основную ли-

тературу, познакомиться с дополнительной литературой. При этом необходимо учесть рекомендации преподавателя и требования учебной программы.

В соответствии с этими рекомендациями и подготовкой полезно дорабатывать свои конспекты лекции, делая в нем соответствующие записи из литературы, реко-

мендованной преподавателем и предусмотренной учебной программой. Целесооб-

разно также подготовить тезисы для возможных выступлений по всем учебным во-

просам, выносимым на практическое занятие.

При подготовке к занятиям можно также подготовить краткие конспекты по вопросам темы. Очень эффективным приемом является составление схем и презен-

таций.

Готовясь к докладу или реферативному сообщению, желательно обращаться за методической помощью к преподавателю. Составить план-конспект своего выступ-

ления. Продумать примеры с целью обеспечения тесной связи изучаемой теории с реальной жизнью. Своевременное и качественное выполнение самостоятельной ра-

боты базируется на соблюдении настоящих рекомендаций и изучении рекомендо-

ванной литературы.

3.2 Примеры задач для практических занятий

Задание для раздела 1.

Рассмотрим проведение аудита данных из текстового файла сотовые оперето-

ры.txt и готовый сценарий audit.ded. В этом файле представлена статистика опроса клиентов телекоммуникационных компаний, полученная в ходе исследования воз-

можности смены одного сотового оператора другим в зависимости от оценки крите-

риев предлагаемых ими услуг. Фрагмент множества данных файла сотовые опере-

торы.txt представлен в таблице.

Таблица. Фрагмент набора данных сотовые операторы.txt

56

Пол

ВУЗ

Место жительства

сотовые операторы

сколько лет клиент

кол-во звонков в день

кол-во мин в день

Сумма оплаты в месяц (в руб.)

пользуюсь SMS

оценка критерия стоимость

оценка критерия качество связи)

возможна смена оператора

 

 

 

 

 

 

 

 

 

 

 

 

м

ННГУ

обл.

МТС

более 3

более

более

300

да

3

4

нет

лет

10

30

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

м

ННГУ

НН

Билайн

более 3

6-10

10-30

200

нет

4

4

да

лет

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

м

ННГАСУ

НН

Теле2

более 3

более

10-30

350

да

 

 

нет

лет

10

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

м

ННГУ

НН

Билайн

1-3 го-

6-10

10-30

200

нет

4

 

нет

да

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

м

НГТУ

НН

НСС

до 1

1-5

10-30

600

да

4

3

нет

года

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

м

НГГУ

обл.

Билайн

до года

6-10

до 10

300

да

3

4

нет

 

 

 

 

 

 

 

 

 

 

 

 

ж

ННГУ

НН

МТС

 

более

10-30

100

да

4

4

да

 

10

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

ж

ННГАСУ

НН

МТС

1-3 го-

6-10

10-30

200

да

2

4

нет

да

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

ж

ННГУ

обл.

Теле2

1-3 го-

более

более

300

да

4

4

нет

да

10

30

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

При проведении аудита нужно ответить на следующие вопросы:

есть ли в данных дубликаты, противоречия, пропуски, аномалии?

какова доля неполных и некорректных записей в общем объеме?

какие поля представляют интерес для анализа?

интегральная оценка качества данных.

Шаг 1 – изучение статистики

Рис. 21. Статистика по набору данных сотовые опереторы.txt

57

В двух столбцах (рис. 21) присутствуют пропущенные значения. Это значит,

что необходимой операцией будет работа с пропусками.

Шаг 2 – дубликаты и противоречия

Противоречивыми являются группы записей, в которых содержатся строки с одинаковыми входными факторами, но разными выходными. В такой ситуации не-

понятно, какое результирующее значение верно. Противоречивые данные исключа-

ются.

Дубликаты – это записи с одинаковыми входными и выходными данными.

Такие данные приводят к избыточности, поэтому дублирующая информация исклю-

чается.

Для автоматизации процесса поиска дубликатов и противоречий предназначен специальный обработчик Дубликаты и противоречия. Он находится в группе уз-

лов Очистка данных мастера обработки.

Настройка параметров обработчика заключается в указании назначения полей.

Суть обработки состоит в том, что определяются входные и выходные поля. Алго-

ритм ищет во всем наборе записи, для которых одинаковым входным полям соот-

ветствуют одинаковые (дубликаты) или разные (противоречия) выходные поля. На основании этой информации создаются два дополнительных логических поля – Дуб-

ликат и Противоречие, принимающие значения истина или ложь, и дополнитель-

ные числовые поля Группа дубликатов и Группа противоречий, в которые записы-

ваются номер группы дубликатов и группы противоречий, содержащих данную за-

пись. Если запись не является дубликатом или противоречием, то соответствующие поля будут пустыми (null).

В нашем случае целесообразно искать дубликаты в записях со всеми столбца-

ми. Это будут входы (рис. 22). Противоречия разумнее искать по выходному полю

58

Возможна смена оператора, т.е. если встретятся два полностью одинаковых по ха-

рактеристикам телефонных звонков клиента, а поле Возможна смена оператора у

них будет различаться, то это сигнал о вероятной ошибке в данных.

Рис. 22. Назначения полей в обработчике Дубликаты и противоречия При использовании обработчика Дубликаты и противоречия возможно

отображение результатов обработки с помощью одноименного визуализатора Дуб-

ликаты и противоречия (рис. 23).

Рис. 23. Визуализатор «Дубликаты и противоречия» В нашем случае было найдено 27 противоречий и 22 группы дубликатов с об-

щим числом 46 записей. Примем решение удалить противоречия, а от каждой груп-

пы дубликатов оставить одну запись.

Наиболее простой способ сделать это состоит в следующем.

59

1. Удалить противоречия, используя обработчик Фильтрация с условием «Противо-

речие=ложь».

2. Отфильтровать все дубликаты и сгруппировать их по измерениям Дубликат и Группа дубликатов, остальные поля будут фактами с функцией агрегации первый. В

результате мы получим по 1 записи для каждой группы дубликатов.

3. К отфильтрованному набору данных, не содержащему дубликатов при помощи объединения (обработчик Слияние) добавить набор данных, полученный на шаге 2.

Фрагмент сценария, осуществляющего эти действия, приведен на рис. 24.

Рис. 24. Устранение противоречий и дубликатов

Шаг 3 – восстановление пропусков

Пропуски содержат 2 поля, причем доля пропусков составляет 13,7%. В этих условиях предпочтительнее выбрать их восстановление.

Для автоматизации этого процесса предназначен специальный многофункци-

ональный обработчик Парциальная обработка. Он также находится в группе узлов

Очистка данных мастера обработки.

Парциальная обработка служит для восстановления пропущенных данных,

редактирования аномальных значений и сглаживания данных.

60

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]