Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
ОАД - вопросы на зачёт.docx
Скачиваний:
100
Добавлен:
23.03.2016
Размер:
792.49 Кб
Скачать

42. Data Мining - признаки классификации, основной, второстепенный.

Основной - существенно влияющий на выборку

Второстепенный - несущественно влияющий на выборку

43. Data Мining - признаки классификации, простой, сложный.

В зависимости от выбранных признаков, их сочетания и процедуры деления понятий классификация может быть:

  • простой - деление родового понятия только по признаку и только один раз до раскрытия всех видов. Примером такой классификации является дихотомия, при которой членами деления бывают только два понятия, каждое из которых является противоречащим другому (т.е. соблюдается принцип: "А и не А");

  • сложной - применяется для деления одного понятия по разным основаниям и синтеза таких простых делений в единое целое. Примером такой классификации является периодическая система химических элементов.

44. Data Мining - этапы классификации.

Процесс классификации состоит из двух этапов: конструирования модели и ее использования.

1. Конструирование модели: описание множества предопределенных классов.

  • Каждый пример набора данных относится к одному предопределенному классу.

  • На этом этапе используется обучающее множество, на нем происходит конструирование модели.

  • Полученная модель представлена классификационными правилами, деревом решений или математической формулой.

2. Использование модели: классификация новых или неизвестных значений.

  • Оценка правильности (точности) модели.

    • Известные значения из тестового примера сравниваются с результатами использования полученной модели.

    • Уровень точности - процент правильно классифицированных примеров в тестовом множестве.

    • Тестовое множество, т.е. множество, на котором тестируется построенная модель, не должно зависеть от обучающего множества.

  • Если точность модели допустима, возможно использование модели для классификации новых примеров, класс которых неизвестен.

Картиночки тут (а заодно и всё остальное)

45. Классификация с помощью деревьев решений, пример.

if X > 5 then grey

else if Y > 3 then orange

else if X > 2 then grey

else orange

46. Классификация при помощи искусственных нейронных сетей, пример.

47. Классификации - бинарная, многоклассовая, пример.

Если классов всего два («спам / не спам», «давать кредит / не давать кредит», «красное / черное»), то задача называется бинарной классификацией. Если классов несколько — многоклассовая (мультиклассовая) классификация.

48. Характеристики для оценки методов классификации.

  • Оценивание методов следует проводить, исходя из следующих характеристик: скорость, робастность, интерпретируемость, надежность.

  • Скорость характеризует время, которое требуется на создание модели и ее использование.

  • Робастность, т.е. устойчивость к каким-либо нарушениям исходных предпосылок, означает возможность работы с зашумленными данными и пропущенными значениями в данных.

  • Интерпретируемость обеспечивает возможность понимания модели аналитиком.

Свойства классификационных правил:

  • размер дерева решений;

  • компактность классификационных правил.

Надежность методов классификации предусматривает возможность работы этих методов при наличии в наборе данных шумов и выбросов.

49. Классификация - ошибки I и II рода, предназначение, пример.

50. Классификация - балансировка уровня ошибок I и II рода, предназначение, пример.

51. Data Mining - кластеризация, задачи, привести пример.

Кластеризация - одна из задач Data Mining, а кластер - группа похожих объектов (постановка задачи кластеризации рассматривалась в разделе 1.5 «Технологии KDD и Data Mining). Существует много определений кластеризации, поэтому приведем несколько.

Задача кластеризации сходна с задачей классификации, является ее логическим продолжением, но ее отличие в том, что классы изучаемого набора данных заранее не предопределены.

Синонимами термина "кластеризация" являются "автоматическая классификация", "обучение без учителя" и "таксономия".

Кластеризация предназначена для разбиения совокупности объектов на однородные группы (кластеры или классы). Если данные выборки представить как точки в признаковом пространстве, то задача кластеризации сводится к определению "сгущений точек".

Цель кластеризации - поиск существующих структур.

Из другого источника:

Цели кластеризации в Data Mining могут быть различными и зависят от конкретной решаемой задачи. Рассмотрим эти задачи.

Изучение данных. Разбиение множества объектов на группы помогает выявить внутренние закономерности, увеличить наглядность представления данных, выдвинуть новые гипотезы, понять, насколько информативны свойства объектов.

Облегчение анализа. При помощи кластеризации можно упростить дальнейшую обработку данных и построение моделей: каждый кластер обрабатывается индивидуально, и модель создаётся для каждого кластера в отдельности. В этом смысле кластеризация может рассматриваться как подготовительный этап перед решением других задач Data Mining: классификации, регрессии, ассоциации, последовательных шаблонов.

Сжатие данных. В случае, когда данные имеют большой объём, кластеризация позволяет сократить объём хранимых данных, оставив по одному наиболее типичному представителю от каждого кластера.

Прогнозирование. Кластеры используются не только для компактного представления объектов, но и для распознавания новых. Каждый новый объект относится к тому кластеру, присоединение к которому наилучшим образом удовлетворяет критерию качества кластеризации. Значит, можно прогнозировать поведение объекта, предположив, что оно будет схожим с поведением других объектов кластера.

Обнаружение аномалий. Кластеризация применяется для выделения нетипичных объектов. Эту задачу также называют обнаружением аномалий (outlier detection). Интерес здесь представляют кластеры (группы), в которые попадает крайне мало, скажем один-три, объектов.