- •1.Хранилище данных.
- •2. Система поддержки принятия решений (сппр). Ссылка Система поддержки принятия решений
- •3. Отличия cппp и оlтр-систем.
- •4. Семантический слой в хранилище данных.
- •5. Основные требования к хранилищу данных.
- •6. Свойства хранилища данных.
- •7. Структурная схема хранилища данных.
- •8. Хранилище данных - детализированные и агрегированные данные.
- •9. Хранилище данных - метаданные, бизнес-метаданные, технический уровень.
- •10. Хранилище данных - регламентированные, нерегламентированные запросы.
- •11. Оперативный анализ данных - olap систем.
- •12. Реляционные olap системы - структурная схема, функционал.
- •13. Многомерные olap системы -структурная схема, функционал.
- •14. Гибридные olap системы - структурная схема, функционал.
- •15. Виртуальные olap системы - структурная схема, функционал.
- •20. Структура многомерного куба, привести пример.
- •25. Недостатки многомерного olap-подхода.
- •26. Операции над измерениями - сечение, привести пример.
- •27. Операции над измерениями - транспонирование, привести пример.
- •38. Централизованное хд с витринами данных - структурная схема, функционал.
- •39. Аналитические платформы - структурная схема, функционал.
- •40. Data Mining - предназначение, полный цикл функционирования.
- •41. Data Мining - классификация, задачи, привести пример.
- •42. Data Мining - признаки классификации, основной, второстепенный.
- •43. Data Мining - признаки классификации, простой, сложный.
- •44. Data Мining - этапы классификации.
- •45. Классификация с помощью деревьев решений, пример.
- •46. Классификация при помощи искусственных нейронных сетей, пример.
- •47. Классификации - бинарная, многоклассовая, пример.
- •48. Характеристики для оценки методов классификации.
- •49. Классификация - ошибки I и II рода, предназначение, пример.
- •50. Классификация - балансировка уровня ошибок I и II рода, предназначение, пример.
- •51. Data Mining - кластеризация, задачи, привести пример.
- •52. Data Mining - кластеризация, типы кластеров.
- •53. Data Мining - сравнение задач классификации и кластеризации, пример.
- •54. Data Mining - линейная регрессия, модель, предназначение, пример.
- •55. Data Мining - логистическая регрессия, модель, предназначение, пример.
- •56. Data Мining - генетические алгоритмы, предназначение, пример.
- •57. Data Мining - машинное обучение, обучающая выборка.
- •58. Data Mining - машинное обучение, тестовая выборка.
- •59. Data Мining - машинное обучение, эффект переобучения.
- •60. Data Мining - машинное обучение, ошибки обучения и обобщения.
42. Data Мining - признаки классификации, основной, второстепенный.
Основной - существенно влияющий на выборку
Второстепенный - несущественно влияющий на выборку
43. Data Мining - признаки классификации, простой, сложный.
В зависимости от выбранных признаков, их сочетания и процедуры деления понятий классификация может быть:
простой - деление родового понятия только по признаку и только один раз до раскрытия всех видов. Примером такой классификации является дихотомия, при которой членами деления бывают только два понятия, каждое из которых является противоречащим другому (т.е. соблюдается принцип: "А и не А");
сложной - применяется для деления одного понятия по разным основаниям и синтеза таких простых делений в единое целое. Примером такой классификации является периодическая система химических элементов.
44. Data Мining - этапы классификации.
Процесс классификации состоит из двух этапов: конструирования модели и ее использования.
1. Конструирование модели: описание множества предопределенных классов.
Каждый пример набора данных относится к одному предопределенному классу.
На этом этапе используется обучающее множество, на нем происходит конструирование модели.
Полученная модель представлена классификационными правилами, деревом решений или математической формулой.
2. Использование модели: классификация новых или неизвестных значений.
Оценка правильности (точности) модели.
Известные значения из тестового примера сравниваются с результатами использования полученной модели.
Уровень точности - процент правильно классифицированных примеров в тестовом множестве.
Тестовое множество, т.е. множество, на котором тестируется построенная модель, не должно зависеть от обучающего множества.
Если точность модели допустима, возможно использование модели для классификации новых примеров, класс которых неизвестен.
Картиночки тут (а заодно и всё остальное)
45. Классификация с помощью деревьев решений, пример.
if X > 5 then grey
else if Y > 3 then orange
else if X > 2 then grey
else orange
46. Классификация при помощи искусственных нейронных сетей, пример.
47. Классификации - бинарная, многоклассовая, пример.
Если классов всего два («спам / не спам», «давать кредит / не давать кредит», «красное / черное»), то задача называется бинарной классификацией. Если классов несколько — многоклассовая (мультиклассовая) классификация.
48. Характеристики для оценки методов классификации.
Оценивание методов следует проводить, исходя из следующих характеристик: скорость, робастность, интерпретируемость, надежность.
Скорость характеризует время, которое требуется на создание модели и ее использование.
Робастность, т.е. устойчивость к каким-либо нарушениям исходных предпосылок, означает возможность работы с зашумленными данными и пропущенными значениями в данных.
Интерпретируемость обеспечивает возможность понимания модели аналитиком.
Свойства классификационных правил:
размер дерева решений;
компактность классификационных правил.
Надежность методов классификации предусматривает возможность работы этих методов при наличии в наборе данных шумов и выбросов.
49. Классификация - ошибки I и II рода, предназначение, пример.
50. Классификация - балансировка уровня ошибок I и II рода, предназначение, пример.
51. Data Mining - кластеризация, задачи, привести пример.
Кластеризация - одна из задач Data Mining, а кластер - группа похожих объектов (постановка задачи кластеризации рассматривалась в разделе 1.5 «Технологии KDD и Data Mining). Существует много определений кластеризации, поэтому приведем несколько.
Задача кластеризации сходна с задачей классификации, является ее логическим продолжением, но ее отличие в том, что классы изучаемого набора данных заранее не предопределены.
Синонимами термина "кластеризация" являются "автоматическая классификация", "обучение без учителя" и "таксономия".
Кластеризация предназначена для разбиения совокупности объектов на однородные группы (кластеры или классы). Если данные выборки представить как точки в признаковом пространстве, то задача кластеризации сводится к определению "сгущений точек".
Цель кластеризации - поиск существующих структур.
Из другого источника:
Цели кластеризации в Data Mining могут быть различными и зависят от конкретной решаемой задачи. Рассмотрим эти задачи.
Изучение данных. Разбиение множества объектов на группы помогает выявить внутренние закономерности, увеличить наглядность представления данных, выдвинуть новые гипотезы, понять, насколько информативны свойства объектов.
Облегчение анализа. При помощи кластеризации можно упростить дальнейшую обработку данных и построение моделей: каждый кластер обрабатывается индивидуально, и модель создаётся для каждого кластера в отдельности. В этом смысле кластеризация может рассматриваться как подготовительный этап перед решением других задач Data Mining: классификации, регрессии, ассоциации, последовательных шаблонов.
Сжатие данных. В случае, когда данные имеют большой объём, кластеризация позволяет сократить объём хранимых данных, оставив по одному наиболее типичному представителю от каждого кластера.
Прогнозирование. Кластеры используются не только для компактного представления объектов, но и для распознавания новых. Каждый новый объект относится к тому кластеру, присоединение к которому наилучшим образом удовлетворяет критерию качества кластеризации. Значит, можно прогнозировать поведение объекта, предположив, что оно будет схожим с поведением других объектов кластера.
Обнаружение аномалий. Кластеризация применяется для выделения нетипичных объектов. Эту задачу также называют обнаружением аномалий (outlier detection). Интерес здесь представляют кластеры (группы), в которые попадает крайне мало, скажем один-три, объектов.