- •1.Хранилище данных.
- •2. Система поддержки принятия решений (сппр). Ссылка Система поддержки принятия решений
- •3. Отличия cппp и оlтр-систем.
- •4. Семантический слой в хранилище данных.
- •5. Основные требования к хранилищу данных.
- •6. Свойства хранилища данных.
- •7. Структурная схема хранилища данных.
- •8. Хранилище данных - детализированные и агрегированные данные.
- •9. Хранилище данных - метаданные, бизнес-метаданные, технический уровень.
- •10. Хранилище данных - регламентированные, нерегламентированные запросы.
- •11. Оперативный анализ данных - olap систем.
- •12. Реляционные olap системы - структурная схема, функционал.
- •13. Многомерные olap системы -структурная схема, функционал.
- •14. Гибридные olap системы - структурная схема, функционал.
- •15. Виртуальные olap системы - структурная схема, функционал.
- •20. Структура многомерного куба, привести пример.
- •25. Недостатки многомерного olap-подхода.
- •26. Операции над измерениями - сечение, привести пример.
- •27. Операции над измерениями - транспонирование, привести пример.
- •38. Централизованное хд с витринами данных - структурная схема, функционал.
- •39. Аналитические платформы - структурная схема, функционал.
- •40. Data Mining - предназначение, полный цикл функционирования.
- •41. Data Мining - классификация, задачи, привести пример.
- •42. Data Мining - признаки классификации, основной, второстепенный.
- •43. Data Мining - признаки классификации, простой, сложный.
- •44. Data Мining - этапы классификации.
- •45. Классификация с помощью деревьев решений, пример.
- •46. Классификация при помощи искусственных нейронных сетей, пример.
- •47. Классификации - бинарная, многоклассовая, пример.
- •48. Характеристики для оценки методов классификации.
- •49. Классификация - ошибки I и II рода, предназначение, пример.
- •50. Классификация - балансировка уровня ошибок I и II рода, предназначение, пример.
- •51. Data Mining - кластеризация, задачи, привести пример.
- •52. Data Mining - кластеризация, типы кластеров.
- •53. Data Мining - сравнение задач классификации и кластеризации, пример.
- •54. Data Mining - линейная регрессия, модель, предназначение, пример.
- •55. Data Мining - логистическая регрессия, модель, предназначение, пример.
- •56. Data Мining - генетические алгоритмы, предназначение, пример.
- •57. Data Мining - машинное обучение, обучающая выборка.
- •58. Data Mining - машинное обучение, тестовая выборка.
- •59. Data Мining - машинное обучение, эффект переобучения.
- •60. Data Мining - машинное обучение, ошибки обучения и обобщения.
56. Data Мining - генетические алгоритмы, предназначение, пример.
Все генетические алгоритмы описывают итерационный процесс эволюции системы с заданными операциями:
– Отбор,например:
Вход:{a1,...,ai,...,an}
Выход:10< ai<12
Выход определяется заранее заданным правилом.
– Скрещивание,например:
Вход:{a1,...,ai,...,an}
Выход: ai +a j
– Мутация,например:
Вход:{a1,...,ai,...,an}
Выход:sin(ai)
Генетические алгоритмы относятся к числу универсальных методов оптимизации,позволяющих решать задачи различных типов(комбинаторные,общие задачи с ограничениями и без ограничений) и различной степени сложности. При этом генетические алгоритмы характеризуются возможностью как однокритериального, так и многокритериального поиска в большом пространстве, ландшафт которого является негладким.
Классический алгоритм можно в первом приближении записать так:
1:Инициализация — выбор исходной популяции хромосом
2:Пока Хромосомы недостаточно приспособлены выполняем
3:Выбор хромосом
4:Применение генетических операторов
5:Создание новой популяции
6:Выбор наилучшей хромосомы
57. Data Мining - машинное обучение, обучающая выборка.
Машинное обучение (machine lеаrniпg) - обширный подраздел искусственного интеллекта, изучающий методы построения алгоритмов, способных обучаться на данных.
Общая постановка задачи обучения следующая. Имеется множество объектов
(ситуаций) и множество возможных ответов (откликов, реакций). Между ответами и объектами существует некоторая зависимость, но она неизвестна. Известна только конечная совокупность прецедентов пар вида “объект - ответ”, называемая обучающей выборкой. На основе этих данных требуется обнаружить зависимость, то есть построить модель, способную для любого объекта выдать достаточно точный ответ. Чтобы измерить точность ответов, вводится критерий качества.
58. Data Mining - машинное обучение, тестовая выборка.
Тестовое множество, или тестовая выборка, представляет из себя аналогичный набор наблюдений, который используется для оценки качества модели, используя некоторые показатели.
Важно, чтобы никакие наблюдения из обучающей выборки не были включены в тестовую выборку. Если тестовые данные действительно содержат примеры из обучающей выборки, то будет трудно оценить, научился ли алгоритм обобщать, используя обучающую выборку или же просто запомнил данные. Программа, которая хорошо обобщает, будет в состоянии эффективно выполнять задачи с новыми данными. И наоборот, программа, которая запомнит обучающие данные, создав чрезмерно сложную модель, может точно предсказывать значения зависимой переменной для обучающего множества, но не сможет предсказать значение зависимой переменной для новых примеров.
59. Data Мining - машинное обучение, эффект переобучения.
При обучении нейронных сетей часто возникает серьезная трудность, называемая проблемой переобучения (overfitting).
Переобучение, или чрезмерно близкая подгонка - излишне точное соответствие нейронной сети конкретному набору обучающих примеров, при котором сеть теряет способность к обобщению.
Переобучение возникает в случае слишком долгого обучения, недостаточного числа обучающих примеров или переусложненной структуры нейронной сети.
Переобучение связано с тем, что выбор обучающего (тренировочного) множества является случайным. С первых шагов обучения происходит уменьшение ошибки. На последующих шагах с целью уменьшения ошибки (целевой функции) параметры подстраиваются под особенности обучающего множества. Однако при этом происходит "подстройка" не под общие закономерности ряда, а под особенности его части - обучающего подмножества. При этом точность прогноза уменьшается.
Один из вариантов борьбы с переобучением сети - деление обучающей выборки на два множества (обучающее и тестовое).