- •1.Хранилище данных.
- •2. Система поддержки принятия решений (сппр). Ссылка Система поддержки принятия решений
- •3. Отличия cппp и оlтр-систем.
- •4. Семантический слой в хранилище данных.
- •5. Основные требования к хранилищу данных.
- •6. Свойства хранилища данных.
- •7. Структурная схема хранилища данных.
- •8. Хранилище данных - детализированные и агрегированные данные.
- •9. Хранилище данных - метаданные, бизнес-метаданные, технический уровень.
- •10. Хранилище данных - регламентированные, нерегламентированные запросы.
- •11. Оперативный анализ данных - olap систем.
- •12. Реляционные olap системы - структурная схема, функционал.
- •13. Многомерные olap системы -структурная схема, функционал.
- •14. Гибридные olap системы - структурная схема, функционал.
- •15. Виртуальные olap системы - структурная схема, функционал.
- •20. Структура многомерного куба, привести пример.
- •25. Недостатки многомерного olap-подхода.
- •26. Операции над измерениями - сечение, привести пример.
- •27. Операции над измерениями - транспонирование, привести пример.
- •38. Централизованное хд с витринами данных - структурная схема, функционал.
- •39. Аналитические платформы - структурная схема, функционал.
- •40. Data Mining - предназначение, полный цикл функционирования.
- •41. Data Мining - классификация, задачи, привести пример.
- •42. Data Мining - признаки классификации, основной, второстепенный.
- •43. Data Мining - признаки классификации, простой, сложный.
- •44. Data Мining - этапы классификации.
- •45. Классификация с помощью деревьев решений, пример.
- •46. Классификация при помощи искусственных нейронных сетей, пример.
- •47. Классификации - бинарная, многоклассовая, пример.
- •48. Характеристики для оценки методов классификации.
- •49. Классификация - ошибки I и II рода, предназначение, пример.
- •50. Классификация - балансировка уровня ошибок I и II рода, предназначение, пример.
- •51. Data Mining - кластеризация, задачи, привести пример.
- •52. Data Mining - кластеризация, типы кластеров.
- •53. Data Мining - сравнение задач классификации и кластеризации, пример.
- •54. Data Mining - линейная регрессия, модель, предназначение, пример.
- •55. Data Мining - логистическая регрессия, модель, предназначение, пример.
- •56. Data Мining - генетические алгоритмы, предназначение, пример.
- •57. Data Мining - машинное обучение, обучающая выборка.
- •58. Data Mining - машинное обучение, тестовая выборка.
- •59. Data Мining - машинное обучение, эффект переобучения.
- •60. Data Мining - машинное обучение, ошибки обучения и обобщения.
15. Виртуальные olap системы - структурная схема, функционал.
Виртуальным хранилищем данных называется система, которая работает с разрозненными источниками данных и эмулирует работу обычного хранилища данных, извлекая, преобразуя и интегрируя данные непосредственно в процессе выполнения запроса.
Рис. Виртуальное ХД
16. Многомерная модель данных ОLАР-кубов.
Основное назначение:
поддержка систем ориентиров на поддержку данных на аналитическую обработку данных.
Поскольку хранилище лучше справляется с сложным не регламентирующим запросом.
Многомерная модель данных лежит на основе многомерных кубов. Она представляют собой упорядоченное многомерное хранилище данных.
Технология OLAP представляет собой методику извлечения нужной информации из большого массива данных и формирование отчетов.
17. Семантический слой в виртуальных OLAP систем- структурная схема, функционал.
VOLAP не реализовано физически, а собирает непосредственно процесс запросов. В таких системах работа ведется отдельными источниками данных, но при этом ведется эмуляция обычного хранилища данных.
Данные не консолидируются физически, а собираются непосредственно в процессе выполнения запроса.
18. Декомпозиция ОLАР-кубов в виде двухмерных таблиц.
19. Базовые понятия многомерной модели данных - измерения и факты.
В основе многомерного представления данных лежит их разделение на две группы — измерения и факты.
Измерения — это категориальные атрибуты, наименования и свойства объектов, участвующих в некотором бизнес-процессе. Значениями измерений являются наименования товаров, названия фирм-поставщиков и покупателей, ФИО людей, названия городов и т.д. Измерения могут быть и числовыми, если какой-либо категории (например, наименованию товара) соответствует числовой код, но в любом случае это данные дискретные, то есть принимающие значения из ограниченного набора. Измерения качественно описывают исследуемый бизнес-процесс.
Факты — это данные, количественно описывающие бизнес-процесс, непрерывные по своему характеру, то есть они могут принимать бесконечное множество значений. Примеры фактов — цена товара или изделия, их количество, сумма продаж или закупок, зарплата сотрудников, сумма кредита, страховое вознаграждение и т.д.
20. Структура многомерного куба, привести пример.
Информация хранящаяся в многомерных хранилищах данных является логической ценностью, которая может быть получена из различных таблиц.
Плюсы:
Наглядность, проще, чем пользоваться таблицами реляционных моделей.
Время выполнения запросов. Возможно построение широких запросов; в ячейках хранятся агрегированные данные (время выполнения поиска уменьшается).
Процесс поиска:
Для извлечения из куба нужной информации над его данными проводят преобразования: сечение, транспортирование, свертка, детализация.
21. Принцип организации многомерного куба, привести пример.
См.20
22. Потери при декомпозиции ОLАР-кубов в виде двухмерных таблиц.
23. Компенсация потерь при декомпозиции ОLАР-кубов в виде двухмерных таблиц.
Чтобы компенсировать потерянную информацию от одного или нескольких измерений, придётся усложнить структуру таблиц.
24. Преимущества многомерного OLAP-подхода.
Преимущества многомерного подхода очевидны. Представление данных в виде многомерных кубов более наглядно, чем совокупность нормализованных таблиц реляционной модели, структуру которой представляет только администратор БД.
Возможности построения аналитических запросов к системе, использующей МХД, более широки.
В некоторых случаях использование многомерной модели позволяет значительно уменьшить продолжительность поиска в МХД, обеспечивая выполнение аналитических запросов практически в режиме реального времени. Это связано с тем, что агрегированные данные вычисляются предварительно и хранятся в многомерных кубах вместе с детализированными, поэтому тратить время на вычисление агрегатов при выполнении запроса уже не нужно.