- •1.Хранилище данных.
- •2. Система поддержки принятия решений (сппр). Ссылка Система поддержки принятия решений
- •3. Отличия cппp и оlтр-систем.
- •4. Семантический слой в хранилище данных.
- •5. Основные требования к хранилищу данных.
- •6. Свойства хранилища данных.
- •7. Структурная схема хранилища данных.
- •8. Хранилище данных - детализированные и агрегированные данные.
- •9. Хранилище данных - метаданные, бизнес-метаданные, технический уровень.
- •10. Хранилище данных - регламентированные, нерегламентированные запросы.
- •11. Оперативный анализ данных - olap систем.
- •12. Реляционные olap системы - структурная схема, функционал.
- •13. Многомерные olap системы -структурная схема, функционал.
- •14. Гибридные olap системы - структурная схема, функционал.
- •15. Виртуальные olap системы - структурная схема, функционал.
- •20. Структура многомерного куба, привести пример.
- •25. Недостатки многомерного olap-подхода.
- •26. Операции над измерениями - сечение, привести пример.
- •27. Операции над измерениями - транспонирование, привести пример.
- •38. Централизованное хд с витринами данных - структурная схема, функционал.
- •39. Аналитические платформы - структурная схема, функционал.
- •40. Data Mining - предназначение, полный цикл функционирования.
- •41. Data Мining - классификация, задачи, привести пример.
- •42. Data Мining - признаки классификации, основной, второстепенный.
- •43. Data Мining - признаки классификации, простой, сложный.
- •44. Data Мining - этапы классификации.
- •45. Классификация с помощью деревьев решений, пример.
- •46. Классификация при помощи искусственных нейронных сетей, пример.
- •47. Классификации - бинарная, многоклассовая, пример.
- •48. Характеристики для оценки методов классификации.
- •49. Классификация - ошибки I и II рода, предназначение, пример.
- •50. Классификация - балансировка уровня ошибок I и II рода, предназначение, пример.
- •51. Data Mining - кластеризация, задачи, привести пример.
- •52. Data Mining - кластеризация, типы кластеров.
- •53. Data Мining - сравнение задач классификации и кластеризации, пример.
- •54. Data Mining - линейная регрессия, модель, предназначение, пример.
- •55. Data Мining - логистическая регрессия, модель, предназначение, пример.
- •56. Data Мining - генетические алгоритмы, предназначение, пример.
- •57. Data Мining - машинное обучение, обучающая выборка.
- •58. Data Mining - машинное обучение, тестовая выборка.
- •59. Data Мining - машинное обучение, эффект переобучения.
- •60. Data Мining - машинное обучение, ошибки обучения и обобщения.
3. Отличия cппp и оlтр-систем.
Ссылка
Свойство |
OLTP-система |
СППР |
Цели использования данных |
Быстрый поиск, простейшие алгоритмы обработки |
Аналитическая обработка с целью поиска скрытых закономерностей, построения прогнозов и моделей и т.д. |
Уровень обобщения (детализации) данных |
Детализированные |
Как детализированные, так и обобщенные (агрегированные) |
Требования к качеству данных |
Возможны некорректные данные (ошибки регистрации, ввода и т.д.) |
Ошибки в данных не допускаются, поскольку могут привести к некорректной работе аналитических алгоритмов |
Формат хранения данных |
Данные могут храниться в различных форматах в зависимости от приложения, в котором они были созданы |
Данные хранятся и обрабатываются в едином формате |
Время хранения данных |
Как правило, не более года (в пределах отчетного периода) |
Годы, десятилетия |
Изменение данных |
Данные могут добавляться, изменяться и удаляться |
Допускается только пополнение; ранее добавленные данные изменяться не должны, что позволяет обеспечить их хронологию |
Периодичность обновления |
Часто, но в небольших объемах |
Редко, но в больших объемах |
Доступ к данным |
Должен быть обеспечен доступ ко всем текущим (оперативным) данным |
Должен быть обеспечен доступ к историческим (то есть накопленным за достаточно длительный период времени) данным с соблюдением их хронологии |
Характер выполняемых запросов |
Стандартные, настроенные заранее |
Нерегламентированные, формируемые аналитиком «на лету» в зависимости от требуемого анализа |
Время выполнения запроса |
Несколько секунд |
До нескольких минут |
4. Семантический слой в хранилище данных.
“Семантический слой - механизм, позволяющий аналитикам оперировать данными бизнес-терминами.” - Тоноян С. А.
Важнейшим элементом ХД является семантический слой — механизм, позволяющий аналитику оперировать данными посредством бизнес-терминов предметной области. Семантический слой дает пользователю возможность сосредоточиться на анализе и не задумываться о механизмах получения данных.
5. Основные требования к хранилищу данных.
Требования:
высокая скорость получения данных из хранилища;
автоматическая поддержка внутренней непротиворечивости данных;
возможность получения и сравнения срезов данных;
наличие удобных средств для просмотра данных в хранилище;
обеспечение целостности и достоверности хранящихся данных.
6. Свойства хранилища данных.
Проблемно-предметная ориентация. Данные объединяются в категории и хранятся в соответствии с областями, которые они описывают, а не с приложениями, которые они используют.
Интегрированность. Данные объединены так, чтобы они удовлетворяли всем требованиям предприятия в целом, а не единственной функции бизнеса.
Некорректируемость. Данные в хранилище данных не создаются: то есть поступают из внешних источников, не корректируются и не удаляются.
Зависимость от времени. Данные в хранилище точны и корректны только в том случае, когда они привязаны к некоторому промежутку или моменту времени.
Хранилище данных - предметно-ориентированный, интегрируемый, неизменяемый и поддерживающий хронологию набор данных, предназначенный для обеспечения регламентированных и управленческих решений. Основные свойства:
ориентированность
Хранилище данных разрабатывается с учетом специфики области, а не аналитической платформы, где его будут использовать. Другими словами: данные объединяются в категории и хранятся в соответствии с областями, которые они описывают, а не с приложениями, которые они используют. Структура должна отражать представление информации, с которой работает аналитик. Предметная ориентация позволяет хранить в ХД только те данные, которые необходимы для средств анализа, что существенно сокращает затраты на носители информации и повышает безопасность доступа к данным.
2) интеграция
требуется обеспечить возможность загрузки информации из различных источников, поддерживающих различные форматы данных.
единые правила именования объектов
единые единицы измерения для однотипных объектов
единое физическое представление
единое представление атрибутов и т.д.
3) принцип неизменчивости - в хранилище возможно только добавление и чтение данных.
4) поддержка хронологии - точное и единое представление о временной привязке всех данных.