Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
ekzamen.docx
Скачиваний:
23
Добавлен:
05.06.2015
Размер:
2.51 Mб
Скачать

8. Базы данных. Модели баз данных.

База данных — совокупность данных, хранимых в соответствии со схемой данных, манипулирование которыми выполняют в соответствии с правилами средств моделирования данных

База данных включает метаданные, описывающие логическую структуру БД в формальном виде (в соответствии с некоторой метамоделью). Постоянные данные в среде базы данных включают в себя схему и базу данных.

Схема включает в себя описания содержания, структуры и ограничений целостности, используемые для создания и поддержки базы данных. База данных включает в себя набор постоянных данных, определенных с помощью схемы.

Система управления данными – программа, которая использует определения данных в схеме для обеспечения доступа и управления доступом к данным в базе данных

СУБД – программный комплекс поддержки интегрированной совокупности данных, предназначенный для создания, ведения и использования базы данных многими пользователями (прикладными программами).

Реляционные БД (MS SQL Server, Oracle, MySql, DB2, FireBird, PostgreSQL)

    • Двумерные таблицы

    • Элемент таблицы – элемент данных

    • Столбец имеет уникальное имя

    • Все элементы столбца – однородны – один тип данных

    • Строки таблицы описывают один объект

Основные понятия реляционной БД

  • Понятие (сущность)

  • Отношение (связь)

  • Атрибут

Используется реляционная алгебра и модель ER – сущность-связь, IDEF1X

Объектно-ориентированная БД (ООБД) – объектная модель данных (Cache’)

  • Сложные объекты

  • Индивидуализация объектов

  • Инкапсуляция

  • Наследование

XML БД (Berkeley DB) – модель данных хэш-таблица

  • Пара – ключ –значение (множество значений)

Используется в виде базы данных для OpenLDAP

9. Модель EAV.

EAV (Entity – attribute - value) – описывает сущности, когда число атрибутов меняется. (математика – разряженная матрица)

Сущность описывается набором пар – атрибут –значение .

Таблица из трех столбцов

  • Сущность

  • Атрибут – внешний ключ на таблицу атрибутов

  • Значение

10. Интеграция данных. Хранилище данных. Репликации данных.

Интеграция данных

    • процесс организации работы с данными так, как будто они размещены в единой базе данных, а не в гетерогенном окружении

    • предоставление унифицированного интерфейса для доступа к совокупности неоднородных независимых источников данных

Хранилище данных (Data Warehouse) – предметно-ориентированная информационная корпоративная база данных

  • Используется для анализа, отчетов с целью принятие решений

  • Используется корпоративные СУБД

Принципы Хранилища данных

  • Проблемно-предметная ориентация (по предметным областям)

  • Интегрированность – объединения данных из разных областей

  • Некорректируемость – данные не изменяются, не удаляются, поступают из других баз

  • Зависимость от времени – данные в хранилище меняются со временем и имеют смысл лишь на некоторый момент времени

Хранилище данных

  • Нормализованные хранилища – витрины данных

    • Схема –таблицы

    • Сложная выборка

    • Малопроизводительные запросы

  • Размерностные хранилища

    • Схема – снежинка

      • центр- данные (факты)

      • Размерности – лучи снежинки

    • Простая выборка

    • Производительные запросы

    • Сложная подготовка

Хранилище данных

  • Нормализованные хранилища – витрины данных

    • Схема –таблицы

    • Сложная выборка

    • Малопроизводительные запросы

  • Размерностные хранилища

    • Схема – снежинка

      • центр- данные (факты)

      • Размерности – лучи снежинки

    • Простая выборка

    • Производительные запросы

    • Сложная подготовка

Репликация данных – Репликация позволяет поддерживать производительность, решать проблемы нерезидентного соединения и узкой полосы

Проблемы репликаций

  1. Синхронизация репликаций

  2. Параллельность репликаций

  3. Валидность данных

  4. Первичность ключей

Проблемы репликации данных: Первичность ключей

Москва Пенза

  1. ИТ-11-01 1 ИС-10-01

  2. ИТ-10-02 2 ИС-11-02

Результат репликации

1 ИТ-11-01

2 ИТ-10-02

?? ИС-10-01

?? ИС-11-02

Первичность ключей – Решение – Выделенный для каждой локальной базы диапазон значений первичных ключей

Москва (1-9999) Пенза (10000-19999)

  1. ИТ-11-01 10000 ИС-10-01

  2. ИТ-10-02 10001 ИС-11-02

Выделенный диапазон

1 ИТ-11-01

2 ИТ-10-02

10000 ИС-10-01

10001 ИС-11-02

Проблема – если первичный ключ с автоинкрементном

Первичность ключей – Решение – Кратность первичного ключа

Москва Пенза

  1. ИТ-11-01 2 ИС-10-01

3 ИТ-10-02 4 ИС-11-02

Кратность

1 ИТ-11-01

3 ИТ-10-02

2 ИС-10-01

4 ИС-11-02

Проблема – если первичный ключ с автоинкрементном и заранее неизвестно число узлов

Первичность ключей – Решение – Дополнительная связь

Москва Пенза

  1. ИТ-11-01 1 ИС-10-01

2 ИТ-10-02 2 ИС-11-02

Дополнительная связь

1 ИТ-11-01 null null

2 ИТ-10-02 null null

3 ИС-10-01 1 Пенза

4 ИС-11-02 2 Пенза

Проблема – в базовой программе могут возникнуть проблемы с обработкой данных

Проблемы репликации - Валидность данных

Проблемы репликации - Валидность данных

Москва Пенза

  1. ИТ-11-01 100 1 ИС-10-01 200

2 ИТ-10-02 100 2 ИС-11-02 100

В Москве Удален объект с кодом 200

1 ИТ-11-01 100

2 ИТ-10-02 100

3 ИС-10-01 ????

4 ИС-11-02 100

Решение – использовать данные по умолчанию, откатить транзакцию

11. Интеграция данных. Логическая интеграция данных.

Проблема –

    • Много источников

    • Источники разной структуры

    • Источники меняются

    • Между источниками может быть связь

Интеграция данных

    • процесс организации работы с данными так, как будто они размещены в единой базе данных, а не в гетерогенном окружении

    • предоставление унифицированного интерфейса для доступа к совокупности неоднородных независимых источников данных

Для пользователя – источник данных выглядит как единый.

Источники данных

    • базы данных (реляционная, объектная, иерархическая и другие)

    • файлы

    • базы знаний

Уровни интеграция данных

    • Физическая интеграция

    • Логическая интеграция

    • Семантическая интеграция

Физическая интеграция

Преобразование данных из различных источников в единый формат их представления

– Хранилища данных

– Репликация данных

Логическая интеграция данных

Единая схема данных

Логическая интеграция данных

Распределенные базы данных состоят из набора узлов

  1. Каждый узел обладает своими собственными СУБД

  2. Узлы работают согласовано, пользователь получает доступ к данным на любом узле

Логическая интеграция данных – Распределенные СУБД

Независимость от Фрагментации

Фрагментация

  • Вертикальная – распределяются отдельные сущности (необходимо следить за возможной потерей информации)

  • Горизонтальная – распределяются кортежи (записи).

Реконструкция исходного отношения выполняется на основе

  • Соединения – для вертикальной фрагментации

  • Объединения – для горизонтальной фрагментации

Логическая интеграция данных – Распределенные СУБД

Независимость от Фрагментации – Горизонтальная

Данные разделефны на фрагменты , которые хранятся в локальных базах

Москва Пенза

1 ИТ-11-01 2011 10 3 ИС-10-01 2010 11

  1. ИТ-10-02 2010 8 4 ИС-11-02 2011 9

Воспринимается пользователем

1 ИТ-11-01 2011 10

2 ИТ-10-02 2010 8

3 ИС-10-01 2010 11

4 ИС-11-02 2011 9

Логическая интеграция данных – Распределенные СУБД

Независимость от Фрагментации - Вертикальная

Москва Пенза

  1. ИТ-11-01 1 2011 12

  2. ИС-10-01 2 2010 10

  3. ИС-11-02 3 2011 8

  1. ИТ-10-02 4 2010 9

Воспринимается пользователем

1 ИТ-11-01 2011 12

2 ИТ-10-02 2010 9

3 ИС-10-01 2010 10

4 ИС-11-02 2011 8

Независимость от Фрагментации

Данные будут представлены для пользователей в виде логически комбинированных фрагментов на основе объединений и соединений

Select * from Group where Year=2011

ВСЕ ГРУППЫ = Группы Москва Union Группы Пенза

Выбрать из ВСЕХ ГРУПП где год =2011 =

Выбрать из (Группы Москва Union Группы Пенза) где год = 2011 =

Выбрать из Группы Москва где год =2011

Union

Выбрать из Группы Пенза где год =2011

12. Семантическая интеграция.

Семантическая интеграция данных

Единая онтология предметной области

Семантическая интеграция данных

Единая онтология предметной области

Семантическая интеграция данных

Единая онтология предметной области

Автоматическая репликация данных

Семантическая интеграция данных

Единая онтология предметной области

Семантическая интеграция данных

Единая онтология предметной области

Алгоритм интеграции данных по требованию

13. Обработка числовой информации.

Области применения обработки числовой информации:

  1. Финансы (бухгалтерия, финансовый анализ)

  2. Экономический анализ (маркетинг, бенчмаркинг)

  3. Производственный анализ (анализ производственный процессов)

Производственный анализ информации:

  1. Предварительная обработка данных, собранных из внешних источников (датчики, сканеры, клавиатура)

  • Простота алгоритмов

  • Скорость выполнения

  • Обеспечение реального времени

  • Использование только введенных данных

  • Одинарная (одно значение) и блочная обработка

  • Постобработка данных

    • Разнообразие алгоритмов (простые и сложные)

    • Блочная обработка

    • Временной анализ

    • Кросс-обработка (совместные характеристики – взаимная корреляция, взаимный спектр, функция когерентности)

    14. Обработка в режиме реального времени.

    Обеспечение реального времени

    • Система реального времени – это система, которая должна удовлетворять явным ограничением по времени отклика и жестким рискованным последовательностям событий, включая отказы

    • Компьютерная система реального времени – это система, в которой данные поступают в том же времени или медленнее, чем нужно на их обработку

    • Обработка в реальном времени – обработка данных со скоростью больше или равной скорости поступления данных

      • Обработка звука и видео при записи или передачи

      • Космические приложения

      • Авиация

      • Военная техника

      • Производственные процессы

    Обеспечение реального времени

    • Скорость обработки

    • Последовательность обработки

    • Периодичность обработки

    • Приоритетность обработки

    Постобработка

    • Статистическая обработка

      • Среднее, дисперсия, СКО, медиана, коэффициент асимметрии и эксцесса

      • Гистограмма распределения плотности вероятности

    • Корреляция – авто и взаимная

    • Спектральный анализ

      • Спектральная плотность мощности

      • Взаимный спектр

      • Функция когерентности

      • Фурье преобразование, косинус преобразование, Преобразование Хартли

    • Вейвлет-анализ

    • Фильтрация

    • Сжатие данных

      • Сжатие без потерь

      • Сжатие с потерями

    • Обработка изображения

    Обработка - финансовый и экономический анализ

    • Статистические методы обработки

      • Усреднение

      • Удаление тренда

      • Сглаживание

      • Расчет статистических характеристик и гистограммы распределения плотности вероятности

      • Взаимная корреляция – зависимости , автокорреляция

    • Прогнозирование – регрессионный анализ

  • Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]