Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
shpory_1-44.docx
Скачиваний:
19
Добавлен:
21.04.2019
Размер:
1.07 Mб
Скачать

19. Распределенные бд. Хранилища данных.

Распределённые БД

БД – интегрированная совокупность данных, с которой работает много пользователей.

Основные принципы теории БД:

  • централизованное хранение данных

  • централизованное обслуживание данных (ввод, корректировка, чтение, контроль целостности)

Распределённая БД – совокупность логических взаимосвязанных разделяемых данных (и описание их структур) физически распределённых в компьютерной сети.

Системы Управления Распределённой БД – программная система, обеспечивающая работу с распределённой БД, и позволяющая пользователю работать как с его локальными данными, так и со всей БД в целом.

Система Управления Распределённой БД является распределённой системой. Каждый фрагмент БД работает под управлением отдельной СУБД, которая осуществляет доступ к данным этому фрагменту. Пользователи взаимодействуют с распределённой БД через локальные и глобальные приложения.

Локальные – дают возможность пользователю работать со всеми локальными данными и не требует доступа к другим фрагментам.

Глобальные – дают пользователю работать с другими фрагментами БД, расположенными на других компьютерах сети.

Общая схема работы распределённой БД:

Одним из примеров реализации такой модели может служить сеть интернет. Данные вводятся и хранятся на разных компьютерах по всему миру, и любой пользователь может получить доступ к этим данным, не задумываясь о том где они физически расположены.

К. Дж. Дейт провозгласил принцип:

для пользователя распределённая система должна выглядеть так же как не распределённая.

Из этого принципа следует ряд правил:

  1. локальная автономия

  2. независимость от центрального узла

  3. непрерывное функционирование

  4. независимость от расположения

  5. независимость от фрагментации

  6. независимость от репликации

  7. обработка распределённых запросов

  8. управление распределёнными транзакциями

  9. независимость от аппаратного обеспечения

  10. независимость от ОС

  11. независимость от сети

  12. независимость от СУБД

Замечание: понятие распределённой БД можно интерпретировать как следующий шаг, в развитии понятий о данных, обусловленная распределённостью данных в реальных предметных областях, а также новом этапом развития средств вычислительной техники – широким использованием вычислительной техники. В этой интерпретации распределённую БД можно понимать как совокупность логически взаимосвязанных распределённых по разным компьютерам БД.

Основные проблемы создания распределённой БД:

  1. фрагментация данных и распределение по компьютерам.

  2. составление глобального каталога, содержащего информацию о каждом фрагменте БД и его местоположения в сети (каталог может хранится на одном узле или может быть распределён)

  3. организация обработки запросов:

    1. синхронизация нескольких запросов к одним и тем же данным.

    2. исключение аномалий, удаление и обновление одних и тех же данных, расположенных на различных узлах

    3. оптимизация последовательности шагов при обработке запросов.

Значительным достоинством этой модели является приближение данных к месту их порождения, что позволяет существенно повысить их достоверность.

Недостатком является достаточно высокая сложность управления данными, как единым целым.

Процесс создания и обслуживания распределённых БД связан с техническими трудностями, среди которых можно выделить: жёсткие требования к пропускной способности каналов связи, а так же низкую производительность, обусловленная значительными затратами коммуникационных и вычислительных ресурсов при их синхронизации во время выполнения транзакции.

Технология, связанная с использованием распределённых БД позволяет успешно решать важнейшие проблемы ведения БД:

  • повысить достоверность информации (информация вводится в месте её порождения лицом, которое лучше всех понимает её смысловое значение)

  • повысить оперативность локальной обработки информации (соответствующие вопросы решаются на локальном компьютере с фрагментом БД)

Хранилище данных

Хранилище данных – предметно-ориентированный, интегрированный, привязанный ко времени и неизменяемый набор данных, предназначенный для поддержки принятия решений.

Под предметной ориентированностью понимается – ориентированность на предметы (определённые группы данных), а не на конкретные приложения.

Интегрированность – возможное объединение данных из разных источников (БД) имеющих разный формат.

Привязка ко времени – для всех данных указан момент или промежуток времени, в который они корректны.

Данные хранилища не изменяются, они лишь регулярно пополняются из оперативных БД.

Для реализации всей необходимой обработки информации необходимы следующие программные средства:

  1. средства извлечения данных из БД

  2. средства управления данными хранилища (СУБД хранилища)

  3. средства анализа данных хранилища (используется OLAP – технология)

  4. средства доставки данных

  5. средства визуализации результатов обработки для конечных пользователей

Для работы соответствующих программных средств необходимо описание структуры содержимого информационного хранилища (мета описания)

Для общего случая, если данные берутся из БД управляемыми разными СУБД из файлов разных типов, а данные разнородны, средства управления данными хранилища пока не созданы. Однако если данные в информационное хранилище выбираются только из реляционных БД, то в качестве средств управления данными хранилища может быть взято мощное реляционное СУБД.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]