- •1. Введение
- •1.1. Меняющийся мир управления базами данных
- •1.2. Что дают исследования в области баз данных
- •2. Достижения последних лет
- •2.1. Объектно-ориентированные и объектно-реляционные субд
- •2.2. Поддержка новых типов данных
- •2.3. Обработка транзакций
- •3. Новые приложения баз данных
- •3.1. Eosdis
- •3.2. Электронная коммерция
- •3.3. Информационные системы здравоохранения
- •3.4. Электронные публикации
- •3.5. Коллективное проектирование
- •4. Тенденции, влияющие на исследования в области баз данных
- •4.1. Технологические тенденции
- •4.2. Архитектурные тенденции баз данных
- •4.3. Исследования и деловой климат
- •4.4. Информационная супермагистраль проходит через вашу квартиру
- •5. Новые направления исследований
- •5.1. Поддержка мультимедийных объектов
- •5.1.1. Третичная память
- •5.1.2. Новые типы данных
- •5.1.3. Качество обслуживания
- •5.1.4. Запросы с нечеткими критериями
- •5.1.5. Поддержка пользовательских интерфейсов
- •5.2. Распределение информации
- •5.2.1. Степень автономности
- •5.2.2. Учет и расчеты
- •5.2.3. Безопасность и конфиденциальность
- •5.2.4. Репликация и согласование данных
- •5.2.5. Интеграция и преобразование данных
- •5.2.6. Выборка и обнаружение данных
- •5.2.7. Качество данных
- •5.3. Новые применения баз данных
- •5.3.1. Интеллектуальный анализ данных
- •5.3.2. Хранилища данных
- •5.3.3. Репозитарии
- •5.4. Управление потоками работ и транзакциями
- •5.4.1. Управление потоками работ
- •5.4.2. Альтернативные модели транзакций
- •5.5. Простота использования
- •6. Выводы
5.2.5. Интеграция и преобразование данных
Крупные информационные системы типа систем поддержки здравоохранения, обсуждавшихся в разд. 3.3, подразумевают наличие взаимосвязи информационных ресурсов, основанных на самых разных форматах и моделях данных. По-видимому, подобные системы должны иметь в качестве центрального звена некоторую интегрирующую модель и соответствующую нотацию. Каждый источник данныхобертываться (wrapped) некоторым компонентом, осуществляющим преобразования между частным представлением источника данных и глобальным представлением, принятым в интегрируемой среде. На основе этих "обернутых" источников затем могут создаваться прикладные продукты более высокого уровня.
С проблемой преобразования и интеграции данных связано много вопросов.
Какой должна быть интегрирующая модель?
Какой нужен инструментарий, чтобы сделать использование произвольных источников данных в интегрированных системах столь же простым, как работу с индивидуальными базами данных?
Как расширить идею словаря данных, чтобы обеспечить корректное использование терминологии в среде, состоящей из интегрированных гетерогенных источников? Эта проблема, по существу, совпадает с "онтологической задачей" искусственного интеллекта.
Один из подходов к проблеме комбинирования разнородных источников информации состоит в применении медиаторов (mediator), компонентов, которые могут производить настраиваемую интеграцию, возможно, с дополнительной фильтрацией или обработкой. По своей роли они аналогичны "агентам" сообщества искусственного интеллекта. Как лучше всего применить здесь этот подход – еще одна важная исследовательская тема.
5.2.6. Выборка и обнаружение данных
Очевидно, все больше и больше информации будет доступно в Web, коллекции неформально связанных ресурсов Internet. Неформальность и распределенный характер управления в среде Web представляют разительный контраст в сравнении со структурированностью и управляемостью, характерными для современных распределенных баз данных. Возникновение этой новой среды еще раз подтверждает важную роль инструментов для интеграции гетерогенных информационных ресурсов, которая отмечалась в отчете [Silberschatz at al., 1990].
Однако природа Web порождает ряд новых проблем, а также примеров, которые иллюстрируют крайние случаи многих проблем, связанных с гетерогенной информационной средой. Например, приходится иметь дело со следующим:
Имеются данные с нечеткой схемой, которая может произвольно меняться, или с нерегулярной структурой.
Данные, не имеющие четкого определения и/или обладающие неизвестной достоверностью.
В рамках технологий СУБД выработаны эффективные механизмы индексации и другие средства поддержки поиска для хорошо структурированных данных; очень важно расширить подобные механизмы и адаптировать их к неструктурированному миру Web.
5.2.7. Качество данных
В силу ненадежности механизмов ввода информации всегда существовала проблема проверки правильности содержимого баз данных. В новых приложениях информация часто комбинируется на основе разных источников, степень надежности которых различна. Следовательно, требуются методы для оценки достоверности полученной таким образом информации. Нужны также средства для опроса достоверности или происхождения (lineage) данных. В идеале понятия достоверности и происхождения должны стать базовыми для новых языков запросов.