Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Экзамен.docx
Скачиваний:
9
Добавлен:
18.09.2019
Размер:
440.18 Кб
Скачать

5.2.5. Интеграция и преобразование данных

Крупные информационные системы типа систем поддержки здравоохранения, обсуждавшихся в разд. 3.3, подразумевают наличие взаимосвязи информационных ресурсов, основанных на самых разных форматах и моделях данных. По-видимому, подобные системы должны иметь в качестве центрального звена некоторую интегрирующую модель и соответствующую нотацию. Каждый источник данных обертываться (wrapped) некоторым компонентом, осуществляющим преобразования между частным представлением источника данных и глобальным представлением, принятым в интегрируемой среде. На основе этих "обернутых" источников затем могут создаваться прикладные продукты более высокого уровня.

С проблемой преобразования и интеграции данных связано много вопросов.

  1. Какой должна быть интегрирующая модель?

  2. Какой нужен инструментарий, чтобы сделать использование произвольных источников данных в интегрированных системах столь же простым, как работу с индивидуальными базами данных?

  3. Как расширить идею словаря данных, чтобы обеспечить корректное использование терминологии в среде, состоящей из интегрированных гетерогенных источников? Эта проблема, по существу, совпадает с "онтологической задачей" искусственного интеллекта.

  4. Один из подходов к проблеме комбинирования разнородных источников информации состоит в применении медиаторов (mediator), компонентов, которые могут производить настраиваемую интеграцию, возможно, с дополнительной фильтрацией или обработкой. По своей роли они аналогичны "агентам" сообщества искусственного интеллекта. Как лучше всего применить здесь этот подход – еще одна важная исследовательская тема.

5.2.6. Выборка и обнаружение данных

Очевидно, все больше и больше информации будет доступно в Web, коллекции неформально связанных ресурсов Internet. Неформальность и распределенный характер управления в среде Web представляют разительный контраст в сравнении со структурированностью и управляемостью, характерными для современных распределенных баз данных. Возникновение этой новой среды еще раз подтверждает важную роль инструментов для интеграции гетерогенных информационных ресурсов, которая отмечалась в отчете [Silberschatz at al., 1990].

Однако природа Web порождает ряд новых проблем, а также примеров, которые иллюстрируют крайние случаи многих проблем, связанных с гетерогенной информационной средой. Например, приходится иметь дело со следующим:

  • Имеются данные с нечеткой схемой, которая может произвольно меняться, или с нерегулярной структурой.

  • Данные, не имеющие четкого определения и/или обладающие неизвестной достоверностью.

  • В рамках технологий СУБД выработаны эффективные механизмы индексации и другие средства поддержки поиска для хорошо структурированных данных; очень важно расширить подобные механизмы и адаптировать их к неструктурированному миру Web.

5.2.7. Качество данных

В силу ненадежности механизмов ввода информации всегда существовала проблема проверки правильности содержимого баз данных. В новых приложениях информация часто комбинируется на основе разных источников, степень надежности которых различна. Следовательно, требуются методы для оценки достоверности полученной таким образом информации. Нужны также средства для опроса достоверности или происхождения (lineage) данных. В идеале понятия достоверности и происхождения должны стать базовыми для новых языков запросов.