5.2.5. Интеграция и преобразование данных

Крупные информационные системы типа систем поддержки здравоохранения, обсуждавшихся в разд. 3.3, подразумевают наличие взаимосвязи информационных ресурсов, основанных на самых разных форматах и моделях данных. По-видимому, подобные системы должны иметь в качестве центрального звена некоторую интегрирующую модель и соответствующую нотацию. Каждый источник данных обертываться (wrapped) некоторым компонентом, осуществляющим преобразования между частным представлением источника данных и глобальным представлением, принятым в интегрируемой среде. На основе этих "обернутых" источников затем могут создаваться прикладные продукты более высокого уровня.

С проблемой преобразования и интеграции данных связано много вопросов.

Какой должна быть интегрирующая модель?
Какой нужен инструментарий, чтобы сделать использование произвольных источников данных в интегрированных системах столь же простым, как работу с индивидуальными базами данных?
Как расширить идею словаря данных, чтобы обеспечить корректное использование терминологии в среде, состоящей из интегрированных гетерогенных источников? Эта проблема, по существу, совпадает с "онтологической задачей" искусственного интеллекта.
Один из подходов к проблеме комбинирования разнородных источников информации состоит в применении медиаторов (mediator), компонентов, которые могут производить настраиваемую интеграцию, возможно, с дополнительной фильтрацией или обработкой. По своей роли они аналогичны "агентам" сообщества искусственного интеллекта. Как лучше всего применить здесь этот подход – еще одна важная исследовательская тема.

5.2.6. Выборка и обнаружение данных

Очевидно, все больше и больше информации будет доступно в Web, коллекции неформально связанных ресурсов Internet. Неформальность и распределенный характер управления в среде Web представляют разительный контраст в сравнении со структурированностью и управляемостью, характерными для современных распределенных баз данных. Возникновение этой новой среды еще раз подтверждает важную роль инструментов для интеграции гетерогенных информационных ресурсов, которая отмечалась в отчете [Silberschatz at al., 1990].

Однако природа Web порождает ряд новых проблем, а также примеров, которые иллюстрируют крайние случаи многих проблем, связанных с гетерогенной информационной средой. Например, приходится иметь дело со следующим:

Имеются данные с нечеткой схемой, которая может произвольно меняться, или с нерегулярной структурой.
Данные, не имеющие четкого определения и/или обладающие неизвестной достоверностью.
В рамках технологий СУБД выработаны эффективные механизмы индексации и другие средства поддержки поиска для хорошо структурированных данных; очень важно расширить подобные механизмы и адаптировать их к неструктурированному миру Web.

5.2.7. Качество данных

В силу ненадежности механизмов ввода информации всегда существовала проблема проверки правильности содержимого баз данных. В новых приложениях информация часто комбинируется на основе разных источников, степень надежности которых различна. Следовательно, требуются методы для оценки достоверности полученной таким образом информации. Нужны также средства для опроса достоверности или происхождения (lineage) данных. В идеале понятия достоверности и происхождения должны стать базовыми для новых языков запросов.

<<< < Предыдущая 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 3637 / 4137 38 39 40 41 > Следующая >>>

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]

#
18.11.2019258.05 Кб8шпоры философия.doc
#
17.09.20195.66 Mб15ШПОРЫ_ФИНАЛ.doc
#
21.09.2019480.48 Кб2шпоры_экономика_6сем._34-50.docx
#
10.08.2019154.11 Кб2Штрихи по истории электротехники.doc
#
30.10.2018219.65 Кб6Щ- Глубокая.doc
#
18.09.2019440.18 Кб9Экзамен.docx
#
21.11.2019119.3 Кб6экология городских систем.doc
#
17.04.2019541.7 Кб1экология шпоры 1-20.doc
#
11.09.2019125.27 Кб3эконометрия.docx
#
02.05.2019630.78 Кб2Эконометрия_ЛР2.doc
#
16.09.2019120.52 Кб0ЭКОНОМИКА мой раздел 2.docx