Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Lecture 25.doc
Скачиваний:
56
Добавлен:
08.06.2015
Размер:
535.55 Кб
Скачать

Новые информационные технологии

Лекция № 25. Системы обработки связных текстов

  1. Новые информационные технологии (3)

2.1. Основные классы естественно-языковых систем

      1. Функциональные компоненты естественно-языковых систем

      2. Сравнительная характеристика основных классов ЕЯ-систем

        1. Интеллектуальные вопросно-ответные системы

          1. Информационно-поисковые системы

          2. Системы общения с базами данных

          3. Экспертные системы

          4. Диалоговые системы решения задач

          5. Интеллектуальные хранилища и цифровые библиотеки

        2. Системы распознавания речи

          1. Системы распознавания изолированно произносимых команд

          2. Системы распознавания ключевых слов в потоке слитной речи

          3. Системы распознавания слитной речи

          4. Подход «анализ-через-синтез»

          5. Системы чтения по губам

        3. Системы обработки связных текстов

          1. Системы реферирования текстов

          2. Системы сравнения и классификации текстов

          3. Системы кластеризации текстов

        4. Системы синтеза

          1. Системы синтеза речи

          2. Системы клонирования голоса

          3. Системы синтеза видеоряда по тексту

        5. Системы машинного перевода. Системы понимания речи (текстов)

          1. Системы фразового перевода

          2. Системы контекстного перевода

          3. Системы понимания речи (текстов)

        6. Онтологии и тезаурусы

        7. Речевые и текстовые базы

        8. Компоненты интеллектуальных систем

      3. Сравнительная характеристика естественно-языковых систем

2.1.2.3. Системы обработки связных текстов

Системы сравнения и классификации текстов

Системы кластеризации текстов

        1. Системы обработки связных текстов

(1) Системы данного класса моделируют процесс понимания законченных описаний определенных фрагментов действительности (историй, рассказов, эпизодов и т. п.), выраженных в виде текста на естественном языке, т. е. последовательности связанных друг с другом предложений. Понимание текста трактуется как извлечение из него всей существенной с точки зрения системы информации и присоединение ее к собственной базе знаний. После этого система может отвечать на вопросы относительно фактов, событий, явлений и прочих сущностей, которые явно или косвенно описаны во введенных текстах. Очевидно, что в практическом плане модели и методы, развиваемые в системах обработки связных текстов, могут быть полезны при создании интеллектуальных систем автоматического индексирования, классификации текстов, кластеризации и реферирования.

Для примера рассмотрим системы Researcher и Tailor, которые образуют единый комплекс, позволяющий пользователю получать сведения из рефератов-патентов, описывающих сложные физические объекты. Система Researcher получает рефераты патентов, стрит на их основе базу знаний и делает обобщения различных патентов, которые могут служить для изучения содержащихся в рефератах сведений, относящихся к различным объектам. Вопросно-ответные функции выполняет система Tailor.

Каждый из классов ЕЯ систем обладает специфическими особенностями, которые хорошо заметны при рассмотрении характера задач, решаемых основными функциональными компонентами этих систем (таблица 2.1).

2.1.2.6. (33) Системы реферирования текстов

(по статье TheChallengesofAutomaticSummarization,UdoHahn,InderjeetMani,IEEEComputer,November2000,pp. 29-36.CopyrightIEEECS,Reprintedwithpermission.Allrightsreserved)

Искусство (34) реферирования, или составления аннотаций, или кратких изложений материала, иными словами,извлечения наиболее важных или характерных фрагментов из одного или многих источников информации, стало неотъемлемой частью повседневной жизни.Новости, которые предлагает нам телевидение, – это суть реферат мировых событий дня. Бегущая строкабиржевых котировок– «сухой остаток» информации о купле-продаже, которую ежеминутно порождает рынок. Программа телевидения предлагает короткиеанонсы фильмови телезрители, думая, что листают программку, на самом деле читают реферативный журнал по киноискусству.

Хотя некоторые производители уже сейчас предлагают инструменты для реферирования, объем информации в Сети растет и оперативно получать ее корректные сводки становится все сложнее. Такие (35) инструменты, как функция AutoSummarize в Microsoft Office 97, системы IBM Intelligent Text Miner, Oracle Context и Inxight Summarizer (компонент поискового механизма AltaVista), безусловно, полезны, но их возможности ограничены выделением ивыбором оригинальных фрагментов из исходного документа и соединением их в короткий текст.Подготовка же краткого изложения предполагает передачу основной мысли текста, и не обязательно теми же словами.

Текст, полученный путем соединения отрывочных фрагментов, лишен гладкости, его трудно читать. Кроме того, источники информации вовсе не всегда являются текстами, ведь необходимо подготавливать аннотации и на видеозаписи, к примеру, спортивных соревнований, или формировать сводные данные по биржевым таблицам. Перечисленные инструменты реферирования рассчитаны на обработку только текстовой информации. И, наконец, они не могут работать сразу с несколькими источниками. Так, скажем, многочисленные ленты новостей в Web сообщают об одних и тех же событиях, и на этот случай мог бы оказаться полезен инструмент, способный выделить общие места и новую информацию.

Исследователи предлагают (36) несколько подходов, призванных преодолеть эти ограничения. Они распадаются надве категории. В основе подходов,не предполагающих опору на знания, лежит отказ от добавления новых правил для каждой новой прикладной области знания или языка. Подход,опирающийся на знания, исходит из предположения, что если удается понять значение текста, сократить его становится проще, следовательно, полученная в итоге аннотация будет более качественной. Этот подход предусматривает использование базы знаний значительного объема, состоящей из правил, которые извлекаются, поддерживаются и затем адаптируются к новым приложениям и языкам. Впрочем, две эти категории не исключают друг друга. Известны несколько гибридных подходов.

Главным ограничением обоих методов является требование сжатия. (37) Объем аннотации, или реферата должен составлять от 5 до 30% исходного текста. Подготовка аннотаций нескольких источников информации или формирование сводок для карманных устройств предполагает еще большую степень сжатия. Добиться выполнения таких жестких требований очень сложно, поскольку для этого необходим немалый запас знаний.

Еще одну сложность представляет оценка средств реферирования. (38) Необходима гарантия того, что аннотация действительно является адекватной заменой текста, иными словами, пользователь должен быть уверен, что в кратком изложении выражены все основные мысли оригинала. Поэтому методы создания и оценки рефератов должны развиваться параллельно.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]