Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Lecture 25.doc
Скачиваний:
57
Добавлен:
08.06.2015
Размер:
535.55 Кб
Скачать

1.2.4.5.2.2. (48) Формирование краткого изложения

Когда Кельвина Кулиджа однажды спросили, что говорил священник на проповеди о грехе, он ответил: «Он рассказал, чего следует воздерживаться» [4]. Этот ответ служит примером возможностей интуитивного понимания, положенного в основу изложения – человеку, который уловил общий смысл информации, легче выделить главное и изложить вкратце ее содержание.

В отличие от линейной модели в методах подбора выдержек, для подготовки краткого изложения информации, требуются мощные вычислительные ресурсы для систем обработки естественных языков(NLP — natural language processing),в том числе грамматики и словари для синтаксического разбора и генерации естественно-языковых конструкций. Кроме того, для реализации этого метода нужны некие онтологические справочники,отражающие соображения здравого смысла и понятия, ориентированные на предметную область, для принятия решений во время анализа и определения наиболее важной информации.

Как показано нарис. 3, (49)метод формирования краткого изложения предполагает два основных подхода. (50)Первый(вверху)опирается на традиционный лингвистический метод синтаксического разбора предложений.

В этом методе применяется также семантическая информация для аннотирования деревьев разбора. Процедуры сравнения манипулируют непосредственно деревьями с целью удаления и перегруппировки частей, например, путем сокращения ветвей на основании некоторых структурных критериев, таких как скобки или встроенные условные или подчиненные предложения. После такой процедурыдерево разборасущественноупрощается, становясь, по существу, структурной «выжимкой» исходного текста.

(51) Второй подходк составлению краткого изложения уходит корнями в системы искусственного интеллекта иопирается на понимание естественного языка[5]Синтаксический разбор также входит составной частью в такой метод анализа, но деревья разбора в этом случае не порождаются. Напротив, формируются концептуальные репрезентативные структуры всей исходной информации, которые аккумулируются в текстовой базе знаний.В качестве структур могут быть использованы формулы логики предикатов или такие представления, как семантическая сеть или набор фреймов. Примером может служить шаблон банковских транзакций (заранее определенное событие), в котором перечисляются организации и лица, принимающие в нем участие, дата, объем перечисляемых средств, тип транзакции и т.д.

Представленный на рис. 3этап преобразования уникален для реферирования на базе знаний. В процессе преобразования концептуальное представление претерпевает несколько изменений. (52)Избыточная и не имеющая прямого отношения к тексту информация устраняется путем удаления поверхностных суждений или отсечения концептуальных подграфов. Затеминформация подвергается дальнейшему агрегированию путем слияния графов (или шаблонов) или обобщения информации, например, при помощи таксономических иерархий отношений подклассов. Для выполнения этих преобразований предложены методологии на базе выводов, такие как макроправила, которые манипулируют логическими предположениями, или операторы, которые выделяют определяющие шаблоны в текстовой базе знаний [7].В результате преобразования формируется концептуальная репрезентативная структура реферата, по существу, концептуальные «выжимки» из текста.

Наличие этих формальных репрезентативных слоев (структурные и концептуальные «выжимки») отличает подход на базе знаний от подхода, не предполагающего опору на знания. Как видно изрис. 3, этап синтеза одинаков для обоих подходов: текстовый генератор преобразует структурное или концептуальное представление в естественно-языковую аннотацию. Некоторые системы предоставляют пользователю возможность управлять получаемыми «выжимками» методом указания, и не предполагают этапа генерации, при условии, что исходные тексты предоставляются наряду с их кратким изложением. Этот тип реферирования опирается на предварительно определенные структуры знаний, которые заранее указывают системе реферирования, какую концепцию считать более характерной, или какие концептуальные свойства (роли или поля) имеет та или иная концепция. Средство реферирования полностью представляет семантическую информацию в виде связей между узлами в концептуальном графе, как таксономические (подкласс или экземпляр) или метонимические (часть) отношения. В этом случае, он также задает направление и критерии выбора для процедуры поиска или формирования заключений. Правила вывода на базе рефератов или общие схемы вывода (такие как терминологическая классификация) используют эту информацию для определения информации, наиболее точно отражающей существо текста. Эта информация определяет, какие иерархии обобщения должны быть пройдены и какие концептуальные подграфы могут быть при необходимости сжаты. Нарис. 4показаны основы этого процесса.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]