Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
ЛОИ New.doc
Скачиваний:
199
Добавлен:
14.04.2015
Размер:
1.43 Mб
Скачать

Этапы автоматического анализа текста

Входной текст для анализа

ПРЕДАНАЛИЗ

(подготовка текста к восприятию компьютером; поиск и устранение ошибок, расшифровка сокращений и т.п.)

МОРФОЛОГИЧЕСКИЙ АНАЛИЗ

(обработка отдельных слов: выделение основдля поиска значений слов в словаре ифлексий— т.е. приставки, суффикса, окончания и т.п.)

ПОВЕРХНОСТНЫЙ СИНТАКСИЧЕСКИЙ АНАЛИЗ

(установление грамматических отношений в рамках предложения; получение его поверхностной синтаксической структуры)

ГЛУБИННЫЙ СИНТАКСИЧЕСКИЙ АНАЛИЗ

(построение глубинной синтаксической структуры с использованием падежей Филмора и т.п.)

ПОВЕРХНОСТНЫЙ СЕМАНТИЧЕСКИЙ АНАЛИЗ

(установление семантических отношений в рамках предложения)

ГЛУБИННЫЙ СЕМАНТИЧЕСКИЙ АНАЛИЗ

(установление семантических связей предложений)

ПРАГМАТИЧЕСКИЙ АНАЛИЗ

(смысловое связывание текста в единое целое и, в случае необходимости, побуждение к его исполнению — к интерпретации)

ВЫЯВЛЕНИЕ ТЕКСТОВЫХ СТРУКТУР

(в частности, в случае необходимости — компиляция)

В процессе анализа текстов, содержащих более одного предложения, возникают новые структуры, обеспечивающие сцепление этих предложений в рамках некоторой описываемой ситуации или последовательности ситуаций. Возникают межфразовые связи, позволяющие понять текст как единое целое. Эти структуры пока изучены значительно хуже, чем структуры, лежащие в основе одного предложения.

Первый этап-подготовительный, его цель - сделать текст пригодным для ввода в вычислительную машину. Для этого из текста устраняются (если они есть) явные ошибки, расшифровываются сокращения и т. п.

На этапе морфологического анализаобрабатываются отдельные слова: в них выделяются основы и флексии (изменяемые части слов) - приставки, суффиксы, окончания. Основы слов служат для поиска значений слов, хранящихся в специальном словаре основ, а флексии используются для установления грамматических отношений между словами в рамках одного предложения.

Эти отношения выделяются на этапе поверхностного синтаксического анализа. Его результатом является одна из возможных (по форме) поверхностных синтаксических структур для каждого из предложений, образующих текст.

На этапе глубинного синтаксического анализастроится глубинная синтаксическая структура, которая затем,

на этапах семантического анализа, преобразуется вповерхностную и глубинную семантические структуры.

Последующие этапы, показанные на рисунке, позволяют строить при необходимости прагматические и текстовые структуры. Указанные этапы охватывают всю задачу анализа текстов на естественном языке. Необходимость в исполнении тех или иных этапов при анализе конкретного текста зависит от тех целей, для которых тот анализ осуществляется.

Синтез текстов на естественном языке

Задача синтеза может рассматриваться как обратная по отношению к анализу. Если заданы некоторая тема и цель будущего текста, то можно считать заданной прагматическую структуру текста. Ее надо декомпозировать в прагматические структуры отдельных предложений и для каждого предложения пройти все этапы анализа в обратном направлении.

На сегодняшний день здесь еще масса нерешенных проблем. Неизвестно, как генерировать прагматическую структуру текста из тех целей, которые стимулируют создание текста. Непонятно, как эту структуру разбить на прагматические структуры предложений и как от этих частных прагматических структур перейти к глубинным семантическим структурам.

Более известны методы дальнейшего движения по пути генерации текста. Один из возможных путей состоит в использовании актантов действий. С каждым действием связан некоторый набор сопутствующих ему объектов и характеристик. Они, как правило, совпадают с глубинными падежами Филмора. Если, например, мы имеем дело с действием "идти", то с ним тесно связаны субъект, совершающий это действие, пункты начала и конца движения, цель движения и т. п. Это позволяет связать с глаголом "идти" некоторую структуру с набором пустых пока мест:

ДЕЙСТВИЕ

Идти

СУБЪЕКТ

______

КУДА

______

ОТКУДА

. . .

Заглавными буквами в этой структуре обозначены некоторые имена. Первое имя конкретизируется глаголом "идти", а остальные имена пока остаются незаполненными. Эти остальные имена и определяют актанты глагола "идти". Примером заполнения может служить структура:

ДЕЙСТВИЕ

Идти

СУБЪЕКТ

Петр

ЦЕЛЬ

ЗА МОЛОТКОМ

Ей соответствует фраза: "Петр идет за молоком".

Наличие актантных структур действий позволяет представить процесс синтеза текстов в виде ряда следующих друг за другом шагов.

На первом шаге генерируется нужная последовательность глаголов-действий.

На следующем шаге заполняются их актантные структуры, что приводит к появлению глубинной семантической структуры отдельных предложений.

Затем эти структуры связываются с учётом общих действующих субъектов и используемых объектов, а также иных связывающих параметров в единый текст.

Последний шаг - образование синтаксически правильных конструкций в предложениях - в настоящее время не представляет труда, так как теоретически изучен почти досконально.

Таким образом работает, например, автоматическая система создания текстов волшебных сказок, носящая название TALE (сказка), созданная в нашей стране в 70-х годах. На первом шаге она выдает тексты примерно такого вида:

"Жил-был X. Не было у Х желаемого Y. Стал просить Х Бога. Бог обещал.

Появился Y. Вырос Y. Ушел, раз Х и не велел Y делать Z. Но Y сделал Z.

Вернулся X. Y нет. Понял X, что Y сделал Z. Пошел Х искать Y ..."

В памяти системы TALE хранятся данные для заполнения актантов, а одинаковые переменные показывают, что на эти места всюду надо поставить одни и те же заполнители. Так возникает текст: "Жил-был царь. И не было у царя желаемого наследника. Стал царь просить Бога. Бог обещал. Появился наследник. Вырос наследник..."

Мы рассмотрели лишь один из возможных путей построения текстов, да и то не с самого начала. Например, никак не объяснили, как генерируется последовательность глаголов в использованном для примера тексте. Для случая текстов типа волшебных сказок используются формальные специальные грамматики, созданные впервые советским ученым В. Проппом еще в конце 20-х гг. Эти грамматики позволяют строить последовательности действий, не нарушающие логического порядка повествования (например, глагол "ушел X" относительно глагола "X отсутствует" возникнет раньше). В компьютерной лингвистике проблемы синтеза текстов сейчас находятся в центре внимания исследователей, и нет сомнений, что в ближайшее время будут найдены эффективные средства для создания текстов на заданную тему.