Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Lecture 4.doc
Скачиваний:
10
Добавлен:
14.09.2019
Размер:
541.7 Кб
Скачать

3.5.2. Шаблоны ситуаций

Множество цепочек предикатов , соответствующих последовательностям субъект-объектных отношений , соответствующих всем текстам предметной области, разбиваются на множество классов, каждый из которых соответствует одной из подсетей предметной области , обозначенной собственной подтемой . Такой класс цепочек является шаблоном, сравнение с которым цепочки предикатов входного текста позволяет принять решение о степени соответствия входной цепочки теме шаблона.

3.5.3. Понимание текста как его интерпретация в терминах цепочек предикатных структур

Любой текст данной предметной области, порождающий цепочку предикатных структур, таким образом, может быть проинтерпретирован как последовательность подтем предметной области, к которым относятся подцепочки этой цепочки.

При необходимости, эта интерпретация может быть расширена до последовательности соответствующих субъект-объектных пар, предикатных структур, или даже целых предложений, содержащих эти структуры. Последняя интерпретация является наиболее эксплицированной из всех и может быть предназначена для общения с конечным пользователем в случае необходимости представления результатов автоматического смыслового анализа текстов конечному пользователю.

Анализ целого текста на всех уровнях

      1. Построение дерева зависимостей

Анализ фрагмента текста протекает по следующей схеме. С помощью специальных слов-маркеров выполняется фрагментация текста, затем словам приписывают из словаря все их значения. Далее на анализируемый фрагмент текста поочередно накладываются простые шаблоны, известные системе. С помощью специальных правил расширения простой образец преобразуется в полный образец путем добавления слов из текста, которые не вошли в образец. Указанная процедура осложнена тем, что может подойти не один простой образец.

Используя процедуры установления семантической близости полученных образцов, формируется окончательное представление обрабатываемого текста. К недостаткам анализа следует отнести то, что анализ текста осуществляется с помощью словаря шаблонов, которые способны различать только класс событий, а не сами конкретные события.

Построение дерева зависимостей необходимо осуществить с целью выявить каноническую форму класса предложений, имеющих одинаковый смысл и отличающихся порядком слов. Кроме того, в процессе построения дерева зависимостей устраняется синтаксическая омонимия.

Общую схему действий можно представить в виде последовательности шагов.

  1. Членение предложения по знакам пунктуации и сочинительным союзам на исходные отрезки; будем их также называть начальными сегментами. Определение вершин и типов начальных сегментов.

  2. На декартовом произведении омонимов внутри начальных сегментов построение множества однозначных морфологических интерпретаций каждого сегмента.

  3. Построение синтаксических групп для каждой интерпретации сегмента с помощью синтаксических правил, выявляющих синтаксические связи между словами. Оценка синтаксического покрытия каждой интерпретации.

  4. Установление иерархии между сегментами с помощью синтаксических правил: вложения контактно расположенных сегментов (причастных, деепричастных оборотов, обособленного определения); определения однородности между контактно расположенными сегментами; определение отношения импликации между сегментами по подчинительным союзам, в них входящим.

Синтаксические правила задают отношения между словами (сегментами) в предикативном виде.

Фрагментация

Предварительная обработка союзов и приписывание им семантических характеристик. Вводится несколько множеств союзов и устойчивых словосочетаний, которые могут рассматриваться как союзы. В том числе, множество сложных союзов, которые разделены запятой, множество сложных союзов без запятой. Союзам приписывается семантическая интерпретация (в рамках данной работы семантическая интерпретация называется грамматической характеристикой), ориентируясь на тип союза. При этом может возникнуть омонимия, поскольку один союз может иметь несколько типов.

Расстановка границ сегментов. Вводятся множества сочинительных союзов, опираясь на классификацию видов сочинительной связи. Как известно, виды сочинительной связи различаются в соответствии со значением сочинительного союза или его аналога. При задании множеств, отвечающих видам союзов, необходимо учитывать, что союзы могут быть двусоставными. Согласно правилам русского языка, если однородные члены соединены составными союзами, то перед второй частью союза ставится запятая. Поэтому двусоставные союзы опишем с помощью пар слов, где первое слово в паре принадлежит одному сегменту, второе слово, стоящее после запятой, принадлежит следующему сегменту (сегменту справа).

По аналогии с сочинительными союзами, вводятся множества подчинительных союзов, с опорой на существующие типы подчинительных союзов.

Граница сегмента ставится после знака препинания из множества знаков препинания, или после слова из множества сочинительных союзов без запятой. Граница не проходит по тем знакам препинания, которые входят в состав определенных графематическим анализом единиц (сокращения, дробные числа, букво-числовые комплексы и др.). В том случае, если несколько знаков препинания идут подряд, по ним проходит одна граница.

Определение типа сегмента. До построения морфологических вариантов по декартовому произведению омонимов строится аналитическая форма глагола.

Тип сегмента равен одному из следующих значений, указанных в таблице 6.1, по алгоритму, приведенному ниже.

Таблица 3.5. Тип сегмента

Глагол в личной форме

Краткое причастие

Краткое прилагательное

Предикативное слово

Причастие

Деепричастие

Инфинитив

Вводное слово

Иное

1

2

3

4

5

6

7

8

9

Если в сегменте по порядку, указанному в таблице, найдено слово соответствующей части речи без омонимии, то тип определен. Устанавливается тип сегмента ТИРЕ, если в сегменте есть тире (не первым и не последним символом сегмента).

Если нет слов без омонимии, то строится множество однозначных морфологических интерпретаций сегмента, т.е. рассматривается декартово произведение омонимов внутри сегмента.

Пример 1: рассматривается сегмент МАССА РАБОЧЕГО СТЕКЛА

МАССА — сущ. (масса) s[1]={s[1][1]}

РАБОЧЕГО — 1)прил. (рабочий) 2) сущ. (рабочий) s[2]=(s[2][1], s[2][2])

СТЕКЛА — 1) сущ (стекло), 2) глагол (стекать) s[3]=(s[3][1], s[3][2])

В результате имеем 4 морфологические интерпретации

    1. МАССА (сущ) РАБОЧЕГО (прил) СТЕКЛА (сущ) type_sg=9 first=0

    2. МАССА (сущ) РАБОЧЕГО (прил) СТЕКЛА (гл) type_sg=1 first=s[3][2]

    3. МАССА (сущ) РАБОЧЕГО (сущ) СТЕКЛА (сущ) type_sg=9 first=0

    4. МАССА (сущ) РАБОЧЕГО (сущ) СТЕКЛА (гл) type_sg=1 first=s[3][2]

Каждой морфологической интерпретации сегмента ставится в соответствие отдельная структура. В данном примере сегменту МАССА РАБОЧЕГО СТЕКЛА будет соответствовать 4 структуры.

Снятие омонимии внутри сегмента. До построения морфологических вариантов по декартовому произведению омонимов строится аналитическая форма глагола.

Если предикат омонимичен только с потенциально не предикатной частью речи, стоит непосредственно после глагола «быть» в будущем времени и сегмент содержит инфинитив несовершенного вида, то строится форма глагола из трех частей: «будет»+предикат+ инфинитив.

Примеры: жить здесь будет невыносимо — здесь будет_невыносимо_жить; ты когда-нибудь будешь красиво улыбаться — ты когда-нибудь будешь_красиво_улыбаться

Если type=2 || type=3 (краткое прилагательное или причастие), но в предложении нет согласованного существительного (местоимения) по числу, падежу, роду, то такая интерпретация удаляется.

Пример 2: сегмент она не права имеет 5 морфологических интерпретаций:

      1. ОНА (местоим, ж.р., ед.ч. им.п) НЕ (частица) ПРАВА (кр. прил, ж.р., ед.ч. им. п.) type=3 Ver=3

      2. ОНА (местоим, ж.р., ед.ч. им.п) НЕ (частица) ПРАВА (кр. прил, ж.р., ед.ч., вин. п.) type=3 Ver=3

      3. ОНА (местоим, ж.р., ед.ч. им.п) НЕ (частица) ПРАВА (сущ, и.п. мн.ч.) type=9 Ver=0

      4. ОНА (местоим, ж.р., ед.ч. им.п) НЕ (частица) ПРАВА (сущ, вин.п. мн.ч.) type=9 Ver=0

      5. ОНА (местоим, ж.р., ед.ч. им.п) НЕ (частица) ПРАВА (сущ, р.п. ед.ч.) type=9 Ver=0

Удаляется интерпретация 2.

Пример 3: в предложении права забрали в милиции уничтожается омоним слова права (краткое прилагательное женского рода единственного числа), т.к. во всем предложении нет существительного (местоимения), с ним согласованного.

Оценка синтаксического покрытия каждой морфологической интерпретации с помощью синтаксических правил. При этом считается вес сегмента - количество синтаксически связанных словосочетаний в сегменте. Выбираются те морфологические интерпретации сегмента, которые имеют максимальный вес.

В Примере 1 МАССА РАБОЧЕГО СТЕКЛА наибольший вес=2 имеют интерпретация 1 и 4. В примере2 максимальный вес имеет интерпретация 1.

Если в сегменте есть неомонимичная предикация (глагол в личной форме, краткое прилагательное, краткое причастие, предикативное слово, причастие или деепричастие, т.е. type=1-6), то во всех остальных словах данного фрагмента уничтожаются омонимы этих частей речи.

Например, сегмент СТЕКЛО НА СОЛНЦЕ БЛЕСТИТ,

Так как БЛЕСТИТ - неомонимичная форма глагола БЛЕСТЕТЬ, то в сегменте удаляется омоним слова СТЕКЛО (от глагола стекать).

Синтаксические правила, выявляющие синтаксические связи между словами

Как известно, синтаксическим существительным считается любое слово следующих классов: морфологическое существительное, субстантивное местоимение, местоимения-прилагательные КАЖДЫЙ, ОДИН, ДРУГОЙ, ТОТ, КОТОРЫЙ.

В сегменте устанавливается связь подлежащее-сказуемое. Рассмотрим такие случаи.

1. Сегмент имеет тип ТИРЕ. Если в левой части предложения от тире стоит синтаксическое существительное в номинативе или инфинитив, то данное существительное или инфинитив объявляется потенциальным подлежащим. В случае, когда найдены одновременно и существительное в номинативе и инфинитив, то приоритет отдается инфинитиву. Если в правой части предложения от тире стоит синтаксическое существительное в номинативе или инфинитив, то данное существительное или инфинитив объявляется потенциальным сказуемым. В случае, когда найдены одновременно и существительное в номинативе и инфинитив, то приоритет отдается инфинитиву.

2. Сегмент имеет тип type_sg =1-3. Сказуемым объявляется first — главное слово сегмента. Если сказуемое имеет лемму из множества {"казаться", "следовать"}, 3 лицо ед. числа или средний род, если перед сказуемым стоит синтаксическое существительное в дательном падеже и без именительного, тогда подлежащее отсутствует.

Пример: Вам следует уйти, Пете кажется, что он прав (для первого сегмента)

Потенциальным подлежащим может быть любая словоформа в номинативе следующих классов (в порядке приоритета):

  • словоформа "кто";

  • личное местоимение в номинативе;

  • синтаксические существительные, имеющие номинатив и не являющиеся "что";

  • любое порядковое числительное или прилагательное, если оно имеет номинатив;

  • словоформа "что", стоящая в начале сегмента если сказуемое является непереходным глаголом или со сказуемым была построена группа ПРЯМ_ДОП.

Примеры: я знаю, что пришло ко мне; я знаю, что сделало тебя дураком – в этих случаях "что" станет подлежащим.

После обнаружения подлежащего и сказуемого проверяется их согласование. Если сказуемое – сравнительное прилагательное, тогда подлежащее должно стоять до него, никакого согласования не требуется.

Анализ на наличие синтаксически связанных слов в сегменте проводится слева направо в соответствие с синтаксическими правилами, примеры которых приведены ниже. Все правила не перечисляются, так как это не входит в основную тему работы. Приведенные ниже правила необходимо применять к текущему слову в том порядке, в котором они перечислены.

Примеры синтаксических правил для выявления синтаксически связанных слов.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]