Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Lecture 4.doc
Скачиваний:
10
Добавлен:
14.09.2019
Размер:
541.7 Кб
Скачать

Уровни языка

Язык членится на участки (планы, ярусы, уровни). Уровень - это крупная часть языка, состоящая из однородных единиц и включающая набор правил, регулирующих использование этих единиц, их группировку в классы и разряды. Уровни автономны, каждый Уровень характеризуется особой единицей, предельной и минимальной для каждого уровня.

Различают следующие уровни: 1)фонемный, 2)морфемный, 3) лексический, 4)семантико-

синтаксический.

Уровнеобразующие единицы - сущность, отражающая характеристики объекта. Они

характеризуются особой субстанцией, функциями, в зависимости от уровня выделяют следующие:

1. фонема — неделимая, единица, класс вариантов звука (аллофонов), фонему

можно представить в виде набора дифференциальных признаков.

Функции -1. строительная 2. смыслоразличительная.

2. морфема - полноценная двусторонняя (имеет план выражения и план содержания)

знаковая единица. Морфема обладает значением (лексическое, словообразовательное,

грамматическое), но не является целостной единицей, не обладает грамматической

оформленностью и смысловой самостоятельностью.

Функции - 1. семасиологическая (может выражать значение, например, суффикс л в

глаголах указывает на прошедшее время - «проходила») 2. строительная.

3. слово (лексема) - целостная единица, обладающая морфологической

оформленностью и смысловой самостоятельностью. Лексема (от греч. lexis — слово, выражение,

оборот речи) — слово как самостоятельная единица языка, рассматриваемая во всей совокупности

своих форм и значений. В одну лексему объединяются разные словоформы одного слова

(например, «словарь, словарём, словарю» и т. п.).

Функции - 1. минимальная номинативная единица (может называть вещи в отличие от

морфемы) 2. строительная (входит в состав словосочетания и предложения).

4. предложение - минимальная коммуникативная единица языка (с помощью нее

осуществляется общение). Предложение утверждает наличие объекта, оно обладает временной

характеристикой, модальностью. Предложение отличается от слова по степени сложности

выражаемого им смысла и функцией. Предложение -сочетание нескольких слов. Любое

предложение строится на предикации (выделение какого-либо объекта и приписывание ему

признака).

Функции - 1. номинативная 2, строительная.

5. текст - особая единица языка (не уровень, но единица), В тексте предложения

связаны между собой по смыслу. Наличие связности - важное свойство.

Функции -1.коммуникативная 2. информативная.

Свойства единиц на шкале:

- протяженность(чем выше, тем протяженней);

2

- единица каждого предыдущего уровня входит в состав единицы последующего уровня;

- каждая последующая единица сложнее по структуре;

- кумулятивность- (накопление свойств);

- каждая единица имеет особую структуру, а также особые отношения между единицами

того же уровня;

- каждая единица на своем уровне обладает свойствами целостности и минимальности.

Знания об уровнях языка активно используются как при создании систем, обрабатывающих

текст, так при при создании систем понимания речи (СПР).

Организация систем понимания речи

Понимание речи обычно трактуют как преобразование акустического представления речи в

смысловое. Понимание речи следует отличать от распознавания речи, где целью является

сопоставить речевое высказывание с соответствующими словами в словаре. Речевой сигнал

является недостаточным источником информации, для успешного распознавания и интерпретации

важно и знание контекста речевого высказывания.

Системы по распознаванию речи основаны на поиске наиболее точного соответствия между

определенными произнесенными словами и словарем акустических образцов слов. Однако такой

подход, работающий для распознавания изолированных слов, неприемлем для непрерывной речи,

так как входной акустической сигнал в этом случае не может быть эффективно смоделирован, как

простое сочетание произнесенных частей лексических единиц. Тем не менее, необходимо

начинать с основных лингвистических единиц, таких как фонемы, и сохранять информацию о

ритме и длительности речевого высказывания.

Если следуют таким путем, то подход к обработке речи, основанный скорее на знании, чем

на соответствиях с образцами, становится неизбежным, так как, чтобы извлекать преимущества из

распознавания конкретных лингвистических единиц в сигнале, необходимо знать, как данная

единица связана с остальной частью языка.

СПР имеют дело со связанными единицами речи, такими как, фразы, предложения и даже

параграфы, так как «понимание» изолированных слов может означать только тривиальный

процесс сопоставления некоторого значения к каждому слову словаря системы. Понимание

связанной речи - очень сложная задача, и на проектирование СПР повлияли исследования в таких

разных областях, как акустическая обработка сигнала, нейро-физиология, психолингвистика,

психология.

Посредником при преобразовании речи в ее значение должны служить определенные

компоненты, которые используют разнообразные источники знания (ИЗ), т.к. речевой сигнал

кодирует много различной информации, необходимой для восстановления значения.

Единственной возможной организацией СПР и основных ИЗ является следующая:

РЕЧЬ — ОБРАБОТКА АКУСТИЧЕСКОГО СИГНАЛА — ФОНЕТИЧЕСКИЙ АНАЛИЗ —

ФОНОЛОГИЧЕСКИЙ АНАЛИЗ — МОРФОЛОГИЧЕСКИЙ АНАЛИЗ — ЛЕКСИЧЕСКИЙ

ДОСТУП К СЛОВАРЮ — СИНТАКСИЧЕСКИЙ АНАЛИЗ — СЕМАНТИЧЕСКИЙ АНАЛИЗ —

ЗНАЧЕНИЕ.

При такой организации СПР информация течет вверх по мере того, как каждый элемент

создает промежуточные представления, кодируя (частичные) гипотезы относительно ввода на

основе ему доступного знания.

Акустическая обработка оцифровывает сигнал, трансформирует его так, чтобы представить в той форме, которая поддается фонетическому декодированию. Параметрический сигнал может затем быть помечен как дискретная последовательность фонем.

Фонологический анализ выполняется на фонетическом представлении, которое определяет лингвистически важные различия, имеющиеся в фонетическом представлении произнесения, например, уровни и расположение ударения, интонационный контур, структуры слога, последовательности фонем, лежащих в основе произнесения.

Фонологический анализ необходим для лексического доступа, т.е. процесса, который сопоставляет фонетическую форму произнесения с каноническими фонемными представлениями слов в словаре, чтобы восстановить информацию, хранящуюся там относительно их морфологических, синтаксических, и семантических свойств. Фонологическое знание относительно допустимых последовательностей фонем в слогах может использоваться, чтобы распознать слог, и следовательно, границы слова.

Как только фонологический анализ завершен, дальнейшая обработка ввода будет подобна пониманию текста. Дальнейшие морфологический, синтаксический, семантический и прагматический анализ способствуют распознаванию, эксплуатируя избыточность речи, в информационно-теоретическом смысле. Прежде, чем слова, выделенные в речевом сигнале будут сопоставлены с лексическими входам в словаре системы, необходимо провести морфологический анализ, который приведет слова к их основной форме.

После морфологического анализа возникшее морфофонологическое представление речевого ввода может быть найдено в словаре системы, чтобы получить синтаксическую и семантическую информацию относительно гипотезы последовательности слов. Задача синтаксического анализа - исключить гипотезы слова на основе синтаксически недопустимых последовательностей.

На этапе семантического анализа гипотезы подвергаются дальнейшей обработке, учитывая смысловой фактор с помощью семантических отношений. Однако должно быть взаимодействие между этими и более низкими уровнями анализа не только, потому что они будут дополнять правильное распознавание произнесения, но также потому что некоторые аспекты фонологического анализа, особенно касающиеся ударения и интонации, будут способствовать интерпретации. Ударение, например, необходимо для определения контекстуально новой информации и для нахождению зависимых слов для местоимений. Остановимся на этом виде лингвистического анализа более подробно.

Фонетический и фонологический анализ

Несомненно наиболее важная область в обработке речи, нуждающаяся в исследованиях, -

это акустическо-фонетический анализ. Его цель — найти фонемное представление слова. Если

акустическо-фонетический анализ слабый, то ошибочные гипотезы выдадут в итоге неправильный

анализ. Сегментация и идентификация акустического сигнала в последовательности

лингвистических единиц чрезвычайно трудна, поскольку акустическое сигналы,

ассоциирующиеся с сегментами, непосредственно с ними не связанны; на эти сигналы сильно

влияют соседние сегменты.

Акустическо-фонетический компонент необходим для любой обрабатывающей речь

системы, основанной на знаниях, потому что система требует знания относительно

фонологических процессов, активных в языке и в прикладных программах, чтобы восстанавливать

канонические произношение слов, которые могут быть сопоставлены с соответствующими

входами словаря, и получать дальнейшие сигналы к синтаксической и

семантической/прагматической интерпретации речевого высказывания. Однако, фонологические

компоненты в значительной степени ограничены лексическими, сегментными процессами и

обычно имеют дело с фонологически управляемыми изменениями, генерируя альтернативное

произношение для индивидуальных лексических единиц и сохраняя их в дополнительном словаре.

Этот подход не может иметь дело адекватно с фонологическими процессами, которые соединяют

границы слова, типа палатализации (смягчения). В этом случае полезна сегментация, которая,

разлагая на слоги и слова речь, может обеспечить сведения для синтаксического анализа.

4

Палатализация соединяет границы слова, но блокирована на границах главных синтаксических

составляющих, так что ее отсутствие может использоваться, чтобы решить неоднозначность

относительно присутствия такой границы в данном месте речевого сигнала.

Согласно артикуляционной теории звук образуется в 3 стадии:

1) экскурсия (приготовление);

2) произнесение;

3) рекурсия (расслабление).

В русском языке, так же как и во многих других, два типа звуков: гласные и согласные.

Гласные звуки характеризуются по ряду, длительности, лабиализации, напряженности;

согласные — характеризуются по месту образования, способу, твердости/мягкости,

глухости/звонкости, придыхательности.

Так как звуки речи произносятся неизолированно, а в звуковой цепи связной речи, то звуки

могут, во-первых, влиять друг на друга, когда рекурсия предыдущего звука взаимодействует с

экскурсией последующего, и, во-вторых, испытывать влияние общих условий произношения. В

результате появляются следующие фонетические процессы:

1) редукция (изменение длительности звуков в безударных словах:

количественная/качественная). Она тесно связана с ударением: -силовое -количественное(ударный

звук произносится более долго) -тоновое(изменение высоты тона).

2) аккомодация - взаимное приспособление гласных и согласных(малый-мяло), качество

согласного влияет на качество гласного и наоборот.

3) ассимиляция - качественное уподобление смежных по произношению звуков. Бывает

-прогрессивной (когда предыдущий звук влияет на последующий) -регрессивной (когда

последующий звук влияет на предыдущий, например вокзал - [вогзал], лодка - [лотка]).

4) диссимиляция - расподобление, когда из 2 одинаковых или подобных звуков получается

2 различных звука. Процесс, противоположный ассимиляции(кто - [хто]).

Фонема и звук - разные понятия, поскольку фонема - психическое явление, а звук —

акустико-физиологическое.

Фонема – полифункциональная единица языка, которая: различает звуковые оболочки слов

и морфем; доводит звуки речи до восприятия; является смыслоразличительная. При этом фонема -

целиком психическое явление, равно как и аллофон, реализацией их в речи является звук. Одной

фонеме могут соответствовать несколько различных ее реализаций или аллофонов. Аллофон -

группа звуков, в которых реализуется данная фонема в зависимости от характера выполняемой

ими функции, места в слове и соседства с другими звуками, а также ударности и безударности.

Для нахождения канонического фонемного представления слова русского языка в словаре

по его фонетической форме произнесения необходимо учитывать следующее.

В русском языке существуют определенные буквенно-звуковые соотношения. К наиболее

частотным и обычно вызывающим затруднение при написании транскрипции слова, или его

звукового состава, относятся следующие:

- буква обозначает несколько звуков (е, ё, ю, я начале слова, после гласного, после

разделительных Ь и Ъ): юла - [йула]. В отдельных случаях после Ь два звука может обозначать и

гласная и: ручьи -[ручйи];

- несколько букв обозначают один звук (сч, жч, зч = [щ]; дс, тьс, тс = [ц]): возчик -

[вощик], детский - [д'эцк'ий].

В зависимости от характера слога, в котором гласные звуки находятся, а их шесть: [а, о, э,

у, ы, и] - они делятся на ударные и безударные. Все гласные могут находиться в ударном и

безударном положении, но безударный гласный о встречается лишь в отдельных заимствованных

словах: радио - [рад'ио].

Согласные звуки (их 36) характеризуются по твердости/мягкости и звонкости/глухости.

30 согласных образуют пары по твердости/мягкости: [б - б', в - в', г - г', д - д', з - з', к - к', ,л -

л', м - м', н - н', п - п', р - р', с - с', т - т', ф - ф', х - х'].

5

Всегда твердыми, или твердыми непарными, являются [ж, ш, ц], а всегда мягкими, или

мягкими непарными, - [й, ч, щ].

Всегда звонкими, или звонкими непарными, являются [й, л, м, н, р], а всегда глухими, или

глухими непарными, - [х, ц, ч, щ].

Следует учитывать и наличие фонетических процессов, т.е. влияния звуков друг на друга в

потоке речи. Например, произношение предлога к в положении перед глухим и звонким (к тебе -

[кт'эб'э], к дому - [гдому]), начальную и в изолированном употреблении и при наличии предлога

(идеал - [ид'эал], в идеале - [выд'эал'э]).

В некоторых случаях допускается несколько вариантов произношения того или иного

слова: мясной - [м'исной] и [м'эсной], (о) терпении - [т'эрп'эн'ии], [т'эрп'эн'ийэ], [т'ирп'эн'ии] и

[т'ирп'энийэ], цепочка - [цэпочка] и [цыпочка].

Основные термины морфологии

МА тесно связан с морфологическим уровнем языка, единицей которого является морфема.

Морфемы по обязательности наличия в слове делятся на: корневые (корни) — обязательные;

аффиксальные (аффиксы) - необязательные.

Корень — основная значимая часть слова. Является обязательной частью любого слова —

не существует слов без корня (кроме редких вторичных образований с утраченным корнем типа

русского вы-ну-ть (префикс-суффикс-окончание).

Аффикс — вспомогательная часть слова, присоединяемая к корню и служащая для

словообразования и выражения грамматических значений. По положению относительно корня:

• префиксы — перед корнем (традиционное название в русском языке — приставки);

• постфиксы — после корня.

По словоизменяющей функции:

• словонеизменяющие аффиксы — передают грамматическое и лексическое значение;

• флексии — словоизменяющие аффиксы, которые передают реляционное, т.е.

указывающее на связь с другими членами предложения, значение и являются показателем

комплекса грамматических категорий, выражающихся в словоизменении (в русском языке обычно

называются окончаниями, так как являются исключительно постфиксами).

Различают внутреннюю и внешнюю флексию. Внутренняя флексия – это такой способ

словоизменения, при котором формы слова образуются изменением звуков внутри основы

(родилась — родился, пеку — пёк). Внешняя флексия (фузия) – словоизменение, пользующееся

синтетическими аффиксами (пол-е, пол-я, пол-ей). Языки, в которых словоизменительное и

словообразовательное значение выражается преимущественно флексией, называются

флективными.

В отличие от флексии основа – это неизменяемая часть слова, которая выражает его

лексическое значение, то есть соотнесённость звуковой оболочки слова с соответствующими

предметами или явлениями объективной действительности. Применительно к русскому языку

основа – это часть слова без окончания. В английском языке основа слова, как правило, полностью

совпадает с самим словом.

Следовательно, слово можно представить следующим образом

префикс+корень+постфикс=СЛОВО=основа+флексия

Флективные языки, в свою очередь, делятся на синтетические и аналитические.

Синтетические языки — типологический класс языков, в которых преобладают

синтетические формы выражения грамматических значений. В синтетических языках

грамматические значения выражаются в пределах самого слова с помощью:

2

• аффиксации - присоединения аффиксов к основе слова;

• внутренней флексии - выражения грамматических значений при помощи изменения

состава корня;

• ударения (замОк зАмок );

• супплетивизма - образования словоизменительной формы некоторого слова уникальным

для языка образом, например, идти - шел, т. е. формами самих слов.

Для выражения отношений между словами в предложении могут быть использованы также

элементы аналитического строя, а именно:

• служебные слова - слова, не способные выступать самостоятельно как члены

предложения и служащие для связи знаменательных слов во фразе, например, союзы, предлоги,

или для их грамматической (синтаксической) характеристики, например, артикли;

• порядок знаменательных слов - полнозначные слова, самостоятельные слова,— слова,

обладающие лексической самостоятельностью, то есть называющие предметы и признаки или

указывающие на них и таким образом наполняющиеся конкретным предметным или признаковым

содержанием только в условиях речи, контекста, интонация).

Аналитические языки — языки, где грамматические значения главным образом

выражаются вне слова, в предложении: английский, французский, болгарский и все изолирующие

языки, например, вьетнамский. В этих языках слово — передатчик лексического значения, а

грамматические значения передаются отдельно: порядком слов в предложении, служебными

словами, интонацией и т.п.

Пример: В русской фразе отец любит сына слово сына принимает падежное окончание.

Если изменить порядок слов — сына любит отец, то смысл фразы не изменится. В английской же

фразе the father loves the son при смене порядка слов на the son loves the father меняется и смысл

фразы — сын любит отца, так как падежные окончания отсутствуют и слово son звучит и

пишется одинаково и в случае соответствия его именительному падежу русского языка, и

косвенным падежам. Поэтому смысл предложения зависит от порядка слов в предложении. В

русской фразе добро побеждает зло смысл зависит только от порядка слов в предложении.

Парадигма (от греч. παράδειγμα, «пример, модель, образец») — в лингвистике список

словоформ, принадлежащих одной лексеме и имеющих разные грамматические значения. Обычно

представлена в виде таблицы. Словоизменительная парадигма выступает образцом того, как

строятся словоизменительные формы для целых классов лексем (склонений существительных,

спряжений глаголов и т. п.)

Построение парадигм — одно из первых лингвистических достижений человечества;

вавилонские глиняные таблички с перечнями парадигм обычно считаются первым памятником

лингвистики как науки.

Обычно парадигмы упорядочены в некотором традиционном порядке граммем, например,

парадигма русского склонения записывается в порядке падежей И — Р — Д — В — Т — П: рука,

руки, руке, руку, рукой, о руке

Парадигма личного спряжения в европейских языках записывается обычно в порядке иду-

идёшь-идёт (и соответственно лица называются первым, вторым и третьим), а, например, в

арабском языке порядок обратный.

Лемма — это начальная (словарная) форма лексемы. Процесс привода словоформы к

лемме — её словарной форме называется лемматизацией. В русском языке начальными формами

являются:

• для существительных — именительный падеж, единственное число;

• для прилагательных — именительный падеж, единственное число, мужской род;

• для глаголов, причастий, деепричастий — глагол в инфинитиве.

Примеры: кошками → кошка, бежал → бегать, боязненных → боязненный

3

Морфологическая информация, этапы морфологического разбора текста

Цель МА — определить принадлежность некоторой словоформы к парадигме

определенной лексемы и грамматические признаки для этой словоформы – морфологическую

информацию (МИ) для использования ее на последующих этапах обработки ЕЯ текста.

Так для существительных этими признаками будут: род, число, падеж и склонение, для

прилагательных: род, число и падеж; для глаголов - время, лицо, число, спряжение, вид; для

местоимений – число и лицо. Классификация морфологических признаков слов русского языка

изображена на рисунке 1.

Рис.1. Морфологические признаки слов русского языка

Для русского языка, как и для большинства синтетических языков, задача лексико-

грамматического разбора решается довольно просто и почти стопроцентной точностью, благодаря

их развитой морфологии. В аналитических языках, например английском, где широко

представлена лексическая многозначность, простой алгоритм, сопоставляющий каждому слову в

тексте наиболее вероятный для данного слова морфологический класс, дает лишь около 90%

точности.

Для синтетических языков морфологический разбор текста включает:

1. Выделение внутри предложений отдельных словоформ.

2. Определение всех вариантов комбинаций основ и аффиксов для каждой словоформы и,

соответственно, вариантов грамматических форм.

3. Устранение грамматической неоднозначности на основе комбинаторного словаря,

содержащего все контексты употребления слов.

Для увеличения точности разбора используются два типа алгоритмов: вероятностно-

статистические и основанные на продукционных правилах.

4

Алгоритмы, основанные на продукционных правилах, используют правила, которые

строятся автоматически на основе некоторого корпуса текстов или создаются лингвистами.

Вероятностно-статистические алгоритмы используют, в основном, два источника

информации.

Словарь словоформ, в котором каждой словоформе соответствует множество лексико-

грамматических классов, которые могут быть у данной словоформы. Для каждого лексико-

грамматического класса указывается частота его встречаемости относительно других

морфологических классов данной словоформы.

Информация о встречаемости всех возможных последовательностей морфологических

классов попарно, по тройкам, по четверкам и т.д. с относительной частотой такой пары (тройки,

четверки и т.д.). Эта информация обрабатывается неким статистическим алгоритмом (например,

на основе скрытых цепей Маркова) для нахождения наиболее вероятного лексико-

грамматического класса для каждого слова в предложении.

Оба подхода дают примерно одинаковый результат на уровне 96-98 % точности.

Существует несколько классификаций основных видов алгоритмов морфологического

анализа. По использованию словарей системы МА можно разделить на словарные (со словарем

словоформ или со словарем основ) и бессловарные, а по организации алгоритмов — на методы с

декларативной, процедурной и комбинированной ориентацией.

Обзор основных алгоритмов морфологического анализа

МА со словарем основ является наиболее распространенным способом анализа. Для его

проведения требуется словарь основ слов и ряд вспомогательных таблиц.

Если слово имеет несколько вариантов основ, то словарь, как правило, содержит все

варианты. Обычно в этом случае один из вариантов основы помечается как основной, а другие

варианты содержат ссылку на него. Это необходимо для дальнейшего семантического анализа,

чтобы устранить различные смысловые трактовки для одного и того же слова. Дополнительные

таблицы содержат, как правило, список возможных вариантов изменяемых частей слов (в русском

языке – окончаний) с соответствующим им значением грамматических признаков.

В общем случае производится поиск всего слова в словаре основ, если слово не найдено, от

него отделяется последняя буква и производится повторный поиск. Так продолжается до тех пор,

пока основа не будет найдена либо пока не останется букв. В случае удачного поиска из словаря

извлекаются варианты частей речи, соответствующих этой основе. Затем производится поиск в

таблице изменяемых частей слова. При этом пропускаются варианты соответствующие частям

речи, к которым данная основа не может относиться. Таким образом, определяются

грамматические признаки разбираемой словоформы.

Малоэффективным представляется МА со словарем словоформ, подразумевающий

наличие словаря, содержащего список все возможных словоформ (например, все варианты

сочетаний падежа и числа для каждого существительного) с соответствующими им

грамматическими признаками. Кроме значительного роста словаря возникает еще одна проблема:

в случае отсутствия словоформы в словаре система не имеет возможности оперировать этим

словом.

Среди словарных систем можно выделить системы с предсказанием. Предсказание

необходимо для анализа слов, отсутствующих в словаре, и основано на выявлении аналогий

анализируемого слова с имеющимися словарем.

Предсказание включает в себя предсказание префиксального образования предсказание по

концовке, взятой из известных словоформ

При предсказании префиксального образования делают попытку найти существующую

словоформу языка, которая максимально совпадала бы справа со входным словом. Если левая

5

часть (потенциальный префикс) не длиннее M символов (пяти), а правая часть (совпавшая с

известной словоформой) не короче N символов (четырех), то слово разбирается по образцу

известной словоформы. Например:

[евро]технологию, [супер]коньками

Для оценки качества предсказания вычисляют точность предсказания – отношение

количества случаев, когда в результатах предсказания при котором был хотя бы один правильный

результат (одновременно лемма, часть речи, род, число и падеж, и т.п.).

Безсловарный МА проводится без использования словарей основ или начальных форм, а

лишь с использованием таблицы аффиксов, списка слов-исключений и списка служебных

неизменяемых слов (например, союзов, междометий, предлогов). Этот способ используется

достаточно редко.

Существуют три основных метода реализации МА: декларативный, процедурный и

комбинированный. При декларативном методе в словаре хранятся все возможные словоформы

каждого слова с приписанной им МИ. В этом случае задача МА состоит просто в поиске

словоформы в словаре и переписывании из словаря МИ, поэтому можно считать, что в этом

методе отсутствует как таковой морфологический анализ, а хранится только его результат. Так как

количество различных словоформ у каждого слова довольно велико, декларативный метод требует

больших затрат памяти вычислительной системы, что порождает ряд технических проблем,

заключающихся в больших затратах труда на создание и поддержание словаря, в высокой

избыточности информации. Достоинствами метода является высокая скорость анализа, а также

универсальность по отношению к множеству всех возможных словоформ русского языка.

Процедурный МА выполняет следующие функции: выделяет в текущей словоформе

основу, идентифицирует ее и приписывает данной словоформе соответствующий комплекс МИ.

Процедурный метод предполагает предварительную систематизацию морфологических знаний о

ЕЯ и разработку алгоритмов присвоения МИ отдельной словоформе. Недостатком такого подхода

является высокая трудоемкость составления словарей совместимости. При этом наличие в русском

языке большого числа слов-исключений не позволяет сколько- нибудь автоматизировать этот

процесс. Для проведения анализа словоформы необходимо наличие словарей «приставка-корень»,

«корень – суффикс - флективный класс», «флективный класс – окончание - МИ».

Существует два подхода к решению задачи процедурными методами.

Первый подход предполагает наличие словаря основ и словаря аффиксов. Для слова

выполняется процедура поиска в словаре основ. При этом ищутся все основы, с которых может

начинаться анализируемое слово. Если очередная основа удовлетворяет этому условию, то из

словаря аффиксов извлекается строка, содержащая все возможные аффиксы для данной основы.

Каждый аффикс из этой строки поочередно присоединяется к основе, и результат сравнивается с

анализируемым словом. В случае их точного совпадения формируется очередная запись в список

результатов поиска: по порядковому номеру аффикса в строке аффиксов определяются

переменные морфологические параметры слова (например, для существительного - число и

падеж), а по словарной информации данной основы - его постоянные параметры (для

существительного — род и одушевленность).

Если в результате такого поиска не найдено ни одного успешного варианта, то проводится

поиск среди исключений. Исключения присутствуют в словаре основ наряду с обычными

основами. И те, и другие имеют в словаре информацию о постоянных морфологических признаках

и о номере строки допустимых аффиксов.

Разница между исключениями и обычными основами состоит в том, что, во-первых, строка

с неизменной частью слова у исключений пустая, и, во-вторых, номер строки аффиксов для

исключений относится не к файлу аффиксов, а к отдельному файлу исключений. Структура этого

файла точно такая же, но в него внесены целые словоформы, а не их окончания. Таким образом,

при поиске среди исключений приходится просматривать все словоформы всех присутствующих в

словаре исключений. Это занимает много времени, поэтому поиск среди исключений проводится

только в том случае, когда не найдено ни одного варианта среди обычных основ. Сам анализ

проводится точно так же. Если некоторая словоформа некоторого исключения точно совпадает с

6

анализируемым словом, то по номеру словоформы определяются переменные морфологические

параметры слова, а по словарной информации самого исключения — постоянные параметры

слова.

Если после поиска среди исключений все равно не найдено ни одного варианта, то

проверяется наличие у анализируемого слова возвратного суффикса ся, сь, или приставок не, ни.

Если они есть, то они отсекаются от анализируемого слова, и процедура поиска повторяется

сначала. При этом морфологические параметры находимых основ модифицируются специальной

процедурой. В случае, когда все этапы поиска дали отрицательный результат (не найдено ни

одного варианта), пользователю выдается запрос на ввод новой основы в словарь. В случае его

отказа это сделать выполнение морфологического анализа прекращается. Если же новое слово

введено в словарь, то вся процедура поиска повторяется сначала.

Второй подход предполагает наличие словаря начальных форм и МИ, необходимой для

словоизменения (как-то, часть речи, род и т.д.), а также массивов окончаний и программной

реализации правил чередования в основе. Подход состоит в том, что слово последовательно

причисляется к каждой из частей речи. Последовательно выбираются окончания для этой части

речи. В случае, если окончание одной из косвенных форм совпадает с концовкой слова,

совпадающая часть отбрасывается, производятся чередования в основе, если слово соответствует

шаблону чередования, и к полученной основе добавляется окончание леммы. При построении

леммы запоминается промежуточная информация.

Таким образом, все леммы, которые можно построить, вместе с промежуточной

информацией собираются в список. Каждое слово этого списка ищется в словаре лемм.

Результатом лемматизации является список слов, найденных в словаре, для которых

промежуточная информация соответствует грамматической информации из словаря.

Работающая система, в которой реализован процедурный МА, занимает значительно

меньший объем памяти, но при этом увеличивается время поиска МИ за счет разбиения

словоформы на составляющие и применения процедур совместимости. Исходя из этого,

процедурный метод удобнее применять в системах с относительно небольшим количеством

пользователей, в то время как декларативный – в системах с частым обращением к

лингвистическому анализатору. Другим существенным недостатком процедурных методов

является отсутствие универсальности, т.к. существует большое количество слов, которые нельзя

представить в виде суммы неизменной основы и аффикса, например, существительное год,

которое имеет во множественном числе родительного падежа форму лет; местоимение я и т. д.

В системах реальной степени сложности чаще используется комбинированный вариант

МА. При этом используется как словарь словоформ, так и словарь основ. На первом этапе

проводится поиск по словарю словоформ, как при декларативном методе, и в случае успешного

поиска анализ на этом завершается. В противном случае задействуется словарь основ и

процедурный метод анализа.__

    1. Морфологический анализ

Для формирования словаря корневых основ на лексическом уровне использовался модуль морфологического анализа, разработанный в Донецком институте искусственного интеллекта [3].

Модуль морфологического анализа

В комплект поставки библиотеки морфологического анализа слов русского языка входят следующие файлы:

  • GlobalFunc.h – заголовочный файл с описанием экспортируемых функций и используемых типов;

  • UkrDeclareLemma.dll, UkrDeclareLemma.lib – файлы библиотеки;

  • tab.dat, tree.dat, connect.dat – файлы, содержащие данные словарной базы.

Интерфейс библиотеки

Интерфейс библиотеки позволяет выполнять действия по следующим направлениям:

  • очистка, загрузка и сохранение словарной базы;

  • модификация словарной базы;

  • получение информации о словоформах;

  • получение информации о словарной базе;

  • служебные функции.

Cпособ представления морфологической информации

Морфологическая информация хранится в виде набора бито­вых полей. Такой способ сочетает в себе простоту обработки и экономное хранение морфологической информации. При таком способе извлечение отдельных морфологических характеристик слова про­изводится единообразно, невозможна неверная интерпретация морфологи­ческой информации.

Перечень обозначений морфоло­гических характеристик, приведен в таблице 3.1. Для извлечения мор­фологической информации, используются маски категорий морфологической информации, приведенные в таблице 3.2.

Определение значения одной из категорий, например рода, происходит путём применения операции побитового «и» значения морфологической ин­формации и маски категорий. Если словоформе категория не присуща, то результат операции побитового «и» её морфологической информации и маски этой категории будет равен 0. Приведем примеры извлечения значений отдельных категорий морфологической информации.

Пример определения значения категории «род» словоформы: MI & rod_mask Результат: _Masculine, _Feminine, _Neuter или 0.

Таблица 3.1 – Представление морфологической информации

Значение

Категория

Значение

Числовое

Макроопределения

0x00000001

Nominative

Падеж

Именительный

0x00000002

_Genitive

Родительный

0x00000003

_Dative

Дательный

0x00000004

_Accusative

Винительный

0x00000005

_Ablative

Творительный

0x00000006

_Locative

Предложный

0x00000007

_Vocative

Звательный

0x00000008

_Masculine

Род

Мужской

0x00000010

_Feminine

Женский

0x00000018

_Neuter

Средний

0x00000020

_Singular

Число

Единственное

0x00000040

_Plural

Множественное

0x00000080

_Past

Время

Прошедшее

0x00000100

_Future

Будущее

0x00000180

_Continius

Настоящее

0x00000200

_FaceFir

Лицо

1-е

0x00000400

_FaceSec

2-е

0x00000600

_FaceThi

3-е

0x00000800

_Active

Залог

Действительный

0x00001000

_Passive

Страдательный

0x00002000

_ComparativeFormOfAdj

Степень сравнения,

краткость

Сравнительная

0x00004000

_ExellentFormOfAdj

Превосходная

0x00006000

_ShortFormOfAdj

Краткая форма

0x00008000

_Verb

Часть речи

Глагол

0x00010000

_Participle

Причастие

0x00018000

_Gerund

Деепричастие

0x00020000

_Adjective

Прилагательное

0x00028000

_Noun

Существительное

0x00030000

_Pronoun

Местоимение

0x00038000

_Numeral

Числительное

0x00040000

_AdVerb

Наречие

0x00048000

_Preposition

Предлог

0x00050000

_Conjunction

Союз

0x00058000

_Particle

Частица

0x00060000

_Interjection

Междометие

0x00068000

_Predicate

Предикатив

0x00070000

_Poslelog

Послелог

0x00078000

_ComparativeWord

Сравнительное слово

0x00080000

_Animate

Одушевлен­ность

Одушевленное

0x00100000

_NotAnimate

Неодушевленное

0x00200000

_Imperative

Наклонение

Повелительное

0x00400000

_Accomplished

Вид глагола

Совершенный

0x00800000

_Incomplete

Несовершенный

0x00C00000

_Accompl_Incompl

Совершенный/несовершенный

0x01000000

_Count

Тип числительного

Количественное

0x02000000

_Ordinal

Порядковое

0x03000000

_PlurLive

Собирательное одушевлённое

0x04000000

_PronNoun

Тип местоимения

Местоимение-существительное

0x08000000

_PronAdject

Местоимение-прилагательное

0x0C000000

_PronPersonal

Личное местоимение

0x10000000

_PronImpersonal

Безличное

0x10000000

_VerbIntransitive

Непереходный глагол

0x10000000

_VerbReflexive

Возвратная форма глагола

0x800000000

_Introductory

Вводное слово

Таблица 3.2 – Маски категорий морфологической информации

Числовое значение

Макроопределение

Маска категории

0x00000007

case_mask

Падеж

0x00000018

rod_mask

Род

0x00000060

count_mask

Число

0x00000180

time_mask

Время

0x00000600

face_mask

Лицо

0x00001800

active_passive_mask

Залог

0x00006000

adjfrm_mask

Степень сравнения, краткость

0x00078000

part_of_speech_mask

Часть речи

0x00180000

animate_mask

Одушевлённость

0x00C00000

aspect_of_verb_mask

Вид глагола

0x03000000

number_type_mask

Тип числительного

0x1C000000

pron_type_mask

Тип местоимения

Для системы обработки текстов на морфологическом уровне важную роль играет наличие средств обработки слов, отсутствующих в словаре. Для этого необходима разработка средств морфологического анализа без словаря.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]