Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
bilety.doc
Скачиваний:
11
Добавлен:
25.09.2019
Размер:
492.54 Кб
Скачать

13Компьютерная лексикография

В рамках КЛ разраб-ся комп технологии сост-я и эксплуатации сл-рей. Спец программы – БД, комп картотеки, ПО обраб-ки т-та – позволяют в автомат режиме форм-ть словар статьи, хранить словар инфу и обраб-ть ее.

Комп лгф программы:

1. программы поддержки лгф работ

Соврем комп технологии позволяют упростить процесс сбора и хранения лгф инфы, исп-я вместо обычн карточки (слово, пример уп-я, источник примера, автор + разл доп инфа) БД, записи кот. – аналог традиц картотеки. Записи БД дают возм-ть автом-ки сортировать массив по выбранным параметрам, отбирать нужные примера, объединять их в группы. (ej D-Base, ACCESS, Fox-Base, PARADOX – соврем БД)

Этапы создания:

  1. фиксация первичного лгф мат-ла

  2. построение конкорданса – поиск примеров и формирование картотеки примеров

  3. составление словарной статьи в БД (+ редактирование)

  4. формирование т-та сл-ря, создание оригинал-макета книги

Для сл-рей писателей м.б. предумотрен этап формирования корпуса т-тов пис-лей-современников, необх для выявления различий м/у особ-ми стиля и общ хар-ми языка соотв эпохи.

Издат с-мы, исп для создания оригинал-макета: издат пакет ПО Quark-X-Press, Page-Maker, WinWord. Наи> удобны с-мы со встроенными языками, кот. позволяют формировать макросы (операции обраб-ки): процедуры приписыв-я стилей, алфавитизации, созд-я указ-лей.

2. автоматические сл-ри разл типов + лгф БД

АС – сл-рь в спец машинном формате, предназн для исп-ия на ЭВМ польз-ля / комп ПО обраб-ки т-та.

а) АС конечного польз-ля – ч-ка по интерфейсу и строению сущ-но отлич-ся от АС, вкл-х в с-мы МП, авт реферирования, инф поиска… Чаще это комп версии хорошо изв-х обычн сл-рей (ej Webster, Collins, Ожегов) Они повторяют стр-ру словар статьи обычн сл-рей, но! обладают f-ми, недоступными св прототипам (ej, сортировка данных по полям словар статьи – отбор всех прилаг-х; автом поиск всех вокабул с опр сем комп-том)

б) АС для программ обраб-ки т-та – АС в точн смысле (не предназн для обычн польз-ля). Особ-ти их стр-ры, сфера охвата словар мат-ла задаются ПО, кот. с ними возд-ют (ej синт сл-рь, сем сл-рь, сл-рь морфем, псевдооснов, сл-рь устойчивых с/с-й)

- АС, исп-мые в с-мах инф поиска (имеют вид тезаурусов)

АС с-м МП (вкл-ют подроб инфу о морф, синт и сем особ-тях f-ния слова)

- с-мы проверки орфографии, распознавания письм т-та (осн-ны на обычн сл-рях, предусм морф анализ / синтез словоформ РЯ) ej Зализняк

- комплексные сл-ри с разл лекс и грам инфой

- АС конкордансов, кот содержат примеры на уп-е всех слов, представл в конкр произведении / творч наследии пис-ля.

3. WordNet – собств-но комп сл-рь

1) файлы с лгф инфой, кот. разраб-ны лгф-ми (содерж слф-мы брит и амер написания и их зн-я, кот. представлены синонимич группой SynSet – список слвф-м, взаимозаменяемых в неск синт констр-ях – чистые синонимы)

Учит-ся 2 типа отн-й: а. лекс (м/у относит прил и сущ, прил и нареч от него, антоним, синоним группы, SynSets); б. сем (гиперон, гипон, отн-я следования / вовлечения, мероним, голоним)

2) программы конвертации лгф инфы в БД – спец утилита, кот. преобр-ет инфу из 1 блока, проверяет синтаксис файла и преобр-ет маркеры отн-й и орг-и инфы во внутр яз БД

3) с-ма БД – структурированная инфа на машин яз (не предназн для чтения ч-ка) – осущ-ет хранение данных на внутр яз БД

4) программа манипуляции с инфой (обраб-ки инфы) – позволяет проводить исследования и выводить толкования и связи (лекс+сем) в удобочитаемой форме для польз-ля

Очередность появления зн-й зависит от частоты встречаемости зн-я.

4 POS: N -> Adj -> Adv -> V (легк -> сложн)

N – тематически иерарх стр-ры

V оторбраж отн-я наследования

Adj+Adv – абстр гиперполя

4. The linguists Shoebox

1) позволяет сост-ть АС (толкования + перевода)

2) интерлианизация т-та – вводится т-т на Я1, запускается интерлианиз-я и польз-ль подключает нужн сл-рь, ПО автом-ки расчленяет т-т на морфемы и присваивает каждому слову зн-е из сл-ря

3) позволяет хранить лингвострановедческую инфу, вводить конкр примеры словоуп-я в конт-те.

6Системы обработки ЕЯ: кл-ция, области прим-я.

Междисциплин прикладное направ-е "обработка ЕЯ" (пер англо термина Natural Language Processing) возникло в к.60-х гг. и разв-сь в рамках научно-технолог-й дисциплины "искус. интеллект".

Пр-ма автомат обработки (АО) ЕЯ привлекает ученых самых разл спец-тей: матем-в, спец-тов по искус интеллекту, линг-тов. Необх усл-е построения таких с-м -- наличие прост и надежн процедур перехода от предст-ия инфои в виде предл-ий на входе ЭВМ к предст-ию ее на внут я-ке с-мы.

Для с-м, обесп-их доступ к инфо в огр-ой области знаний, предложен шир спектр м-дов анализа: от предст-я запросов в виде наборов ключев слов до получ-я графов синт-х и семант-х стрр входных т-тов.

СОЕЯ , 4 группы: форматные, с текстовой основой, с огранич логикой и с общим выводом.

1) Форматные с-мы (ФС)-- наиб прост диалоговые с-мы, обычно исп-ют 2 жестких формата: 1 – д/предст-ия знаний, хранимых в с-ме, 2 – д/предст-ия входных и выходных сооб-й. Пример: модель общения, исп-щая табличн я. Вх сооб-е = таблица, заполняемая челом. Вых сооб-е = табличная формау. Таблица реглам-ет формат и порядок слов в предл-ях, что упрощает программы обработки и сп-бы хр-я данных в ЭВМ. ФС исп-ся д/созд-я простых инфо–справочных и учетных с-м. Они имеют узк целевую направ-сть и х-ся инфо-й жесткостью, не позвол-й перестраивать их д/др целей.

2) В с-мах с текстовой основой непоср-но хранится т-т на ЕЯ. Т-т снабжается схемами индексирования, на основе кот строятся запросы, и произв-ся поиск запраш-х предл-й или фрагментов т-та. Наиб распрост-ы с-мы, исп-щие дескрипторные я-ки. Дескрипторы – это лекс 1цы инфо-поискового я-ка, обл-щие смысловой однозн-тью. Они исп-ся д/индексирования текста. Дескрипторы и связи м/у ними устан-ся на основе анализа профес-го я-ка пользователя и формализуются в виде дескрипторного графа. При общении разреш-ся исп-ть слова только из словаря дескрипторов. Стра запроса строится в соотв-ии со стр-ой связей м/у дескрипторами. Недосток этих я-ов – невозм-ть организации процедур выбора более сложных, чем поиск по дескрипторному графу.

3) С-мы с ограниченной логикой исп-ют формальные модели предст-я знаний с упрощ-ми с-ми логического вывода. Наиб известные с-мы эт группы реализованы с исп-ем я-ов PLANNER и LISP.

4) С-мы с общим выводом исп-ют шир класс формальных моделей: семант модели, сети фреймов, нечеткие лингв-ие переменные, предикатные модели и др. В ряде работ с-мы общения реализованы с исп-ем универс процедуры доказ-ва теорем. Форма предст-я инфо в них не зависит от особ-тей самой с-мы общения. Это св-во дает возм-ть исп-ть такие с-мы в любой области, представимой в исчислении предикатов. Интеллектуальная в части яз общения с-ма д понимать т-т ЕЯ или ограниченного ЕЯ.

ЕЯ содержит все ср-ва д/выр-я алгоритмов и данных при их машин обработке, поэт он м служить прекрасным ср-вом комм-ции чел-а и ЭВМ. Любая Автоматизированная Инфо-ая С-ма, поэтому д им в своем составе набор ср-в АО ЕЯ-сообщений. ЕЯ сост из словаря и грамматики – любая с-ма АО ЕЯ-сообщений д им в составе «ср-ва грам обработки» и «ср-ва словарной (семант) обработки». С-мы подобн рода наз интеллектуальным интерфейсом.

Ср-ва грам обработки ЕЯ предст-ют собой формализованный набор правил грам-ки рус я. Но т.к. изм-е слов не всегда вклад-ся в рамки регулярности, то формализованной мб не вся грам-ка. Формализованный набор мб не полным и из–за недостаточной научности грам-ки. Т.о., все неучтенные правила м считать недопустимыми.

При формализации словаря наиб приемлема -- поуровневая обработка лекс 1иц. Д/каж предметной области дб определен словарь исходных (непроизводных) лекс 1иц (нижний уровень), посредством кот и с исп-ем инфо об имеющихся аффиксах м исчислять семантику любого производного слова, при этом средствами с-мы м получать нов производные слова, имея их семант отображение.

Итак, любой вид машин обработки ЕЯ-сообщений вкл-ет обработку отд-х лекс 1иц. Обработка отд-х слов – обработка сост-х слово частей: корня и аффиксальных частей. Стра подс-мы семантобработки ЕЯ-сообщений мб представлена в виде:

  1. Модель текста

  2. Модель фразы (группы слов)

  3. Модель с/с-я (пары слов)

  4. Модель слова

    • модели аффиксов

    • модель корня

Стра с-мы АО ЕЯ продиктована стр-рой смысла т-та, ибо любой т-т расчленяет на части именно смысл. Само слово нерасчленимо на части и именно смысл элем-х морфов позв-ет выд-ть в нем min-ые значимые 1цы. ЕЯ представлен, с т.з. морфологии, одноморфными и многоморфными словами. С т.з. слвобрзвния одноморфные слова это – непроизводные лекс 1цы, многоморфные – производные. Смысл произв слова исх из семантики морфов, вх-щих в состав произв слова, поэт естест часть модели я -- модель его слвобр-го уровня. Первонач-но исчис-ся смысл корня + работа подс-м моделей аффиксов = исчис-ся смысл производного слова. Такая орг-ция с-м семант анализа позволяет ускорить АО т-тов.

Области применения.

Матем модели семантики произв слов мб использованы в любых с- мах АО ЕЯ. Каж конкр вар-т с-мы необяз-но д содержать в себе ср-ва, спос-ые актуал-ть все возм-е семант реализации слова. В каж конкр случае с-ма м предст-ть собой некую редуцированную модель, ориент-ую на конкр предметную область. Неоднозначность я-ка (омонимия), устран-ся за счет соотв-х технологических мер: сочетание дан слова с др так, чт с/с-е в целом б однозначным.

Прим-е моделей возм-но в разл с-мах обработки т-тов рус я.:

  • диалоговые с-мы;

  • в с-мах авто редактирования,

  • в с-мах авто корректирования д/обнаруж-я ошибок во входных текстах,

  • в с-мах инфо поиска,

  • в автоматиз обучающих с-мах.

  • в с-мах машинного перевода.

  • в с-мах анализа звучащей речи (коррекция ошибок, семант анализ вх-х сооб-й.

17Анализ и распознавание звучащей речи

Методы анализа реч сигнала

1. формантный анализ. Задача – опр-е частот формант в процессе их изм-я во времени, опис-е формант стр-ры речи. При произв-ве глух согл голосовые связки почти не принимают участия, шумовой источник нах-ся внутри реч тракта. Звонк согл явл-ся рез-том комбинации для ист-ка монотонных периодич колебаний и акуст шума (самый сложн для опис-я). В программе график – спектрограмма, кот. отраж след св-ва реч сигнала:

- изм-е спектрал стр-ры в координатах частота – время;

- изм-е энергетич насыщенности резонансных частот во времени;

- последоват-ть звуков с гармонической, шумовой и сложной стр-рой тон-шум

- наличие квазистационарных и переходных участков.

По источнику разл-ют 2 осн признака зв-в речи – вокалические В и консонантические К.

В. – особ стр-ра – ряд лежащих друг над другом темных полос, местополож-е кот-х обусловлено артикуляторн хар-кой данного гласного. Кажд полоса соот-вет разл формантн областям гласного снизу F1, F2, F3 диаграммы.

К. – незаметно следов F1, обл-ть спектрал хар-к выше гласных и форманты F3 и > появляются лишь в сегменте аспирации. Изм-е артикул-и при переходах к гласному отраж-ся в изгибах формант.

Реч сигнал – комбинация непрерывн (поперерыв формантн картина) и дискретн (включение / выключ-е голосовых связок, полн/частичн закрытие рта, смыкание мягкого неба) процессов.

Обычно число акуст сегментов превышает число фонет символов транскрипции. 1 взрывной смычный звук (п б м т) м. передаваться след сегментами: переход от предш звука, фаза смычки, фаза эксплодии, фрикация, аспирации, переход к послед звуку.

На спектрограмме реч поток м.б. также разделен на последов-ть сегментов, отраж признаки наличия – отс-я тона, сп-ба и места обр-я звука.

2. просодический анализ / ан-з вторичных акуст сигналов. Анализ-ся ЧОТ, длит-ть и интенсив-ть. Почти все виды интонац инфы м. передать с пом модификации ЧОТ – F0. попериодные изм-я ЧОТ наз-ся тонкой стр-рой осн тона. Она необх-ма при распознав-и индивид особ-тей голоса говорящего, при патологии речи и выр-и эмоций. А при изуч-и инт явл-й эта инфа сглаживается.

Анализ зв сигнала не включает понимание, это делает распознавание, кот. сост-т из след блоков: фонолог, морф, лекс, синт, сем (границы слов)

СРР (с-мы распознавания речи):

  1. изолированных слов

  2. для диктовки с исп-ем ограниченного сл-ря

  3. дикторонезависимые (слит речь) / с настройкой на речь опр диктора

Гл цель – распознавание слит речи. Пр-ма – акуст образы произносимых слов проявляют большую зависиомсть от конт-та (образ – параметры, кот. считываются при анализе), нет пауз, трудно опр-ть границы слов; схожесть слов. Реш-е – ограничить сл-рь используемых слов.

Ч-к для РР исп-ет мн-во факторов, но не сущ-ет такой СРР, кот. учитывала бы все эти параметры:

- хар-ки звуков речи

- произносит вариативность

- ударение

- интонац контур речи

- звук образы слов

- грам стр-ра яз

- зн-я слов и пр-й

- конт-т общения

Основа СРР – акустико-фонетический процессор. Его цель – дать дискретное описание реч волны + привести в соотв-е реч выск-ние с его акуст-фон признаками (ЧОТ, интенсивность, длительность) без идентификации слов и их границ.=> грам анализатор (п/е получения дискретн отображ-я). Его задачи – 1) построение, проверка и распр-е составляющих конструкций в процессе постеп интерпретации входн выск-ния; 2) предсказание / подтверждение мн-ва созм слов для кажд опр участка фон формы (поступление дальнейш инфы)Эти процессы координируются в процессе уяснения синт и сем комп-ми. Обмен инфой продолж-ся до полн понимания.При анализе реч волны (АРВ) происх обнаружение начала и конца фраз / пр-й (это м. опр-ся ч/з смену «сигнал-шум» больш-во децибел – оконч-е фразы), АРВ с опорой на слог (вычленение слогов, м.б. выделены псевдослоги – ЧОТ, интенсивность, длит-ть). Рез-т служит для работы алгоритма восстановления, кот. позволяет уточнить / адекватно идентифицировать те стр-ры, в отн-и кот-х не б. сделан окончат вывод при акуст анализе.Методы распознавания акуст сигнала

1. основан на акустико-фон инфе сегментного ур-ня (с пом интонографа и спектрографа)

I этап – анализ явл-й коартикуляции (с взаимн влиянием конт-та) на базе лингв закономерностей встречаемостей сочетаемости зв-в и взаимовлияний зв-в (аллофония)

II этап – анализ дифонов (от сер 1-го зв до сер 2-го) конт-но инвариантен и экономичен, осн-н на сопоставл-и со сл-рем эталонов дифонов, но исп-ся для РР, зависимой от диктора. В сл-ре содерж-ся стационарн эл-ты, коротк эл-ты (переходы м/у сосед фонемами СГ-ГС-СС-ГГ), длительн переходы эл-в м/у 3 фонемами (трифонами).2. с основой на визуал инфу (осущ-ся с помощью параметрографа)

Анализ-ся след зн-я:

- частотная составдяющая в 13 частотных диапазонах

- амплитуда тона (Г)

- амплитуда шума (С)

- наличие ударного звука

- наличие вибрирующего звука (+/-)

3. Маркоффские цепи

Комп-ты:

- выделение и анализ разл признаков, кот. обр-ют опр состояния, кажд из кот-х соотв-ет реализации конкр фонемы

- акуст-фон декодирование, где осущ-ся фонет транскрипция отрезка речи

- лекс анализ – сличение слова со сл-рем, не противоречащ полученной фон инфе

- синт анализ – отбир-ся тот вар-т, кот. наилучш образом соотв-ет рез-там грам анализа

18Синтез речи.

Преобразование текста в речь.

2 типа синтезаторов: с огр. и неогр. словарем. В устройствах с огр. словарем речь хранится в виде слов и предл., крые выводятся в опред. посл-ти при синтезе реч. сообщения. Реч. ед., исп-мые в синтезаторах подобного типа, произносятся диктором заранее, а затем преобразуются в цифровую форму, что достигается с помощью различных методов кодирования, позволяющих компрессировать реч. информацию и хранить ее в памяти синтезирующего устр-ва.

СР — построение автом. речевого ответа, порождение звуков машиной, связывание звуков с пом. спец. программ в требуемое высказывание.

Разные подходы к СР.1) модель «чкой головы» с артикул. аппаратом.

2) моделирование акуст. сигнала: а) форм. синтез по правилам, б) компилят. синтез (синх. наложение и добавление осн. тона либо синтез на основе линейного предсказания LP).

Форм. синтез по правилам. Исп-ет возбуждающий фильтр, крый проходит ч/з цифровой фильтр, построенный на неск. резонансах.

Компил. синтез. ОЭ-тся путем склейки нужных ед. компиляции из имеющегося инвентаря. Применяется алгоритм обработки сигнала для сглаживания разрывов в форм. стр-ре на границе сегментов.

Неск. методов записи и компоновки речи.

1. Волновой метод кодирования.

Самый легкий путь - просто записать материал на пленку и по необходимости проигрывать. Однако этот путь синтеза не позволяет реализовать построение новой фразы.

2. Параметрическое представление.

С целью уменьшения требуемой памяти для хран. и обесп. необходимой гибкости было ра-тано неск. сп-бов, крые абстрагируются от реч. волны как таковой, а представляют ее в виде набора параметров. Эти параметры отражают наиболее хар-ную инфо либо во временной, либо в частотной области. Например, реч. волна м. б. сформирована сложением отдельных гармоник заданной высоты и заданными спектр. выступами на данной частоте.

3. Синтез по правилам.

В синтезаторах с неогр. словарем эл-тами речи явл-ся фонемы или слоги, поэтому в них применяется метод синтеза по правилам, а не простая компоновка. Данный метод весьма перспективен, т.к. обеспечивает работу с любым необх. словарем, однако качество речи значительно ниже, чем при исп-нии метода компоновки.

При синтезе речи по правилам также используются волновой и параметр. методы кодирования, но уже на уровне слогов.

Метод параметрического представления требует компромисса между кач-вом речи и возм-тью изменять параметры. Исследователи обнаружили, что для синтеза речи выс. кач-ва необходимо иметь несколько разл. произношений ед. синтеза (например, слога), что ведет к увеличению словаря исх. ед. без каких бы то ни было сведений о контекстной ситуации, оправдывающей тот или иной выбор. По этой причине процесс синтеза получает еще более абстр. хар-р и переходит от параметр. представления к ра-тке набора правил, по которым вычисляются необх. параметры на основе вводного фон. описания.Это вводное представление содержит само по себе мало инфо: имена фон. сегментов ( напр, гл. и согл.) со знаками ударения, обозначениями тона и временных хар-к. Таким образом, метод синтеза по правилам использует малоинформ. описание на входе ( менее 100 бит/сек). Этот метод дает полную свободу моделирования параметров, но необходимо подчеркнуть, что правила моделирования несовеншенны. Синтезированная речь хуже натуральной, тем не менее, она удовлетворяет тестам по разборчивости и понятности. На уровне предл. и параграфа правила предоставляют необходимую степень свободы для создания плавного речевого потока.

Стр-ра ССР. 1) определение яз. текста. 2) нормализация текста (удаление нечитаемых символов). 3) 5 ур. лингв. анализа. 4) формирование просодич. хар-к, на основе лингв. анализа (границы синтагм, ритм, акценты, ЧОТ…). 5) фонемный транскриптор. 6) формирование текста (компиляция). 7) выдача звук. сигнала.6Системы обработки ЕЯ: клас-ция, применение

Обработка ЕЯ – с англ. термина. Направл. в рамках науч-техн. дисциплины ИИ.

Там, где комп. исп-ся дл обработки ЕЯ. Узкий смысл – ра-тка методов и систем, крые позволят чку рбщаться с ЭВМ на ЕЯ.

С 70-х гг.

1) путь: адаптация яз. программирования к юзеру. Вместо Ассемблера – Виж. бейсик.

2) путь: Ра-тка систем, крые позволяют говорить с компом на ЕЯ или его огранич. вар-те.

В центре иссл-ния – опыт изучения диалога. Необх-ть учитывать все аспекты и ур. реального общения.

Дсп – нет общепринятой т. диалога на ЕЯ.Стр-ра взмдйствия чка и машины.: диалог, инициатор крого или чк, или комп, или оба.

Жесткая стр-ра – перехват инициативы только для уточнения запроса. Мягкая – допуск-ся смена ролей.

Компоненты системы:

1) блок анализа реч. сообщения (морф. анализ словоформ, синт. и сем. анализ предл. от поверх-ноо ур. к глуб. ур. концепт. стр-р)

2) блок интерпретации реч. сообщения

3) блок порождения смысла ответа.

4) блок синтеза пов-ной стр-ры выск-ния. ( из синтеза содержания в виде концепт. представления на метаяз. и оформления содержания в выск-ние)

5) диал. компонент – фиксация стратегий ведения диалога, условие их применений.

Типология СОЕЯ

1. вопросно-ответная. Как реакция на плохое кач-во запросов в ИПС. Ограничения – юзер м. выразиться только одним реч. актом. Проблема: сп-об орг-ции данных: «списочные» яз. (готовая стр-ра для хранения данных) Прим: «бейсбол» - инфо только об играх.

2. диалоговые системы. Задача – получить решение проблемы на основе имеющихся знаний + инфо от юзера. Содержит стр-ры знаний в виде сценариев. Если нек. компоненты сценария отсутствуют, система инициирует комм-цию.

3. системы обработки связных текстов. Шир. исп-ние технологий представления знаний ф-ния системы – в понимании текста и ответах на ? о его содержании. Понимание – не универс. кат, а процесс извлечения инфо из текста, определяемый комп. интенцией. Только то, что в данный момент нужно юзеру.

Области применения.Матем модели семантики произв слов мб использованы в любых с- мах АО ЕЯ. Каж конкр вар-т с-мы необяз-но д содержать в себе ср-ва, спос-ые актуал-ть все возм-е семант реализации слова. В каж конкр случае с-ма м предст-ть собой некую редуцированную модель, ориент-ую на конкр предметную область. Неоднозначность я-ка (омонимия), устран-ся за счет соотв-х технологических мер: сочетание дан слова с др так, чт с/с-е в целом б однозначным.

Прим-е моделей возм-но в разл с-мах обработки т-тов рус я.: диалоговые с-мы; в с-мах авто редактирования, в с-мах авто корректирования д/обнаруж-я ошибок во входных текстах, в ИПС, в АОС, в с-мах маш. перевода, в с-мах анализа звучащей речи (коррекция ошибок, семант анализ вх-х сооб-й.

Машинная морфология: модели и методы.В данном разделе мы рассм ?? автоматич морфологич анализа ЕЯ т-та.

Сразу же следует сделать одно существенное замечание. Если в традиционном яз-зн «для чел-а» под морфологией сло­ва справедливо понимается то, что относится к его форме - окончания, суффиксы, аффиксы, флексии и пр., деление на корень и другие части словоформы - то в автоматич обработке т-та на ЕЯ морфологич анализ означает про­цедуру, в рез-те кот из формы, внеш оформления слова в т-те м получить сведения о самых разл уровнях яз стр-ры. Понятие «морфологич анализ» в таком смысле роди­лось в машинном переводе. В кач-ве приме­ра рассм-м раннюю работу Р.Пальма о морфологич анализе рус текста при МП на эстонский (Пальм 1962). Морфологический анализ

Морфологический анализ русской фразы, как первый этап МП с рус на эстон яз, состоит из 4 частей:

1) лексич обработка фразы - сюда входит исп-е сло­варя основ путем выделения исходных слов, распр-ие их на статьи (лексемы) по морфологич и семантич прин­ципам (например, сущ на -ние входят в одну ста­тью с формами соотв глагола), выделение основ лексем, мн-во кот и образ-т словарь;

2) идентификация окончания. Морфологич инфа к основе вкл-т тип основы (частицы, сущ, прилаг, глаг), номер табл окончаний, морфологич «сеть» - пе­речисление форм, имеющихся у дан основы, морфологич признаки - дается перечень признаков у разн типов основ. Вво­дится понятие «шкалы слова» - перечня возм-х грам интерпретаций для каждой переводимой словоформы. В рез-те предварит анализа стр-ры фразы пос­ледняя делится на части. Дается классификация предл-й на 6 типов в завис-ти от их места во фразе и встречаемости в них опр типов слов. Особым этапом производится обработка эквивалентных форм, а именно преобразование неоднозначных шкал слов в однозначные = разрешение дизъюнкций инфы, т.е. снятие грам омонимии.Из этого видно, что на самом деле в этап морфологич анализа входит большое количество операций, с пом кот получается инфа, не всегда относящаяся к собственно морфологич-й. Вследствие этого целесообразно утверждать, что в комп лингвистике понятие морфологич анализа явл-ся понятием операционным. В вычис­лит (прикладной) лингвистике важно не «что», а «как» полу­чается та или иная инфа, т.е. из формы слова в тексте.В первые годы работ по МП было предложе­но большое кол-во разнообразного рода алгоритмов автома­тич морфологич анализа для яз самого разнообразного строения, отлич-ся друг от друга «морфоло­гией». На сегодняшний день задача морфологич анализа - наиб сложная процедура на уровне слов - может считаться прак­тически решенной, поскольку есть достаточное кол-во удовлет­ворительно работающих алгоритмов. Авторы монографии «Лингвистич ?? алгоритмической обработки сообще­ний» (Лингвистические вопросы 1983) считают, что за два десятилетия создано по крайней мере несколько десятков алгоритмов мор­фологич анализа для разн яз, в том числе 10-12 для рус.В разработке морфологич анализа выделилось неск нап­р-й. Одно из них моделир-т классич схему анализа путем разделения словоформы на основу и предположит-е окончание с послед проверкой на совместимость окончания с остающейся основой. Другое направление исп-т инфу, содержащуюся в конечных буквосочетаниях. Эта инфа получ-ся в рез-те предварит статистич обработки словаря. Третье напр-ние развив-ся в последние годы. На этом напр-нии создаются уни­версальные математич модели морфологии в форме открытых сис-м уравнений, позв-щих путем вычисления осущ-ть нор­мализацию словоформ, получение грам инфы и син­тез словоформ.В основу построения алгоритмов морфологич анализа поло­жено разбиение всех слов на классы, опр-щие хар-р изм-я буквенного состава форм слова. Эти классы м б назв-ы морфологическими. Изм-я форм слов м носить различн хар-р. Они м б связаны как с изм-ем основы слова, так и с изм-ями его окончания. Изм-ие букв состава основ имеет место, напр, в след парах: сижу - сидишь, шел — шли, тренировка - тренировок, нес - несли, кто — кого, судно - суда, человек-люди. Изм-е окончаний явл-ся ос­н способом образ-я различн форм слов. В рус яз, напр, оно исп-ся как самостоятельно, так и в сочетании с изм-ем основ слов.Морфологич классы слов делятся на два вида:1) основоизменительные классы, характеризующие систему измене­ния основ, 2) флективные классы слов. Они выделялись для рус яз в сис-ме МП АМПАР, напр, на основе анализа их синтаксич f-ций и сис-м падежных, личных и родовых окончаний. Классы неизменяемых слов выделялись только по синтаксич принципу. По своей синтаксич f-ции из­меняемые слова объединены в следующие группы: 1) сущ, 2) прилаг, 3) глаг в личн форме, 4) глаг пр вр, кр прилаг и прич, 5) количе­ственные числит. Флективный класс м б охаракт-н либо нек сис-мой признаков, либо словом-представителем, кот явл-ся носителем этих признаков. Признаками, по кот изменяемое слово м б отнесено к опр классу, явл-ся: 1) принадлежность к одной из синтакси­ч групп (или подгрупп), 2) сис-ма окончаний (тип словоизменения).Виды морфологического анализа

• морф анализ со словарем основ;

• морф анализ со словарем словоформ;

• морф анализ м-дом логич умножения;

• морф анализ без словаря, с пом табл.

Наиб распр видом автоматич морф анализа явл-ся анализ со словарем основ, исп-мый для большинства европ языков. В этом виде анализа исп-ся словарь основ слов и ряд вспомогательных табл. В словарь вкл-ны основы прост и сложн слов без внутр флексии. Если слово имеет неск форм основ, то в словарь, как правило, вкл-ны все формы основ слов. Каждой основе словаря ставится в соотв-ие со­четание кода основоизменит класса и кода флективного класса, а омонимичной основе - серия сочетаний таких кодов. Так устроен сло­варь в системе, описываемой Г.Г. Белоноговым.

Морф анализ слова нач-ся с его флективного анализа. Последний производится с целью правильного выделения еro основы, замены букв состава основы ее порядковым номером по словарю и опр-я грам инф-ции слова.

Алгоритм морфологич анализа состоит из 32 блоков и учитывает все шаги морфологич анализа с пом словаря основ, возможные варианты анализа при отклонении процесса от однозначных правил, переход к следующим ступеням анализа.Морфологический анализ со словарем словоформ также довольно распространен. Из общих соображений он применяется тогда, когда морфология дан яз достаточно бедна. Кроме того, на пер­вый взгляд предст-ся, что алгоритм анализа со словарем слово­форм проще, чем алгоритм работы со словарем основ: не надо осущ-ть членение входной словоформы на морфемы с после­довательным поиском по словарю и пр. Но на самом деле при анализе со словарем словоформ остаются след проблемы: анализ не найденных в словаре слов. Опр-е нек ин­фы для слова, не обнаруженного в словаре, явл-ся необх-м для послед анализа: напр, если мы не нашли дан слова, то по крайней мере д опр-ть его ч. р., чтобы не искл-ть возм-ти дальнейшего грам (синтаксич) анализа; отождествление разн словоформ одного и того же слова. Если каждая словоформа будет выступать как самост лексич ед-ца, то это существенно зат­руднит весь послед анализ и синтез. Словоформы одного сло­ва д б обозначены как таковые. Это означает, что сис-ма морф анализа со словарем словоформ д иметь список аффиксов, корней (основ) слов и др необх-е атри­буты для идентификации разн словоформ одной и той же лекси­ч единицы.Эти требования фактич-и сводят на нет преимущества анализа со словарем словоформ и поэтому анализ со словарем основ применяется значительно чаще.

Особое положение занимает сп-б автоматич морф анализа м-дом логич умножения. С.Я. Фитиаловым положены начала формал морфологии (Фитиалов 1961). F-ция, определенная на словоформах и сопоставляющая каждой словоформе нек инфу, наз-ся словар­ной f-цией. Всегда имеется возм-ть задать значения сло­варной f-ции в виде табл - словаря словоформ. Однако сущ-т более экономичные сп-бы задания этой f-ции. Так, ее можно представить в виде след последоват-ти 4 операций:

1) словоформа как цепочка букв членится на морфемные сегменты;

2) словоформа как цепочка морфемных сегментов заменяется не­упорядоченным мн-вом нов эл-тов - морфем;

3) словоформе как мн-ву морфем приписывается нек инфа;

4) эта инфа преобраз-ся в требуемую окончательную ин­фу о словоформе.

Каждой морфеме м сопоставить инфу, получаемую в рез-те объединения инфы о словоформах, в кот вхо­дит дан морфема. Такого рода объединение инфы соотв-т дизъюнкции в логич интерпретации. Инфа о словоформе получается как пересечение, или логич конъюнкция, инфа о морфемах, входящих в дан словоформу. Тем самым f-ция, опр-ная на морфемах-множествах, заменяется f-ци­ей, определенной на морфемах-элементах.

Морф анализ м-дом логич умножения при­меняется к флективным языкам и предусм-т наличие словаря основ. Сущность м-да и применение его к конкр яз м видеть на примере алгоритма анализа рус словоформ, предложенного венгерским специалистом Д. Варгой (Варга 1964). Сначала производится поиск слова в словаре основ. Если слова, имеющие окончания, не находятся в словаре, тогда от каждого та­кого слова отбрасывается по одной букве справа и поиск повторя­ется. При отриц ответе отбрасывается след буква и т.д. Отброшенные буквы образ-т окончание и фиксир-ся. Каж­дая отброшенная буква считается элементарной ед-цей морф анализа. Ей приписывается булевый вектор – совокуп-ть нулей и единиц, компонентов этого вектора. Число компонентов этого вектора равно числу грам категорий, кот м б выражены окончанием, частью кот явл-ся дан буква. Поскольку предварительно был произведен по­иск по словарю основ и установлена часть речи анализируемого слова, имеется возм-сть одинаковым буквам, входящим в окон­чания разных ч. р. (напр, буква -м в окончании суще­ствительного и прилагательного) приписывать разн векторы.

Пусть, напр, треб-ся опр-ть, в каком числе и падеже стоит сущ «столом». После поиска в словаре устанав­-ся, что основа стол - сущ, буквы, входящие в состав окончания, о и м. Буква м встречается среди букв окончаний сущ в Тв. п. ед. ч. м. и ср. р., а также в Д. п. и Тв. п. мн. ч. всех 3 родов. Приписываем букве м такой булевый вектор, в кот на месте компонентов, соотв-щих падежам, в кот-х она встречается, стоят ед-цы, а на месте др компонентов -нули. Таким же образом поступаем и с др буквой окончания. Произведя логич умножение векторов букв о и м, получим в результирующем векторе ед-цу на месте разряда той грам категории, в окончании кот встречается одновременно и буква о, и буква м, а именно в разряде, соответствующем Тв. п. ед. ч.Морф анализ без словаря, или так называемый «не­зависимый» анализ, производится без обращения к словарю, толь­ко за счет исп-я таблиц аффиксов и особого списка не имеющих грам значения слов. Такой сп-б исп-ся достаточно редко.Современное состояние морфологического анализа характеризуется тем, что сильно уве­личились требования к качеств показателям сис-м автома­тич переработки т-та. Теперь задача создания быстродействующего алгоритма морф анализа ставит­ся след образом:

• основу сис-мы д сост-ть мощный политематич сло­варь, обеспечивающий покрытие т-тов по любой тематике не менее чем на 98-99%;

• алгоритм анализа д б словоизменительным, что позволит при одном и том же объеме распознавать примерно в 8 раз больше словоформ (для рус яз), чем кол-во лексич еди­ниц в словаре;

• «новые» слова д обрабат-ся наряду со словами, содержа­щимися в словаре. При этом объем инфы для новых слов д б таким же, как и для словарных единиц, а вероятность их правильного определения не менее 90-95 %;

• скорость обработки т-тов д б, при прочих равных усл-ях, по крайней мере на порядок выше, чем у существующих про­цедур;

• на объем исходного т-та не должно накладываться никаких огра­ничений;

• сис-ма д сохр-ть свою работоспособность в усл-х де­фицита ресурсов ЭВМ;

• сис-ма д б обучаемой, т.е. д иметь ср-ва для пополнения имеющихся словарей и настройки их на различн предметные обл-ти;

• процедурная часть сис-мы д достаточно легко приспосабливаться к меняющимся ресурсам ЭВМ с целью их наиб оптимального исп-я, а также иметь возм-ть работы с различными входными и выходными формата­ми;

• следует иметь синтаксич ср-ва контроля и корректиров­ки грам инфы к «новым словам» с учетом микроконтекста;

• д б разработаны спец инфо стр-­ры для представления данных и м-ды доступа к ним более эф­фективные, чем стр-ры и м-ды, входящие в состав операционных сис-м ЭВМ.

Массивы т.о. подобранных данных имеют по состо­янию на сегодняшний день след измерения: политематич словарь словоизменительных основ слов содержит более 100 000 лексич ед-ц и обеспечивает оч высокое покрытие науч­но-технич лексики практич-ки любой тематики. Этот словарь был создан в рез-те обработки т-тов обьемом свыше 30 млн слов. Словарь словоформ, составленный по т-там, вкл-т 46 тыс. лексич ед-ц, он составлен по т-там объемом более 3 млн слов. Два этих словаря имеют тщательно выверенные наборы грам инфы, дающие детальное предст-е о морфологич стр-ре слов и их синтаксич св-вах (Зеленков 1988).

Эл-ты морф анализа довольно сильно выражены даже в яз с грам строем, существенно отличающимися от строя европ яз-в. МП с китайского яз, напр, предусм-т процедуру анализа односложных и двуслож­ных кит. слов на ур-не, близком к ур-ню морфем (Зелко 1991).Автоматич морф анализ вызвал к жизни спец тип словарей. Лексич ед-цы яз упорядочиваются в соотв-вии с формой и правилами порождения и образ-я слово­форм, по словоизменительным и словообразовательным классам. Од­ним из видов словарей такого типа, т.е. специально учитывающих требования морф анализа, явл-ся обратные словари, применение кот началось от спец требований лингвисти­ч дешифровки и кот в наст время широко прим-ся в МП для опр-я грам хар-к не найденных в словаре слов, при анализе словоформ флективных язы­ков. (Штиндлова 1966, Белоногов 1971, Козьмина 1988 и пр.)Особенностью обратных словарей явл-ся предст-ие слов словника: сначала идут слова, оканчивающиеся на первую букву алфавита, затем на вторую и т.д. При совпадении послед букв учит-ся предпослед буквы, далее - третьи от конца и т.д. Т.о. слова расположены в алфавитном порядке, начиная от конца слова. При этом, естественно, объединяются слова, относя­щиеся к единому словобразовательному или словоизменительному типу, сложн слова с одинаковой последней составляющей.

Обратные словари м решать достаточно широкий круг задач. Они наглядно предст-т морфологич характ-ки дан яз. Если грам описания часто содержат утверждения о том, что слова с такими-то окончаниями обладают опр св-вом, то обратный словарь, в кот содержатся списки оди­наково оканчивающихся слов, позв-т установить все слова, ко­т обладают тем или иным св-вом, а также те, кот этим св-вом не обладают. На основе обратного словаря м б получены списки слов, относящиеся к одному словоизменительно­му типу. М также выявить все слова, имеющие одинак стро­ение концов, но разн грам характ-ки, и получить данные о соотношении между окончанием слова и его принадлеж­ностью к опр словоизменительному типу. Возникает воз­м-ть опр-ть синонимию и омонимию формантов, их сочетаемость, количеств хар-тики отд форман­тов и их сис-мы.Морф анализ в своем удельном весе в сис-ме автоматич обработки т-тов существенно зависит от типа анализируемого яз. Ясно, что флективные яз несут больше инфы в морфологич формантах, чем яз аналити­ч типа, выр-щие синтаксич отн-я главным образом с пом порядка слов.

Попытки классифицировать яз по их отн-ю к нек единому общему алгоритму морфологич анализа оказались не плодотворными, поскольку такой алгоритм обладал бы нулевой универсальностью. Сис-ма морфологич призна­ков (декларативные знания) тесно связана с сис-мой знаний процедур­ных - самим алгоритмом.

19Перевод как прикладная лингвистическая дисциплина.

Виды пер-да (синхрон-й, послед-ный, 1осторон-й, 2сторон-й, буквальный, филол-й, реферативный, с-мы прямого пер-да, ч/з яз-посредник), типология и области исп-ния с-м машин-го пер-да, действующие с-мы машин-го пер-да.Термин перевод многозначен: с 1й стороны, он обозн-т де­ят-ть, заключ-ся в передаче содерж-я т-та (в шир понимании) на одном яз ср-ми др-го яз, а с другой — сами рез-ты этой деят-ти. Наука о пер-де включ не­ск-ко напр-ний, среди кот-х выд-тся теория пер-да, анализ пер-да, методика обучения пер-ду. Особое место занимает машинный пер-д — научная и одновременно технол-кая дисц-на, связ-я и с наукой о пер-де и с комп-й лингв-кой. Пер-д междисциплинарен, т.к. связан не т-ко с лингв-кой, но и с ли­тературовед-м, когнит-ми науками и культ-й антропологией Междисципл-ть теории пер-да и ее практ-ких при­ложений указ-т на то, что пер-д явл-ся не чисто яз-м, а довольно сложным когнит-м феноменом. Переводя с 1го яз на др, ч-к исп-т как свои яз-е знания и спос-ти, так и самые разн экстралинг-кие знания (о физ-кой природе мира, об общ-ве и его культуре, о ситуациях, в кот-х был порожден переводимый т-т и будет восприн-ся его пер-д и т. д.), причем этапы понимания и синтеза т-та принц-но различ-ся.. Виды перевода. По хар-ру перев-кой деят-ти традиц-но выд-­ся устный и письменный пер-д. В рамках устного пер-да выдел-ся синхронный и послед-ный пер-д. При синхр пер-де звуча­щий т-т перев-ся практ-ки одновр-но с его произнесением (maxно допустимое запаздывание-10 сек). При после­д-ном пер-де перев-к прослуш-т довольно значит-й фрагмент т-та - до 15 мин - фиксирует его в той или иной форме и пер-дит на соотв-щий яз.+ пер-д разд-ют на 1сторонний (унилатеральный) и 2сторонний (билатеральный). 1сторонний пер-д осущ-ся т-ко с яз-источника (l1) на язык-цель (L2), в отличие от 2стор-го, предпол-го пер-д с L1 на L2 и наоборот. Обычно 2сторонний пер-д явл-ся послед-ным (переговоры).

Все рассм-мые типы пер-да выдел-ся на основе формально-организац-х хар-тик коммун-и - устная vs. письм-ая ком-ция, быстрота пер-да (синхронность vs. послед-ть), направление пер-да (т-ко с L1 на L2 или + наоборот). Содержат-я сторона пер-да вкл-т мн-во др-х параметров, по кот-м м-т проводится класс-ция. Так, по цели выдел-ся и др типы пер-да: (а) «по­словный» пер-д, в рез-те кот-го создается подстрочник, (б) бук­вальный пер-д (в англ традиции - grammar transla­tion), (в) филологический пер-д (документальным), и (г) адаптивный (и как частный случай реферативный) пер-д.

В подстрочнике т-т – послед-ть слов,  из кот-х имеет самост-ю ценность. =>Слова в пер-де сохр-ся в той же послед-ти и в тех же формах, что и в ориг-ле. То, что на выходе получ-ся некорректные, часто совер-но непонятные выск-ния, не расм-ся как недостаток. Такой пер-д широко исп-ся как инструмент лингв-го описания и пер-да поэзии. Буквальный пер-д предл-т рассм-ть т-т не как послед-ть отд-х слов, а как послед-ть предл-й. Обеспечение связности т-та, сохр-ние его воздейс-щего эффекта не входит в задачи буквального пер-да. Этот тип пер-да исп-ся в 1ю оч-дь как инструмент овладения ино­стр-м яз-м (на опред-м этапе изуч-я яз от учащегося треб-ся умение порождать грам-ки корректные и содерж-но адекв-е предл-я - упражнений на буквальный пер-д). Цель филол-кого пер-да в том, чтобы maxно «приблизить читателя к автору». Много чуждых реалий, непривыч-х образов и даже с опред-ми нарушени­ями узуальных конвенций яз-цели рассм-ся как достоинство, т.к. утв-ся, что выс­шим критерием кач-ва пер-да явл-ся верность автор-му стилю и сохр-е худож-ных особ-тей ориг-ла (сфера применения филол-го пер-да –иск-но худ. т-ты, в особ-ти ли­т-ные памятники) (ex, передача патронимов). Адаптивный пер-д предпол-т приспособле­ние текста-рез-та к потреб-стям польз-ля. Чаще всего он связан с сокр-нием т-та ориг-ла, извлечением из него важнейшей инфо, т.е. созд-м реферата (др название этого типа пер-да — реферативный), аннотации на др яз. В последнее t этот тип пер-да получает все >ее распр-­ние, что связано с повыш-м удельного веса де­ловых, научных, техн-х и т.п. пер-дов.

Отдельные типы перевода могут выступать как в чистом виде, так и в комбинации.

20Машинный перевод (МП), или автоматический перевод (АП),— интенсивно развив-ся область науч-х иссл-й, эксперим-ных разработок и уже f-щих с-тем (СМП), в кот-х к процессу пер-да с 1го ест-го яз (ЕЯ) на др-й привлекается ЭВМ.

СМП открывают быстрый и систематич-й доступ к инфо на иностр-м яз, обеспечивают оперативность и единообразие в пер-де больших потоков т-­тов, в основном научно-технических.

Работающие в промышленном масштабе СМП опираются на большие терминол-кие банки данных и, как правило, требуют привлечения ч-ка в кач-ве пред-, интер- или постредактора. Совр-ные СМП, в особ-ти те, кот-е опираются при пер-де на базы знаний в опред-ной предметной области, относят к классу систем искус-го интеллекта (ИИ).

Истор-ки МП является 1й попыткой испол-ния компьютеров для решения невычислит-х задач (знаменитый Джорджтаунский эксперимент в США в 1954 г.; работы по машинному переводу в СССР, начавшиеся в 1954 г.). Развитие электронной техники, рост объема памяти и производительности компьютеров созд-ли иллюзию быстрого решения этой задачи. Практ-я цель была простой: загрузить в память компьютера maxно возможный словарь и с его помощью из иноязычных т-тов получать т-т на родном яз в удобочитаемом виде. Но! 1начальная эйфория сменилась разочар-нием в связи с абсолютной непригодностью получ-х т-тов.

1947 - дата рождения МП, как научного напр-я. Уоррен Уивер, директор отделения ест-ных наук Рокфел-кого фонда, написал меморандум, в кот-м рассм-л задачу пер-да т-тов с 1х яз на др, как еще 1у область применения техники дешифрования. 1947 - Бут и Бриттен разраб-ли подробный "код" для пословного МП. 1952 - первая конференция по МП в в Массачусетском технологическом институте. 1954 - представлена первая система МП - IBM Mark II - русско-английская, имела словарь в 250 единиц и 6 грамматических правил. Последовавшее за этим десятилетие было временем бурного развития МП. 1967 - специально созданная в США Комиссия Национальной АН, исходя из реальной ситуации с пер-дами в США и показателей стоимости разл-х сп-бов пер-да, пришла к выводу, что машинный перевод нерентабелен. 70-е годы - новый подъем работ в области МП. С развитием вычислительной техники появились новые возможности машинной реализации лигвистических алгоритмов. 80-е годы - время работы персональных компьютеров значительно подешевело, машинный перевод наконец-то стал экономически выгодным. 90-е годы - отмечается очередной рост интереса к машинному переводу, что связано с появлением и бурным развитием Internet.

Сейчас 2 основных направления МП: 1) перевод смысла безотносительно формы (т-т – смысл – т-т); 2) перевод на ур-не переводных яз-х соответствий.

1ые системы МП характеризуются стратегией «прямого перевода»: сущность этого подхода к построению МП заключ-ся в том, что исходный т-т на L1 постепенно ч/з ряд этапов преобразует­ся в т-т на L2 - слово (словосочетание) на входном яз заменяется на его словар­ный эквивалент на выходном яз. Для работы таких с-тем оказ-ся вполне достаточно правил словарных соответствий. В редких случаях проводится анализ контекста для пере­вода неоднословных выражений, опять-таки представленных в словаре системы. Стратегия прямого перевода не дела­ет различий между пониманием (анализом) и синтезом (порождением), поск-ку они факт-ки исключены из преобр-ний по правилам словарных соотв-вий. Прямой пер-д всегда привязан к конкретной паре яз-в. По tным рамкам с-емы 1го поколения в основном созда­вались в период с конца 40-х до середины 60-х гг. Один из типичных примеров с-мы такого типа —программа GAT.

Существенная модификация стратегии «прямого перевода» обнар-ся в с-мах с «трансфером» — этапом межъязыковых операций, не сводимых только к замене лексем L1 на словарные со­ответствия L2. Наличие этапа трансфера предполагает по­строение «промежуточного» или «внутреннего» представления, которое далее «приспосабливается» к стр-ре предл-я L2. В отличие от 1й стратегии, в архитектуре с-тем МП с трансфером анализ и синтез существуют как особые процедуры и обслуживаются различными алгоритмами. В некотором смысле системы с трансфером оказываются промежуточным звеном между стратегией прямого перевода и последующей стратегией языка-посредника.

«стратегия языка-посредника»: главная особ-ть этой стратегии в том, что м/у стр-ми L1 и стр-ми L2 находится 1 или несколько промежуточных яз-в, на кот-е по соотв-щим правилам послед-но «переписываются». Анализ и синтез при использовании языка-посредника принципиально разделяются. Анализ ведется в категориях L1, а синтез - в категориях L2. В кач-ве яз (яз-в)- посредников м-т выступать яз-ки представления синт-кой и сем-ко-синт-кой стр-ры, чисто сем-кие яз-ки, языки глубинной сем-ки, приближ-ся к концептуальному представлению в категориях теории знаний (фреймов, сценариев, планов). Системы МП, основанные на знаниях (knowledge-based systems), возникшие в 80-х гг., рассм-ся как часть с-тем искус-го интеллекта. Достаточно условно эта стратегия соотв-т 2му поколению с-тем МП с тем уточнением, что с-мы 2го поколения исп-ют почти исключ-но синт-кие и сем-ко-синт-кие языки-посредники.- с-ма СЕТА.

Послед-ное проведение идеи языка-посредника привело к возникновению стратегии "универсального семантического языка", независимого от конкр-го L1 и L2. Но! Совр-ное сост-ние сем-кой теории не оставляет надежд на успешную реализацию этой стратегии в ближайшем будущем.

Как компенсация проблем, возникших со стратегией универс-го сем-го языка, развив-ся неск-ко промежуточных стратегий, позв-щих сущ-но улучшить параметры промышленных систем МП. Стратегия "сужения проблемной области" предлагает ориент-ся на узкие тематич-е сферы т-тов. Это позволяет суще-но облегчить словарь системы МП и огран-ся т-ко теми особ-ми устройства яз-й с-мы, кот-е реально представлены в данном подъязыке. Эта стратегия универс-на для многих сфер прикладной лингв-ки - от лексикографии до лингв-го обеспечения ИПС и с-тем AI.

Стратегия "ограниченного машинного перевода" позволяет вкл-ть в технол-ю цепочку автом-го пер-да ч-ка - на этапе пред-, пост-редактирования или в режиме обработки текста (например, для разрешения синонимии и омонимии).

В 1990 г. Ларри Чаилдс, специалист по машинному переводу, предложил следующую классификацию систем машинного перевода: FAMT (Fully-automated machine translation) - полностью автоматизированный машинный перевод; HAMT (Human-assisted machine translation) - машинный перевод при участии человека; MAHT (Machine-assisted human translation) - перевод, осуществляемый человеком с использованием компьютера.

На смену прежнее концепции, связ-ной с эйфорией 1х рез-тов - "качественный МП", пришла новая - "качественный черновой МП".

Классификация систем АП

1. Системы МП: - программы, осущ-щие полностью автоматиз-ный пер-д. Главным критерием программы явл-ся кач-во пер-да. + для польз-ля важными моментами явл-ся удобство интерфейса, лёгкость интеграции программы с другими ср-вами обработки док-тов, выбор тематики, утилита пополнения словаря. С появлением Internet основные поставщики с-тем МП включили в свои продукты Web-интерфейсы, обеспечив при этом их интеграцию с остальным прогр-ным обеспечением и Эл-ной почтой => примененение мех-мы МП для пер-да Web-страниц, Эл-ных писем и онлайновых разговорных сеансов.

2. Системы с функцией Translation Memory (TM): предоставляют средства для так наз-го Machine Assisted Human Translation (MAHT) – пер-да, выполн-го ч-ком с помощью машины. 1начальное предназначение с-тем ТМ - облегчение работы переводчиков при локализации программных продуктов и создании терминол-ких БД, в дальнейшем с-мы стали развиваться как вспомог-ный инструментарий перев-ка.

3. Контролир-мый яз и МП на основе базы знаний: в с-мах на основе контролир-мого яз реализован переход от свободного входного яз к контролир-му входному яз. Контроль входного яз предусм-ет опред-ные ограничения лексики, грам-ки, сем-ки. Контролир-мый входной яз используется для упрощения выражений исходного т-та, чтобы повысить кач-во пер-да. – с-ма KANT.

4. On-line перев-ки: службы онлайнового пер-да выполняют перевод прямо в окне браузера, не требуя установки программы на компьютер польз-ля. Достаточно большое кол-во ссылок на бесплатные сервисы МП с указаниями направлений пер-дов.

5. Словари on-line - LOGOS ONLINE DICTIONARY (англ, фран, нем, исп, итал, чешский), TRADOS MultiTerm…

Основные сферы использования МП

1. В отраслевых службах инфо при наличии большого массива или пост-го потока иноязычных источников. 2. В крупных м/ународных орг-циях, имеющих дело с многоязыч­ным политематическим массивом док-тов. Поскольку требования к пе­реводу здесь высоки, МП нуждается в постред-нии. 3. В службах, осущ-щих перевод технич-й документации, сопро­вождающей экспортируемую продукцию. Поскольку перевод спецификаций должен быть полным и точным, продукция МП нуждается в постредактиро­вании. 4. Для синхронного или почти синхронного перевода некоторого постоянного потока однотипных сообщений (метеоперевод в Канаде, кот-й д-н появл-ся одновр-нно на англ и фр яз-х.

Перспективы развития с-тем МП.

Помимо практ-ской потребности делового мира в СМП, сущ-ют и чисто научные стимулы к развитию МП: стабильно работающие экспер-ные с-мы МП являются опытным полем для проверки разл-х аспектов общей теории понимания, речевого общения, преобр-ния информации, а также для создания новых, более эффективных моделей самого МП.

Соврем. с-мы МП: Диалинг, Systran, Trados, Prompt, Этап3.

С-ма Диалинг: (по схеме)

Графематика – выделение слов, цифр…

Моф-й анализ – морф-я интерпретация слов входного т-та; определение POS, рода, числа, …; лемматизация (приведение т-вых форм в словарные)

Постморф-й анализ – разрешение омонимии по контексту с использованием правил

Фрагментация – выделение синт-х единств >1го слова; устан-ние иерархии м/у ними (членение на синт-е единства во мн-х случаях соотв-ет делению на крупн-е узлы при синт-м анализе).

Синт-кий анализ – на каждом фрагменте отдельно; на основе кажд предложения строится синт-е дерево, где корень – нулевой ур-нь (все предл-я), в узлах – синт-е группы, листья – элементарные слова, ветки – отношение типа «входит в …»

Первично-сем-кий анализ – сем узлы и сем отн-ния: синт группы -> сем узел – объект т-товой сем-ки, у кот-го заполнены все валентности (как эксплицитно выраж-ные так и импл-но); нек-е синт-е группы стан-ся атрибутами узлов. Атрибуты: набор графем слов, из кот-рых сост-т узел; номер сем-ки главного слова в узле; инфо о грам-кой интерпретации узла; номер фрагмента, кот-му принадл-т узел; предлоги, управл-щие узлом; ссылка на словарную статью в сем словаре (РОСС, АОСС)…

Трансферный ур-нь – сопоставление сем-ких узлов 1го яз-а с сем-ми узлами др-го яз. строятся сем узлы др языка, но с учетом необх-мых перестроек. Актантам сем-х узлов др-го языка приписываются грам-кие хар-ки с учетом их соварных статей.

Синтез – порождение англ. словоформ по заданным при трансфере граммемам; устан-ние порядка слов; перевод терминов и временных групп в сем словари; синтезирование артиклей для именных групп.

Словари, входящие в с-му Диалинг: -словарь оборотов: тех, кот-рые при переводе рассм-ся как единый комплекс; - тезаурусы: хранение и класс-ция предельно конкретных слов и с/соч-ний (тематические); словарь сл/соц-ний; ТаймРосс: словарь групп времени (к осени, изо дня в день); РОСС: русский обще-сем-кий словарь: сем класс лексемы+грам класс лексемы+валентная стр-ра+сем и грам ограничения+эквиваленты на др яз; АОСС: инфо для синтеза англ. т-та.

ГЕНЕРАТИВНАЯ (порождающая) ГРАММАТИКА, 1 из осн напр-ий соврем Л. Зародилась: США, 2’ пол 1950-х гг, Хомский.

ГК зан-ся анализом яз. данных, конечн рез-т иссл-й - ответ на вопрос о том, каким образом человек усваивает язык. ГК – это не теория языка, а теория усвоения языка.

Суть ГК: 2 уровня, глубинной структуры (ГС) и поверхностной структуры (ПС), связаны посредством трансформаций (тр-ций).

За время своего существования генеративизм прошел несколько этапов. Наиболее крупные из них следующие.

  1. Стандартная теория (СТ), подэтапы развития:

Термин "СТ" объед-ет модели из кн Хомского "Синт стры" и "Аспекты теории синт-са". Схема СТ предусм-ет переход от правил стры составляющих к ГС и далее путем тр-ции к ПС.

Предст-е о я как мех-зме порож-я бесконечн мн-ва предл-ий с пом конечного набора грам ср-в, для чего Х предложил понятия

  • ГС: глубинной стры (скрытой от непосредственного восприятия и порождаемой системой рекурсивных, т.е. могущих применяться многократно, правил);

  • ПС: поверхностн грам стры (непосредственно воспринимаемой),

  • трансформаций, описывающих переход от глубинных структур к поверхностным.

Одной ГС м соотв-ть более 1 ПС (напр, пассивн констр-я Указ подписывается президентом выв-ся с пом тр-ции пассивизации из той же ГС, что и активн конст-ция Президент подписывает указ) и наоб (так, неоднозначность Посещение родственников может быть утомительным опис-ся как рез-т совпад-я ПС, восходящих к 2 разл ГС, в 1 из кот родственники явл-ся тем, кто посещает кого-то, а в др – теми, кого кто-то посещает).

Модель «Аспектов», или стандартная теория, изложенна в кн Хомского Аспекты теории синтаксиса (Aspects of the Theory of Syntax, 1965, рус. пер. 1972) и предст собой попытку введ-я в формальную модель семант-го компонента – правил семант интерпретации, кот припис-ют зн-е ГС-ам. Введено п/п-е яз компетенции (с-мы процессов порож-я яз выск-й) и употр-я я-а (performance), принята т.н. гипотеза Катца – Постала о сохр-и смысла при трансформации (тр-ии), в связи с чем исключено понятие факульт-ой тр-ии, + введен аппарат синт пр-ков, кот опис лекс сочетаемость.

Расширенная стандартная теория, или «лексикализм»: получ распр-ие в 1970-х гг. Отличие от предыдущ этапа - особ вним-е придается лексике и семант интерпретации яз 1ц. Согл-но гипотезе Каца и Постала, тр-ции не меняют зн-я выск-я; все, что им семант интерпр-ю, дб предст-но на уровне ГС. Сам Хомский выд 3 группы явл-й, кот опровергают полож-я порож-ей семантики: непродуктивность нек яз процессов (номинализации), структ-ый х-р глубинного предст-я и спос-ть тр-ций к изм-ю зн-й яз- выр-й.

  1. Теория управления и связывания (70-е гг, Лекции об управлении и связывании (Lectures on Government and Binding, 1981, GB-теория по 1ым буквам). Осн изм-е - отказ от специфическ правил, кот опис синт стры конкр я-в, и замена их нек-ми универсальн ограничениями. Все тр-ии заменены одной универс тр-ей перемещения. Выделены частные модули (Х-штрих-теория, т. ограничивания, т.связывания, т.управления, т.падежа, Тета-теория), каж из кот отв-ет за св часть грам-ки, дей-ет в соотв-ии со св пр-пами и им ряд настраиваемых параметров, опр-их конкретно-яз специфику. Т.к.понятия пр-пов и парам-в сохр-сь и на след этапе разв-я генеративизма, иногда гов о т.принципов и парам-в как особой стадии, охв-ей 2 и 3 этапы генеративизма.

Важ особ-ть «т.пр-пов и парам-в» - модульность, т.е. деление грам-ки на независ блоки («модули»), каж из кот опр-ет 1 аспект яз компетенции чела и вкл-ет 1 или неск пр-пов. Такие блоки также наз-ся «теориями». Ниже перечислены важнейшие из них:

1) теория семант ролей («тэта-ролей»): каж семант роль предиката (дей-щее лицо, объект дей-ия) во всякой конст-ции дб заполнена (в частном случае она мб заполнена «пустой категорией», т.е. синт 1цей, не им звук-го выр-ия);

2) т.падежа: задает ограничения на падежн оформ-е подлежащего и доп-ий;

3) т.связывания: набор универс огран-ий на поведение «связанных» слов или с/с-й, т.е. обозн-щих тот же самый предмет, что и др слово или с/с-е, заним-ее более приоритетн стр-ную поз-ю в том же предл-ии (напр, возвр местоим-ия, обозн-ие тот же предмет, что и подлежащее);

4) т.отграничивания: опр-ет запреты на синт передвижения

5) т.управления: содержит условия, при кот нек синт позиция (напр, поз-ия подлежащего или прям доп-я) мб заполнена фонет-ки не выр-ым эл-том.

  1. Минималистская программа (осн полож-я изложены Хомским в кн The Minimalist Program, 1995). Суть: минимизация яз предст-й и опис-е их вз/дей-я с др когнитивн сис-ми, постулируя в “яз апп-те чела 2 глав подсис-мы: вычислительная и лексикон. Вычислит подсис-а порождает яз выр-я и подает команды сис-м реализации. Лексикон содерж всю конкр инфо конкр-го я-а". М гов о 2 сис-ах реализации: артикуляторно-перцептивной и концептуально-интенциональной.

Т.о. эта прогр предпол-ет в яз апп-те чела 2 глав подсис-ы: лексикон и вычислит-ую сис-у, а также 2 интерфейса – фонет-й и логический.

Общая схема:

Правила базовой грамматики

¯

На выходе: базовые(глубинные) структуры ® Семантическая

интерпретация (значение)

¯

Трансформационные правила

¯

На выходе: поверхностные структуры

¯

Фонологические правила

¯

На выходе: звуковое представление

Модель Мельчука

Основа теории – ест яз – это особого рода преобразователь, вып-щий переработку заданных смыслов в соотв-щие им т-ты и заданных т-тов в соотв-щие им смыслы. Он имеет в виду много-многозначн отображение мн-ва смыслов во мн-во.

Полная модель: действит-ть -> смысл -> текст -> звучащая речь

М: инфа передается посредством последов-тей реч сигналов (акуст / визуал-х); последов-ть сигналов, несущая инфу, направл-ся от говорящего / пишущего к слушающему / читающему ч/з опр канал связи. Слуш-щий извлекает из сигнала ту / почти ту инфу, кот. говорящий имел в виду, благодаря тому, что оба владеют одним и тем же кодом / правила соотв-я м/у реч сигналами и реч инфой. Мельчук берет инфу, последоват-ть реч сигналов и код и наз-ет все это смыслом (смыслами), т-том и соотв-ем м/у смыслом и т-том.

Текст – достат-но детализированная фонет транскрипция речи, находится на самой поверхности, а в глубине - внеязыковая действит-ть.

Смысл – конструкт сем. / смысловой записи (пучок соотв-й м/у реал равнозначн выск-ями, фиксируем с помощью спец символов)

Положения модели:

1. МСТ – это действующая / динамическ м-ль, это устр-во, имеющее вход (задание) и выход (рез-т) + схемы перераб-ки задания в рез-т.

Сущ-ют 2 логические независимые части:

  • описание соотв-й м/у смыслами и т-тами;

  • описание мех-зма, реализующего эти соотв-я в процедуре действит перехода от заданного смысла и соотв-м т-там и наоборот.

Описание соотв-й вкл-ет 3 комп-та:

  1. инвентарь элементар 1ц смысла – сем и правила их комбинирования в сложн смыслов 1цы - сем предст-я;

  2. инвенарь элементарных 1ц т-та – морфов и правила их комбинирования в сложн т-вые 1цы – словоформа, с/с, пр-е

  3. правила, сопоставляющие любые смысловые 1цы в соотв т-вые 1цы.

Правила, устанавливающие соотв-я, имеют след логич стр-ру: если взять какие-л элементар смыслы (семы) и скомбинировать их неким образом, то для их выражения можно взять такие-то элементар т-ты (морфы) и скомбинировать их так-то.

2. МСТ задана соверш-но формально, т.е. поср-вом однознач и логич-ки последов-х формулировок, не требующих привлечения добавочной инфы (машин реализуемость).

3. МСТ – это преобразующее устр-во в отличие от порождающего устр-ва Хомского. Это не генератор т-тов, а транслятор смыслов в т-ты, т.е. умение переработать содержат-но ЛЮБОЕ смысловое задание в соотв т-ты + извлечь из заданного т-та его смысл (у Хомского – т-ко грам контр-и).

5 уровней предст-я МСТ (на примере пробр-я смысла в т-т)

1. Сем ур – изображение содержания связного фрагмента речи без расчленения на фразы и слова в виде сем предст-я

2 комп-та:

- сем граф, вершины кот. помечены семами / символами комплексов семы, а дуги помечаются связями

- сведения о ком орг-и рассм-го смысла + логич акценты

2. Синт ур имеет 2 подуровня:

2а) глубинный синт-с предст-ет собой изображение выск-ния в виде последоват-ти глубинно синт-ких предст-й фраз (ГСП), кот. сост-т из 5 комп-тов:

  • глубинно синт стр-ра фразы – это дерево зависимости, узлы кот. предст-ют т-ко знаменат слвф-мы фразы в виде обобщ-х лексем (реал лексемы дан яз; лекс f-и; фраземы – фразеол обороты; фиктивные лексемы – символы для нулевых выр-й)

  • сведения о ком орг-и фразы (тема / рема)

    • сведения о просодич хар-ке фразы (интонация)

    • сведения о тождестве денотатов тех / ин именных групп (кот. потом заменяются на месте)

    • сведения о группировках слов (ej я знаю т-ко РЯ)

2б) поверхностный синт-с – изображение выск-ния в виде послед-ти поверхностно синт предст-й, сост из 5 комп-в:

  • поверхностно синт стр-ры – дерево зависимости max-но близкое текстовой фразе, т.е. узлы сост-ют все слвф-мы фразы и т-ко их (без пустых, фиктивных лексем), а ветви предст-ют типовые поверхностно синт отн-я дан языка (ej падежные)

  • ост. – как у ГСП

3. Морф ур сост-т из 2 подуровней:

3а) глубинная морфология – изображение фразы в виде ее глубинно морф предст-я (ГМП)

2 комп-та:

  • цепочка ГМП всех слвф-м фразы (линейно упорядоченная последов-ть)

  • сведения о просодич хар-ках фразы (интонация, пауза, ударение)

ej ЛЕВед, предл, ИДТИнесов, прош, изъяв, невозвр, ед, муж

3б) поверхностная морфология

изображение фразы в виде ее поверхностно морф-я предст-я (ПМП), у кот. 2 комп-та:

  • последов-ть ПМП

  • сведения о просодич хар-ках фразы

ПМП – это отвечающая слвф-ме цепочка морфем, супраморфем и аналогичных морфемам семейств значащих морф операций. Супраморфемы – семейства морф-ки значимых просодич явл-й. Аналогичные семейства – чередования, конверсии.

ej {лев}+{ед, предл}

{рассматривать}+{ива}+{прош}+{ми}+{ся}

4. Фонолог ур – фонемная транскрипция фразы – последов-ть символов, предст-щих фоемы и просодемы / /

5. Фонетич ур – фонетич транскрипция фразы – последов-ть символов, предст-щих звуки речи и просодич явл-я [ ]

Идеализированная картина работы МСТ:

Задание поступает на вход очередного преобразов-ля-генератора, кот. выдает для этого задания много возможных предст-й след ур-ня. Полученные рез-ты фильтруются селектором очередного преобраз-ля, кот. затем поочередно обраб-ет оставшиеся вар-ты, строя для каждого из них много альтернативных предст-й.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]