Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Informatsionnye_tekhnologii.docx
Скачиваний:
16
Добавлен:
08.06.2015
Размер:
109.02 Кб
Скачать

3. Машинный (автоматический) перевод

МТ (Machine Translation)

Машинный перевод – это выполняемое компом действие по преобразованию текста на одном естественном языке в текст на другом естественном языке при сохранении эквивалентности содержания, а также результатом такого действия.

Специалисты утверждают, что такой перевод невозможен, поскольку большинство слов имеют несколько значений, то основная трудность при переводе заключается в выборе нужного значения.

Реально автоматический перевод возможен только в условиях искусственно ограниченного языка (как по словарному запасу, так и по грамматике)

Человек, как правило, участвует в процессе перевод (предредактор упрощает текст, постредактор – редактирует)

Виды машинного перевода

1. информативный – грубый, пословный перевод, достаточный для поверхностного ознакомления с содержанием текста

2. профессиональный – качество перевода сравнимо с качеством «человеческого» перевода и при небольшом редактировании является удовлетворительным

3. персональный (авторский) – где авторы подлежащих переводу текстов заранее избавляют их от неоднозначности и работают в режиме диалога с компом.

Наиболее популярные системы машинного перевода:

- Сократ

- SYSTRAN

- PROMT – семейство продуктов, включающих в себя возможность перевода с английского, французского, немецкого, испанского и итальянского языков на русский и наоборот.

В последних версиях встроен модуль ТМ, который позволяет сохранить используемые ранее переводные фрагменты.

Положительные факторы:

1. удобны при обработке переводов (встроен модуль OCR, Fine Reader)

2. возможность форматировать текст перевода

3. имеют удобные возможности для поиска слов и выражений в электронных словарях

4. позволяет ускорить перевод, освободив от необходимости повторного перевода того, что уже было переведено ранее (при использовании ТМ)

5. можно доверить перевод конфедициальной инфы

6. значительно дешевле

7. системы машинного перевода облегчают просмотр web страниц в интернете

Структура системного машинного перевода и назначение ее основных блоков

Система МП (машинного перевода) являются моделями, которые воспроизводят на ПК речевое поведение чела, переводящего текст с одного языка на другой язык.

Автоматический двуязычный словарь

Синтаксические соответствия

1. Процессы морфологического анализа слов/предложений исходного языка. Каждое слово получает набор лексико-грамматических признаков. ПК формирует эти наборы с опорой на автоматический словарь.

2. Синтаксический анализ предложения исходного языка сводится к поиску основных членов предложения, определяет структуру предложения.

3. Синтаксический синтез переводного языка:

- создание предложения переводного языка, определенной синтаксической структуры, определяемой правилами исходного и переводного языка

- замена слов исходного языка на их переводные эквиваленты

4. Морфологический синтез переводного языка сводится к постановке слов переводного языка в нужном числе, форме, роде, падеже, основываясь на автоматический словарь, в котором хранятся все лексико-грамматические формы слов.

При создании автоматического словаря решаются следующие задачи:

1. выбор типа лексической единицы для словаря:

а) в виде словоформ, т.е. в автоматический словарь заносятся всевозможные формы лексической единицы, которые подаются гнездами

б) в виде квазиосновы (блок #...)

- числа, стоящие после решетки (001, 002) условно обозначают те наборы суффиксов и окончаний, которые необходимо присоединить к основе, чтобы получить соответствующие формы слою

2. выбор типа лексической единицы зависит от:

- от типа языка (для русского, немецкого, белорусского – квазиоснова, для английского, французского – словоформа)

- от объема словаря

- от типа системы машинного перевода, для информативного перевода – квазиоснова, для профессионального – словоформа

3. отбор лексики для входного и подходящие эквиваленты для выходного словаря

4. создание машинной словарной статьи для каждой лексической единицы машинной словарной статьи лексическая единица вместе с набором ее всевозможных признаков

В словарной статье выделяют четыре зоны:

1. зона морфологических сведений

2. зона семантических сведений

а) принадлежность к определенному семантическому подклассу

б) переводные эквиваленты

3. зона синтаксических сведений (управление глагола или предлога)

4. зона лексических сведений

а) стилистическое использование лексической единицы (общеупотребительное или принадлежит к какому-то языку)

б) использование лексической единицы как части фразеологизма

Понимание и порождение письменной и устной речи с помощью ПК

Задачи автоматического понимания и порождения текста и речи очень сложны. Для их реализации в компьютерные системы нужно вложить огромный объем знаний об окружающем мире, естественных языках, а также очень сложные правила текста и речеобразования, лежащие в основе речемыслительной деятельности человека. В полном объеме это будет решено в будущем, а пока компы, обладающие возможностью обрабатывать письменные тексты и устную речь имеют в своей памяти ограниченные конкретной предметной областью базы знаний.

Базы знаний – это совокупность структурированных лингвистических и нелингвистических данных, а также правила их обработки.

Компьютерные системы понимания текста

Существуют разные точки зрения на проблему компьютерного понимания, выделяют различные уровни понимания текста, построены разные системы, способные понимать текст. Наиболее сложным для понимания являются тексты, описывающие взаимопонимание и поступки действующих лиц. Более простыми являются тексты, содержащие описание фрагментов статического мира, т.е. научные книги, статьи. Понимание в таких системах трактуется как извлечение из текста наиболее существенной с точки зрения ПК инфы. Полученная в результате понимания инфа может пополнять базу знаний компьютерной системы или может быть передана пользователю.

Под передачей понятого пользователю имеют в виду способность компа отвечать на вопросы пользователя относительно событий, фактов, описанных в исходном тексте в виде связного текста, а не в виде отдельных слов или предложений.

Согласно современным теориям автоматического понимания текста комп понял текст, если он может:

1. кратко изложить его содержание (аннотация, реферат)

2. ответить на вопросы к этому тексту

3. на основе текста нарисовать картинку или схему

4. приведенные в тексте сведения представить в другой форме (таблица, график)

5. на основе анализа текста, написанного на одном языке, выдать адекватную информацию на другом

6. сравнить содержание двух разных текстов и выдать инфу, что в них общего и в чем различия

7. путем анализа одного или нескольких разных текстов извлечь такие знания, которые можно поместить в некоторую базу знаний

Соотнося уровни понимания текста компом с основными уровнями языка, можно выделить следующие уровни автоматического понимания:

1. морфологический

2. синтаксический

3. семантический

4. гиперсинтаксический или прагматический

Морфологическое понимание сводится к автоматическому приписыванию каждому слову текста его морфологических признаков. Суть синтаксического понимания текста заключается в автоматическом выделении в каждом предложении текста главных и второстепенных членов предложения и установления между ними различных типов связи. В процессе семантического понимания текста автоматически устанавливаются значения, выделенные на синтаксическом уровне, составляющих предложение (подлежащее – одушевленное/неодушевленное, сказуемое – глагол движения/чувствования, обстоятельство – места/времени/действия)

Связано с выяснением семантических отношений между предложениями текста и с выявлением соответствующей тексту ситуации реальной действительности.

Типы автоматического понимания

Компьютерная система, понимающая письменный текст, должна иметь в своей базе данных следующую инфу:

1. знания о языке, на котором написан текст

2. правила использования знаний о языке

3. знания о реальном мире (предметной области)

4. правила использования знаний о фрагменте реальной действительности (предметной области)

5. знания о пользователе системы, желающем получить от ПК некоторое понимание, вложенного в его память текста

В зависимости от сложности использования знаний и их количества различают следующие типы автоматического понимания:

1. понимание/узнавание

Компьютерная система должна меть знания лишь о языке. Суть понимания сводится к тому, что ПК узнает морфологическую структуру каждого слова в предложении, проводит синтаксический анализ, узнает в исходном тексте ключевые слова, словосочетания и предложения

2. понимание/уподобление

Правила их использования. Считается, что эта система понимает текст, если она может ответить на вопросы по этому тексту. При этом понимании ПК просто находит готовые ответы в своей базе знаний, ранее занесенные человеком. Таким образом, ПК уподобляется человеку.

3. понимание/пронозирование

Для очень узкой предметной области. ПК должен иметь:

- знания о языке

- правила их использования

- знания по предметной области

Считается, что система понимает текст, если она может определить какой объект или предмет, или событие предметной области соответствует отдельным фрагментам этого текста. Однако одним и тем же фрагментом текста могут соответствовать различные объекты или события. Поэтому соотносить их можно лишь с определенной степенью вероятности – отсюда термин «прогнозирование»

4. понимание/объединение

В базе знаний представлены 4 вида знаний, объединяя эти виды знаний компьютерная система должна уметь делать выводы, умозаключения по тексту, объяснить почему она сформулировала то или иной вывод (это работа экспертной системы)

5. понимание/объяснение

Имеют в БЗ все 5видов знаний, включая знания о целях профессиональной компетенции пользователя. Компьютерная система должна уметь объяснить пользователю, каким образом она поняла текст, т.к. свое понимание система должна давать любому конкретному пользователю с учетом уровня его образования опыта, в таких системах используется диалог комп - пользователь.

Проблема автоматического понимания текста

1. Система автоматического индексирования, аннотирования, реферирования и машинного перевода текста

2. Информационная и информационно-поисковые системы

3. Экспертные системы (выступающие в роли высокопрофессионального специалиста в какой-то предметной области)

4. Системы автоматического порождения письменного текста

До сих пор нет единой теории текста образования, и она все еще находится в стадии становления. Известны многочисленные подходы к процедуре порождения текстов, которые в основном зависят от цели создания:

1.Системы, используемые в обучении в информационном обслуживанию

2. Системы по порождению практических документов (метеосводки, статотчеты)

3. Системы порождения небольших газетных сообщений по текущих событиях

4. Экспериментальные компьютерные системы, порождающие сказки, пословицы, стихи…

Сегодня не может быть создана единая теория порождения текста.

Основная причина – неоднозначное определение понятия «текст»

Создатели системы под текстом понимают мобильную реплику, состоящую из нескольких предложений.

Создатели системы генерации метеосводок и статотчетов под текстом понимают таблицу.

Для создающихся событий это цепочка несвязанных между собой предложений, относящихся к одному объекту.

Художественный, публицистический текст:

- здесь необходимы законы построения текста разных стилей и жанров

Установлено, что процесс текстообразования состоит из 2 этапов:

1. стратегического (должно быть принято решение, что писать)

2. тактического (как писать)

Результатом выполнения первого этапа должно стать смысловое представление будущего текста. А результатом выполнения второго – сам текст в языковой форме.

В общем классе в системе автоматического порождения текста должны быть представлены 3 взаимосвязанных компонента:

1. оболочка

2. планировщик

3. лингвистический редактор

Оболочка определяет назначение порождающей системы (компьютерная обучающая система или система моделирующая процесс создания сказки…) В оболочке также содержится вся база знаний, которая состоит из двух частей:

1. нелингвистической (предметной) в которую входят понятия, связи и отношения между понятиями конкретно-предметной области, к которой обносятся порождаемый текст, т.е. которая включает формализованные сведения о конкретном языке, на которых генерируется текст (списки морфем, словарь с лексикой, синтаксические структуры предложение, семантико-синтаксические структуры абзацев и всего текста).

Основные функции планировщика:

1. определяет ту инфу, которая должна быть представлена в тексте

2. определяет как инфа должна быть представлена

3. осуществляет построение синтаксической структуры предложений

4. определяет порядок следования абзацев в тексте

5. осуществляет выбор соответствующей лексики

Все эти задачи планировщик решает с порой на оболочку.

Лингвистический реализатор обеспечивает грамматическую правильность порождаемого текста и принимает окончательные синтаксические и морфологические решения.

Виды компьютерных систем порождения текста:

1. система, работающие на основе шаблонных технологий. Они строят будущий текст, манипулируя готовыми предложениями, словосочетаниями, как строительными блоками.

Эти системы достаточно просты и надежны, находят широкое промышленное применение. Содержание порождаемого текста представлено в виде фрагментов, созданных ранее людьми, следовательно выглядят естественно.

2. компьютерные системы, работающие на основе лингвистически-мотивированных технологий. В это случае для создания текста системе необходимы знания структуры содержания порождаемого текста, а также сложные лингвистические знания, которые позволяют выразить это содержание языковыми средствами. Для создания таких систем необходимо изучить жанровые характеристики текстов, приемы организации содержания этих текстов. Промышленных систем не существует.

Системы распознавания речи

Несмотря на то, что проблемами распознавания устной речи ученые занимаются более 60 лет, до сих пор она в полном объеме не решены. Под распознавание речи компом в полном объеме понимается такое распознавание, которое подобно восприятию речи человеком в любых условиях. Механизм восприятия речи человеком обладает высокой степенью надежности. Решения проблемы распознавания речи в полном объеме мешают следующие факторы:

1. не существует четких теоретических представлений, которые бы описывали весь комплекс преобразований, осуществляемых нервной системой при переработке речевых сигналов

2. слитно произнесенная речь обладает следующими свойствами – границы слов размыты. Во многих языках, где существуют согласные, которые не произносятся, но пишутся, и если знаменательные слова произносятся отчетливо, то функциональные слова нечетко и даже могут исчезать.

3. в голосе говорящего человека всегда присутствует экстралингвистическая инфа, свидетельствующая о его особом эмоциональном состоянии, указывающая на возраст, пол, национальность

4. в процессе речевого общения большое значение имеют паралингвистические средства коммуникации: кинесика (мимика, жесты, позы), фанация (характеристики голоса человека), проксемика (расстояние между людьми). Исходя из вышеизложенного, сегодня автоматическое распознавание речи может осуществляться только при наложении определенных ограничений на процесс распознавания:

- распознавание изолированно произнесенных слов

- распознавание речи с предварительной настройкой на голос конкретного пользователя

- распознавание речи с опорой на небольшой, заранее определенный словарь

Промышленно-реализованные системы распознавания устной речи можно разделить на 4 группы:

1. средства речевого управления (ПК, мобилки, бытовая техника)

2. средство диктовки, позволяющее голосом вводить текстовую инфу

3. информационно-справочные системы, работающие в диалоговом режиме в качестве автоответчика

4. средство идентификации человека по образу речи

Системы автоматического синтеза речи

3 основных метода автоматического синтеза речи:

1. кодирование (запись в двоичной системе речевых сигналов с их последующим . Это один из самых элементарных подходов к созданию говорящего компа.

Комп в данном случае выступает как устройство для записи речи – магнитофон, слова и фразы, записанные ранее в комп в нужный момент воспроизводятся по командам, поступающим из соответствующей программы.

Возможность сказать слово или фразу, которые не были заранее занесены в память, здесь отсутствует. Еще недостаток – для хранения речевых сигналов в их непосредственной форме нужна память значительного объема. Полученная таким образом речь по качеству приближается к человеческой.

2. фонетический синтез речи (акустическое моделирование голосового тракта человека) Принципиально отличается от описанного выше метода и имеет неестественное звучание. Синтезатор говорит голосом робота. Этот метод осуществляется по орфографическому тексту, написанному человеком. Комп умеет преобразовать буквы в фонемы, определить словесное фразовое ударение, интонацию, с которой нужно прочитать каждое предложение, преобразовать фонемы в их варианты алфавита и синтезировать непрерывный речевой сигнал с использованием аллофонов конкретного диктора, выбираемых из базы данных.

По мере совершенствования, речь синтезатора становится все более разборчивой. Этот метод синтеза речи весьма перспективен, т.к. речь действительно генерируется самим компом.

3. математическое моделирование голосового тракта человека. Словарь в синтезаторе этого типа как и в первом методе обычно создается с участием человека, но в данном случае в память ПК записываются не слова и фразы, а производится выделение числовых характеристик звуков речи и интонации фраз. Такой подход позволяет значительно уменьшить объем необходимой памяти. В этом заключается одно из главных достоинств метода. Синтезированная речь звучит естественно. Для ее генерации числовые характеристики по специальным командам преобразуются в звуковые сигналы.

Наиболее перспективным является второй метод. В настоящее время специалисты работают над тем, чтобы речь звучала живо, естественно и эмоционально.

Лингвистические информационные ресурсы ЛИР и базы данных БД

БД – это совокупность определенным образом упорядоченных сведений о некоторых объектах. Объекты могут быть материальными (студент) и нематериальными (процесс, явление). Каждый объект обладает свойствам (атрибутами), которым присваиваются определенные значения.

№ студенческого билета

Ф.И.О.

Дата рождение

Факультет

№ группы

Стипендия

(код)

25989

Сидоров

1991

перевод.

102

100.000

(С-1)

25590

Иванов

1992

перевод.

109

120.000

(С-2)

Данные, которые составляют первую строку, называются записью. Чтобы пользователь мог обратиться к записи, ее необходимо идентифицировать, т.е. выбрать ключ (идентификатор), по которому будет выводиться инфа.

Код

Стипендия

С-1

100.000

С-2

120.000

Действия, которые можно производить над данными в БД:

1. ввод новой записи

2.обновление существующих записей

3. удаление отдельных данных или записей

4. поиск инфы

Поиск инфы – операция извлечения из БД любой инфы.

СУБД (системы управления базами данных)

СУБД – это совокупность программных средств, позволяющих осуществлять ведение БД и поиск в них инфы. Различают два типа СУБД:

1. настольные: Microsoft Outlook, MS Excel, MS Access, Fox Base, Clipper

2. сетевые – используют архитектуру клиент-сервер. Информация централизованно хранится на сервере: MS SQL Server, Informix.

Основные функции СУБД:

1. обеспечить создание структуры БД, определить какая инфа будет хранится, какие атрибуты и типы данных.

2. модификация инфы (добавление, удаление)

3. поиск инфы

Лингвистические информационные ресурсы (ЛИР)

Пассивные формы информационных ресурсов: книги, журналы, газеты, словари, БД.

Активные: алгоритмы, программы, базы знаний.

ЛИР – определенным образом организованные речевые и языковые данные, находящиеся на машинных носителях и используемые в различных сферах практической деятельности.

В общем виде ЛИР – это своеобразная лингвистическая БД, которая может обновляться и в которой можно искать ту или иную инфу. ЛИР необходимы как пользователям ПК, так и самим компьютерным системам, связанным с обработкой текста и речи.

ЛИР включает:

1. Письменный лексикон

2. Письменные текстовые массивы

3. Фонетические лингвистические ресурсы

1. Письменный лексикон представлен одноязычными и многоязычными лексиконами (словарями). В многоязычных словарях дается перевод значения исходного языка на один или несколько иностранных языков.

В компьютерной лингвистике используются следующие типы одноязычных словарей:

- частотно-алфавитные словари словоформ какого-либо текста

- словари-словоуказатели, где указывается частота, номер страницы и строки, на которой встретилось слово

- конкордансы – в них каждая словоформа характеризуется численными показателями и некоторым контекстом. Контекст дается – три предложения слева и справа.

- словари-энциклопедии

Энциклопедия – это словарь, содержащий характеристики не слова, а обозначенного им предмета, факта или явления.

- словари-тезаурусы, где указываются семантические связи между определенной частью его лексических единиц. 1852 г.

- терминологические словари – основная единица-термин

Термин – это слово или словосочетание, имеющее специальное значение, выражающее и формирующее профессиональное понятие и применяемое в процессе познания и освоения научных и профессионально-технических объектов. Используются при переводе текстов с одного языка на другой, для создания учебников.

2. Письменные текстовые массивы (корпусы текстов) – совокупность текстов, являющаяся достаточной для обеспечения надежности научных выводов о некотором языке, подъязыке, диалекте. Суть сводится к тому, что достоверные данные о морфологической, фонетической, синтаксической и семантической структуре языка и речи могут быть получены из достаточно большого массива текстов.

Могут быть использованы:

- в лексикологии – для составления различных словарей, выделения терминов, определения значения многозначных слов

- в грамматике – для определения частоты употребления грамматических морфем, для выявления наиболее употребляемых типов словосочетаний и предложений

- в лингвистике – для дифференцирования типов текста, создания конкорданса при машинном переводе.

Сегодня стали создавать топированные корпусы текста. Слова такого корпуса получают буквенные и цифровые индексы, которые обозначают их грамматические, лексические, семантические, структурные признаки.

Создаются корпусы текстов на двух языках.

3. Фонетические лингвистические ресурсы – это корпусы устной речи. Главная трудность создания корпуса устной речи связана с необходимостью транскрибирования устной речи. Несмотря на трудности, в мире существуют достаточно много фонетических корпусов, которые широко используются для:

- сопоставления изучения устной и письменной формы языка

- для изучения грамматических и лексических особенностей устной речи

- для создания компьютерных систем, используемых с целью распознавания и синтеза устной речи

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]