Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Информационные технологии.docx
Скачиваний:
27
Добавлен:
08.06.2015
Размер:
112.98 Кб
Скачать

1. Комп по каждому абзацу текста составляет алфавитно-частотный словарь

2. алфавитно-частотные словари объединяются в единый распределительный алфавитно-частотный словарь всего текста

3. ПК проводит чистку словаря, сжимая его до словаря потенциальных, ключевых словоформ

- удаляется вся служебная и общеупотребительная лексика

- объединяются все грамматические формы одного и того же слова

- объединяются синонимы

- удаляются лексические единицы, которые встретились только в одном абзаце

4. словарь потенциально ключевых слов делится а две части:

- главных опорных слов

- второстепенных опорных слов, что осуществляется на основе статистического коэффициента важности.

5. строится аннотация, используется словарь главных опорных слов. Аннотация строится из слов реляторов со следующими за ними словосочетаний

6. строится реферат, используется словарь главных и второстепенных опорных слов. Просматривается исходный текст, комп извлекает из него предложения, содержащие три и более опорных слова.

Системы машинного перевода

Перевод – это вид человеческой языковой деятельности, в результате которой текст на одном языке ставится в соответствие тексту на другом языке, при этом обеспечивается их смысловая эквивалентность.

Типы перевода по степени автоматизации:

1. традиционный (ручной) перевод, выполняемый человеком

2. автоматизированный перевод

а) перевод, выполняемый компом с помощью человека. Компьютер делает перевод, а за справками обращается к человеку.

б) перевод, выполняемый человеком с помощью компа

- в памяти ПК двуязычный словарь и текстовый процессор

- систему ТМ (Translation Memory)

Эти программные продукты называют автоматизированным рабочим местом переводчика. В основе этих программ лежит принцип сбора и хранения фрагментов, переведенных человеком текстов на двух языках. Хранятся в специальном носителе переводов (памяти) и служат бесценным подспорьем при последующем выполнении переводов этой же тематики.

Для каждой тематики создается новый накопитель, ими можно обмениваться. Самая популярная программа – Trados.

3. Машинный (автоматический) перевод

МТ (Machine Translation)

Машинный перевод – это выполняемое компом действие по преобразованию текста на одном естественном языке в текст на другом естественном языке при сохранении эквивалентности содержания, а также результатом такого действия.

Специалисты утверждают, что такой перевод невозможен, поскольку большинство слов имеют несколько значений, то основная трудность при переводе заключается в выборе нужного значения.

Реально автоматический перевод возможен только в условиях искусственно ограниченного языка (как по словарному запасу, так и по грамматике)

Человек, как правило, участвует в процессе перевод (предредактор упрощает текст, постредактор – редактирует)

Виды машинного перевода

1. Информативный – грубый, пословный перевод, достаточный для поверхностного ознакомления с содержанием текста

2. профессиональный – качество перевода сравнимо с качеством «человеческого» перевода и при небольшом редактировании является удовлетворительным

3. персональный (авторский) – где авторы подлежащих переводу текстов заранее избавляют их от неоднозначности и работают в режиме диалога с компом.

Наиболее популярные системы машинного перевода:

- Сократ

- SYSTRAN

- PROMT – семейство продуктов, включающих в себя возможность перевода с английского, французского, немецкого, испанского и итальянского языков на русский и наоборот.

В последних версиях встроен модуль ТМ, который позволяет сохранить используемые ранее переводные фрагменты.

Положительные факторы:

1. удобны при обработке переводов (встроен модуль OCR, Fine Reader)

2. возможность форматировать текст перевода

3. имеют удобные возможности для поиска слов и выражений в электронных словарях

4. позволяет ускорить перевод, освободив от необходимости повторного перевода того, что уже было переведено ранее (при использовании ТМ)

5. можно доверить перевод конфедициальной инфы

6. значительно дешевле

7. системы машинного перевода облегчают просмотр web страниц в интернете

Структура системного машинного перевода и назначение ее основных блоков

Система МП (машинного перевода) являются моделями, которые воспроизводят на ПК речевое поведение чела, переводящего текст с одного языка на другой язык.

Автоматический двуязычный словарь

Синтаксические соответствия

1. Процессы морфологического анализа слов/предложений исходного языка. Каждое слово получает набор лексико-грамматических признаков. ПК формирует эти наборы с опорой на автоматический словарь.

2. Синтаксический анализ предложения исходного языка сводится к поиску основных членов предложения, определяет структуру предложения.

3. Синтаксический синтез переводного языка:

- создание предложения переводного языка, определенной синтаксической структуры, определяемой правилами исходного и переводного языка

- замена слов исходного языка на их переводные эквиваленты

4. Морфологический синтез переводного языка сводится к постановке слов переводного языка в нужном числе, форме, роде, падеже, основываясь на автоматический словарь, в котором хранятся все лексико-грамматические формы слов.

При создании автоматического словаря решаются следующие задачи:

1. выбор типа лексической единицы для словаря:

а) в виде словоформ, т.е. в автоматический словарь заносятся всевозможные формы лексической единицы, которые подаются гнездами

б) в виде квазиосновы (блок #...)

- числа, стоящие после решетки (001, 002) условно обозначают те наборы суффиксов и окончаний, которые необходимо присоединить к основе, чтобы получить соответствующие формы слою

2. выбор типа лексической единицы зависит от:

- от типа языка (для русского, немецкого, белорусского – квазиоснова, для английского, французского – словоформа)

- от объема словаря

- от типа системы машинного перевода, для информативного перевода – квазиоснова, для профессионального – словоформа

3. отбор лексики для входного и подходящие эквиваленты для выходного словаря

4. создание машинной словарной статьи для каждой лексической единицы машинной словарной статьи лексическая единица вместе с набором ее всевозможных признаков

В словарной статье выделяют четыре зоны:

1. зона морфологических сведений

2. зона семантических сведений

а) принадлежность к определенному семантическому подклассу

б) переводные эквиваленты

3. зона синтаксических сведений (управление глагола или предлога)

4. зона лексических сведений

а) стилистическое использование лексической единицы (общеупотребительное или принадлежит к какому-то языку)

б) использование лексической единицы как части фразеологизма

Понимание и порождение письменной и устной речи с помощью ПК

Задачи автоматического понимания и порождения текста и речи очень сложны. Для их реализации в компьютерные системы нужно вложить огромный объем знаний об окружающем мире, естественных языках, а также очень сложные правила текста и речеобразования, лежащие в основе речемыслительной деятельности человека. В полном объеме это будет решено в будущем, а пока компы, обладающие возможностью обрабатывать письменные тексты и устную речь имеют в своей памяти ограниченные конкретной предметной областью базы знаний.

Базы знаний – это совокупность структурированных лингвистических и нелингвистических данных, а также правила их обработки.

Компьютерные системы понимания текста

Существуют разные точки зрения на проблему компьютерного понимания, выделяют различные уровни понимания текста, построены разные системы, способные понимать текст. Наиболее сложным для понимания являются тексты, описывающие взаимопонимание и поступки действующих лиц. Более простыми являются тексты, содержащие описание фрагментов статического мира, т.е. научные книги, статьи. Понимание в таких системах трактуется как извлечение из текста наиболее существенной с точки зрения ПК инфы. Полученная в результате понимания инфа может пополнять базу знаний компьютерной системы или может быть передана пользователю.

Под передачей понятого пользователю имеют в виду способность компа отвечать на вопросы пользователя относительно событий, фактов, описанных в исходном тексте в виде связного текста, а не в виде отдельных слов или предложений.

Согласно современным теориям автоматического понимания текста комп понял текст, если он может: