Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
posibМОЙ4_Исправленный1.doc
Скачиваний:
94
Добавлен:
08.02.2016
Размер:
5.36 Mб
Скачать

Модуль 5. Системи автоматизованого перекладу

Тема 5. Системи автоматизованого перекладу

Навчальний елемент 5.1.Системи автоматизованого перекладу II рівня:

Результатом вивчення цього навчального елемента мають бути знання про:

  • Принципи роботи програми PROMPT.

  • Принципи роботи інших програм перекладу IIрівня

Порядок опрацювання навчального елемента

I. Опрацювати теоретичний матеріал.

II. Дати відповіді на питання для самоконтролю.

Питання для самоконтролю наведені в кінці навчального елемента.

III. Виконати практичне завдання.

Завдання для практичного виконання наведені в кінці навчального елемента.

Теоретичний матеріал

Ідея використання комп'ютера для автоматичного перекладу текстів виникла ще на початку появи обчислювальної техніки. Для автоматичного перекладу документів з однієї мови на іншу розроблено багато різних програм. Однак через складнощі опису семантики природних мов до цього часу остаточно проблему перекладу ще не вирішено. Проте сучасні засоби автоматизації перекладу досягли такого рівня, який дає змогу ефективно використовувати їх на практиці. Це пов'язано з тим, що в наукових, технічних, економічних та інших текстах, на відміну від художніх, використовується обмежена кількість мовних конструкцій, які більше орієнтовані на однозначну інтерпретацію.

Оцiнюючи актуальнiсть автоматизацiї перекладу, уже цитований нами Дж. Слокум пише, що фахiвця, який бажає бути в курсi подiй у своїй науковiй, технiчнiй областi, цiлком задовольняє недорога система МП, яка здiйснює швидкий, хоча й недосконалий переклад великих обсягiв iнформацiї. В найгiршому випадку, тобто при одержаннi вiд машини перекладу недостатньо високої якостi, фахiвець мiг би, тим не менше, вирiшити, чи потрiбний йому бiльш точний iнтелектуальний переклад. Що ж стосується перекладу iнформацiї на iноземнi мови, то Дж. Слокум вважає, що вигiднiше користуватися системами машинного перекладу, якi допускають iнтелектуальне постредагування, нiж робити повнiстю “ручний” перек

Типологiя та принципи функцiонування систем машинного перекладу

В основi iнженерно-лiнгвiстичного пiдходу до проблематики машинного перекладу має лежати лiнгвiстична класифiкацiя систем МП. Перш нiж запропонувати типологiю систем, визначимо, що можливi рiзноманiтнi пiдвалини такої класифiкацiї. Це пояснюється багатоаспектнiстю самої проблематики.

Iз лiтератури нам вiдомi такi принципи класифiкацiї.

а) Щодо участi ЕОМ у процесi перекладу, обсягу роботи, яку вона “бере на себе”, системи МП подiляються на автоматизованi та автоматичнi. Першим в англiйськiй мовi вiдповiдає термiн MAT (machine-aided translation), тобто переклад, який виконується за допомогою машини, а другим -MT - machine translation), тобто машинний переклад як такий.

В автоматизованих системах МП людина є обов’язковим учасником процесу перекладу. На частку машини в них приходиться виконання тiльки рутинних операцiй - пошук слiв i словосполучень в автоматичному словнику та вивiд їхнього перекладу на екран з можливою наступною вставкою у вихiдний текст. Навпаки, в автоматичних системах машина здiйснює аналiз вхiдного тексту та синтез вихiдного, так що переклад, хоча й має неминучi лексичнi, граматичнi, стилiстичнi помилки, в цiлому є зрозумiлим користувачевi й може бути використаний у виглядi iнформацiйного документу, котрий в деякiй мiрi може замiнити оригiнал. У той же час, такi системи, як правило, мають засоби редагування машинного продукту, що особливо важливо при перекладi текстiв, котрi мають статут документiв у прямому значеннi цього слова, наприклад, технiчної документацiї, котра поставляється за кордон разом з устаткуванням, що експортується.

б) Ще однiєю характеристикою системи МП є кiлькiсть мов, що їх “розумiє” система. Вiдповiдно до даного критерiю будемо розрiзняти двомовнi та багатомовнi системи. Першi здiйснюють переклад для однiєї мовної пари. Якщо ж система охоплює бiльше однiєї мовної пари, вона є багатомовною.

У розвиток цього пункту представляється доцiльним ввести також такий пiдроздiл систем МП, як оборотнiсть (англiйський термiн - “two-way systems”) i необоротнiсть (“1-way systems”). Системи першого типу перекладають текст тiльки “в один бiк”, а системи другого типу - “в обидвi сторони”.

в) Важливою характеристикою систем МП є також тип документiв, на переклад яких орiєнтована система. Зокрема, iснують системи, якi працюють тiльки з заголовками документiв (наприклад, патентiв); iншi - здебiльшого з технiчними специфiкацiями, тощо. Iснують також унiверсальнi системи, якi можуть на однаковому рiвнi ефективностi перекладати тексти рiзноманiтних типiв (try-anything systems - термiн Веронiки Лоусон).

Промисловi системи МП розрiзняються в залежностi вiд тематичних галузей, що покриваються ними. Визначимо при цьому, що в сучасних системах МП програмне забезпечення залежить тiльки вiд структури лiнгвiстичного забезпечення, але не вiд конкретного наповнення автоматичного словника, i треба розрiзняти саме словники систем, а також практичну можливiсть їхнього поширення.

г) Нарештi, широко вiдомий суто лiнгвiстичний принцип класифiкацiї :

Системи МП подiляються на - системи, що реалiзують прямий переклад (direct translation); - системи, якi базуються на трансферi (transfer approach); - системи з мовою-посередником (interlingua approach).

Оскiльки ця пiдстава класифiкацiї представляє, зрозумiло, особливий iнтерес для комп’ютерної лiнгвiстики, розглянемо її детальнiше.

Системи прямого перекладу будуються, виходячи з такого мiркування: хай маємо двi конкретнi мови, на котрi настроюється дана конкретна система; в основному iнформацiя знаходиться в лексицi, тому достатньо правильно перекласти лексику вхiдного тексту, для чого, зрозумiло, необхiдно зняти багатозначнiсть, яка заважає цьому (в першу чергу граматичну), i привести в мiнiмально необхiдну вiдповiднiсть вхiднiй синтаксичнiй структурi вихiдну структуру, щоб лексика вихiдного тексту справдi передавала iнформацiю, закладену в текстi, що перекладається. Цi системи придiляють основну увагу лексицi, iгноруючи “глобальний” синтаксис речення i спираючись на мiнiмальний контекст. Важливо пiдкреслити, що при прямому перекладi речення i аналiзується, i синтезується не у виглядi синтаксичного утворення, а як сукупнiсть лiнiйних фрагментiв. Безумовно, в цiй лiнiйностi синтаксичнi зв’язки i залежностi враховуються, але непрямо i далеко не в повному обсязi.

Суть прямого перекладу - в гiпотезi, згiдно з якою надлишковiсть мови є такою, що правильний переклад лексики компенсує помилки в граматицi. Можна також припустити, що, чим ближче синтаксичне оформлення текстiв двох мов, тим вищою буде якiсть перекладу. А навпаки? Наскiльки достатньою є надлишковiсть? Наскiльки знань користувача з предметної галузi достатньо для того,щоб зрозумiти граматично помилковi фрагменти? На цi питання краще всього вiдповiдає оцiнка машинних перекладiв, виконаних такими системами. Зараз визначимо лише, що, як показує практика, системи прямого перекладу можуть претендувати, в першу чергу, на одержання сигнальних перекладiв, тому що якiсть вихiдного продукту в них є далекою вiд iдеалу, якщо йдеться про новий текст, котрий, ранiше не опрацьовувся системою.

Системи прямого перекладу можна удосконалювати. Їхнiй нижчий рiвень - пословний переклад; можна було б вказати i вищий, проте головне, що цей вищий рiвень iснує, розвивати безмежно такi системи неможливо, основний принцип системи в процесi вдосконалення не змiнюється: прямий переклад - це так чи iнакше автоматично вiдредагований пiдстрочник.

Не можна не бачити, що всi перетворення пiдстрочника базуються на особливостях вхiдної структури. Таким чином, якщо пiдстрочник дав помилковий переклад iз-за невiдповiдностi вхiдної та вихiдної структур, то ця помилка збережеться на всiх наступних етапах обробки. Нехай, наприклад, необхiдно перекласти росiйською мовою мову англiйське речення

I saw her walking. Прямий переклад: Я побачив її ідучи.

У розвинених системах прямого перекладу застосовуються процедури усунення багатозначностi, котрi базуються на аналiзi обмежених лiнiйних контекстiв, сегментiв. При такому аналiзi, що враховує не залежностi слiв, а тiльки їхнє лiнiйне роташування, iснує можливiсть багатозначного та по-милкового видiлення фрагментiв, що призводить до помилок у побудовi вихiдного тексту.

Як бачимо, помилковий - iз-за неврахування синтаксичної структури речень - пiдстрочник призводить до того, що, одержавши його, уже пiзно будь-що змiнювати, помилка залишається. У зв’язку з цим, грубому прямому перекладу протиставляється трансфер-пiдхiд. Його iдея: якщо при прямому перекладi лексика часто “не працює” iз-за неврахування синтаксичної ролi слiв, то необхiдно виявити синтаксичну структуру вхiдного речення, трансформувати її у структуру мови перекладу i тiльки потiм - перекладати на лексичному рiвнi, тобто пiдставляти слова в синтаксичну структуру вихiдного тексту.

Розглянемо той же приклад, використовуючи такi умовнi означення: N - iменник чи займенник; V - дiєслово; D -поширене доповнення; pres - теперiшнiй час.

I saw her walking. Аналiз: I = N; saw = V; her walking = D. Трансфер: N - V - D = N - V, как N1 V1pres. Синтез: Я побачив,як вона іде.

Таким чином, переклад, виконаний системою з використанням трансферу, буде кращий, нiж переклад, виконаний системою прямого перекладу, якщо задовольняються три умови: - вдалим був аналiз вхiдного тексту, тобто система вiрно розпiзнала синтаксичну структуру тексту; - словник правил трансферу досить повний; - структури вхiдного та вихiдного текстiв розрiзняються, так що перетворення є необхiдним.

Отже, тотальнiй вiдмовi вiд синтаксичного аналiзу протиставляється теж тотальний синтаксичний аналiз. При цьому ясно, що синтаксичний аналiз без урахування семантики слiв не буде повноцiнним. Приклад: The cell changed a minute later (“змінилася”). The reporter changed the article later (“змінив”).

Визначимо, що наведенi цi “простi” приклади не є штучними: в реальних наукових та iнформацiйних текстах ситуацiї є значно складнiшими для обробки, тому що в них використовуються термiни, семантику яких складно описати, причому вони вступають у реальних текстах у складнi синтаксичнi вiдносини одне з одним.

Як бачимо, труднощi у обох методик - спiльного порядку: необхiднiсть заздалегiдь, у словнику, тобто на рiвнi мови, завбачити поводження слiв у текстi, тобто на рiвнi мовлення. При цьому: - при прямому перекладi завбачається менше, i це потребує менше iнформацiї при утвореннi словника, що спрощує цей процес, але вiдсутнiсть частини важливої iнформацiї про слова та граматику призводить до помилок; - трансфер-переклад потребує бiльше iнформацiї, словник поповнювати складнiше, при аналiзi, синтезi й трансферi враховується бiльше зв’язкiв, а значить - з’являються помилки, викликанi тим, що ми бiльше хочемо узнати про речення, а також тим, що можливi помилки при введення слiв у словник.

Справдi, при прямому перекладi нас не цiкавлять синтаксичнi зв’язки, точнiше, вся їх маса, а значить, помилок, що проявляються у виявi неiснуючих зв’язкiв, просто немає. Зате, з iншого боку, трансфер-пiдхiд у рядi випадкiв позбавляє вiд помилок прямого перекладу, тому що не робить прямих, “пiдрядкових” пiдстановок слiв, а значить, не робить i вiдповiдних помилок. Практика показує, що трансфер-системи, що мають, здавалося б, вищу розпiзнавальну спроможнiсть, нiж системи прямого перекладу, мають не бiльш високi показники якостi перекладу. Наприклад, система нiмецького-англiйського перекладу METAL має процент правильно перекладених речень 45% -85%, залежно вiд того, чи новi це тексти для системи . Причина тут в тому, що притягнення синтаксичної iнформацiї саме по собi не може не дати помилок. Трансфер-переклад, таким чином, будучи гiпотетично ефективнiшим за прямий переклад, на практицi в цiлому працює не краще щодо загальної якостi вихiдного тексту, якщо тiльки не демонструвати його переваги на заздалегiдь пiдготовлених прикладах. У той же час, не слiд забувати принаймнi двi його переваги перед прямим засобом: - деякi конструкцiї, наприклад, наведена вище - I saw her walking - принципово не пiдлягають прямому перекладу i мають опрацьовуватися з використанням правил трансферу; - за допомогою трансферу значно легше будувати багатомовнi системи, i ця перевага є тим значнiшою, чим у системi бiльше мов i необхiдно реалiзувати переклад з кожної мови на кожну: аналiзiв i синтезiв треба стiльки, скiльки опрацьовується мов, i для кожної пари необхiдно задати правила трансферу, тодi як при прямому перекладi потрiбно будувати стiльки систем, скiльки маємо мовних пар.

Щодо систем з мовою-посередником, то однiєю з головних передумов їх побудови є бажання суттєво спростити розробку багатомовних систем, а також iстотно пiдвищити якiсть перекладу. Суть засобу полягає в тому, що, незалежно вiд мови, текст на етапi аналiзу перетворюється не в прив’язаний до цiєї мови структурний вираз, а в незалежний вiд конкретних мов опис, що передає змiст вхiдного тексту. Пiсля цього смислове подання перетворюється в текст на вихiднiй мовi. Безумовно, досвiдченi перекладачi працюють саме так: не бездумно “транслюють” вхiдний текст на вихiдну мову, а спочатку розумiють змiст тексту, що перекладається, i лише потiм працють з цим змiстом.

Очевидно, при реалiзацiї даного засобу лiнгвiсти зштовхуються з тими ж проблемами, що й розробники трансфер-систем, хiба що цих проблем iстотно бiльше у зв’язку iз залученням широкої семантичної iнформацiї, формалiзувати котру, як ми уже бачили, дуже складно. Пiдведемо попереднi пiдсумки. Тепер, коли ми коротко проаналiзували всi три вiдомих сучаснiй комп’ютернiй лiнгвiстицi засоби машинного перекладу: прямий, з трансфером i з мовою-посередником, -задамося питанням: чому засоби, якi базуються на глибокому, семантично-синтаксичному аналiзi тексту, не призвели поки що до побудови комерцiйних (пiдкреслимо - саме комерцiйних) систем, по якостi перекладу iстотно переважаючих порiвняно простi системи прямого перекладу ? Ми вважаємо можливим припустити, що об’єктивно iснує деяка межа, вище якої якiсть МП практично (пiдкреслимо -саме практично, при масовому перекладi заздалегiдь не пiдготовлених текстiв) бути не може, причому ця межа є досить близькою: якiсть реального МП бiльш вiддалена вiд iдеалу, нiж вiд пiдстрочника. Ця гiпотеза непрямо пiдтверджується численними прикладами реальних, стало функцiонуючих систем: показники повноти й точностi в них завжди далекi вiд 100%, якщо тiльки iндексування бази даних здiйснюється автоматично, як i переклад у системах МП. Якщо наша гiпотеза є вiрною (а поки що вона не була спростована в жоднiй з комерцiйних систем МП), то, скорiше за все, в її основi лежить такий лiнгвiстичний феномен. Слово мови має невелику кiлькiсть характеристик належностi до граматичного класу й пiдкласу: частина мови, рiд, число, вид дiєслова, тип вiдмiнювання/дiєвiдмiни та деякi iншi. На цi характеристики й спираються системи прямого перекладу. Але слово має й безлiч потенцiйних контекстуальних зв’язкiв. На них намагаються спиратися трансфер-системи. Першi покладають сподiвання на надлишковiсть мови та близькiсть синтаксичних структур вхiдної та вихiдної мов; другi намагаються передбачити всi чи бiльшiсть потенцiйних зв’язкiв. Можливо, якiсть перекладу в дiючих системах обох типiв є приблизно однаковою тому, що, чим менше зв’язкiв аналiзується, тим меншою є ймовiрнiсть “виявити” неiснуючi, але зате тим менше ймовiрнiсть помилки там, де без урахування цих зв’язкiв обiйтися неможливо. З iншого боку, чим бiльше потенцiйних зв’язкiв аналiзується, тим бiльше неiснуючих ураховується, але зате там, де зв’язки виявленi вiрно, переклад буде вiрний. Природною здається аналогiя з пошуковими системами: чим вище повнота пошуку, тим нижче точнiсть; чим точнiше пошук, тим бiльше втрат. Сумарний же показник повноти й точностi залишається приблизно на одному рiвнi.

Звiдси витiкає ще одна гiпотеза: можливо, “проста” i “складна” системи перекладуть один i той ж текст з приблизно однаковими показниками якостi, але зроблять при цьому рiзнi помилки. Нам здається, що ця гiпотеза потребує перевiрки для пошуку нових, бiльш ефективних засобiв перекладу. Одним iз таких шляхiв може виявитися розробка гiбридних систем, якi поєднують можливостi прямого перекладу й трансферу.

Принципи оцiнки якостi систем МП

Аналiзуючи системи машинного перекладу, так же як iнформацiйнi системи двох iнших “класичних” типiв - пошуку i реферування iнформацiї, необхiдно користатися певними критерiями їхньої оцiнки,тому що iнакше буде неясно, що саме ми розумiємо пiд “гарною” та “поганою” системами. Зрозумiло, оцiнювати якiсть перекладу ми можемо тiльки щодо систем автоматичного МП, тодi як якiсть автоматизованих систем логiчно оцiнювати в основному з точки зору їх зручностi.

Щодо лiнгвiстичних можливостей систем МП, найбiльш розповсюдженим i широко цитованим у лiтературi є такий пiдхiд до оцiнки текстiв, котрi генеруються комп’ютером, при якому пiдраховується кiлькiсть правильно перекладених речень. Ми ж, у повнiй вiдповiдностi до iдей, сформулюваних вище, будемо дотримуватися суто прагматичного пiдходу до оцiнки iнформацiйної системи. Ми вважаємо, що система МП може бути визнана ефективною для цiлей витягу iнформацiї, якщо переклади, що генеруються нею, є зрозумiлими користувачевi й читаються їм без особливої напруги. Щодо систем, орiєнтованих на розповсюдження iнформацiї, то до якостi їх роботи пред’являються, взагалi кажучи, бiльш жорсткi вимоги: переклад, виконаний такою системою, має бути не тiльки зрозумiлим науково-технiчному редактору або квалiфiкованому перекладачу, але й вимагати прнаймнi не бiльших витрат на редагування, нiж “ручний” переклад того ж тексту.

Можна запропонувати таку шкалу оцiнки якостi машинного перекладу:

1) Якiсть перекладу є неприйнятною. Переклад цiлком некорисний для будь-яких цiлей. Краще читати оригiнал, нiж такий “переклад”. 2) Переклад поганий, вдається вловити лише деякi фрагменти змiсту. Ледве зрозумiло, про що йдеться в текстi.

3) Якiсть перекладу низька. Можна зрозумiти лише загальний змiст тексту, але читати великi порцiї такого перекладу важко. Переклад такої якостi можна використати при формуваннi довiдково-iнформацiйного фонду, але не у виглядi iнформацiйного чи навiть сигнального документу.

4) Якiсть перекладу середня. Такий переклад може бути використаний при первинному ознайомленнi зi змiстом невеликого чи середнього за обсягом документу для визначення необхiдностi його повного перекладу, або при читаннi великого тексту - для визначення фрагментiв, якi потребують квалiфiкованого перекладу.

5) Якiсть перекладу прийнятна. Зрозумiлi тематика та змiст документу. Iз перекладу можна витягти також деякi фактичнi вiдомостi. В цiлому ж переклад читається з напругою.

6) Переклад задовiльний. Є помилковi та незрозумiлi фрагменти, але їх порiвняно небагато, в цiлому ж переклад може бути використаний як джерело iнформацiї.

7) Переклад хороший, хоч i граматично кострубатий.

Ще одним критерiєм оцiнки системи МП має бути комфортнiсть з точки зору кiнцевого користувача. У поняття комфортностi входить багато технiчних i лiнгвiстичних аспектiв, на якi ми будемо звертати увагу при розглядi конкретних систем.