Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
ИТ.doc
Скачиваний:
15
Добавлен:
18.09.2019
Размер:
5.68 Mб
Скачать

Глава 1 5

ИНФОРМАТИКА И ИНФОРМАЦИОННЫЕ ТЕХНОЛОГИИ 5

1.1. Информатика — состав и структура 5

1.3. Структуризация взаимосвязи информатики с предметной областью применения 20

1.4. Уровни информационных процессов 28

гипертекстовые. 51

По форме представляемой информации выделяют: 59

фактографические; 59

документальные; 59

По типу хранимой (немультимедийной) информации выделяют: 59

фактографические; 59

документатьные; 59

лексикографические БД. 59

Информационные ресурсы 61

Глава 2 66

ТЕХНОЛОГИИ ОБРАБОТКИ ДОКУМЕНТОВ 66

2.1. Текстовая информация. Модель документа 66

2.2. Языки разметки документов 77

тех! (для записи текста); 98

2.3. Технологии XML 99

2.4. Текстовый редактор Word 115

2.5. Работа с электронными таблицами 156

Глава 3 110

МУЛЬТИМЕДИЙНЫЕ ТЕХНОЛОГИИ 110

3.1. Обработка аудиоинформации 110

3.2. Форматы записи-воспроизведения аудиосигналов 129

3.3. Технологии статических изображений 141

3.4. Программные средства обработки изображений 149

3.5. Цифровое видео 155

Глава 4 184

ИНФОРМАЦИОННЫЕ КРОСС-ТЕХНОЛОГИИ 184

4.1. Оптическое распознавание символов (OCR) 184

OCR А 123 OCR В 123 185

welcome 195

ААААаааааааааааА 199

шиши 207

5.2. Базы данных и СУБД 317

5.3. Физическая организация данных в системах управления данными 296

5.4. Анализ информации и хранилища данных 312

Глава 6 334

СЕТЕВЫЕ ИНФОРМАЦИОННЫЕ ТЕХНОЛОГИИ. INTERNET 334

□ □ 337

Outlook 409

& a a 400

f К 415

\/ \/ 442

7.5. Объектно-ориентированные технологии распределенной обработки 440

Глава 8 444

ЗАЩИЩЕННЫЕ ИНФОРМАЦИОННЫЕ ТЕХНОЛОГИИ 444

8.2. Криптографические методы защиты данных 467

8.3. Компьютерные вирусы и защита от них 475

8.4. Средства защиты данных в СУБД 483

8.5. Защита информации в сетях 490

Заключение 502

Литература 503

Глоссарий 506

Список сокращений 540

Оглавление 541

HTML — язык разметки гипертекста 545

Базовые элементы HTML-документа: 546

00 ШИН (En9lish 1)

НИН (English 2) и Щ (Кириллица)

О 3 (Цифры)

Рис. 4.8. Гипотезы о разделении слов на буквы

рейти на уровень «слово» и путем нескольких проверочных опе­раций выяснить, какой из вариантов больше остальных похож на правильный.

В рассматриваемом примере произойдет следующее: контек­стная проверка покажет, что весь текст состоит из английских слов, и вес моделей «слово — английский язык» значительно увеличится, а моделей «слово — кириллица» соответственно уменьшится. Модель «цифры» также останется позади в силу крайне малого суммарного веса составляющих гипотез. Затем словарная проверка подтвердит, что в словаре английского язы­ка слова «turn» нет, a «turn» — есть. Следовательно, гипотеза от­носительно слова «turn» приобретет еще больший вес, что позво­лит ей в дальнейшем оказаться «победителем». Заметим, что «ав­торитет» словаря значительно выше, нежели у любого классификатора, поэтому в данном примере даже при полно­стью слившихся буквах г и п итоговое решение будет принято правильно.

С уровня «строка» до уровня «страница». Формирование электронного документа

Итак, все слова текстового блока распознаны. Пользуясь ин­формацией, полученной при анализе структуры документа, ABBYY FineReader расставляет слова по местам. Из образую­щихся при этом строк формируются текстовые блоки, размещае­мые на странице в точном соответствии с оригиналом. Когда формирование документа завершено, система обращается к пользователю за подтверждением — правильно ли распознана страница (рис. 4.9)?

Никакое программное обеспечение оптического распознава­ния символов никогда не распознает 100 % сканированных сим­волов. В большинстве случаев количество допускаемых Fine­Reader ошибок не превышает 1—3 на страницу при среднем ка­честве оригинального документа. Исправить пару специально подсвеченных ошибок, конечно, существенно проще и быстрее, чем перепечатывать и форматировать весь документ целиком.

В результате пользователь получает точную электронную ко­пию страницы; при необходимости ее можно отредактировать либо сохранить «как есть». Специальный модуль программы мо­жет экспортировать результат практически в любой из современ-

в

э— —-_ • , * •• "

Something out of the о

i\***4 SaW)

а б

Рис. 4.9. Оригинал документа (а); после распознавания (б)

ных форматов электронных документов. Для сохранения текста удобен формат Microsoft Word, а если исходный документ пред­ставлял собой таблицу, то вполне резонно сохранить электрон­ную копию в формате Microsoft Excel. Если же статью предпола­гается опубликовать в сети Интернет, можно использовать фор­мат HTML или PDF.

4.2. Системы распознавания речи

Теоретически машинное распознавание речи, т. е. ее автома­тическое представление в виде текста, является крайней степе­нью сжатия речевого сигнала.

Процесс распознавания речи (STT — speech-to-text) в по­следние годы сделал гигантский скачок вперед. В наибольшей мере его стимулирует отнюдь не желание разработчиков создать пользовательские суперудобства, а существование специфиче­ских областей компьютеризации, где голосовые команды явля­ются наиболее приемлемым или даже единственно возможным решением. К ним относятся телефонный доступ к автоматиче­ским справочным системам, управление удаленным компьюте­ром или мобильным портативным устройством, осуществляемое во время движения.

Принципы распознавания речи

Системы распознавания речи обычно состоят из двух компо­нент, которые могут быть выделены в блоки или в подпрограм­мы — акустической и л и н г в и с т и ч е с к о й. Лингвистиче­ская часть может включать в себя фонетическую, фоно­логическую, морфологическую, синтаксическую и семантическую модели языка. Акустическая модель отвечает за представление речевого сигнала. Лингвистическая модель интерпретирует информацию, получаемую от акустиче­ской модели, и отвечает за представление результата распознава­ния потребителю.

Акустическая модель. Существуют два подхода к построению акустической модели: изобретательский и бионический. Оба подхода имеют свои достоинства и недостатки. Первый базиру­ется на результатах поиска механизма функционирования аку­стической модели. При втором подходе разработчик пытается понять и смоделировать работу естественных систем.

Лингвистическая модель. Лингвистический блок подразделя­ется на следующие слои (уровни); фонетический, фонологиче­ский, морфологический, лексический, синтаксический, семан­тический. Все уровни содержат априорную информацию о структуре естественного языка, а, как известно, любая априор­ная информация об интересующем предмете увеличивает шансы принятия верного решения. Поскольку естественный язык несет весьма сильно структурированную информацию, для каждого естественного языка может потребоваться своя уникальная лин­гвистическая модель (отсюда трудности русификации сложных систем распознавания речи зарубежной разработки).

В соответствии с данной моделью на первом (фонетическом) уровне производится преобразование входного (для лингвисти­ческого блока) представления речи в последовательность фонем, как наименьших единиц языка. Считается, что в реальном рече­вом сигнале можно обнаружить лишь аллофоны — варианты фо­нем, зависящие от звукового окружения.

На следующем (фонологическом) уровне накладываются ог­раничения на комбинаторику фонем (аллофонов) — не все соче­тания фонем (аллофонов) встречаются, а те, что встречаются, имеют различную вероятность появления, зависящую еще и от окружения. Для описания этой ситуации используется математи­ческий аппарат цепей Маркова.

Далее, на морфологическом уровне оперируют со слогопо- добными единицами речи более высокого уровня, чем фонема. Иногда они называются морфемами. Они накладывают ограни­чение уже на структуру слова, подчиняясь закономерностям мо­делируемого естественного языка.

Лексический уровень охватывает слова и словоформы того или иного естественного языка, т. е. словарь языка, также внося важную априорную информацию о том, какие слова возможны для данного естественного языка. Семантика устанавливает со­отношения между объектами действительности и словами, их обозначающими. Она является высшим уровнем языка. При по­мощи семантических отношений интеллект человека производит как бы сжатие речевого сообщения в систему образов, понятий, представляющих суть речевого сообщения.

Российская компания «ИстраСофт» известна пакетом для обучения английскому языку с визуальным контролем произно­шения «Профессор Хиггинс». Развивая «Хиггинса», сотрудники «ИстраСофт» совершили технологический прорыв, значение ко­торого трудно переоценить: они научились членить слова на эле­ментарные сегменты, соответствующие звукам речи, независимо от диктора и от языка (Существующие системы распознавания речи не производят сегментации, наименьшей единицей для них является слово.) Демонстрация новой технологии выглядит пока не очень эффектно: это всего-навсего упаковка и распаковка звуковых файлов с записью речи — правда, с высокими коэффи­циентами сжатия. Если файл был сжат сильно, то после распа­ковки в нем появляются отчетливо слышные границы между сегментами; использованию программы по прямому назначению они, конечно, мешают, но специалисту позволяют убедиться в правильности членения.

В соответствии с этим решение задачи речевых технологий можно представить в виде схемы рис. 4.10.

В основе алгоритма лежит выделение фонем из потока слит­ной речи в режиме реального времени, их кодирование и после­дующее восстановление, однако у разработчиков нет единого

Рис. 4.10. Комплексный алгоритм речевых технологий

мнения о том, что считать фонемой при машинной обработке речи. Способ, предложенный фирмой «ИстраСофт», допускает сжатие речи в 200 раз, причем при сжатии менее чем в 40 раз ка­чество сигнала практически не падает.

Чтобы создать основанную на новой технологии систему распознавания, необходимо «привязать» сегментацию к кон­кретному языку с помощью двух словарей — «звукового», сопос­тавляющего реальным звукам речи определенные фонемы, т. е. смыслоразличительные единицы (на слух мы, как правило, вос­принимаем именно фонемы родного языка, не замечая различий между их вариантами, обусловленными, например, позицией), и «фонетико-орфотрафического», который будет переводить фо­немную запись в письменную. Принципиально ничего сложного здесь нет: это вполне рутинная, умеренно трудоемкая техниче­ская задача.

Интеллектуальная обработка речи на уровне фонем перспек­тивна не только как способ сжатия, но и как шаг на пути к соз­данию нового поколения систем распознавания речи.

Практическая реализация. Многие научные центры, в том числе и в нашей стране, брались за решение этой проблемы (фундаментальные исследования теории языка, которые велись в 1970-х гг. в СССР, легли в основу многих современных продук­тов), но первый серьезный прорыв в области речевых техноло­гий удалось сделать только в 1986 г. в Defense Advanced Research Project Agency (DARPA) — Агентстве перспективных исследова­ний Министерства обороны США.

Успех связан с тем, что ученые решили уменьшить число фо­нетических структур, предлагаемых распознающему устройству. Для реализации этой задачи они применили так называемую «скрытую марковскую модель» (Hidden Markov Model — НММ), основанную на свойстве марковской цепи генерировать последо­вательность определенных детерминированных символов при пе­реходах между некоторыми состояниями вероятностного характе­ра (в марковском процессе параметры системы зависят только от предыдущего состояния и «не помнят» более глубокой предысто­рии). Имея последовательность символов, сгенерированную мар­ковской моделью, можно однозначно восстановить породившую ее последовательность состояний, но лишь только при том усло­вии, что каждый символ соответствует одному состоянию.

В процессе цифровой обработки речевой сигнал подвергает­ся сначала логарифмическому, а затем обратному преобразова­нию Фурье, в результате чего отыскивается с десяток первых ко­эффициентов, несущих наиболее существенную информацию об огибающей спектральной характеристики сигнала. Собственно, современные развитые коммерческие программы распознавания речи и отличаются именно способом реализации механизма вы­бора из встроенной (или созданной пользователем) базы данных наиболее вероятного набора фонем (минимально значимых эле­ментов, из которых состоит слово).

На первом этапе компьютер записывает звук речи в виде цифровой аудиопоследовательности и делит ее на фрагменты длительностью несколько миллисекунд. Программа сравнивает эти аудиофрагменты с записанными в память речевыми образ­цами. Качество базы данных образцов является наиболее важ­ным условием для безошибочного распознавания речи. Она со­держит фрагменты речи различных людей с разными особенно­стями произношения, такими, как снижение звука, диалект, выделение слогов и произношение. Эта часть системы распо­знавания речи называется системой, не зависящей от говорящего.

Систему, не зависящую от говорящего, дополняет систе­ма распознавания говорящего. В основе последней ле­жит понятие фонемы — наименьшей акустической единицы языка. В процессе тренировки программное обеспечение распо­знает наиболее важные признаки произношения пользователем фонем и записывает полученные данные в виде профиля говоря­щего. Очень важно, чтобы в дальнейшем во время диктовки пользователь по возможности точно выдерживал мелодию речи и произношение.

В системе распознавания говорящего при определении «со­мнительных слов» используется тот факт, что после определен­ного слова могут следовать (и имеют при этом смысл) лишь не­многие конкретные слова. Владельцам мобильных телефонов этот способ знаком по SMS-сообшениям, при наборе которых нужное слово предлагается автоматически.

Классификация систем распознавания речи.

Классификация по назначению:

  • командные системы:

  • системы диктовки текста.

По потребительским качествам:

  • диктороориентированные (тренируемые на конкретного диктора);

  • дикторонезависимые;

  • распознающие отдельные слова;

  • распознающие слитную речь.

По механизмам функционирования:

  • простейшие (корреляционные) детекторы;

  • экспертные системы с различным способом формирования и обработки базы знаний;

  • вероятностно-сетевые модели принятия решения, в том числе нейронные сети.

Разумеется, относительно проще реализовать программу, способную распознавать только ограниченный, совсем неболь­шой набор управляющих команд и символов. Это, например, могут быть цифры от 0 до 9, слова «да», «нет», односложные ко­манды типа «открыть», «закрыть», «выйти» и т. п. Такие про­граммы появились первыми и уже давно применяются в компь­ютерной телефонии для голосового набора телефонного номера или выбора пункта меню. Если в словарь добавить названия букв алфавита, то. в принципе, по буквам можно продиктовать и любое слово или название — например, при заказе билета таким путем можно ввести станцию назначения.

Подобные системы могут похвастаться тем. что распознава­ние происходит без предварительной настройки под конкретно­го пользователя, т. е. они независимы от диктора (speaker-independent). Применение их для получения автомати­ческой справки и генерации запросов к базам данных позволяет компаниям высвободить большое количество сотрудников, обес­печить круглосуточный доступ к информации, причем зачастую появляется возможность дополнительно расширить сферу пре­доставляемых услуг.

Помимо этого, системы с распознаванием ограниченного набора слов могут применяться и для голосового управ­ления компьютером, а через него и другой техникой. Можно предусмотреть и добавление в базу данных индивидуаль­ных макросов пользователя. При ограниченном словаре также легче реализовать систему распознавания слитной речи, характе­ризующейся отсутствием специальных пауз между словами.

Точность распознавания, как правило, повышается при предварительной настройке на голос конкретного пользователя, причем этим способом можно добиться распознавания даже то­гда, когда говорящий имеет дефект речи или акцент. Все бы хо­рошо, но длительное только в том случае, если предполагается индивидуальное применение ПО одним пользователем, в край­нем случае — небольшой группой пользователей, для каждого из которых создается свой индивидуальный «профиль».

Программы для диктовки текстов (еще одно очевид­ное применение функции распознавания речи) первоначально могли понимать только так называемую «раздельную» речь, в которой после каждого произнесенного слова требовалось сде­лать небольшую паузу. Такая манера говорить неестественна — в процессе обычного человеческого разговора интенсивность звука практически никогда не падает до нуля (в этом можно убедиться, разглядывая спектрограммы).

Распознавать диктовку текстов общей тематики, выполняе­мую в манере слитной речи, коммерческие программы научи­лись только в 1997 г. Разумеется, что словарь подобных пакетов обслуживает так называемую общую тематику и охватывает лишь небольшую часть всей лексики. Значительная часть поль­зователей этим словарем не ограничивается и подключает еще специализированные (технические, медицинские, юридические и другие) словари.

Впрочем, на качество распознавания влияет даже манера ве­дения разговора — непринужденную беседу с относительно не­большим количеством используемых лексических единиц запро­токолировать гораздо сложнее, чем размеренный диктант. Про­блема заключается, в основном, в вариативности и наличии большого количества различных смысловых оттенков у самых простых конструкций. Тяжелее всего распознаются короткие слова, в результате по сравнению с многосложными частота ошибок при их обработке несравненно больше.

Серьезнейшая проблема — одно-двухбуквенные слова. За­ставить компьютер различать английские «а» и «ап» можно, только обращаясь к контексту всей фразы. Расшифровка дик- тофонных записей, компьютерное стенографирование конфе­ренций и обсуждений — задача, к решению которой создатели ПО для распознавания речи только приблизились. По заявле­ниям разработчиков компаний Dragon Systems, IBM и Lernout&Hauspie, компьютер (при непрерывной диктовке) спо­собен правильно распознавать до 95 % текста, а меж тем из­вестно, что для комфортной работы точность распознавания требуется довести до 99 %.

Требования к оборудованию. Вначале системы для распознава­ния речи реализовывались, как правило, на специализирован­ном оборудовании и соответствующих платформах. В силу того, что требования, предъявляемые к обработке речи в реальном времени, высоки, слабые центральные процессоры были не в силах взять на себя подобную задачу. Основой компьютерного распознавания речи являлось применение предварительной цифровой обработки сигналов на внешних платах. Производите­ли ПО для распознавания речи, даже перейдя на однопроцессор­ные компьютеры, некоторое время продолжали применять спе­циальные звуковые карты и микрофоны. Например, популярная программа KurzWeil Voice недавно требовала в обязательном по­рядке «свою» звуковую карту.

Модульные системы компьютерно-телефонных средств рас­познавания голоса, выполненные в виде плат расширения для компьютера, включают специализированные процессоры циф­ровой обработки звуковых сигналов (Digital Signal Processor или DSP), берущие на себя ряд операций нижнего уровня и позво­ляющие снизить требования к быстродействию основного про­цессора. Например, плата распознавания речи VR/160, постав­ляемая фирмой Dialogic, поддерживает до 16 каналов одновре­менно, причем она прекрасно работает совместно с процессором DX-486. Dialogic выпускает и более мощные четырехпроцессор- ные платы Antares с большим объемом оперативной памяти.

Работа в зашумленных помещениях также, разумеется, ока­зывает самое негативное влияние на качество распознавания. Каждый микрофон имеет свой особый «профиль», поэтому про­грамму требуется «обучить» не только работе с конкретным поль­зователем, но и с конкретным оборудованием. Подключенному к компьютеру диктофону тоже потребуется свой «профиль». Спе­циальные микротелефонные гарнитуры поставляются вместе с известными программами распознавания речи — Via Voice Gold корпорации IBM Research, Naturally Speaking Preferred фирмы Dragon Systems и Voice Xpress (Lernout&Hauspie Speech Products).

На работу с диктовочными программами накладываются и дополнительные ограничения. В большинстве случаев трудно обойтись без гарнитуры с микрофоном. Правда, радиомикрофо­ны допускают больший радиус действия, однако для контроля результатов пользователь должен видеть экран ПК.

Программное обеспечение, применяемое за рубежом

Функцию распознавания речи IBM не только встроила в свою операционную систему OS/2 Warp 4, известную под кодо­вым названием Merlin (конец 1996 г.), но и выпускает в качестве отдельного продукта. Пакет IBM для распознавания слитной речи Via Voice (www.ibm.com/viavoice) отличается своей способ­ностью с самого начала, без обучения, распознавать до 80 % слов. При обучении вероятность правильного распознавания по­вышается до 95 %, причем параллельно с настройкой программы на конкретного пользователя происходит освоение будущим оператором навыков работы с системой. Небезынтересно, что, рекламируя этот пакет, IBM утверждает, будто средняя машини­стка набивает примерно 80 слов в минуту, a Via Voice достигает скорости 150 слов в минуту.

Dragon Dictate Naturally Speaking (Ньютон, шт. Массачусетс, www.drag-onsys.com) — первый коммерческий продукт для рас­познавания слитной речи, вышедший в начале 1997 г. Позволяет непосредственно диктовать в программы Word, WordPerfect, Netscape Navigator, Internet Explorer и приложения, причем ему доступен богатый набор управляющих команд. Пользуясь только голосом, можно исправлять и переставлять слова, выделять текст и даже менять размер шрифта и позиционировать курсор с абсо­лютной точностью. Первоначальная настройка на конкретный голос пользователя является обязательной, но программа спо­собна обучаться и в процессе дальнейшего диктанта; рабочее ка­чество распознавания может быть достигнуто спустя примерно пару недель пользования системой.

L&H Speech Products (Берлингтон, шт. Массачусетс, www.ihs.com) в 1997 г. приобрела KurzWeil Applied Intelligence, основатель которой (Рей Курцвайль) стал в L&H главным техни­ческим руководителем. После этого фирма получила инвестиции от Microsoft, а затем выпустила Voice Commands — программу для голосового управления с развитыми возможностями. Не­сколько позже эта компания создала и свою систему распознава­ния речи Voice Xpress Plus, которая по качеству распознавания незначительно уступает Dragon Dictate Naturally Speaking, но зато при работе с офисными программами (например, с Word) реализует более «естественный» интерфейс (можно подавать ко- манлы вроде «изменить шрифт последнего предложения на Arial» или «сложить эту колонка1 цифр»).

Программное обеспечение для распознавания речи фирмы Nuance Communications использует крупнейшая в Канаде дис­контная брокерская контора Toronto Dominion, запустив в экс­плуатацию службу Green Line Investors, позволяющую абонентам получать по телефону информацию о биржевых котировках. Вводятся особые пользовательские «профили», на основе кото­рых система определяет, например, следует ли зачитывать дан­ному абоненту краткую или подробную информацию.

Программу распознавания речи Natural Dialogue System фир­мы Philips Speech Processing (Вена, Австрия, www.speech.be. philips.com) использует первая канадская система автоматических «желтых страниц» (Торонто), предоставляющая информацию о местных ресторанах и способная по желанию абонента соеди­нить его с выбранным заведением.

Она же используется швейцарской железнодорожной компа­нией Swiss Railways. Предусмотрена возможность самообучения системы во время'эксплуатации. Из запросов, требующих слож­ного «восприятия речи» "(вроде «Я бы хотел попасть из Женевы в Цюрих через Берн»), выделяются ключевые слова - названия станций, предлоги «из», «в», «через» — и на основании наиболее правдоподобного варианта строится обращение к базе данных.

Авиакомпания Lufthansa своим потенциальным пассажирам предлагает автоматическое расписание своих рейсов, а радио­станция Radio Luxembourg — прогноз погоды по туристическим маршрутам всего мира.

Немецкая служба сотовой телефонной GSM-связи Dutch РТТ внедрила систему обработки речи Voice Dialing, разработан­ную американской компанией Glenayre, что обеспечивает не только голосовой набор телефонного номера, но и выполнение необходимых команд и возможность программирования до 40 наиболее часто набираемых телефонных номеров. В результате стало возможным звонить прямо во время движения автомоби­ля, не отвлекаясь от управления.

Программы от IBM и Dragon Dictate используются в наде­ваемых компьютерах (wearable PC) компании Xybernaut (www.xybernaut.com). Эти устройства весом всего 795 г использу­ются. например, американскими таможенниками, несущими службу на границе с Мексикой. Стражи порядка проверяют но­мера проезжающих автомобилей, сверяясь с удаленными цен­тральными правоохранительными базами. Правда, служащие та­можни жалуются на проблемы с распознаванием, возникающие при сильном ветре.

IBM уже давно использует технологию распознавания речи для своих внутренних задач, а сейчас выпускает средства созда­ния автоматизированных речевых агентов, способных распозна­вать называемые телефонными абонентами имена людей и на­звания организаций и соединять их с соответствующими номе­рами. Объем каталога имен может достигать 200 тыс. записей.

Фирма Language Force (www.lan-guageforce.com) на основе технологии распознавания речи Via Voice разработала автомати­ческий переводчик Universal Translator Deluxe, позволяющий устную английскую речь переводить на 33 различных языка, в число которых входят арабский, китайский, японский, корей­ский, испанский, немецкий и иврит.

Достижения компьютерной обработки речевых сигналов мо­гут применяться не только для того, чтобы вести беседы по мо­бильному телефону, — ряд парламентариев стран Западной Ев­ропы добиваются контроля над центром прослушивания Мен- вич-Хилл Агентства национальной безопасности (АНБ) США, расположенным в Англии, недалеко от Йоркшира. Первоначаль­но центр, созданный при поддержке британской разведки Ml 5, предназначался для анализа информационного трафика из СССР, но ныне, как следует из отчета технической службы Ев- ропарламента, осуществляет перехват всех европейских телефон­ных разговоров, факсов и электронной почты. Система распо­знавания речи используется для выделения ключевых слов, при наличии которых автоматически включается запись разговора с последующим ее перенаправлением для проверки в американ­ское отделение АНБ.

На текущий момент ПО для распознавания речи работает только с английским языком, качественная поддержка русского пока что не достигнута. Однако командовать компьютером мож­но хоть сейчас, а для того, кто имеет дело с англоязычными тек­стами каждый день, подобное ПО окажется полезным.

Характеристики

Dragon Naturally Speaking 7.0 Preferred (разработчик ScanSoft)

Intelligent Voice Recognition System (IVOS) 2.0.2A (раз­работчик ComunX)

Таблица 4. ]. Характеристики некоторых образцов программных средств обработки речи

Программный продукт

Пользователю предлагается откалибровать уровень звука из микрофона и надиктовать компьютеру ряд уже готовых текстов для более тонкой под­стройки Dragon Naturally Speaking под тембр, интонацию и произношение. Не меньшее значение имеет и собственный акцент диктора - такой уровень английского, который, например, звучит на разнообразных международных научных конференциях, в принципе, не пригоден для работы. С другой сто­роны, всегда есть возможность самообучения: если Dragon никак не хочет распознавать какое-то слово, не поленитесь заглянуть в Lingvo и произне­сти его с учетом правильной транскрипции. Возможны и действия вроде распознавания текстового содержимого wav-файла. Кроме того, Dragon Naturally Speaking умеет запускать различные программы, переключаться между ними и даже управлять рядом их функций (например, начинать/при­останавливать воспроизведение музыки в медиапроигрывателе или напря­мую работать с меню). В состав версий Preferred и Professional дополни­тельно входит собственный речевой драйвер Real-Speech 2, один из наибо­лее совершенных на сегодня. Надиктовывать текст можно не только в текст-процессоре DragonPad, но и в любом другом аналогичном приложе­нии - MS Word, Outlook Express, Internet Ex-plorer и Corel WordPerfect. С та­ким же успехом программа работает и с ICQ, сетевым чатом (Network Assistant) и прочими instant messengers. В более специализированных при­ложениях, в частности в том же Word, применяются дополнительные коман­ды: форматирование текста, правописание, редактирование - и все исклю­чительно за счет устной речи. Если же стандартного набора приказов оказа­лось мало, всегда можно создать собственные, тем самым еще более расширив функциональность Dragon

IVOS позволяет: а) распознавать речь и преобразовывать ее в текст в лю­бом Windows-совместимом текст-процессоре; б) управлять своим ПК с по­мощью разнообразных голосовых команд, а также создавать свои собст­венные; в) озвучивать электронные книги с помощью внешних голосовых движков. Извлечение текста из Wav-фэйлов, удобная, не отягощающая эк­ран панель управления программой и демократичная (по сравнению с тем ' же Dragon) цена. После регистрации пользователю становится доступна технология VoiceTouch, позволяющая обучать ПК вашим собственным уст­ным приказам. IVOS, как и многие другие программы распознавания речи, кроме Dragon, использует для таких целей модуль Speech API от Microsoft, и ее результативность в данной области напрямую зависит от успехов этой корпорации

Продолжение табл. 4.1

Характеристики

Программный продукт

Realize Voice 4.0 (Разра­ботчик Realize Software Corporation)

Voice Studio 1.4.6 (Разра­ботчик Ultimate Interactive Desktop)

Dictation 2004 v.4.5.2399 (Разработчик United Research Labs)

Realize Voice, в отличие от Dragon Naturally Speaking, не очень приспособле­на к стенографированию (хотя такая функция в ее арсенале и имеется), зато справляется с голосовыми командами. Глубоких знаний в области англий­ского не нужно - благодаря модулю эвристического анализатора програм­ма без особых проблем найдет общий язык практически с любым дикто­ром. Спектр функций Realize Voice довольно широк - от запуска исполняе­мых файлов и ярлыков программ до работы с корреспонденцией и сложными макросами. Как и в остальных подобных программах, от пользо­вателя требуется лишь подключенный микрофон и пара минут для того, чтобы вникнуть в курс дела. А перед тем как приступить к собственно обще­нию с утилитой, стоит обозначить ей фронт работ. По умолчанию в эту ка­тегорию попадают ярлыки системного меню, Рабочего стола, содержимое папки Избранное и панели быстрого запуска, а также недавно открытые до­кументы и программы. Весь процесс полностью автоматизирован и выпол­няется буквально мгновенно. Правда, некоторые неудобства вызывает не­возможность использования в названии команд цифр. Утилита позволяет объединять под одной командой целую серию операций - начиная от ввода символов с клавиатуры и системных команд до синтеза речи

Одна из немногих программ, где виртуальный собеседник по ту сторону монитора обрел видимую форму. И хотя технологию MS Agent, которая ис­пользуется для данных целей, пока трудно назвать прообразом искусствен­ного интеллекта, все предпосылки для этого у нее есть, Анимированный по­мощник не только наделен некоторой долей самостоятельности, но и умеет отвечать на ряд стандартных фраз (вроде «Hello!», «How do you feel», «Bad computer» и т. д.). При желании его словарный и фразеологический запас легко пополнить, а кроме того, задать его действия в зависимости от «на­строения». Хотя подобная болтовня с ПК и будет ограничена рамками зна­ний программы, никто не мешает расширить их практически до бесконеч­ности. Функциональность Voice Studio - стенографирование, разнообраз­ные голосовые команды (для большего удобства и быстрейшего запоминания их можно распечатать), а также приемлемый машинный син­тез речи. Создание макросов для запуска сразу серии операций с помощью одного ключевого слова, даже запись и воспроизведение движений мыши. Это широко используется во многих альтернативных браузерах вроде GreenBrowser или MylE2 для выполнения ряда действий (переход на другую страницу, открытие нового окна и т. д.). Достаточно произнести соответст­вующую команду, и компьютер автоматически воссоздаст записанный ра­нее скрипт

В первую очередь, это технология Point-and-Speak, позволяющая с легко­стью создавать команды для ввода паролей, запуска ПО и диктовать прак­тически во всех Windows-приложениях, Заявлена интеграция с MS Word, а также интеллектуальная технология правильного определения фраз. Правда, реализована она неудобно - в виде всплывающего окна, которое появляется при каждом сказанном слове. Dictation 2004 использует SAPI 5.1, так что качество ее принципиально не отличается от другого ПО,

Окончание табл. 4.1

Программный продукт Характеристики

основанного на той же технологии (Voxx, IVOS, Realize Voice и пр.). Из до­полнительных функций стоит отметить WAV Recorder для захвата информа­ции с аудиокассет, мобильных устройств, микрофонов и последующей за­писи ее в wav-файлы; потом текст из них извлекается с помощью отдельно­го апплета Dictation - Wave-to-Text

Возможности программы напоминают IVOS (стенографирование/голосовые команды/чтение текста), за исключением того, что здесь есть полезный бо­нус - озвучивание каждого действия, будь то набор текста или открытие файла. Программа использует тот же Microsoft Speech API, что и IVOS, по- Voxx (4.0 Разработчик этому качество распознавания у нее аналогичное. Наличествует набор голо- Voxx Support Team) совых команд для навигации браузером, элементарных операций б тексто­

вом редакторе (cut/copy/paste и т. д.), а также работы с окнами, имеются ярлыки вызова системных апплетов, открытие/закрытие лотка оптического привода. Что же касается синтеза речи, то он напрямую зависит от соответ­ствующих модулей, установленных в системе

В дополнение к программам диктования Dragon Systems и IBM предлагают инструменты для разработчиков, желающих усилить мощность своих программ. Dragon предлагает DragonDictate, дискретный механизм распознавания языка, а IBM — набор инструментов ViaVoice Developer Tools.

Dragon предлагает ряд опций для разработчиков, желающих использовать DragonDictate. Во-первых, вы можете добавить к DragonDictate специальный словарь, используя любое приложе­ние, включая Microsoft Excel или Word. Семейство программ, именуемое DragonPro, содержит DragonBusiness, DragonExtra (журналистика), Dragon Law (юриспруденция), DragonMed (ме­дицина) и DragonTech. Если вам нужно что-то еще более специ­фическое, вы можете использовать Dragon SpeechTool, чтобы разработать специальный словарь и эталоны произношения.

Вы можете использовать таблицу фонем и средства редакти­рования для создания, добавления, изменения слов и их произ­ношения, а также их удаления.

DragonXTools поддерживает режимы 16-bit VBX и 32-bit OCX для добавления голосовых параметров к существующим прило­жениям. DragonXTools также поддерживает режим текст-речь DgnTTS, что позволит придать голос вашим программам. Руко­водство DragonXTools начинается с простого примера на языке VB и показывает, как создавать программы на С, С++, Delphi, Visual Basic и т. п. Руководство содержит большой объем доку­ментации по событиям, свойствам и процедурам, необходимым, чтобы разговаривать с DragonDictate.

Вместе с DragonXTools пользователь получает также доку­ментацию по DragonDictate Macro Language Guide & Reference, языку, основанному на BASIC, который разработчики могут ис­пользовать, чтобы добавлять команды к DragonDictate, DDE и DLL для контроля за работой мыши, звуковых эффектов и т. п.

Отечественные разработки

К сожалению, распространенные зарубежные системы рас­познавания речи русский язык не поддерживают. Правда, уже упоминавшиеся платы Dialogic в число используемых европей­ских и некоторых азиатских языков включают и русский, но их возможностей хватает только на речевой ввод телефонных номе­ров и построение простейших голосовых меню. Намерение включить поддержку русского языка в свои продукты неодно­кратно выражали многие производители, в том числе и Dragon Systems, но дальше этих заявлений дело так и не пошло.

В этих условиях своеобразной сенсацией стал выход в 1997 г. на коммерческий рынок знаменитого «Горыныча» — адаптации Dragon Dictate Naturally Speaking, проведенной силами малоиз­вестной до того российской компании White Group — официаль­ного дистрибьютора Dragon Systems. Программа оказалась впол­не работоспособной, а ее стоимость — весьма умеренной.

К сожалению, основой послужила уже устаревшая вторая версия Dragon Dictate, не поддерживающая распознавание слит­ной речи. Кроме того, программа требует длительной «трениров­ки» и настройки на конкретного пользователя, очень капризна к оборудованию, более чем чувствительна к интонации и скорости произнесения фраз, возможности ее «обучения» весьма разнятся для различных голосов. Созданная для распознавания англий­ской речи, программа не может учитывать всей специфики рус­ского произношения.

По всей видимости, положение на отечественном рынке ПО для распознавания речи (если вообще можно говорить о тако­вом) напоминает недавнюю ситуацию с оптическим распознава­нием текста. Только специализированные отечественные про­дукты, изначально ориентированные именно на русский язык, смогут по-настоящему решить ту задачу, что не по силам ни «Горынычу», ни «Комбату» (еще один продукт той же фирмы White Group).

Не случайно лидеры отечественного рынка программ OCR, которыми являются ABBYY (BIT Software) и Cognitive Technologies, заявили о ведущихся ими в области распознавания русской речи разработках. ABBYY работает над проектом NLC, связанным с естественно-языковой обработкой распознаваемых текстов. Пока же технология распознавания речи российскими разработчиками применяется в основном в интерактивных обу­чающих системах и играх вроде «Мой говорящий словарь», «Talk to Ме» или «Профессор Хиггинс», а целью их использования яв­ляются контроль произношения у изучающих английский язык и аутентификация пользователя. Еще одно остроумное примене­ние технологии — распознавания речи — позволяет весьма ощу­тимо сжимать файлы с диктофонными записями или послания­ми звуковой почты.

Перспективы систем распознавания речи

Важная задача, которая стоит перед создателями речевых технологий, — выработка единого стандарта на API-интерфейс (Applications Programming Interface), который должен связывать приложения и обеспечивать своевременную передачу управляю­щих функций. Такой стандарт должен не только позволять стро­ить приложения на базе какой-либо распространенной операци­онной системы, имеющей соответствующие встроенные функ­ции (первой такой ОС стала OS/2 Warp), но и обеспечивать переносимость систем распознавания речи на другие ОС.

ПО для распознавания слитной речи, как правило, не только снабжается собственными текстовыми редакторами, но и спо­собно встраиваться в популярные программы, среди которых MS Word, Excel, Lotus Smart Suite Millennium Edition (Lotus Development) и Word Perfect Suite (Corel).

С другой стороны, производители офисных программ стали включать в состав своего ПО системы распознавания речи, как правило, от IBM (Smart Suite), Dragon Dictate (Word Perfect Suite) или Lernout&Hauspie.

Современные программы распознавания речи для ПК позво­ляют диктовать в обычной разговорной манере. Так называемая дискретная надиктовка с частыми остановками и паузами между словами осталась в прошлом. Однако непрерывный процесс рас­познавания речи, дающий точность до 95 % в оптимальных ус­ловиях, все-таки дает пять неправильных букв на 100 знаков. Около 200 ошибок на странице формата А4 — слишком много для профессиональной работы.

Несмотря на все достижения последних лет, средства для распознавания слитной речи все же допускают большое количе­ство ошибок, нуждаются в длительной настройке, требовательны к аппаратной части и к квалификации пользователя и отказыва­ются работать в зашумленных помещениях (а это важно как для шумных офисов, так и для мобильных систем и эксплуатации в условиях телефонной связи).

Известно, что спонтанная речь произносится со средней скоростью 2,5 слов в секунду, профессиональная машинопись — 2 слова в секунду, непрофессиональная — 0.4.

Таким образом, на первый взгляд, речевой ввод имеет значи­тельное превосходство по производительности. Однако оценка средней скорости диктовки в реальных условиях снижается до 0,5 слова в секунду в связи с необходимостью четкого произне­сения слов при речевом вводе и достаточно высоким процентом ошибок распознавания, нуждающихся в корректировке.

Речевой интерфейс естественен для человека и обеспечивает дополнительное удобство при наборе текстов. Однако даже про­фессионального диктора может не обрадовать перспектива в те­чение нескольких часов диктовать малопонятливому и немому компьютеру. Кроме того, имеющийся опыт эксплуатации подоб­ных систем свидетельствует о высокой вероятности заболевания голосовых связок операторов, что связано с неизбежной при диктовке компьютеру монотонностью речи.

Часто к достоинствам речевого ввода текста относят отсутст­вие необходимости в предварительном обучении. Однако одно из самых слабых мест современных систем распознавания речи, — чувствительность к четкости произношения, — приводит к поте­ре этого, казалось бы, очевидного преимущества. Печатать на клавиатуре оператор учится в среднем 1—2 месяца. Постановка правильного произношения может занять несколько лет. Кроме того, дополнительное напряжение, следствие сознательных и подсознательных усилий по достижению более высокой распо­знаваемости, совсем не способствует сохранению нормального режима работы речевого аппарата оператора и значительно уве­личивает риск появления специфических заболеваний.

Существует и еще одно неприятное ограничение примени­мости — оператор, взаимодействующий с компьютером через речевой интерфейс, вынужден работать в звукоизолированном отдельном помещении либо пользоваться звукоизолирующим шлемом. Иначе он будет мешать работе своих соседей по офи­су, которые, в свою очередь, создавая дополнительный шумо­вой фон, будут значительно затруднять работу речевого распо­знавателя.

Таким образом, речевой интерфейс вступает в явное проти­воречие с современной организационной структурой предпри­ятий, ориентированных на коллективный труд. Ситуация не­сколько смягчается с развитием удаленных форм трудовой дея­тельности, однако еще достаточно долго самая естественная для человека производительная и потенциально массовая форма пользовательского интерфейса обречена на узкий круг приме­нения. Ограничения применимости систем распознавания речи в рамках наиболее популярных традиционных приложений за­ставляют сделать вывод о необходимости поиска потенциально перспективных для внедрения речевого интерфейса приложе­ний за пределами традиционной офисной сферы, что подтвер­ждается коммерческими успехами узкоспециализированных ре­чевых систем.

Парадоксально, но самый успешный на сегодня проект коммерческого применения распознавания речи — телефонная сеть фирмы АТТ. Клиент может запросить одну из пяти катего­рий услуг, используя любые слова. Он говорит до тех пор, пока в его высказывании встретится одно из пяти ключевых слов. Эта система в настоящее время обслуживает около миллиарда звонков в год.

4.3. Системы генерации речи

Говоря о речевом интерфейсе, часто делают упор на распо­знавание речи, забывая о другой его стороне — речевом синтезе. Заглавную роль в этом перекосе сыграло быстрое развитие сис­тем, ориентированных на события в значительной степени по­давляющих отношение к компьютеру как активной стороне диа­лога. Еще относительно недавно подсистемы распознавания и синтеза речи рассматривались как части единого комплекса ре­чевого интерфейса.

Обратная распознаванию задача — синтез речи, или Text-to-Speech (TTS), — столь же проста в первом приближении и по-своему не менее сложна по мере достижения вершин. Из­вестно, что синтезированная речь воспринимается человеком хуже, чем живая, причем это особенно заметно при передаче по каналу телефонной связи, т. е. как раз в тех условиях, в которых было бы наиболее заманчиво ее использовать. Тем не менее экс­перты отмечают улучшение звучания синтезированной англий­ской речи. В интеллектуальных телефонных системах, таких, как IVR (interactive voice responce) и центры телефонного обслужива­ния, технологии TTS начинают теснить традиционные наборы записываемых заранее слов и реплик — прежде всего благодаря своей гибкости, простоте переналадки и сокращению требова­ний к объему памяти.

Качество речи прямо пропорционально размеру синтезатора и объему потребляемых им ресурсов системы (загрузка процес­сора, выделение памяти и т. п.) Для характеристики качества речи обычно используют такие понятия, как естествен­ность звучания, фонетическая разборчивость, комфортность восприятия и время привыкания.

Естественность звучания характеризует то, насколько близок синтезированный звук к человеческой речи. Пока еще не суще­ствует синтезатора, прослушав который, человек не мог бы ука­зать, что это неестественный звук. Однако уровень синтезаторов растет год от года, и неестественность их звучания уже не явля­ется сильной помехой восприятию информации. Первые же синтезаторы отличались такими нежелательными эффектами, как металлический призвук, отсутствие интонационного деления фрагмента речи, резкость звучания или наоборот — слишком за­тянутые гласные звуки.

Фонетическая разборчивость характеризует, насколько слу­шателю легко или трудно разобрать фонемы, произносимые синтезатором. Здесь надо понимать, что неестественная с метал­лическим призвуком «речь робота», может обладать высокой фо­нетической разборчивостью, т. е. слушатель с легкостью, может различить фонемы (слоги) произносимых слов. В то же время в естественной речи разборчивость может быть невысокой (пред­ставьте себе бубнящего человека — речь на сто процентов есте­ственная, а ничего не понять). Так происходит потому, что для

придания естественности звучания синтезируемая речь проходит дополнительную фильтрацию, в результате чего получает допол­нительные обертона (их богатство во многом и определяет бли­зость синтезированной речи к человеческой). Степень фильтра­ции не всегда адекватно подбирается синтезатором и это ухуд­шает фонетическую разборчивость.

Комфортность восприятия и время привыкания показывают субъективную оценку слушателем качества синтезируемой речи. Несмотря на свою субъективность, с точки зрения пользователя, это самые главные критерии, по которым оценивается работа синтезатора. Долгое прослушивание синтезированной речи не должно вызывать чрезмерного утомления, а время привыкания должно быть достаточно коротким, чтобы обеспечить легкий пе­реход от одного синтезатора к другому.

История проблемы

В 1779 г. русский профессор Кристиан Краценштейн (иногда упоминается в источниках как Кристиан Готтлиб) построил аку­стическую модель, позволяющую создавать гласные звуки, ис­пользуя различные геометрические формы резонаторов, как это показано на рис. 4.11.

ЗВУКИ а э и о У

Рис. 4.11. Акустическая модель К. Краценштейна

РЕЗОНАТОРЫ

При этом использовался аддитивный синтез (см. гл. 3), как в обычных органах (напомним, что один из регистров органа так и называется — vox humanum — голос человеческий)1. В 1791 г. Вольфганг фон Кемпелен (Volfgang von Kempelen) пред­ставил акустико-механическую говорящую машину, которая вос­

производила определенные звуки и их комбинации. Шипящие и свистящие выдувались с помощью специального меха с ручным управлением. Затем это изобретение было улучшено ученым Чарльзом Уитстоуном (Charles Wheatstone), и уже могло воспро­изводить гласные и большинство согласных звуков. В 1846 г. Дже- зеф Фабер представил свой говорящий орган, в котором была реализована попытка синтезирования не только речи, но и пения. В конце XVIII в. знаменитый ученый Александр Белл (Alexander Graham Bell) создат собственную «говорящую» механическую мо­дель, очень схожую с конструкцией Уитстоуна. Начиная с 1920 г. наступила эра электрических инструментов, при этом основным видом синтеза оставатся аддитивный.

Ключевой датой в развитии вокодеров является 1939 г. Именно в этом году ученый-изобретатель Хомер Дадли (Homer. W. Dudley) из Bell Laboratories представил устройство Parallel Bandpass Vocoder, над разработкой которого он трудился три года (рис. 4.12, 4.13).

Now a Machine That Talks With the Voice of Man

Voder Combines Electrical Currents to Produce Synthetic Speech; Converses at Signal From Keys

N

• -i . ■ l

i. e i

и . *

1 r r . I

.1 Г , s I] till I . I

,b.r>c ltd Jr. г-.и,.-Л ..м»!

I

j re ^itii, t, kph.rc !iK.

Рис. 4.12. Страница «Science News Letter» со статьей «Теперь машина говорит человеческим голосом». 14 января 1939 г.

Voder, представленный в 1939 г., управлялся человеком-опе­ратором. Вот как описывает свои впечатления Ванневар Буш (Vannevar Bush) в работе «As We May Think», 1945 г. (см. так-

Громкоговоритель

/I

Усилитель

Консольная клавиатура VODER

Генератор шума

г*

Л

Управление резонансами

Релаксационный генератор

оЛ

«Молчание»

д|

т|

«Взрывные согласные»


Переключение возбуждения


Педаль управления высотой основного ^ тона

Рис. 4.13. Схема функционирования устройства VODER Самая ранняя модель называлась The Voder The Machine That Talks (VODER — машина, которая говорит)

же [14], с. 171): «На мировой выставке 1939 г. было показано устройство, называемое Voder. Девушка-оператор нажимала на его клавиши, и Voder воспроизводил звук, похожий на речь. Это происходило без использования человеческих голосов, нажатие на клавиши просто вызывало комбинации нескольких вибраций, созданных электронным способом, которые воспроизводились с помощью громкоговорителя».

В 1940 г. Хомер Дадли представил свою новую модель голо­сового синтезатора, именуемую The Vocoder (аббревиатура от Voice Operated reCorDER). В 1948 г. на выставке «Electronische Musik» (Германия) VODER был представлен как электронный инструмент будущего.

Алгоритмические модели синтезаторов речи с того времени практически не изменились. При этом эти системы развивались параллельно с аналоговыми синтезаторами.

Методы озвучивания речи

Рассмотрим какой-нибудь хотя бы минимально осмыслен­ный текст. Текст состоит из слов, разделенных пробелами и зна­ками препинания. Произнесение слов зависит от их расположе­

ния в предложении, а интонация фразы — от знаков препина­ния и довольно часто от типа применяемой грамматической конструкции — в ряде случаев при произнесении текста слы­шится явная пауза, хотя какие-либо знаки препинания отсутст­вуют. Произнесение зависит и от смысла слова — сравните, на­пример, выбор одного из вариантов «замок» или «замок» для од­ного и того же слова «замок».

Основная классификация стратегий, применяемых при озву­чивании речи — это разделение на две группы подходов:

  • построение действующей модели речепроизводящей систе­мы человека;

  • моделирование акустического сигнала как таковой.

Первый подход известен под названием артикулятор-

ного синтеза. Второй подход представляется на сегодняш­ний день более простым, поэтому он гораздо лучше изучен и практически более успешен. Внутри него выделяется два основ­ных направления — формантный синтез по правилам и компилятивный синтез.

Формантные синтезаторы используют возбуждающий сиг­нал, который проходит через цифровой фильтр, построенный на нескольких резонаторах, похожих на резонансы голосового трак­та. Разделение возбуждающего сигнала и передаточной функции голосового тракта составляет основу классической акустической теории речеобразования. Компилятивный синтез осуществляется путем склейки нужных единиц компиляции из имеюще­гося инвентаря.

На этом принципе построен ряд систем, использующих раз­ные типы единиц и различные методы составления инвентаря. В таких системах необходимо применять обработку сигнала для приведения частоты основного тона, энергии и длительности единиц к тем, которыми должна характеризоваться синтезируе­мая речь. Кроме того, требуется, чтобы алгоритм обработки сиг­нала сглаживал разрывы в формантной (и спектральной в це­лом) структуре на границах сегментов.

В системах компилятивного синтеза применяются два раз­ных типа ачгоритмов обработки сигнала: LP (Linear Prediction — линейное предсказание) и PSOLA (Pitch Synchronous Overlap and Add). LP-синтез основан в значительной степени на акусти­ческой теории речеобразования, в отличие от PSOLA-синтеза, который действует путем простого разбиения звуковой волны, составляющей единицу компиляции, на временные окна и их преобразования. Алгоритмы PSOLA позволяют добиваться хоро­шего сохранения естественности звучания при модификации исходной звуковой волны.

Обобщенная функциональная структура синтезатора

Структура идеализированной системы автоматического син­теза речи состоит из нескольких блоков:

  • определение языка текста;

  • нормализация текста;

  • лингвистический анализ (синтаксический, морфемный и т. д.);

  • формирование просодических характеристик;

  • фонемный транскриптор;

  • формирование управляющей информации;

  • получение звукового сигнала.

Такая схема содержит компоненты, которые можно обнару­жить во многих системах. Разработчики конкретных систем уделяют различное внимание отдельным блокам и реализуют их очень по-разному, в соответствии с практическими требова­ниями.

Модуль лингвистической обработки. Прежде всего, текст, под­лежащий прочтению, поступает в модуль лингвистической обра­ботки. В нем производится определение языка (в многоязычной системе синтеза), а также отфильтровываются не подлежащие произнесению символы. В некоторых случаях используются спелчекеры (модули исправления орфографических и пунктуа­ционных ошибок). Затем происходит нормализация текста, т. е. осуществляется разделение введенного текста на слова и ос­тальные последовательности символов. К символам относятся, в частности, знаки препинания и символы начала абзаца. Все зна­ки пунктуации очень информативны. Для озвучивания цифр разрабатываются специальные подблоки.

Преобразование цифр в последовательности слов является относительно легкой задачей (если читать цифры как цифры, а не как числа, которые должны быть правильно оформлены грамматически), но цифры, имеющие разное значение и функ­цию, произносятся по-разному. Для многих языков можно гово­рить, например, о существовании отдельной произносительной подсистемы телефонных номеров. Пристальное вни­мание уделяется правильной идентификации и озвучиванию цифр, обозначающих числа месяца, годы, время, телефонные номера, денежные суммы и т. д. (список для различных языков может быть разным).

Лингвистический анализ. После процедуры нормализации ка­ждому слову текста (каждой словоформе) необходимо приписать сведения о его произношении, т. е. превратить в цепочку фонем или, иначе говоря, создать его фонемную транскрипцию. Во многих языках, в том числе и в русском, существуют достаточно регулярные правила чтения — правила соответствия меж­ду буквами и фонемами (звуками), которые, однако, мо­гут требовать предварительной расстановки словесных ударе­ний. В английском языке правила чтения очень нерегулярны, и задача данного блока для английского синтеза тем самым ус­ложняется. В любом случае при определении произношения имен собственных, заимствований, новых слов, сокращений и аббревиатур возникают серьезные проблемы. Просто хранить транскрипцию для всех слов языка не представляется возмож­ным из-за большого объема словаря и контекстных изменений произношения одного и того же слова во фразе.

Кроме того, следует корректно рассматривать случаи графи­ческой омонимии: одна и та же последовательность буквенных символов в различных контекстах порой представляет два раз­личных слова/словоформы и читается по-разному (например, ранее приведенный пример слова «замок»).

Для языков с достаточно регулярными правилами чтения од­ним из продуктивных подходов к переводу слов в фонемы является система контекстных правил, переводящих каждую букву/буквосочетание в ту или иную фонему, т. е. автома­тический фонемный транскриптор. Однако чем боль­ше в языке исключений из правил чтения, тем хуже работает этот метод. Стандартный способ улучшения произношения сис­темы состоит в занесении нескольких тысяч наиболее упот­ребительных исключений в словарь. Альтернативное подходу «слово—буква—фонема» решение предполагает морфемный анализ слова и перевод в фонемы морфов (т. е. значимых час­тей слова: приставок, корней, суффиксов и окончаний). Однако в связи с разными пограничными явлениями на стыках морфов разложение на эти элементы представляет собой значительные трудности. В то же время для языков с богатой морфологией, например, для русского, словарь морфов был бы компактнее.

Морфемный анализ удобен еще и потому, что с его помощью можно определять принадлежность слов к частям речи, что очень важно для грамматического анализа текста и задания его просодических характеристик. В английских системах синтеза морфемный анализ был реализован в системе М1Та1к, для кото­рой процент ошибок транскриптора составляет 5 %. Особую проблему для данного этапа обработки текста образуют имена собственные.

Формирование просодических характеристик. К просол и - чес ким характеристикам высказывания относятся его тональные, акцентные и ритмические характери­стики. Их физическими аналогами являются частота основно­го тона, энергия и длительность. В речи просодические харак­теристики высказывания определяются не только составляю­щими его словами, но также тем, какое значение оно несет и для какого слушателя предназначено, эмоциональным и физи­ческим состоянием говорящего и многими другими фактора­ми. Многие из этих факторов сохраняют свою значимость и при чтении вслух, поскольку человек обычно интерпретирует и воспринимает текст в процессе чтения. Таким образом, от системы синтеза следует ожидать примерно того же, т. е. она сможет понимать имеющийся у нее на входе текст, используя методы искусственного интеллекта. Однако этот уровень раз­вития компьютерной технологии еще не достигнут, и боль­шинство современных систем автоматического синтеза стара­ются корректно синтезировать речь с эмоционально нейтраль­ной интонацией. Между тем, даже эта задача на сегодняшний день представляется очень сложной.

Формирование просодических характеристик, необходимых для озвучивания текста, осуществляется тремя основными бло­ками, а именно:

  • расстановки синтагматических границ (паузы);

» приписывания ритмических и акцентных характеристик (длительности и энергия);

  • приписывания тональных характеристик (частота основно­го тона).

При расстановке синтагматических границ опреде­ляются части высказывания (синтагмы), внутри которых энерге­тические и тональные характеристики ведут себя единообразно и которые человек может произнести на одном дыхании. Если система не делает пауз на границах таких единиц, то возникает отрицательный эффект: слушающему кажется, что говорящий (в данном случае — система) задыхается. Помимо этого, расстанов­ка синтагматических границ существенна и для фонемной транскрипции текста. Самое простое решение состоит в том, чтобы ставить границы там. где их диктует пунктуация. Для наи­более простых случаев, когда пунктуационные знаки отсутству­ют, можно применить метод, основанный на использовании служебных слов. Именно эти методы используются в системах синтеза Pro-Se-2000. Infovox-5A-101 и DECTalk. причем в по­следней просодически ориентированный словарь, помимо слу­жебных слов, включает еше и глагольные формы.

Задача приписывания тональных характеристик обычно ставится достаточно узко. В системах синтеза речи пред­ложению, как правило, приписывается нейтральная интонация. Не предпринималось попыток моделировать эффекты более вы­сокого уровня, такие, как эмоциональная окраска речи, по­скольку эту информацию извлечь из текста трудно, а часто и просто невозможно.

Некоторые другие реализации

Наиболее распространенными системами синтеза речи на се­годня являются те, которые поставляются в комплекте со звуко­выми платами. Если компьютер пользователя оснащен ка­кой-либо из них, существует значительная вероятность того, что на нем установлена система синтеза речи (не русской, а англий­ской речи, точнее, ее американского варианта). К большинству оригинальных звуковых плат Sound Blaster прилагается система Creative Text-Assist, а вместе со звуковыми картами других про­изводителей часто поставляется программа Monologue компа­нии First Byte.

TextAssist представляет собой реализацию формантного синте­затора по правилам и базируется на системе DECTalk, разрабо­танной корпорацией Digital Eguipment, который до сих пор оста­ется своего рода стандартом качества для синтеза речи американ­ского варианта английского. Компания Creative Technologies предлагает разработчикам использовать TextAssist в своих про­граммах с помощью специального TextAssistApi (AAPI). Поддер­живаемые операционные системы — MS Windows и Windows 95;

для Windws NT также существует версия системы DECTalk, изна­чально создававшейся для Digital Units. Новая версия TextAssist, объявленная фирмой Assotiative Computing Inc. разработанная с использованием технологий DECTalk и Creative, является в то же время многоязычной системой синтеза, поддерживая англий­ский, немецкий, испанский и французский языки. Это обеспе­чивается прежде всего использованием соответствующих лин­гвистических модулей, разработчик которых — фирма Lernout& Hauspie Speech Products:, признанный лидер в поддержке много­язычных речевых технологий.

Monologue программа, предназначенная для озвучивания текста, находящегося в буфере обмена MS Windows, использует систему ProVoice. ProVoice — компилятивный синтезатор с ис­пользованием оптимального выбора режима компрессии речи и сохранения пограничных участков между звуками, разновид­ность TD-PSOLA. Рассчитан на американский и британский английский, немецкий, французский, латино-американскую разновидность испанского и итальянский языки. Инвентарь сег­ментов компиляции — смешанной размерности: сегменты — фо­немы или аллофоны. Компания First Byte позиционирует систе­му ProVoice и программные продукты, основанные на ней, как приложения с низким потреблением процессорного времени. FirstByte также предлагает рассчитанную на мощные компьюте­ры систему артикуляторного синтеза PrimoVox для использова­ния в приложениях телефонии. Для разработчиков: Monologue Win32 поддерживает спецификацию Microsoft SAP1.

MBROLA так называется система многоязычного синтеза, реализующая особый гибридный алгоритм компилятивного син­теза и работающая как под Windows, так и на платформах Sun4. Впрочем, система принимает на входе цепочку фонем, а не текст, и потому не является, строго говоря, системой синтеза речи по тексту. Формантный синтезатор Tru-Voice фирмы Centigram Communication Corporation(CUlA) близок к описан­ным выше системам по архитектуре и предоставляемым воз­можностям, однако он поддерживает больше языков: американ­ский английский, латино-американский, испанский, немецкий, французский, итальянский. Кроме того, в этот синтезатор включен специальный препроцессор, который обеспечивает бы­струю подготовку для чтения сообщений, получаемых по элек­тронной почте, факсов и баз данных.

Engine — «машины» синтеза и распознавания речи

«Машина» (в просторечии — «движок») — это пакет про­граммных средств, выполняющих строго определенную задачу и предоставляющий интерфейс для использования его возможно­стей. В настоящее время существует целый ряд машин синтеза и распознавания речи, которые разработаны для использования совместно с MS Speech API.

smARTspeak CS настраиваемая независимая от языка «ма­шина» распознавания речи для набора цифр, указания имен и речевой навигации, т. е. для приложений, используемых в сото­вых телефонах и беспроводных устройствах. Созданный для ис­пользования в указанных устройствах, smARTspeak CS удовле­творяет потребностям как пользователей, так и разработчиков: иммунитет к фоновому шуму, малые требования к процессору и памяти, совместимость с MS SAPI 5.0, оптимизация для средств быстрой разработки приложений и для интеграции в сертифици­рованные устройства.

Conversely предоставляет решение для речевого взаимодеист- вия с информацией, поставляемой через сеть, включая Internet в случае, когда другие интерфейсы слишком сложны или отсутст­вуют. Conversay разрабатывает речевую технологию, которая по­зволяет пользователям взаимодействовать через мобильные уст­ройства привычным для себя способом.

Lernout&Hauspie. Система компании L&H позволяет на­страивать чтение аббревиатур и слов (ударения). Продукт, актив­но продвигаемый Microsoft.

Digalo. Голосовой «движок» для русского языка Digalo — продукт французской фирмы Elan Informatique. Digalo различает буквы «Е» и «Ё» и виртуозно владеет русской ненормативной лексикой. В основном ошибки в ударениях приходятся на неко­торые фамилии и имена, малоупотребительные слова и терми­ны, замечено не всегда корректное озвучивание чисел и очень акцентированное произнесение слов «нет» и «не». Разработчики обещают в дальнейшем сделать возможной корректировку про­изнесения отдельных слов и слогов.

Actor 5. Новый «движок» фирмы Loquendo «Actor 5» предна­значен для использования в областях голосовых технологий и сервиса. Синтезирует речь на итальянском, испанском, англий­ском, немецком, мексиканском, бразильском и американском английском диалекте (русского, к сожалению, нет).

PC Voice Club. Движок синтеза речи Клуба голосовых тех­нологий при Научном Парке МГУ. При его создании исполь­зована базовая технология синтеза речи, разработанная на фи­лологическом факультете МГУ. Синтезатор характеризуется высоким качеством синтеза речи, что позволяет прослушивать тексты без их специальной подготовки. Позволяет синтезиро­вать речь на английском и русском языках. Кроме того, имеет около десятка голосовых типажей (робот, эльф, мышь и пр.). Имеются возможности редактирования голосов. Помимо стан­дартных функций синтеза речи имеется дополнительная функ­ция встраивания в текст управляющих символов, которые по­зволяют устанавливать паузы, изменять тембр, тон и длитель­ность звучания. К примеру, можно, отредактировав текст, заставить синтезатор петь.

Творческий коллектив радиофизиков и программистов раз­работал серию программных продуктов под общим названием «Говорящая мышь»

Синтезатор русской речи

Рассмотрим разработку «Говорящая мышь» упоминавшегося Клуба голосовых технологий. В основе речевого синтеза лежит идея совмещения методов конкатенации и синтеза по правилам. Метод конкатенации при адекватном наборе базовых элементов компиляции обеспечивает качественное воспроизведение спек­тральных характеристик речевого сигнала, а набор правил — возможность формирования естественного интонационно-про­содического оформления высказываний. Существуют и другие методы синтеза, может быть, в перспективе более гибкие, но дающие пока менее естественное озвучивание текста. Это, преж­де всего, параметрический (формантный) синтез речи по прави­лам или на основе компиляции, развиваемый для ряда языков зарубежными исследователями. Однако для реализации этого метода необходимы статистически представительные акусти- ко-фонетические базы данных и соответствующая компьютерная технология, которые пока доступны не всем.

Язык формальной записи правил синтеза. Для создания удоб­ного и быстрого режима изменения и верификации правил, включенных в разные блоки синтезирующей системы, был раз­работай формализованный и в то же время содержательно про­зрачный и понятный язык записи правил, который легко ком­пилируется в исходные тексты программ. В настоящее время блок автоматического транскриптора насчитывает около 1000 строк, записанных на формализованном языке представ­ления правил.

Интонационное обеспечение. Функция разработанных правил состоит в том, чтобы определить временные и тональные ха­рактеристики базовых элементов компиляции, которые при обработке синтагмы выбираются из библиотеки в нужной по­следовательности специальным процессором (блоком кодиров­ки). Необходимые для этого предварительные операции над синтезируемым текстом: выделение синтагм, выбор типа инто­нации, определение степени выделенное™ (ударности-безудар­ности) гласных и символьного звукового наполнения слоговых комплексов осуществляются блоком автоматического транс­криптора.

Во временной процессор входят также правила, за­дающие длительность паузы после окончания синтагмы (ко­нечной/неконечной), которые необходимы для синтеза связ­ного текста. Предусмотрена также модификация общего темпа произнесения синтагмы и текста в целом, причем в двух ва­риантах: в стандартном — при равномерном изменении всех единиц компиляции — и в специальном, дающем возмож­ность изменения длительности только гласных или только со­гласных.

Тональный процессор содержит правила формирова­ния для одиннадцати интонационных моделей: нейтральная по­вествовательная интонация (точка), точковая интонация, типич­ная для фокусируемых ответов на вопросы; интонация предло­жений с контрастивным выделением отдельных слов; интонация специального и общего вопроса; интонация особых противопос­тавительных или сопоставительных вопросов; интонация обра­щений, некоторых типов восклицаний и команд; два вида неза­вершенности, перечислительная интонация; интонация вставоч­ных конструкций.

Алюфонная база данных. Необходимый речевой материал за­писан в режиме оцифровки с частотой дискретизации 22 кГц с разрядностью 16 бит.

В качестве базовых элементов компиляции выбраны аллофо­ны, оптимальный набор которых и представляет собой акусти- ко-фонетическую базу синтеза. Инвентарь базовых единиц ком­пиляции включает в себя 1200 элементов, который занимает около 7 Мбайт памяти. В большинстве случаев элементы компи­ляции представляют собой сегменты речевой волны фонемной размерности. Для получения необходимой исходной базы еди­ниц компиляции был составлен специальный словарь, который содержит слова и словосочетания с аллофонами во всех учиты­ваемых контекстах. В нем содержится 1130 словоупотреблений.

Лингвистический анализ. На основе данных, полученных от остальных модулей синтеза речи и от аллофонной базы, про­грамма формирования акустического сигнала позволяет осуще­ствлять модификацию длительности согласных и гласных. Она дает возможность модифицировать длительность отдельных пе­риодов на вокальных звуках, используя две или три точки тони­рования на аллофон ном сегменте, осуществляет модификацию энергетических характеристик сегмента и соединяет .модифици­рованные аллофоны в единую слитную речь.

На этапе синтеза акустического сигнала программа позволя­ет получать разнообразные акустические эффекты — такие, как реверберация, эхо, изменение частотной окраски.

Готовый акустический сигнал преобразуется в формат дан­ных, принятый для вывода звуковой информации. Используют­ся два формата: WAV (Waveform Audio File Format), являющийся одним из основных, или VOX (Voice File Format), широко ис­пользуемый в компьютерной телефонии. Вывод также может осуществляться непосредственно на звуковую карту.

Инструментарий синтеза русской речи. Упоминавшийся выше инструментарий синтеза русской речи по тексту позволяет читать вслух смешанные русско-английские тексты. Инструмен­тарий представляет собой набор динамических библиотек (DLL), в который входят модули русского и английского синте­за, словарь ударений русского языка, модуль правил произнесе­ния английских слов. На вход инструментария подается слово или предложение, подлежащее произнесению, с выхода поступа­ет звуковой файл в формате WAV или VOX, записываемый в па­мять или на жесткий диск.

В табл. 4.2 приводятся характеристики ряда систем синтеза речи.

Характеристики

Таблица 4.2. Характеристики некоторых образцов программных средств синтеза речи

f Программный продукт

Бесплатная программа, которая читает текст разными голосами на разных языках, ис­пользуя голосовые «движки» (text-to-speech engines), установленные на компьютере, за­пишет текст в МРЗ файл. Основные возможности программы Govorilka: чтение текста го­лосом; запись читаемого текста в звуковой файл (*.WAV, *.МРЗ) с повышенной скоро­стью; регулировка скорости чтения и высоты голоса; автоматическая прокрутка текста на экране, чтобы всегда был виден читаемый фрагмент (слежение за речью); пополняемый словарь произношений; открывает большие файлы в DOS и Windows-кодировке, файлы MS Word и HTML (размер читаемого текста практически неограничен); запоминается текст и позиция курсора при выходе из программы; голосовое озвучивание текста, наби­раемого в любых Windows-программах, а также чтение текста из буфера обмена

Программный комплекс, состоящий из трех разных по назначению модулей: TextAioud МРЗ - чтение текста; WeatherAloud - чтение сводок погоды; Stocks Aloud - чтение биржевых новостей;

TextAioud МРЗ - программа для преобразования любого текста в речь и звуковые файлы формата МРЗ. В рабочем состоянии свернута и в любой момент готова прочитать любой текст с e-mail, страниц Internet, текст документа в любом текстовом редакторе; WeatherAloud - синтезатор голоса, предназначенный для прослушивания прогноза пого­ды по 7500 позициям во всех странах. Можно построить персональный список прогнозов и модифицировать его по заказу пользователя по необходимости. Регулярные прогнозы погоды, текущая температура и другие сведения, удобное управление отображением данных на рабочем столе - все это делает эту программу исключительно удобной в ис­пользовании;

Govorilka 1.43

ALOUD

Stocks Aloud позволяет отслеживать информацию на фондовых биржах и торговых пло­щадках, которая должна читаться громко для быстрого реагирования на текущие измене­ния рынка. Биржевой курс, изменения, продажи и другая информация корректируются и отслеживается в определенных интервалах. Данные могут быть прочитаны, записаны или отправлены по e-mail

АV Voice Changer

Программа синтеза речи, использующая любой «движок» (engine) Microsoft SAPI. Имеет­ся функция чтения выделенного текста в любом приложении, для этого требуется нажать дважды с малым интервалом <Gtrl+C>. Имеется возможность просмотра свойств всех движков, установленных в системе, и выбора желаемого, настройки высоты тона и ско­рости речи. Программа может помещаться на панели задач и управляться контекстным меню иконки

' Инструмент для изменения голоса - мечта шутников, телефонных террористов и люби­телей караоке. Пользователь говорит в микрофон, а программа в реальном масштабе времени заставляет его голос звучать ниже (как у солидного мужчины) или выше (как у женщины или подростка). Высота голоса задается с помощью ползунка «Pitch Level», а выходной сигнал может быть дополнительно отредактирован с помощью 9-полосного эк­валайзера. Дополнительно можно выбрать несколько стандартных голосовых решений. AVVCS совместим со всеми программами для Internet-телефонии (NetMeeting, net2phone и т. п.), так что его можно применять не только для розыгрышей, но и для сохранения анонимности при общении в Сети голосом

4.4. Системы автоматизированного и автоматического перевода текстов

Перевод с одного языка на другой человеком происходит пу­тем восприятия и понимания исходного текста и последующей передачи его смысла средствами выходного языка. При этом пе­реводятся не слова и словосочетания, а понятийные образы, по­рождаемые в сознании переводчика под их воздействием. Одна­ко если в настоящее время пока еще нет возможности моделиро­вать работу человека-переводчика, то, по крайней мере, нужно стремиться оперировать теми единицами языка и речи, которые позволяют наиболее точно передавать содержание текста, напи­санного на одном языке, средствами другого языка. Такими еди­ницами являются, прежде всего, фразеологические обороты и терминологические словосочетания и. во вторую очередь, от­дельные слова. Если в настоящее время полностью автоматиче­ский высококачественный научно-технический перевод практи­чески невозможен, то автоматизированный человеко-машинный перевод вполне реален.

Обобщенная технология работы системы машинного перевода

Процесс машинного перевода текстов с одного естественно­го языка на другой может быть в крупном плане разделен на три этапа (рис. 4.14).

Текст на входном языке поступает в систему перевода, на этапе с е м а н т и к о - с и н т а к с и ч е с к о г о анализа выявля­ется его грамматическая структура, распознаются наименования понятий и устанавливаются отношения между понятиями.

На этапе трансфера производится переход от наименований понятий и структуры текста на входном языке к наименованиям понятий и структуре текста на выходном языке. В результате семантико-синтаксического синтеза на основании полученных эквивалентов получается текст на выходном языке (его грамматическое оформление), который выдается в качестве результата.

Трансфер

Наименование понятий


Семантико- синтаксический анализ текста


Наименование понятий


Структура текста


Семантико- синтаксический анализ текста



Действующие системы машинного перевода ориентированы на конкретные пары языков (например, французский и русский или японский и английский) и используют, как правило, пере­водные соответствия либо на поверхностном уровне, либо на не­котором промежуточном уровне между входным и выходным языком. Качество машинного перевода зависит от объема слова­ря, объема информации, приписываемой лексическим единицам, от тщательности составления и проверки работы алгоритмов ана­лиза и синтеза, от эффективности программного обеспечения. Информация может быть представлена как в декларативной (описательной), так и в процедурной (учитывающей потребности алгоритма) форме.

Входной язык

Отношения

между понятиями

Рис. 4.14. Обобщенная технология систем машинного перевода

Выходной язык

Машинный перевод следует отличать от использования ком­пьютеров в помощь человеку-переводчику. В последнем случае имеется в виду автоматический словарь, помогающий человеку быстрее подбирать нужный переводной эквивалент. Хотя и в том, и в другом случае компьютер работает вместе с че­ловеком (переводчиком или редактором), в содержание термина «машинный перевод» входит представление о том, что главную, большую часть работы по переводу и отысканию переводных эк­вивалентов и переводных соответствий машина берет на себя,

оставляя человеку лишь контроль и исправление ошибок, в то время как компьютерный словарь в помощь человеку — это чис­то вспомогательное средство.

Основные проблемы машинного перевода

Для создания систем, работающих со всем естественным языком без потери глубины анализа, в настоящий момент не хватает либо технических возможностей (быстродействия, памя­ти), либо теоретической базы. Однако в коммерческих системах, ввиду того, что предназначаются они для большого количества пользователей, разных предметных областей, принята концеп­ция поверхностного анализа, к тому же и производится такой анализ значительно быстрее.

Исторически машинный перевод является первой попыткой использования компьютеров для решения невычислительных за­дач (Джорджтаунский эксперимент в США в 1954 г.; работы по машинному переводу в СССР, начавшиеся в 1954 г.). Развитие электронной техники, рост объема памяти и производительно­сти компьютеров создавали иллюзию быстрого решения этой за­дачи. Практическая цель была простой: загрузить в память ком­пьютера максимально возможный словарь и с его помощью из иноязычных текстов получать текст на родном языке в удобочи­таемом виде. Однако первоначальная эйфория по поводу того, что столь трудоемкую работу можно поручить ЭВМ, сменилась разочарованием в связи с абсолютной непригодностью получае­мых текстов.

Конечно, системы, настроенные на определенную предмет­ную область, дают гораздо более приемлемые результаты. Однако в этом случае системы перевода получаются очень узко ориенти­рованными, и попытка использовать их даже в смежных пред­метных областях дает совершенно непредсказуемые результаты.

Возникают эти проблемы из-за принципиально разных под­ходов к переводу человека и машины. Квалифицированный пе­реводчик понимает смысл текста и пересказывает его на другом языке словами и стилем, максимально близкими к оригиналу. Для компьютера этот путь выливается в решение двух задач:

  • перевод текста в некоторое внутреннее семантическое представление;

  • генерация по этому представлению текста на другом языке.

Поскольку не только не решена сама по себе ни одна из этих задач, и даже нет общепринятой концепции семантического представления текстов, при автоматическом переводе приходит­ся фактически делать «подстрочник», заменяя по отдельности слова одного языка на слова другого и пытаясь после этого при­дать получившемуся предложению некоторую синтаксическую согласованность. Смысл при этом может быть искажен или без­возвратно утерян.

Фразеологический машинный перевод

Концепция фразеологического перевода базирует­ся на понимании того факта, что в естественных языках смысл лексических единиц более высокого уровня (например, фразео­логических единиц, являющихся наименованиями понятий или ситуаций), как правило, не сводим к смыслу составляющих их лексических единиц более низкого уровня (например, слов).

При решении проблемы перевода ранее делалась ставка прежде всего на грамматически правильный пословный пере­вод, а полисемия слов разрешалась в основном процедурными средствами на основе учета их синтаксических и семантиче­ских признаков. Поэтому системы МП первых трех десятиле­тий их развития можно охарактеризовать как системы семан- тико-синтаксического преимущественно пословного перевода. Словосочетания здесь также использовались, но в меньшей степени.

Семантико-синтаксический пословный машинный перевод текстов не имеет особой перспективы, так как в естественных языках смысл словосочетаний, как правило, не сводим или не полностью сводим к смыслу составляющих их слов, и при пере­воде он не обязательно может быть «вычислен» на основе син­таксических и семантических признаков этих слов.

Принципы построения систем фразеологического машинно­го перевода текстов были впервые сформулированы Г. Г. Бело- ноговым в 1975 г. и изложены в 1983 г. в книге Г. Г. Белоногова и Б. А. Кузнецова «Языковые средства автоматизированных ин­формационных систем». В 1984 г. аналогичная идея была выска­зана японским ученым профессором Нагао из университета Киото. Он предложил в качестве альтернативы подход, основан­ный на использовании ранее переведенных текстов, представ­ленных одновременно на двух языках (билингв).

Важнейшими среди этих принципов являются следующие:

  • основными единицами языка и речи, которые прежде всего следует включать в машинный словарь, должны быть фразеологические единицы (словосочетания, фразы). Отдельные слова также могут включаться в сло­варь, но они должны использоваться только в тех случаях, когда не удается осуществить перевод, опираясь только на фразеологические единицы;

  • наряду с фразеологическими единицами, состоящими из непрерывных последовательностей слов, в системах ма­шинного перевода следует использовать и так называемые речевые модели — фразеологические единицы-шаб­лоны с «пустыми местами», которые могут заполняться различными словами и словосочетаниями, порождая ос­мысленные отрезки речи;

  • реальные тексты, независимо от их принадлежности к той или иной тематической области, обычно бывают политема­тическими, если они имеют достаточно большой объем. И отличаются они друг от друга не столько словарным со­ставом, сколько распределениями вероятностей появления в них различных слов из общенационального словарного фонда. Поэтому машинный словарь, предназна­ченный для перевода текстов даже только из одной тематической области, должен быть политематическим, а для перевода текстов из различ­ных предметных областей — тем более;

  • для систем фразеологического перевода необходимы ма­шинные словари большого объема. Такие словари могут создаваться на основе автоматизированной обра­ботки двуязычных текстов, являющихся перевода­ми друг друга, и в процессе функционирования систем пе­ревода;

  • наряду с основным (политематическим) словарем большо­го объема в системах фразеологического машинного пере­вода целесообразно использовать также набор неболь­ших по объему дополнительных тематиче­ских словарей. Дополнительные словари должны содержать только ту информацию, которая отсутствует в основном словаре (например, информацию о приоритет­ных переводных эквивалентах словосочетаний и слов для различных предметных областей, если эти эквиваленты не совпадают с приоритетными переводными эквивалентами основного словаря);

  • основным средством разрешения полисемии (многознач­ности) слов в системах фразеологического перевода являет­ся их использование в составе фразеологиче­ских словосочетаний. Дополнительным — аппарат дополнительных тематических словарей, где для каждого многозначного слова или словосочетания указывается его приоритетный переводной эквивалент, специфичный для рассматриваемой предметной области;

  • большую роль в системах фразеологического машинного перевода текстов могут играть процедуры морфологи­ческого и синтаксического анализа и синтеза русских и английских текстов, построенные на основе принципа аналогии. Эти процедуры позволяют отказаться от хранения в словарях большого объема грамматической информации и порождать ее по мере необходимости авто­матически, в процессе перевода. Они делают систему пере­вода открытой — способной обрабатывать тексты с «но­вой» лексикой;

  • наряду с переводом текстов в автоматическом режиме в системах фразеологического машинного перевода целесо­образно предусмотреть интерактивный режим ра­боты. В этом режиме пользователь должен иметь воз­можность вмешиваться в процесс перевода и настраивать дополнительные машинные словари на тематику перево­димых текстов.

В соответствии с главным тезисом концепции фразеологиче­ского перевода, система фразеологического машинного перевода должна включать в свой состав базу знаний, содержащую пере­водные эквиваленты для наиболее часто встречающихся фраз, фразеологических сочетаний и отдельных слов (рис. 4.15) и про­граммные средства для морфологического и синтаксического анализа и синтеза текстов и для их редактирования человеком.

В процессе перевода текстов система должна использовать хранящиеся в ее базе знаний переводные эквиваленты в следую­щем порядке: сначала для очередного предложения исходного текста делается попытка перевести его как целостную фразеоло­гическую единицу; затем, в случае неудачи. — входящие в его

Рис. 4.15. Порядок перевода исходного текста в системах фразеологического

машинного перевода

состав словосочетания; и, наконец, осуществляется пословный перевод тех фрагментов текста, которые не удалось перевести первыми двумя способами. Фрагменты выходного текста, полу­ченные всеми тремя способами, должны грамматически согласо­вываться друг с другом (с помощью процедур морфологического и синтаксического синтеза).

Словари систем фразеологического перевода

Словари являются наиболее важной компонентой систем фразеологического машинного перевода. Они должны быть дос­таточно большого объема, чтобы хорошо покрывать тексты, и должны содержать преимущественно словосочетания. Опыт соз­дания больших русско-английских и англо-русских машинных словарей показал, что наиболее надежным источником для их составления могут служить русские и английские тексты, являю­щиеся переводами друг друга, в частности двуязычные заголовки документов.

Составление машинных словарей по двуязычным текстам проводится как вручную, так и с помощью ЭВМ. Ручное состав­ление словарей связано с большими трудозатратами. Поэтому была разработана процедура автоматизированного составления словарей. Эта процедура основана на использовании того факта, что во множестве двуязычных пар предложений, являющихся переводами друг друга и содержащих одно и то же слово или словосочетание одного из языков, максимальную частоту встре­чаемости имеет слово или словосочетание другого языка, являю­щееся переводом этого слова или словосочетания.

Машинные словари системы могут корректироваться и по­полняться в процессе перевода текстов в интерактивном режиме. В этом режиме есть возможность обнаруживать слова и словосо­четания, для которых в словаре не указаны переводные эквива­ленты или эти эквиваленты не соответствуют контексту, или указано несколько эквивалентов, но на первом месте стоит эк­вивалент, не соответствующий контексту. В случае отсутствия переводных эквивалентов у некоторых слов они могут быть ука­заны человеком; если эквиваленты не соответствуют контексту, они могут быть заменены; если их несколько, то есть возмож­ность выбрать только те из них, которые соответствовали кон­тексту.

В системе фразеологического перевода используются сле­дующие типы словарей:

  • тематический;

  • политематический;

  • словарь пользователя.

Технология использования различных типов словарей в про­цессе перевода следующая: после семантико-синтаксического анализа входного текста на этапе трансфера идет обращение к двуязычным словарям. Если подключены все три типа словарей, то порядок обращения будет следующим: наивысший приоритет у словаря пользователя, проводится поиск всех фразеологиче­ских единиц переводимого текста, для найденных дается пере­вод; затем идет обращение к тематическому словарю (тематика словаря выбирается пользователем в системе перед началом пе­ревода), в нем проводится поиск для всех еще непереведенных единиц; если после работы двух словарей еще остались непере- веденные фрагменты, то система обращается к политематиче­скому словарю, который содержит переводные эквиваленты для самых различных понятий, принадлежащих разным тематикам.

Все словари имеют линейную структуру:

[понятие на входном языке] [переводной эквивалент 1] /

[перев. эквив. 2] / / [перев. эквив. п]

Словарная статья состоит из двух частей: из исходного наиме­нования понятия и его переводного эквивалента. Разделителем ме­жду этими частями служит косая черта. Записи в словаре поль­зователя располагаются в порядке их ввода. Исходное наимено­вание понятия и его перевод хранятся в словаре в том виде, в котором они были в него первоначально введены, но в процессе его подключения к системе перевода производится пословная нормализация исходных наименований понятий, что позволяет отождествлять их различные формы.

При этом если перевод осуществляется в автоматическом ре­жиме (без участия пользователя), берется первый слева перевод­ной эквивалент. Фрагмент словаря пользователя представлен в табл. 4.3.

Таблица 4.3. Фрагмент словаря пользователя

Термин

Эквивалент

Balance

Балансировка

Existence of bubbles

Наличие пузырьков

1 Dirty

Грязь

Hydraulic fluid

Рабочая жидкость

Dirty hydraulic fluid

Грязная рабочая жидкость

Power supply

Электропитание

Voltage fluctuation

Колебания напряжения

Looseness

Ослабленность

Selector switches

Ручной многопозиционный переключатель

Proximity switches

Бесконтактный переключатель

j Screw tip

Головка винта

Abnormal indications

Аномальный признак

Piping joints

Место соединения трубопроводов

По структуре словарных статей словарь пользователя анало­гичен основному политематическому и дополнительным темати­ческим словарям, но он отличается от них количеством возмож­ных вариантов перевода, указываемых для входных наименова­ний понятий. Здесь для каждого входного наименования понятия может указываться только один вариант перевода. Отличается словарь пользователя также и способом его хранения в файле.

Это связано с необходимостью оперативного изменения содер­жимого словаря и тем. что его объем значительно меньше, чем объем словарей других типов.

В системе фразеологического перевода используются также словари словообразовательных эквивалентов и словарей синони­мов, гипонимов (термины, находящиеся в видовых отношениях с исходным) и гиперонимов (термины, находящиеся в родовых отношениях с исходным). Эти словари являются вспомогатель­ными, они позволяют дополнять словарные статьи основного словаря: имеющемуся понятию на английском языке ставится в соответствие не единственный эквивалент русского языка, а не­сколько вариантов переводных эквивалентов этого понятия.

Системы автоматического перевода

Рассмотрим вкратце характеристики некоторых из таких сис­тем, предназначенных для достижения максимальной скорости обработки больших потоков информации.

Скорость перевода страницы текста у разных систем состав­ляет от 0,5 до 2 с в автоматическом режиме. Полученный в ре­зультате текст в большинстве случаев понялен сразу. Поэтому, потратив какие-то минуты на осознание информации, пользова­тель может сразу сохранить документ для более тщательного изу­чения.

Основными поставщиками подобных систем в настоящий момент являются московская компания «Арсеналъ» и санкт-пе- тербурская «ПРОМТ».

Одним из продуктов «Арсеналъ» является переводчик «СОКРАТ». Данная система поставляется в комплекте с обще­лексическим, коммерческим и компьютерным словарями. Дан­ная база составляет 95 % требуемого словарного запаса для тек­стов, которые существуют в электронном виде. Отдельно суще­ствует 9 дополнительных подключаемых к системе «СОКРАТ» словарей специализированного назначения, среди которых сло­вари по медицине, машиностроению, юриспруденции и др.

Интерфейс представляет собой два окна, одно из которых содержит текст оригинала, а в другом появляется перевод. Из­вестны версии «СОКРАТа». понимающие соответственно анг­лийский, немецкий и французский языки. Перевод в любом слу­чае является двухсторонним, т. е. можно переводить не только с иностранного языка на русский, но и наоборот.

Компания «ПРОМТ» давно специализируется на производст­ве языковых систем. Системы перевода STYLUS 2.хх и З.хх из­вестны пользователям Windows. «PROMT» также комплектуется общелексическим и компьютерным словарями. Однако основной особенностью данной программы является наличие гораздо боль­шего количества подключаемых словарей. Их число составляет на данный момент несколько десятков. Существуют четыре коллек­ции или подборки словарей — наука, коммерция, техника и про­мышленность. Каждая из коллекций содержит от 5 до 10 словарей определенной направленности. Например, коллекция «Коммер­ция» содержит словари «Коммерческий», «Информатика» и «Юридический», причем для всех возможных языковых пар.

Системы автоматического перевода Promt и XT-Diamond. Данные системы являются довольно типичными для рынка программных продуктов РФ и обеспечивают следующие воз­можности:

  • ручной выбор и настройку словарей предметной области;

  • пополнение словарей пользователем;

  • автоматическое определение предметной области, при не­обходимости;

  • выборочный или полный перевод текстового файла;

  • редактирование оригинала и результата перевода.

На рис. 4.16—4.19 приведены примеры некоторых экранов данных систем, иллюстрирующие их возможности.

В табл. 4.4 приведен пример исходного и результирующего технического текста при автоматизированном переводе различ­ными системами, из которого видно, что несмотря на несомнен­ные успехи в данной области, технология все еше имеет опреде­ленные резервы для своего совершенствования.

Еше одна тенденция последних лет — слияние речевых тех­нологий с лингвистическими. Показателен пример L&H, став­ший действующим лицом в области машинного перевода с мо­мента приобретения фирмы Mendez в 1996 г. После этого к L&H присоединились А1 Logic Corp. и NeocorTech (специализировав­шиеся на машинном переводе с английского на японский и с японского на китайский и обратно), германская фирма Heitmann Group и, наконец. Globalink. Новая версия известной програм­мы-переводчика Power Translator Pro фирмы Globalink вышла уже под маркой L&H.

Таблица 4.4. Исходный и результирующий тексты систем автоматизированного перевода

Исходный текст Перевод Сократ Перевод XT DIAMOND

■ Most companies offering removable Большинства компаний, предла- Большинство компаний, предла- ; storage devices will claim that they're гающих сменные устройства па- гающих сменные устройства хра- great for backing up hard disks. In мяти потребует, чтобы они - нения будет утверждать, что они ; reality, the market they're trying to большими для поддержки жест- являются большими для того, что- j muscle in on is outside their ких дисков. В действительности, бы поддержать жесткие диски, capabilities. The traditional security рынок, которые они пытаются в В действительности, рынок, в ко- backup technology - tape - remains мускул в на - за пределами сво- торый они пробуют ворваться - I the best choice, and for two very их возможностей. Резервная вне их способностей. Традицион- good reasons: capacity and cost. The технология традиционной безо- ная безопасность резервная тех- : more inconvenient a security backup пасности - лента - остается нология - лента(пленка) - оста- regime is to implement, the less likely наилучшим выбором, и для двух I ется лучшим выбором, и для двух users are to bother. With the size of очень хороших причин: возмож-; очень серьезных оснований: спо- the average hard disk now several ность и стоимая. Чем более не-. собность(вместимость) и стои- gigabytes, tape is generally the only удобный резервный режим мость. Чем более неудобный media that allows a complete hard безопасности должен осуществ- безопасность резервный режим disk to be backed-up without ляться, тем меньше вероятные: должен осуществить, тем менее needing to swap media during the; пользователи должны мешать.: вероятные пользователи должны process. Furthermore, removable l С размером среднего жесткого 1 беспокоиться. С размером сред- j storage media is comparatively i диска теперь несколько гигабай-i него жесткого диска теперь не- expensive, with overall costs up to ten 1 тов, лента является обычно сколько гигабайтов, лента(плен- times that of tape единственным носителем, кото- ка) - вообще единственные СМИ,

рый позволяет полный жесткий который позволяет полному жест- диск, чтобы быть вспомогатель- кому диску быть поддержанным, I ным без необходимости подка-. не нуждаясь к СМИ обмена в тече-

чать носителя в течение процес- ние процесса. Кроме того, смен- са. Кроме того, сменный носи- ные носители данных сравнитель- j тель памяти сравнительно но дороги, с полными затратами

дорог, с общими издержками до десяти раз больше чем это десять вплоть до раз (а) того же ленты(пленки). самого tape

Продукция L&H поддерживает в обшей сложности 25 язы­ков. Однако еше эффектнее выглядит программа Universal Translator фирмы LanguageForcc (США). Серия Universal Translator включает четыре системы машинного перевода, рабо­тающие с MS Office, имеющие функции распознавания/синтеза речи и проверки орфографии; при этом Universal Translator 2000 Professional переводит с 40 языков: арабский, китайский (упро­щенный и традиционный варианты), чешский, датский, нидер-

HID ©зйп Правка |ил Встзо*;а Формат Теизтика Гкрссод Atl Серюс £?;ио I. xj

Пйй & i^k -ft it-o ® |ico-.~V; SI V

[Касание

IВ й Сс^фи'е; 10 Interne! I □ Ш Ac^cdUiM {ПШъЛсксЬ

{ □ 14 Aviation:

1 □ И Bank

311 АНГЛО-Р^КИЙ - И Инфсснатикэ - ШВ Ш Ш Ш S

"1 ж а- ч з = щ т

X? -

с- Surd з з icijtiv£-l'T n.:-v,

CjiMbi it t

j; FCe

.:jp:j:ii;ty 'О' PC С

-tcyusy м. - - - ■

-tids^-J 1

»tsvn

Lyi. cdj:« ':0■. 11 — r**l;y cur

iUHrtd 1 v,ti*ii

- ; ■■■■■K d-?s rye

j. >1; Г licit ./h

EM

t'-o ■■■■■53 -ir:t d:rj

Th-:- oticj ii; 1 lbVI

d

Тмчелсеаря С r»tru>vj г ь ■ и;: •:> ь тн то й С п*ц л,-".' i с о & -зи н-a i С пси-с Л-* он: СЕ--М f ь>й С П =Ц riS.n.' :•: AZ О Е- гН Hti Й Ct'i-Ц^ Tv. i-tpO В =м й

С П*Ц и-"! Т.'ЛГ'5НHtiЙ

zJ

i Не*нз£оиые снова

спов-зри I

} В^елрвг-рсе-эн^ье ств-з

чгобы п&лучигть mAixawy:. «ажиите Fl

Рис. 4.16. Переводчик Promt, исходный экран

ш:

JfiJxJ

) ®айя Орзска Цид Вст-зр&э Фор$зт Хснэтика Пересол &П <>:но I

D£H <& З*1 iz

[ТмТ'-] а л''

®'

*1

]|1 АнЩ-Рдакт •

и Ш \

i> Th : i:

otsitously

trie ;и

we on

■ae-i s:i

; PS F г i

UP


Система PROMT ссущесдвгяст rwpreoa текста. По тапире та, го дождит е.. так *-ж зто займет некоторое врем5,

г- Имя файла - -

а п и сан; зарднео ' в но уху, ><1!С И пи домо.~

: jsound cad U?d

f Название |ам Сй.фи!й5 j 0 Ш Interne: ! □ 1Л AercJtuie

\пт to&vctee

Jd

С nt ПУ-Л Vf"0 Г-* н

j D fc* Avi^bn ! □ ы B«nk

ИЗ Сло&зри | [!Н5;нжоИг1^сп5ва | [j^] зззеирь-роынйь)? слои [ g свокст&э | 4l'Qttet ПОЩ'^Уь ГУ>ДС<а5р.у, г-.^'.мп'Гй F i

Рис. 4.17. Promt, процесс перевода

(sfj Пр20* 3 fciH- BCT.3D£.3 СОр^-ЗТ 1сИЗТИ'Г,2 Гк'DC-cOЛ АН Ссроя: £*ГНО £

d^b « ?пк л - ts д =о а е- ai ?

3fi AH'roP,..t,v- Щ) /нф - СЕ! S13 ® © И- Щгезпесеюда

[Аг.а1 " 3 | Zl ж к 4 S = = = i

Г u J и it I i

н dL P < 1 I - Г^ rt

I ~ .I'll (J t_

llf lu'lr P - A tp

I t Г

= J il ■.<A?n

=1

Tin

) l ■» «■ НЧ

"I" "-1 г • ич

П u 4 1 r I

U ! i c HH

L L 1 НЧ

I HdiBd-iie

I I ,

3 Л I t- '

' □ Я A:rc:j!ur<: ( □ Ш autcf,xlive j □ M Avista*

; □ м B-mk

3

' [Ш Спзсори [ [**' Ня н j* utfeis его в а [Тй ссозг i свайстЕ-з j

-ircitei пй^'^'ь t» 4 i- +MHreFl

Рис. 4.18. Результирующий экран перевола Promt

BBSS

""""

п!ш

-jQ'ii

: twin

О, к

F

- 1 V

t^lt:'

1 &

а /

> т

Hu-

ffl -

й P

_

Jt)

с =1 ГР ^t

1

f.'s С >5 U

1 ^ r i

conside

I 1 t n г I

г

IJH П

J Ti

j 1!

rr

ра:;Ыв Pi

zesignes

4 H J

! 1 ^

а —'

mijilim

ч э

1 1-й

SO It's ПЛ'Ы;

r

sing

is-iii-rjj,

l i t

i ч p -it- i

I

chip in

1 lit

Jt 1

r

1 t

j

r rr

r 11 1 *

J t

r)

Р г

■ V.'S:

p t

pi: ri'-. d -f,

= пп

snnsi "L

г

P - \ p 4 1 1

nsh

I 1 L

It-ill SOU

d 05

IjbiltiOS ft:'

■no iC'j't"

i: o:'tl

tl F

ГС but:;

s w: c'icko, and PC's

h

-q , и

сип с

e P н

pner

П'.РГОГ.

U

second 1

it

1 1 F

1

J t f

f '

" to

fcВ-5tils

t I *

у der

la-dmy rnd

T^jli

applx-ili.

P sound

4 d

ИГ jr

a 1 И

TH 1

H

H т

H L

T-JTIIY

t J

н Lib

тельни не

d

1 M

1 1 г H

1T

-Д 3 pi

-срэб-ла

П г

П 11- н н

11! НУЛЬ-Ь HI

l

M CbJl i::.

1

н

F

II H -

<> I

I

.■■H-. t.

•тьтииед

ЧТО

1И 1T

Ь 41 71

Hp

^ Г

cl k 1

НИИ

•осеяши-н..

Г U : L

i . &::u.G4

rJ

.ю его ар

I

h г ь ь

т И

H n 1

И

-T^p-j-HrJ

'Г.ГИТР.-h-

1- H 1

1 H pf

H H

Н 1 1. м

Д 141

L-Л

1 с

ал. к:

70;: Ь- й с.п-

жия с

1

f Д f

Л I Е тм

И

1-Г и

r T I Э

1

h Яблока ,IF

1ел E с

трсенные

t- Р Г F

п н г т ч

II ц

ICTC "Cj!>

[

Г 1

5НР0ГС

и _

г 1

F

_ 1 1

LIT U

Zl

Чтобы пйгучгп ь сп; ; ,

Fl

' AH* Л С

/HTrpHi'


Рис. 4.19. Переводчик X-Translator, результирующий экран перевода

ландский, английский британский и американский, эсперанто, фарси, финский, французский (канадский и европейский вари­анты), немецкий, греческий, иврит, венгерский, итальянский, индонезийский, латинский, японский, корейский, норвежский, польский, португальский (бразильский и европейский вариан­ты), румынский, русский, словацкий, испанский (латиноамери­канский и европейский варианты), суахили, шведский, тагаль­ский, тайский, турецкий, украинский, вьетнамский, зулусский. Для Universal Translator 2000 Professional объявлена возможность перевода в любом направлении для любой языковой пары. Не­трудно подсчитать, что число таких пар составляет 1560. Кроме того, программа записывает текст под диктовку, читает вслух и проверяет грамотность написанного. Вместе с переводчиком по­ставляются две обучающие игры Space Attack и WortTris, кото­рые должны, по-видимому, окончательно сразить потребителя и конкурентов.

Лингвистический анализ текста — обязательная стадия про­цесса автоматического ввода текста под диктовку. Без этой ста­дии современное качество распознавания не могло бы быть дос­тигнуто, и многие эксперты связывают перспективы речевых систем именно с дальнейшим развитием содержащихся в них лингвистических механизмов. Как следствие, речевые техноло­гии делаются все более зависимыми от языка, с которым работа­ют. В сфере распознавания слитной речи зависимость стала аб­солютной, что подтверждается, в частности, отрицательным опытом локализации программного пакета фирмы Dragon Systems для русского языка (имеется в виду система «Горыныч», не показавшая объявленного качества распознавания). Однако и в других областях работы с речью, включая TTS и даже механиз­мы редактирования и сжатия, специфика языка все более дает себя знать. Следовательно распознавание, синтез и обработка русской речи являются той нишей, занять которую должны именно российские разработчики.

Контрольные вопросы

  1. Перечислите основные принципы распознавания символов (OCR)

  2. Что такое OCR А и OCR В?

  3. В чем заключается содержание метода сопоставления с образцом?

  4. Перечислите основные особенности метода POWR.

  5. Каковы возможности программного продукта Finereader?

  6. Что такое принципы !РА?

  7. В чем заключается MDA?

  8. Что такое бинаризация изображения?

  9. Какие типы классификаторов-распознавателей вам известны?

  10. Перечислите основные принципы систем распознавания речи (STT).

  11. Охарактеризуйте программные продукты STT.

  12. Перечислите основные принципы систем генерации речи (TTS).

  13. Охарактеризуйте программные продукты TTS.

  14. Назовите основные принципы систем автоматизированного перевода.

  15. Что такое фразеологический машинный перевод?

  16. Какова структура машинного словаря?

  17. Назовите возможности системы машинного перевода Promt.

  18. В чем заключается интеграция систем перевода и обработки речи?