Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Чжоу Югуан.doc
Скачиваний:
2
Добавлен:
01.09.2019
Размер:
149.5 Кб
Скачать

IV. Система сочетания двух методов машинной обработки китайских текстов

Некоторые говорят, что, поскольку возможна машинная обработка непосредственно иероглифических текстов, алфавит уже больше не нужен. Дело обстоит как раз наоборот. Без алфавита ЭВМ не сможет стать орудием повышения культуры широких масс. ЭВМ, обрабатывающие иероглифические тексты, дорогостоящи, в них применяются сложные процедуры, одному человеку трудно работать на такой машине. Массовое внедрение ЭВМ возможно только в случае использования машин, обрабатывающих тексты, записанные алфавитом. Это также выгодно и с точки зрения установления связи с международной информационной системой. Это так же верно, как и то, что алфавитные пишущие машинки имеют массовое применение, а иероглифические могут эксплуатироваться не широким кругом людей, а лишь специально подготовленными машинистками в учреждениях. Для того чтобы машинная обработка китайских текстов шла в ногу со временем, необходимо использовать систему, сочетающую два метода: обрабатывать на ЭВМ и иероглифические тексты, и алфавитные. Первый из этих методов следует применять организациям, имеющим для этого необходимые человеческие и материальные ресурсы и где к тому же обязательно должны использоваться иероглифы. Второй - частными лицами, в семье, в школьных классах, в сравнительно небольших учреждениях.

Многими организациями Пекина в настоящее время проводятся эксперименты по созданию искусственного интеллекта. Например, в Академии китайской медицины ЭВМ используют для постановки диагнозов больным, ведения историй болезни, выписки рецептов; в Институте языкознания на ЭВМ проводятся эксперименты в рамках диалога "человек - машина"; в Институте психологии с помощью ЭВМ ставят эксперименты по "пониманию китайского языка". Во всех этих экспериментах используют алфавит, а не иероглифы. Почему? Причина очень проста: обработка иероглифических текстов требует дорогостоящего оборудования и сложных процедур. Поэтому система сочетания двух методов фактически уже существует, причем машины, обрабатывающие алфавитные тексты, заняли ведущее положение.

Конечно, это не означает, что не нужно развивать электронно-вычислительную технику, обрабатывающую иероглифические тексты. При обработке иероглифических текстов основная трудность заключается во вводе иероглифов в ЭВМ. К настоящему времени разработано более 400 способов ввода иероглифов в ЭВМ. Они подразделяются на три группы: 1) графические: иероглифы вводятся непосредственно в ЭВМ в порядке очередности по элементам. Этот метод уже утвердился, подходит для использования в таких крупных учреждениях, как типографии; 2) кодирование с помощью числового кода: более 400 имеющихся способов принадлежат главным образом именно к этой группе; 3) преобразование алфавита.

Способы кодирования иероглифов с помощью числового кода также подразделяются на несколько видов.

1. Кодирование элементов. Элементы, из которых состоят иероглифы, бывают большими и малыми. Большой элемент соответствует, как правило, ключу иероглифа, малые элементы образуются в результате дальнейшего разложения большого. Каждому элементу соответствует определенная клавиша на панели ЭВМ или же ему дается определенный числовой код.

2. Кодирование иероглифов по их особым признакам. В этом случае кодируются определенные особые признаки иероглифов, например третий или четвертый угол, первая или последняя черта,

3. Кодирование по чертам. Иероглифы состоят из черт, которые сводятся к нескольким основным видам. Каждому такому виду соответствует клавиша на панели ЭВМ или же ему дается определенный числовой код. Это старый способ, развивающийся на новой основе.

4. Числовое кодирование: каждому иероглифу на основании его места в словаре, частотности употребления или какой-либо другой характеристики дается числовой код. Наиболее старым и распространенным из таких кодов является четырехзначный телеграфный код.

5. Кодирование методом комбинации звучания и начертания: текст вводится частично с помощью алфавита или алфавитных сокращений, частично - иероглифами. Такого рода способов чрезвычайно много.

В настоящее время невозможно использовать только один способ ввода иероглифов в ЭВМ. Конечно, невозможно также использовать 400 или 40 способов. Чем больше способов - тем уже рынок сбыта соответствующей продукции, применение такой техники также создает массу неудобств. Как сократить число способов? Путь решения вопроса - проведение единой политики в области разработки способов введения иероглифов в ЭВМ путем классификации этих способов по группам, концентрации, подъема и стандартизации. Классификация - это объединение всех способов в указанные пять или некоторое другое количество групп. Концентрация - это сведение тех или иных особенностей ввода иероглифов в ЭВМ к какому-то общему знаменателю. Подъем - это проведение коллективных исследований и общее повышение уровня разработок. Стандартизация - это утверждение в качестве стандарта лучших из таких усовершенствованных способов. Каждые несколько лет проведенную работу следует анализировать и совершенствовать. Применение этого "четырехступенчатого метода проведения единой политики" может ускорить развитие способов ввода иероглифов в ЭВМ.

Коренным недостатком методов кодирования иероглифов с помощью числового кода являются большие затраты умственной энергии. Необходима специальная подготовка, изученное легко забывается; если владеешь одним из этих методов - не владеешь другим. Главным преимуществом ЭВМ является то, что они экономят умственную энергию. Экономия умственной энергии вступает в противоречие с ее большими затратами.

В новых разработках в области "преобразования алфавита" числовое кодирование совершенно не применяется. После ввода китайского алфавита или алфавитных сокращений в ЭВМ машина автоматически преобразует их в иероглифы. Это касается как отдельных знаков, так и написанных иероглифами слов, групп и сочетаний слов, предложений. У таких ЭВМ клавиш столько же, сколько у ЭВМ, обрабатывающих английский текст. Достаточно в начальной школе изучить китайский фонетический алфавит - и не потребуется никакой специальной подготовки.

В разработке такого метода уже достигнуты успехи, в недалеком будущем можно будет представить его для всеобщего ознакомления. Итогом этой разработки является "процессор для обработки китайских слов". Это не просто "электронная иероглифическая пишущая машинка". Она наделена большим количеством функций, более проста в эксплуатации, эффективность ее исключительно высока. Соединение китайского фонетического алфавита и ЭВМ полностью раскрывает особенности модернизации китайского языка и письменности. Это не один из 400 способов ввода иероглифов в ЭВМ, а совершенно иной метод, не имеющий ничего общего с графическим способом и кодированием с помощью числового кода. Он в корне отличается и от метода, сочетающего звучание и начертание, когда текст вводится в ЭВМ частично с помощью алфавита, а частично - с помощью числового кода.

Я полагаю, что по мере распространения обучения китайскому фонетическому алфавиту "процессор для обработки китайских слов", который автоматически преобразовывает алфавит в иероглифы, станет самой перспективной моделью.

Уже запущены в серийное производство и поступили на рынок процессоры для обработки японских слов, по типу практически совпадающие с китайским процессором, о котором говорилось выше. В них используются кана или японский алфавит ромадзи, например Canoword-55, Тосиба JW-10, Фудзицу OASYS-100, в памяти которых хранится от 2965 до 6802 иероглифов и от 15 тысяч до 100 тысяч лексических единиц языка. Заслуживает внимания, что в большинстве процессоров для обработки японских слов кодирование иероглифов с помощью числового кода не производится. Почему? Причина здесь очень проста: люди при работе с ЭВМ не хотят идти на большие затраты умственной энергии, а требуют, чтобы работа с ЭВМ экономила их умственную энергию.

ЭВМ, в которых используется "метод преобразования алфавита", представляют собой машины, "идущие на двух ногах". Это и алфавитные, и иероглифические ЭВМ, причем и иероглифические ЭВМ должны опираться на китайский фонетический алфавит.

С появлением, с одной стороны, ЭВМ, использующих алфавит, а с другой - ЭВМ, использующих метод преобразования алфавитного текста в иероглифический, китайский фонетический алфавит продемонстрирует свою огромную роль в эру вычислительных машин.

 

Примечания

1. См, сделанный в 1958 г. Чжоу Эньлаем доклад "Задачи реформы письменности в настоящее время". Рассматриваемые в докладе три задачи были выдвинунуты еще в конце династии Цин, к настоящему времени некоторые из них частично выполнены, другие же имеют долгосрочный характер. Происходит расширение содержания трех задач, например, сюда вошла проблема машинной обработки китайских текстов.

2. В конце династии Цин на путунхуа разговаривали торговцы, путешествовавшие между севером и югом. Они утверждали: мы не можем говорить на гуаньхуа, можем говорить только на путунхуа.

3. В 1913 г. этот стандарт назывался "старое национальное произношение" и имел входящий тон. В 1924 г. он получил название "новое национальное произношение", входящего тона нет. Это год установления чтений иероглифов; что касается издания соответствующих словарей, то это произошло несколькими годами позже.

4. Существует также и другое мнение, согласно которому иероглифы (2) и (3) следует читать восходящим тоном.

5. Существует другая точка зрения, согласно которой следует всячески избегать того, чтобы у одного иероглифа было два чтения. Мнения, подобные тому, что у иероглифа (7) чтение xue нужно заменить на xie, представляются неверными.

6. Согласно иной точке зрения, принцип "имя дается хозяином" должен применяться осторожно. До какого предела оно "дается" - это является проблемой.

7. См. Чжоу Югуан. Очерк реформы китайской письменности, раздел "Исследование проблемы полного списка иероглифов современного китайского языка". Бэйцзин, 1961, с. 312.

8. Там же.

9. Так называемое "общее число" - это число иероглифов, а не их варианюв. Если в начертании одного и того же иероглифа имеются различия, то это все равно один и тот же иероглиф.

10. 1000 наиболее распространенных иероглифов покрывают 90% всех иероглифов, встречающихся в современных китайских текстах; каждые последующие по степени распространения 1400 иероглифов увеличивают эту величину на 0,1%.

11. Если и нельзя "ограничить" число иероглифов, определение "списка иероглифов современного китайского языка" сохранит свою практическую ценность. Иероглифы, вошедшие в список, будут входить в наборные кассы, "иероглифы, не вошедшие в список", временно будут дополнительными; это способствовало бы стандартизации наборных касс. Иероглифы, употребляемые только в древнекитайском языке, станут "иероглифами, не вошедшими в список".

12. Этот метод может быть использован в отдельных печатных изданиях в экспериментальном порядке. Надо полагать, что в настоящее время его повсеместное применение невозможно. Если однажды станет возможным ограничить число иероглифов, находящихся в употреблении, дифрой 3755, это будет большим событием в истории китайского письма.

13. "Второй проект упрощения китайской письменности" был опубликован и в качестве эксперимента введен в действие в ненормальных условиях. Он не обсуждался, не говоря уже об утверждении, на общем собрании членов Комитета Реформы китайской письменности.

14. Чжоу Югуан. Суть современной теории иероглифического письма. "Юйвэнь сяньдайхуа", 1980, № 2.

15. Тогда было необходимо наряду с чжуинь цзыму использовать также один из вариантов латинской транскрипции, например, систему Уэйда-Джайлза. Романизированный алфавит не смог заменить эту систему, и в результате сложилась ситуация, когда применялись одновременно три алфавита, что было в высшей степени неудобно, С разработкой "Проекта фонетического алфавита для китайского языка" китайская транскрипция внутри Китая и за его пределами была унифицирована.

16. Об "упрощении" романизированного алфавита см. "Современный китайско-английский словарь" Линь Юйтана.

17. Некоторые боятся, что внедрение алфавита пиньинь цзыму приведет к отказу от иероглифов, но эти опасения необоснованны. Отказ от иероглифов не является политикой китайского правительства в области реформы письменности. Упорядочение иероглифов и введение фонетической транскрипции нужны для того, чтобы еще лучше и полнее использовать иероглифическую письменность.