Тема 5. Машинные фонды национальных
ЯЗЫКОВ
Усложнение информационной структуры общества приводит к расширению новой виртуальной коммуникационной среды. С распространением доступа к глобальной сети Интернет в создание информационных баз данных на основе обмена информацией вовлекается все большее число людей. Возникает необходимость создания программной поддержки для интеграции в мировое сообщество, в том числе и представителей различных этносов, наиболее актуальным в данном вопросе является внедрение национальных языков в компьютерные технологии.
Новые информационные технологии уже в 70-80 годах двадцатого века стали использоваться для реализации концепции машинного фонда национальных языков в различных странах. Фактически машинный фонд (корпус) представляет собой сложную иерархическую, разветвленную автоматизированную систему, способную решать как информационно-поисковые, так и исследовательские лингвистические задачи. Однако, первоначально основными составляющими машинного фонда являлись словарные ресурсы, отдельные тематические коллекции текстов, а также достаточно ограниченный программный инструментарий, предназначенный для ведения коллекции.
В машинных фондах различных языков хранится информация о многих возможных зафиксированных единицах языка, начиная с древних текстов и до современных, включая научные и вообще все возможные типы текстов. Фонды должны охватывать десятки миллионов словоупотреблений. Накопленную таким образом информацию можно будет использовать для самых разнообразных целей.
К настоящему времени созданы языковые корпуса, включающие разнообразные языковые базы данных. Корпусная лингвистика - новое направление лингвистической науки, возникшее благодаря развитию компьютерных технологий и исследующее проблемы создания компьютерных баз данных. В России основные исследования в этой области еще впереди. За рубежом - в Великобритании, США, Германии, скандинавских странах исследования по теории корпусной лингвистики ведутся с 60-х годов прошлого столетия. Корпус текстов представляет множество упорядоченных между собой текстов естественного языка, обеспечивающих материал для лингвистических исследований разного рода языковых аспектов и явлений, хранящихся на электронном носителе. Таким образом, корпус является полнотекстовой базой данных, формирующей один из модулей (составляющие модули: словарный, документально-фактографический и объектно-характеристический) базы лексикографических данных словаря. Корпусная лингвистика имеет неоценимое значение для развития лингвистической науки. В настоящее время подлинно научные описания грамматического строя языков, а также авторитетные академические словари составляются на основе корпусов этих языков. Таким образом, развивается новое направление в лексикографии - корпусная лексикография.
Корпус текстов становится мощным инструментом в руках лингвиста лишь посредством специализированных средств. Неотъемлемой частью понятия «корпус текстов» является система управления текстовыми и лингвистическими данными, которую в последнее время чаще всего называют корпусным менеджером (или корпус-менеджером) (англ. corpus manager). Корпусный менеджер - это специализированная поисковая система, включающая программные средства для поиска данных в корпусе, получения статистической информации и предоставления результатов пользователю в удобной форме. Также важный параметр организации любого корпуса - аннотация, или разметка, т.е. наличие в составе текстов специальных меток, описывающих как сами тексты, так и их единицы, относящиеся к различным языковым уровням. Как известно, чем богаче и разнообразнее разметка, тем выше научная и учебная ценность корпуса. В Национальном корпусе русского языка сегодня разработаны пять типов разметки: метатекстовая, морфологическая, акцентная, синтаксическая и семантическая.
Создание национальных корпусов базовых государственных языков ведущих стран мира возведено в ранг важных историко- культурных и политических мероприятий современности. На эти цели во многих зарубежных государствах тратятся огромные средства. И в России в полной мере встает проблема создания этого языкового инструмента, представляющего государственный язык во всем его богатстве, многообразии стилей, жанров, только ему присущих особенностей, причем в удобной для использования современной форме.
Мировым эталонным образцом Национального корпуса считается британский. Среди лучших можно выделить японский и французский национальные корпуса. Самые большие по объему корпуса объединяют несколько сотен миллионов словоупотреблений. Национальный корпус русского языка планируется вывести на уровень более 200 миллионов лексических единиц. Суть национального корпуса - в его принципиальном отличии от тематических коллекций текстов или «библиотек» разного типа, в изобилии представленных в Интернете. Национальный корпус языка - это, во-первых, грандиозное по масштабам собрание всех типов и видов информации на конкретном языке и, во-вторых, внедрение уникальной программы по ее обработке, классификации и анализу по заданным параметрам.
Основные вехи создания компьютерных корпусов:
1960-е г.г.: Брауновский корпус, (США), 1 млн. слов; 1970-е г.г.: Ланкастерско-Осло-Бергенский (LOB) корпус (Великобритания, Норвегия), 1 млн. слов; 1980-е г.г.: Машинный Фонд русского языка, Уппсальский корпус русского языка (Швеция), 1 млн. слов,TheBankofEnglish,Birmingham, 20 млн. слов; 1990-е г.г.:BritishNationalCorpus, 100 млн. слов, национальные корпуса (венгерский, итальянский, хорватский, чешский, японский) объемом 100 млн. слов,TheBankofEnglish,Birmingham, 600 млн. слов; 2000-е г.г.:AmericanNationalCorpus, 100 млн. слов,Gigawordcorpora: английский, арабский, китайский языки, 1 млрд. слов.
В Машинном фонде русского языка хранится богатейший материал по русскому языку в виде текстовых и звуковых файлов. Он начал создаваться в Институте русского языка Российской Академии Наук по инициативе А.П. Ершова в 1985 г. Важным результатом работы отдела Машинного фонда явилось развитие прикладных направлений (лексикография, терминоведение, автоматическая обработка данных на естественном языке) как составной части академической русистики, являющихся, с одной стороны, проводником результатов фундаментальных исследований в практику, а с другой - источником новых идей и данных для фундаментальной науки. В Машинном фонде русского языка разработаны программные средства первичной обработки источников: программы создания и использования автоматических конкордансов, программы ведения лексикографических баз данных и автоматизации словарных работ и др.
Информационные технологии Машинного фонда русского языка - это методы, алгоритмы и инструментальные программные средства организации, проведения и исследования естественноязыковых знаний, примерами которых являются: частотный анализ текстов и словарей, методика ассоциативного эксперимента, различные алгоритмы построения конкордансов, методы получения системных выборок языковых единиц из источниковых корпусов и др.
Башкирский язык стал вторым языком России после русского, имеющим собственный машинный фонд, который теперь доступен в Интернете. Работу по его созданию ведут с 2005 года в Институте истории, языка и литературы (ИИЯЛ) Уфимского научного центра РАН и Интернет - Центре Башкирского государственного университета. Фонд может быть полезен не только лингвистам, но и широкому кругу людей. Так, к примеру, лексикографическая база машинного фонда состоит из 33 словарей башкирского языка, и любой пользователь Интернета может с ними работать в режиме «он-лайн». В базу включены общефилологические, а также специализированные словари и справочники. В машинный фонд включена генеральная картотека башкирского языка, включающая в себя 2 млн единиц.
Также достаточно активно происходит в настоящее время становление и развитие татарского этнического сектора сети Интернет, немалое значение для этого процесса имеют научно- практические исследования в области национальной локализации компьютерных технологий, проводимые по программам Академии наук Татарстана. Одно из направлений, способствующих включению татарского языка в новое информационное пространство - привлечение возможностей вычислительной техники для создания и изучения языковых моделей - позволяет разрабатывать машинный фонд татарского языка как информационно-справочную базу для разработки и эксплуатации обучающих программ, создания словарей и программ, ориентированных на обработку татарских текстов.
В настоящее время ведется работа по созданию и развитию машинных фондов языков многих народов России, что потребует у ученых-лингвистов больших затрат времени, сил и средств.
Библиографический список
Баранов, А Н.Введение в прикладную лингвистику: учебник / А. Н. Баранов; МГУ им. М.В. Ломоносова, Филол. фак. Изд. 3-е. Москва: Изд-во ЛКИ, 2007. 358 с. (Новый лингвистический учебник).
Герд, А.С.Прикладная лингвистика / А.С. Герд; С.-Петерб. гос. ун-т. - Санкт-Петербург: Изд-во С - Петербургского университета, 2005. 268 с.
Гринев-Гриневич, С. В.Терминоведение: учеб. пос. для студентов высших учебных заведений / С.В. Гринев-Гриневич. Москва: Академия, 2008. - 303 с. - (Высшее профессиональное образование. Филология).
Зубов, А.В.Информационные технологии в лингвистике: учеб. пос. для студентов вузов, обучающихся по спец. 021800 Теорет. и прикл. лингвистика / А.В. Зубов, И.И. Зубова. М.:Academia, 2004. 208 с. (Высшее профессиональное образование. Языкознание).
Лейчнк, В.М.Терминоведение: предмет, метод, структура / В. М. Лейчик. Изд. 4-е. М.:URSS, 2009. 255 с.
Селегей, В. Электронные словари и компьютерная лексикография / В-. Селегей // Ассоциация лексикографов Lingvo [Электронный ресурс]. Режим доступа:http://ww'w.lingvoda.ru/translorum/articlcs/selegey_al asp. Дата доступа: 15.09.2009.
Соснина. Е.П. Введение в прикладную лингвистику: учеб. пос. по курсу «Ввел, в прикладную лингвистику» для студентов направлении «Лингвистика» / Е.П. Соснина ; М-во образования РФ, Ульян, гос. техн. ун-т. Ульяновск: УлГГУ, 2000. 46 с.
The Association for Computational Linguistics; http://www.aclweb.org/
Международная конференция no компьютерной лингвистике «Диалог»;http://www.dialog-21.ru/
ОГЛАВЛЕНИЕ