Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Булдакова - Компьютерная лексикография.docx
Скачиваний:
220
Добавлен:
26.03.2015
Размер:
58.24 Кб
Скачать

Тема 5. Машинные фонды национальных

ЯЗЫКОВ

Усложнение информационной структуры общества приводит к расширению новой виртуальной коммуникационной среды. С рас­пространением доступа к глобальной сети Интернет в создание информационных баз данных на основе обмена информацией во­влекается все большее число людей. Возникает необходимость создания программной поддержки для интеграции в мировое со­общество, в том числе и представителей различных этносов, наи­более актуальным в данном вопросе является внедрение нацио­нальных языков в компьютерные технологии.

Новые информационные технологии уже в 70-80 годах двадца­того века стали использоваться для реализации концепции машин­ного фонда национальных языков в различных странах. Фактиче­ски машинный фонд (корпус) представляет собой сложную иерар­хическую, разветвленную автоматизированную систему, способ­ную решать как информационно-поисковые, так и исследователь­ские лингвистические задачи. Однако, первоначально основными составляющими машинного фонда являлись словарные ресурсы, отдельные тематические коллекции текстов, а также достаточно ограниченный программный инструментарий, предназначенный для ведения коллекции.

В машинных фондах различных языков хранится информация о многих возможных зафиксированных единицах языка, начиная с древних текстов и до современных, включая научные и вообще все возможные типы текстов. Фонды должны охватывать десятки мил­лионов словоупотреблений. Накопленную таким образом инфор­мацию можно будет использовать для самых разнообразных целей.

К настоящему времени созданы языковые корпуса, включаю­щие разнообразные языковые базы данных. Корпусная лингвисти­ка - новое направление лингвистической науки, возникшее благо­даря развитию компьютерных технологий и исследующее пробле­мы создания компьютерных баз данных. В России основные ис­следования в этой области еще впереди. За рубежом - в Велико­британии, США, Германии, скандинавских странах исследования по теории корпусной лингвистики ведутся с 60-х годов прошлого столетия. Корпус текстов представляет множество упорядоченных между собой текстов естественного языка, обеспечивающих мате­риал для лингвистических исследований разного рода языковых аспектов и явлений, хранящихся на электронном носителе. Таким образом, корпус является полнотекстовой базой данных, форми­рующей один из модулей (составляющие модули: словарный, до­кументально-фактографический и объектно-характеристический) базы лексикографических данных словаря. Корпусная лингвистика имеет неоценимое значение для развития лингвистической науки. В настоящее время подлинно научные описания грамматического строя языков, а также авторитетные академические словари со­ставляются на основе корпусов этих языков. Таким образом, раз­вивается новое направление в лексикографии - корпусная лекси­кография.

Корпус текстов становится мощным инструментом в руках лингвиста лишь посредством специализированных средств. Неотъ­емлемой частью понятия «корпус текстов» является система управ­ления текстовыми и лингвистическими данными, которую в по­следнее время чаще всего называют корпусным менеджером (или корпус-менеджером) (англ. corpus manager). Корпусный менеджер - это специализированная поисковая система, включающая про­граммные средства для поиска данных в корпусе, получения стати­стической информации и предоставления результатов пользовате­лю в удобной форме. Также важный параметр организации любого корпуса - аннотация, или разметка, т.е. наличие в составе текстов специальных меток, описывающих как сами тексты, так и их еди­ницы, относящиеся к различным языковым уровням. Как извест­но, чем богаче и разнообразнее разметка, тем выше научная и учебная ценность корпуса. В Национальном корпусе русского язы­ка сегодня разработаны пять типов разметки: метатекстовая, мор­фологическая, акцентная, синтаксическая и семантическая.

Создание национальных корпусов базовых государственных языков ведущих стран мира возведено в ранг важных историко- культурных и политических мероприятий современности. На эти цели во многих зарубежных государствах тратятся огромные сред­ства. И в России в полной мере встает проблема создания этого языкового инструмента, представляющего государственный язык во всем его богатстве, многообразии стилей, жанров, только ему присущих особенностей, причем в удобной для использования со­временной форме.

Мировым эталонным образцом Национального корпуса счита­ется британский. Среди лучших можно выделить японский и французский национальные корпуса. Самые большие по объему корпуса объединяют несколько сотен миллионов словоупотребле­ний. Национальный корпус русского языка планируется вывести на уровень более 200 миллионов лексических единиц. Суть нацио­нального корпуса - в его принципиальном отличии от тематиче­ских коллекций текстов или «библиотек» разного типа, в изобилии представленных в Интернете. Национальный корпус языка - это, во-первых, грандиозное по масштабам собрание всех типов и ви­дов информации на конкретном языке и, во-вторых, внедрение уникальной программы по ее обработке, классификации и анализу по заданным параметрам.

Основные вехи создания компьютерных корпусов:

1960-е г.г.: Брауновский корпус, (США), 1 млн. слов; 1970-е г.г.: Ланкастерско-Осло-Бергенский (LOB) корпус (Великобрита­ния, Норвегия), 1 млн. слов; 1980-е г.г.: Машинный Фонд русского языка, Уппсальский корпус русского языка (Швеция), 1 млн. слов,TheBankofEnglish,Birmingham, 20 млн. слов; 1990-е г.г.:BritishNationalCorpus, 100 млн. слов, национальные корпуса (венгерский, итальянский, хорватский, чешский, японский) объемом 100 млн. слов,TheBankofEnglish,Birmingham, 600 млн. слов; 2000-е г.г.:AmericanNationalCorpus, 100 млн. слов,Gigawordcorpora: англий­ский, арабский, китайский языки, 1 млрд. слов.

В Машинном фонде русского языка хранится богатейший ма­териал по русскому языку в виде текстовых и звуковых файлов. Он начал создаваться в Институте русского языка Российской Акаде­мии Наук по инициативе А.П. Ершова в 1985 г. Важным результа­том работы отдела Машинного фонда явилось развитие приклад­ных направлений (лексикография, терминоведение, автоматическая обработка данных на естественном языке) как составной части академической русистики, являющихся, с одной стороны, провод­ником результатов фундаментальных исследований в практику, а с другой - источником новых идей и данных для фундаментальной науки. В Машинном фонде русского языка разработаны программ­ные средства первичной обработки источников: программы созда­ния и использования автоматических конкордансов, программы ведения лексикографических баз данных и автоматизации словар­ных работ и др.

Информационные технологии Машинного фонда русского языка - это методы, алгоритмы и инструментальные программные средства организации, проведения и исследования естественно­языковых знаний, примерами которых являются: частотный анализ текстов и словарей, методика ассоциативного эксперимента, раз­личные алгоритмы построения конкордансов, методы получения системных выборок языковых единиц из источниковых корпусов и др.

Башкирский язык стал вторым языком России после русского, имеющим собственный машинный фонд, который теперь доступен в Интернете. Работу по его созданию ведут с 2005 года в Институ­те истории, языка и литературы (ИИЯЛ) Уфимского научного цен­тра РАН и Интернет - Центре Башкирского государственного уни­верситета. Фонд может быть полезен не только лингвистам, но и широкому кругу людей. Так, к примеру, лексикографическая база машинного фонда состоит из 33 словарей башкирского языка, и любой пользователь Интернета может с ними работать в режиме «он-лайн». В базу включены общефилологические, а также спе­циализированные словари и справочники. В машинный фонд включена генеральная картотека башкирского языка, включающая в себя 2 млн единиц.

Также достаточно активно происходит в настоящее время ста­новление и развитие татарского этнического сектора сети Интер­нет, немалое значение для этого процесса имеют научно- практические исследования в области национальной локализации компьютерных технологий, проводимые по программам Академии наук Татарстана. Одно из направлений, способствующих включе­нию татарского языка в новое информационное пространство - привлечение возможностей вычислительной техники для создания и изучения языковых моделей - позволяет разрабатывать машин­ный фонд татарского языка как информационно-справочную базу для разработки и эксплуатации обучающих программ, создания словарей и программ, ориентированных на обработку татарских текстов.

В настоящее время ведется работа по созданию и развитию машинных фондов языков многих народов России, что потребует у ученых-лингвистов больших затрат времени, сил и средств.

Библиографический список

  1. Баранов, А Н.Введение в прикладную лингвистику: учебник / А. Н. Ба­ранов; МГУ им. М.В. Ломоносова, Филол. фак. Изд. 3-е. Москва: Изд-во ЛКИ, 2007. 358 с. (Новый лингвистический учебник).

  2. Герд, А.С.Прикладная лингвистика / А.С. Герд; С.-Петерб. гос. ун-т. - Санкт-Петербург: Изд-во С - Петербургского университета, 2005. 268 с.

  3. Гринев-Гриневич, С. В.Терминоведение: учеб. пос. для студентов выс­ших учебных заведений / С.В. Гринев-Гриневич. Москва: Академия, 2008. - 303 с. - (Высшее профессиональное образование. Филология).

  4. Зубов, А.В.Информационные технологии в лингвистике: учеб. пос. для студентов вузов, обучающихся по спец. 021800 Теорет. и прикл. лингвистика / А.В. Зубов, И.И. Зубова. М.:Academia, 2004. 208 с. (Высшее профессиональное образование. Языкознание).

  5. Лейчнк, В.М.Терминоведение: предмет, метод, структура / В. М. Лейчик. Изд. 4-е. М.:URSS, 2009. 255 с.

  6. Селегей, В. Электронные словари и компьютерная лексикография / В-. Селегей // Ассоциация лексикографов Lingvo [Электронный ресурс]. Режим дос­тупа:http://ww'w.lingvoda.ru/translorum/articlcs/selegey_al asp. Дата доступа: 15.09.2009.

  7. Соснина. Е.П. Введение в прикладную лингвистику: учеб. пос. по курсу «Ввел, в прикладную лингвистику» для студентов направлении «Лингвистика» / Е.П. Соснина ; М-во образования РФ, Ульян, гос. техн. ун-т. Ульяновск: УлГГУ, 2000. 46 с.

  8. The Association for Computational Linguistics; http://www.aclweb.org/

  9. Международная конференция no компьютерной лингвистике «Диалог»;http://www.dialog-21.ru/

ОГЛАВЛЕНИЕ

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]