Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Лекция Лексикография.doc
Скачиваний:
72
Добавлен:
26.03.2015
Размер:
138.24 Кб
Скачать

Машинные фонды национальных языков (национальные корпуса зарубежных стран).

Концепция машинных фондов начала разрабатываться в 70-80х гг. ХХ века.

Машинный фонд (корпус) – сложная иерархическая разветвленная автоматическая система, способная решать как информационно-поисковые, так и исследовательские лингвистические задачи.

Первоначально основными составляющими МФ являлись словарные ресурсы, отдельные тематические коллекции текстов, а также достаточно ограниченный программный инструментарий.

В МФ хранятся все типы текстов, начиная с самых древних. Фонды охватывают десятки словоупотреблений. Эту информацию можно использовать в различных целях, но в т.ч. для составления словарей.

Корпусная лингвистика – новое направление лингвистической науки. В основном развита в Великобритании, Германии и США.

Корпус – полнотекстовая БД, имеющая ряд модулей, например, словарный, документально-фактографический и т.д.

Неотъемлемая часть понятия «корпус текста» - корпус-менеджер. Это система управления текстовыми лингвистическими данными. Это специальная система, включающая программные средства для поиска данных в корпусе, для получения статистической информации и предоставления ее пользователю в удобной форме.

Также важный параметр организации любого корпуса – это аннотация, или разметка, т.е. наличие в составе текста специальных меток, описывающих как сами тексты, так и их единицы, относящиеся к различным языковым уровням.

В национальном корпусе ресского языка сегодня разработаны 5 типов разметки:

  1. Метатекстовая

  2. Морфологическая

  3. Акцентная

  4. Синтаксическая

  5. Семантическая

Создание национальных корпусов базовых государственных языков ведущих стран мира возведено в ранг важных политических и культурно-исторических мероприятий. Государства тратят на это огромные средства.

Мировым эталонным корпусом языков является Великобритания. В XXI веке среди лучших – японский и французский корпуса.

Национальный корпус – грандиозное собрание всех типов и видов информации; это внедрения уникальной программы по ее обработке, классификации и анализу перерыва.

Основные вехи создания компьютерных корпусов.

В 60е гг. был создан брауновский корпус в США (1 млн слов)

70е – ланкастерско-ослобергенский корпус (1 млн слов)

80е – началась работа над МФ русского языка (1 млн слов)

80е – в Швеции упсольский корпус русского языка

Кон. 80х – бирмингемский корпус (20 млн слов)

90е – британский национальный корпус (100 млн слов);

Венгерский, итальянский, хорватский, чешский, японский национальные корпуса (100 млн слов);

Бирмингемский корпус нарастили до 600 млн слов.

2000е – американский национальный корпус (100 млн слов);

Gigaword Corpora (англ., китайский, арабский) – 1 млрд слов.

В МФ русского языка есть богачайший материал в виде тексовых и звуковых документов.

Начал создаваться в в 1985 в Институте русского языка РАН по инициативе академика Ершова.

Много различных программ – программа создания и использования автоматических словарей, программы ведения лексикографических БД и автоматизации словарных работ.

Большое внимание уделялось терминоведению, а также автоматической обработке текста на ествественном языке.

В России наиболее хорошо развиты башкирский и татарский национальные фонды.

С 2005г в Институте истории языка и литературы уфимского научного центра РАН + в интернет-центре башкирского гос. Университета.

Доступен в интернете для широкого круга пользователей.

≈40 онлайн-словарей башкирского языка.

Татарский сектор разрабатывается РАН Татарстана.

Создаются словари и программы, ориентированные на обработку текстов.