Машинные фонды национальных языков (национальные корпуса зарубежных стран).

Концепция машинных фондов начала разрабатываться в 70-80х гг. ХХ века.

Машинный фонд (корпус) – сложная иерархическая разветвленная автоматическая система, способная решать как информационно-поисковые, так и исследовательские лингвистические задачи.

Первоначально основными составляющими МФ являлись словарные ресурсы, отдельные тематические коллекции текстов, а также достаточно ограниченный программный инструментарий.

В МФ хранятся все типы текстов, начиная с самых древних. Фонды охватывают десятки словоупотреблений. Эту информацию можно использовать в различных целях, но в т.ч. для составления словарей.

Корпусная лингвистика – новое направление лингвистической науки. В основном развита в Великобритании, Германии и США.

Корпус – полнотекстовая БД, имеющая ряд модулей, например, словарный, документально-фактографический и т.д.

Неотъемлемая часть понятия «корпус текста» - корпус-менеджер. Это система управления текстовыми лингвистическими данными. Это специальная система, включающая программные средства для поиска данных в корпусе, для получения статистической информации и предоставления ее пользователю в удобной форме.

Также важный параметр организации любого корпуса – это аннотация, или разметка, т.е. наличие в составе текста специальных меток, описывающих как сами тексты, так и их единицы, относящиеся к различным языковым уровням.

В национальном корпусе ресского языка сегодня разработаны 5 типов разметки:

Метатекстовая
Морфологическая
Акцентная
Синтаксическая
Семантическая

Создание национальных корпусов базовых государственных языков ведущих стран мира возведено в ранг важных политических и культурно-исторических мероприятий. Государства тратят на это огромные средства.

Мировым эталонным корпусом языков является Великобритания. В XXI веке среди лучших – японский и французский корпуса.

Национальный корпус – грандиозное собрание всех типов и видов информации; это внедрения уникальной программы по ее обработке, классификации и анализу перерыва.

Основные вехи создания компьютерных корпусов.

В 60е гг. был создан брауновский корпус в США (1 млн слов)

70е – ланкастерско-ослобергенский корпус (1 млн слов)

80е – началась работа над МФ русского языка (1 млн слов)

80е – в Швеции упсольский корпус русского языка

Кон. 80х – бирмингемский корпус (20 млн слов)

90е – британский национальный корпус (100 млн слов);

Венгерский, итальянский, хорватский, чешский, японский национальные корпуса (100 млн слов);

Бирмингемский корпус нарастили до 600 млн слов.

2000е – американский национальный корпус (100 млн слов);

Gigaword Corpora (англ., китайский, арабский) – 1 млрд слов.

В МФ русского языка есть богачайший материал в виде тексовых и звуковых документов.

Начал создаваться в в 1985 в Институте русского языка РАН по инициативе академика Ершова.

Много различных программ – программа создания и использования автоматических словарей, программы ведения лексикографических БД и автоматизации словарных работ.

Большое внимание уделялось терминоведению, а также автоматической обработке текста на ествественном языке.

В России наиболее хорошо развиты башкирский и татарский национальные фонды.

С 2005г в Институте истории языка и литературы уфимского научного центра РАН + в интернет-центре башкирского гос. Университета.

Доступен в интернете для широкого круга пользователей.

≈40 онлайн-словарей башкирского языка.

Татарский сектор разрабатывается РАН Татарстана.

Создаются словари и программы, ориентированные на обработку текстов.

<<< < Предыдущая 1 2 34 / 74 5 6 7 > Следующая >>>

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]

#
09.03.2016173.93 Кб12Лекция 3 Уравнения мат.физики.pdf
#
10.11.2018515.07 Кб1Лекция 5. Испр. спрос, предложение,эластичность....doc
#
26.03.201574.24 Кб44Лекция 9 Тема: VI. Основы алгебры логики.doc
#
26.03.2015153.6 Кб13Лекция IV. Трансляция выражений.doc
#
07.09.201932.32 Кб3ЛЕКЦИЯ Безопасность эксплуатации герметичных си...docx
#
26.03.2015138.24 Кб72Лекция Лексикография.doc
#
14.11.20183.26 Mб4Лекция по корелу 5.doc
#
26.03.20151.02 Mб30Лекция по растяжению-сжатию простая.doc
#
01.12.2018368.64 Кб3лекция ЭиМПТ-№15.doc
#
26.03.2015343.04 Кб21лекция ЭиМПТ-№15_дололнение=сам_изучение.doc
#
10.12.2018270.34 Кб8лекция ЭиМПТ-№16-заключительная.doc