Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

корпусная лингвистика

.rtf
Скачиваний:
70
Добавлен:
30.05.2015
Размер:
106.77 Кб
Скачать

Как правило, корпус снабжен специальным поисковым интерфейсом, позволяющим искать необходимые фрагменты текста по заданным параметрам (например, множество текстов одного жанра или автора, множество строчек или предложений, в которых встретилось конкретное слово или словосочетание, множество существительных в родительном падеже и т.п.)

Сейчас корпуса создаются и размещаются в электронном виде.

Лингвистический корпус является одним из центральных понятий корпусной лингвистики, а также используется как инструмент для разработки и настройки различных автоматизированных систем (машинный перевод, распознавание речи, информационный поиск), для обучения языку и в лексикографических целях. Как массив языковых данных, корпус противостоит электронной библиотеке. В отличие от текстов электронной библиотеки, тексты в корпусе являются не полноценными произведениями, а образцами текстов. Благодаря наличию разметки и поискового интерфейса корпус позволяет создавать выборки для последующего анализа их с помощью статистических методов.

Корпусы текстов делятся:

– по модусу (на письменные, речевые и смешанные),

– по языку текстов (на русские, английские и т.п.),

Корпус может содержать тексты одного языка (одноязычные корпусы) или нескольких языков (многоязычные корпусы). Многоязычные корпусы, которые были созданы специально для сопоставительного сравнения, называют параллельными корпусами.

– по параллельности (на одноязычные, двуязычные и многоязычные),

– по доступности (на свободно доступные, коммерческие, закрытые),

– по назначению (на исследовательские, иллюстративные),

– по динамичности (на динамические (мониторные) и статические),

– по объёму текстов (на полнотекстовые и «фрагментнотекстовые»),

– на синхронические и диахронические.

Корпусы, представляющие некоторую часть языка (стиль, жанр, язык определённого писателя и т.п.) или созданные специально для изучения конкретной проблемы или проверки гипотезы, называются проблемными.

– Национальный корпус русского языка http://ruscorpora.ru/,

– British National Corpus http://www.natcorp.ox.ac.uk/,

– International Corpus of English http://ice-corpora.net/ice/,

– Чешский национальный корпус http://ucnk.ff.cuni.cz/.

IV

В лингвистике, кóрпус (во множественном числе допустимы две формы: кóрпусы и корпусá) — подобранная и обработанная по определённым правилам совокупность текстов, используемых в качестве базы для исследования языка.

Чтобы сделать корпусы более полезными для лингвистических исследований, они подвергаются разметке (аннотации). Примером этого может быть морфологическая разметка, которая производится с помощью специальных программ автоматического морфологического анализа.

К некоторым корпусам применяются дальнейшие структурные уровни анализа. В частности, некоторые небольшие корпусы могут быть полностью синтаксически размечены. Такие корпусы обычно называют глубоко аннотированными или синтаксическими, а сама синтаксическая структура при этом является деревом зависимостей. Сложность обеспечения целого корпуса разметкой подразумевает, что такие корпусы чаще всего меньше и содержат примерно от одного до трёх миллионов слов. Возможны и другие уровни лингвистического структурного анализа, включая аннотацию морфологии, семантики и прагматики.