корпусная лингвистика
.rtfКак правило, корпус снабжен специальным поисковым интерфейсом, позволяющим искать необходимые фрагменты текста по заданным параметрам (например, множество текстов одного жанра или автора, множество строчек или предложений, в которых встретилось конкретное слово или словосочетание, множество существительных в родительном падеже и т.п.)
Сейчас корпуса создаются и размещаются в электронном виде.
Лингвистический корпус является одним из центральных понятий корпусной лингвистики, а также используется как инструмент для разработки и настройки различных автоматизированных систем (машинный перевод, распознавание речи, информационный поиск), для обучения языку и в лексикографических целях. Как массив языковых данных, корпус противостоит электронной библиотеке. В отличие от текстов электронной библиотеки, тексты в корпусе являются не полноценными произведениями, а образцами текстов. Благодаря наличию разметки и поискового интерфейса корпус позволяет создавать выборки для последующего анализа их с помощью статистических методов.
Корпусы текстов делятся:
– по модусу (на письменные, речевые и смешанные),
– по языку текстов (на русские, английские и т.п.),
Корпус может содержать тексты одного языка (одноязычные корпусы) или нескольких языков (многоязычные корпусы). Многоязычные корпусы, которые были созданы специально для сопоставительного сравнения, называют параллельными корпусами.
– по параллельности (на одноязычные, двуязычные и многоязычные),
– по доступности (на свободно доступные, коммерческие, закрытые),
– по назначению (на исследовательские, иллюстративные),
– по динамичности (на динамические (мониторные) и статические),
– по объёму текстов (на полнотекстовые и «фрагментнотекстовые»),
– на синхронические и диахронические.
Корпусы, представляющие некоторую часть языка (стиль, жанр, язык определённого писателя и т.п.) или созданные специально для изучения конкретной проблемы или проверки гипотезы, называются проблемными.
– Национальный корпус русского языка http://ruscorpora.ru/,
– British National Corpus http://www.natcorp.ox.ac.uk/,
– International Corpus of English http://ice-corpora.net/ice/,
– Чешский национальный корпус http://ucnk.ff.cuni.cz/.
IV
В лингвистике, кóрпус (во множественном числе допустимы две формы: кóрпусы и корпусá) — подобранная и обработанная по определённым правилам совокупность текстов, используемых в качестве базы для исследования языка.
Чтобы сделать корпусы более полезными для лингвистических исследований, они подвергаются разметке (аннотации). Примером этого может быть морфологическая разметка, которая производится с помощью специальных программ автоматического морфологического анализа.
К некоторым корпусам применяются дальнейшие структурные уровни анализа. В частности, некоторые небольшие корпусы могут быть полностью синтаксически размечены. Такие корпусы обычно называют глубоко аннотированными или синтаксическими, а сама синтаксическая структура при этом является деревом зависимостей. Сложность обеспечения целого корпуса разметкой подразумевает, что такие корпусы чаще всего меньше и содержат примерно от одного до трёх миллионов слов. Возможны и другие уровни лингвистического структурного анализа, включая аннотацию морфологии, семантики и прагматики.