корпусная лингвистика

.rtf

Скачиваний:

Добавлен:

30.05.2015

Размер:

106.77 Кб

Скачать

☆

<<< < Предыдущая 12 / 22

Как правило, корпус снабжен специальным поисковым интерфейсом, позволяющим искать необходимые фрагменты текста по заданным параметрам (например, множество текстов одного жанра или автора, множество строчек или предложений, в которых встретилось конкретное слово или словосочетание, множество существительных в родительном падеже и т.п.)

Сейчас корпуса создаются и размещаются в электронном виде.

Лингвистический корпус является одним из центральных понятий корпусной лингвистики, а также используется как инструмент для разработки и настройки различных автоматизированных систем (машинный перевод, распознавание речи, информационный поиск), для обучения языку и в лексикографических целях. Как массив языковых данных, корпус противостоит электронной библиотеке. В отличие от текстов электронной библиотеки, тексты в корпусе являются не полноценными произведениями, а образцами текстов. Благодаря наличию разметки и поискового интерфейса корпус позволяет создавать выборки для последующего анализа их с помощью статистических методов.

Корпусы текстов делятся:

– по модусу (на письменные, речевые и смешанные),

– по языку текстов (на русские, английские и т.п.),

Корпус может содержать тексты одного языка (одноязычные корпусы) или нескольких языков (многоязычные корпусы). Многоязычные корпусы, которые были созданы специально для сопоставительного сравнения, называют параллельными корпусами.

– по параллельности (на одноязычные, двуязычные и многоязычные),

– по доступности (на свободно доступные, коммерческие, закрытые),

– по назначению (на исследовательские, иллюстративные),

– по динамичности (на динамические (мониторные) и статические),

– по объёму текстов (на полнотекстовые и «фрагментнотекстовые»),

– на синхронические и диахронические.

Корпусы, представляющие некоторую часть языка (стиль, жанр, язык определённого писателя и т.п.) или созданные специально для изучения конкретной проблемы или проверки гипотезы, называются проблемными.

– Национальный корпус русского языка http://ruscorpora.ru/,

– British National Corpus http://www.natcorp.ox.ac.uk/,

– International Corpus of English http://ice-corpora.net/ice/,

– Чешский национальный корпус http://ucnk.ff.cuni.cz/.

В лингвистике, кóрпус (во множественном числе допустимы две формы: кóрпусы и корпусá) — подобранная и обработанная по определённым правилам совокупность текстов, используемых в качестве базы для исследования языка.

Чтобы сделать корпусы более полезными для лингвистических исследований, они подвергаются разметке (аннотации). Примером этого может быть морфологическая разметка, которая производится с помощью специальных программ автоматического морфологического анализа.

К некоторым корпусам применяются дальнейшие структурные уровни анализа. В частности, некоторые небольшие корпусы могут быть полностью синтаксически размечены. Такие корпусы обычно называют глубоко аннотированными или синтаксическими, а сама синтаксическая структура при этом является деревом зависимостей. Сложность обеспечения целого корпуса разметкой подразумевает, что такие корпусы чаще всего меньше и содержат примерно от одного до трёх миллионов слов. Возможны и другие уровни лингвистического структурного анализа, включая аннотацию морфологии, семантики и прагматики.

<<< < Предыдущая 12 / 22

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]

#
10.09.20191.78 Mб3Концепция_интернет_проекта.doc
#
12.08.2019600.58 Кб1Копия Histoire de France.Шарафутдинова.doc
#
17.11.2019165.89 Кб5Копия методичка Курсовая.doc
#
17.12.2018232.96 Кб6Копия политология.doc
#
03.05.2019797.18 Кб5Копия шп.doc
#
30.05.2015106.77 Кб70корпусная лингвистика.rtf
#
30.05.20151.3 Mб138Костюк - Основы программирования.pdf
#
30.05.20159.03 Mб311КП(вопросы,ответы).doc
#
15.04.2019328.19 Кб10кп-шка.doc
#
13.11.2019442.88 Кб9КПЗС.doc
#
17.04.20191.51 Mб12КПРФ.doc