Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
диплом.docx
Скачиваний:
12
Добавлен:
07.09.2019
Размер:
70.26 Кб
Скачать

1.8. Роль корпусной лингвистики в изучении концептов.

Корпусная лингвистика – это раздел прикладной лингвистики, занимающийся разработкой общих принципов построения и использованием лингвистических корпусов (корпусов текстов).

Одним из основных источников языкового материала, необходимого для проведения лингвистических и филологических исследований является текст, письменный или устный. На основе анализа множества текстов можно сделать вывод об интересующем исследователя языковом явлении, например, о поведении грамматической конструкции, использования выразительных средств в языке и т.п. Развитие вычислительной техники способствовало тому, что большое количество текстов стало доступно в электронном виде. Для того, чтобы можно было работать с такими объемами текстов, извлекая из них нужную информацию, во всем мире стали создаваться лингвистические корпусы, т.е. коллекции текстов, специально отобранных, размеченных по различным лингвистическим параметрам и обеспеченных системой поиска. Увеличение объема материала исследования потребовало применения новых методов анализа лингвистических данных, включая их статистическую обработку.

Таким образом, корпусная лингвистика включает два аспекта: во-первых, создание и разметка (аннотирование) корпусов текстов и разработка средств поиска по ним и, во-вторых, собственно лингвистический - экспериментальные исследования на базе корпусов.

Это относительно молодое и активно развивающееся направление, тесно связанное с компьютерной лингвистикой.

Возможность пользоваться обширными электронными ресурсами значительно облегчила процесс сбора материала в лингвистических исследованиях. Однако такая доступность языковых данных радикально изменила требования к доказательной базе лингвистических исследований: в наше время мало привести несколько экзотических примеров в подтверждение выдвигаемой концепции, необходимо представить достаточно полную выборку данных того или иного языка. Однако работать с мегабайтами «сырых» текстов не менее трудно, чем искать примеры вручную.

Необходимость и возможность обработки большого массива текстов для извлечения из них лингвистических, литературоведческих и др. данных обусловили бурный рост электронных ресурсов, включая лингвистически аннотированные корпуса текстов.

Использование корпусов текстов дает возможность наблюдать поведение интересующих исследователя языковых единиц (слов, словосочетаний, грамматических категорий, синтаксических конструкций и т.д.) в естественной языковой среде, т.е. в реально существующих, а не искусственно сконструированных контекстах.

Кроме того, корпусные исследования позволяют, используя статистические методы, сформулировать, подтвердить или опровергнуть некоторую гипотезу о том или ином языковом явлении на большом объеме материала.

При этом если исследователь пользуется уже существующим корпусом, он полностью минует долгий и трудоемкий этап сбора материала (опрос информантов, работа со словарными картотеками или письменными текстами и т.д.).

Для некоторых целей оказывается достаточным использование в качестве корпуса уже существующих электронных коллекций текстов, таких как виртуальные библиотеки, архивы электронных версий периодических изданий или новостных лент. Гигантским собранием текстов является весь Интернет. Существует даже такое направление исследований – Интернет как корпус. Однако поскольку тексты в сети не систематизированы и не имеют лингвистической аннотации (разметка корпуса) – что относится и к прочим виртуальным коллекциям текстов,— дать точную статистическую оценку всего множества или некоторого подмножества текстов затруднительно, поэтому и возникает потребность в структурированных и аннотированных лингвистических корпусах.

Практически все современные лингвистические исследования и работы по составлению словарей и грамматик так или иначе ориентированы на использование представительных корпусов текстов (ср., например, словари издательства Collins, создаваемые на базе электронного языкового корпуса Bank of English, насчитывающего более 2,5 миллиарда слов).

Создание и лингвистическое аннотирование (лингвистическая разметка) корпусов играет основополагающую роль в развитии современных технологий автоматической обработки текстов на естественном языке. Такие корпуса служат большой экспериментальной базой для разработки различных модулей автоматического лингвистического анализа. С одной стороны, наличие экспертной лингвистической разметки в корпусе позволяет оценить качество работы того или иного лингвистического модуля. Например, используя корпус с морфологической разметкой, где каждому слову из текста приписана его исходная форма и грамматические характеристики, можно проверить, насколько точно работает система автоматического морфологического анализа. С другой стороны, в современных системах автоматического анализа текстов (морфологических и синтаксических анализаторах и др.) используются различные методы машинного обучения. Для того чтобы это стало возможным, необходим большой обучающий корпус, содержащий "эталонную" разметку.

Одним из приоритетных направлений корпусной лингвистики является создание и расширение универсальных национальных корпусов (корпусов того или иного естественного языка), представительных по отношению ко всему языку, которые могут служить для исследования самых разнообразных явлений этого языка. Большинство языков мира уже имеют свои национальные корпуса. Общепризнанным образцом является, в частности, Британский национальный корпус (BNC). Среди корпусов славянских языков выделяется Чешский национальный корпус [1], созданный в Карловом университете Праги. Национальные корпуса существуют также для немецкого, китайского, финского и др. языков. Для русского языка таким представительным корпусом является Национальный корпус русского языка (НКРЯ)[2].

По мере создания все большего количества корпусов и развития различных технологий обработки текстовой информации вырабатывались некоторые универсальные принципы и языки разметки лингвистической информации в корпусе, создавались специальные инструменты для работы с корпусом на любом языке так называемые корпусные менеджеры. Выработка универсальных стандартов и технологий сделало возможным создавать большие представительные корпуса за очень короткий срок.

Взаимодействия пользователя с корпусом: поиск в корпусе в соответствии с запросом пользователя обеспечивается с помощью специальных программ - корпусных менеджеров. Они обеспечивают сортировку результатов поиска, статистические подсчеты, составление конкордансов и словников (списков слов, систематизированных некоторым образом) на основе корпуса.

Большинство современных корпусных менеджеров позволяют осуществлять поиск различного рода информации: поиск конкретных словоформ; поиск словоформ по лемме (поиск всех форм одной и той же лексемы, встретившихся в тексте); поиск неразрывных и разрывных словосочетаний. При наличии соответствующей разметки осуществляется поиск по набору морфологических признаков (например, поиск всех словосочетаний вида 'предлог по + существительное в предложном падеже') и др. информацию, соответствующую уровням лингвистической разметки, представленных в корпусе. Благодаря наличию метаразметки пользователь имеет возможность создавать свой подкорпус текстов, отобранных по жанру, тематике, времени написания и т.п. Результат выдачи представляет собой конкорданс (множество контекстов, в котором встретилось запрашиваемое языковое выражение). Каждый из примеров снабжается информацией об источнике, откуда взят пример. В ряде корпусов возможно также получить статистическую информацию о запрашиваемом языковом выражении: его относительную частоту по всему корпусу, распределение по жанрам или временным срезам, информацию о частоте его сочетаемости.

Несмотря на огромную популярность корпусной лингвистики, она находит и своих противников. Авторитетный американский лингвист Н. Хомский высказал следующее мнение: «Corpus linguistics doesn’t mean anything. It’s like saying <…> suppose physics and chemistry decide that instead of relying on experiments, what they’re going to do is [to] take videotapes of things happening in the world and they’ll collect huge videotapes of everything that’s happening and from that maybe they’ll come up with some generalizations or insights. Well, you know, sciences don’t do this» [4].

Сторонники данного радикального подхода признают правомерными методами изучения языка только лингвистический эксперимент (или, как его частный случай, эксперимент над самим собой, т.е. интроспекцию). Однако, существуют области, где интроспекция и эксперимент в принципе невозможны (например, история языка).

По сути, в корне этого спора извечный вопрос: «Что изучает лингвистика – язык или речь?». Неприятие корпусных методов основывается на убеждении, что лингвист изучает язык как систему, а не его конкретные проявления в речи, а корпус – не что иное, как собрание конкретных употреблений. Соответственно, сторонники изучения речи широко используют корпуса в своих исследованиях. Компромиссная точка зрения состоит в том, что задача лингвистики – изучение языка, но это невозможно без анализа его реализации в речи. Так и корпусные методы позволяют сделать выводы о феноменах языка, основываясь на конкретном речевом материале. Таким образом, корпусная лингвистика не является альтернативой традиционной лингвистике, а напротив, дополняет и обогащает ее.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]