Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Баранов_Введение в прикл лингв.doc
Скачиваний:
33
Добавлен:
05.11.2018
Размер:
2.83 Mб
Скачать

3.5. Заключение

К настоящему времени накоплен уже довольно значительный опыт построения корпусов текстов, однако информация о наличии корпусов в разных странах ограничена. Это существенно затрудняет проведение научных исследований и нередко приводит к дублированию работы. Сложность получения информации о существующих корпусах текстов связана с тем, что практически все они создаются по локальным проектам отдельными организациями. Международная координация усилий в этой области пока еще не налажена в должной мере.

Вторая проблема в области корпусной лингвистики связана с первой: локальность проектов приводит к возникновению различных форматов представления корпусов текстов. Отсутствие единого формата предста­вления дополняется и несовместимостью программного обеспечения.

В имеющихся описаниях корпусов нет ясной информации о содержа­тельных принципах отбора материала. Поскольку корпус является суже­нием проблемной области, то представительность корпуса прямо связана с принципами отбора материала. Если же нет уверенности в представи­тельности корпуса, его заведомо нельзя использовать для многих видов лингвистической деятельности, например, для оценки частоты употре­бления лексем в тех или иных значениях или для составления словников некоторой проблемной области. Необходимо разработать общепринятую процедуру сужения проблемной области до корпуса текстов. По-види­мому, таких процедур должно быть несколько, поскольку соотношение между корпусом и проблемной областью не является постоянной величи­ной и меняется в зависимости от характера проблемной области и задач исследования.

Необходимо проводить ясное разграничение между «исследователь­скими» корпусами и «иллюстративными» корпусами (первые создаются для изучения явления, а вторые — для иллюстрации установленных за­кономерностей). Очень часто требования, предъявляемые пользователем к исследовательскому корпусу текстов, по сути аналогичны требованиям для иллюстративных корпусов, при том что исследование еще не про­ведено.

Последовательное выполнение принципов построения корпусов тек­стов приводит к тому, что корпус может быть построен только после того, как уже завершена та работа, для которой он предназначается. Удел «сбор­щиков» корпусов — балансирование между этими крайностями — уже завершенной работой и необозримым множеством текстов проблемной области.

Основная литература

1. Баранов А. Н. Автоматизация лингвистических исследований: корпус текстов как лингвистическая проблема//Русистика сегодня. 1998 № 1-2. С. 179-191.

2 Баранов А. Н., Добровольский Д. О. Немецкая корпусная лингвистика // Вест­ник МГУ. Сер. Иностранные языки. 1998. № 1.

  1. Исаев И. А. Опыт автоматизации лексикографических исследований. Система DIALEX // Слово Достоевского. М., 1996.

  2. Михайлов М. Н. Компьютерное обеспечение корпуса текстов (взгляд пользо­вателя) // Русистика сегодня. 1998. № 1-2. С. 192-201.

  3. Мошкович Ж. Г. Автоматическая лексическая система Унилекс-2. М., 1989.

  4. Фрэнсис У. Н. Проблемы формирования и машинного представления большо­го корпуса текстов // Новое в зарубежной лингвистике. Вып. XIV Проблемы и методы лексикографии. М., 1983. С. 334-353.

Дополнительная литература

  1. Леннгрен Л., Ферм Л. Уппсальский машинный фонд русского языка // Труды машинного фонда русского языка. Т. 1. М., 1991.

  2. Renouf A. Corpus development at Birmingham University, Corpus linguistics. Recent developments in the use of computer corpora in English language research / Eds. Aarts J. & Meijs W. Amsterdam, 1984.

  3. WordCruncher. WC Index Text Retrieval Sofrware. Birgham Young University, 1989а.

  4. Word Cruncher. WC View Text Retrieval Sofrware. Birgham Young University, 1989b.