Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
КТОЯ 2.doc
Скачиваний:
19
Добавлен:
17.05.2015
Размер:
422.91 Кб
Скачать
      1. Зачем нужен национальный корпус?

Национальный корпус предназначен в первую очередь для обеспечения научных исследований лексики и грамматики языка, а также тонких, но непрерывных процессов языковых изменений, происходящих в языке на протяжении сравнительно небольших периодов — от одного до двух столетий. Другая задача корпуса — предоставление всевозможных справок, относящихся к указанным областям (лексика, грамматика, акцентология, история языка). Современные компьютерные технологии многократно упрощают и ускоряют процедуры лингвистической обработки больших массивов текстов. Раньше исследователь мог лишь просматривать тексты и вручную выписывать из них нужные примеры; эта предварительная (но абсолютно неизбежная) деятельность была очень трудоемкой и не позволяла обрабатывать большие массивы материала. Теперь ограничений на объем анализируемого материала и скорость поиска информации в нем по существу нет, а это означает, что в распоряжении исследователя оказываются колоссальные массивы текстов самого разного типа. Это не замедлило сказаться на развитии наших знаний о языке: возможность массовой — в том числе статистической — обработки текстов, недоступная прежде, позволила обнаружить в структуре и развитии языка такие закономерности, о существовании которых наука раньше или не подозревала, или лишь смутно догадывалась, но не могла строго обосновать. Теперь подлинно научные описания грамматического строя языков, а также авторитетные академические словари — практически все без исключений — должны составляться на основе корпусов этих языков. Учет корпусных данных оказывается крайне желательным (если не строго обязательным) и при многих других более специальных научных исследованиях.

С этой точки зрения основными потребителями национальных корпусов являются, конечно, исследователи-лингвисты самого разного профиля. Однако круг пользователей корпуса вовсе не ограничивается профессиональными исследователями языка. Надежные статистические данные о языке определенной эпохи или определенного автора могут интересовать литературоведов, историков и представителей многих других областей гуманитарного знания. Важное значение национальные корпуса имеют и для преподавания языка в качестве родного или иностранного; всё больше учебников и учебных программ в наше время оказываются ориентированы на корпус. Быстро и эффективно проверить с помощью корпуса особенности употребления незнакомого слова или грамматической формы у авторитетных авторов сможет и иностранец, и школьник, и учитель, и журналист, и редактор, и писатель. Таким образом, национальный корпус обращен ко всем, кто в силу профессии, по необходимости или из простой любознательности ищет ответ на вопросы об устройстве и функционировании языка, то есть фактически к большинству образованных носителей этого языка и ко всем, изучающим его в качестве иностранного.

      1. Как развивается Национальный корпус?

Национальный корпус русского языка охватывает прежде всего период от середины XVIII до начала XXI века: этот период представляет как язык предшествующих эпох, так и современный, в разных социолингвистических вариантах — литературном, разговорном, просторечном, отчасти диалектном. В корпус включаются оригинальные (непереводные) произведения художественной литературы (проза и драматургия, в дальнейшем также поэзия), имеющие культурную значимость, а также представляющие интерес с точки зрения языка. Но Национальный корпус ни в коей мере не является только корпусом языка художественной литературы. Помимо художественных текстов, в корпус в большом количестве включаются и другие образцы письменного (а для современного этапа — и устного) языка: мемуары, эссеистика, публицистика, научно-популярная и научная литература, публичные выступления, частная переписка, дневники, документы и т. п. 

Национальный корпус русского языка в настоящее время включает следующие подкорпуса:

глубоко аннотированный корпус, в котором для каждого предложения построена полная морфологическая и синтаксическая структура (дерево зависимостей);

параллельный русско-английский корпус текстов, в котором можно найти все переводы для определенного русского или английского слова или словосочетания;

корпус диалектных текстов, включающий запись диалектной речи различных регионов России с сохранением их грамматической специфики; предусмотрен специальный поиск с учётом диалектной морфологии;

корпус поэтических текстов, в котором возможен поиск не только по лексическим и грамматическим, но и по специфическим для стиха признакам (поиск определённого сочетания в сонетах, в эпиграммах, в стихотворениях, написанных амфибрахием, с определённым типом рифмовки и т. п.);

обучающий корпус русского языка — корпус со снятой омонимией, разметка которого ориентирована на школьную программу русского языка;

корпус устной речи - включает расшифровки магнитофонных записей публичной и частной устной речи, а также транскрипты кинофильмов 1930-2000-х годов.

Каждому слову и каждому тексту в Корпусе приписана лингвистическая аннотация на основе специального стандарта, разработанного при участии ведущих российских специалистов.

По мнению члена-корреспондента РАН А.М. Молдована, директора Института русского языка им. В.В.Виноградова РАН, «создание Национального корпуса русского языка является задачей поистине национального значения, поскольку большинство крупных языков мира уже располагают своими национальными корпусами текстов. Решение этой задачи восполняет лакуну в отечественном языкознании и переводит изучение и преподавание русского языка в качественно новые условия. Без преувеличения можно сказать, что с появлением Корпуса мы впервые получаем материальную базу для объективных и достоверных суждений о современном состоянии и путях развития русского языка».

Корпус предназначен для всех, кто интересуется вопросами, связанными с русским языком: профессиональных лингвистов, преподавателей языка, школьников и студентов, иностранцев, изучающих русский язык.

«Мы с удовольствием приняли участие в этом проекте, – говорит Илья Сегалович, технический директор Яндекса. – Грамматически аннотированный корпус есть не только способ изучения языка, но и важный общедоступный инструмент для создания и настройки программных средств, работающих с русскими текстами».

Размещенный на данном сайте Национальный корпус русского литературного языка задуман как универсальный инструмент, обеспечивающий более эффективную работу всех, кто связан по роду своей деятельности с современным русским литературным языком или просто интересуется состоянием и функционированием этого языка. Корпус должен влиться в семью уже существующих национальных корпусов других языков – таких, как British National Corpus, National American Corpus, Tresor de la langue francaise и др.

Корпус языка – это собрание определенным образом отобранных (с опорой на филологическую экспертизу) текстов на данном языке, которые введены в компьютер и хранятся в электронном виде, пригодные для поиска в них лексических, грамматических, стилистических единиц и явлений, интересующих пользователя.

Русский литературный язык – это язык, используемый в русской художественной литературе, публицистике, язык обучения и преподавания в начальных, средних и высших учебных заведениях, язык, на котором говорит образованная часть русского общества (не содержащий диалектизмов, просторечия и т.п.). В настоящий Национальный корпусе русского языка входят (пока) только письменные тексты (опубликованные признанными – официально зарегистрированными – издательствами).

Национальный корпус – это корпус, который обеспечивает максимально полное отражение лексики и грамматики языка. Настоящий Национальный корпус русского литературного языка отражает употребление слов, словоформ, грамматических конструкций, словосочетаний русского литературного языка, начиная с середины 20 в. и до настоящего времени. Полнота корпуса достигается тогда, когда отсутствие в нем слова, словоформы, грамматической конструкции, более или менее устойчивого словосочетания означает, что эти единицы или явления:

  • принадлежат к сугубо индивидуальному (присущему только лишь данному автору) словоупотреблению и не встречаются в текстах других авторов;

  • являются ошибкой, ненормативным употреблением;

  • являются анахронизмом, явно устаревшим словоупотреблением;

являются не ассимилированным (т.е. еще не вошедшим в русский язык)

Как мы уже говорили, на 12.05.2008 г. более 1 млн словоупотреблений. Это 218 текстов объемом от 105 до 13700 словоупотреблений, принадлежащих 180 авторам. Тексты примерно в равных объемах представляют художественную литературу (прозу), публицистику, драму, и научную (научно–популярную) литературу. В текстах все словоформы несут знак ударения; везде, где это необходимо, используется буква «ё». В перспективе предполагается довести объем Корпуса до 100 –150 млн словоупотреблений.

Цели и задачи Корпуса:

  • служить надежным источником фактического материала для составления словарей, грамматик, учебников, справочных пособий;

  • обеспечивать возможность проверки лингвистических гипотез на максимально представительном материале;

  • выполнять функции справочного пособия для выяснения вопросов о современном русском литературном словоупотреблении, т.е. служить эффективным помощником для всех, работающих со словом (лингвисты, литературоведы, журналисты, писатели, переводчики, преподаватели русского языка и др.);

  • служить базой для компьютерного моделирования речевой деятельности.

Поиск в Национальном корпусе русского литературного языка обеспечивается специальной программой, которая дает возможность:

  • обнаружить любое заданное слово (словоформу) во всех или специально оговоренных текстах;

  • при необходимости дать статистику употребления слова (словоформы) вообще или в определенных текстах, контекстах и т.д.;

  • устанавливать конкордансы – слова и словосочетания, употребляющиеся совместно с заданным словом (словоформой, словосочетанием);

  • выяснять любые статистические характеристики лексики и грамматики языка (например, устанавливать, сколько раз в текстах Льва Толстого, вошедших в состав Корпуса, встречается слово женщина в винительном падеже);

На базе Корпуса создан (частотный) словарь словоформ русского языка. Все без исключения словоформы как Корпуса, так и словаря снабжены набором морфологических дескрипторов, создающих морфологическую разметку словаря и текста.

Словарь словоформ – это словарь, единицей которого является словоформа, т.е. слово в той или иной грамматической форме, например, писал (глагол изъявительного накл., прош. вр., муж. р. , ед. ч. и т.п.). В словарь входят все и только те словоформы, которые находятся в текстах Корпуса. Во всех словоформах проставлено ударение; там, где в исходной публикации текста не использовалась буква ё, эта буква восстановлена. При каждой словоформе указан ее ранг частотности.

Морфологический дескриптор – это помета при словоформе текста или словаря, которая указывает на соответствующую грамматическую (морфологическую) характеристику словоформы, например, sg., т.е. «единственное число». Все морфологические дескрипторы имеют вид 2-4-буквенных сокращений, произведенных от соответствующих терминов английского языка. Для словоформ, принадлежащих к данной части речи, набор дескрипторов, используемых для характеристики словоформы, представляет собой множество постоянного состава. Например, хотя глаголы в настоящем/будущем времени не обладают формой рода, при них ставится помета «0» в соответствующей позиции описателя, а для глаголов в прошедшем времени «0» ставится в позиции пометы «лицо». Последовательность употребления символов, соответствующих дескрипторам, также всегда одна и та же. Если дескриптор не совместим с данной словоформой, его позиция в линейном перечне дескрипторов замещается «нулем».

Морфологическая разметка представляет собой приписывание каждому слову (каждой словоформе) как в словаре, так и в тексте набора морфологических дескрипторов. Морфологически идентичные словоформы обладают идентичными наборами морфологических дескрипторов. В перспективе предполагается введение синтаксической разметки.

Синтаксическая разметка – это отражение синтаксической структуры предложения в текстах путем, например, приписывания каждой словоформе или словосочетанию их синтаксической функции в терминах избранной синтаксической теории (например, 1-й актант, 2-й актант и т.д. для именных словоформ и конструкций).

Ранг частотности словоформы – это специальный индекс, который проставляется в словаре при каждой словоформе, указывая на частоту употребления данной словоформы в текстах Корпуса.

Конкорданс: первоначальное значение термина – перечень (обычно алфавитный) слов, входящих в текст или множество текстов (сочинения данного автора и т.п.), с указанием всех случаев употребления каждого слова в тексте/текстах. В корпусной лингвистике специальные программы-конкордансеры (в русской литературе иногда – программы-конкордансы) дают возможность установить контексты заданного типа и объема для любой языковой единицы, входящей в корпус; например, дать перечень всех слов, следующих за данной словоформой до конца предложения, во всех случаях употребления этой словоформы в одном, двух или всех текстах корпуса. Множество таких перечней также называют конкордансом.

Национальный корпус русского литературного языка задуман как представленный в электронной форме массив морфологически аннотированных текстов на русском литературном языке.

В настоящее время (апрель 2007 года) корпус содержит тексты со сбалансированным жанровым составом (художественная проза – не менее 30%, публицистика – не более 30%, научная литература (аналитика и обзоры, научно-популярная) – не более 20%, а также драматические произведения (как некоторое приближение к разговорному языку) – около 20%), насчитывающие чуть больше 1 млн. словоупотреблений. Во всех текстах восстановлена в правах буква "ё" и проставлены словесные ударения. В корпус включаются тексты с начала 50-х гг. XX века до настоящего времени.

Наличие Национального корпуса литературного русского языка – необходимая предпосылка для создания новой академической грамматики и академического словаря русского языка, которые послужили бы базой для разработки семейства грамматик и словарей разной ориентации, в том числе школьных, а также самых разных пособий и справочников. Национальный корпус русского литературного языка может служить пособием для исследователей, работающих в области грамматики, лексикографии, прикладной лингвистики, типологии с включением русского языка в качестве объекта исследования. Корпус будет также ценным источником информации для работников СМИ и тех, чья профессиональная деятельность нуждается в «языковой поддержке».

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]