Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
informatika 1 курс.docx
Скачиваний:
7
Добавлен:
19.03.2016
Размер:
49.23 Кб
Скачать

1!Корпусная лингвитсика:поисковые и аналитические возможности

1)лингв. корпуса как источники информации о языке, их практическое использование. Раздел языкознания, занимающийся разработкой и использованием текстовых и лингвистических корпусов. Лингвистический корпус – это совокупность текстов, собранных по определенным признакам, размещенных по определенному стандарту и снабженных специализированной поисковой системой. Целесообразность создания лингвистических корпусов объясняется: -представлением лингвистических данных в реальном контексте; -достаточно большой репрезентативностью данных; -возможностью многократного использования корпуса для решения различных лингвистических задач. В лексикологии корпуса используются для составления различных словарей, определения значений многозначных слов, выявления ассоциативных связей слов в тексте т т.д. В грамматике. Для определения частности употребления различных грамматических морфем, типов словосочетаний и предложений, частоты употребления классов слов. В лингвистике текста. Для дифференциации типов текстов; выявления связей между предложениями в абзацах; между абзацами. При автоматическом переводе текстов, для поиска контекста слов, имеющих несколько переводных эквивалентов. Для поиска эквивалентов параллельных текстов. В учебных целях. Для выбора цитат, примеров (при составлении сообщений и прочего), при создании учебников и учебных пособий. В программировании. Корпус служит своеобразным полигоном, на котором проверяется эффективность работы компьютерных программ. 2)История лингв. корпусов. 1-ый большой комп. корпус был создан в 1962-1963г.г. Американский вариант английского языка. Под руководством У. Френсиса в университете Брауна, США. Содержал 500 фрагментов текстов по 2 тыс. слов в каждом. В результате был задан стандарт в 1 млн. словоупотреблений для создания корпусов на других языках. Размер в 1 млн. слов – не достаточен для лексикографического описания слов. 20 век. 80-е г.г. было предпринято несколько попыток для создания корпусов большего объема. ( Британия – Bank of English; British National корпус). В настоящ. время корпуса существуют для немецкого, польского, чешского, словенского, финского, норвежского, армянского, китайского, японского, русского языков. 3)Принципы отбора и обработки материала в языковых корпусах. Создание корпусов: отбор текстов; разработка средств кодирования; средства поиска внутри БД. Т.к.собрать все тексты языка невозможно, то при отборе текстов необходимо включить тексты самых разных жанров, а именно: художественная литература, СМИ, деловые документы, записи диалогов, телевизионные ток-шоу, переписку по электронной почте, Примеры употребления низкочастотной лексики. Такой подбор обеспечивает репрезентативность корпуса и показывает, как на самом деле функционирует язык в обществе. Включенные в корпус тексты получают специальную разметку/аннотацию, которая осуществляется в автоматическом режиме. Для этого исп. след. проги: -лемматизаторы (приводят словоформу в начальную форму); -part of speech tagers – указатели частей речи; -проги кластеризации.

4.Типы корпусов: С точки зрения использования наиболее значимыми считаются: 1) Исследовательские (создаются с целью изучения различных аспектов функционирования языка) 2) Иллюстративные – служат для подборки примеров, подтверждающие те или иные языковые факты, обнаруженные другими лингвистическими приемами 3) Статические – содержат тексты небольшого временного промежутка 4) Динамические – включают письменные источники большого временного периода и предназначены для проведения различных диохранических исследований 5) Одноязычные - если в корпус включены только тексты на одном языке 6) Многоязычные - объединение нескольких одноязычных с приблизительно одинаковой выборкой текстов как по жанру, так и по количеству 7) Параллельные корпуса, в которых включены тексты на языке оригинала с переводом на другой язык или языки 5.Современные корпуса текстов Национальные корпус русского языка ruscorpora.ru. Первый был создан Уппсалой, а хранится в Тюбингенском училище. В 2004 при Рос. Академии наук был разработан корпус русского языка, который включал 150 млн слов употребления и находится в стадии обработки. В корпус входит письменный и устные тексты; поэтические и диалектические тексты подкорпуса; корпуса параллельных текстов (рус-англ; англ-рус); акцентологические и синтаксические обучения языка На сегодняшний день используются 4 вида разметки: 1) Метотекстовая (толкование, объяснение) 2) Морфологическая (грамматическая информация) 3) Акцентная (ударение) 4) Семантическая6.Параллельные корпуса (bitext) Параллельный текст – совмещенный документ, состоящий из текстов на языке оригинала и его перевода на другой язык Большое собрание параллельных текстов называется параллельный корпус. В процессе перевода предложения в тексте могут разделяться, сливаться, удаляться, меняться местами, чтобы совместить начало предложения текста оригинала и текста перевода приходится прибегать к процедуре выравнивания. Для этого используются специальные программы – инструменты выравнивания - bitext tool Идея bitext принадлежит Бранку Хермсу в 1988 и позднее эта идея рассматривалась в Канаде в Монреале.

2!Компьютерная лексикография. 1. Лексикография: направления исследования и задачи. Лексикография- Т и П составления словарей. Делят на теоретическую и практическую. Задачи практической: 1. обеспечение обучения языку, как родному, так и иностранному. 2. разрабатывают языковую норму. 3. словари обеспечивают межъязыковое общение 4. на основе словарей проводится исследования в рамках теоретической лингвистики. Теоретические задачи: 1. разработка общей типологии словарей 2. разработка макроструктуры словаря. (отбор лексики, распределение словарных статей, включение или не включение иллюстраций) 3. разработка микроструктуры словаря. (решение о включении или не включении фонетической и грамматической информации, разработка условных знаков и спец. помет) 2.Типы словарей. Словарь- определенным образом организованное собрание слов с комментариями к ним. Помимо слов объектами словаря могут быть компоненты слов или целые словосочетания. Все словари делятся на 2 категории: энциклопедические и лингвистические. Энциклопедические словари- научные или научно-популярные издания, которые представляют собой систематический свод знаний в какой-либо области. Объект описания ЭС явл. понятия, термины, исторические события, персонажи, географические реалии, словники ЭС вкл или сущ. или сочетания с ними. Словарная статья ЭС содержит в основном экстралингвистическую информацию и сопр. иллюстрациями, фотографиями, схемами, или картами. ЭС делятся на универсальные (обо всем), отраслевые (мед. энцикл.), иногда- региональные. Лингвистические словари- объект описания: все лингв единицы языка. Вкл. все ч. речи. Критерии: 1. по количеству исп языков ЛС делятся на одно-, дву- и многоязычные словари. 2. в зависимости от целей описания выделяют толковые словари ( объясн знач слов), дескребтивные словари, цель- дать наиб полное описание лексики и все релевантные случаи ее употребления. Нормативные- задать литературную норму. 3. по характеру словника, словари делятся на общ и частн. (НАС- авт Евгеньева) Частные словари ограничиваются сферой использования языкового материала. По отношениям между единицами словаря выделяют словари синонимов, антонимов, паронимов. В словарях синонимах в 1 статью помещается весь синонимичные ряд. Толкование значений необязательно. Словари антонимов- пары слов с противоположным значением. Паронимические словари содержат слова с частичным звуковым сходством при их семантическом различии. Словари омонимов требуют толкования каждого значимого омонимичного слова. 4. словари, отражающие стилистические пласты лексики делятся на терминологические, диалектные, просторечий, арго. 5. по способу подачи материала: идеограф. ( не слова, а рисунки со смыслом), анологические( слова расп. не по алфавиту, а по смысл. ассоциациям). Обратные( слова расп. по алфавиту конечных букв) 6. по предполагаемому пользователю или адресату, для людей опред. категории. Учебные словари, словарь ошибок. Тезаурусы- особая разновидность словарей, в которой указаны отношения между лексическими единицами. В отличие от толкового словаря тезаурус позволяет выделять знач слова не по дефиниции(?), а по средствам соотнесения слова с другими понятиями и словами. Первый тезаурус 1852г. Англия- тезаурус Роже. Цель- помощь при написании сочинений. 3.Основные структурные компоненты словаря. Важнейшим компонентом любого словаря является его словник, куда вкл все единицы, входящ в область описания и явл входами словарных статей. Базовой единицей любого словаря является словарная статья. Это- отдельно взятый объект описания и относящийся к нему словарные характеристики. Одним их важных структурных компонентов словаря является указатель, или индекс, особенно у тезаурус, чтобы пользователь определил в какие таксоны(?), т.е. тематические группы входит то или иное слово. Профессионально сделанные словари включают вводную статью, где объясняется принцип пользования, список сокращений и алфавит.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]