Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
11-15.doc
Скачиваний:
8
Добавлен:
14.08.2019
Размер:
105.47 Кб
Скачать

13. «Новый объяснительный словарь синонимов ря» (рук. Ю.Д. Апресян) как словарь нового типа, отражающий системные связи лексики.

Синонимический словарь русского яза — «Новый объяснительный словарь синонимов РЯ» (создавался с 1990г). Задумывался как словарь нового типа, подобных ему лексикограф. практика ещё не знала. Для него была разработана подробная схема описания синонимич. рядов, где каждый элемент ряда характериз-ся с точки зрения семантики, синтаксиса, сочетаемости и др. свойств (описание синонимич. ряда в словаре занимает несколько страниц убористого шрифта, а не несколько строчек, как раньше в традиц. синонимич. словарях «школьного» типа). В словаре собрано и обобщено max количество инфо о языковом поведении русских синонимов. Второе издание (2004) - учтены критические отзывы, внесено много исправлений.

Вкладом Апресяна в лексикологич. теорию является и его концепция «системной лексикографии», ключевую роль в которой играют понятия «лексикограф. типа» и «лексикограф. портрета»; эти понятия отражают как результаты лексикограф. классиф. слов по определённым свойствам («тип»), так и результаты выявления индивид-ных особ-тей слова («портрет»).

По Апресяну:

Интегральное описание яза - это такое лингв. описание, в котором грамм-ка и словарь согласованы друг с другом по типам помещаемой в них инфо и по формальн. язам ее записи. Грамм-ка и словарь настроены друг на друга и способны к информ. взаимод.

Словарная статья каждой лексемы должна в явном виде содержать всю лингв-кую инфо, обращения к которой могут требовать правила грамм-ки.

Любой словарь предполагает:

  1. построение лексикографического портрета слова – это синтез словаря и грамматики: должна быть необходимая грамм-кая инфо, чтобы понять, как оно употребляется в текстах, указать тип лексем (чтобы использовать слово в правилах). Т.е. должно быть толкование, грамм. и стилистическая инфо.

  2. построение типизации, лексикографических типов, группировка лексики в крупный класс. Толкование должно быть структурировано.

  3. современная лексикография учитывает функции слова в тексте, большем, чем предложение – метатекст, должны быть описаны функции слов наподобие «во-первых», «во-вторых»…

  4. активность словаря – отражение всех уровней языковой структуры на синтез.

  5. параметризация словаря – указание всех признаков, которые используются в словаре.

14. Частотные словари. Их создание и использование. Специфика инфо, содержащейся в частотных словарях. Строение словарной статьи частотного словаря.

Лексические зоны частотного словаря.

Часто́тный слова́рь (или частотный список) — набор слов данного яза (или подъяза) вместе с инфой о частоте их встречаемости.

Словарь может быть отсортирован:

1)по частоте,

2)по алфавиту (для каждого слова будет указана его частота),

3)по группам слов (#первая тысяча наиб.частотных слов, вторая и т. п.),

4)по типичности (слова, частотные для больш-ва текстов).

Использ-ся для преподавания яза, создания новых словарей, приложений компьют. лингв-ки, исследований в области лингв-кой типологии, и т. д.

Построение частотных списков:

Обычно ЧС строятся на основе корпусов текстов: берется набор текстов, представительный для яза в целом, для некоторой предметной области или данного автора (#ЧС Грибоедова) и из него извлекаются словоформы, леммы и части речи (последние - в случае, если корпус имеет морфологич. разметку).

Проблемы при создании ЧС:

1)воспроизводимость (будут ли результаты идентичны на другом аналогичном корпусе),

2)всплески частоты отдельн. слов(частота слова в 1м тексте может повл. на его позиц в ЧС)

3)сложности определения позиции менее частотных слов(не дает возможности ранжировать их рационально; #слово «белиберда» входит в 20 тысяч наиболее частотных слов, слово «хрюкнуть» - за пределами списка первых 40 тысяч.

Все эти проблемы связаны с тем, что со статистич. точки зрения язык - большое количество редких событий (Закон Ципфа): небольшое количество слов встречается очень часто, а подавляющее большинство слов имеют очень невысокую частоту. #Частота слова «и» (самое частотное слово РЯ) примерно в 10 раз выше частоты слова «о», которое встречается в 100 раз чаще таких слов как путешествие, старость или мода.

Для описания всплесков частоты можно использовать метафору хоббита: если несколько текстов в корпусе о хоббитах, то это слово будет употребл. почти в каждом предложении. В результате его частота в этих текстах будет сравнима с частотой служебных слов, и в ЧСп большого корпуса, в который входят такие тексты, это слово будет иметь неправдоп. высокий ранг. Такие всплески частоты можно оценивать с помощью коэфф. вариации: отношения стандартного отклонения к средней частоте.

Сравнение корпусов.

ЧС обеспечивают возможность сравнить два корпуса, чтобы определить слова, наиболее характерные для каждого из них. Размеры корпусов могут быть различны, поэтому более надёжная оценка частоты слов основывается на приведении их к чмс (частота на миллион словоформ, ipm, instances per million words). Слово «и» имеет частоту около 30000 чмс, слово «старость» — около 30.

Для определения набора ключевых слов, отличающих один корпус от другого можно использовать разные статистич. меры: хи-квадрат, отношение правдоподобия и т. п.

В частотных словарях указывается частота употребления слов в специально сформир. представительной выборке текстов. Для РЯ наиболее известны: «ЧС РЯ Засориной» (1977) и «ЧC современного русского лит-ного яза Штейнфельдт (1963); первый — ЧС РЯ Йосельсона (1953), США. Словарь Засориной (40 тыс. слов) составлен на основе обработки примерно одного миллиона словоупотреблен. ЧС широко исп-ся в сфере прикладной лингв-ки. #при установлении авторства текста, при разработке компьютерных программ проверки орфографии.

Лемматизация - приведение всех словоформ к их словарной форме, #формы «были», «буду», «бывший» приведены к форме «быть».

#пример частотного списка на основе НКРЯ: три колонки: существительные, глаголы, прилагательные: (частота-слово) 2369-человек, 8900-быть, 263-белый.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]