- •1 Этап: Выбор материала-корпуса яз-ых данных.
- •2 Этап: Выбор концепт-ой перем-ой и опред-ие ее знач-ий – яз-ых репрезентантов в тексте
- •3 Этап: Выбор ед-цы кодирования
- •4 Этап: Отбор кодировщиков и формулировка инструкций по кодирования
- •5 Этап. Кодировка данных
- •6 Этап.
- •4. Переведите предложения. Сравните морфемную и словообразовательную структуру выделенных слов. Объясните, как эти слова образованы.
- •5. Распределите по шкале линейно-синтагматической свободы следующие морфологические единицы: над рекой, щик, бы, сад, саду, я, при, вы, лесов, лесу, в лесу, он, и, лес, ник
- •6. Выявите, представьте в графическом виде и объясните иерархическую структуру текста.
- •7. Выделите тему и рему
- •8. Объясните, почему представленный рассказ Даниила Хармса «Встреча» из цикла «Случаи» является аномальным? Какие принципы построения дискурса нарушены?
- •9. Исходные данные: текст.
- •13. Сколько значений слова банк представлено в следующих примерах? Выделите эти значения, дайте соответствующие им краткие толкования и опишите их, как они связаны между собой.
- •14. Исходные данные: 2 текста
- •16. Исходные данные: Таблица распределения терминов в трех текстах.
- •17. Проведите сравнительный анализ двух словарей (словарная статья – politics, policy).
- •18. Провести сравнительный анализ bns и нкря.
- •19. Проведите лексикографический анализ словаря.
- •20. Ниже даны предложенные на языке Самоа (остров на юге Тихого океана) и соответствующие им предложения на английском:
16. Исходные данные: Таблица распределения терминов в трех текстах.
Программные средства: Excel
Задание: Вычислить весовые коэффициенты терминов в трех текстах по формуле
[Решение задачи:
Открыть таблицу д/TF*IDF
tfij – частотность терминов; N – количество всех документов (3); n – количество документов, где термин t встречается хотя бы 1 раз
N = n – коэффициент нулевой.
Stop-слова получают нулевой коэффициент. Те слова, что отражают смысл текста получат высокие коэффициенты]
17. Проведите сравнительный анализ двух словарей (словарная статья – politics, policy).
[Решение задачи:
слово, транскрипция, дефиниция (обычно сначала как сущ., может приводиться мн.ч. слова, значения, примеры использования), фразы с данным словом, откуда произошло (не всегда) – на основе I-словаря.]
18. Провести сравнительный анализ bns и нкря.
[Решение задачи:
BNC – закрытый корпус, т.е. не обновляется. В нем ровно 100 млн. слов (1980-93), создан в 1996 году. Расположение на сайте: слева – панель ввода параметров поиска: Отображение – список, диаграмма, KWIC, сравнение;
Строка запроса – слово, коллокаты, список ч.р.;
Жанры – разговорный, фантазия, журнал, газета, неучебный, учебный, разное, поджанры;
Сортировка и пределы – частота, релевантность, по алфавиту; частота, информация.
справа – окно результатов: сверху – данные о количестве и жанры; снизу – предложения с коллокатами, в виде таблицы. Результаты выводятся в этом же окне. Можно сохранить результаты.
НКРЯ – постоянно обновляется. В нем более 200 млн. слов, запущен в 2003 году. Последнее обновление: 08.05. Можно переключиться на англ.Расположение на сайте: слева – главная страница; список корпусов: основной, синтаксический, газетный, параллельный, обучающий, диалектный. поэтический, устный, акцентологический, мультимедийный, исторический; использование корпуса.
справа – критерии поиска: ввод слова; лексико-грамматический поиск: слово. грамм. признаки, семант. признаки, доп. признаки, словообразование; расстояние для другого слова.
Результаты поиска открываются в новом окне. Выводится объем всего корпуса: документов, предложений, слов; искомое слово, заданное в запросе; Сколько найдено документов, вхождений; сами результаты в виде списка под номером – название источника, кол-во примеров, примеры. Если надпись [омонимия снята], значит слово проверено. Результаты можно сохранить. Можно также включить KWIC-список.]
19. Проведите лексикографический анализ словаря.
[Решение задачи:
Анализ словаря
Установить тип словаря (толковый, этимологический и т.д.), проанализировать его структуру (из каких разделов состоит)
Выписать список сокращений и их объяснение
Составить список приложений
Проанализировать несколько словарных статей и их структуру: каким шрифтом пишутся слова; как дается произношение; в каких случаях и с какой целью используются сокращения; каков способ передачи семантики слова (например, сравнение); есть ли примеры иллюстрирующие значение слова в контексте; как указывается происхождение слова; как отмечается стилистический статус слова; приводятся ли синонимы и антонимы; указаны ли производные слова
Какая информация в словарной статье является основной, а какая дополнительной.]