- •1 Этап: Выбор материала-корпуса яз-ых данных.
- •2 Этап: Выбор концепт-ой перем-ой и опред-ие ее знач-ий – яз-ых репрезентантов в тексте
- •3 Этап: Выбор ед-цы кодирования
- •4 Этап: Отбор кодировщиков и формулировка инструкций по кодирования
- •5 Этап. Кодировка данных
- •6 Этап.
- •4. Переведите предложения. Сравните морфемную и словообразовательную структуру выделенных слов. Объясните, как эти слова образованы.
- •5. Распределите по шкале линейно-синтагматической свободы следующие морфологические единицы: над рекой, щик, бы, сад, саду, я, при, вы, лесов, лесу, в лесу, он, и, лес, ник
- •6. Выявите, представьте в графическом виде и объясните иерархическую структуру текста.
- •7. Выделите тему и рему
- •8. Объясните, почему представленный рассказ Даниила Хармса «Встреча» из цикла «Случаи» является аномальным? Какие принципы построения дискурса нарушены?
- •9. Исходные данные: текст.
- •13. Сколько значений слова банк представлено в следующих примерах? Выделите эти значения, дайте соответствующие им краткие толкования и опишите их, как они связаны между собой.
- •14. Исходные данные: 2 текста
- •16. Исходные данные: Таблица распределения терминов в трех текстах.
- •17. Проведите сравнительный анализ двух словарей (словарная статья – politics, policy).
- •18. Провести сравнительный анализ bns и нкря.
- •19. Проведите лексикографический анализ словаря.
- •20. Ниже даны предложенные на языке Самоа (остров на юге Тихого океана) и соответствующие им предложения на английском:
9. Исходные данные: текст.
Программные средства: конкорданс AntConc, Porter stemmer (http://qaa.ath.cx/porter_js_demo.html), Y stemmer
Задание: Сравнить мощность стеммеров Porter stemmer, Y stemmer, используя формулы:
(1) ICF – Index compression factor
(2) Mean number of words per conflation class
(3) Probability index compression
Результаты округляются до тысячных.
[Решение задачи:
Найти исходные данные N, S, T (N = 139, T = 313)
Открыть конкорданс AntConc
Запросить Sample Text Word list Start
Word types – уникальные слова = N – количество уникальных токенов
Word tokens – с учетом повторов = T – общее количество токенов
S - количество уникальных токенов, которые остались в тексте после стемминга
Используя Porter Stemmer Скопировать туда текст Стемирование создаем новый .txt файл со стеммированным текстом
Обрабатываем этот текст в AntConc получаем N и T: N = 131, T = 313
Суммируем результаты по каждому стеммеру
От большей величины отнять меньшую
У которого больше величина – тот и мощнее]
Исходные данные: Английские предложения, допускающие неоднозначную интерпретацию
– John saw the student with a telescope
– I saw her duck
Задание: Определить и представить в графическом виде возможные интерпретации иерархической структуры предложений. Объяснить, почему парсер выдаёт именно данный вариант, а не другой.
Программные средства: Lexparser
Программное средство RST Tool
[Решение задачи:
Load Parser English Factored ser.
ввести туда предложения д/анализа
По правилу в базе знаний: если после глагола идет предлог]
Задача. Предположим, что на двери магазина Вы видите пять нарисованных в ряд квадратиков одного цвета и два другого. Что бы это значило? Какие преимущества имеет такая символическая запись перед обычной, словесной? А какие недостатки? Какие свойства знака можно продемонстрировать на данном примере?
|
|
|
|
|
|
|
[Решение задачи:
Рабочие дни с Пн по Пт, нерабочие – Сб и Вс; по сравнению со словесной запись более краткая, но неоднозначная; здесь демонстрируется преднамеренность, двусторонность, условность знака]
ИЛИ
[Расписание работы к-л. учреждения. Семь квадратиков – семь дней недели, красные квадратики – выходные дни. Преимущество – краткость предоставления инф-ии. Недостаток – может не сработать свойство конвенциональности.
Свойтсва:
Двусторонность
Контекстуальность (преднамеренность)
Конвециональность (договоренность о сод-ии)
Обусловленность (в разн. стр. по-разн)]
Определите актанты и сиркостанты. Приведите графическое изображение грамматической структуры предложений:
Добросовестные студенты всегда сдают сессию вовремя.
Вчера моя подруга отметила свой день рождения в уютном кафе на набережной.
[Решение задачи:
Актанты – обязательные участники ситуации; сиркостанты – необязательные участники (где, когда, с кем, и т.д.); Определения. Сначала глагол, ниже по уровню – Актанты, после – Сиркостанты, и в самом низу – Определения.
]