Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
вопросы Гак 2013 (с ответами).doc
Скачиваний:
27
Добавлен:
31.05.2015
Размер:
843.78 Кб
Скачать

16. Исходные данные: Таблица распределения терминов в трех текстах.

Программные средства: Excel

Задание: Вычислить весовые коэффициенты терминов в трех текстах по формуле

[Решение задачи:

Открыть таблицу д/TF*IDF

tfij – частотность терминов; N – количество всех документов (3); n – количество документов, где термин t встречается хотя бы 1 раз

N = n – коэффициент нулевой.

Stop-слова получают нулевой коэффициент. Те слова, что отражают смысл текста получат высокие коэффициенты]

17. Проведите сравнительный анализ двух словарей (словарная статья – politics, policy).

[Решение задачи:

слово, транскрипция, дефиниция (обычно сначала как сущ., может приводиться мн.ч. слова, значения, примеры использования), фразы с данным словом, откуда произошло (не всегда) – на основе I-словаря.]

18. Провести сравнительный анализ bns и нкря.

[Решение задачи:

BNC – закрытый корпус, т.е. не обновляется. В нем ровно 100 млн. слов (1980-93), создан в 1996 году. Расположение на сайте: слева – панель ввода параметров поиска: Отображение – список, диаграмма, KWIC, сравнение;

Строка запроса – слово, коллокаты, список ч.р.;

Жанры – разговорный, фантазия, журнал, газета, неучебный, учебный, разное, поджанры;

Сортировка и пределы – частота, релевантность, по алфавиту; частота, информация.

справа – окно результатов: сверху – данные о количестве и жанры; снизу – предложения с коллокатами, в виде таблицы. Результаты выводятся в этом же окне. Можно сохранить результаты.

НКРЯ – постоянно обновляется. В нем более 200 млн. слов, запущен в 2003 году. Последнее обновление: 08.05. Можно переключиться на англ.Расположение на сайте: слева – главная страница; список корпусов: основной, синтаксический, газетный, параллельный, обучающий, диалектный. поэтический, устный, акцентологический, мультимедийный, исторический; использование корпуса.

справа – критерии поиска: ввод слова; лексико-грамматический поиск: слово. грамм. признаки, семант. признаки, доп. признаки, словообразование; расстояние для другого слова.

Результаты поиска открываются в новом окне. Выводится объем всего корпуса: документов, предложений, слов; искомое слово, заданное в запросе; Сколько найдено документов, вхождений; сами результаты в виде списка под номером – название источника, кол-во примеров, примеры. Если надпись [омонимия снята], значит слово проверено. Результаты можно сохранить. Можно также включить KWIC-список.]

19. Проведите лексикографический анализ словаря.

[Решение задачи:

Анализ словаря

  1. Установить тип словаря (толковый, этимологический и т.д.), проанализировать его структуру (из каких разделов состоит)

  2. Выписать список сокращений и их объяснение

  3. Составить список приложений

  4. Проанализировать несколько словарных статей и их структуру: каким шрифтом пишутся слова; как дается произношение; в каких случаях и с какой целью используются сокращения; каков способ передачи семантики слова (например, сравнение); есть ли примеры иллюстрирующие значение слова в контексте; как указывается происхождение слова; как отмечается стилистический статус слова; приводятся ли синонимы и антонимы; указаны ли производные слова

  5. Какая информация в словарной статье является основной, а какая дополнительной.]