Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

ПР1. Textanalyst. Ушакова,313

.docx
Скачиваний:
18
Добавлен:
23.05.2015
Размер:
234.64 Кб
Скачать

Автоматизированный анализ текста

ПЛАН РАБОТЫ

  1. На сайте компании Microsystems, Ltd. http://www.analyst.ru/index.php?lang=rus&dir=content/downloads/

выбрать версию TextAnalyst - 2.01. и загрузить бесплатную копию .

  1. После установки программы внимательно изучить учебник, который открывается в окне «Начало работы».

  2. Выбрать текст для анализа объемом 2-3 страницы и сохранить его в формате .txt

  3. Провести анализ текста с помощью установленной программы.

  4. Результат работы представить в форме отчета, который должен включать:

  • Исходный текст

  • Реферат с указанием веса предложений

  • Семантическое дерево с объяснением терминов «сеть понятий», «смысловой вес», «вес связи»

  • Тематическое дерево с разъяснением значения понятия «тематическая структура текста»

  • Итоговый вывод о качестве реферата и возможностях программы.

  1. Сделать описание программы «Адвего» http://advego.ru/text/seo/ Провести семантический анализ исходного текста с помощью этой программы.

Для анализа был выбран рассказ Э. Хемингуэя «Там, где тихо, светло».

Для перехода на нужную страницу, необходимо пройти путь: Адвего.ru -> Сервис -> Инструменты. На сайте представлены три вида анализа текста: проверка орфографии, семантический анализ, проверка уникальности (для проверки текста на уникальность сайт предлагает скачать программу Advego Plagiatus).

Проверка орфографии – анализ текста на наличие грамматических ошибок.

Семантический анализ текста - это оценка текста, позволяющая определить количественный состав отдельных слов в тексте, а также выделить фразы и слова, составляющие его семантическое ядро. Анализатор текста показывает семантическое ядро текста с количеством и частотой запросов, список слов и стоп-слов, а также грамматические ошибки.

При проверке орфографии или семантическом анализе текста, скопированный текст необходимо вставить в окно для анализа и нажать «Проверить». Можно выбрать язык текста, по умолчанию стоит русский язык.

  1. Представить полученные результаты, с объяснением понятий «тошнота документа» (классическая и академическая, как они вычисляются) и «стоп-слова».

Тошнота текста - это насыщенность текста ключевыми словами. По тошноте текста можно судить о натуральности текста и его SEO-оптимизации под поисковые запросы. Высокий показатель тошноты для поисковиков является плохим знаком. Это означает, что статья написана для поисковиков, а не для посетителей сайта. Определить процент тошноты можно при помощи семантического анализа текста Адвего.

Классическая тошнота - это коэффициент, показывающий заспамленность текста самым повторяющимся словом. Определяется как квадратный корень из количества повторений самого тошнотного слова. Самое тошнотное слово может снижать релевантность по остальным словам. Оптимальное значение классической тошноты равно 7. Большая тошнота может помешать продвижению сайта.

Академическая тошнота характеризует натуральность документа. Если в документе много различных повторяющихся слов, то показатель академической тошноты будет большим. Академическая тошнота измеряется в процентах и зависит от частоты повторения слов и объема текста. Вычисляется как отношение числа повторов самых частых слов к общему числу слов в тексте.

Стоп-слова – это слова, не несущие какой-либо самостоятельной смысловой нагрузки, но необходимые для полноценного восприятия текста. К стоп-словам относятся предлоги, союзы, местоимения.

  1. Сравнить результаты семантического анализа, полученные с помощью обоих программ.