4.2. Методы индексирования

Как видно из описаний методов организации ТБД, в них активно используются ключевые слова. Задача выделения в том или ином тексте ключевых слов имеет самостоятельное значение и рассматривается в данном разделе.

Выделение ключевых слов в тексте называется его индексированием. Эта процедура сводится к последовательным действиям:

выделение из текста всех слов на основании различных разделителей (пробелов, знаков препинания и т.д.). При этом в состав выделенных слов попадают такие, которые не отвечают смыслу ключевого слова, например, союзы, предлоги, числительные и другие служебные слова;
удаление из полученного списка упомянутых служебных слов. Они известны для каждого естественного языка и заранее включаются в так называемые стоп-словари;
нормализация оставшихся слов, которая состоит в приведении существительных и прилагательных в единственное число, именительный падеж, глагола – в неопределенную форму, причастий и деепричастий – в неопределенную форму глагола и т.д. Кроме того, средствами морфологического анализа слова возможно выделение его основы и использование ее в качестве ключевого слова. Для этого используются обширные лингвистические данные, и вся эта задача в целом носит прикладной лингвистический характер, а потому в данном пособии не рассматривается. В результате получается список ключевых слов (или их основ), подобный тому, что был использован в приведенных ранее примерах (внимательный читатель заметил, что ключевые слова из справочников отличались местами от тех, которые встречались в исходных текстах);
для придания бóльшей значимости выделенным словам присваиваются весовые коэффициенты (веса), которые позволяют числовым образом оценить, насколько хорошо данное слово отражает смысл текста в целом. На практике, как правило, применяются не просто списки ключевых слов, как это было сделано в предыдущих примерах, а списки взвешенных ключевых слов. Методы назначения весов могут быть статистическими, позиционными и динамическими и рассматриваются далее.

Таким образом, приведенные ранее примеры упрощали представление индексов, а также процедуры просмотра и добавления новых текстов в ТБД: на самом деле они включают и используют веса ключевых слов.

В результате описанных действий формируется список индексационных терминов (далее – терминов) – это ключевые слова, снабженные весами.

4.2.1. Позиционные методы назначения весов

На значение веса термина влияют следующие факторы:

более значимыми являются термины, входящие в заглавие всего текста или его разделов, в начальные абзацы и т.д.;
повышаются веса терминов, входящих в толковые словари по некоторой предметной области, значимой или совпадающей с предметной областью.

К сожалению, в литературе отсутствуют публикации аналитических зависимостей веса термина и его позиции в тексте. Решение данной задачи выполняется эвристическими методами на усмотрение разработчиков соответствующего программного обеспечения.

4.2.2. Статистические методы назначения весов

Используют частотные параметры терминов t^k в тексте D_i, которые характеризуют частоту встречаемости того или иного слова в том или ином тексте. Эти параметры называют частотами и обозначают f_i^k, где i – обозначение текста, k – обозначение термина. Следует иметь в виду, что методы используют абсолютную частоту терминов, т.е. число их появлений. Данные методы включают частотные модели; модель, учитывающую различительную силу термина, и ее модификацию; модель, использующую динамическую оценку информативности.

<<< < Предыдущая 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 2627 / 3427 28 29 30 31 32 33 34 > Следующая >>>

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]

#
13.08.201967.07 Кб4лекции Банковское право 2.doc
#
05.08.2019294.4 Кб5лекции КРИМИНАЛИСТИКА экз.doc
#
13.08.201976.8 Кб8Лекции КРИМИНОЛОГИЯ экз.doc
#
16.09.2019155.14 Кб11Лекции Миненка по криминологии.doc
#
15.09.2019237.06 Кб5лекции по зп.doc
#
16.11.2019330.27 Кб26Лекции по ИС.docx
#
23.11.201951.2 Кб4Лекции тема 10 17 в.-нач 18.doc
#
20.09.2019253.44 Кб4Лекции ч1.doc
#
28.07.201952.74 Кб5лекции-гпзс.doc
#
28.07.201994.21 Кб14лекции-жп.doc
#
14.07.2019117.25 Кб17лекции-мп2.doc