Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
билеты 5-8.doc
Скачиваний:
2
Добавлен:
18.09.2019
Размер:
55.81 Кб
Скачать

8. Критерий смыслового соответствия. Модели поиска

При сопоставлении документов и запросов требуется определить релевантность документа по отношению к запросу и принять решение о выдаче или невыдаче документа на данный запрос. Правила, на основе которых формально определяется степень релевантности документа и запроса, т.е. соответствие ПОД и ПОЗ, называются критерием смыслового соответствия (КСС), или критерием выдачи (КВ). Описание документа, признанного релевантным запросу (или он сам), помещается в файл результатов поиска, или, как говорят, в выдачу. Именно поэтому появился термин “критерий выдачи”, возможно, даже более предпочтительный как более соответствующий явлению формальной релевантности.

Все применяемые КВ можно разбить на две большие группы: количественные и логические. Первые оперируют количественными параметрами, и на основе их для каждой пары “документ – запрос” вычисляется количественное значение (коэффициент) степени смысловой близости (подобия) документов и запросов. Это дает возможность ранжировать документы выдачи в порядке уменьшения коэффициента подобия, а также выдавать то или другое количество документов в зависимости от заданного порогового значения.

Математические модели и формулы вычисления коэффициента подобия могут быть самые разные. В первых поисковых системах КВ основывался на теоретико-множественной операции пересечения множеств терминов ПОД и ПОЗ. Степень такого пересечения может определяться в процентах. В этом случае величина значения критерия выдачи R определяется по формуле:

R = (M/N)х100% ,

где M – количество совпавших при поиске терминов ПОД и ПОЗ,

N – общее количество терминов в ПОЗ.

Критерий выдачи в этом случае задается как пороговое значение, выраженное в процентах, выше которого находится уровень релевантности. Крайний случай – критерий выдачи, равный 100%, т.е. требование полного совпадения ПОД и ПОЗ или отношения включения ПОЗ в ПОД. Однако это требование является слишком жестким.

Простые критерии выдачи исходят из равнозначности терминов, входящих в документ и в поисковое предписание. В то же время часто разные термины, как в запросах, так и в документах, не равнозначны с точки зрения отражения в них предметного содержания. В связи с этим появилось понятие весового коэффициента, или «веса» термина. Операцию присвоения терминам весов называют «взвешиванием» обычно вычисляется как сумма весов терминов. Способы взвешивания могут быть разные. Самый простой из них заключается в том, что пользователь при составлении ПП оценивает каждую лексическую единицу ПП определенным числом – весовым коэффициентом. «Взвешиваться» могут и термины из документов, в ручном или автоматизированном режиме. Например, может анализироваться относительная частота встречаемости какого-либо слова. Другой подход заключается в приписывании повышенных весов терминам, выбранным для включения в поисковый образ документа из наиболее важных зон документа (заглавие, резюме и т.п.).

В этом случае КВ вычисляется как функция от значений весовых коэффициентов отдельных поисковых терминов (обычно как сумма весов). Кроме того, пользователь может задать пороговое значение коэффициента выдачи, ниже которого документы не выдаются.

Все эксперименты показывают высокую эффективность ИПС с весовым КСС. Однако на практике постепенно повсеместное распространение получили ИПС с логическим критерием выдачи, когда ПП строятся с использованием логических (булевых) операторов конъюнкции (&), дизъюнкции (\/), отрицания (~). В этом случае логическое выражение запроса представляет собой набор поисковых элементов (обычно ключевых слов), объединенных логическими операторами и скобками, необходимыми для указания порядка выполнения операторов. Ключевые слова ПП играют роль булевых переменных, принимающих значение 1 (“истина”), если данное слово содержится в документе, и 0 (“ложь”), когда оно там отсутствует. Документ признается релевантным запросу, если логическая формула запроса в целом получает для данного документа значение “истина”, и нерелевантным, если результат вычисления логической формулы дает "ложь".

Элементарные логические выражения поискового предписания при этом можно интерпретировать следующим образом:

a&b – в тексте документа обязательно должны быть оба слова, “a” и “b”;

a\/b – в тексте документа обязательно должно быть хотя бы одно из двух слов, или “a”, или “b” (хотя могут быть и оба вместе);

a&~b – в тексте документа обязательно должно быть слово “a” и не должно быть слова “b”.

Принятые в логике для обозначения конъюнкции, дизъюнкции и отрицания значки (&, \/, ~) в информационном поиске обычно заменяют на операторы AND, OR и NOT, соответственно. В России чаще используются обозначения И, ИЛИ, НЕ. Однако в общем случае в каждой конкретной ИПС обозначения для булевых операторов выбираются свои, причем иногда для удобства пользователя вводится несколько значков для одного и того же оператора (например, в ИПС "Апорт" оператор конъюнкции может быть задан следующими знаками: &, пробел, AND, И, +).

Чаще всего поисковое предписание в ИПС с логическим КСС записывается как конъюнктивная нормальная форма (конъюнкция дизъюнкций). Оператором ИЛИ (дизъюнкция) обычно связывают термины (или словосочетания), находящиеся в отношении условной синонимии. Оператором И (конъюнкция) связывают термины (или группы терминов), выражающие разные аспекты (подтемы) темы запроса. Например: простое поисковое предписание по теме “Мировые информационные сети” может быть представлено в виде следующего ПП: (мировые \/ всемирные \/ глобальные) & информационные &(сети \/ ресурсы). Оператор НЕ используется в сочетании с И для отсева документов. Например: поисковое предписание по теме «Жигули на Волге» может быть записано как: Жигули & Волга & НЕ автомобиль.

Использование булевых операторов обеспечивает логику сравнения документов и запросов, понятную пользователю. Поиск (вычисление истинности для элементов ПП), как правило, проводится по инвертированным файлам, построенным на основе словника документального массива, и характеризуется высокой скоростью. Эти простота и понятность логического КСС и явились причиной его широкой распространенности.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]