Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Вербальные ИПС.doc
Скачиваний:
12
Добавлен:
25.03.2016
Размер:
113.15 Кб
Скачать

4.5. Языки запросов вербальных ипс

В разных системах, в разных поисковых ситуациях структура языка запросов реализуется по-разному.

Различают два способа задания поискового предписания: либо заполнение формы типа "анкета", либо ввод всего поискового предписания в специальном окне на интерфейсной странице. Анкетно-запросную форма позволяет ввести список терминов и выбрать тип логической связи между ними. Все дополнительные условия и ограничения поиска, как правило, выбираются в соответствующих разделах формы. Во втором случае большинство режимов (условий поиска) предполагается по умолчанию, а в окне запроса пишется простая или сложная формула поискового предписания. В этом случае можно составить запрос в виде сложного логического выражения, но от пользователя требуется знание всех тонкостей языка запросов.

4.5.1. Выражение информационной потребности

Основу ПП составляют поисковые термины (ключевые слова), выражающие тематическую (предметную) информационную потребность. Часто пользователи задают в запросе одно или два слова. Например: "собаки". Такие запросы возможны, но все-таки обычно однословный запрос является следствием неумения пользователя выразить свою информационную потребность. Вряд ли пользователя вышеприведенного запроса интересует все, что написано о собаках. В результате поиска пользователь получит огромное количество лишней для себя информации. С другой стороны, в результатах поиска по такому однословному запросу будут отсутствовать многие документы, относящиеся к теме "собаки", но не содержащие данного слова.

При формулировке поискового запроса следует выделить основную тему запроса и ее подтемы, которые мы называем аспектами ("что", "кто", "где", "когда", "как", "при каких условиях и обстоятельствах"). Такую схему, похожую на синтаксическую модель предложения можно рассматривать как семантический конструкт запроса. Исследования и практика показывают, что, как правило, число таких подтем (аспектов) в хорошо сформулированном запросе равняется 3–4.

Аспекты запроса, о котором шла речь выше, по сути представляют собой понятия. В дескрипторных ИПС понятия выражаются с помощью дескрипторов. Однако в Интернет практически все ИПС представляют собой системы бестезаурусного типа, и содержание запросов, так же как сами документы, выражается с помощью слов естественного языка (одного или нескольких). При этом говорят о ключевых словах, т.е. таких лексических единицах, использование которых существенно с точки зрения содержания документа и запроса. Слова, несущественные с этой точки зрения, в запрос не включаются. Во многих системах эти "несущественные" слова игнорируются при поиске автоматически, даже если они присутствуют в запросе (с оповещением об этом пользователя или без оного). Пример отрицательного словаря ("стоп-слов") дается в приложении 2.

Среди прочих слов нужно выбирать такие, которые точнее всего выражают информационную потребность пользователя. Как правило, предметы документов и запросов выражаются существительными и субстантивными словосочетаниями. Аспекты запроса, уточняющие главную тему (предмет), могут выражаться и другими частями речи (обычно прилагательные, причастия и глаголы, при этом вместо глаголов рекомендуется использовать отглагольные существительные). При подборе ключевых слов желательно также знать и учитывать их частотные характеристики в языке и в базе данных конкретной ИПС. Эти характеристики можно получить, в частности, и через ИПС.

Понятие может выражаться в языке с помощью различных слов и словосочетаний. Поскольку тема запроса и ее аспекты – это суть имена (названия} понятий, и мы не знаем, каким способом это понятие будет выражено в искомых документах, то в запросе необходимо "развернуть" все гнездо близких по смыслу слов и словосочетаний, описывающих это понятие. Для этой цели рекомендуется опираться как на личный опыт пользователя, так и на различные лексикографические пособия (дескрипторные словари, информационно-поисковые и лексические тезаурусы, словари синонимов, терминологические словари и т.п.).

Иногда для некоторых слов допускаются различные варианты написания.

В ИПТ, как минимум, явно выражены два отношения: синонимия и иерархия (род – вид). Второе отношение (род – вид) в ряде случаев также целесообразно раскрывать в информационном запросе в явном виде. Обычно к видовому термину добавляют родовой, более широкий. Это очевидно. Но в ряде можно полезно и обратное. Например: 1) Пусть имеется запрос "Цветная фотография". Аспект "цветной" в этом случае достаточно раскрыть с помощью ключевого слова "цветной". В качестве синонимов к нему можно добавить "полихромный", "многоцветный". 2) Пусть имеется запрос "Цветные карандаши". В этом случае в качестве синонимов к ключевому слову "цветной" имеет смысл приписать названия отдельных цветов: красный, синий, желтый и т.п. То есть, видовые термины выступают как синонимы к родовому.

Еще один пример, когда в качестве поисковых синонимов используются ассоциативно связанные термины. Так, при строительстве домов существенную роль играет фундамент. Поэтому это слово можно использовать как поисковый синоним к терминам "строительство домов", "домостроительный".

Ключевые слова запросов могут соответствовать понятиям разного уровня общности/специфичности, и наоборот – каждому понятию соответствует свой набор ключевых слов. Во многих случаях наблюдается закономерность: чем ниже уровень общности понятия (выше специфичность), тем меньше частота соответствующего ему ключевого слова. Другой способ сузить объем понятия – использование словосочетаний. В ИПС различают устойчивые (жесткие) словосочетания ("phrase" – все слова стоят рядом) и разрывные (нежесткие). В некоторых системах имеются средства "вычисления" словосочетаний с учетом расстояния и порядка слов между элементами словосочетаний (Апорт, Яндекс, AltaVista). Длина такой нежесткой синтагмы может быть как постоянной (Alta Vista, Рамблер), так и переменной (Апорт, Яндекс, задается в запросе). Чаще всего устойчивые словосочетания задаются в кавычках. Словосочетания должны использоваться обязательно тогда, когда слово-определитель (слова, если их несколько) не просто сужает объем основного поискового термина, но образует в сочетании с ним новое понятие (соответствующее отдельному денотату). Например: "rain in Spain", "Gettysburg Address", "big bad wolf", "редкие животные", "Красная книга", "Белая книга", "желтая пресса", "железная дорога" и т.п.