Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
posobie.doc
Скачиваний:
15
Добавлен:
19.11.2019
Размер:
2.6 Mб
Скачать

Российские поисковые системы.

Как уже говорилось, поисковые системы глобального масштаба свое основное внимание концентрируют, прежде всего, на североамериканских ресурсах. Задачу выявления информации на серверах в пределах отдельных стран выполняют локальные машины, специально адаптированные к особенностям конкретных языков. Подобные поисковые средства существуют и в России.

Все отечественные разработки объединяет несколько общих черт, ставящих их вне конкуренции при работе с русскоязычными источниками. Прежде всего, все они способны корректно обрабатывать материалы во всех кириллических кодировках. Исторически сложилось, что на русскоязычных серверах все источники представлены (продублированы) по крайней мере, в трех различных кодировках: Windows (СР1251), Кoi-8r (UNIX) и DOS.

Помимо корректной обработки кодировок, все российские машины сегодня уже способны выделять один и тот же документ в различных кодировках или на различных серверах и выдавать ссылку на него лишь один раз, перечисляя конкретные адреса в списке URL. Это имеет первостепенное значение, поскольку пользователь сразу же получает представление о реальном числе документов, а не об их "зеркальных" вариантах, количество которых в два-три раза выше.

Все российские системы обладают мощным встроенным морфологическим аппаратом, дающим возможность значительно расширять поиск за счет многообразных, в том числе и неправильных, словоформ русского языка ("окно" - "окон" и т. п.).

К лидирующей группе российских поисковых средств в настоящее время относятся Yandex, Апорт, Rambler, на серверах этих поисковых машин можно проводить поиск и по каталогам.

Yandex (http://www.yandex.ru) (рис. 27)

Поисковая машина последнего поколения, являющаяся к настоящему времени самой объемной: количество обследованных серверов превышает 300.000 серверов, а число учтенных оригинальных документов свыше 40 миллионов. Помимо серверов доменов "ru" и "su", Yandex индексирует содержание зарубежных русскоязычных Web-узлов, а также серверов СНГ.

Yandex, безусловно, располагает самой мощной и сложной системой составления запросов: пользователю предлагается несколько вариантов поиска, в которых легко запутаться. Более чем какие-либо другие системы, Yandex приспособлен для задания запросов на естественном русском языке. В этом случае запрос формируется путем простого ввода терминов или целой фразы в поисковую строку. Поисковый механизм сам производит расширения (падежи, числа, склонения), исключает "стоп-слова", анализирует расстояние терминов друг от друга и пр. В списке результатов ссылки снабжаются сведениями о том, есть ли в документе совпадение фразы или же все введенные термины.

Рис. 27

Желающие составить поисковое предписание максимально точно могут прибегнуть к языку запросов (в этом случае, у отметки "строгий поиск" ставится "галочка"). Этот вариант дает возможность в самой полной мере реализовать могучий лингвистический потенциал, являющийся отличительной чертой Yandex. Мощная лингвистика позволяет учесть практически все возможные оттенки употребления ключевых слов и составить запрос максимально точно. Допустимо, к примеру, задать употребление термина только в определенном падеже, указать, на каком расстоянии от другого слова или словосочетания он должен находиться в тексте и какие термины этот текст содержать не должен. Это, однако, требует освоения весьма сложного синтаксиса формирования "специальных" поисковых предписаний, которые включают чуть ли не все специальные символы компьютерной клавиатуры. Среди используемых знаков: ~,&, !, /, :, <>, (), |, $.

Yandex обладает также "Расширенным поиском" (ссылка над строкой запроса), представляющим собой детальную систему меню, с помощью которой можно составить сложный запрос без знания специального синтаксиса. Возможно, в частности, обеспечить сочетание нескольких фраз, исключить документы, содержащие указанные слова, конкретизировать местоположение термина в документе (заголовок, аннотация, ссылка...), применить ограничение по дате публикации, нахождению его на конкретном сайте, языку публикации. Также обеспечивается выявление иллюстраций указанной тематики, специальных объектов (скриптов и апплетов) и страниц, содержащих ссылки на определенный сервер.

Безусловным достоинством Yandex является оригинально сконструированный механизм выдачи результатов. Щелчок мышью по названию выявленной страницы приводит к ее загрузке в "фирменном исполнении" Yandex. В этом случае оригинальный вид документа дооснащается специальными стрелками, которые выделяют искомые термины и позволяют быстро двигаться от одного их вхождения к другому, что очень экономит время при определении степени соответствия смысла документа запросу. При обращении же к адресу, система отправляет пользователя непосредственно к оригиналу страницы. Среди сервисных функций Yandex есть также возможность искать страницы, схожие содержанием с конкретным документом.

Апорт (http://www.aport.ru) (рис. 28)

В настоящее время эта поисковая система переживает период серьезного обновления. Одно из достоинств Апорт состоит в широких возможностях составления запроса. Помимо традиционных операторов "И" и "ИЛИ", поиска по целой фразе (двойные кавычки), система обладает способностью вычленять сочетания терминов только в случае, если они расположены в тексте рядом друг с другом. Насколько "рядом" каждый раз определяется пользователем. Так запрос "{3, налоговые льготы}" выявит все документы, в которых указанные слова (и их производные) встречаются в пределах трех соседствующих предложений, а запрос "[4, цветной металл]" отыщет только те страницы, где между искомыми словами стоит не больше двух других слов. За счет этого пользователь застрахован от большой доли информационного шума, возникающего при случайном сочетании ключевых слов.

Рис. 28

В форме Расширенного поиска, которая вызывается щелканьем мышью по аналогичной надписи над поисковой строкой, Апорт предлагает также возможность автоматического перевода запроса с русского на английский язык и наоборот. В поисковую строку можно ввести термины на любом из двух языков и выбрать из меню условие: искать только на английском, на английском и русском, только на русском. В этом же случае также появляется возможность ограничения поиска элементами страниц, а также временем создания/обновления документов.

Наибольшей оригинальностью отличается форма выдачи результатов, Список найденных документов открывается сведениями о том, сколько документов и на каком количестве серверов выявлено. Перечень результатов сформирован таким образом, что в начале каждой ссылки идут сведения о сервере, на котором содержится источник. Приводится не только его название и адрес, но и аннотация из справочника @RUS или собственной регистрационной базы Апорт. Далее приводится число страниц на сервере, содержащих искомые термины, а также следуют соответствующие ссылки.

В списке результатов каждая ссылка включает название файла, дату и время его последнего обновления, адрес/адреса источника с указанием оригинальной кодировки и степень соответствия запросу. Положительным моментом, отличающим Апорт от других систем, является то, что найденные ключевые слова выводятся в окружающем контексте из любой части документа, а не только из его начала, что позволяет точнее определять соответствие страницы запросу уже на этапе просмотра ссылок. Функция "реконструкция текста" позволяет получить весь исходный документ, причем с сохранением оригинального форматирования. Это бывает полезно в случае, когда оригинал источника по каким-то причинам в данное время недоступен.

Rambler (http://www.rambler.ru) (рис. 29)

Первая профессиональная отечественная поисковая система. Созданная в 1996 году специально для выявления материалов на серверах в пределах бывшего СССР, она обеспечивает полнотекстовый поиск на Web-узлах России и стран ближнего зарубежья.

Система имеет дружественный интерфейс, предлагающий воспользоваться простой или детальной формами запроса (клавиша - Детальный запрос). Лучше сразу обратиться к последней, так как при использовании основного интерфейса возможности детализации запроса невелики, а лексика составления качественных поисковых предписаний требует предварительного подробного изучения.

Механизм составления детального запроса реализован через меню. Пользователю предлагается ввести один или несколько терминов и определить параметры для разыскания. К основным параметрам относятся:

· область поиска: Российский WWW или отдельные элементы страниц;

· условия поиска: выдавать ссылки на документ, в котором обязательно встречаются все термины или же любой из них;

· число выдаваемых результатов, помещаемых на одной странице;

· форма выдачи результатов: краткая, стандартная или детальная;

· употребление словоформ: искать ли все производные корня данного слова, ограничиться точно введенной формулировкой или усекать все встречающиеся окончания.

Рис. 29

Очень полезными и, кстати, практически дублирующими друг друга параметрами являются требование минимального расстояния между искомыми словами и поиск на полное соответствие запросу. Обе эти характеристики применяются при поиске по точной фразе. Помимо этого можно также уточнить поисковое предписание по языку документа, дате его последнего обновления и указать термины, появление которых в источнике должно быть исключено.

Rambler обладает хорошим механизмом вывода результатов. Даже в "нормальной" форме ссылка на найденный объект включает помимо названия, электронного адреса, кодировки, размера и времени обновления документа еще и внушительных размеров резюме, из которого можно получить представление о том, в каком контексте употреблены искомые термины (они выделены жирным шрифтом). Щелчок мышью по стрелке перед названием выявленного документа запустит поиск страниц, схожих содержанием сданной.

Приступая к информационному поиску в Интернет, следует всегда помнить несколько основных моментов. Никакие средства навигации - справочники или поисковые машины не охватывают всего текущего информационного массива Интернет. По некоторым оценкам даже такие признанные лидеры сетевого поиска как Alta Vista, Northern Light или Fast Search отражают не более 10 - 15% содержания Сети и цифра эта продолжает снижаться. Причина - колоссальный прирост объемов информации в Интернет, который, несмотря на все усилия навигационных служб, все более и более превращается в кибернетические джунгли.

Помимо быстрого роста и изменения местоположения документов, практически все поисковые системы имеют внутренние ограничения на отражение материалов одного сайта. Так, Alta Vista даже в идеале берет не более 60% информации с отдельного сервера. Роботы других поисковых механизмов не идут в глубь сервера дальше определенной директории, что также сокращает число отраженных материалов.

В то же время некоторые серверы имеют собственную систему поиска, которая покрывает весь их информационный массив. Выявив такие сервера с помощью справочников или поисковых систем, можно провести более детальное их обследование, использовав локальный поисковый механизм. Например, при поиске сведений о конкретном виде креветки, искусственно разводимой человеком, весьма рациональным будет найти и просмотреть сервера, посвященные в целом аквакультуре, отрасли, занимающейся выращиванием морепродуктов в искусственных теплых водоемах, а при выявлении данных о конкретном заболевании - сервера учреждений, ведущих исследования в данной области,

Таким образом, для достижения наиболее полных результатов следует применять справочники и поисковые системы в сочетании друг с другом.

Итак, при поиске в Интернете важны 2 составляющие: полнота (т.е. стремление не упустить какую-либо информацию) и точность (т.е. отсутствие в результатах поиска лишней информации).

Обычно обе эти составляющие называют общим словом релевантность, подразумевая под ним максимальное смысловое соответствие результатов поиска указанному запросу. Релевантность также можно рассматривать и как способ сортировки найденных по запросу документов: чем больше документ соответствует запросу, чем ближе к началу списка должен находиться его адрес.

Для достижения этого результата ИПС должна учитывать такие параметры, как количество найденных в тексте документа ключевых слов, «контрастность» слова (его относительную частоту встречаемости для данного документа), расстояние между словами, положение слова в документе и его подразделах и т.д.

Однако не следует забывать, что релевантность – качественная мера. Соответствие ответа ИПС интересам пользователя зависит не только от свойств данной ИПС, но и от того, насколько правильно сформулирован запрос. Современные ИПС учитывают морфологию русского языка. Они способны работать с естественно-языковыми запросами.

Также, существует ряд общих требований к поисковой деятельности, соблюдение которых повышает эффективность и экономит время, затрачиваемое на разыскание данных.

1. Для поиска материалов по узкой специфической тематике стоит начинать с мета-машин, дабы сразу получить представление о том, насколько богато данная проблематика представлена в Интернет.

2. Для получения более полных результатов по сложному запросу (например, там, где есть ограничения не только по содержанию документа, но и по дате обновления или местоположению документов) поиск рекомендуется проводить отдельно в каждой поисковой машине. Поисковые системы имеют сильный разнос в отражении документов и их последовательное использование в значительной степени расширяет охват материала.

3. При разыскании документов об отдельной стране или на конкретном языке следует отдать предпочтение национальным/региональным поисковым средствам.

4. Формировать запрос надо максимально точно, используя все возможности механизма его составления. Затраты времени на детальное составление поискового предписания окупаются при анализе результатов поиска, поскольку процент информационного шума будет намного ниже.

5. При составлении запроса на текстовый материал всегда стоит мысленно представить, каким может быть предполагаемое содержание документа. При поиске источников об А.С.Пушкине недостаточно просто ввести его фамилию. Список результатов в этом случае будет изобиловать адресами всевозможных учреждений, расположенных на улицах Пушкина в разных городах. Гораздо больший эффект принесет поиск по названиям произведений поэта. Для разысканий же конкретных текстов произведений стоит ввести строки из произведений (например, для поиска поэмы "Евгений Онегин" - "Мой дядя самых честных правил" - как фраза).

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]