Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
tema16.doc
Скачиваний:
2
Добавлен:
12.09.2019
Размер:
203.26 Кб
Скачать

Пошук інформації

Для того, щоб здійснити доступ до будь-якого ресурсу Web потрібно знати, де він розміщений, тобто треба знати URL ресурсу. Цей URL треба знати наперед або його знайти. Універсальним засобом, який забезпечує пошук потрібних ресурсів, є пошукові системи (сервери). Як правило, основною частиною пошукової системи є Пошукова машина (пошуковий движок) - комплекс програм, що забезпечує функціональність пошукової системи. Основними критеріями якості роботи пошукової машини є релевантність (ступінь відповідності запиту і знайденого, тобто доречність результату), повнота бази, облік морфології мови. Індексація інформації здійснюється спеціальними пошуковими роботами.

Пошукові cистеми зазвичай мають три компоненти:

  • агент (павук, кроулер або робот), який переміщується по мережі і збирає інформацію;

  • база даних, яка містить інформацію, що зібрано павуками;

  • пошуковий механізм, який користувачі використовують як інтерфейс для взаємодії з базою даних.

Засоби пошуку типу агентів, павуків, кроулерів і роботів використовуються для збору інформації про документи, які знаходяться в мережі Інтернет. Це спеціальні програми, які займаються пошуком сторінок в мережі, збирають гіпертекстові посилання з цих сторінок і автоматично індексують інформацію, яку вони знаходять для побудови бази даних. Кожний пошуковий механізм має власний набір правил, якими визначається збір документів.

Агенти є найінтелектуальнішими з пошукових засобів. Вони можуть робити більше, ніж просто шукати: вони можуть виконувати транзакції від імені користувача. Вже зараз вони можуть шукати сайти специфічної тематики і повертати списки сайтів, відсортованих за їх відвідуваністю. Агенти можуть обробляти вміст документів, знаходити та індексувати інші види ресурсів, не лише сторінки. Вони можуть бути запрограмовані для витягання інформації з вже існуючих баз даних. Незалежно від інформації, яку агенти індексують, вони передають її назад до бази даних пошукового механізму.

Павуки здійснюють загальний пошук інформації в Інтернет. Павуки повідомляють про зміст знайденого документа, індексують його і добувають підсумкову інформацію. Вони також переглядають заголовки, деякі посилання і відправляють проіндексовану інформацію до бази даних пошукового механізму.

Кроулери переглядають заголовки і повертають тільки перше посилання.

Роботи можуть бути запрограмовані таким чином, щоб переходити по різним посиланням різної глибини вкладеності, виконувати індексацію і перевіряти посилання в документі. Але, вони можуть застрягати в циклах, адже, проходячи за посиланнями, їм потрібні значні ресурси мережі. Існують методи, що забороняють роботам пошук по сайтах, власники яких не бажають, щоби вони були проіндексовані.

Агенти збирають та індексують різні види інформації. Деякі, наприклад, індексують кожне окреме слово у документі, в той час як інші індексують тільки 100 найбільш важливих слів в кожному документі, індексують розмір документу і кількість слів в ньому, назву, заголовки і підзаголовки і так далі. Вигляд побудованого індексу визначає, який пошук може бути проведений пошуковим механізмом і як отримана інформація буде інтерпретована.

Агенти знаходять інформацію, після чого її розміщують в базі даних пошукового механізму. Адміністратори пошукових систем визначають, які сайти або типи сайтів агенти мають відвідати та проіндексувати. Проіндексована інформація відправляється до бази даних пошукового механізму.

Користувачі можуть розміщувати інформацію прямо в індексі, заповнюючи особливу форму для того розділу, в який вони хотіли б помістити свою інформацію. Ці дані передаються базі даних.

Коли користувач хоче знайти інформацію, доступну в Інтернет, він відвідує сторінку пошукової системи і заповнює форму, що деталізує потрібну йому інформацію. Тут можуть використовуватись ключові слова, дати та інші критерії. Критерії в формі пошуку повинні відповідати критеріям, які використовуються агентами при індексації інформації, яку вони знайшли при переміщені по мережі.

База даних відшукує предмет запиту, що базується на інформації, яка вказана в заповненій формі, і виводить відповідні документи, що підготовані базою даних. Для того, щоб визначити порядок, в якому перелік документів буде показано, база даних застосовує алгоритм ранжування. В ідеальному випадку, розташованими першими в списку будуть документи, що є найбільш релевантними до запиту користувача.

Релевантність – основне поняття при індексації документа в пошукових системах. Релевантність – міра відповідності, тобто це відповідність змісту знайденої сторінки до запиту користувача.

Пертинентність (англ. pertinent – доречний, підходящий) – суб'єктивна оцінка користувачем ступеня відповідності знайденої інформації його потребі або корисність знайденого для рішення поставленого завдання

Релевантність та пертинентність пошуку вимірюється за допомогою спеціальних коефіцієнтів – відношення кількості релевантних (пертинентних документів) до загальної кількості документів, посилання на які дають у результатах пошуку ІПС

Різні пошукові системи використовують різні алгоритми ранжування, однак основними принципами визначення релевантності є наступні:

  • Кількість слів запиту у текстовому вмісті документу (тобто в html-коді).

  • Теги, в яких ці слова розташовуються.

  • Місцеположення шуканих слів у документі.

  • Питома вага слів, відносно яких визначається релевантність, у загальній кількості слів документу.

Ці принципи застосовуються всіма пошуковими системами. А наведені нижче використовуються деякими, але достатньо відомими (наприклад, AltaVista).

Час - як довго сторінка знаходиться в базі пошукового сервера. Якщо сайт існує досить довго, це означає, що його власник є досвідченим за даною темою і користувачу більше підійде сайт, що існує вже кілька років, ніж той, який з'явився тиждень тому за цією ж темою.

Індекс цитування - як багато посилань на дану сторінку веде з інших сторінок, що зареєстровані у базі пошуковика.

База даних виводить ранжований таким чином перелік документів з HTML і повертає його користувачу, який зробив запит. Різні пошукові механізми вибирають різні способи показу отриманого переліку - деякі відображають лише посилання, інші виводять посилання з декількома першими реченнями документу або заголовок документу разом з посиланням. Коли користувач звертається до посилання на один з документів, цей документ завантажується з сервера, на якому він знаходиться.

За способом організації інформації інформаційно-пошукові системи поділяються на 2 види: словникові і тематичні (рубрикатори).

Словникові пошукові системи –  це могутні автоматичні програмно-апаратні комплекси, які складаються з трьох головних елементів:

  • пошуковий робот - програма, яка регулярно здійснює сканування максимально можливої кількості доступних їй web-сайтів і заносить інформацію про сторінки в індекси системи;

  • індекс системи – база даних пошукової системи, де зберігаються перетворені особливим чином текстові складові всіх відвіданих роботом html-сторінок і інших файлів,

  • система пошуку – програма, яка обробляє запит користувача, знаходить в індексі документи, що відповідають критеріям запиту, і виводить список знайдених документів в певному порядку.

Тематичні пошукові системи (рубрикатори) –– це інформаційно-довідкові системи, які створюються вручну редакторами на основі інформації, зібраної на серверах Інтернету. Вони мають деревовидну структуру. Каталоги організуються за темами і, як правило, містять гіперпосилання для повернення на верхній рівень веб-сайту каталогу, а не на окремі сторінки у межах цього веб-сайту. Користувачі каталогів починають пошук, вибираючи загальну тему чи відповідну тематичну категорію, а потім крок за кроком звужують межі пошуку.

Основною перевагою такого засобу пошуку є чітка відповідність змісту сайтів тематиці, оголошеній для кожного розділу. Недоліком є неповне охоплення існуючих у мережі ресурсів, оскільки відслідкувати весь обсяг інформації, наявної в Інтернеті, практично нереально навіть для значної кількості персоналу, яких обслуговує сервер. Якщо в одному тематичному каталозі не одержано задовільних результатів, слід звернуться до іншого. Результати пошуку в тематичних каталогах часто бувають дуже різними, оскільки веб-сайти, що включаються до кожної тематичної категорії, обираються вручну людьми, а не машинами.

Як знайти потрібну інформацію? Коли ви вже були на сайті, і знаєте конкретну адресу, питань немає. Але якщо її місцезнаходження невідоме?

Існують два способи.

Перший: ви знаєте, де інформація може з'явитися. Наприклад, чекаючи появи новин, ви можете навідатися на сайт novosti.com.ua, або портал новин www.newsukr.net , якщо новини стосуються нашої країни або світу.

Для здійснення такого пошуку існують каталоги Інтернет-ресурсів. Вони мають ієрархічну структуру, верхній рівень якої утворюють 10-15 найзагальніших предметних або тематичних категорій. Ці категорії підрозділяються на рубрики, які у свою чергу можуть мати ще більш дрібне ділення.

Але якщо ви знаєте тільки що вам потрібно, та не знаєте де це може знаходитися?

На цей другий випадок існують пошукові машини, або "пошукачі". Пошукова машина регулярно, щодня, 24 години на добу обходить всі адреси Інтернет, проглядає сторінки і вносить їх до своєї бази. Цей процес називається індексацією. Пошукач обходить всі відомі йому сайти, сам шукає нові і включає їх в свій "шляховий лист".

Практика показує, що в основному люди на запит з 1-2 слів отримують абсолютно не потрібну для себе інформацію. Чому так відбувається? Переважна більшість доступних користувачам пошукових систем уміють шукати лише за ключовими словами, які вводять користувачі

Для ефективного пошуку інформації в Інтернет за допомогою пошукової машини пропонуємо деякі практичні поради (представлені правила найбільш загальні; всі відмінності, що стосуються якогось конкретного пошукача завжди можна знайти в розділі «Help»):

1. Перш за все необхідно визначитися з метою пошуку. (і мовою запиту: рос., укр, англ. та ін.). При цьому потрібно концентруватися не тільки на самій меті, але і на тому, що може їй супроводити (ключові слова, спеціальні терміни, дієслова і так далі). Кількість україномовних сторінок в мережі Інтернет значно нижча, ніж російськомовних і тим більш англійських.

2. Як вибрати пошукову систему? Найпопулярнішими для пошуку російською мовою є Яндекс (www.yandex.ru) і Google (www.google.ru). Українську мову підтримують всі російськомовні системи. Крім того існує українська пошукова система МЕТА (meta.ua), але база її дещо обмежена. Для пошуку на іноземних мовах використовують Google (більше 30-ти мов), який має зручну настройку, де можна задати: «Шукати сторінки тільки такими мовами».

Іноді для пошуку якоїсь найсвіжішої інформації, можливо, потрібно буде використовувати декілька пошукових машин (так званий метапошук).

Пошукові машини розрізняються не тільки підтримуваними мовами. Різниця в способах індексування дає різні результати при пошуку. По одному і тому ж запиту, наприклад, “Яндекс” видає результат – 110534 сторінок, Google – 54500 сторінок, Апорт - 784, Рамблер –240069.

3. Для простого пошуку зайдіть на будь-який з сайтів пошукачів і в рядок пошуку введіть необхідну фразу. Наприклад: Вам необхідно знайти розклад потягів що проходять через Львів. Як загальний запит можна так і спробувати "запитати" пошукову систему: «розклад всіх потягів що проходять через львів» (лапки не потрібні). Реєстр - тобто рядкові букви або прописні - значення не має.

Проте, по такому запиту, наприклад, Яндекс, знаходить лише розклади поїздів, що проходять через Самару, Тернопіль, але Львова серед результатів пошуку може не бути. Це у жодному випадку не означає, що цієї інформації в базі пошукової системи немає, просто запит був сформульований не дуже вдало.

Будь-яка пошукова система прагне знайти сторінки, на яких знаходиться максимальна кількість слів з запиту, більш того, якщо ці слова ще слідують одне за одним, то такі сторінки будуть виведені першими. Тобто, наприклад, якщо в тексті сторінки зустрічається фраза «розклад всіх потягів, що проходять через Рівне», то за відсутності такої ж фрази «розклад всіх потягів, що проходять через Львів» система визначить, що вони мають 5 спільних слів, тобто з великою вірогідністю сторінка, що містить цю фразу вам підійде, хоча це і не так. Тому потрібно такий запит скоректувати, прибравши всі слова-паразити і залишивши тільки слова, які точно характеризують вашу потребу. У нашому випадку словами-паразитами є слова «всіх, що проходять, через», які можуть зустрічатися на яких завгодно сторінках. Задавши скоректований запит «розклад потягів львів», отримаємо в точності те, що шукали.

4. Пошукова машина сама розташовує результати пошуку по релевантності, тобто по якнайкращій відповідності запиту. Це означає, що найпершими будуть розташовані посилання на документи, в яких слова, що шукаються, знаходяться поряд одне з одним, ближче до початку сторінки або в заголовках. Результати пошуку виводяться посторінково. Кількість посилань на одній сторінці автоматично для більшості пошукачів дорівнює 20, але це число можна змінити в настроюваннях.

5. Іноді необхідно не прибирати зайві слова, а навпаки деталізувати запит, якщо слова, задані для пошуку, дуже загальні. А результати настільки схожі, що легко вибрати потрібне з десятків або сотень сторінок не є можливим?

Наприклад, пошук по слову "медики" дасть тисячі абсолютно різноманітних документів; "львівські медики" звузить круг пошуку; "львівські медики Кривко" буде точним.

6. В більшості випадків просто скоректувати запит недостатньо. Необхідно використовувати оператори мови запитів пошукової системи, яку використовуєте. Ці оператори допоможуть знаходити таку інформацію, яку за допомогою простих запитів знайти абсолютно неможливо.

Оператори, спільні для всіх пошукових систем.

6.1. Оператор строгої відповідності, як правило, в сучасних пошукових системах це лапки "". Поєднання слів, які ви вкажете в лапках, враховуватиметься системою як єдине ціле, тобто таким чином ви задаєте порядок слідування слів одне за одним. Наприклад, за запитом медична інформатика можна отримати в результатах пошуку сторінки із словами, що згадуються відособлено, тобто на одній сторінці може бути слово медична, на іншій - інформатика і т. д. Конструкція ж "медична інформатика" в лапках примушує пошукову систему відкинути всі зайві сторінки і показувати лише ті, на яких ці два слова йдуть одне за одним.

6.2. Оператор обов'язкової наявності слова "+" (плюс або «&», або AND) і оператор обов'язкової відсутності слова "-" (мінус або NOT). Наприклад, якщо ви хочете знайти сайт журналу «Acta Medica», достатньо до запиту "медичні журнали" додати + «Acta Medica». Якщо ж потрібно вивести всі журнали, окрім «Acta Medica», потрібно ввести: "медичні журнали" - «Acta Medica».

Достатньо часто буває корисно, щоб необхідні ключові слова були присутні в межах одного документа. Для цього необхідно використовувати оператор логічного «І» AND. Проте, у всіх пошукових системах це ж можна зробити, поставивши звичайний пропуск (Space). Наприклад, запити: медичні журнали і медичні AND журнали, як правило, дадуть один і той же результат.

6.3. Оператор логічного «АБО», у якості якого використовується логічний оператор OR (знак « ») дозволяє знайти хоч би одне слово із запиту. Наприклад, за допомогою запиту: медичні OR журнали можна знайти документи, в яких зустрічається або слово медичні, або слово журнали.

6.4. Складні запити за допомогою логічних операторів можна здійснювати, використовуючи круглі дужки: обласні AND (архіви OR бібліотеки); (бібліотеки OR архіви) + (обласні OR міські). Дужки задають певний порядок ключових слів і виконання їх операторів.

6.5. Пошук без урахування морфології. Щоб зафіксувати словоформу без розгляду машиною її морфологічних варіацій в рядку запиту перед терміном ставиться знак "!". Наприклад: !інформація !база !даних

6.6. Усікання (пошук по частині ключового слова). Як правило, для цієї мети вживаються знаки: «*» (позначає довільну частину слова) і «?» (позначення будь-якого символу). Запит Комп'ютер* дасть результати: “Комп'ютер”,”комп'ютерра”, ”Комп'ютерники” і т. д. Запит: к?мпанія – результат: кампанія або компанія.

6.7. Реєстр букв: сучасні системи розрізняють слова, набрані прописними і рядковими буквами. Якщо ключові слова починаються з великої літери або повністю введені великими літерами, то ці ж слова написані рядковими буквами, знайдені не будуть. При введенні ключових слів рядковими буквами область пошуку розширюється, тому що ключові слова шукаються незалежно від реєстра.

6.8. Оператор пошуку синонімів (~): Якщо необхідно знайти тексти, що містять не тільки ключові слова, але і їх синоніми, то можна скористатися оператором "~" перед словом, до якого необхідно знайти синоніми. Наприклад: Види ~метаморфоз

6.9. Оператор діапазону (..): Для тих, кому доводиться працювати з цифрами, Google дав можливість шукати діапазони між числами. Для того, щоб знайти всі сторінки, що містять числа в якомусь діапазоні «від, - до», треба між цими крайніми значеннями поставити дві крапки (..), тобто, оператор діапозону.

Наприклад: Чисельність населення 1913..1935

7. Розширений пошук, або пошук з умовами різного ступеня складності - представляє широкі можливості для деталізації запиту, введення додаткових параметрів пошуку, фільтрів і т. д. (без знання мови запитів і його операторів).

8. Складнішим (і від того менш використовуваним) є Представлення необхідного документа як образа.

8.1. Заголовок кожної сторінки стисло і точно характеризує її вміст. Відшукати, наприклад, яку-небудь книгу в електронному вигляді дуже просто. Звичайно, можна спробувати її знайти, просто задавши в пошуковій системі прізвище автора і назву і врешті-решт цю книгу знайти. Можна шукати необхідну інформацію прямо в заголовках сторінок, минувши інший їх зміст.

Простий приклад - потрібно знайти, припустимо, книгу М.Булгакова "Мастер и Маргарита". Спершу складаємо образ потрібної нам сторінки - швидше за все, в її заголовку можуть знаходитися і прізвище автора, і назва твору. Далі потрібно з'ясувати, як включити розширені можливості пошуку по заголовку в пошуковій системі, яку використовуватимемо. Наприклад, в Яндексі для пошуку по заголовках потрібно використовувати конструкцію $title( ), таким чином, наш запит може виглядати як: $title(булгаков "мастер и маргарита"). Для пошуку по заголовках у Google використовується абсолютно інша конструкція - allintitle.

8.2. Але не тільки заголовки корисні при пошуку потрібної інформації. Значну допомогу може надати і текст посилань. Адже будь-який сайт має певну структуру, тобто якісь посилання, які ведуть на його сторінки або сторінки інших сайтів. Кожне таке посилання має власний опис, за значенням сумісне, а часто і більш інформативне, ніж заголовок самої сторінки, на яку вона веде. Адже і в текстах посилань теж можна шукати.

Наприклад, ми хочемо знайти в Мережі якийсь файл, наприклад, викачати останню версію універсального музичного програвача winamp. Оскільки програма ця відома, то, ймовірно, існує немало сайтів, на яких є посилання на сторінку, де можна викачати останню версію winamp. Якщо спробувати пошукати в тексті цих посилань, швидше за все однєєю з перших в результатах пошуку з'явиться потрібна нам сторінка, оскільки решта всіх посилань веде саме на неї. Для пошуку в описах посилань в Google використовується оператор allinanchor, отже, запит можна сформулювати приблизно так: allinanchor: winamp download.

8.3. Оператор cache: пошукова машина зберігає версію тексту, яка проіндексована пошуковим павуком, в спеціальному сховищі у форматі, званому кешем. Кешировану версію сторінки можна витягнути, якщо оригінальна сторінка недоступна (наприклад, не працює сервер, на якому вона зберігається). Кеширована сторінка показується в тому вигляді, в якому вона зберігається в базі даних пошукової машини і супроводжується написом нагорі сторінки про те, що це сторінка з кеша. Там же міститься інформація про час створення кешированої версії. На сторінці з кеша ключові слова запиту підсвічуються, причому кожне слово для зручності користувача підсвічується своїм кольором. Можна створити запит, який відразу видаватиме кешировану версію сторінки з певною адресою: cache:адрес_страницы, де замість "адрес_страницы" - адреса збереженої в кеші сторінки. Якщо потрібно знайти в кеш-сторінці певну інформацію, треба після адреси сторінки через пропуск написати запит цієї інформації. Наприклад: cache:www.bsd.com; cache:www.knights.ru турніри

8.4. Оператор filetype: Як відомо, Google індексує не тільки html сторінки. Якщо, наприклад, знадобилося знайти яку-небудь інформацію у відмінному від html типі файлу, можна скористатися оператором filetype, який дозволяє шукати інформацію в певному типі файлів (html, pdf, doc, rtf...).

8.5. Оператор info - дозволяє побачити інформацію, яка відома Google про відповідну сторінку. Наприклад: info:www.wiches.ru; info:www.food.healthy.com

8.6. Оператор site - оператор обмежує пошук конкретним доменом або сайтом. Наприклад: Магльований site:www.meduniv.lviv.ua

8.7. Оператор link - дозволяє побачити адреси всіх сайтів, які посилаються на сторінку, щодо якої зроблено запит. Так, запит link:www.google.com видасть сторінки, в яких є посилання на google.com.

8.8. Оператор allintitle: якщо запит почати з оператора allintitle, що перекладається як "все в заголовку", то Google видасть тексти, в яких всі слова запиту містяться в заголовках (всередині тега TITLE в HTML). Наприклад: allintitle:Безкоштовна медицина

8.9. Оператор intitle - показує сторінки, в яких тільки те слово, яке стоїть безпосередньо після оператора intitle, міститься в заголовку, а решта всіх слів запиту може бути в будь-якому місці тексту. Якщо поставити оператор intitle перед кожним словом запиту, це буде еквівалентно використанню оператора allintitle. Наприклад: Програми intitle:Скачати.

8.10. Оператор allinurl: Якщо запит починається з оператора allinurl, то пошук обмежений тими документами, в яких всі слова запиту містяться тільки в адресі сторінки, тобто в url. Наприклад: allinurl:rus games.

8.11. Оператор inurl: Слово, яке розташовано безпосередньо перед оператором inurl (без пробілу між ними), буде знайдено тільки в адресі сторінки Інтернету, а решта слів – в будь-якому місці такої сторінки. Наприклад: inurl:books скачати.

8.12. Оператор related: Цей оператор описує сторінки, які "схожі" на якусь конкретну сторінку. Так, запит related:www.google.com видасть сторінки з схожою з Google тематикою. Наприклад: related:www.ozone.com.

8.13. Оператор define: Цей оператор виконує роль своєрідного тлумачного словника, що дозволяє швидко отримати визначення того слова, яке введене після оператора. Наприклад: define:дизентерія.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]