Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Засоби збору...(посіб)_1.doc
Скачиваний:
21
Добавлен:
05.03.2016
Размер:
672.26 Кб
Скачать

1.6. Автоматизовані інформаційно-пошукові системи

Одним із різновидів інтелектуальних автоматизованих інформаційних систем є інформаційно-пошукові системи (ІПС) — сукупність методів і засобів, призначених для зберігання та пошуку документів, відомостей про них чи певних фактів. Отже, головне завдання автоматизованих ІПС полягає в тому, щоб із сукупності даних, які належать до системи, знайти й вибрати ті, які найбільше відповідають інформаційним потребам споживача.

Розрізняють кілька типів автоматизованих інформаційно-пошукових систем.

За тематикою та змістом інформаційних масивів, що зберігаються в базі даних, автоматизовані ІПС бувають галузеві, полі- та вузькотематичні.

За типом інформації, що зберігається в системі, автоматизовані ІПС поділяються на документальні та фактографічні. Документальними ІПС є такі автоматизовані системи, об'єктом зберігання та пошуку в яких є документи. У фактографічних ІПС об'єктом зберігання та пошуку є окремі дані, що характеризують будь-які події, процеси чи явища.

Чіткої межі між документальними та фактографічними автоматизованими ІПС не існує, кожна подія (явище), перш ніж стати об'єктом зберігання чи пошуку в автоматизованій ІПС, має бути якось зафіксована, тобто відображена в певних документах.

За режимом функціонування автоматизовані ІПС поділяються на автоматизовані системи з вибірковим та ретроспективним пошуком інформації.

Інформаційний пошук — це сукупність операцій, необхідних для відшукання в автоматизованій ІПС документів, текстів, відомостей, фактів і даних, які відповідають на запит користувача.

Операція пошуку — це основна операція в автоматизованій ІПС. Сутність пошуку полягає в ідентифікації відомостей, які зберігаються в такій системі з інформаційним запитом.

До систем з вибірковим пошуком належать автоматизовані ІПС в яких пошук виконується за постійним набором запитів для певного контингенту користувачів у масиві поточних надходжень документів чи даних через певні інтервали часу. При цьому змінюється зміст масивів ІПС, а запити лишаються без змін. У системах з ретроспективним пошуком останній виконується за всіма масивами, що зберігаються в системі, згідно з разовими за­питами, які змінюються залежно від інформаційних потреб користувача.

Аналіз схеми комп'ютерної ІПС показує, що в автоматизованій ІПС виконуються такі основні операції:

• введення до системи так званих пошукових образів документів чи пошукових образів разом із самими документами;

• зберігання інформації в системі;

• формування запитів і пошукових розпоряджень та введення їх до системи;

• пошук (порівняння пошукових образів документів з пошуковими розпорядженнями), прийняття рішення про видачу відповідної інформації;

• видавання інформації, що відповідає інформаційному запиту.

Найефективніший засіб пошуку інформації — це перегляд кожного документа і перевірка його на відповідність інформаційному запиту. Проте для зберігання в автоматизованій ІПС повних текстів документів потрібні великі трудовитрати на перенесення цих текстів до пам'яті ЕОМ. Крім того, зберігання інформації в повному обсязі потребує значного обсягу пам'яті, а сам інформаційний пошук стає вельми тривалим. Тому в комп'ютерних інформаційно-пошукових системах по­шук виконується не за текстам самих документів, а за їх стислими характеристиками, які називаються пошуковими образами (ПОб).

Пошуковий образ — це виражений у термінах інформаційно-пошукової мови основний зміст документа, який підлягає зберіганню в автоматизованій ІПС.

Процедура визначення пошукового образу називається індексуванням і полягає в семантичному аналізі основного змісту Документа й перекладі його на інформаційно-пошукову мову (ІПМ). Отже, у комп'ютерній ІПС зберігаються не тексти Документів, а їх пошукові образи. Для пошуку документів перекладу на ІПМ (тобто індексації) підлягають й інформаційні запити.

Інформаційний запит, перекладений на ІПМ і доповнений для пошуку допоміжною інформацією (серія, рік видання тощо), називається пошуковим розпорядженням (ПР). Рішення про успішне закінчення пошуку може бути прийняте не обов'язково в разі повного (100-відсоткового) збігу пошукового образу та пошукового розпорядження. Для прийняття рішення про успішне закінчення пошуку може бути достатньо збігу пошукового розпорядження і пошукового образу на 70 і навіть на 50 %. Усе залетить від критерію пошуку, який може змінюватися за бажанням користувача. Тобто результатом пошуку текстової інформації може бути не один документ, а деяка їх множина, із якої споживач може вибрати ті документи, які найбільше відповідають його інформаційній потребі.

Процес індексування виконується вручну (тобто людиною). Досі не знайдено ефективного формального методу, за допомогою якого можна було б автоматизувати процес семантичного аналізу і визначення основного змісту документів. Під час індексування людина вивчає зміст документа, виокремлює його центральну тему та описує її в термінах інформаційно-пошукової мови. Для деяких документів їх назви розкривають центральну тему і предмет, але за назвою не завжди можна ідентифікувати документ. Ступінь докладності вираження в ПОб документа його центральної теми чи предмета, а також супутніх тем і предметів називається глибиною індексування. Кожна людина один і той самий документ може індексувати по-своєму, тому автоматизація цього процесу дала б змогу забезпечити його уніфікацію, звільнивши частину персоналу від важкої непродуктивної праці з індексування документів.

Кожна автоматизована ІПС містить у своєму складі певний набір семантичних засобів: інформаційно-пошукову мову, методи індексування документів та запитів, методи пошуку. Основу семантичних засобів становить ІПМ. Інформаційно-пошукова мова — це спеціалізована штучна мова, яка призначена для опису центральних тем чи предметів і формальних характеристик документів, а також для опису інформаційних запитів і подальшого виконання пошуку. Іноді в комп'ютерних ІПС одну мову використовують для індексації документів, а іншу — для індексації інформаційних запитів.

До інформаційно-пошукової мови ставиться низка вимог. Вона має:

* забезпечувати достатній набір лексико-граматичних засобів Для точного вираження центральних тем чи змісту будь-якого тексту (документа) і теми довільного інформаційного запиту;

* бути однозначною, тобто кожний запис цією мовою мусить мати лише одне семантичне тлумачення;

* бути зручною для зіставлення та повного або часткового порівняння ПОб і ПР;

* бути компактною, мати невелику вартість і бути відкритою для можливого розширення та внесення змін.

Жодна з природних мов не може бути використана як ІПМ через недостатню структуризацію, численні граматичні включення, неоднозначність і велику надлишковість. Наприклад, надлишковість української мови досягає 75—80 %.

В ІПМ не дозволяється використовувати характерні для природної мови синоніми та омоніми, оскільки вони надають мові семантичної неоднозначності.

Основними елементами ІПМ є алфавіт, лексика, граматика, парадигматичні (базові) відношення, правила побудови індексів та їх ідентифікація.

Алфавітом називається система графічних знаків, використовувана для фіксації слів і висловлювань мови. Лексика мови — це сукупність використовуваних у ній слів. Граматика — це сукупність діючих засобів мови та правил побудови висловлювань з їх допомогою. Відношення між словами, що не залежать від контексту, в якому вони використовуються, і породжені не мовними, а логічними зв'язками, називаються парадигматичними відношеннями. Ці відношення називаються також аналітичними, або базовими. Завдяки предметно-логічним зв'язкам слова на основі тієї чи іншої семантичної ознаки можуть об'єднуватися в лексико-семантичні групи, які називаються парадигмами. Наприклад, слова «магнітна стрічка», «магнітний диск», «перфокарта», «перфострічка», «дискета» утворюють тематичну групу під назвою «носії інформації». У середовищі цієї групи зазначені слова можна об'єднати в лексико-семантичні парадигми «носії паперові» та «носії магнітні».

Іншим типом відношень, що пов'язують слова кожної мови, є такі лінійні відношення, які безпосередньо встановлюються при об'єднанні слів у словосполучення та фрази. Такі відношення називаються синтагматичними. Одним із найпростіших видів синтагматичних відношень є таке, коли до того чи ін­шого поняття приєднується ще одне, яке пояснює перше і вказує на те, що це поняття є власним ім'ям, визначенням чи певним видом діяльності. Наприклад, якщо документ стосується винахідника і його винаходу, то поняття, пов'язані з винахо­дом, і поняття, пов'язані з винахідником, мають різні назви, щоб уникнути плутанини при виконанні пошуку («Дизель» — винахідник і «дизель» — двигун).

Отже, можна зробити висновок, що парадигматика спирається на певну сукупність (перелік) пов'язаних між собою мовних одиниць. Що ж до синтагматики, то вона потребує певних правил об'єднання цих одиниць у словосполучення. Парадигматику мови можна з певним припущенням порівняти з її лексикою, а синтагматику мови — з її граматикою. Тому при розробці ІПМ слід звернути увагу на такі моменти:

* специфіка галузі чи предмета, для якого ця мова розробляється;

* особливості документів або текстів, які утворюють пошуковий масив даних;

«характер інформаційних потреб споживачів, для задоволення яких створюється комп'ютерна ІПС.

Доцільність використання тієї чи іншої мови багато в чому залежить від призначення автоматизованої ІПС, рівня її оснащення технічними засобами, рівня автоматизації інформаційних процедур і ланки управління. Для зберігання інформації в технічних архівах і бібліотеках використовують, як правило, мови, що належать до традиційних бібліотечно-бібліографічних класифікацій. Словниковий склад цих мов задається у вигляді фіксованого списку слів і словосполучень. Це мови класифікаційного типу. До них належать такі системи класифікації, як ієрархічна, фасетна, алфавітно-предметна.

З огляду на зростання інформаційних потоків та інформаційних потреб розглянуті мови кваліфікаційного типу не задовольняють вимог сучасних комп'ютерних ІПС через дуже обмежений словниковий запас, який важко поповнювати. Тому мови цієї групи використовуються лише у вузькоспеціалізованих системах.

Більш поширені інформаційно-пошукові мови дескрипторного (від фр. description — описання) типу. Цей тип мови характеризується тим, що її словниковий запас обмежується окремими ізольованими словами та словосполученнями, розміщеними в алфавітному порядку. Дескрипторна мова ґрунтується на методі координатного індексування, який дає змогу виражати зміст до­кумента установленням відповідності між його текстом і деякою множиною ключових слів, або дескрипторів. Саме тому дескрипторні мови називають посткоординатними. На противагу їм традиційні бібліотечно-бібліографічні мови відносять до передкоординатних. До посткоординатних мов належать дескрипторні та синтагматичні мови, а також семантичні коди.

В автоматизованих інформаційно-пошукових системах з УТР найчастіше використовують дескрипторні мови. Вони експлуатуються у двох варіантах: обробка документів і запитів за допо­могою інформаційно-пошукового тезаурусу та безтезаурусне введення і пошук документів.

При використанні дескрипторної мови основний зміст запиту чи документа виражається у вигляді деякої сукупності слів чи словосполучень природної мови. Слова та словосполучення є іменами деяких класів понять. Слово та словосполучення, яке належить до пошукового образу, задає координати документа в багатовимірному просторі ознак.

Для координатного індексування документів чи запитів як лексичні одиниці ІПМ можна використовувати слова, що безпосередньо вибираються з індексованих текстів. Такі слова (словосполучення) називають ключовими словами.

Відомо, що пошук в автоматизованій ІПС зводиться до формального порівняння пошукового образу документа та пошукового розпорядження (запиту). Але простий вибір ключових слів із тексту для послівного порівняння ПОБ і ПР неприйнятний з таких причин: можливе різне написання одних і тих самих слів; серед ключових слів є дуже багато синонімів та омонімів; ключові слова не визначають родово-видові відношення між словами.

Наприклад, темою запиту є отримання інформації про номенклатуру напівпровідникової продукції, що виробляється на підприємстві. При виконанні запиту документація, яка містить інформацію про транзистори, не буде видана у відповідь на запит, незважаючи на те, що поняття «напівпровідник» ширше за поняття «транзистор».

Для усунення цих недоліків при розробці дескрипторної мови виконується спеціальний лексограматичний контроль, будуються спеціальні словники, схеми, таблиці, які дають змогу виражати парадигматичні відношення між термінами індексування. Для дескрипторної мови розробляється спеціальний синтаксис.

Лексикографічний контроль полягає в тому, що всі ключові слова зводяться до нормального вигляду, тобто до єдиної форми написання і повного усунення синонімії, омонімії та різного роду багатозначностей за допомогою спеціального нормативного словника. У цьому словнику в єдиній морфологічній формі подаються всі ключові слова. Зі списку ключових слів вибираються слова, які в межах даної ІПМ є синонімами. Ці ключові слова групуються в класи умовної еквівалентності (параді). Із кожної такої групи вибирається одне слово чи словосполучення, яке є семантичною домінантою, тобто найповніше визначає зміст слів цієї групи. Усі такі слова стають дескрипторами, тобто лексичними одиницями ІПМ.

Отже, дескриптори — це необхідні для координатного індексування документів та інформаційних запитів нормативні ключові слова, вибрані з основного словникового складу природної мо­ви так, щоб серед них не було синонімів та багатозначних.

Дескрипторною мовою називається спеціалізована інформаційно-пошукова мова, словниковий склад якої становлять дескриптори, а граматику — способи побудови пошукових образів і пошукових розпоряджень координуванням відповідних дескрипторів.

Словниковий склад інформаційно-пошукової мови розпадає­ться на дві частини:

1) основний словниковий склад, який утворюють дескриптори. Число таких дескрипторів може досягати кількох тисяч для однієї галузі;

2) ключові слова, що позначають чи виражають власні імена, вузькі чи нові поняття, специфічні найменування, кількісні характеристики тощо.

Дескриптори та ключові слова з певної галузі записуються в алфавітному порядку й утворюють нормативний словник.

Для забезпечення якісного пошуку інформації, крім проведен­ня лексографічного контролю та побудови списку дескрипторів і ключових слів, необхідно створити спеціальний нормативний словник, в якому лексичні одиниці мають бути взаємопов'язані й визначені. Такий словник відображує як внутрішньотекстові, так і позатекстові зв'язки, й називається тезаурусом. Тезаурус в перекладі з грецької означає запас, клад, багатство. Отже, множина дескрипторів і ключових слів разом з їх відношеннями утворює тезаурус.

Тезаурус є зібранням лексики штучної мови. Його можна визначити як тлумачний словник навпаки. Якщо в тлумачному словнику за словом знаходять його значення, то в тезаурусі — за словами відшукують зміст, який вони виражають.

Інформаційно-пошуковий тезаурус (ІПТ) виник передусім як допоміжний апарат автоматизованої ІПС, що будується у вигляді списку термінів і зв'язків між ними. ІПТ дає змогу перекладати основний зміст документів та інформаційних запитів з природної мови на інформаційно-пошукову.

Для виконання цієї операції у тезаурусі мають бути відображені парадигматичні відношення, які існують між термінами ІПМ. Парадигматичні відношення — це позатекстові відношення, які відображають залежності між процесами чи об'єктами реальної предметної області. Це відношення типу рід — вид, частина — ціле, причина — наслідок тощо. Отже, парадигматичні відношення не залежать від контексту, в якому використовуються ті чи інші слова, і породжені не мовними, а логічними зв'язками, які існують в реальній дійсності.

Головні етапи побудови інформаційно-пошукового тезаурусу такі:

* вибір лексичних одиниць тексту, тобто ключових слів, які виражають основний його зміст чи центральну тему;

* групування лексичних одиниць тексту в класи умовної еквівалентності, тобто аналіз їх щодо синонімії та вибір семантичних домінант (дескрипторів);

* установлення парадигматичних відношень між лексичними одиницями тексту;

* оформлення ІТП.

Існують ручний та автоматизований способи встановлення парадигматичних відношень між ключовими словами. Для відшукання таких відношень визначають дескрипторні статті, або гнізда.

Дескрипторна стаття, або гніздо, тезаурусу — це сукупність головного дескриптора та дескрипторів, пов'язаних з ним позатекстовими зв'язками.

При ручному способі аналізують словник ключових слів. Для цього кожну лексичну одиницю тексту (термін) послідовно крок за кроком порівнюють з рештою слів, щоб виявити зв'язки її з іншими лексичними одиницями. Таку роботу виконує висококваліфікований спеціаліст, добре обізнаний з термінологією тієї предметної області, для якої розробляється автоматизована ІПС. Проте ця робота досить трудомістка й складна і потребує дуже багато часу.

Побудова дескрипторних статей, або гнізд, при автоматизованому способі ґрунтується на принципі встановлення зміс­тової єдності пар елементів словника статистичним методом. Основою цього методу є гіпотеза про те, що ті лексичні оди­ниці тексту, для яких частота попарного використання в межах групи вища за деяку порогову величину, утворюють класи близьких за значенням термінів. Коефіцієнт сумісності визначається так:

де: С — коефіцієнт сумісності пар ключових слів;

К — число документів, де використовуються обидві одиниці

тексту;

М — число одиниць тексту, де використовується принаймні одна із зазначених одиниць.

Здобуті групи взаємопов'язаних дескрипторів зазначеним способом аналізує фахівець, і лише після цього формується дескрипторна стаття. Статистичним методом можна встановити тільки саму наявність зв'язку, а тип його визначає фахівець.

Формалізовано дескрипторну статтю можна подати у такому вигляді:

де: Д — основний дескриптор;

Мс — сукупність ключових слів, які належать до класу умовної послідовності дескрипторів;

Мв — сукупність дескрипторів, які безпосередньо підпорядковують основний дескриптор;

Мн — сукупність дескрипторів, підпорядкованих основному дескриптору;

Ма — сукупність дескрипторів, пов'язаних з основним дескриптором слабкими зв'язками (асоціації).