- •1. Искусственный интеллект
- •2. Модели знаний
- •3. Семантические базы данных иис
- •3.1. Общие положения
- •3.2. Средства описания предметной области
- •4.2. Эвристические методы поиска решений
- •5. Проблема Распознавания образов
- •6. Автоматизированное формирование знаний
- •7. Информационно-поисковые системы
- •7.1. Общие положения
- •7.2. Структура дипс
- •7.3. Недостатки естественного языка
- •7.4. Информационно-поисковые языки
- •7.5. Обработка входящей информации
- •7.6. Лингвистический анализ
- •7.7. Автоматическое индексирование
- •7.8. Автоматическое рубрицирование
- •7.8.1. Рубрицирование, основанное на знаниях
- •7.8.2. Рубрицирование, основанное на примерах
- •7.9. Поиск текстовой информации
- •7.9.1. Модели поиска информации
- •7.9.2. Методы обратной связи с пользователем
- •7.10. Оценка качества дипс
- •8. Онтологии
- •8.1. Общие положения
- •8.2. Создание онтологий
- •9. Интеллектуальные интернет-технологии
- •9.1. Языки разметки документов
- •9.2. Программные агенты
- •9.3. Информационный поиск в среде интернет
- •Библиографический список
- •Оглавление
- •Редактор р.К. Мангутова
- •390005, Рязань, ул. Гагарина, 59/1.
7.5. Обработка входящей информации
Поскольку информация, поступающая на вход ДИПС, записана на ЕЯ, в ней обязательно должна проводиться операция перевода текстов входных документов с ЕЯ на ИПЯ. В случае применения ИПЯ дескрипторного типа такая операция перевода называется индексированием, при использовании рубрикатора – рубрицированием.
При использовании в ДИПС ИПЯ без грамматики и без контроля по словарю говорят о полнотекстовом индексировании.
В операции перевода можно выделить два этапа. Первый этап – анализ смыслового содержания текста с целью выделения из него сведений об известных системе объектах, их свойствах, а также отношениях между ними. Второй этап – выражение этих сведений на ИПЯ, т.е. принятие решения о приписывании данному сообщению выражений на ИПЯ (включение выражений на ИПЯ в ПОД).
Анализ смыслового содержания текста связан с необходимостью использования лингвистических и экстралингвистических знаний. Лингвистические знания являются общими для одного языка и относительно хорошо формализованными, в то время как экстралингвистические сильно зависят от конкретной предметной области. Поэтому этап анализа текста проще всего вести на лингвистическом уровне с целью нормализации слов и предложений, под чем понимается приведение их к канонической форме (например, для существительных – к именительному падежу, единственному числу и т.п.; для словосочетаний – нормализация составляющих и запись их в определенной последовательности). Нормализованные слова и словосочетания называют терминами.
7.6. Лингвистический анализ
Обычно под лингвистическим анализом понимают морфологический и синтаксический анализ.
Цель морфологического анализа состоит в получении основ (путем отсечения окончаний) словоформ со значениями грамматических категорий (например, часть речи, род, число, падеж).
Лингвистический анализ может быть точным и приближенным. Точные методы морфологического анализа базируются на использовании словаря основ слов или словоформ, приближенные – на экспериментально установленной связи между конечными буквосочетаниями словоформ и их грамматической информацией.
Использование словаря словоформ в точных методах позволяет легко преодолевать трудности морфологического анализа, связанные с такими явлениями в русском языке, как, например, чередование гласных и согласных. При таком подходе задача получения основ слов и грамматических признаков сводится в основном к поиску в словаре и выбору соответствующей информации. При достаточно полном словаре скорость обработки материала достаточно высока, но объем необходимой памяти выше, чем при использовании словаря основ.
Морфологический анализ с использованием словаря основ базируется на флективном анализе, цель которого – правильное выделение основы слова. В частности, для преодоления проблемы омонимии основ слов проверяется совместимость выделенной основы слова и его окончания.
В основе приближенных методов морфологического анализа лежит гипотеза, согласно которой по конечным буквам и буквосочетаниям можно практически однозначно определить грамматический класс слова. Основа слова выделяется следующим образом: от конца слова последовательно отсоединяется по одной букве и полученные буквосочетания сравниваются со списком окончаний, соответствующих данному грамматическому классу. Как только появится совпадение, делается вывод о том, что оставшаяся часть слова – его основа.
Задачей синтаксического анализа является осуществление грамматического разбора предложений на основе информации, заложенной в словаре. На этом этапе выделяются подлежащее, сказуемое, дополнение и т.п., между которыми указываются связи по управлению в виде дерева зависимостей.
Любые средства синтаксического анализа состоят из двух частей: базы знаний о конкретном языке и собственно алгоритма синтаксического анализа. Источником грамматических знаний являются данные, полученные в результате морфологического анализа, а также различные таблицы, которые априорно заполнены стандартным образом и представляют собой результат эмпирической обработки текстов на ЕЯ человеком с целью выделения определенных закономерностей, необходимых для проведения синтаксического анализа. Основу таких таблиц составляют наборы валентностей – списки ЛЕ с указанием для каждой из них всех возможных вариантов связей с другими ЛЕ на ЕЯ (потенциальные связи).