Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Уч.пос.ИИС(А4 для А5).04г..doc
Скачиваний:
9
Добавлен:
15.08.2019
Размер:
2.58 Mб
Скачать

7.5. Обработка входящей информации

Поскольку информация, поступающая на вход ДИПС, записана на ЕЯ, в ней обязательно должна проводиться операция перевода текстов входных документов с ЕЯ на ИПЯ. В случае применения ИПЯ дескрипторного типа такая операция перевода называется индексированием, при использовании рубрикатора – рубрицированием.

При использовании в ДИПС ИПЯ без грамматики и без контроля по словарю говорят о полнотекстовом индексировании.

В операции перевода можно выделить два этапа. Первый этап – анализ смыслового содержания текста с целью выделения из него сведений об известных системе объектах, их свойствах, а также отношениях между ними. Второй этап – выражение этих сведений на ИПЯ, т.е. принятие решения о приписывании данному сообщению выражений на ИПЯ (включение выражений на ИПЯ в ПОД).

Анализ смыслового содержания текста связан с необходимостью использования лингвистических и экстралингвистических знаний. Лингвистические знания являются общими для одного языка и относительно хорошо формализованными, в то время как экстралингвистические сильно зависят от конкретной предметной области. Поэтому этап анализа текста проще всего вести на лингвистическом уровне с целью нормализации слов и предложений, под чем понимается приведение их к канонической форме (например, для существительных – к именительному падежу, единственному числу и т.п.; для словосочетаний – нормализация составляющих и запись их в определенной последовательности). Нормализованные слова и словосочетания называют терминами.

7.6. Лингвистический анализ

Обычно под лингвистическим анализом понимают морфологический и синтаксический анализ.

Цель морфологического анализа состоит в получении основ (путем отсечения окончаний) словоформ со значениями грамматических категорий (например, часть речи, род, число, падеж).

Лингвистический анализ может быть точным и приближенным. Точные методы морфологического анализа базируются на использовании словаря основ слов или словоформ, приближенные – на экспериментально установленной связи между конечными буквосочетаниями словоформ и их грамматической информацией.

Использование словаря словоформ в точных методах позволяет легко преодолевать трудности морфологического анализа, связанные с такими явлениями в русском языке, как, например, чередование гласных и согласных. При таком подходе задача получения основ слов и грамматических признаков сводится в основном к поиску в словаре и выбору соответствующей информации. При достаточно полном словаре скорость обработки материала достаточно высока, но объем необходимой памяти выше, чем при использовании словаря основ.

Морфологический анализ с использованием словаря основ базируется на флективном анализе, цель которого – правильное выделение основы слова. В частности, для преодоления проблемы омонимии основ слов проверяется совместимость выделенной основы слова и его окончания.

В основе приближенных методов морфологического анализа лежит гипотеза, согласно которой по конечным буквам и буквосочетаниям можно практически однозначно определить грамматический класс слова. Основа слова выделяется следующим образом: от конца слова последовательно отсоединяется по одной букве и полученные буквосочетания сравниваются со списком окончаний, соответствующих данному грамматическому классу. Как только появится совпадение, делается вывод о том, что оставшаяся часть слова – его основа.

Задачей синтаксического анализа является осуществление грамматического разбора предложений на основе информации, заложенной в словаре. На этом этапе выделяются подлежащее, сказуемое, дополнение и т.п., между которыми указываются связи по управлению в виде дерева зависимостей.

Любые средства синтаксического анализа состоят из двух частей: базы знаний о конкретном языке и собственно алгоритма синтаксического анализа. Источником грамматических знаний являются данные, полученные в результате морфологического анализа, а также различные таблицы, которые априорно заполнены стандартным образом и представляют собой результат эмпирической обработки текстов на ЕЯ человеком с целью выделения определенных закономерностей, необходимых для проведения синтаксического анализа. Основу таких таблиц составляют наборы валентностей – списки ЛЕ с указанием для каждой из них всех возможных вариантов связей с другими ЛЕ на ЕЯ (потенциальные связи).