7.5. Обработка входящей информации

Поскольку информация, поступающая на вход ДИПС, записана на ЕЯ, в ней обязательно должна проводиться операция перевода текстов входных документов с ЕЯ на ИПЯ. В случае применения ИПЯ дескрипторного типа такая операция перевода называется индексированием, при использовании рубрикатора – рубрицированием.

При использовании в ДИПС ИПЯ без грамматики и без контроля по словарю говорят о полнотекстовом индексировании.

В операции перевода можно выделить два этапа. Первый этап – анализ смыслового содержания текста с целью выделения из него сведений об известных системе объектах, их свойствах, а также отношениях между ними. Второй этап – выражение этих сведений на ИПЯ, т.е. принятие решения о приписывании данному сообщению выражений на ИПЯ (включение выражений на ИПЯ в ПОД).

Анализ смыслового содержания текста связан с необходимостью использования лингвистических и экстралингвистических знаний. Лингвистические знания являются общими для одного языка и относительно хорошо формализованными, в то время как экстралингвистические сильно зависят от конкретной предметной области. Поэтому этап анализа текста проще всего вести на лингвистическом уровне с целью нормализации слов и предложений, под чем понимается приведение их к канонической форме (например, для существительных – к именительному падежу, единственному числу и т.п.; для словосочетаний – нормализация составляющих и запись их в определенной последовательности). Нормализованные слова и словосочетания называют терминами.

7.6. Лингвистический анализ

Обычно под лингвистическим анализом понимают морфологический и синтаксический анализ.

Цель морфологического анализа состоит в получении основ (путем отсечения окончаний) словоформ со значениями грамматических категорий (например, часть речи, род, число, падеж).

Лингвистический анализ может быть точным и приближенным. Точные методы морфологического анализа базируются на использовании словаря основ слов или словоформ, приближенные – на экспериментально установленной связи между конечными буквосочетаниями словоформ и их грамматической информацией.

Использование словаря словоформ в точных методах позволяет легко преодолевать трудности морфологического анализа, связанные с такими явлениями в русском языке, как, например, чередование гласных и согласных. При таком подходе задача получения основ слов и грамматических признаков сводится в основном к поиску в словаре и выбору соответствующей информации. При достаточно полном словаре скорость обработки материала достаточно высока, но объем необходимой памяти выше, чем при использовании словаря основ.

Морфологический анализ с использованием словаря основ базируется на флективном анализе, цель которого – правильное выделение основы слова. В частности, для преодоления проблемы омонимии основ слов проверяется совместимость выделенной основы слова и его окончания.

В основе приближенных методов морфологического анализа лежит гипотеза, согласно которой по конечным буквам и буквосочетаниям можно практически однозначно определить грамматический класс слова. Основа слова выделяется следующим образом: от конца слова последовательно отсоединяется по одной букве и полученные буквосочетания сравниваются со списком окончаний, соответствующих данному грамматическому классу. Как только появится совпадение, делается вывод о том, что оставшаяся часть слова – его основа.

Задачей синтаксического анализа является осуществление грамматического разбора предложений на основе информации, заложенной в словаре. На этом этапе выделяются подлежащее, сказуемое, дополнение и т.п., между которыми указываются связи по управлению в виде дерева зависимостей.

Любые средства синтаксического анализа состоят из двух частей: базы знаний о конкретном языке и собственно алгоритма синтаксического анализа. Источником грамматических знаний являются данные, полученные в результате морфологического анализа, а также различные таблицы, которые априорно заполнены стандартным образом и представляют собой результат эмпирической обработки текстов на ЕЯ человеком с целью выделения определенных закономерностей, необходимых для проведения синтаксического анализа. Основу таких таблиц составляют наборы валентностей – списки ЛЕ с указанием для каждой из них всех возможных вариантов связей с другими ЛЕ на ЕЯ (потенциальные связи).

<<< < Предыдущая 1 2 3 4 5 6 78 / 188 9 10 11 12 13 14 15 16 17 18 > Следующая >>>

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]

#
15.04.2015134.66 Кб9УП-01.doc
#
15.04.2015194.05 Кб20упры 3.doc
#
15.08.2019940.03 Кб15Усилители электрических сигналов.doc
#
25.04.201978.85 Кб6Условия КТМ 2011.doc
#
15.04.2015566.39 Кб42Усов Ю.Н. В мире экранных искусств.docx
#
15.08.20192.58 Mб9Уч.пос.ИИС(А4 для А5).04г..doc
#
15.07.2019599.04 Кб10Учебное пособие по ОГХ_A5.doc
#
15.04.2015194.56 Кб56Учебные материалы.doc
#
15.04.2015276.29 Кб23файлы лекция (вариант 1).pdf
#
15.04.2015938.85 Кб31файлы лекция (основная).pdf
#
03.12.2018386.84 Кб9ФГБОУ ВПО.docx