Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Общие вопросы комп. лингвистика.doc
Скачиваний:
1
Добавлен:
26.08.2019
Размер:
87.04 Кб
Скачать

Общие вопросы

1. Какие методы и алгоритмы построения программ, понимающих естественный язык, вы знаете?

Методы представления, в том числе семантические сети, сценарии и фреймы, методы корреляционного анализа языковых шаблонов, на основе байесовского подхода,

синтаксические, семантические и стохастические методы понимания естественного языка.

***

Си́нтаксис (от др.-греч. σύνταξις — «построение, порядок, составление») — раздел лингвистики, изучающий строение предложений и словосочетаний.

В синтаксисе решаются следующие основные вопросы:

связь слов в словосочетаниях и предложениях;

рассмотрение видов синтаксической связи;

определение типов словосочетаний и предложений;

определение значения словосочетаний и предложений;

соединение простых предложений в сложные.

синтакси́ческий ана́лиз (па́рсинг) — это процесс сопоставления линейной последовательности лексем (слов, токенов) языка с его формальной грамматикой. Результатом обычно является дерево разбора (синтаксическое дерево). Обычно применяется совместно с лексическим анализом. Синтаксический анализатор (парсер) — это программа или часть программы, выполняющая синтаксический анализ.

При парсинге исходный текст преобразуется в структуру данных, обычно — в дерево, которое отражает синтаксическую структуру входной последовательности и хорошо подходит для дальнейшей обработки.

Как правило, результатом синтаксического анализа является синтаксическая структура предложения, представленная либо в виде дерева зависимостей, либо в виде дерева составляющих, либо в виде некоторой комбинации первого и второго способов представления.

Синтаксис — сторона языка программирования, которая описывает структуру программ как наборов символов (обычно говорят — безотносительно к содержанию). Синтаксису языка противопоставляется его семантика. Синтаксис языка описывает «чистый» язык, в то же время семантика приписывает значения (действия) различным синтаксическим конструкциям.

Си́нтаксис в семиотике — совокупность отношений между знаками, а также раздел семиотики, изучающий эти отношения. Называется также термином «синтактика».

***

Сема́нтика (от др.-греч. σημαντικός — обозначающий) — раздел языкознания, изучающий значение единиц языка. В качестве инструмента изучения применяют семантический анализ. В конце XIX — начале XX века семантика часто называлась также семасиологией (от др.-греч. sēmaino — указываю, означаю). Учёные, занимающиеся семантикой, до сих пор обычно называются семасиологами. Также «семантикой» может обозначаться сам круг значений некоторого класса языковых единиц (например, «семантика глаголов движения»).

Сема́нтика в программировании — дисциплина, изучающая формализации значений конструкций языков программирования посредством построения их формальных математических моделей. В качестве инструментов построения таких моделей могут использоваться различные средства, например, математическая логика, λ-исчисление, теория множеств, теория категорий, теория моделей, универсальная алгебра. Формализация семантики языка программирования может использоваться как для описания языка, определения свойств языка, так и для целей формальной верификации программ на этом языке программирования.

Латентно-семантический анализ (ЛСА)это метод обработки информации на естественном языке, анализирующий взаимосвязь между коллекцией документов и терминами в них встречающимися, сопоставляющий некоторые факторы (тематики) всем документам и терминам.

В основе метода латентно-семантического анализа лежат принципы факторного анализа, в частности, выявление латентных связей изучаемых явлений или объектов. При классификации / кластеризации документов этот метод используется для извлечения контекстно-зависимых значений лексических единиц при помощи статистической обработки больших корпусов текстов[1].

***

Слово стохастический (от греч. στοχαστικός — «умеющий угадывать») используется во многих терминах из разных областей науки, и в общем означает неопределённость, случайность чего-либо.

Стохастический, т.е Случа́йный проце́сс (случайная функция) в теории вероятностей — семейство случайных величин, индексированных некоторым параметром, чаще всего играющим роль времени или координаты.

Другое определение:

Случайным называется процесс u(t), мгновенные значения которого являются случайными величинами.

В стохастическом анализе, где сама модель составляется на основе совокупности эмпирических данных, предпосылкой получения реальной модели является совпадение количественных характеристик связей в разрезе всех исходных наблюдений. Это означает, что варьирование значений показателей должно происходить в пределах однозначной определенности качественной стороны явлений, характеристиками которых являются моделируемые экономические показатели (в пределах варьирования не должно происходить качественного скачка в характере отражаемого явления).

***

Метод подстановки напрямую применяется для текущей задачи, чтобы привести ее к известным аксиомам и теоремам. Отсюда следует, что для построения систем автоматических рассуждений используются слабые методы решения проблем. Они строятся на таком однородном представлении, как теория предикатов первого порядка, теория хорновских выражений или операторов разрешения.

Метод подстановки напрямую применяется для текущей задачи, чтобы привести ее

к известным аксиомам и теоремам.

Если этот метод не приводит к успешному доказательству, используются все возможные открепления и замены, и для каждого из результатов снова применяется метод подстановки. Если получить доказательство теоремы не удается, то все эти результаты добавляются в список подзадач (subproblem list).

Затем для поиска новой подзадачи, решение которой обеспечивает доказательство

исходного утверждения, используется метод цепочки, учитывающий транзитивность импликации. Таким образом, если для задачи а® с получено b® c, то в качестве новой подзадачи выбирается а® b.

Если первые три метода не приводят к ожидаемому результату, то система выбирает следующую подзадачу из списка.

Эти четыре метода применяются до тех пор, пока не будет найдено решение, не исчерпается список подзадач, память или время, выделенные для решения задачи.