- •Місце автоматичного синтаксичного аналізу в загальній схемі опрацювання текстів природною мовою.
- •Поняття автоматичного синтаксичного аналізу.
- •Мови програмування
- •Поняття безпосередніх складників.
- •Ознаки безпосередніх складників.
- •Вихідні дані для побудови контекстно-вільної граматики.
- •Поняття контекстно-вільної граматики.
- •Формальне визначення контекстно-вільної граматики.
- •Структура np виразу англійської мови та її представлення в квг.
- •Реалізація явища узгодження в правилах квг.
- •Структура vp виразу англійської мови та її представлення в квг.
- •Вплив класів дієслів на правила для vp в квг.
- •Синтаксично розмічені корпуси Treebanks.
- •Використання Treebank для побудови квг.
- •Лексикалізовані квг.
- •Поняття еквівалентності граматик.
- •Поняття нормальної форми Хомського граматик.
- •Поняття граматики залежностей.
- •Синтаксичний аналіз, як пошукова задача.
- •Стратегії здійснення синтаксичного аналізу.
- •Побудова таблиці в алгоритмі cky. Приклад.
- •Відтворення дерева розбору в алгоритмі cky. Приклад
- •Проблеми використання алгоритму cky.
- •Загальна характеристика алгоритму Ерлі.
- •Поняття імовірнісної квг.
- •Способи вирішення проблем імовірнісних квг.
- •Лексикалізована імовірнісна квг.
- •Параметри оцінки синтаксичних аналізаторів.
- •Автоматичний семантичний аналіз (аСемА). Визначення.
- •Способи представлення смислу.
- •Вимоги до представлення значення.
- •Вимога забезпечення можливості перевірки.
- •Вимога однозначності представлення.
- •Канонічна форма представлення.
- •Способи отримання канонічної форми.
- •Вивід та використання змінних.
- •Виразність а всеохопність представлення значення.
- •Поняття формальної семантики.
- •Модель «світу » в формальній семантиці.
- •Загальна характеристика логіки першого порядку.
- •Основні поняття логіки першого порядку.
- •Проблеми опису станів та подій в лпп.
- •Представлення часу в лпп.
- •Здійснення семантичного аналізу на основі принципу композиційності.
- •Збагачення правил квг семантичної інформацією.
Реалізація явища узгодження в правилах квг.
Узгодження (конгруенція), особливий тип синтаксичної залежності, в якому керована форма має ті самі категорії (відмінка, числа, роду), що й форма керівна
НАПРИКЛАД В АНГЛІЙСЬКІЙ ДЕТЕРМІНАНТ І ЙОГО ОСНОВНЕ СЛОВО В NPs ПОЧИННІ ЗГОДЖУВАТИСЯ ЗА ЧИСЛОМ.
This flight *This flights
Those flights *Those flight
Проблеми
ПРАВИЛО NP ® Det Nominal НЕ ВРАХОВУЄ ОБМЕЖЕННЯ , ЩО НАКЛАДАЮТЬСЯ УЗГОДЖЕННЯМ
ПРАВИЛУ ВІДПОВІДАЮТЬ ЯК ГРАМАТИЧНО ПРАВИЛЬНІ ТАК І ГРАМАТИЧНО НЕ ПРАВИЛЬНІ СТРУКТУРИ
Структура vp виразу англійської мови та її представлення в квг.
В АНГЛІЙСЬКІЙ МОВІ VPs СКЛАДАЄТЬСЯ З ОСНОВНОГО ДІЄСЛОВА, ПІСЛЯ ЯКОГО ЙДУТЬ СКЛАДОВІ , ЯКІ МОЖУТЬ БУТИ ВІДСУТНІ АБО ЇХ МОЖЕ БУТИ БАГАТО. ЦІ СКЛАДОВІ НАЗИВАЮТЬ АРГУМЕНТАМИ
НЕ ВСІ ДІЄСЛОВА В АНГЛІЙСЬКІЙ МОЖУТЬ БУТИ ЕЛЕМЕНТАМИ ПРАВИЛ ДЛЯ VP.
В АНГЛІЙСЬКІЙ ВИДІЛЯЮТЬ КЛАСИ ДІЄСЛІВ, ЯКІ МОЖУТЬ БУТИ ЕЛЕМЕНТАМИ ПЕВНИХ ПРАВИЛ
НАЙПРОСТІШИЙ ВИПАДОК: ПЕРЕХІДНІ, НЕ ПЕРЕХІДНІ ДІЄСЛОВА.
В СУЧАСНИХ ГРАМАТИКАХ ВИДІЛЯЮТЬ БІЛЬШЕ 100 ТАКИХ КЛАСІВ (VERBNET 274)
Вплив класів дієслів на правила для vp в квг.
НЕ ВСІ ДІЄСЛОВА В АНГЛІЙСЬКІЙ МОЖУТЬ БУТИ ЕЛЕМЕНТАМИ ПРАВИЛ ДЛЯ VP.
В АНГЛІЙСЬКІЙ ВИДІЛЯЮТЬ КЛАСИ ДІЄСЛІВ, ЯКІ МОЖУТЬ БУТИ ЕЛЕМЕНТАМИ ПЕВНИХ ПРАВИЛ
НАЙПРОСТІШИЙ ВИПАДОК: ПЕРЕХІДНІ, НЕ ПЕРЕХІДНІ ДІЄСЛОВА.
В СУЧАСНИХ ГРАМАТИКАХ ВИДІЛЯЮТЬ БІЛЬШЕ 100 ТАКИХ КЛАСІВ (VERBNET 274)
Синтаксично розмічені корпуси Treebanks.
Treebanks – КОРПУС В ЯКОМУ КОЖНОМУ РЕЧЕННЮ ВІДПОВІДАЄ СИНТАКСИЧНА СТРУКТУРА
Корпус являє собою текстовий орпус, в якому кожне речення розібране, тобто з анотацією синтаксичних структур. Синтаксична структура зазвичай представляється у вигляді дерева, звідси і назва Treebank.
СПОСІБ ПОБУДОВИ
АВТОМАТИЧНИЙ СИНТАКСИЧНИЙ АНАЛІЗ
ВИПРАВЛЕННЯ ПОМИЛОК СПЕЦІАЛІСТАМИ
ВИКОРИСТОВУЄТЬСЯ
ДЛЯ СТАТИСТИЧНОГО СИНТАКСИЧНОГО АНАЛІЗУ
ДЛЯ ДОСЛІДЖЕНЬ В КОРПУСНІЙ ЛІНГВІСТИЦІ
Використання Treebank для побудови квг.
4500 ПРАВИЛ ДЛЯ VP |
17500 ПРАВИЛ ДЛЯ NP |
VP—>VB PP ADVP VP—>ADVP VB PP VP—>VBP PP PP PP PP PP ADVP PP |
NP —> DT JJ JJ NN NP —> DT JJ CD NNS NP —> RB DT JJ NN NN |
TGrep2- МОВА ЗАПИТІВ ДО КОРПУСУ
TREBANK TOOLS – ON-LINE РЕСУРС ДЛЯ АНАЛІЗУ PENN TREEBANK
TigraSearch – ПРОГРАМА РОБОТИ З СИНТАКСИЧНО РОЗМІЧЕНИМИ КОРПУСАМИ
Лексикалізовані квг.
В одній простій моделі лексичних заголовків, кожна контекстно-вільні правила, пов'язані з заголовком. Заголовок це слово у фразі що є граматично найважливіше. Заголовки розбирають вверх по дереві розбору. Таким чином, кожний нетермінал в дереві розбору позначається одним словом, яке є його лексичним заголовком. МАЛЮНОК це дерево, в якому кожен нетермінал позначається заголовком.
Поняття еквівалентності граматик.
Формальна мова визначається як (можливо нескінченний) набір рядків слів. Це говорить про те, що ми могли б запитати, ЧИ Є ЕКВІВАЛЕНТНИМИ ДВІ ГРАМАТИКИ, ЯКІ ГЕНЕРУЮТЬ ОДИН І ТОЙ САМИЙ НАБІР СТРІЧОК. Справді, можна мати дві різні контекстно-вільні граматики, які генерують ту саму мову.
Розрізняють два види еквівалентності граматик: слабка та строга еквівалентності. Дві граматики строго еквівалентні, якщо вони створюють той же набір рядків, і якщо вони призначити ту ж фразову структуру до кожного речення. Дві граматики слабо еквівалентні, якщо вони створюють той же набір рядків, але не призначають ту ж фразову структуру для кожного речення.
СТРОГА ЕКВІВАЛЕНТНІСТЬ: ОДНАКОВИЙ НАБІР СТРІЧОК І ОДНАКОВІ СИНТАКСИЧНІ
СТРУКТУРИ ДЛЯ ВСІХ РЕЧЕНЬ
СЛАБКА ЕКВІВАЛЕНТНІСТЬ : ОДНАКОВИЙ НАБІР СТРІЧОК