Добавил:

Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.

Вуз:

Южно-Уральский Государственный Университет

Предмет:

[НЕСОРТИРОВАННОЕ]

Файл:

9_konspekt_lektsy.doc

Скачиваний:

Добавлен:

25.04.2019

Размер:

2.3 Mб

Скачать

☆

<<< < Предыдущая 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 2122 / 2522 23 24 25 > Следующая >>>

6. Языки и грамматики

6.1. Основные определения

Описание языков программирования во многом опирается на теорию формальных языков. Эта теория является фундаментом для организации синтаксического анализа и перевода.

Существует два основных способа определения языков:

механизм порождения или генератор;
механизм распознавания или распознаватель.

Порождающая грамматика состоит из четырех компонент: Г = (V, W, J, R), где V и W - непересекающиеся конечные множества, называющиеся основным и вспомогательным алфавитами (или словарями). Элементы этих множеств называются соответственно основными (или терминальными) и вспомогательными (или нетерминальными) символами; J - выделенный вспомогательный символ, называемый начальным символом; R - конечный набор правил вывода, имеющих вид   , где  и  - цепочки, состоящие из основных и вспомогательных символов.

В грамматиках составляющих на каждом шаге вывода заменяется только один символ, поэтому в них с каждым выводом ассоциируется так называемое дерево вывода. Корень дерева отвечает начальному символу. Каждому символу цепочки, на которую заменяется начальный символ на первом шаге вывода, ставится в соответствие узел дерева, и к нему проводится дуга из корня. Для тех из полученных узлов, которые помечены вспомогательными символами, делается аналогичное построение и т.д. Дерево вывода, рассматриваемое как дерево составляющих предложения, задает на нем систему составляющих. Это делает грамматики составляющих хорошим инструментом для описания естественных и искусственных языков.

Они тесно связаны. Первый обычно используется для описания языков, а второй для их реализации. Оба способа позволяют описать языки конечным образом, несмотря на бесконечное число порождаемых ими цепочек.

Неформально язык L - это множество цепочек конечной длины в алфавите T. Механизм порождения позволяет описать языки с помощью системы правил, называемой грамматикой. Цепочки (предложения) языка строятся в соответствии с этими правилами. Достоинство определения языка с помощью грамматик в том, что операции, производимые в ходе синтаксического анализа и перевода, можно делать проще, если воспользоваться структурой, предписываемой цепочкам с помощью этих грамматик.

Механизм распознавания использует алгоритм, который для произвольной входной цепочки остановится и ответит "да" после конечного числа шагов, если эта цепочка принадлежит языку. Если цепочка не принадлежит языку, алгоритм ответит "нет". Распознаватели используются непосредственно при построении синтаксических анализаторов и являются как бы их формальной моделью. Распознаватели строятся на основе теорий конечных автоматов и автоматов с магазинной памятью.

6.2. Формальные грамматики

Теория формальных грамматик - раздел дискретной математики, изучающий способы описания закономерностей, характеризующих всю совокупность правильных текстов того или иного языка.

Формальные грамматики - это абстрактные системы, позволяющие с помощью единообразных процедур получать правильные тексты данного языка вместе с описанием их структуры. Теория формальных грамматик занимает центральное место в математической лингвистике, так как именно она позволяет моделировать наиболее существенный аспект функционирования языка - переработку смыслов в тексты и обратно. Вместе с тем она выделяется среди других разделов математической лингвистики большей сложностью математического аппарата (сходного с аппаратом теории алгоритмов и общей теории автоматов) и возникающих в ней математических задач. Формальные грамматики наиболее разработанных типов представляют собой системы (устройства), которые позволяют порождать или распознавать множества конечных последовательностей (цепочек), интерпретируемые обычно как множества правильных предложений, а также сопоставлять входящим в эти множества цепочкам описания их синтаксической структуры в терминах систем составляющих или деревьев подчинения.

Грамматикой называется четверка G = (N, T, P, S), где N - конечное множество нетерминальных символов (нетерминалов), T - множество терминалов (не пересекающихся с N), S - символ из N, называемый начальным, Р - конечное подмножество множества:

(N  T)^* N (N  T)^* x (N  T)^*,

называемое множеством правил. Множество правил Р описывает процесс порождения цепочек языка. Элемент p_i = (, ) множества Р называется правилом (продукцией) и записывается в виде . Здесь и  - цепочки, состоящие из терминалов и нетерминалов. Данная запись может читаться одним из следующих способов:

цепочка  порождает цепочку ;
из цепочки  выводится цепочка.

Таким образом, правило P имеет две части: левую, определяемую, и правую, подставляемую. То есть правило p_i - это двойка (p_i1, p_i2), где p_i1 = (N  T)^* N (N  T)^* - цепочка, содержащая хотя бы один нетерминал, p_i2= (N  T)^* - произвольная, возможно пустая цепочка ( - цепочка).

Если цепочка  содержит p_i1, то, в соответствии с правилом p_i, можно образовать новую цепочку  заменив одно вхождение p_i1на p_i2. Говорят также, что цепочка  выводится из  в данной грамматике.

Для описания абстрактных языков в определениях и примерах будем пользоваться следующими обозначениями:

терминалы обозначим буквами a, b, c, d или цифрами 0, 1, ..., 9;
нетерминалы будем обозначать буквами A, B, C, D, S (причем нетерминал S - начальный символ грамматики);
буквы U, V, ..., Z используем для обозначения отдельных терминалов или нетерминалов;
через , , ... обозначим цепочки терминалов и нетерминалов;
u, v, w, x, y, z - цепочки терминалов;
для обозначения пустой цепочки (не содержащей ни одного символа) будем использовать знак ;
знак “” будет отделять левую часть правила от правой и читаться как “порождает” или “есть по определению”. Например, Acd, читается как “A порождает cd”.

Эти обозначения определяют некоторый язык, предназначенный для описания правил построения цепочек, а значит, для описания других языков. Язык, предназначенный для описания другого языка, называется метаязыком.

Пример грамматики G1:

G1 = ({A, S}, {0, 1}, P, S),

где P:

S  0A1;

0A  00A1;
A .

Выводимая цепочка грамматики G, не содержащая нетерминалов, называется терминальной цепочкой, порождаемой грамматикой G.

Язык L(G), порождаемый грамматикой G, - это множество терминальных цепочек, порождаемых грамматикой G.

Введем отношение _G непосредственного вывода на множестве (N  T)*, которое будем записывать следующим образом:

_G.

Данная запись читается:  непосредственно выводима из  для грамматики G = (N, T, P, S) и означает: если  - цепочка из множества (N  T)* и   - правило из Р то _G.

Через _G⁺обозначим транзитивное замыкание (нетривиальный вывод за один и более шагов). Тогда _G⁺ читается как:  выводима из нетривиальным образом.

Через _G^*- обозначим рефлексивное и транзитивное замыкание (вывод за ноль и более шагов). Тогда _G^* означает:  выводима из .

Пусть ^k k - я степень отношения  То есть, если ^k, то существует последовательность ₀₁₂₃... _k из к+1 цепочек

 =₀, ₁, ... _i
-1_i, 1 ≤ i ≤ k и _k = .

Пример выводов для грамматики G1:

S  0A1  00A11  0011;

S ¹ 0A1; S ² 00A11; S ³ 0011;

S ⁺ 0A1; S ⁺ 00A11; S ⁺ 0011;

S ^* S; S ^* 0A1; S ^* 00A11; S ^* 0011;

где 0011  L(G1).

<<< < Предыдущая 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 2122 / 2522 23 24 25 > Следующая >>>

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]

#
14.11.20192.37 Mб89.DOC
#
16.03.20161.02 Mб436911436.doc
#
16.03.2016587.26 Кб31913123.doc
#
16.03.2016351.19 Кб81922358.docx
#
16.03.2016241.66 Кб7797.doc
#
25.04.20192.3 Mб229_konspekt_lektsy.doc
#
17.07.201947.1 Кб39_Sobstvennost.doc
#
09.05.20151.19 Mб32abcpascal.pdf
#
16.03.2016111.62 Кб29administrativnoe pravo 3,4 semestr soo kontrolnaia rabota.doc
#
09.08.2019143.36 Кб3Administrativ_pr_temy_4-5_7_Po_Kaletinu.doc
#
09.08.2019387.07 Кб5Admin_pr_Tema_4-7_Makoseychuk.doc