Gramatyka formalna

Z Wikipedii, wolnej encyklopedii
Skocz do: nawigacji, wyszukiwania

Gramatyka formalna – sposób opisu języka formalnego, czyli podzbioru zbioru wszystkich słów skończonej długości nad danym alfabetem.

Aby zdefiniować gramatykę formalną trzeba określić zbiór symboli terminalnych, zbiór symboli nieterminalnych, symbol startowy, oraz zbiór reguł które określają sposób w jaki wyprowadzamy słowa.

Symbol nieterminalny to symbol, który można definiować. Symbole nieterminalne zwane są również zmiennymi syntaktycznymi, ponieważ umożliwiają tworzenie ciągów zawierających kombinacje symboli terminalnych i nieterminalnych.

Symbol terminalny to symbol elementarny tworzący wyrazy języka formalnego. Symbole terminalne są znakami, które mogą pojawić się na wejściu lub wyjściu z reguł produkcji gramatyki formalnej. Symbol terminalny nie może być podzielony na „mniejsze” jednostki, lub ściślej: symbole terminalne nie mogą być zmieniane za pomocą reguł gramatyki formalnej, w odróżnieniu od symboli nieterminalnych.

Gramatyka formalna posiada wyróżniony symbol nieterminalny, zwany symbolem startowym, od którego, poprzez stosowanie reguł produkcji, zaczyna się wyprowadzanie wszystkich wyrazów języka formalnego. Tworzenie wyrazu języka formalnego kończy się wówczas gdy zawiera on już tylko symbole terminalne.

Symbole terminalne (równoważne symbolom alfabetu języka) są symbolami, które pozostaną w wyprowadzonym słowie – w przeciwieństwie do symboli nieterminalnych używanych tylko podczas wyprowadzania słowa. Reguły gramatyki postaci S_1 \rightarrow S_2, gdzie S_1 i S_2 to ciągi symboli terminalnych i nieterminalnych, określają możliwe podstawienia symboli w wyprowadzanym słowie. Wyprowadzanie rozpoczynamy od ciągu złożonego z wyróżnionego symbolu nazywanego symbolem początkowym. Odbywa się ono przez zastępowanie podciągów tego ciągu zgodnie z regułami gramatyki. Jeśli w ciągu mamy podciąg S_1, możemy zastąpić go przez S_2.

Rozważmy przykładową gramatykę z symbolem nieterminalnym S, który jest jednocześnie symbolem startowym, oraz zbiorem symboli terminalnych \{a,b\}. Reguły tej gramatyki, która umożliwia generowanie słów postaci ba, abab, aababb, aaababbb itd. wyglądają następująco:

  • S \rightarrow aSb
  • S \rightarrow ba

Zaczynamy od symbolu startowego S, możemy zastąpić go przez aSb zgodnie z pierwszą regułą. Możemy użyć jej jeszcze raz otrzymując aaSbb. Po użyciu drugiej reguły pozostanie nam ciąg aababb. Składa się on tylko z symboli terminalnych, więc wyprowadzenie słowa zostało zakończone.

Symbol startowy[edytuj | edytuj kod]

Wymaganie, żeby symbol startowy był jeden, nie ogranicza nam szczególnie możliwości budowania gramatyk.

Jeśli chcemy zacząć generację od jakiegoś innego słowa w_1, lub od pewnych kilku możliwych słów \{w_1,\dots,w_n\}, możemy dodać symbol "przedstartowy" S, oraz regułki postaci S\rightarrow w_i, o ile takie regułki mieszczą się w podzbiorze dozwolonych regułek dla danego typu gramatyk.

Wystarcza nam więc jeden symbol startowy, niezależnie od tego, od ilu możliwych słów zamierzamy zaczynać.

Symbole terminalne i nieterminalne[edytuj | edytuj kod]

Nie ogranicza nas też specjalnie podział na symbole terminalne i nieterminalne. Jeśli chcemy możemy nawet wymagać, żeby po lewej stronie każdej reguły były tylko symbole nieterminalne.

Jeśli mamy w którymś miejscu symbol terminalny a, a chcemy mieć tam symbol nieterminalny, to tworzymy specjalny symbol nieterminalny X_a, i regułę X_a \rightarrow a. Wtedy wszędzie oprócz tej reguły zamiast a używamy X_a.

Dla przykładu, załóżmy że mamy gramatykę:

  • S \rightarrow abc
  • a \rightarrow bc
  • b \rightarrow ca
  • c \rightarrow ab

I chcemy żeby po lewej stronie były tylko symbole nieterminalne. Dodajemy więc następujące reguły:

  • X_a \rightarrow a
  • X_b \rightarrow b
  • X_c \rightarrow c

A te już istniejące zamieniamy na:

  • S \rightarrow X_aX_bX_c
  • X_a \rightarrow X_bX_c
  • X_b \rightarrow X_cX_a
  • X_c \rightarrow X_aX_b

Tej techniki używa się np. w budowaniu postaci normalnej Chomsky'ego gramatyk bezkontekstowych.

Alternatywa języków[edytuj | edytuj kod]

Załóżmy że mamy gramatykę G_1 generującą język L_1 i G_2, generującą język L_2; chcemy uzyskać język wszystkich słów które są albo w L_1 albo w L_2.

W tym celu tworzymy symbol startowy S i dodajemy regułki przepisania go na symbol startowy pierwszego bądź drugiego języka:

S\rightarrow S_1
S\rightarrow S_2
Oraz wszystkie regułki obu gramatyk.

Słowo będzie więc należało do języka jeśli da się wyprowadzić w jednej z gramatyk. Musimy jednak zadbać o to, żeby nie wolno było mieszać wyprowadzeń – tak, że część słowa jest wyprowadzona pierwszą gramatyką, a część drugą. Zanim więc połączymy zbiory reguł obu gramatyk, przekształćmy je najpierw tak, żeby po lewej stronie wszystkich reguł były wyłącznie nieterminale, i zmieńmy nazwy wszystkich nieterminali, żeby żaden nieterminal nie występował jednocześnie w obu gramatykach (to jak nazwane będą nieterminale nie wpływa w żaden sposób na to, jaki język dana gramatyka generuje). Jeśli gramatyki są tej postaci, to w żaden sposób nie da się w jednym wyprowadzeniu użyć reguł obu gramatyk.

Algorytm taki nie istnieje dla dopełnienia języka (zbioru wszystkich słów które nie należą do danego języka). Jest nawet możliwe, że dany język opisuje jakaś gramatyka, ale dla zbioru słów nie należących do niego nie ma żadnej gramatyki.

Dla dwóch gramatyk potrafimy też znaleźć gramatykę przecięcia języków (zbioru słów należących do obu języków), ale jej postać może być o wiele trudniejsza od postaci gramatyk oryginalnych.

Klasy gramatyk[edytuj | edytuj kod]

Ograniczając postać reguł wyprowadzania, otrzymujemy klasy gramatyk, takie jak (szczegółowo w artykule hierarchia Chomsky'ego):

Gramatyka regularna (odpowiednio: bezkontekstowa, kontekstowa) zawsze generuje język regularny (odp.: bezkontekstowy, kontekstowy). Jednak możliwe jest też, że pewna gramatyka, która nie jest regularna (bezkontekstowa, kontekstowa), generuje język regularny (bezkontekstowy, kontekstowy). W takim przypadku zawsze istnieje też gramatyka o regułach prostszej postaci generująca ten sam język.

Zobacz też[edytuj | edytuj kod]