Einführung - Beispiele
Inhaltsverzeichnis
Sprachen wie Deutsch, Französisch, Englisch oder Latein kennt jeder. Wir wissen auch, dass diese Sprachen keineswegs formlos sind. Wenn wir feststellen wollen, ob ein gegebener umgangssprachlicher Satz formal korrekt ist, so prüfen wir dies anhand der Grammatik. Allerdings kann die Frage nach der grammatischen Korrektheit nicht immer eindeutig beantwortet werden. So heißt es z. B. in der Duden-Grammatik zur Verwendung des Kommas: "Gelegentlich ist es dem Schreibenden freigestellt, ob er einen Satzteil als Einschub werten will oder nicht." Bei der Definition künstlicher Sprachen - wie z. B. einer Programmiersprache oder der Formelsprache der Mathematik - werden solche Unsicherheiten nach Möglichkeit ausgeschlossen.
Beispiel 1: Umgangssprachliche Sätze
Problemstellung
Wir wollen einen kleinen Ausschnitt des Deutschen untersuchen, und zwar Sätze der Form: "Die Katze jagt.", "Das Pferd frisst das Heu.", "Susanne liest das Buch.". Was ist diesen Sätzen hinsichtlich ihrer grammatischen Struktur gemeinsam? Nun, jedem liegt die Grundstruktur Subjekt - Prädikat - Objekt zugrunde, wobei die Verwendung des Objekts optional ist. Ein Subjekt kann aus einem Artikel in Verbindung mit einem Substantiv oder einem Eigennamen bestehen; Prädikate bestehen aus Verben. Objekte können ebenfalls aus einem Artikel in Verbindung mit einem Substantiv oder einem Eigennamen bestehen oder ganz weggelassen werden. Da Subjekte und Objekte gleichartig definiert sind, lassen sie sich in der Kategorie Nominalphrase zusamenfassen. Jeder Satz besteht somit aus einer Nominalphrase, die durch eine Verbalphrase (Prädikat - Objekt) zu einem vollständigen Satz ergänzt wird.
Syntaxdiagramm
Diese Struktur lässt sich mithilfe von Syntaxdiagrammen in einer einfachen Form definieren:
Außerdem gibt es noch ein kleines Lexikon, welches uns den Wortschatz für unsere Sprache liefert. In der Umgangssprache liegt er bei etwa tausend, insgesamt in einer Sprache bei einigen zehntausend Worten und entzieht sich damit in der Praxis einem Regelwerk. Daher kann man eine natürliche Sprache nicht formal fassen. Für unser Beispiel sollte allerdings der folgende Wortschatz genügen:
Wir sehen, dass zwei verschiedene Arten von Symbolen in den Syntaxdiagrammen Anwendung finden: Rechtecke und Ovale. In den Ovalen stehen Zeichen bzw. Worte, die zum Alphabet der Sprache gehören; solche Zeichen heißen Terminale. Die Bezeichnung "terminal" weist darauf hin, daß es sich sozusagen um endgültige Zeichen handelt. Mit den Rechtecken werden sogenannte Nichtterminale bezeichnet. Diese treten nur innerhalb einer Herleitung auf, nicht jedoch in der endgültig abgeleiteten Zeichenfolge.
Grammatikregeln
In Form einer Grammatikregel wird der Sachverhalt folgendermaßen definiert:
SATZ -> NOMINALPHRASE VERBALPHRASE .
Den Pfeil lesen wir als "besteht aus" oder "kann ersetzt werden durch". Die Regel legt also fest, dass ein Satz aus einer Nomialphrase und einer Verbalphrase besteht. In dieser Form lassen sich nun auch die weiteren Regeln für unsere Grammatik formulieren:
NOMINALPHRASE -> EIGENNAME NOMINALPHRASE -> ARTIKEL SUBSTANTIV VERBALPHRASE -> VERB VERBALPHRASE -> VERB NOMINALPHRASE EIGENNAME -> Susanne SUBSTANTIV -> Katze | Pferd | Heu | Buch ARTIKEL -> der | die | das VERB -> jagt | frisst | liest
Die Regeln für (z. B.) Substantiv wurden zu einer Regel zusammengefasst; mehrere mögliche Ersetzungen können durch ein | ("pipe") voneinander getrennt angegeben werden. Für die Schreibweise wird vereinbart: Nichtterminale werden in Großbuchstaben geschrieben, Terminale "normal".
Die Gesamtheit der Erstezungsregeln (einschließlich des Lexikons) heißt Grammatik. Sie dient dazu, grammatisch korrekte Sätze zu erzeugen. Dies geschieht durch schrittweise Herleitung mithilfe der Regeln.
Ableitung eines Satzes
Es ist der Satz "Susanne liest das Buch." abzuleiten. Die Ableitung eines Satzes geschieht dadurch, dass jeweils der linke Teil einer Regel durch deren rechten Teil ersetzt wird, wobei stets mit SATZ zu beginnen ist:
SATZ NOMINALPHRASE VERBALPHRASE . EIGENNAME VERBALPHRASE . Susanne VERB NOMINALPHRASE . Susanne liest ARTIKEL SUBSTANTIV . Susanne liest das Buch .
Den Pfeil lesen wir als "wird ersetzt durch". Wir haben zwischen die Worte einige Leerzeichen eingefügt, damit wir sie mit dem Auge besser trennen können. Dieses Beispiel (und auch "Das Pferd frisst Heu.", "Susanne jagt die Katze." usw.) zeigt, dass unser Regelwerk eine gewisse Berechtigung hat. Es lassen sich aber auch andere Sätze nach diesen Regeln bilden, die uns wenigstens merkwürdig, wenn nicht sinnlos erscheinen: "Das Buch jagt die Katze.", "Susanne liest das Pferd." oder "Das Heu frisst das Pferd."
Hierbei erkennen wir, dass zum formalen Aspekt einer Sprache, der Syntax, ein inhaltlicher hinzukommt, die Semantik. Es gibt einige Versuche, auch die Semantik einer Sprache formal zu fassen. Die Ergebnisse sind allerdings nicht sehr befriedigend (was durch den Einsatz von deklarativen Programmiersprachen mit großen Wissensbasen zum Teil verbessert wurde). Wir wollen diesen Aspekt ganz aus den weiteren Überlegungen ausschließen und uns nur auf die Syntax beschränken.
Beispiel 2: Wohlgeformte Klammerterme
Lassen wir in einem - korrekt gebildeten - arithmetischen Term (Rechenausdruck) die Zahlen und Buchstaben weg, d. h. betrachten wir nur die Klammern, so erhalten wir Zeichenfolgen der Form (), ()() oder (()(())); wir nennen sie wohlgeformte Klammerterme. Ein solcher Term muss gleich viele öffnende wie schließende Klammern enthalten, und an keiner Stelle darf die Anzahl der schließenden die der öffnenden Klammern überschreiten. Die Grammatikregeln zur Erzeugung wohlgeformter Klammerterme lauten wie folgt:
S -> () S -> (S) S -> SS
... oder auch zusammengefasst ...
S -> () | (S) | SS
Die dritte Regel dient dazu, Klammerterme aneinanderzureihen; die zweite Regel erlaubt eine rekursive Verschachtelung von Klammern und die erste Regel gewährleistet einen Abbruch des Erzeugungsvorgangs. Zur Herleitung (Erzeugung) der Zeichenfolge (())(()()) können wir folgende Ersetzungen vornehmen:
S SS (S)S (())(S) (())(SS) (())(()S) (())(()())
Beispiel 3: Ausgewogene Bitmuster
Wir betrachten die Sprache über dem Alphabet {0,1}, bei der jedes Wort gleich viele Nullen wie Einsen enthält (z.B.: 01, 10, 001011, 1000011011). Immer, wenn eine Null erzeugt ist, müssen wir uns merken, dass zum Ausgleich noch eine Eins anzufügen ist; entsprechendes gilt für die Einsen. Als Nichtterminalzeichen verwenden wir S, A und B, wobei S das Startzeichen ist, d. h. aus S sollen alle Wörter der Sprache hergeleitet werden können. Aus A sollen alle Wörter hergeleitet werden, die eine Eins mehr als Nullen enthalten; entsprechend für B. Diese Uberlegung führt zur Grammatik mit folgenden Ersetzungsregeln:
S -> 0A | 1B A -> 1 | 1S | 0AA B -> 0 | 0S | 1BB
Betrachten wir eine Ableitung:
S 1B 11BB 11B0 110S0 1100A0 110010
Nun gibt es andere Ersetzungsregeln, mit denen sich genau die gleichen Worte wie im obigen Beispiel herleiten lassen. Folgende Überlegung hilft uns dabei weiter: Die Wörter 01 und 10 sind hinsichtlich 0 und 1 ausgewogen. Wenn X und Y ausgewogen sind, dann auch XY (d. h. erst X, dann Y). Ist X ausgewogen, so sind es auch 0X1 und 1XO. Hieraus lassen sich folgende Ersetzungsregeln gewinnen:
S -> 01 | 10 | SS | 0S1 | 1S0
Nun wollen wir das gleiche Wort wie oben ableiten:
S 1S0 1SS0 1S010 110010
Zwei solche Grammatiken, die die gleiche Sprache erzeugen, nennt man äquivalent.