OSTRAVSKÁ UNIVERZITA V OSTRAVĚ

Podobné dokumenty

Regulární a bezkontextové jazyky I.

GRAMATIKY A JAZYKY URČENO PRO VZDĚLÁVÁNÍ V AKREDITOVANÝCH STUDIJNÍCH PROGRAMECH HASHIM HABIBALLA

OSTRAVSKÁ UNIVERZITA V OSTRAVĚ

ÚVOD DO INFORMATIKY HASHIM HABIBALLA

Naproti tomu gramatika je vlastně soupis pravidel, jak

Teoretické základy informatiky I.

doplněk, zřetězení, Kleeneho operaci a reverzi. Ukážeme ještě další operace s jazyky, na které je

Automaty a gramatiky(bi-aag) Motivace. 1. Základní pojmy. 2 domácí úkoly po 6 bodech 3 testy za bodů celkem 40 bodů

Množinu všech slov nad abecedou Σ značíme Σ * Množinu všech neprázdných slov Σ + Jazyk nad abecedou Σ je libovolná množina slov nad Σ

Formální jazyky a gramatiky Teorie programovacích jazyků

AUTOMATY A GRAMATIKY

Vztah jazyků Chomskeho hierarchie a jazyků TS

Formální jazyky a automaty Petr Šimeček

Konstrukce relace. Postupně konstruujeme na množině všech stavů Q relace i,

Vlastnosti regulárních jazyků

OSTRAVSKÁ UNIVERZITA V OSTRAVĚ PŘÍRODOVĚDECKÁ FAKULTA

Minimalizace KA - Úvod

Turingovy stroje. Teoretická informatika Tomáš Foltýnek

2 Formální jazyky a gramatiky

Příklad z učebnice matematiky pro základní školu:

Z. Sawa (VŠB-TUO) Teoretická informatika 5. listopadu / 43

Úvod do informatiky. Miroslav Kolařík

Regulární výrazy. Definice Množina regulárních výrazů nad abecedou Σ, označovaná RE(Σ), je definována induktivně takto:

Složitost Filip Hlásek

AUTOMATY A GRAMATIKY. Pavel Surynek. Kontextové uzávěrové vlastnosti Turingův stroj Rekurzivně spočetné jazyky Kódování, enumerace

Pumping lemma - podstata problému. Automaty a gramatiky(bi-aag) Pumping lemma - problem resolution. Pumping lemma - podstata problému

Maticí typu (m, n), kde m, n jsou přirozená čísla, se rozumí soubor mn veličin a jk zapsaných do m řádků a n sloupců tvaru:

Syntaxí řízený překlad

1 Linearní prostory nad komplexními čísly

V předchozí kapitole jsme podstatným způsobem rozšířili naši představu o tom, co je to číslo. Nadále jsou pro nás důležité především vlastnosti

Automaty a gramatiky. Uzávěrové vlastnosti v kostce R J BKJ DBKJ. Roman Barták, KTIML. Kvocienty s regulárním jazykem

Formální systém výrokové logiky

Jednoznačné a nejednoznačné gramatiky

Pojem algoritmus. doc. Mgr. Jiří Dvorský, Ph.D. Katedra informatiky Fakulta elektrotechniky a informatiky VŠB TU Ostrava

Algoritmus. Přesné znění definice algoritmu zní: Algoritmus je procedura proveditelná Turingovým strojem.

5 Orientované grafy, Toky v sítích

Teorie informace a kódování (KMI/TIK) Reed-Mullerovy kódy

Definice. Vektorový prostor V nad tělesem T je množina s operacemi + : V V V, tj. u, v V : u + v V : T V V, tj. ( u V )( a T ) : a u V které splňují

Vektorové podprostory, lineární nezávislost, báze, dimenze a souřadnice

Výhody a nevýhody jednotlivých reprezentací jsou shrnuty na konci kapitoly.

Kapitola 6. LL gramatiky. 6.1 Definice LL(k) gramatik. Definice 6.3. Necht G = (N, Σ, P, S) je CFG, k 1 je celé číslo.

Přednáška 3: Limita a spojitost

Výpočetní modely pro rozpoznávání bezkontextových jazyků zásobníkové automaty LL(k) a LR(k) analyzátory

Kapitola Základní množinové pojmy Princip rovnosti. Dvě množiny S a T jsou si rovny (píšeme S = T ) prvek T je také prvkem S.

B i n á r n í r e l a c e. Patrik Kavecký, Radomír Hamřík

Pojem binární relace patří mezi nejzákladnější matematické pojmy. Binární relace

Množiny, relace, zobrazení

Diskrétní matematika. DiM /01, zimní semestr 2017/2018

Modely Herbrandovské interpretace

Regulární výrazy. M. Kot, Z. Sawa (VŠB-TU Ostrava) Úvod do teoretické informatiky 14. března / 20

Teorie množin. Čekají nás základní množinové operace kartézské součiny, relace zobrazení, operace. Teoretické základy informatiky.

(Cramerovo pravidlo, determinanty, inverzní matice)

Matematická analýza pro informatiky I. Limita posloupnosti (I)

Algoritmus pro hledání nejkratší cesty orientovaným grafem

4.2 Syntaxe predikátové logiky

Moderní technologie ve studiu aplikované fyziky CZ.1.07/2.2.00/ Množiny, funkce

Základní pojmy matematické logiky

Pravděpodobnost a statistika

Automaty a gramatiky

Úvod do informatiky. Miroslav Kolařík. Zpracováno dle učebního textu R. Bělohlávka: Úvod do informatiky, KMI UPOL, Olomouc 2008.

Základy teoretické informatiky Formální jazyky a automaty

Univerzální Turingův stroj a Nedeterministický Turingův stroj

Cílem kapitoly je opakování a rozšíření středoškolských znalostí v oblasti teorie množin.

Zásobníkový automat. SlovoaaaabbbbpatřídojazykaL={a i b i i 1} a a a a b b b b

Matematika I 2a Konečná pravděpodobnost

GRAFY A GRAFOVÉ ALGORITMY

ALGORITMIZACE A PROGRAMOVÁNÍ

Místo pojmu výroková formule budeme používat zkráceně jen formule. Při jejich zápisu

NP-úplnost problému SAT

1 Řešení soustav lineárních rovnic

[1] Definice 1: Polynom je komplexní funkce p : C C, pro kterou. pro všechna x C. Čísla a 0, a 1,..., a n nazýváme koeficienty polynomu.

Přijímací zkouška na navazující magisterské studium 2017

Úvod do informatiky. Miroslav Kolařík

TEORIE ZPRACOVÁNÍ DAT

1 Soustavy lineárních rovnic

Unární je také spojka negace. pro je operace binární - příkladem může být funkce se signaturou. Binární je velká většina logických spojek

8.3). S ohledem na jednoduchost a názornost je výhodné seznámit se s touto Základní pojmy a vztahy. Definice

Množiny, základní číselné množiny, množinové operace

Operace s maticemi. 19. února 2018

Matematická analýza pro informatiky I. Limita funkce

Báze a dimenze vektorových prostorů

2. Množiny, funkce. Poznámka: Prvky množiny mohou být opět množiny. Takovou množinu, pak nazýváme systém množin, značí se

Výroková a predikátová logika - III

3 Množiny, Relace a Funkce

ANOTACE vytvořených/inovovaných materiálů

Matematická logika. Miroslav Kolařík

Z těchto kurzů shrneme poznatky, které budeme potřebovat: výčtem prvků

Bezkontextové jazyky 3/3. Bezkontextové jazyky 3 p.1/27

1 Projekce a projektory

Kongruence na množině celých čísel

Úvod do informatiky. Miroslav Kolařík

Výroková logika. Teoretická informatika Tomáš Foltýnek

Jednoduchá exponenciální rovnice

teorie logických spojek chápaných jako pravdivostní funkce

0. ÚVOD - matematické symboly, značení,

Matematická logika. Miroslav Kolařík

ZÁKLADY TEORETICKÉ INFORMATIKY

Bezkontextové jazyky. Bezkontextové jazyky 1 p.1/39

INVESTICE DO ROZVOJE VZDĚLÁVÁNÍ. Modernizace studijního programu Matematika na PřF Univerzity Palackého v Olomouci CZ.1.07/2.2.00/28.

Transkript:

OSTRAVSKÁ UNIVERZITA V OSTRAVĚ REGULÁRNÍ A BEZKONTEXTOVÉ JAZYKY I HASHIM HABIBALLA OSTRAVA 2005

Tento projekt byl spolufinancován Evropskou unií a českým státním rozpočtem Recenzent: Doc. Ing. Miroslav Beneš, Ph.D. Název: Autor: Vydání: druhé, 2005 Počet stran: 142 Regulární a bezkontextové jazyky I PaedDr. Hashim Habiballa, PhD. Náklad: 50 Tisk: Ediční středisko CIT OU Studijní materiály pro distanční kurz: Regulární a bezkontextové jazyky I Jazyková korektura nebyla provedena, za jazykovou stránku odpovídá autor. Určeno výhradně pro kurzy Celoživotního vzdělávání Moravskoslezska Vydavatel a tisk: Ostravská univerzita v Ostravě, Systém celoživotního vzdělávání Moravskoslezska PaedDr. Hashim Habiballa, PhD. Ostravská univerzita v Ostravě ISBN 80-7042-852-X

Regulární a bezkontextové jazyky I. Hashim Habiballa Cíl předmětu Seznámit studenta se základy teorie formálních jazyků a dát mu potřebnou motivaci pro pochopení důležitosti teorie pro praxi. Důraz bude kladen nejen na základní definice, věty a schopnost je aplikovat na příklady, ale také na důkazy, jejich podstatu a praktický dopad. Formální jazyky a gramatiky. Konečné automaty, regulární výrazy a jazyky. Bezkontextové gramatiky a jazyky, zásobníkové automaty. Chomského hierarchie. 1

Obsah: 1. Konečný automat a jazyky rozpoznatelné konečným automatem...7 1.1. Intuitivní pojem jazyka a gramatiky...7 1.2. Teorie formálních jazyků...9 1.3. Účel teorie a její vlastnosti...10 1.4. Základní pojmy teorie jazyků...11 1.5. Konečný automat...13 2. Deterministické a nedeterministické konečné automaty...27 2.1. Konstrukce automatů pro zadané jazyky...27 2.2. Algoritmus převodu NKA na DKA stromový algoritmus...30 2.3. Vztah jazyků rozpoznatelných NKA a DKA...34 2.4. Ekvivalentní automaty...37 3. Zobecněné NKA a třída jazyků rozpoznatelných KA...40 3.1. Zobecněný nedeterministický automat...40 3.2. Převod ZNKA přímo na DKA...43 4. Uzávěrové vlastnosti třídy jazyků rozpoznatelných KA...45 4.1. Sestrojování automatů pro sjednocení, průnik, doplněk, rozdíl, zrcadlový obraz...46 4.2. Uzávěrové vlastnosti třídy jazyků rozpoznatelných konečnými automaty...54 4.3. Zřetězení, mocnina, iterace, zrcadlový obraz a kvocient...57 4.4. Konstrukce používané v důkazech...62 5. Regulární jazyky a regulární výrazy...68 5.1. Regulární jazyky a výrazy...69 5.2. Sestrojení automatu (ZNKA) k regulárnímu výrazu...73 6. Charakterizace regulárních jazyků pomocí pravých kongruencí...78 6.1. Pravá kongruence a Nerodova věta...78 6.2. Aplikace Nerodovy věty...81 7. Algoritmus redukce KA, ekvivalence KA...84 7.1. Algoritmus redukce...84 7.2. Příklady redukce a normování...90 8. Bezkontextové gramatiky a jazyky, regulární gramatiky...97 8.1. Bezkontextová gramatika a bezkontextový jazyk...98 8.2. Tvorba gramatik k bezkontextovým jazykům...100 8.3. Regulární gramatiky, vztah k regulárním jazykům...102 9. Nevypouštějící a redukované gramatiky...108 9.1. Nevypouštějící gramatiky...108 9.2. Převody na nevypouštějící a redukované tvary...110 10. Kanonická odvození, jednoznačné gramatiky...113 10.1. Kanonické derivace a nejednoznačnost...113 11. Normální formy, lemma o vkládání...115 11.1. Chomského normální forma a pumping lemma...115 11.2. Greibachové normální forma...118 12. Zásobníkové automaty...124 12.1. Zásobníkový automat a vztah k BKJ...125 13. Vlastnosti tříd bezkontextových jazyků...131 13.1. Uzávěrové vlastnosti třídy BKJ...131 14. Chomského hierarchie...133 14.1. Obecná generativní gramatika a Chomského hierarchie...134 14.2. Turingův stroj...135 2

3

Úvod pro práci s textem pro distanční studium. Průvodce studiem: Účel textu Struktura Tento text má sloužit pro potřeby výuky základů teorie formálních jazyků. Jelikož tato teorie obsahuje velmi mnoho matematické symboliky bude pro veškeré matematické vzorce použita sice málo elegantní, avšak jednoduchá notace založená na pouze nejnutnějším používání nestandardních symbolů, indexů apod. I když se pravděpodobně může čtenáři, zvláště matematikovi, zdát tato symbolika neobvyklá nebo dokonce špatně čitelná, je text psán tímto stylem s ohledem na jeho maximální přenositelnost do jiných formátů. Je tomu tak vzhledem k jeho účelu, tedy studiu v elektronické podobě. Celé studium je rozděleno do 14 lekcí, u nichž jsou dodrženy následující pravidla: - je specifikován cíl lekce (tedy co by měl student po jejím absolvování umět, znát, pochopit) - výklad učiva - řešené příklady a úlohy k zamyšlení - důležité pojmy otázky - korespondenční úkoly (mohou být sdruženy po více lekcích) Čas k prostudování explicitně není uveden záleží na vašich schopnostech, návycích. Věnujte značnou pozornost zejména první kapitole, kde se dozvíte, o čem tento kurz bude a pak také prvnímu z důkazů, který je velmi dobře komentován. Jelikož tento komentář, který bude možná pro některé z vás až přehnaně detailní, vás má především připravit na další věty, pokuste již na tomto prvním případě pochopit, jak jsou konstruovány důkazy v TFJA. Co je jazyk? Teorie formálních jazyků (TFJA) patří k složitějším teoretickým disciplínám informatiky. Vyžaduje od vás základní znalosti matematických pojmů jako je zobrazení, funkce, uspořádaná n-tice. Nebojte se prosím, že půjde o složité matematické struktury. Tato teorie je často pro studenty noční můrou, ale vůbec tomu tak nemusí být! Zaleží především na způsobu výkladu. Budu se snažit, jako autor tohoto textu, Vás co nejméně zatěžovat matematizovaným výkladem. Vždyť s formálními jazyky se setkáváme celý život, i když o informatice nemáme žádné odborné znalosti. Vzpomeňte si na základní školu a výuku přirozeného jazyka (v našem případě českého). Jistě jste každý z vás dělali rozbor české věty. Víte, že věta má obvykle podmět a přísudek a může obsahovat i další větné struktury. Pravě toto je jednoduché laicky vyřčené pravidlo gramatiky českého jazyka. Co tedy tvoří jazyk? Přece věty vytvořené správně ze slov podle gramatických pravidel. A pokud chceme rozhodnout zda věta je vytvořená správně, pak vlastně děláme jakýsi automatický postup, kdy si uvědomíme zda věta má nebo nemá podmět a 4

přísudek (zjednodušeně). Vlastně máme tedy v mozku jakýsi automat, který správné věty odhaluje rozlišuje věty, které patří do jazyka a které ne (jsou špatně vytvořené). Samozřejmě uvedený příklad je velice primitivní, ale mějte na paměti, že vše v TFJA se více či méně dotýká těchto pojmů. Znáte je tedy z běžného života a budu se snažit vám co nejčastěji uvádět příklady. Prosím vás o stejný přístup! Nejde o to, abyste se nazpaměť naučili výčet matematických definic, ale abyste pochopili princip pojmů. Pokud to budete mít stále napaměti, zjistíte jak snadné je učit se vysoce teoretické znalosti a že to navíc nevyžaduje ani příliš dobrou paměť. Budete tak mít tak krásný pocit z objevování vlastností těchto pojmů jako jsem měl před časem já sám. Pochopíte, že sebeabstraktnější věc má svůj selský rozum, který se vyplatí hledat. A nejen to. Budete lepšími informatiky, neboť uvidíte, jak systematicky jsou tvořeny programovací jazyky, dotazovací jazyky databází a jiné, a že i vy sami jste schopni jednoduchý programovací jazyk vytvořit. Vaše znalosti budou díky této teorii univerzální a získáte tak obrovskou výhodu před vašimi kolegy, kteří touto výuku neprošli. Informatika se totiž velmi dynamicky vyvíjí a proto změna přístupu (např. přechod od strukturovaného k objektovému programování) znamená obrovský skok ve způsobu myšlení. Vy však uvidíte systém jazyka daného programátorského prostředku a to Vám značně usnadní tento přechod. Narozdíl od kolegů, kteří spíše věnují čas učení konkrétních prostředků a ne principů, bude pro vás tento přechod mnohem jednodušší. Tento text se bude zabývat především dvěma nejjednoduššími třídami jazyků regulárními a bezkontextovými. Nelze samozřejmě zastírat, že se pohybujeme v exaktní vědě. Proto je cílem TFJA všechny tyto pojmy selského rozumu formalizovat. To znamená dát jim jasný a jednoznačný význam, který nebude možno vykládat jinak. Například pojem slovo může být chápán jako věta, pokud budeme za jednotlivé symboly považovat celá slova! Proto je tato formalizace velmi důležitá a zatím nejvhodnějším aparátem, který je používán ve vědě, je matematika. Opět zdůrazňuji, že jde o matematiku velice jednoduchou a pochopitelnou, proto prosím nepodléhejte předsudku, že co je formalizováno s pomocí matematiky musí být obtížné a zamlžené. Jde jen o to, abyste vždy před formalizací chápali princip. V textu bude úmyslně postupně snižován objem detailních komentářů. Jednak by se jinak do něj nevešlo vše, čím bychom se měli zabývat a jednak vás chci takto jemně a postupně vést k pochopení a používání prostředků matematické formalizace. Přeji vám upřímně, abyste úspěšně prostudovali tento text a aby Vám posunul hranice poznání v oblasti informatiky. Zvýšené úsilí, které studiu věnujete se vám bohatě vrátí, možná ne za měsíc nebo za rok, ale věřte že vrátí! Pochopení základ úspěchu Zpracujte prosím všechny korespondenční úkoly a zašlete je včas každá lekce by měla představovat zhruba jeden týden v prezenčním studiu a z toho vycházejte při jejich odesílání. 5

Pokud si text budete prohlížet jako dokument formátu PDF, aktivujte si v nastavení vyhlazování vektorové (čárové) grafiky, jinak budete mít některé obrázky nepříjemně zubaté Zároveň vás chci laskavě poprosit, abyste jakékoliv věcné i formální chyby v textu zdokumentovali a kontaktovali mne. Budu Vám za tuto pomoc vděčen a usnadní to učení i Vašim kolegům. 6

KONEČNÝ AUTOMAT A JAZYKY ROZPOZNATELNÉ KONEČNÝM AUTOMATEM Intuitivní pojem jazyka a gramatiky 1. Konečný automat a jazyky rozpoznatelné konečným automatem Cíl: Po prostudování této kapitoly budete umět vysvětlit: intuitivní pojem jazyka a gramatiky, jejich význam v praxi a tím získáte motivaci pro studium intuitivní pojem automatu a vztah mezi jazykem, gramatikou a automatem Získáte základní přehled o těchto otázkách: teorie formálních jazyků hierarchie jazyků, problém determinismu a nedeterminismu Naučíte se používat: základní pojmy: abeceda, slovo, jazyk definice konečného automatu a budete umět podat jednoduché příklady 1.1. Intuitivní pojem jazyka a gramatiky Jak jste již mohli číst v úvodu znáte pojem jazyka a gramatiky z vlastní zkušenosti již od dětství, i když si to třeba neuvědomujete. Uvědomte si následující schéma: Řešený příklad 1: <Jednoduchá česká věta> ::= <Podmět><Přísudek><Předmět> <Podmět> ::= Jiří Jan <Přísudek> ::= má řídí <Předmět> ::= auto firmu Toto schéma obsahuje pravidla, která vždy položky v lomených závorkách přepisují na posloupnosti (řetězce, uspořádaný výčet) buď stejných položek v hranatých závorkách nebo slov (symbolů). Jde vlastně o gramatiku (soubor pravidel), jak položky v hranatých závorkách (může říci proměnné) můžeme přepisovat postupně až na slova (symboly). Můžeme tedy tímto postupem dostat například takovéto jednoduché české věty: <Jednoduchá česká věta> -> <Podmět><Přísudek><Předmět> -> Jiří <Přísudek><Předmět> -> Jiří řídí <Předmět> -> Jiří řídí firmu. 7

KONEČNÝ AUTOMAT A JAZYKY ROZPOZNATELNÉ KONEČNÝM AUTOMATEM Intuitivní pojem jazyka a gramatiky nebo <Jednoduchá česká věta> -> <Podmět><Přísudek><Předmět> -> Jan <Přísudek><Předmět> -> Jan má <Předmět> -> Jan má auto. Tedy postupným dosazování za proměnné podle pravidel dojdeme až na posloupnosti, které už neobsahují žádné proměnné. Průvodce studiem: Odborně se neříká proměnné, ale neterminály (nejsou konečné terminální) a slova, ale terminály (symboly, které se již nemohou dál rozvíjet). Pozor na zmatení v pojmech! Slovo je chápáno v TFJA jako věta, tedy již správně utvořená a symbol je chápán jako slovo. Např. Jan je zde v tomto případě symbol a Jan řídí auto je slovo (věta)! Vidíte, jak důležitá je formalizace jasná dohoda o používaných pojmech! Gramatika Jazyk Gramatika je tedy laicky řečeno soubor výchozích symbolů, proměnných a pravidel pro vytváření vět. Jazykem jsou všechny věty, které jsou vytvořeny v souladu s gramatikou. Řešený příklad 2: Budeme-li uvažovat o tom, co je to jazyk, zkusme vyjít z gramatiky z předchozího příkladu na jednoduchou českou větu. Jazyk L je pak množina: L = { Jiří má auto, Jiří má firmu, Jiří řídí auto, Jiří řídí firmu, Jan má auto, Jan má firmu, Jan řídí auto, Jan řídí firmu} Jazyk má tedy 8 prvků (správně utvořených vět). Uvědomte si, že tento příklad je velice jednoduchý. Jednoduchá česká věta se rozvinula na posloupnost podmětu, přísudku a předmětu. Každá z těchto tří proměnných se mohla podle gramatiky rozvinout do dvou symbolů (slov). To tedy dává 2 3 možných vět. Jazyk je tedy v tomto případě konečný, neboť má konečně mnoho prvků. Například věta Auto řídí Jan by podle této gramatiky nepatřila do jazyka, protože není utvořena podle pravidel (nedodržuje slovosled daný prvním pravidlem)! V dalším studiu se budeme zabývat ještě mnohem jednoduššími jazyky, které budou složeny jen z primitivních symbolů (např. 0, 1), avšak tyto jazyky budou často i nekonečné, tedy budou mít nekonečně mnoho různých vět. Například jazyk L složený z vět, které obsahují nejprve jakýkoliv (nenulový) počet nul a za nimi následuje stejný počet jedniček je nekonečný. Zapsáno symbolicky je to množina: L = { 01, 0011, 000111,...}, kde... značí dalších nekonečně mnoho možností. 8

KONEČNÝ AUTOMAT A JAZYKY ROZPOZNATELNÉ KONEČNÝM AUTOMATEM Teorie formálních jazyků Další pojem, který Vám sice zatím nemohu objasnit podrobně a přesně, neboť pro něj zatím nemáme vybudován aparát, je automat. Automat má zjišťovat, zda věta patří do určitého jazyka. Například automat, který zjišťuje zda věta je jednoduchá česká věta podle příkladu 1, by pracoval tak, že by si větu rozkouskoval do slov a pak zjistil zda první slovo je podmět, druhé přísudek a třetí předmět. Pokud by to tak bylo, pak by odpověděl, že slovo patří do jazyka. Automat Automat je postup (algoritmus, matematická struktura), který k danému jazyku rozlišuje, která slova do něj patří. Pokuste se odpovědět na otázku: Je složitější napsat gramatiku (soubor pravidel) pro český jazyk nebo programovací jazyk Pascal? 1.2. Teorie formálních jazyků Na úvod se podívejme, jak definuje TFJA učebnice prof. Češky [Ce92]: Teorie formálních jazyků představuje velmi důležitou oblast informatiky (computer science). Základy novodobé historie této disciplíny položil v roce 1956 americký matematik Noam Chomsky, který v souvislosti se studiem přirozených jazyků vytvořil matematický model gramatiky jazyka. Realizace původních představ, formalizovat popis přirozeného jazyka takovým způsobem, aby mohl být automatizován překlad z jednoho přirozeného jazyka do druhého nebo aby přirozený jazyk sloužil jako prostředek komunikace člověka s počítačem, se ukázala velmi obtížnou a ani současné výsledky nejsou uspokojivé. Začala se však vyvíjet vlastní teorie jazyků, která nyní obsahuje bohaté výsledky v podobě matematicky dokázaných tvrzení teorémů. Tato teorie pracuje se dvěma duálními matematickými entitami, s gramatikou a s automatem, představující abstraktní matematický stroj. Zatímco gramatika umožňuje popsat strukturu vět formálního jazyka, automat dovede tuto strukturu identifikovat. Poznatky teorie formálních jazyků mají význam pro mnohá odvětví kybernetiky. Dodávají algoritmy, jež jsou podkladem pro konstrukci reálných automatů zpracovávající informaci ve tvaru vět formálního jazyka. Stanovují však také možnosti a omezení algoritmických postupů řešení problémů; odhalují problémy, které jsou algoritmicky nerozhodnutelné, tj. problémy, jejichž řešení nelze dosáhnout v konečném čase. 9

KONEČNÝ AUTOMAT A JAZYKY ROZPOZNATELNÉ KONEČNÝM AUTOMATEM Účel teorie a její vlastnosti Teorie formálních jazyků našla doposud největší uplatnění v oblasti programovacích jazyků. Krátce po Chomského definici gramatiky formálního jazyka a klasifikaci formálních jazyků (Chomského hierarchie formálních jazykù), Backus a Nauer použili základních objektů gramatiky pro definici syntaxe programovacího jazyka Algol 60 (ve tvaru formalismu, jež se nazývá Backus-Nauerova forma). Další vývoj pak přímočaře vedl k aplikacím teorie jazyků v oblasti překladačů programovacích jazyků. Stanovení principů syntaxí řízeného překladu a generátorů překladačů (programovacích systémů, které na základě formálního popisu syntaxe a sémantiky programovacího jazyka vytvoří jeho překladač) představuje kvalitativní skok při konstrukci překladačů umožňující automatizovat náročnou programátorskou práci spojenou s implementací programovacích jazyků. Tolik z velmi precizně zpracované učebnice, kterou Vám doporučuji jako doplňující literaturu. I když v této studijní opoře najdete vše potřebné k seznámení s teorií formálních jazyků a automatů a k úspěšnému vykonání zkoušky, nikdy neškodí se podívat i do časem prověřených skript, psaných nejlepšími odborníky jako je prof. Češka. Sami zjistíte, že paralelní práce s několika publikacemi Vám přinese lepší pochopení učiva i občerstvení od monotónního stylu jednoho autora. Uvedená skripta mají tu výhodu, že jsou k dispozici volně ke stažení na Internetu na adrese uvedené v seznamu literatury. Prosím využijte tuto možnost a během studia tuto doplňující literaturu používejte. 1.3. Účel teorie a její vlastnosti Možná, že se divíte, proč jsem začal s citací jiného autora a nesnažím se Vám ihned podat mou definici teorie formálních jazyků. Má to několik důvodů. Jak už jsem uvedl je velice přínosné pracovat s různými přístupy k výkladu. Není to však jediný důvod. Právě tato úvodní definice (nebo bych si dovolil říct, rozšířené motto celého tohoto textu) je velmi výstižná a pokud ji pozorně přečtete, zjistíte, že to čím se budeme zabývat není ani zdaleka jen hrůzu nahánějící změť definic, vět a důkazů, ale že je to potřebná věda, která vznikla ze snahy získat aparát na zpracování přirozeného jazyka. Možná znáte z beletrie, filmů žánru science fiction počítače, se kterými můžete mluvit v přirozené řeči, dávat jim příkazy a získávat informace. Využití Jak všichni víme dnes, na začátku 21. století, jsou stále takové představy spíše v rovině SCIFI. Jistěže bylo dosaženo pokroků v této oblasti, stále ale máme do automatizovaného rozkladu textu či řeči a její interpretace daleko. Přesto ale tato teorie podnítila systematizaci rozvoje programovacích jazyků zavedení syntaktických struktur a díky nim můžete jako informatici používat mnoho produktů od programovacích jazyků (PASCAL, C) přes dotazovací jazyky (SQL) až k nejmodernějším 10

KONEČNÝ AUTOMAT A JAZYKY ROZPOZNATELNÉ KONEČNÝM AUTOMATEM Základní pojmy teorie jazyků značkovacím jazykům (XML), které Vám umožňují si vlastní strukturu dokumentu ve formě gramatiky definovat. Tvůrci těchto prostředků a jejich implementací nejenže je museli navrhovat s dobrou znalostí této teorie, ale také museli využít znalosti získané o způsobech překladu zdrojových kódů. K čemu by Vám bylo, že napíšete správně podle gramatiky program v Pascalu, když byste neměli možnost jej zkompilovat (přeložit) a spustit, abyste jej mohli používat (aplikovat) na vstupní data! Uvědomte si navíc, že jazyky jsou různě složité! Vezměte si zmíněný jazyk Pascal a jazyk český. Sami asi cítíte, že Pascal je oproti mateřskému jazyku (tedy pokud se správně používá) mnohem jednodušší. V mateřském jazyce je spousta závislostí, zatímco Pascal je poměrně přesně daný jazyk, s jasnou strukturou (syntaxí). Jedním z nejdůležitějších výsledků TFJA je rozdělení jazyků do různých tříd (různě složitých jazyků). V tomto textu se pro začátek budeme zabývat především dvěmi nejjednoduššími třídami jazyků, jak napovídá název textu regulárními a bezkontextovými. Vyšší třídy jazyků v závěrečné kapitole prostudujeme spíše encyklopedickým způsobem budete se jimi zabývat z hlediska vyčíslitelnosti ve stejnojmenném předmětu. Různá složitost jazyků 1.4. Základní pojmy teorie jazyků Abychom mohli ve studiu TFJA pokračovat, zavedeme nejprve základní definice, ze kterých budeme vycházet. Základní pojmy a definice Abeceda Definice 1: Abeceda Σ je konečná množina symbolů. Abeceda Řetězec (slovo) Definice 2: Řetězec (slovo) α prvků z konečné množiny Σ je libovolná konečná posloupnost prvků této množiny. Řetězce zpravidla označujeme řeckými písmeny. Počet prvků v řetězci udává jeho délku a označujeme ji α. Řetězec, který neobsahuje žádný prvek, nazýváme prázdný řetězec a označujeme ho ε nebo e (nedojde-li k záměně). Jeho délka je 0. α = a 1 a 2...a k-1 a k a i Σ, i = 1,2,...,k; α = k Řetězec (slovo) Pozn. Velmi dobře znáte řetězce z běžného života např. Vaše jméno je řetězec složený z písmen české abecedy. 11

KONEČNÝ AUTOMAT A JAZYKY ROZPOZNATELNÉ KONEČNÝM AUTOMATEM Základní pojmy teorie jazyků Řešený příklad 3: Mějme množinu Σ={0,1}. Řetězce prvků této množiny jsou binární čísla bez znaménka. Například α = 001011 α = 6 β = 0000 β = 4 Konkatenace (zřetězení), uzávěry množiny Definice 3: Zřetězení (konkatenace) řetězců α=a 1 a 2 a r a β=b 1 b 2 b s je řetězec αβ=a 1 a 2 a r b 1 b 2 b s. Zřetězení (konkatenace) Pozn. Pro délku konkatenace αβ dvou řetězců α a β platí αβ = α + β. Dále pro konkatenaci libovolného řetězce α s prázdným řetězcem ε platí α ε = ε α = α Konkatenace může být provedena také několikanásobně, potom používáme následující značení: α n, přičemž označuje konkatenaci řetězce α provedenou n-krát. Například (01) 3 je řetězec 010101. Pozn. Zřetězení opět není nic složitějšího než spojení dvou řetězců k sobě. Uzávěry Definice 4: Pozitivním uzávěrem Σ + konečné množiny prvků Σ nazveme množinu všech řetězců sestavených z prvků množiny Σ bez prázdného řetězce. (Uzávěr Σ + je spočetná množina.) Definice 5: Uzávěr Σ množiny Σ navíc obsahuje prázdný řetězec ε, tj. je definován Σ = { ε } Σ + Pozn. Tyto uzávěry jsou tedy všechny možné kombinace, jak nějakou množinu můžeme prokombinovat spojením jejich řetězců libovolně-krát za sebou (viz příklad). Řešený příklad 4: Nechť množina prvků je Σ = { a,b,c } Její pozitivní uzávěr a uzávěr je (pouze některé prvky uvědomte si, že je nekonečný!) Σ + = { a,b,c,aa,ab,ac,ba,bb,bc,ca,cb,cc,aaa,aab, } Σ = { ε,a,b,c,aa,ab, } Jazyk Formální jazyk Definice 6: Nechť je dána abeceda Σ, pak libovolná podmnožina uzávěru Σ je formálním jazykem nad abecedou Σ. Tedy formální jazyk L je definován L Σ (pro jednoduchost budeme mluvit o jazyce). 12

KONEČNÝ AUTOMAT A JAZYKY ROZPOZNATELNÉ KONEČNÝM AUTOMATEM Konečný automat Specifické případy: Je-li L prázdná množina (L = ), je to prázdný jazyk. Je-li L konečná podmnožina, je to konečný jazyk. Je-li L je nekonečná podmnožina, je to nekonečný jazyk. Jazyk je tedy výběrem slov v určité abecedě ze všech možných kombinací symbolů. Může samozřejmě obsahovat všechna slova, žádné nebo některé. Je jasné, že jazyk může být různě složitý (jak jsme to již probírali). Řešený příklad 5: Nechť abeceda je Σ = { +,-,0,1,2,,9 } Pak množina celých čísel je jazykem nad Σ. Uvedená definice formálního jazyka je pro praktické použití příliš obecná. Pouze definuje, co jazyk je, ale neposkytuje žádné prostředky pro popis struktury jazyka nebo zjištění, zda určitý řetězec do jazyka patří. Pojmy, které jsme si právě zavedli, vás budou provázet celým studiem. Pokuste se je nyní znovu projít a zkuste si pro každý z nich představit konkrétní příklad, podobně jako jste je viděli v předchozích úlohách. Uvidíte, že pokud si hned od začátku studia budete za každým matematizovaným pojmem představovat konkrétní příklady ze života, bude pro Vás mnohem jednodušší pracovat s nimi ve složitějších kapitolách. 1.5. Konečný automat Mluvíme-li o jazyce jako množině slov a gramatice jako o souboru pravidel, která umožňují generovat slova z jazyka, pak automat je prostředkem, jak zjistit, která slova do jazyka patří a která ne. Pokuste se představit si následující stroj - automat. Má pásku, na kterou můžete zapisovat po symbolech slova, která chcete rozpoznat, zda patří do jazyka nebo ne. Dále má řídící jednotku se stavy, které si můžete představit jako žárovky, které se rozsvítí, pokud je automat právě v tom konkrétním stavu. Z pásky umí automat číst pouze po jednotlivých symbolech a nemůže se vracet zpět na již přečtené symboly. Je důležité, abyste si uvědomili, že automat si nemůže nic pamatovat. Vždy vidí jen jeden symbol ze zkoumaného slova. Dále automat ví, jak reagovat na situaci pokud je v nějakém stavu a na pásce vidí určitý symbol. Vždy je pak výsledkem takové akce přechod do nějakého stavu (může jít i o stejný stav). Nakonec má automat k dispozici informaci, ve kterém stavu má začít a který stav je koncový (nebo více stavů) a pokud se dostane do takového stavu, pak je slovo z jazyka. Podívejme se na příklad: Konečný automat 13

KONEČNÝ AUTOMAT A JAZYKY ROZPOZNATELNÉ KONEČNÝM AUTOMATEM Konečný automat 010101... Páska se zkoumaným slovem 0 q 0 q 1 1 1 0 q 2 0,1 Řídící jednotka má kruhové symboly (stavy), které se během práce automatu mohou stávat aktivní (při začátku čtení slova je aktivní stav do kterého vstupuje šipka), koncový stav je stav, ze kterého šipka vystupuje. Šipky mezi stavy určují, jaký stav se stane aktivní místo stávajícího při přečtení symbolu, který je u šipky, z pásky. (nazývají se přechody mezi stavy) A nyní si znázorněme automat v činnosti. Postupně načteme slovo 0101 a vždy zvýrazníme ten stav, který je právě aktivní. Ve čteném slově pak bude zvýrazněn ten symbol, který bude právě přečten. q 0 0 q 1 1 1 0 Počáteční situace automat začíná svůj výpočet a je právě ve stavu q 0 a chystá se přečíst ze slova 0101 první symbol. q 2 0,1 q 0 0 q 1 1 1 0 q 2 0,1 Automat přečetl první symbol 0 ze slova 0101 a podle definovaného přechodu se stal aktivní stav q 1 14

KONEČNÝ AUTOMAT A JAZYKY ROZPOZNATELNÉ KONEČNÝM AUTOMATEM Konečný automat 0 q 0 q 1 1 1 0 Po přečtení symbolu 1 ze slova se automat dostal opět do stavu q 0. Ve slově nyní následuje další symbol 0-0101 q 2 0,1 q 0 0 q 1 1 1 0 Automat je opět ve stavu q 1 a zbývá přečíst poslední symbol slova 0101 q 2 0,1 0 q 0 q 1 1 1 0 q 2 0,1 V poslední fázi výpočtu již není symbol, který by se dal z pásky přečíst. Proto zbývá zjistit, zda se automat dostal do stavu, který je koncový má výstupní šipku. Je tomu tak, proto říkáme, že automat slovo 0101 rozpoznal přijal. Jak vidíte, princip tohoto typu automatu není nijak složitý. Doufám, že jste pochopili, jak se z počátečního (vstupního) stavu postupně dostává do jiných pomocí čtení jednotlivých symbolů na pásce. Uvědomte si, že automat přečte celé slovo a pak je otázka, zda skončil ve stavu koncovém nebo ne. Pokud ano, slovo patří do jazyka, který automat umí rozpoznávat. Tedy můžeme hovořit o slovech, které automat rozpoznává (patří do jazyka rozpoznatelného tímto automatem) a které ne. Zkusme spolu uvažovat o jaký jazyk v tomto konkrétním případě jde. Pokud se blíže na automat podíváte, pak uvidíte, že pokud dostává na pásku slova, která obsahují přesně za sebou sled symbolů 01, pak se pohybuje mezi stavy q 0 a q 1. Pokud by však dostal po symbolu 0 další symbol nula, pak skončil ve stavu q 2, ze kterého by se už pak nemohl dostat jinam, protože přechod na 0 i 1 ze stavu q 2 vede opět do q 2. Stejná situace nastane, pokud se po symbolu 1 bude číst další symbol 1. Stav q 2 je v podstatě jakási černá díra, která se stará o situace, které nastanou ve slovech, která nechceme přijmout. Takže tento automat přijímá slova, která jsou libovolně krát zřetězeným slovem 01. A všimněte si, že rozpozná i slovo, které neobsahuje nic (tedy prázdné slovo), neboť počáteční stav q 0 je zároveň koncovým. 15

KONEČNÝ AUTOMAT A JAZYKY ROZPOZNATELNÉ KONEČNÝM AUTOMATEM Konečný automat Zapišme tedy jazyk, který automat rozpoznává do matematického zápisu. L = { (01) n, n 0 } (jinak řečeno, automat rozpoznává ta slova, která obsahují posloupnosti 01 v libovolném množství za sebou) Uvědomme si, že automat také nemusí v určitém kroku mít definováno, do jakého stavu jít, nebo může mít více možností. Pak hovoříme o nedeterministickém automatu. S pojmem nedeterministický se budeme setkávat i u dalších typů automatů. Nedeterministický by se dalo volně přeložit jako takový, který nemůže v určitém okamžiku jednoznačně určit, co dělat. Konečné automaty kolem Vás Abychom nemluvili pouze o odtažitém příkladě se symboly nula a jedna, zkuste si představit například automat na kávu. Asi jste s ním již všichni přišli do kontaktu a vhazovali do něj mince, až jste se dočkali svého oblíbeného nápoje. Nedělali jste vlastně nic jiného než že jste konečnému automatu dávali na vstupní pásku symboly mince o určité hodnotě. Stavy v tomto případě určují, kolik jste již do automatu vhodili peněz (počáteční stav je 0 Kč, koncový je cena nápoje). Pokud bychom to ilustrovali jako na předchozím (matematickém příkladě), pak můžete sledovat popis takového automatu na obrázku. Šipky mezi stavy reprezentují přechodovou funkci mezi nimi tedy jakou minci jsme vhodili (můžete vhodit minci 1 Kč, 2 Kč nebo 5 Kč). 5Kč začátek 0 Kč 2Kč 2 Kč 2 Kč 4 Kč nápoj vydán 1 Kč 1 Kč 1 Kč 1 Kč 1 Kč 1 Kč 3 Kč 5 Kč 2 Kč 2 Kč Ještě než ukončíme tuto kapitolu, zaveďme si definici konečného automatu, se kterým jsme se nyní seznámili intuitivně. Vím, že matematické definice pro Vás budou obtížné, ale pokuste se je prosím pochopit. Nestudujte text dál (další kapitoly), pokud si nebudete jisti, že se v matematicky vyjádřené definici vyznáte a chápete její smysl. Za 16

KONEČNÝ AUTOMAT A JAZYKY ROZPOZNATELNÉ KONEČNÝM AUTOMATEM Konečný automat vlastními definicemi najdete také pomůcku, jak docílit pochopení těchto formálních pojmů. Konečný automat (deterministický) - KA Definice 7: (Deterministickým) konečným automatem (DKA) nazýváme každou pětici A =(Q,Σ,δ, q 0, F), kde - Q je konečná neprázdná množina (množina stavů, stavový prostor ) - Σ konečná neprázdná množina (množina vstupních symbolů, vstupní abeceda ) - δ je zobrazení Q Σ Q (přechodová funkce ) - q 0 Q (počáteční stav, iniciální stav ) - F Q (množina koncových stavů, cílová množina ). Deterministický konečný automat Definice 8: Přechodovou funkci δ:q Σ Q konečného automatu A =(Q,Σ,δ, q 0, F) rozšíříme na zobecněnou přechodovou funkci δ * :Q Σ * Q následovně: 1. δ * (q,e)=q, q Q 2. δ * (q,wa)=δ(δ * (q,w),a), q Q, w Σ *, a Σ. Pozn. Zobecněná přechodová funkce není opět nic složitého jde o rozšíření, které umožňuje zkoumat, kam se dostaneme z určitého stavu na slovo (tedy několik symbolů místo jednoho). Definici si lépe přečtete, pokud si vzpomenete na funkci faktorial. Zřejmě jste v programování konstruovali algoritmus této funkce pomocí rekurze. Víte, že faktorial(n) = n * faktorial(n-1) a faktorial(0) = 1. Přesně toto říká definice pro tuto zobecněnou funkci. Tedy, že problém přechodu na slovo lze rozložit na problém přechodu na poslední symbol slova (což umíme podle obyčejné přechodové funkce) a pak jen stačí zbytek slova řešit stejným postupem, až dojdeme na prázdné slovo. Prázdné slovo odkudkoliv nemůže způsobit nic jiného, než že se zůstane ve stejném stavu. Zobecněná přechodová fce Jazykem rozpoznávaným konečným automatem A, pak nazveme množinu L(A)={ w w Σ * δ * (q 0,w) F }. Řekneme, že jazyk L (nad abecedou Σ) je rozpoznatelný konečným automatem, jestliže existuje konečný automat A takový, že L(A)=L. Jazyky rozpoznávané a rozpoznatelné KA Konečné automaty reprezentují výše uvedené množiny a zobrazení. Kromě přechodové funkce by mělo být pro Vás poměrně jednoduché pochopit, co jsou jednotlivé množiny. Přechodová funkce určuje, do jakého stavu se přechází na daný symbol a aktuální stav. Proto má strukturu danou 17

KONEČNÝ AUTOMAT A JAZYKY ROZPOZNATELNÉ KONEČNÝM AUTOMATEM Konečný automat kartézským součinem v definici (osvěžte si pojem kartézského součinu z teorie množin). Rozlišujte prosím, co je jazyk rozpoznávaný a rozpoznatelný! Rozpoznávaný je jazyk konkrétním automatem jde o slova, která ho dostanou do koncového stavu. Tedy například u našeho automatu na kávu jde o všechny posloupnosti, jak lze do něj vhodit mince o celkové hodnotě 5 Kč (např. posloupnost 1Kč, 2 Kč, 2 Kč, a další) Rozpoznatelný je jazyk tehdy, pokud k němu vůbec lze sestrojit KA. Říkali jsme, že jazyky jsou různě složité. Např. pro jazyk Pascal byste nedokázali sestrojit takový automat (jenž by skončil v koncovém stavu pro programy správně napsané), protože na to je jazyk příliš složitý. Jak uvidíme v pokročilých kapitolách, je konečný automat příliš slabá formalizace na takový jazyk jako je Pascal. Reprezentace automatu Možnosti reprezentace konečného automatu (způsobu zápisu): - zápis výčtu jednotlivých prvků pětice konečného automatu - tabulka - stavový diagram - stavový strom Řešený příklad 6: Mějme konečný automat A=(Q,Σ,δ, q 0, F) Q={q 0,q 1,q 2,q 3 }, Σ = {0,1} δ(q 0,0)=q 0, δ(q 0,1)=q 2 δ(q 1,0)=q 1, δ(q 1,1)=q 3 δ(q 2,0)=q 1, δ(q 2,1)=q 3 δ(q 3,0)=q 1, δ(q 3,1)=q 3 F={q 1,q 2 } Tabulka Reprezentace KA A tabulkou: Q\ Σ 0 1 q 0 q 0 q 2 q 1 q 1 q 3 q 2 q 1 q 3 q 3 q 1 q 3 18