Syntaxe gramatiky a syntaktické struktury

Podobné dokumenty
Syntaxe gramatiky a syntaktické struktury

Sémantická interpretace

Automaty a gramatiky(bi-aag) Motivace. 1. Základní pojmy. 2 domácí úkoly po 6 bodech 3 testy za bodů celkem 40 bodů

Virtuální počítač. Uživatelský program Překladač programovacího jazyka Operační systém Interpret makroinstrukcí Procesor. PGS K.

Formální jazyky a gramatiky Teorie programovacích jazyků

TÉMATICKÝ OKRUH Teorie zpracování dat, Databázové a informační systémy a Teorie informačních systémů

Úvod z historie. Kompilátory. Kompilace / Kompilátor Compile / Compiler. Pojem kompilátoru. Úvod z historie

PROGRAMOVACÍ JAZYKY A PŘEKLADAČE LL SYNTAKTICKÁ ANALÝZA DOKONČENÍ, IMPLEMENTACE.

1 Úvod do kompilátorů

Konečný automat. Jan Kybic.

Modely datové. Další úrovní je logická úroveň Databázové modely Relační, Síťový, Hierarchický. Na fyzické úrovni se jedná o množinu souborů.

2 Formální jazyky a gramatiky

Rekurentní rovnice, strukturální indukce

PROGRAMOVACÍ JAZYKY A PŘEKLADAČE FORMALISMY PRO SYNTAXÍ ŘÍZENÝ PŘEKLAD: PŘEKLADOVÉ A ATRIBUTOVÉ GRAMATIKY.

Výpočetní modely pro rozpoznávání bezkontextových jazyků zásobníkové automaty LL(k) a LR(k) analyzátory

PLIN041 Vývoj počítačové lingvistiky Algebraická lingvistika. Mgr. Dana Hlaváčková, Ph.D. od 2. pol. 50. let 20. st.

Gramatické formalismy pro ZPJ

AUTOMATY A GRAMATIKY. Pavel Surynek. Kontextové uzávěrové vlastnosti Turingův stroj Rekurzivně spočetné jazyky Kódování, enumerace

Bezkontextové jazyky. Bezkontextové jazyky 1 p.1/39

Výroková logika syntaxe a sémantika

Rekurentní rovnice, strukturální indukce

Strukturální rozpoznávání

Automaty a gramatiky

/1: Teoretická informatika(ti) přednáška 4

Vztah jazyků Chomskeho hierarchie a jazyků TS

5. Abstraktní podstatná jména se často tvoří odvozováním od přídavných jmen různými příponami. Utvořte:

ALGORITMIZACE A PROGRAMOVÁNÍ

Jednoznačné a nejednoznačné gramatiky

doplněk, zřetězení, Kleeneho operaci a reverzi. Ukážeme ještě další operace s jazyky, na které je

Implementace LL(1) překladů

postaveny výhradně na syntaktické bázi: jazyk logiky neinterpretujeme, provádíme s ním pouze syntaktické manipulace důkazy

Automaty a gramatiky(bi-aag) Formální překlady. 5. Překladové konečné automaty. h(ε) = ε, h(xa) = h(x)h(a), x, x T, a T.

Anglický jazyk. Anglický jazyk. žák: TÉMATA. Fonetika: abeceda, výslovnost odlišných hlásek, zvuková podoba slova a její zvláštnosti

PROGRAMOVACÍ JAZYKY A PŘEKLADAČE LEXIKÁLNÍ ANALÝZA

Prolog PROgramming in LOGic část predikátové logiky prvního řádu rozvoj začíná po roce 1970 Robert Kowalski teoretické základy Alain Colmerauer, David

Příloha č. 4 ČESKÝ JAZYK JAZYKOVÁ VÝCHOVA

Syntaktická analýza. Implementace LL(1) překladů. Šárka Vavrečková. Ústav informatiky, FPF SU Opava

Aktuální změny v didaktickém testu z češtiny 2015

Příloha č. 4 ČESKÝ JAZYK JAZYKOVÁ VÝCHOVA

Počítačové zpracování češtiny. Syntaktická analýza. Daniel Zeman

Modelování procesů s využitím MS Visio.

Turingovy stroje. Teoretická informatika Tomáš Foltýnek

VY_12_INOVACE_32_ZAKLAD_VETY. Časová dotace: 45 min Datum ověření:

Předmět: Český jazyk a literatura

Vlastnosti Derivační strom Metody Metoda shora dolů Metoda zdola nahoru Pomocné množiny. Syntaktická analýza. Metody a nástroje syntaktické analýzy

Roviny analýzy jazyka. Fonetika

Automatická post-editace výstupů frázového strojového překladu (Depfix)

Přirozený jazyk prostředek komunikace

DIGITÁLNÍ ARCHIV VZDĚLÁVACÍCH MATERIÁLŮ

UML. Unified Modeling Language. Součásti UML

VÝUKOVÝ MATERIÁL. Bratislavská 2166, Varnsdorf, IČO: tel Číslo projektu

Olympiáda v českém jazyce 45. ročník, 2018/2019

Pracovní celky 3.2, 3.3 a 3.4 Sémantická harmonizace - Srovnání a přiřazení datových modelů

4.2 Syntaxe predikátové logiky

Sémantický web a extrakce

Překladač sestrojující k regulárnímu výrazu ekvivalentní konečný automat Připomeňme si jednoznačnou gramatiku G pro jazyk RV({a, b})

Gramatické formalismy pro ZPJ II

Vzdělávací oblast: JAZYK A JAZYKOVÁ KOMUNIKACE Vyučovací předmět: Český jazyk a literatura Ročník: 6.

Depfix: Jak dělat strojový překlad lépe než Google Translate

Architektura informačních systémů. - dílčí architektury - strategické řízení taktické řízení. operativní řízení a provozu. Globální architektura

Výstupy z RVP Učivo Ročník Průřezová témata Termín/hodiny Komunikační a slohová výchova 12 čte s porozuměním přiměřeně náročné texty potichu i nahlas

Semestrální práce 2 znakový strom

Nedostatky bezkontextové gramatiky

Lexikální analýza Teorie programovacích jazyků

Poslední aktualizace: 14. října 2011

PŘEDMLUVA VÝKLADOVÁ ČÁST

Automatická post-editace výstupů frázového strojového překladu (Depfix)

Jak se dělá GRAMATICKÝ KOREKTOR ČEŠTINY. Karel Oliva Ústav pro jazyk český Akademie věd ČR

PROGRAMOVACÍ JAZYKY A PŘEKLADAČE STRUKTURA PŘEKLADAČE

Stefan Ratschan. Fakulta informačních technologíı. Evropský sociální fond Praha & EU: Investujeme do vaší budoucnosti

Český jazyk - Jazyková výchova

Ročník: 4. Časová dotace: 7 hodin týdně učivo, téma očekávané výstupy klíčové kompetence, mezipředmětové vazby

OJ305 TYPOLOGIE JAZYKŮ z pohledu syntaxe

/01: Teoretická informatika(ti) přednáška 5

Stromy. Strom: souvislý graf bez kružnic využití: počítačová grafika seznam objektů efektivní vyhledávání výpočetní stromy rozhodovací stromy

Konstruktory překladačů

Vzdělávací obsah vyučovacího předmětu

Dataprojektor, jazykové příručky, pracovní listy

Francouzský jazyk. Náměty jeu de role skupinová práce jazykové hry domácí úkoly práce s časopisy

Deskripční logika. Petr Křemen FEL ČVUT. Petr Křemen (FEL ČVUT) Deskripční logika 37 / 157

Okresní kolo Olympiády v českém jazyce 2007/ ročník

Automatická syntaktická analýza českého textu* (Experiment)

Ročník: 5. Časová dotace: 7 hodin týdně učivo, téma očekávané výstupy klíčové kompetence, mezipředmětové vazby

Překladač a jeho struktura

Kolaborativní aplikace

Český jazyk v 5. ročníku

Identifikátor materiálu: EU-3-3, Č, 8.r., Prezentace Přísudek Vytvořeno: Josef Gajdoš (Autor) čeština. - žádné. výklad.

Programovací jazyky, syntaxe, sémantika, zpsoby popisu

Modelování procesů (2) Procesní řízení 1

Náhled testu. Přijímací zkouška magisterského studia. konečný automat bez zbytečných stavů, který přijímá jazyk popsaný tímto výrazem, má:

Olympiáda v českém jazyce 45. ročník 2018/2019

6. Generativní lingvistika (1)

Stonožka jak se z výsledků dozvědět co nejvíce

Náhled testu. Přijímací zkouška magisterského studia. konečný automat bez zbytečných stavů, který přijímá jazyk popsaný tímto výrazem, má:

Západočeská univerzita v Plzni Dokumentace překladače PL/0 v PHP Předmět KIV/FJP

E K O G Y M N Á Z I U M B R N O o.p.s. přidružená škola UNESCO

Olympiáda v českém jazyce 45. ročník, 2018/2019

Referát z předmětu Teoretická informatika

Vzdělávací oblast: Jazyk a jazyková komunikace Vyučovací předmět: Anglický jazyk Ročník: 9. Průřezová témata Mezipředmětové vztahy.

Kompozicionalita: jm na a reference, logick typy, rule-to-rule vs. interpretativn s mantika 1 / 14

Transkript:

Syntaxe gramatiky a syntaktické struktury Aleš Horák E-mail: hales@fi.muni.cz http://nlp.fi.muni.cz/poc_lingv/ Obsah: Syntaxe, syntaktická analýza Specifikace gramatik Chomského teorie syntaxe Východiska syntaktické analýzy Úvod do počítačové lingvistiky 5/11 1 / 33

Syntaxe, syntaktická analýza Syntaxe, syntaktická analýza syntaxe charakterizace dobře utvořených kombinací slovních tvarů do věty nebo fráze pomocí gramatických pravidel výstup ze syntaktické analýzy (např. derivační strom) tvoří často vstup pro analýzu sémantickou start sentence ends np N pes V nese ADJ malou clause np np N kost.. PREP do pp np N boudy Úvod do počítačové lingvistiky 5/11 2 / 33

Syntaxe, syntaktická analýza Základní termíny Základní termíny fráze (phrase) jednotka jazyka větší než slovo, ale menší než věta např. jmenná fráze, slovesná fráze, adjektivní fráze nebo příslovečná fráze lexikální symbol, lexikální kategorie (lexical category) tzv. preterminál speciální neterminál gramatiky, který se přímo přepisuje na terminálový řetězec znaků, tj. pravidla tvaru X w N pes člověk dům... V nese chodit psal... ADJ... PREP... ADV... označuje všechny slova, která odpovídají určitému lexikálnímu symbolu (všechna podstatná jména, přídavná jména,...) Úvod do počítačové lingvistiky 5/11 3 / 33

Syntaxe, syntaktická analýza Základní termíny Základní termíny pokrač. frázová kategorie (phrasal category) neterminální symbol gramatiky, který nevyjadřuje lexikální kategorii ADJP ADJP ADJ NP ADJP N VP V NP S NP VP větný člen (constituent) lexikální nebo frázová kategorie Úvod do počítačové lingvistiky 5/11 4 / 33

Syntaxe, syntaktická analýza Základní termíny Základní termíny pokrač. větná struktura (sentence structure) strukturovaný popis větných členů povrchová struktura (surface structure) derivační/složkový strom jako výsledek bezkontextové (CF) analýzy N pes V je závislostní struktura (dependency structure) zobrazuje závislosti mezi větnými členy S VP V je N zvíře N N pes zvíře hloubková struktura (deep structure) sémantická interpretace fráze. Popisuje role větných členů (agens, patiens, donor, cause,...) Úvod do počítačové lingvistiky 5/11 5 / 33

Syntaxe, syntaktická analýza Analýza programovacích a přirozených jazyků Syntaktická analýza programovacích přirozených jazyků počítačové programy a přirozené jazyky sdíĺı teorii formálních jazyků a praktický zájem o efektivní algoritmy analýzy ALGOL 60 první programovací jazyk popsaný pomocí Backus-Naurovy formy (BNF) <if_statement> ::= if <boolean_expression> then <statement_sequence> [ else <statement_sequence> ] end if ; dokázalo se, že BNF je ekvivalentní CFG (1962) podnítilo výzkum formálních jazyků z hlediska jazyků přirozených Úvod do počítačové lingvistiky 5/11 6 / 33

Syntaxe, syntaktická analýza Analýza programovacích a přirozených jazyků Typy gramatik gramatiky: regulární (regular) S as S b neterminál terminál[neterminál] ekvivalentní síle konečných automatů, neumí a n b n bezkontextové (context-free) neterminál cokoliv ekvivalentní síle zásobníkových S asb automatů, umí a n b n, neumí a n b n c n kontextové (context-sensitive) víc termů na levé straně (kontext neterminálu) ASB AaBcB umí a n b n c n rekurzivně vyčíslitelné (recursively enumerable) bez omezení ekvivalentní síle Turingova stroje přirozený jazyk byl dlouho pokládán za bezkontextový nyní prokázáno, že obsahuje kontextové prvky Úvod do počítačové lingvistiky 5/11 7 / 33

Syntaxe, syntaktická analýza Gramatiky přirozeného jazyka Gramatiky přirozeného jazyka konkrétní popis gramatiky přirozeného jazyka je velmi složitým úkolem kontrast s faktem, že rodiĺı mluvčí nemívají potíže s pochopením významu vět asi nejstarší formální popis jazyka gramatika sanskrtu od indického učence Paniniho vznikla cca 400 př.n.l. dochovaná v rituálních védických textech gramatika podobná BNF (Backus-Naurově formě) používala bezkontextových i kontextových pravidel, obsahovala asi 1700 termů zabývala se z větší části morfologíı, nikoliv syntaxí, nebot pořádek slov je v sanskrtu dosti volný toto dílo bylo evropské škole obecné lingvistiky, která má kořeny v řecké a římské tradici, neznámé až do 19. století Úvod do počítačové lingvistiky 5/11 8 / 33

Specifikace gramatik Složkový a závislostní přístup Složkový a závislostní přístup dva základní způsoby zadávání gramatik složkový přístup: skupiny slov tvoří větné jednotky, které jsou označovány jako fráze, a jako větné členy (složky, constituents) formují větu např. podstatné jméno součást jmenné fráze (noun phrase NP) jmenná fráze spolu s předložkou tvoří předložkovou frázi (prepositional phrase PP) syntaktická struktura věty je zachycována jako složkový strom Úvod do počítačové lingvistiky 5/11 9 / 33

Specifikace gramatik Složkový a závislostní přístup Složkový a závislostní přístup složkové stromy Velmi velký a těžký slon nastoupil na palubu číslo 12-386-10, kterou tím zatížil na maximum. sentence clause vp np V nastoupil pp adjp N slon PREP na np adjp C a ADJ těžký np C, clause ADV Velmi ADJ velký N palubu np vp C. NUM 12 N číslo C - num NUM 386 PRON kterou C - PRON tím NUM 10 V zatížil PREP na pp N maximum Úvod do počítačové lingvistiky 5/11 10 / 33

Specifikace gramatik Složkový a závislostní přístup Složkový a závislostní přístup pokrač. závislostní přístup: jeden člen vazby je označován jako řídící, druhý jako závislý např. přídavné jméno závisí na řídícím podstatném jménu syntaktická struktura věty je zachycována pomocí závislostního stromu: uzly odpovídají elementárním jednotkám vstupu (často slovům) hrany označují vztahy závislosti mezi elementárními jednotkami závislost není relací mezi jednotlivými slovy, ale obecně relací mezi jedním slovem a frází řízenou druhým slovem. např. vazba mezi konkrétním slovesem a podmětem nebo vazba mezi slovesem a předmětem věty technicky vzato, závislostní relace je vztahem mezi uzly a podstromy (uzlem a všemi uzly, které na tomto uzlu závisí) Úvod do počítačové lingvistiky 5/11 11 / 33

Specifikace gramatik Složkový a závislostní přístup Složkový a závislostní přístup závislostní stromy Velmi velký a těžký slon nastoupil na palubu číslo 12-386-10, kterou tím zatížil na maximum. [root] nastoupil slon subject na additional-prep a palubu prep-object velký těžký číslo modifier, Velmi modifier 12 modifier zatížil. - modifier kterou object tím object na additional-prep 386 modifier maximum prep-object - modifier 10 modifier Úvod do počítačové lingvistiky 5/11 12 / 33

Specifikace gramatik Složkový a závislostní přístup Složkový a závislostní přístup pokrač. jen zřídka se používá čistě složkový či striktně závislostní přístup ve složkovém jsou závislosti zpravidla vyjádřeny přidáním označení, která složka je řídící pro danou frázi závislostní strom bývá doplněn o informaci určující lineární precedenci je možné pak mezi těmito přístupy výsledek převádět Úvod do počítačové lingvistiky 5/11 13 / 33

Specifikace gramatik Složkový a závislostní přístup Složkový a závislostní přístup hybridní stromy Velmi velký a těžký slon nastoupil na palubu číslo 12-386-10, kterou tím zatížil na maximum. sentence clause nastoupil slon subject na additional-prep coord palubu prep-object velký a těžký číslo modifier clause Velmi modifier coord, zatížil. 12-386 - 10 kterou object tím object na additional-prep maximum prep-object Úvod do počítačové lingvistiky 5/11 14 / 33

Specifikace gramatik Uzly syntaktického stromu Uzly syntaktického stromu označení uzlu (název neterminálu) podle zvoleného přístupu reprezentuje: gramatická role (gramatická funkce) charakterizují vztahy mezi větnými start složkami na povrchové úrovni určujeme, zda daný větný člen je NP v roli podmětu, NP v roli předmětu, ADVP určující lokaci atd. v češtině (a jazycích se systémem gramatických pádů) pomáhá k určení gramatické role právě informace o pádu ovšem přiřazení gramatických roĺı ke gramatickým pádům a naopak není zdaleka jednoznačné. nnp ADJ np Dnešní N noviny sentence clause VL přinesly np N zprávu ends.. nnp pp PREP nnp o ADJ nečekaném np np N vývoji np N situace Úvod do počítačové lingvistiky 5/11 15 / 33

Specifikace gramatik Uzly syntaktického stromu Uzly syntaktického stromu pokrač. tematická role (též hloubkový/sémantický pád) na rozdíl od gramatické role se jedná o sémantickou kategorii určujeme např.: Agens kdo je životným původcem nějaké cílevědomé činnosti Patiens co hraje roli entity, na kterou se působí Donor osoba, která dává Cause entita, která způsobuje, že je něco děláno Hospodářský vývoj v ČR by mohl být příznivější při pružnější dopravě, v čemž brání některá legislativní opatření. Úvod do počítačové lingvistiky 5/11 16 / 33

Specifikace gramatik Uzly syntaktického stromu Příznaky a příznakové struktury informace v uzlu syntaktického stromu: příznaky/rysy (features) zaznamenávají syntaktické nebo sémantické informace o slovu nebo frázi. např. test na shodu: Malý Petr přišel domů. podmět (Petr) je ve shodě s přísudkem (přišel) v čísle a rodě přídavné jméno (malý) a podstatné jméno (Petr) se shodují v pádě, čísle a rodě S(n, g) NP(, n, g) VP(n, g) NP(c, n, g) ADJ(c, n, g) N(c, n, g) Úvod do počítačové lingvistiky 5/11 17 / 33

Specifikace gramatik Uzly syntaktického stromu Příznaky a příznakové struktury pokrač. gramatické znaky (slovní druh, gramatický pád, rod, číslo, osoba,...) je výhodné začlenit do gramatiky ve formě dvojic atribut hodnota potom je možné zobecňovat, např. vyjádřit shodu v pádě, čísle a rodě výhradně pomocí atributů aplikace v mnoha gramatických formalismech jazykové objekty jsou zde modelovány jako příznakové struktury (feature structures), tedy právě matice dvojic atribut hodnota. u složitějších struktur nestačí pak běžné porovnání instanciace jde oběma směry použije se unifikace Úvod do počítačové lingvistiky 5/11 18 / 33

Specifikace gramatik Pořádek slov ve větě Pořádek slov ve větě syntaktická pozice standardní pozice větných členů ve větě angličtina: S V O M P T Subject, Verb, Object, Modus, Place, Temp avšak např. předmět se může přesunout na první pozici topikalizace The book I read. v češtině téměř libovolné přesuny syntaktických elementů souvisí s tzv. aktuálním větným členěním Úvod do počítačové lingvistiky 5/11 19 / 33

Specifikace gramatik Možnosti zadávání gramatik Možnosti zadávání gramatik nejčastější formát specifikace gramatik produkční pravidla gramatika se skládá z pravidel generujících správně utvořené řetězce cíl analyzátoru najít odvození vstupního řetězce ze zadaného neterminálu (označovaného obyčejně velkým písmenem S z anglického sentence věta) na základě daných pravidel pokud je tohoto cíle dosaženo, vstup je akceptován a je mu přiřazena odpovídající struktura v minulosti rovněž populární přechodové sítě (transition networks) přechody sítě = lingvistické jednotky, uzly sítě = stavy analyzátoru v procesu analýzy vstupu. Přechody jsou označeny symboly definujícími, za jakých podmínek se analyzátor může přesunout z jednoho stavu do stavu druhého. rozšířené přechodové sítě (ATN Augmented TN) jsou doplněny o podmínky a procedury ekvivalentní deklarativním gramatikám Úvod do počítačové lingvistiky 5/11 20 / 33

Chomského teorie syntaxe Standardní teorie syntaxe Standardní teorie syntaxe 50. léta 20. stol. Noam Chomsky vytvořil formální teorii syntaxe jedna ze základních tezí autonomie syntaxe k ověření syntaktické správnosti věty nepotřebujeme znát její význam resp. v angličtině Bezbarvé zelené myšlenky zuřivě spí. vs. Spí myšlenky zelené zuřivě bezbarvé. Colorless green ideas sleep furiously. vs. Furiously sleep ideas green colorless. syntaktické principy mají univerzální platnost pro různé přirozené jazyky Úvod do počítačové lingvistiky 5/11 21 / 33

Chomského teorie syntaxe Standardní teorie syntaxe Chomského standardní teorie syntaxe znalost jazyka = gramatika Chomského předpoklady o rozumu: rozum má vrozenou strukturu rozum je modulární rozum obsahuje speciální modul pro jazyk porozumění jazyku je oddělitelné od jiných aktivit syntaxe je formální nezávislá na významu a komunikačních funkcích znalost jazyka je modulární obsahuje moduly pro jednotlivé fáze analýzy jazyka Úvod do počítačové lingvistiky 5/11 22 / 33

Chomského teorie syntaxe Standardní teorie syntaxe Standardní teorie syntaxe pokrač. Noam Chomsky, Aspects of the Theory of Syntax, 1965 standardní teorie syntaxe transformační generativní gramatika (TGG) snaží se řešit i zachycení sémantických vztahů v hloubkové struktuře postupně se vyvinula: v rozšířenou standardní teorii (1968) později tzv. Government & Binding Theory (teorie nadřazení a vázání, 1981), která zakládá na pojmu univerzální gramatiky 90. léta teorie minimalismu (snaha po úspornosti popisného aparátu) Úvod do počítačové lingvistiky 5/11 23 / 33

Chomského teorie syntaxe Standardní teorie syntaxe Standardní teorie syntaxe pokrač. základní části standardní teorie: bázová komponenta bezkontextová pravidla a schémata pravidel generují základní strukturu větných členů lexikon popisuje lexikální kategorie a syntaktické rysy lexikálních položek transformační pravidla vložení, smazání, přesun, změna-rysu, kopie-rysu transformace převádí hloubkové struktury na struktury povrchové Úvod do počítačové lingvistiky 5/11 24 / 33

Chomského teorie syntaxe Standardní teorie syntaxe Příklad bázové komponenty pravidla: S NP VP NP (D) A* N PP* VP V (NP) (PP) PP P NP lexikon: D: ten, ta A: velký, hnědý, starý N: pták, psem, lovec, já, lesa V: loví, jí, šli P: se, do věta: Ten starý lovec se psem šli do lesa. syntaktický strom: S NP VP D Ten A starý N lovec P se NP N psem V šli P do PP N lesa Úvod do počítačové lingvistiky 5/11 25 / 33

Chomského teorie syntaxe Standardní teorie syntaxe Příklad transformačních pravidel např. pasivizace (v angličtině): John chose a book. NP1 V NP2 1 2 3 3 2+be+en by+1 přesuny + vložení + změny-rysu transformace: obligatorní např. přesun slovesné koncovky za sloveso fakultativní např. pasivizace, tvorba otázek, negace (změna významu) pravidla bázové komponenty popisují strom hloubkové struktury v obvyklém pořadí transformace umožňují jeho změny na různé povrchové varianty (trpný rod, otázka,...) stopa (trace) ukazuje, kde byl prvek před přemístěním Úvod do počítačové lingvistiky 5/11 26 / 33

Východiska syntaktické analýzy Návrh podkladů a datových struktur Návrh podkladů a datových struktur syntaktický strom kompletní hierarchický popis struktury věty úkol syntaktické analýzy = pro danou gramatiku a daný vstup (větu) dát všechny syntaktické stromy existují techniky pro kompaktní uložení lesa takových stromů (chart parsing) jelikož se zabýváme výhradně syntaktickou strukturou a nevylučujeme a priori strukturní stromy s absurdní interpretací, má většina vět mnoho různých syntaktických stromů Obehnat Šalounův pomník mistra Jana Husa na pražském Staroměstském náměstí živým plotem z hustých keřů s trny navrhuje občanské sdružení Společnost Jana Jesenia. Pocet uspesnych stromu = 3610464 Úvod do počítačové lingvistiky 5/11 27 / 33

Východiska syntaktické analýzy Návrh podkladů a datových struktur Návrh podkladů a datových struktur pokrač. Automatická analýza syntaxe musí vždy projít třemi fázemi: 1. musí být zvolena notace pro zápis gramatiky gramatický formalismus 2. musí být ve zvoleném formalismu napsána gramatika pro každý jazyk, který bude zpracováván 3. musí být vybrán nebo navržen algoritmus, který určí, zda daný vstup odpovídá gramatice, a pokud ano, jaký popis mu odpovídá Úvod do počítačové lingvistiky 5/11 28 / 33

Východiska syntaktické analýzy Grammatical Framework Grammatical Framework www.grammaticalframework.org odděluje abstraktní a konkrétní gramatiky návrh gramatik desítek jazyků popis gramatiky využívá pro analýzu i generování (tzv. linearizace) abstraktní gramatika může sloužit jako interlingua při překladu desítky navazujících aplikací http://www.grammaticalframework.org/demos/ Úvod do počítačové lingvistiky 5/11 29 / 33

Východiska syntaktické analýzy Grammatical Framework Grammatical Framework abstraktní gramatika Is (This Wine) (Very Expensive) Is This Very Wine Expensive Úvod do počítačové lingvistiky 5/11 30 / 33

Východiska syntaktické analýzy Grammatical Framework Grammatical Framework konkrétní gramatika Eng Úvod do počítačové lingvistiky 5/11 31 / 33

Východiska syntaktické analýzy Grammatical Framework Grammatical Framework konkrétní gramatika CZ Úvod do počítačové lingvistiky 5/11 32 / 33

Východiska syntaktické analýzy Grammatical Framework Grammatical Framework překlad > import Food.gr linking... OK Food> import FoodEng.gf linking... OK Languages: FoodEng 0 msec Food> import FoodCze.gf linking... OK Languages: FoodCze FoodEng 4 msec Food> linearize Is (This Cheese) Delicious tento sýr je dobrý this cheese is delicious 4 msec Food> parse -lang=eng "this wine is expensive" linearize -lang=cze toto víno je velmi drahé viz možnosti např. na www.phrasomatic.net Úvod do počítačové lingvistiky 5/11 33 / 33