Počítačové zpracování češtiny. Syntaktická analýza. Daniel Zeman

Podobné dokumenty
SADA VY_32_INOVACE_CJ1

Obsah. Úvodní poznámka 11 Německý jazyk, spisovná řeč a nářečí 13 Pomůcky ke studiu němčiny 15

Slovní druhy. Ohebné i neohebné

NÁZEV TŘÍDA ANOTACE PLNĚNÉ VÝSTUPY KLÍČOVÁ SLOVA

Dataprojektor, kodifikační příručky

SSOS_CJL_5.13. III/2 - Inovace a zkvalitnění výuky prostřednictvím ICT. Číslo a název projektu Číslo a název šablony

Český jazyk - Jazyková výchova

Dataprojektor, jazykové příručky, pracovní listy

DIGITÁLNÍ ARCHIV VZDĚLÁVACÍCH MATERIÁLŮ

Kurz č PhDr. Hana Peterková. Skladba. Souvětí podřadné Souvětí souřadné

ZŠ ÚnO, Bratří Čapků 1332

Český jazyk a literatura - jazyková výchova

Constituent Parsing. Daniel Zeman

IV. Gramatika A. Tvarosloví 1. Slovní druhy

Vzdělávací oblast: JAZYK A JAZYKOVÁ KOMUNIKACE Vyučovací předmět: Český jazyk a literatura Ročník: 6.

VY_12_INOVACE_72 Základní škola a mateřská škola Herálec, Herálec 38, ; IČ: ; tel.:

Všestranný jazykový rozbor (VJR)

Vzdělávací oblast: Jazyk a jazyková komunikace Vyučovací předmět: Anglický jazyk Ročník: 3.. Průřezová témata Mezipředmětové vztahy.

Vyučovací předmět: Český jazyk a literatura Ročník: 6. Jazyková výchova

PSANÍ. M e t o d i c k é p o z n á m k y k z á k l a d o v é m u t e x t u :

Projekt IMPLEMENTACE ŠVP

Vzdělávací oblast: Jazyk a jazyková komunikace Vzdělávací obor (předmět): Český jazyk: jazyková výchova - ročník: PRIMA

Střední odborná škola a Střední odborné učiliště, Hustopeče, Masarykovo nám. 1 Autor

2AA TIME TO TALK (začátek od Unit 4) prof. Volfová Po 17:30 uč. 27

Olympiáda v českém jazyce 45. ročník 2018/2019

VY_32_INOVACE_ / IQ cesta

Příloha č. 4 ČESKÝ JAZYK JAZYKOVÁ VÝCHOVA

ČESKÝ JAZYK 3. ROČNÍK Slovní druhy ohebné ROZLIŠUJEME DESET SLOVNÍCH DRUHŮ.

VĚTNÁ SKLADBA Mgr. Soňa Bečičková

E K O G Y M N Á Z I U M B R N O o.p.s. přidružená škola UNESCO

DIGITÁLNÍ ARCHIV VZDĚLÁVACÍCH MATERIÁLŮ

Základy latiny II

http: //pravopisne.cz/2014/11/test-podstatna-jmena-konkretni-a-abstraktni-11/

TVAROSLOVÍ Mgr. Soňa Bečičková

II. Nástroje a metody, kterými ověřujeme plnění cílů

Jednoznačné a nejednoznačné gramatiky

Zájmena Pronomina Číslovky Numeralia Tento výukový materiál vznikl za přispění Evropské unie, státního rozpočtu ČR a Středočeského kraje

Počítačová lingvistika v praxi Pavel Ševeček, Tomáš Pavelek

Ročník: 5. Časová dotace: 7 hodin týdně učivo, téma očekávané výstupy klíčové kompetence, mezipředmětové vazby

Příloha č. 4 ČESKÝ JAZYK JAZYKOVÁ VÝCHOVA

Projekt: EU peníze školám - OP VK oblast podpory 1.4 s názvem Zlepšení podmínek pro vzdělávání na základních školách

Roční úvodní kurs českého jazyka pro nově příchozí žáky - cizince

2. přivlastňovací můj, tvůj, jeho, její, náš, váš, jejich, zvratné svůj - přivlastňujeme jimi něco 1., 2., 3. osobě nebo podmětu v kterékoli osobě

Projekt : EU peníze školám - OP VK oblast podpory 1.4 s názvem Zlepšení podmínek pro vzdělávání na základních školách

Český jazyk ve 4. ročníku

VĚTNÉ ČLENY. Mgr. Jiří Ondra Procvičení základních pojmů a kategorií z oblasti české skladby. Zdokonalování jazykových vědomostí a dovedností

7. ročník. Český jazyk a literatura. Komunikační a slohová výchova. Vypravování uspořádání dějových prvků

ZŠ ÚnO, Bratří Čapků 1332

Popis využití: Výukový materiál s úkoly pro žáky s využitím dataprojektoru, notebooku Čas: 15 minut

Anglický jazyk. Anglický jazyk. žák: TÉMATA. Fonetika: abeceda, výslovnost odlišných hlásek, zvuková podoba slova a její zvláštnosti

Vzdělávací obor Německý jazyk

Český jazyk v 5. ročníku

Klíčová slova: lexikologie, zájmena, číslovky, slovesa, synonyma, větné členy...

1. Podstatná jména (substantiva)

Modul NE2-1. Osnova: Arbeitsbuch. Ismaning: Max Hueber, s. ISBN

Reálné gymnázium a základní škola města Prostějova Školní vzdělávací program pro ZV Ruku v ruce

Olympiáda v českém jazyce 45. ročník, 2018/2019

Anglický jazyk vyšší úroveň. obsahem lekcí bude nácvik jednotlivých dovedností a typů úloh:

Test č.1 1. Napište slovo nadřazené těmto výrazům (1 bod) : háček, síť, vlasec, podběrák, návnada

Automatická post-editace výstupů frázového strojového překladu (Depfix)

ČÍSLOVKY (NUMERALIA) ČÍSLOVKY ZÁKLADNÍ - označují počet, pojmenovávají čísla

Slovní druhy Masarykova ZŠ a MŠ Velká Bystřice projekt č. CZ.1.07/1.4.00/ Název projektu: Učení pro život

VY_12_INOVACE_55 Základní škola a mateřská škola Herálec, Herálec 38, ; IČ: ; tel.:

PŘÍDAVNÁ JMÉNA, ZÁJMENA, ČÍSLOVKY

Německý jazyk 7. ročník

Syntaxe gramatiky a syntaktické struktury

Předmět: Český jazyk a literatura

SEZNAM VYTVOŘENÝCH digitálních učebních materiálů

Sémantická interpretace

Irák napadl Irán. Iraq invaded Iran.

Automatická post-editace výstupů frázového strojového překladu (Depfix)

Školní vzdělávací program Základní školy a mateřské školy Sdružení

Název materiálu SLOVNÍ DRUHY PODSTATNÁ JMÉNA. Metodika. Pořadové číslo III-2-ČJ-III- 1-9.r.

Ukázkový test. Otázka číslo: 1. Text k otázkám 1-15: Nevzpomínám si, kdo přišel s nápadem, abychom si opatřili do bytu nějaké přítulné zvířátko.

Nedostatky bezkontextové gramatiky

VZOR PŘIJÍMACÍ ZKOUŠKY Z ČESKÉHO JAZYKA. 5. ročník. Časová dotace: 90 minut. Identifikační číslo uchazeče: Maximální počet bodů:

Poř. Číslo materiálu Předmět Ročník Téma hodiny Ověřený materiál Program 1 VY_32_INOVACE_04_09 Český jazyk 1. ČJ - ověření učiva za 1.

Identifikátor materiálu: EU-3-3, Č, 8.r., Prezentace Přísudek Vytvořeno: Josef Gajdoš (Autor) čeština. - žádné. výklad.

Výpočetní modely pro rozpoznávání bezkontextových jazyků zásobníkové automaty LL(k) a LR(k) analyzátory

NÁZVY OSOB NÁZVY ZVÍŘAT NÁZVY VĚCÍ NÁZVY VLASTNOSTÍ NÁZVY DĚJŮ

Formální jazyky a gramatiky Teorie programovacích jazyků

Výstupy žáka. Tematický okruh. Welcome Module. dmětové vztahy. Průřezov é téma. Mezipře. Poslech s porozuměním (P+R) Jazykové prostředky a funkce

ČESKÝ JAZYK 5. TŘÍDA

OBSAH SEZNAM TERMÍNŮ, ZKRTATEK A ZNAČEK POUŽÍVANÝCH V UČEBNICI POSTAVY PŘÍBĚHU 3 LEKCE 1 STUDIUM JAZYKŮ 8 LEKCE 2 LIDSKÁ KOMUNIKACE 42.

Základní větné členy

Výukové programy - Mgr. Karla Pitáková, tel

Přehled učiva. M Matematika. Čj Český jazyk. Prv Prvouka. 1. ročník. Anglický jazyk. l číselná řada 1-5, opakování tvarů v řadě Velká Dobrá

2. Přídavná jména Tři stránky tabulek obsahují 156 nejběžnějších anglických přídavných jmen.

DIGITÁLNÍ UČEBNÍ MATERIÁL

Stonožka jak se z výsledků dozvědět co nejvíce

základní větné členy podmět Po (vyjádřen, nevyjádřen, všeobecný) a přísudek Přs (slovesný, souslovný, jmenný se sponou, jmenný)

Očekávané výstupy RVP Školní výstupy Učivo Poznámky (průřezová témata, mezipředmětové vztahy apod.) Řečové dovednosti

Žáci zodpoví všechny otázky. Určí slovní druhy a větné členy, vyjmenují znaky písemného a ústního projevu.

Luk aˇ s R uˇ ziˇ cka Podm ınkov e vˇ ety

Anglický jazyk 3.ročník 2007/2008. učivo - témata kompetence (čtení,psaní,poslech, dialog) pomůcky

ANGLICKÝ JAZYK - II. období (3. 5. ročník)

Olympiáda v českém jazyce 43. ročník, 2016/2017

pro základní vzdělávání platné od

Vzdělávací oblast: Jazyk a jazyková komunikace Vyučovací předmět: Anglický jazyk Ročník: 5. Průřezová témata Mezipředmětové vztahy.

Tematický plán pro školní rok 2015/16 Předmět: Český jazyk Vyučující: Mgr. Iveta Jedličková Týdenní dotace hodin: 8 hodin Ročník: pátý

Transkript:

Počítačové zpracování češtiny Syntaktická analýza Daniel Zeman http://ufal.mff.cuni.cz/course/popj1/

Syntaktická rovina Vztahy mezi větnými členy. Větný člen je pro nás slovo (tj. též interpunkce). Z praktických důvodů: Snadno rozpoznatelné. Jednotka předcházející (morfologické) úrovně zpracování. Definováno ve většině jazyků stejně, na rozdíl od větného členu. Na druhou stranu: Musíme definovat i technické vztahy uvnitř skutečného větného členu (pomocná slovesa, předložky apod.) Ale některé syntaktické korpusy slova spojují či dělí. 9.12.1999 http://ufal.mff.cuni.cz/course/popj1 2

Umístění syntaktické roviny Mezi morfologií a významem. Morfologie poskytuje / vyžaduje: lemmata (je čas vytáhnout ze slovníku syntaktické informace) značky (slovní druh a morfologické kategorie) slovosled (nyní začíná být důležitý) Typicky nejednoznačný vstup víceznačný výsledek morfologické analýzy. Typicky nejednoznačný výstup více syntaktických struktur pro jednu větu (více interpretací věty). 9.12.1999 http://ufal.mff.cuni.cz/course/popj1 3

Syntaktická struktura V různých teoriích má různý tvar Typicky nějaký strom Frázový (složkový) strom Závislostní strom 9.12.1999 http://ufal.mff.cuni.cz/course/popj1 4

Příklad frázového stromu ((Pavel (dal Petrovi (dvě hrušky))).) S VP NP V NP NP Z N N C N Pavel dal Petrovi dvě hrušky. 9.12.1999 http://ufal.mff.cuni.cz/course/popj1 5

Příklad závislostního stromu [#,0] ([dal,2] ([Pavel,1], [Petrovi,3], [hrušky,5] ([dvě,4])), [.,6]) # dal. Pavel Petrovi hrušky dvě 9.12.1999 http://ufal.mff.cuni.cz/course/popj1 6

Slova a fráze Slovo nejmenší jednotka na syntaktické rovině pomocná (funkční) slova (např. a v koordinaci Pavel a Petr, být ve složených slovesných tvarech zkoušel jsem to, budu to zkoušet) významová (autosémantická) slova (např. pes; být ve větě myslím, tedy jsem) Fráze skládá se ze slov a/nebo jiných frází (z bezprostředních složek) 9.12.1999 http://ufal.mff.cuni.cz/course/popj1 7

Slova Idiomy Pevné, neoddělitelné fráze se mohou chovat jako jedno slovo (např. složené předložky jako na rozdíl od někoho, cizí pojmenované entity jako Rio de Janeiro, ustálená spojení jako být z něčeho na větvi). Zvláštní skloňování Význam celku nelze složit z významů částí Někdy tokenizace: Rio_de_Janeiro Vztahy k ostatním slovům Slovník je zásobárna informací o slovech a vztazích mezi nimi. Subkategorizace sloves (nevyžadují předmět, vyžadují a jaký ). Významové rozlišení (podstatné jméno má barvu, má velikost, může být podmětem těch a těch sloves ). 9.12.1999 http://ufal.mff.cuni.cz/course/popj1 8

Zaměnitelnost frází Frázi můžeme nahradit jinou frází stejného druhu. Můžeme ji nahradit její hlavou Vychází z představy, že věta je generována po frázích Fráze x, y, z mohou být bezprostředními složkami větší fráze f, pouze pokud k sobě mají vztah. Konkrétní případy vymezuje konkrétní frázová gramatika. Příklad: věta To je ten muž, o kterém jsem mluvil. Část muž, o kterém není jmenná fráze, protože ji nemůžeme nahradit jinou jmennou frází, např. muž: *To je ten muž jsem mluvil. 9.12.1999 http://ufal.mff.cuni.cz/course/popj1 9

Fráze Fráze Posloupnost bezprostředních složek (slov nebo frází). Někdy nemusí být souvislá. Např. věta Soubor se nepodařilo otevřít. obsahuje frázi otevřít soubor. Druhy frází podle druhu hlavního slova hlavy Jmenná (substantivní) fráze: nová kniha mého dědečka Adjektivní fráze: zbrusu nový Adverbiální (příslovečná) fráze: velmi špatně Předložková fráze: ve třídě Slovesná fráze: chytit míč 9.12.1999 http://ufal.mff.cuni.cz/course/popj1 10

Jmenné fráze Hlavou je podstatné jméno nebo substantivní zájmeno. voda ta kniha nové nápady dva milióny obyvatel jedna malá vesnice největší pohyb cen od druhé světové války během jednoho roku operační systém, který navzdory veškerému úsilí našeho správce padá příliš často on kdokoli 9.12.1999 http://ufal.mff.cuni.cz/course/popj1 11

Adjektivní fráze Hlavou je přídavné jméno. Jednoduché ADJP jsou velmi časté, složené jsou řídké. starý velmi starý opravdu velmi starý pětkrát starší než nejstarší slon v naší ZOO jist, že tam bude první 9.12.1999 http://ufal.mff.cuni.cz/course/popj1 12

Zájmena Podobné chování jako podstatná jména (substantivní). Osobní zájmena (já, ty, oni, se). Některá tázací, vztažná, neurčitá a záporná (kdo, co, někdo, něco, nikdo, nic). Podobné chování jako přídavná jména (adjektivní). Přivlastňovací zájmena (můj, tvoji, jejich, svá). Ukazovací zájmena (ten, ta, tamti, tyto). Některá tázací, vztažná, neurčitá a záporná (který, jaký, čí, některý, lecjaký, žádná). 9.12.1999 http://ufal.mff.cuni.cz/course/popj1 13

Číselné fráze V češtině není vždy jasné, zda má být hlavou číslovka, nebo počítaná jmenná fráze. Číslovka dědí rod počítaného jména. Jméno dostává číslo (jednotné / množné) podle číslovky. jeden muž, jedna žena, jedno dítě dva muži, dvě ženy, dvě děti Číslovka určuje pád počítaného jména. pět mužů Číslovka i počítané jméno mají pád vyžadovaný předložkou nebo slovesem. pěti ženami 9.12.1999 http://ufal.mff.cuni.cz/course/popj1 14

Číselné fráze Podobné chování jako přídavná jména. Základní číslovky 1 až 4 (tři banány). Řadové číslovky (čtyřicátý čtvrtý závodník). Některé druhové číslovky (čtvery hodiny, jedni lidé). Podobné chování jako podstatná jména. Základní číslovky 5 a více v 1., 4. a 5. pádě. Některé druhové číslovky (srov. sedmero krkavců / sedm krkavců / hejno krkavců / přílet krkavců). Podobné chování jako příslovce. Násobné číslovky (pětkrát). Řadové stažené s předložkou (poprvé). 9.12.1999 http://ufal.mff.cuni.cz/course/popj1 15

Adverbiální fráze Hlavou je příslovce. rychle mnohem více jak hlasitěji, než si dovedete představit včera 9.12.1999 http://ufal.mff.cuni.cz/course/popj1 16

Předložkové fráze Hlavou je předložka (protože určuje pád, ve kterém musí být zbytek fráze). Často podobná funkce jako adverbiální fráze (příslovečné určení) nebo jmenná fráze (předmět slovesa). v centru města v náhodu kolem páté k lepším zítřkům až do situace, kde nikdo z nich nemohl couvnout vzhledem k jeho nezletilosti 9.12.1999 http://ufal.mff.cuni.cz/course/popj1 17

Předložkové fráze Přišel ten pán se sousedem odnaproti. Přišel. Přišel. Přišel. pán se odnaproti pán odnaproti pán ten sousedem ten se ten se Přišel. sousedem sousedem pán se odnaproti ten sousedem 9.12.1999 http://ufal.mff.cuni.cz/course/popj1 18 odnaproti

Předložkové fráze Anglický příklad: I saw the man with a telescope. 1. Viděl jsem ho dalekohledem. 2. Viděl jsem ho s dalekohledem. 9.12.1999 http://ufal.mff.cuni.cz/course/popj1 19

Předložkové skupiny a syntaktické nejednoznačnosti V letech 1991 1993 jsem absolvovala kurzy řízení a marketingu na Collège Bart v kanadském Québecu. absolvovala na Collège Bart kurzy na Collège Bart řízení a marketingu na Collège Bart marketingu na Collège Bart Collège Bart v Québecu marketingu v Québecu... 9.12.1999 http://ufal.mff.cuni.cz/course/popj1 20

Předložkové skupiny a syntaktické nejednoznačnosti V letech 1991 1993 jsem absolvovala kurzy řízení a marketingu na Collège Bart v kanadském Québecu. absolvoval (kurzy (řízení a market)) (na Bartu) absolvoval (kurzy (řízení a market) (na Bartu)) absolvoval (kurzy ((řízení a market) (na Bartu))) absolvoval (kurzy (řízení a (market (na Bartu)))) ((na Bartu) (v Québecu)) Je Bart v Québecu, nebo Québec na Bartu? 9.12.1999 http://ufal.mff.cuni.cz/course/popj1 21

Fráze s funkcí předložky Jsou hlavou předložkové fráze. Často se pojí s genitivem. prostřednictvím GEN počátkem GEN díky DAT na základě GEN na rozdíl od GEN v rámci GEN v průběhu GEN v souladu s INS do souladu s INS s pomocí GEN 9.12.1999 http://ufal.mff.cuni.cz/course/popj1 22

Slovesné fráze Hlavou je podtržené sloveso. prší mohl by vůbec spatřit pana prezidenta, proč jsme tolik zmokli Prosím! v neděli byl převezen do nemocnice začalo sněžit zakazuje kouřit v této místnosti dej Pavle ty korále, co jsme přivezli z dovolené v Maroku soubor se nepodařilo otevřít 9.12.1999 http://ufal.mff.cuni.cz/course/popj1 23

Klauze Část věty, která obsahuje právě 1 přísudek, např.: Běží liška k táboru., že máte pravdu. přísudek nemusí být vyjádřen na povrchu, např. nadpisy: Senzační odhalení pozadí (skandálu). Není totéž, co slovesná fráze (VP). Součástí VP mohou být menší VP. Do klauze mohou být vnořené jiné klauze, které ale nejsou její součástí. 9.12.1999 http://ufal.mff.cuni.cz/course/popj1 24 VP VP Kl

Klauze a věty Klauze jednoduchá věta nebo věta v souvětí např. Běží liška k Táboru. nebo že máte pravdu. Věta jednoduchá věta i souvětí může se skládat z jedné až několika klauzí např. Běží liška k Táboru. nebo Zjistil jsem, že máte pravdu. 9.12.1999 http://ufal.mff.cuni.cz/course/popj1 25

Klauze Predikativní (přísudková) funkce. Jistá aktivita jistých podmětů (subjektů) a předmětů (objektů) v jistém čase za jistých podmínek. Hlavní klauze (hlavní věta). Není závislá na jiné větší klauzi. Vnořená klauze (vedlejší věta). Je závislá na jiné klauzi, v níž má jistou funkci (jako fráze). Funkce klauzí: Tytéž co u frází, navíc některé speciální, např. přímá řeč. 9.12.1999 http://ufal.mff.cuni.cz/course/popj1 26

Věty Skládají se z jedné nebo několika hlavních klauzí. Při několika hlavních klauzích obvykle koordinace klauzí (frází). V psaném textu začínají velkým písmenem (to se však může vyskytnout i uvnitř věty). Někdy začínají závorkou nebo uvozovkami. Končí tečkou, vykřičníkem nebo otazníkem (ale i tečka se může vyskytnout uvnitř věty). Někdy končí i závorkou nebo uvozovkami. Zda a kdy i středník a dvojtečka mohou ukončovat větu, závisí na pohledu, který zvolíme. Obvykle však je možné dívat se na ně jako na koordinační spojku. 9.12.1999 http://ufal.mff.cuni.cz/course/popj1 27

Koordinace frází Hlavu zastupuje spojka, čárka apod. Koordinované fráze jsou obvykle stejného druhu. kuřata, slepice, králíci, kočky a psi nová nebo ještě novější rychle i kvalitně došel k závěru, že nemá smysl nadále se skrývat, takže bychom ho tu dneska mohli slyšet ve městě a na vsi do a z Prahy buď hned, nebo později nejen v pondělí a ve středu, ale i zítra nebo pozítří 9.12.1999 http://ufal.mff.cuni.cz/course/popj1 28

Apozice frází Podobná jako koordinace, ale s jiným významem. Karel IV., císař římský a král český Koordinace: několik různých členů plní danou funkci společně. Významově jen jeden člen, ale na povrchu má několik jmen či popisů. a nejvíce 40 procent je rodinných domků faktorů, zejména však amortizace správce fyzická nebo právnická osoba, kterou určí vlastník domu náklady a zvyšování daní to jsou otázky, které 9.12.1999 http://ufal.mff.cuni.cz/course/popj1 29

Apozice frází veškeré jakostní znaky jemnost, vlhkost, podmínky skladování a podobně doklad o zaplacení ( útržek složenky nebo avízo při bezhotovostním převodu přesvědčen o jednom : je třeba mít vysoké cíle a nespokojit se s malými odbor dopravy městského úřadu, pan Jan Motyčka 9.12.1999 http://ufal.mff.cuni.cz/course/popj1 30

Elipsa Elipsa (výpustka), elidovat (vypustit). Fráze, která ve větě ( na povrchu ) chybí, ačkoli je součástí významu ( hloubkové struktury ). Často v rozhovorech: elidovaný člen je znám z kontextu. Koho jsi tam viděl? Petra. (Chybí sloveso.) V psaném textu často v koordinacích. Čeští a němečtí studenti se zúčastnili (Pravděpodobně nikdo nebyl Čech a Němec zároveň. Spíše to byli čeští studenti a němečtí studenti.) Slavia vede 4:0, zatímco Sparta jenom 3:2. (Sloveso ve 2. části.) V češtině i jiných jazycích někdy systémová, např. vypouštění osobního zájmena, které je podmětem věty. Sedím. (já) 9.12.1999 http://ufal.mff.cuni.cz/course/popj1 31

Díry a nesouvislé fráze Složka (fráze) se přesunula z pozice, na které je očekávána. Běžně se o dírách (gaps) hovoří v souvislosti s angličtinou. U nás nepředstavují nic zvláštního, protože nemáme pevný slovosled. U nás se výraz díra používá odlišně (u neprojektivních konstrukcí)! V anglických otázkách a vztažných větách. Who do you work for <gap> whom? I don t know why we have got so much rain <gap> why. On Sundays, I usually work <gap> on sundays but I stay at home on Tuesdays. the story he never wrote <gap> the story 9.12.1999 http://ufal.mff.cuni.cz/course/popj1 32

Shrnutí frázového modelu Věta se dělí na fráze (složky). Fráze se může dělit na ještě menší fráze. Největší fráze je celá věta. Nejmenší fráze jsou slova. Fráze mají jména podle toho, jakého jsou druhu. 9.12.1999 http://ufal.mff.cuni.cz/course/popj1 33

Shrnutí frázového modelu Frázi je možné nahradit jinou frází téhož druhu. Speciálně, lze ji nahradit jednou její bezprostřední složkou (hlavou). Souvislost s generováním věty. Fráze x, y, z mohou být bezprostředními složkami větší fráze f, jen pokud spolu nějak souvisejí. To je však věcí návrhu konkrétní frázové gramatiky. Příklad: věta To je muž, o kterém jsem mluvil. Část muž, o kterém není celá jmenná fráze, protože ji není možné nahradit jinou jmennou frází, např. muž: *To je muž jsem mluvil. 9.12.1999 http://ufal.mff.cuni.cz/course/popj1 34

Souvislost frázového modelu s bezkontextovou gramatikou Frázová struktura odpovídá derivačnímu stromu v gramatice, která danou větu generuje / přijímá. Příklad: S NP VP (věta má podmět a přísudek) NP N (jmenná fráze je podstatné jméno) VP V NP (slovesná fráze je sloveso a předmět) Slovníková část gramatiky: N pán hrad muž stroj Petr Pavel pána muže V vidí nese bere maže kryje kupuje viděl nesl 9.12.1999 http://ufal.mff.cuni.cz/course/popj1 35

Slovník Slovníková část ve skutečnosti může být řešena mimo gramatiku. Například neterminály nejnižší úrovně (hned nad terminály) jsou morfologické značky. Potom je nejnižší patro frázového stromu řešeno morfologickou analýzou a značkováním. Gramatika pak pracuje jen s morfologickými značkami. 9.12.1999 http://ufal.mff.cuni.cz/course/popj1 36

Rozšířený příklad gramatiky NP N AP N AP A AdvP A AdvP Adv AdvP Adv N pán hrad muž stroj A mladý velký zelený Adv velmi včera zeleně NP nom N nom NP nom AP nom N nom NP nom N nom NP gen NP gen N gen NP gen AP gen N gen NP gen N gen NP gen N nom pán hrad muž N gen pána hradu muže N dat pánovi hradu muži N acc pána hrad muže N voc pane hrade muži N loc pánovi hradu muži N ins pánem hradem 9.12.1999 http://ufal.mff.cuni.cz/course/popj1 37

Rozšířený příklad gramatiky VP VP povinné VP VP povinné VP volitelné VP povinné V intr VP povinné V trans NP acc VP povinné V bitr NP dat NP acc VP povinné V mod VINF V intr šedivět brzdit krást V trans koupit ukrást V bitr dát půjčit poslat V mod moci smět muset (desítky až stovky rámců) VP volitelné AdvP místo AdvP čas 9.12.1999 http://ufal.mff.cuni.cz/course/popj1 38

Unifikační gramatika Alternativa ke štěpení neterminálů Místo bezkontextových pravidel: NP nom AP nom N nom NP gen AP gen N gen NP dat AP dat N dat NP acc AP acc N acc NP voc AP voc N voc NP loc AP loc N loc NP nom AP nom N nom Unifikační pravidlo: NP AP N := [case = AP^case # N^case] 9.12.1999 http://ufal.mff.cuni.cz/course/popj1 39

Syntaktická analýza (parsing) Automatické metody nalezení syntaktické struktury věty. Symbolické metody: vyžadují frázovou gramatiku nebo jiný popis struktury jazyka. Pak: chart parser. Statistické metody: vyžadují textový korpus se syntaktickými strukturami (tzv. treebank stromová banka). Kombinované metody: jednoduchá gramatika, nejednoznačnosti se řeší statisticky podle korpusu. Chunking / shallow parsing ( mělký rozbor ) 9.12.1999 http://ufal.mff.cuni.cz/course/popj1 40

Syntaktická analýza podle bezkontextové gramatiky Hierarchie gramatik: Noam Chomsky (1957): Syntactic Structures Několik klasických algoritmů. CYK (Cocke-Younger-Kasami) složitost O(n 3 ) John Cocke ( vynálezce ) T. Kasami (1965), Bedford, MA, USA (jiný nezávislý vynálezce ) D. H. Younger (1967) (analýza složitosti) Podmínka CYK: gramatika je v CNF (Chomského normální forma), tj. pravá strana jsou buď dva neterminály, nebo jeden terminál. (Lze snadno zařídit.) 9.12.1999 http://ufal.mff.cuni.cz/course/popj1 41

Syntaktická analýza podle bezkontextové gramatiky Chart parser: CYK vyžaduje datovou strukturu pro udržování informace o rozpracovaných možnostech. Přelom 60. a 70. let: pro tento účel navržena struktura chart přehled či diagram rozpracovaných a hotových složek věty. J. Earley (1968), disertace, Pittsburgh, PA, USA Trochu jiná verze chart parsingu (analýzy s přehledem). Podrobněji o algoritmu chart parseru: viz dřívější přednášku o bezkontextových gramatikách a morfologii. 9.12.1999 http://ufal.mff.cuni.cz/course/popj1 42

Frázový parsing v praxi Pravidlové parsery, např. Fidditch (Donald Hindle, 1983) Collinsův parser (Michael Collins, 1996 1999) Pravděpodobnostní bezkontextové gramatiky, lexikalizované hlavy Přesnost a úplnost na Penn Treebanku / Wall Street Journal data / Section 23 = 85% Přepsáno do Javy Danem Bikelem ( Bikelův parser ), volně dostupný Charniakův parser (Eugene Charniak, NAACL 2000) Inspirován statistickými modely maximální entropie P ~ R ~ 89.5% Mark Johnson: reranker => přes 90% Stanfordský parser (Chris Manning et al., 2002 2010) Vyrábí složky i závislosti. P ~ R ~ 86.4% 9.12.1999 http://ufal.mff.cuni.cz/course/popj1 43

Pravděpodobnostní bezkontextové gramatiky PCFG (probabilistic context-free grammars) Máme-li více možných analýz, chceme jim přiřadit váhy. Více možností se objeví tam, kde můžeme použít více pravidel se stejnou levou stranou. Myšlenka: pravděpodobnostní rozložení pravidel se stejnou levou stranou. Příklad: gramatika povoluje VP V NP i VP V NP PP. Vstupní věta rovněž umožňuje obě interpretace. Ale víme (např.), že druhý způsob tvoření VP je častější: p(v NP VP) = 0,3 p(v NP PP VP) = 0,7 9.12.1999 http://ufal.mff.cuni.cz/course/popj1 44

Příklad nejednoznačné syntaktické analýzy S NP VP VP V NP PP VP V NP NP N NP N PP PP PREP N N muž N ženu N autě V viděl S VP NP VP NP NP PP V N N V N PREP N PP PREP N PREP v muž viděl ženu v autě 9.12.1999 http://ufal.mff.cuni.cz/course/popj1 45

Pravděpodobnost derivačního stromu Obě fráze / analýzy jsou gramatické. Různé významy. Který je lepší v daném kontextu? Pravděpodobnostní bezkontextová gramatika: Vztahy mezi rodičovskými uzly a dětmi. Pravděpodobnost odvození, použití pravidla. Pravděpodobnost celého derivačního stromu (r i jsou pravidla gramatiky použitá ke generování věty S, jejíž analýzou je T): p n ( T ) = p( r i ) i= 1 9.12.1999 http://ufal.mff.cuni.cz/course/popj1 46

Předpoklady Použití pravidla je nezávislé na použití jiných pravidel ve větě (velmi silný a nepravdivý předpoklad). Nezávislost na kontextu okolních podstromů. Nezávislost na kontextu předků (vyšších úrovní). Nezávislost na umístění ve větě (slovosled) či ve stromu. 9.12.1999 http://ufal.mff.cuni.cz/course/popj1 47

Pravděpodobnost pravidla Pravidlo r i : A α. Označme R A množinu všech pravidel r j, která mají na levé straně neterminál A. Na R A definujme pravděpodobnostní rozložení: r R A p( r) = 1 0 p( r) 1 Jinými slovy: p ( r) p( α A) = = A α r ( ) + α N T 9.12.1999 http://ufal.mff.cuni.cz/course/popj1 48

Odhad pravděpodobnosti pravidla Syntakticky označený korpus založený na bezkontextové gramatice (tedy ne např. závislostní korpus). c r = A α 1 α 2 Kα k ( ) ( r) p r = c A ( ) Četnost použití pravidla: jak často se v korpusu objeví podstrom A α 1 α 2 α k 9.12.1999 http://ufal.mff.cuni.cz/course/popj1 49