Morfologická analýza Unifikační gramatiky

Podobné dokumenty
Úvod do gramatiky. Galénos a Hippokratés na fresce v kryptě katedrály v Anagni, vybudované v roce 1255

Popis morfologických značek poziční systém

Přídavná jména Střední průmyslová škola a Obchodní akademie Uherský Brod Český jazyk a literatura

VY_12_INOVACE_26_MLUVNICKE_KATEGORIE_PODSTATNYCH_ JMEN. Předmět: Český jazyk Ročník: 4. Časová dotace: 45 min Datum ověření:

DIGITÁLNÍ ARCHIV VZDĚLÁVACÍCH MATERIÁLŮ

Olympiáda v českém jazyce 44. ročník, 2017/2018

OBSAH. Předmluva (Libuše Dušková) DÍL I. Rozbor fonologický

Jak lze v korpusech hledat doklady pro výzkum morfologie?

CZ.1.07/1.5.00/ Zefektivnění výuky prostřednictvím ICT technologií III/2 - Inovace a zkvalitnění výuky prostřednictvím ICT

diferencované - nelze volně zaměnit (přijel na jaře/ hovořili jsme o posledním vlhkém jaru)

VY_12_INOVACE_29_TEMER_VSE_O_PODSTATNYCH_JMENECH_ NA_1_ST_ZS. Téměř vše o podstatných jménech na 1. stupni ZŠ. Předmět: Český jazyk Ročník: 4.

Úvod do latinského deklinačního systému. -ae -ī -is -ūs -ēī

VY_III/2_INOVACE_SADA01

1 Substantiva. 2 Adjektiva. Obsah. Lekce Obsah Cvičení

Náměty na zapojení žáka s LMP ve 4. ročníku při výuce vzorů podstatných jmen Autor: PhDr. Kamila Balharová, Mgr. Jitka Altmanová

Nové deklinační vzory a postupy v komunikativní výuce češtiny jako cizího jazyka? Lída Holá

Sémantická interpretace

Výukový materiál zpracován v rámci projektu EU peníze školám

Tabulka1 Tradiční dělení české deklinace na 14 paradigmat singulárové koncovky. NOM Ø Ø Ø e Ø a a e Ø Ø o e e í GEN a u e e e y y e e i a e (et)e í

Číslo projektu: CZ.1.07/1.4.00/ Název materiálu: Slovesný rod, jazykový rozbor

Slovníky a morfologická analýza

Morfologická analýza Bezkontextové gramatiky

Název materiálu. Význam slov. Slova souřadná, nadřazená, podřazená, procvičování.

Roční úvodní kurs českého jazyka pro nově příchozí žáky - cizince

ANOTACE K VÝUKOVÉ SADĚ č. VY_32_INOVACE_02_05_NEJ_Ps

KOMUNIKAČNÍ A SLOHOVÁ VÝCHOVA - čtení - praktické plynulé čtení. - naslouchání praktické naslouchání; věcné a pozorné naslouchání.

Tematický plán pro školní rok 2015/16 Předmět: Český jazyk Vyučující: Mgr. Iveta Jedličková Týdenní dotace hodin: 8 hodin Ročník: pátý

- naslouchání praktické naslouchání; věcné a pozorné naslouchání. - respektování základních forem společenského styku.

PSANÍ. M e t o d i c k é p o z n á m k y k z á k l a d o v é m u t e x t u :

deklinace Pád Deklinační systém pozdní psl. si lze představit následovně: zájmenná složená

Lingvistická terminologie

Pořadové číslo projektu:

Olympiáda v českém jazyce, 39. ročník, 2012/2013 krajské kolo

Český jazyk a literatura

ěž Úč úč Í ěž Ž č Ž ž ů Á Č Č Ž Úč Ž Úč Ž ň ž Ů č č Ž Úč Ž Í č š ě ň ó ÚČ č Ž Úč č Č š Ž Š Š ÍŠ

Příloha č. 4 ČESKÝ JAZYK JAZYKOVÁ VÝCHOVA

Úvod do latinské jmenné flexe 1. deklinace. Úvodní lekce II, lekce 1

Kolísání rodu substantiv

Programovací jazyk Pascal

Poř. Číslo materiálu Předmět Ročník Téma hodiny Ověřený materiál Program 1 VY_32_INOVACE_04_09 Český jazyk 1. ČJ - ověření učiva za 1.

Systém M-CAST Multilingual Content Aggregation System Vícejazyčný systém agregace informací

Pro označení disku se používají písmena velké abecedy, za nimiž následuje dvojtečka.

Obsah. Úvodní poznámka 11 Německý jazyk, spisovná řeč a nářečí 13 Pomůcky ke studiu němčiny 15

Prezentace učiva o současné češtině ve školních učebnicích Gabriela Lefenda

Kurz Databáze. Obsah. Návrh databáze E-R model. Datová analýza, tabulky a vazby. Doc. Ing. Radim Farana, CSc.

Morfologie odborných textů

AUTOMATY A GRAMATIKY

Olympiáda v českém jazyce 44. ročník, 2017/2018

Příloha č. 4 ČESKÝ JAZYK JAZYKOVÁ VÝCHOVA

Vztah jazyků Chomskeho hierarchie a jazyků TS

Český jazyk a literatura

3 Morfologická analýza. 2 Reprezentace morfologického. lemma. Pomocí slovotvorného vzoru se generuje seznam

Olympiáda v českém jazyce 44. ročník, 2017/2018

AUTOMATY A GRAMATIKY. Pavel Surynek. Kontextové uzávěrové vlastnosti Turingův stroj Rekurzivně spočetné jazyky Kódování, enumerace

Zápis morfologických dat návrh řešení pro lexikální databázi LEXIKON 21 1

Národní institut pro další vzdělávání MŠMT Senovážné náměstí 25, Praha 1. Olympiáda v českém jazyce, 42. ročník, 2015/2016 okresní kolo

Všestranný jazykový rozbor (VJR)

LISTOPAD Úvod do nauky o tvoření slov, PROSINEC Psaní velkých písmen

E K O G Y M N Á Z I U M B R N O o.p.s. přidružená škola UNESCO

Konečný automat. Jan Kybic.

ZŠ ÚnO, Bratří Čapků 1332

Pravopis i-y. MODERNÍ A KONKURENCESCHOPNÁ ŠKOLA reg. č.: CZ.1.07/1.4.00/

Informační systémy 2008/2009. Radim Farana. Obsah. Obsah předmětu. Požadavky kreditového systému. Relační datový model, Architektury databází

Automaty a gramatiky(bi-aag) Formální překlady. 5. Překladové konečné automaty. h(ε) = ε, h(xa) = h(x)h(a), x, x T, a T.

PRŮVODNÍ LIST k nově vytvořenému / inovovanému učebnímu materiálu

Nástroj pro monitorování a analýzu českého internetu a sociálních médií

SLOVNÍ DRUHY- KVÍZ. Zakroužkuj správnou odpověď.

Český jazyk v 5. ročníku

Český jazyk Název Ročník Autor

Ročník: 5. Časová dotace: 7 hodin týdně učivo, téma očekávané výstupy klíčové kompetence, mezipředmětové vazby

Prolog PROgramming in LOGic část predikátové logiky prvního řádu rozvoj začíná po roce 1970 Robert Kowalski teoretické základy Alain Colmerauer, David

Manuál k programu RIZIKA

Příloha č. 4 ČESKÝ JAZYK JAZYKOVÁ VÝCHOVA

PŘÍDAVNÁ JMÉNA (ADJEKTIVA)

Formální jazyky a gramatiky Teorie programovacích jazyků

Regulární výrazy. Definice Množina regulárních výrazů nad abecedou Σ, označovaná RE(Σ), je definována induktivně takto:

Základy latiny II

8) Jaké jsou důvody pro použití víceprůchodového překladače Dříve hlavně kvůli úspoře paměti, dnes spíše z důvodu optimalizace

Automatická segmentace slov s pomocí nástroje Affisix. Michal@Hrusecky.net, Hlavacova@ufal.mff.cuni.cz

Syntaxí řízený překlad

Semestrální práce 2 znakový strom

2 Formální jazyky a gramatiky

vzory rodu ženského Metodický list - anotace: ují koncovky vají pravopis koncovek podstatných jmen rodu ženského. Tento materiál

2 Lexikální jednotka. 2.1 Obecné kategorie

Shoda u českých složených základních číslovek obsahujících číslovku jeden

SEZNAM VYTVOŘENÝCH digitálních učebních materiálů

APS Administrator.ST

0. Úvod obecná představa

Komentář k pracovnímu listu Ve třídě

Vzdělávací obor Německý jazyk

Obecná informatika. Matematicko-fyzikální fakulta Univerzity Karlovy v Praze. Podzim 2012

Úvod do filtrace, Quick filtr

ANGLIČTINA ODPOLEDNÍ 111, 113 (minulý semestr 111, 113) Angličtina velmi mírně pokročilí (3. semestry) Výukové materiály Předpokládaný rozsah učiva:

Olympiáda v českém jazyce 45. ročník, 2018/2019

SADA VY_32_INOVACE_CJ1

Příklad rozpracování minimální doporučené úrovně pro úpravu. očekávaných výstupů v rámci podpůrných opatření. do učebních osnov vyučovacího předmětu

Dotazy v CQL (pro Sketch Engine)

Č š ř ř ř ř š ř Č Ř ň ž ř ř ý ř ř ž š ž š ř ň ý ř ú ý ř š ř ů ý ú š ž ž ř ř ř ž Ž š ř š Ž ř ž š š

Přední střední zadní Přední střední zadní vysoké i u í ú vysoké střední e o é ó střední nízké a á nízké

AX Systém pro automatizovanou extrakci lexikálně-syntaktických údajů z korpusu.

Transkript:

Počítačové zpracování přirozeného jazyka Morfologická analýza Unifikační gramatiky Daniel Zeman http://ufal.mff.cuni.cz/course/popj1/

Unifikační gramatiky Založeny na bezkontextových gramatikách strukturách rysů (feature structures) jejich unifikovatelnosti Struktura rysů Něco jako záznam v databázi, naplněná proměnná typu record v pascalu nebo typu struct v céčku. Popis objektu, seznam rysů. rysy (atributy, features) jména polí, položek hodnoty Příklady dvojic rys hodnota: [číslo: množné], [pád: 1]. 22.11.2007 http://ufal.mff.cuni.cz/course/popj1 2

Struktura rysů entita JMÉNO FF UK TELEFON 258562 entita JMÉNO Dan TELEFON 221914225 fakulta JMÉNO MFF UK DĚKAN Netuka TELEFON 221911111 POS substantivum GEN maskulinum NUM singulár CASE dativ POS adjektivum GEN maskulinum NUM plurál CASE akuzativ DEG komparativ NEG afirmativ 22.11.2007 http://ufal.mff.cuni.cz/course/popj1 3

Struktura rysů Obecně: parciální funkce z množiny rysů do množiny hodnot. typ RYS 1 HODNOTA 1 RYS 2 HODNOTA 2 RYS 3 HODNOTA 3 22.11.2007 http://ufal.mff.cuni.cz/course/popj1 4

Unifikovatelnost Dvě struktury rysů jsou unifikovatelné, jestliže se shodují jejich hodnoty v těch rysech, které mají obě dvě. Příklad: struktury 1 a 2 jsou unifikovatelné, 2 a 3 také, 1 a 3 nikoliv. 1 ROD mužský 2 DRUH sloveso ČÍSLO jednotné ČÍSLO jednotné PÁD dativ ČAS přítomný 3 ROD mužský ČÍSLO jednotné PÁD instrumentál 22.11.2007 http://ufal.mff.cuni.cz/course/popj1 5

Unifikace Unifikace je operace na dvou unifikovatelných strukturách rysů, jejím výsledkem je nová struktura rysů. 1 ROD mužský 2 OSOBA třetí ČÍSLO jednotné + ČÍSLO jednotné PÁD dativ ČAS přítomný = 3 ROD ČÍSLO PÁD OSOBA ČAS mužský jednotné dativ třetí přítomný 22.11.2007 http://ufal.mff.cuni.cz/course/popj1 6

Morfologická syntéza pomocí unifikace Vstup: struktury rysů lemma a značka. Najít ve slovníku všechny struktury heslo, které jsou unifikovatelné se strukturou lemma. Pro každou nalezenou strukturu heslo najít v seznamu vzorů strukturu vzor, která je současně unifikovatelná s ní i se vstupní strukturou značka. Unifikací k sobě pasujících struktur heslo, vzor a značka vznikne struktura tvar. Na výstupu je pro každou strukturu tvar řetězec složený z hodnot jejích rysů vzor a koncovka. 22.11.2007 http://ufal.mff.cuni.cz/course/popj1 7

Morfologická syntéza pomocí unifikace Vstup: struktury rysů lemma a značka. lemma LEMMA háček značka ČÍSLO množné PÁD nominativ Najít ve slovníku všechny struktury heslo, které jsou unifikovatelné se strukturou lemma. heslo LEMMA háček VZOR hrad heslo LEMMA háček VZOR pán 22.11.2007 http://ufal.mff.cuni.cz/course/popj1 8

Morfologická syntéza pomocí unifikace Pro každou nalezenou strukturu heslo najít v seznamu vzorů strukturu vzor, která je současně unifikovatelná s ní i se vstupní strukturou značka. heslo LEMMA háček VZOR hrad heslo LEMMA háček VZOR pán vzor VZOR hrad ČÍSLO množné PÁD nominativ KONCOVKA y vzor VZOR pán ČÍSLO množné PÁD nominativ KONCOVKA i ové 22.11.2007 http://ufal.mff.cuni.cz/course/popj1 9

Morfologická syntéza pomocí unifikace Unifikací k sobě pasujících struktur heslo, vzor a značka vznikne struktura tvar. tvar LEMMA háček VZOR hrad pán ČÍSLO množné PÁD nominativ KONCOVKA y i ové 22.11.2007 http://ufal.mff.cuni.cz/course/popj1 10

Morfologická syntéza pomocí unifikace: poznámky Unifikace se podobá databázovým operacím. Sama neříká, jak ze struktury tvar vznikne slovní tvar. Pravidlo: výstup = tvar.lemma + tvar.koncovka Zesložitění pravidla, aby řešilo fonologicky podmíněné změny (na to už je unifikace nevhodná): místo *háčeky, *háčeki, *háčekové chceme háčky, háčci, háčkové 22.11.2007 http://ufal.mff.cuni.cz/course/popj1 11

Morfologická analýza pomocí unifikace Neunifikační část: najít všechny možné afixy, které lze ve slově vidět množina struktur tvar. Které afixy (koncovky) existují, víme ze struktur typu vzor. Vyřešit (nějak) změny kmenových souhlásek, palatalizaci apod. Pak už lze postupovat opačně k syntéze: unifikovat tvar se vzorem, a výsledek se slovníkem. Co se ve slovníku skutečně najde, patří do analýzy. např. běžím=běžet(trpět)+osoba(1), běží(stavení)+pád(7) 22.11.2007 http://ufal.mff.cuni.cz/course/popj1 12

Unifikační morfologická gramatika (UMG) Jan Hajič: Unification Morphology Grammar (doktorandská práce). Univerzita Karlova, Praha, 1994 Stuart Shieber: An Introduction to Unification-based Approaches to Grammar. CSLI Lecture Notes No. 4, Stanford, California, USA, 1986 Základ: bezkontextová gramatika. S každou složkou (symbol + rozsah) je spojena struktura rysů. Pravidlo: levá strana pravá strana := operace nad strukturami rysů. Operace mohou i zablokovat použití pravidla požadavkem na unifikovatelnost. Unification-based chart parser, PATR-II (Shieber). Podobně jako CFG byly i unifikační gramatiky původně navrženy pro analýzu věty a teprve později aplikovány na analýzu slova. 22.11.2007 http://ufal.mff.cuni.cz/course/popj1 13

Syntax UMG Levá pravá := operace se strukturami rysů pravidlo gramatiky <X> neterminál X. Terminály se píší jen tak. # operátor unifikace (současně vznáší požadavek na unifikovatelnost) ^ operátor odkazu (odděluje části cesty (neterminály) ke struktuře rysů, na kterou odkazujeme) + operátor sřetězení operátor disjunkce. Z disjunkce struktur rysů se vyberou všechny struktury, které lze použít (jsou unifikovatelné atd.) Disjunkce struktur rysů může zachytit různé analýzy téhož řetězce. 22.11.2007 http://ufal.mff.cuni.cz/course/popj1 14

Příklad pravidla v UMG <N> <L> := [l = <L>^l, umlaut = <L>^umlaut # no] Interpretace: Pokud: rozpoznali jsme složku <L> a hodnota atributu umlaut ve struktuře rysů svázané s touto složkou je no Potom: rozpoznali jsme ve stejném rozsahu složku <N> do její struktury rysů máme ze struktury rysů složky <L> okopírovat atributy l a umlaut 22.11.2007 http://ufal.mff.cuni.cz/course/popj1 15

Teoretický pohled na slovník Pravidlo, které generuje prázdný řetězec, ale poskytuje své levé straně obrovskou strukturu rysů, obsahující celý slovník. <LEX> "" := [kmen=mat, hw=matka, pos=n, x=zn6e] [kmen=atom, hw=atom, pos=n, x=hd1] [kmen=nov, hw=nový, pos=a, x=reg] [kmen=prac, hw=pracovat, pos=v, x=ovatn] ; 22.11.2007 http://ufal.mff.cuni.cz/course/popj1 16

Teoretický pohled na slovník Napojení slovníku na zbytek gramatiky: <R> <S>u <LEX> := <LEX> # [x=hd1, kmen=<s>, case=gen dat loc, num=sg] Pravidlo reprezentuje tvoření 2., 3. a 6. pádu jednotného čísla podle vzoru hd1 (hrad). R zastupuje slovo unifikované se slovníkem. S je část vstupu odpovídající kmeni slova. Koncovka je uvedena přímo terminálem, LEX za ní odpovídá prázdnému řetězci. Pravidlo za :=říká, že nás z LEX zajímají ty struktury, jejichž kmen odpovídá S a kódují 1. nebo 4. pád jednotného čísla podle vzoru hd1. Slovníkové záznamy, které projdou tímto filtrem, utvoří množinu struktur rysů svázanou s neterminálem R. Navíc se do těchto struktur připíše informace o čísle a pádu. 22.11.2007 http://ufal.mff.cuni.cz/course/popj1 17

Příklad UMG <L> a := [l=a]; <L> b := [l=b]; <N> <L> := [l=<l>^l]; <N> <L> <N> := [l=<l>^l+<n>^l]; <S> <N> := <N>; <R> <S> := <LEX> # [stem=<s>^l, x=hd1, num=sg, case=nom acc, ]; <R> <S>u := <LEX> # [stem=<s>^l, x=hd1, num=sg, case=gen, ]; <LEX> "" := [stem=hrad, x=hd1, ] 22.11.2007 http://ufal.mff.cuni.cz/course/popj1 18

<L> je Příklad písmeno UMG <L> a := [l=a]; <L> b := [l=b]; <N> <L> := [l=<l>^l]; <N> <L> <N> := [l=<l>^l+<n>^l]; <S> <N> := <N>; <N> je řetězec <S> je potenciální kmen slova <R> <S> := <LEX> # [stem=<s>^l, x=hd1, num=sg, case=nom acc, ]; <R> <S>u := <LEX> # [stem=<s>^l, x=hd1, num=sg, <R> je rozpoznaný case=gen, ]; tvar slova ověřený ve <LEX> "" := [stem=hrad, slovníku x=hd1, ] 22.11.2007 http://ufal.mff.cuni.cz/course/popj1 19

Slovník v praxi Začlenění do gramatiky není efektivní. V praxi se obchází: Slovník uložit v samostatné datové struktuře s efektivním vyhledáváním. Pravidla obsahující <LEX> ošetřit algoritmem pro přístup k této struktuře. Zbytek gramatiky zpracovat normální analýzou. 22.11.2007 http://ufal.mff.cuni.cz/course/popj1 20

Příklad UMG Slovník mat zn6e =matka vzor lemma kmen Typický systém s mnoha vzory, např. 44 různých vzorů odpovídá školnímu vzoru žena (aniž by vzory řešily případné zkracování kmenové samohlásky). 22.11.2007 http://ufal.mff.cuni.cz/course/popj1 21

Příklad UMG { vzor = stavení; levá strana je vždy stejná, vynecháváme } <_><í>$ := [key=<_>í, x=(st rž), cat=[pos=n], morf=[infl=[pf=([gnd=n, num=sg, case=(nom gen dat acc voc loc)] [gnd=n, num=pl, case=(nom gen acc voc)])]]]; <_><í><m>$ := [key=<_>í, x=(st rž), cat=[pos=n], morf=[infl=[pf=([gnd=n, num=sg, case=ins] [gnd=n, num=pl, case=dat])]]]; <_><í><c><h>$ := [key=<_>í, x=(st rž), cat=[pos=n], morf=[infl=[pf=[gnd=n, num=pl, case=loc]]]]; <_><í><m><i>$ := [key=<_>í, x=(st rž), cat=[pos=n], morf=[infl=[pf=[gnd=n, num=pl, case=ins]]]]; 22.11.2007 http://ufal.mff.cuni.cz/course/popj1 22

Srovnání UMG a CFG Struktura rysů uchovává výstup analýzy (značku) nepotřebujeme dohodu o pojmenování neterminálů Disjunkce struktur zachytí homonymní analýzy nepotřebujeme štěpit neterminály Fonologie stále problematická. Buď exploze vzorů (UMG), nebo kombinace s dvojúrovňovými pravidly (viz dále) 22.11.2007 http://ufal.mff.cuni.cz/course/popj1 23

PC-Kimmo Word Grammar Unifikační gramatika podle Stuarta Shiebera. Trochu jiná syntax než UMG, podobné použití. lexicon rozpoznání morfémů ve slově rules fonologické změny na hranici morfémů grammar rozbor vztahů mezi morfémy odvození vlastností slova z vlastností morfémů omezující podmínky na to, které morfémy lze kombinovat 22.11.2007 http://ufal.mff.cuni.cz/course/popj1 24

PC-Kimmo Word Grammar en +`large +ment +s VR1a +`large +NR25 +PL Word Stem INFL +s Stem SUFFIX +PL +ment PREFIX Stem +NR25 en+ VR1a+ ROOT `large `large Word: [ cat: Word head: [ agr: [ 3sg: - ] number:pl pos: N ] root: `large root_pos:aj clitic:- drvstem:- ] 22.11.2007 http://ufal.mff.cuni.cz/course/popj1 25

PC-Kimmo Word Grammar Stará část PC-Kimma nejdříve tokenizuje slovo na morfémy. Nová část potom rozebere posloupnost morfémů podle gramatiky. Gramatika může některé posloupnosti morfémů zavrhnout. Ostatním přiřadí výklad (strukturu rysů). Staré PC-Kimmo dokázalo glosovat morfémy, ale nedokázalo říct, co z toho plyne pro celek (např. že přípona able udělá ze slovesa přídavné jméno). Takhle vypadá pravidlo gramatiky: Word -> Stem INFL <Stem head pos> = <INFL from_pos> <Word head> = <INFL head> 22.11.2007 http://ufal.mff.cuni.cz/course/popj1 26

Pravidlo gramatiky Word -> Stem INFL <Stem head pos> = <INFL from_pos> <Word head> = <INFL head> Pravidlo nelze použít, jestliže rys pos podstruktury head morfému Stem není roven rysu from_pos morfému INFL. Symboly morfémů jsou preterminály a odpovídají názvům podslovníků, ve kterých byly morfémy nalezeny. Pokud bude pravidlo použito, má se hodnota rysu head ze složky INFL zkopírovat do stejnojmenného rysu složky Word. 22.11.2007 http://ufal.mff.cuni.cz/course/popj1 27

Pravidlo gramatiky RULE <pravidlo> <podmínky pravidla> Levou a pravou stranu pravidla odděluje -> nebo =. RULE Stem_1 = Stem_2 SUFFIX X zastupuje libovolný terminál nebo neterminál. Zvláštní znaky jsou ()[]{}<>=:/ Podtržítko jen pro připojení indexu k symbolu. Levá strana prvního pravidla je počáteční symbol gramatiky. N = Nstem {Sing / Plural} 22.11.2007 http://ufal.mff.cuni.cz/course/popj1 28

Výhody gramatiky Příklady z češtiny: Gramatika zabrání spojení kmene podle vzoru žena s koncovkou podle vzoru růže. Ohlídá i závislosti na dlouhé vzdálenosti, např.: nejchytřejší Utvořením přídavného jména přivlastňovacího ženin se změní rod z ženského na mužský. Původní rod se uloží jako rod vlastníka. 22.11.2007 http://ufal.mff.cuni.cz/course/popj1 29

Bez gramatiky Init Kmen N pán Kmen N hrad Kmen N muž Kmen N stroj Kmen N předsed Kmen N soudc 0, a, ovi, a, e, ovi, em, i, 0, u, u, 0, e, u, em, y, ů, 0, e, i, e, i, i, em, i, ů, 0, e, i, 0, i, i, em, e, ů, a, y, ovi, u, o, ovi, ou, e, e, i, e, e, i, em, i, ů, 22.11.2007 http://ufal.mff.cuni.cz/course/popj1 30

S gramatikou Init Kmen N MASC [vzor: x] 0, a, ovi, e, em, i, ové, ů, ům, y, ech, u, é, ích, o, ou [vzor: x] 22.11.2007 http://ufal.mff.cuni.cz/course/popj1 31

Bez gramatiky Init nej Kmen A zelen Kmen A jarn Kmen A zelenějš Kmen A jarnějš ý, ého, ému, ého, ém, í, ího, ímu, ího, ím, ím, í, 22.11.2007 http://ufal.mff.cuni.cz/course/popj1 32

S gramatikou Init Kmen A zelen Kmen A jarn ejš ý, ého, ému, ého, nej í, ího, ímu, ího, ím, 22.11.2007 http://ufal.mff.cuni.cz/course/popj1 33

S gramatikou Init Kmen A zelen Kmen A jarn ejš ý, ého, ému, ého, nej Kmen A mlad Kmen A mlad+š í, ího, ímu, ího, ím, nepravidelný 2. stupeň 22.11.2007 http://ufal.mff.cuni.cz/course/popj1 34

Gramatika neovlivňuje fonologii Fonologické pravidlo pro změkčování v rozkazovacím způsobu: meteš meť(me,te) t:ť _ +:0 λ:0 nebo m:m e:e nebo t:t e:e Nemá se uplatnit ve 2. pádě množného čísla ženského rodu podstatných jmen: kóta *kóť Fonologická pravidla si nemohou ze struktur rysů přečíst, kdy se mají uplatnit. 22.11.2007 http://ufal.mff.cuni.cz/course/popj1 35

Automatické rysy Každé slovníkové heslo má automaticky tyto základní rysy: cat = název podslovníku (\lx) lex = morfém, lexikální řetězec (\lf) gloss = glosa ze slovníku (\gl) 22.11.2007 http://ufal.mff.cuni.cz/course/popj1 36

Přiřazování hodnot rysům Zkratky přiřazení rysů Hodnoty, které budeme přiřazovat každému slovníkovému heslu, chceme psát co nejkratší. LET <zkratka kategorie> be <definice> např. Let pl be [number: PL] Let pl be <number> = PL Let 3sg be [tense: PRES agr: 3SG] Disjunkce: Let sg/pl be {[number:sg][number:pl]} Let sg/pl be <number> = {SG PL} Výchozí hodnoty: Let N be <number> =!SG Nepřiřadí-li někdo podstatnému jménu explicitně číslo, má se za to, že číslo je jednotné. 22.11.2007 http://ufal.mff.cuni.cz/course/popj1 37

Lexikální pravidla Nikoli zkratky, ale systematické transformace rysů pro skupiny slovníkových hesel. Převedou jednu strukturu rysů na jinou. DEFINE <název lexikálního pravidla> as <zobrazení> Příklad v dokumentaci na webu je vadný. Na konci analýzy, když už máme hotovou strukturu rysů pro celé slovo, můžeme aplikovat lexikální pravidlo, které tuto strukturu upraví. 22.11.2007 http://ufal.mff.cuni.cz/course/popj1 38

Nastavení parametrů PARAMETER <název> is <hodnota> Parameter Start symbol is Word Parameter Attribute order is cat head root V jakém pořadí má PC-Kimmo zobrazovat rysy? Category feature (výchozí: cat) Lexical feature (výchozí: lex) Gloss feature (výchozí: gloss) Jak se jmenují důležité rysy se zvláštním významem? 22.11.2007 http://ufal.mff.cuni.cz/course/popj1 39

Ukázka v PC Kimmo r ženě Syntéza (nová v PCK v. 2, ale použití gramatiky není povinné) l synthesis-lexicon cs.lex s N(žena) +SG+LOC Je-li k dispozici gramatika, zablokuje syntézu nedovolených kombinací Nejde ale generovat ze struktury rysů 22.11.2007 http://ufal.mff.cuni.cz/course/popj1 40