Nainstalovat Tred!

Podobné dokumenty
Lingvistická terminologie

Automatická post-editace výstupů frázového strojového překladu (Depfix)

Automatická post-editace výstupů frázového strojového překladu (Depfix)

ve strojovém překladu

Lingvistická terminologie

Depfix: Jak dělat strojový překlad lépe než Google Translate

SADA VY_32_INOVACE_CJ1

Chytal tlouště na višni

0. Úvod. 1. Syntaktické značkování textu

Slovníky a morfologická analýza

Počítačové zpracování češtiny. Syntaktická analýza. Daniel Zeman

Anglický jazyk. Anglický jazyk. žák: TÉMATA. Fonetika: abeceda, výslovnost odlišných hlásek, zvuková podoba slova a její zvláštnosti

Pražský závislostní korpus jako elektronická cvičebnice češtiny

Český jazyk - Jazyková výchova

Dataprojektor, jazykové příručky, pracovní listy

Strojové učení a pravidla pro extrakci informací z textů

Nedostatky bezkontextové gramatiky

NÁZEV TŘÍDA ANOTACE PLNĚNÉ VÝSTUPY KLÍČOVÁ SLOVA

Příloha č. 4 ČESKÝ JAZYK JAZYKOVÁ VÝCHOVA

Modul NE2-1. Osnova: Arbeitsbuch. Ismaning: Max Hueber, s. ISBN

Program pro automatickou opravu stochastické syntaktické anotace (analytická rovina PDT)

Obsah. Úvodní poznámka 11 Německý jazyk, spisovná řeč a nářečí 13 Pomůcky ke studiu němčiny 15

VY_32_INOVACE_ / IQ cesta

Příloha č. 4 ČESKÝ JAZYK JAZYKOVÁ VÝCHOVA

Anotace na analytické rovině

Popis morfologických značek poziční systém

SYNTAX LS Úvod

Vyjádření propozice pomocí verbálních substantiv v korpusech psané a mluvené češtiny

Předmět: Český jazyk a literatura

Počítačová lingvistika v praxi Pavel Ševeček, Tomáš Pavelek

Ročník: 5. Časová dotace: 7 hodin týdně učivo, téma očekávané výstupy klíčové kompetence, mezipředmětové vazby

Větná polarita v češtině. Kateřina Veselovská Žďárek Hořovice,

http: //pravopisne.cz/2014/11/test-podstatna-jmena-konkretni-a-abstraktni-11/

Univerzita Karlova v Praze Matematicko-fyzikální fakulta

Školní vzdělávací program Základní školy a mateřské školy Sdružení

Gramatické rozbory češtiny Výklad a cvičení s řešeními. Robert Adam a kol. Recenzovaly: PhDr. Jasňa Pacovská, CSc. PhDr. Jana Bílková, Ph.D.

Český jazyk a literatura - jazyková výchova

OBSAH. Předmluva (Libuše Dušková) DÍL I. Rozbor fonologický

VĚTNÉ ČLENY. Mgr. Jiří Ondra Procvičení základních pojmů a kategorií z oblasti české skladby. Zdokonalování jazykových vědomostí a dovedností

PLIN041 Vývoj počítačové lingvistiky Algebraická lingvistika. Mgr. Dana Hlaváčková, Ph.D. od 2. pol. 50. let 20. st.

Vzdělávací oblast: JAZYK A JAZYKOVÁ KOMUNIKACE Vyučovací předmět: Český jazyk a literatura Ročník: 6.

Název materiálu SLOVNÍ DRUHY PODSTATNÁ JMÉNA. Metodika. Pořadové číslo III-2-ČJ-III- 1-9.r.

Moravské gymnázium Brno s.r.o. Hana Blaudeová. Ročník 2. Datum tvorby Anotace. -prezentace určena pro učitele

Přirozený jazyk a matematika: jak popsat češtinu tak, aby jí porozuměly počítače?

Univerzita Karlova v Praze Matematicko-fyzikální fakulta DIPLOMOVÁ PRÁCE. Ondřej Bojar Automatická extrakce. z korpusu Praha 2002

7. ročník. Český jazyk a literatura. Komunikační a slohová výchova. Vypravování uspořádání dějových prvků

DIGITÁLNÍ ARCHIV VZDĚLÁVACÍCH MATERIÁLŮ

Čím může bohemistice přispět současná počítačová lingvistika?

Učíme počítače (nejen) česky: ÚFAL

Analýza staročeské morfologie v Excelu

1 Úvod Co je PDT Historické pozadí projektu Vývoj projektu Roviny anotace Morfologická rovina...

PDT-Vallex: trochu jiný valenční slovník

E K O G Y M N Á Z I U M B R N O o.p.s. přidružená škola UNESCO

V této kapitole jsou popsány hlavní vlastnosti anotačního schématu spolu s důvody, proč byly zavedeny.

PLIN041 Vývoj počítačové lingvistiky. Korpusová lingvistika v ČR Počítačová lingvistika v ČR Brno. Mgr. Dana Hlaváčková, Ph.D.

Předmět - Český jazyk a literatura Ročník: 5. RVP - ZV Výstup Učivo Průřezová témata

Příloha č. 13 ČESKÝ JAZYK JAZYKOVÁ VÝCHOVA

Ondřej Bojar Ústav formální a aplikované lingvistiky Matematicko-fyzikální fakulta Univerzita Karlova v Praze

Olympiáda v českém jazyce 45. ročník 2018/2019

Olympiáda v českém jazyce 45. ročník, 2018/2019

Jak se dělá GRAMATICKÝ KOREKTOR ČEŠTINY. Karel Oliva Ústav pro jazyk český Akademie věd ČR

ZKUŠENOSTI S AUTOMATIZACÍ CITAČNÍ ANALÝZY NA ZAKONECHPROLIDI.CZ. Pavel Gardavský/AION CS, s.r.o

Základní škola ve Vamberku. Tematický plán učiva ČESKÝ JAZYK PRO 8. ROČNÍK. Václav Strážnický 2014/15

Český jazyk v 5. ročníku

Předmět: Český jazyk. čtení plynulé, tiché, hlasité, s porozuměním. nadpis, osnova vypravování, popis s dodržením časové posloupnosti

WEBOVÉ KORPUSY ARANEA A VÍCEJAZYČNÉ KOLOKAČNÍ PROFILY

Příloha č. 4 ČESKÝ JAZYK JAZYKOVÁ VÝCHOVA

ZŠ ÚnO, Bratří Čapků 1332

Jak dělat strojový překlad lépe než Google Translate

DIGITÁLNÍ ARCHIV VZDĚLÁVACÍCH MATERIÁLŮ

Název materiálu. Význam slov. Slova souřadná, nadřazená, podřazená, procvičování.

TEMATICKÝ PLÁN. Literatura: Český jazyk - Z. Krausová, R. Teršová, Fraus 2012, pracovní sešit Český jazyk pro 6. ročník - V.

TEMATICKÝ PLÁN 6. ročník

ČESKÝ JAZYK 5. TŘÍDA

NÁVRHY TEMATICKÝCH PLÁNŮ. 1. ročník Počet hodin

Projekt IMPLEMENTACE ŠVP

Testování konzistence a úplnosti valenčního slovníku českých sloves

OBSAH SEZNAM TERMÍNŮ, ZKRTATEK A ZNAČEK POUŽÍVANÝCH V UČEBNICI POSTAVY PŘÍBĚHU 3 LEKCE 1 STUDIUM JAZYKŮ 8 LEKCE 2 LIDSKÁ KOMUNIKACE 42.

Úvod do kvantitativní lingvistiky. Radek Čech

Předmět speciálně pedagogické péče

Výroková a predikátová logika - II

Inovace studia obecné jazykovědy a teorie komunikace ve spolupráci s přírodními vědami. reg. č.: CZ.1.07/2.2.00/

SSOS_CJL_5.13. III/2 - Inovace a zkvalitnění výuky prostřednictvím ICT. Číslo a název projektu Číslo a název šablony

Vzdělávací obsah vyučovacího předmětu

Výstupy z RVP Učivo Ročník Průřezová témata Termín/hodiny Komunikační a slohová výchova 12 čte s porozuměním přiměřeně náročné texty potichu i nahlas

UNIVERZITA KARLOVA FILOZOFICKÁ FAKULTA FUNKCE ADVERBÁLNÍHO DATIVU V HLOUBKOVÉ A POVRCHOVÉ STAVBĚ ČESKÉ VĚTY

Syntaktická proměna Českého akademického korpusu. The syntactic transformation of the Czech Academic Corpus

Tematický plán pro školní rok 2015/16 Předmět: Český jazyk Vyučující: Mgr. Iveta Jedličková Týdenní dotace hodin: 8 hodin Ročník: pátý

Automatická anotace angličtiny na tektogramatické

KOMUNIKAČNÍ A SLOHOVÁ VÝCHOVA - čtení - praktické plynulé čtení. - naslouchání praktické naslouchání; věcné a pozorné naslouchání.

VY_12_INOVACE_72 Základní škola a mateřská škola Herálec, Herálec 38, ; IČ: ; tel.:

Český jazyk a literatura

- naslouchání praktické naslouchání; věcné a pozorné naslouchání. - respektování základních forem společenského styku.

Český jazyk ve 4. ročníku

VALENČNÍ SLOVNÍK PRAŽSKÉHO ZÁVISLOSTNÍHO KORPUSU PDT-Vallex. Zdeňka Urešová

Olympiáda v českém jazyce 45. ročník, 2018/2019

Všestranný jazykový rozbor (VJR)

Jazyková výchova Párové souhlásky. Opakování párových souhlásek na konci slov. Párové souhlásky uvnitř slov. Abeceda ČaJs. Slovo

Výstupy odpovídající úrovni A1 podle SERR. Dataprojektor, počítač, smartphone, pracovní listy, slovníky. Gymnázium Jiřího Ortena, Kutná Hora

Aktuální změny v didaktickém testu z češtiny 2015

Transkript:

Nainstalovat Tred! http://ufal.mff.cuni.cz/tred/ 1

Korpusy a lingvistické nástroje Daniel Zeman zeman@ufal.mff.cuni.cz Ústav formální a aplikované lingvistiky Matematicko-fyzikální fakulta Univerzita Karlova v Praze 2

informatika + = lingvistika 3

Teoretické ukotvení Funkční generativní popis jazyka (FGP) Petr Sgall et al., 80. léta 20. století Systém rovin Závislostní syntax Valence 4

Fonetická rovina rys 3 rys 2 Cp Cp rys 1 fonetika Cp fón z b a ņ k o u akustický signál 4.11.1999 http://ufal.mff.cuni.cz/course/popj1 55

Fonologická rovina distinktivní rys 3 distinktivní rys 2 distinktivní rys 1 Cp Cp fonologie fonetika 4.11.1999 Cp foném z b a n k o u R z b a ņ k o u http://ufal.mff.cuni.cz/course/popj1 66

Pravopisná rovina fonémy fonologie pravopis j a b l o ň e R j a b l o n ě grafémy 4.11.1999 http://ufal.mff.cuni.cz/course/popj1 77

Stejné znění, různý zápis fonologie pravopis 4.11.1999 v i l y R v i/y l i/y R v i l y v i l i http://ufal.mff.cuni.cz/course/popj1 fonetika 88

Opačný případ: stejný zápis, jiná výslovnost fonologie pravopis 4.11.1999 r e d r í d R r í d R r e a d r í d http://ufal.mff.cuni.cz/course/popj1 fonetika 99

Opačný případ: stejný zápis, jiná výslovnost fonologie pravopis 4.11.1999 k u t u b k a t a b knihy psát R ﺘ ﺐ ﻛ كتب http://ufal.mff.cuni.cz/course/popj1 10 10

Morfonologická rovina morf Cs mat(k c č) a morfonologie fonologie 4.11.1999 morfoném m a t k c č R m a t k a m a t c e m a t č i n http://ufal.mff.cuni.cz/course/popj1 11 11

Morfematická rovina sémata formém Cs [k,r3] ([zdravý,a(m N)S33N]) morfematika morfonologie morfémy rod = M N číslo = S pád = 3 Cp k nej ne zdrav ější mu R k nej ne zdrav ější mu morfy 4.11.1999 http://ufal.mff.cuni.cz/course/popj1 12 12

Povrchově syntaktická rovina přísudek syntagmém předmět předmět přívlastek tagmémy syntaxe psát dopis svůj VPS3A NIS4A PSRMS3. Z R morfematika 4.11.1999 přítel NMS3A http://ufal.mff.cuni.cz/course/popj1 13 13

Tektogramatická rovina žít, V, F druh doplnění koordinace slučovací Jana, N, T 35 ona, PP, T koreference aktuální členění 36 bratr, N, T 23 (v) založit, V, F 3 jenž, WH, T Praha, N, F 30 rodina, N, F Jana a její bratr, jež založili rodinu, žijí v Praze. 4.11.1999 http://ufal.mff.cuni.cz/course/popj1 14 14

Rovina diskurzu Vstup: posloupnost vět (propozic) patřících k sobě (např. jeden článek) = diskurz Výstup: diskurz s vyřešenými mezivětnými vztahy Obsah: např. anafora, katafora: Pavel přišel po desáté. Dala jsem mu večeři. 4.11.1999 http://ufal.mff.cuni.cz/course/popj1 15 15

Pragmatická (logická) rovina Vstup: hloubková struktura věty (propozice) Výstup: logická forma, která může být vyhodnocena (pravda/nepravda) Obsah: přiřazení objektů reálného světa uzlům větné struktury mimolingvistický obsah: znalost světa ( oči barvy nebe ) kvantif. ( mnoho knih čte málo lidí mnoho lidí čte málo knih ) například (já/sg/pat/t (vidět(past/pred/t) babička/sg/ag/f) ~ vidět(babička-bn[ssn: ],Němcová[SSN: ])[čas:před 13.12.2013 ] [místo:mezi (50 20 00 N15 30 00 E,51 00 00 N16 30 20 E)] 4.11.1999 http://ufal.mff.cuni.cz/course/popj1 16 16

Praxe: 3 hlavní roviny tektogramatická hloubkový slovosled (aktuální členění) koordinace koreference, doplnění vypuštěných členů, spojování členů analytická (syntaktická) posloupnost dvojic stromová struktura morfologická slovní tvar dvojice [lemma, značka] předzpracování posloupnost znaků (písmen) posloupnost slov (a interpunkce) 4.11.1999 http://ufal.mff.cuni.cz/course/popj1 17 17

Doprovodný web http://ufal.mff.cuni.cz/daniel-zeman/nastroje-ufal (http://bit.ly/nastroje_ufal) 18

Webové nástroje Hlavní výpočet na vzdáleném serveru Ovládáte prostřednictvím webového prohlížeče U sebe nic dalšího neinstalujete Minimální nároky na přenositelnost (Windows / Linux ) Potřebujete připojení k internetu Nevhodné pro velké množství dat Většina nástrojů a dat k dispozici i off-line Někdy přenositelné (Java, Perl, ) Mnohdy nároky na procesor, paměť, disk 19

Morfologická analýza češtiny Vstup: slovo v libovolném tvaru Výstup: základní tvar slova (lemma) morfologická značka zakódovaný slovní druh morfologické kategorie Homonyma: pro každý význam samostatný výstup! Na kontext (zatím) nehledíme 20

Morfologické značky Smluvená šifra Jiný korpus jiná sada značek? Ajka (Brno) [846] Poziční, Hajičovy (Praha, PDT, ČNK, ČAK ) [4294] CoNLL (vycházejí z pražských, vypadají jinak) CoNLL 2006 a 2007 [5150] CoNLL 2009 [5150] Multext-East (Orwell, ÚTKL) [1458] Pražský mluvený korpus dlouhé [12359] krátké [244] 21

Brněnské značky (Ajka) 1. Pekař 2. peče 3. housky 4. v 5. pekárně 6.. k1gmnsc1 k5eaaimip3ns k1gfnpc4 k7c6 k1gfnsc6 22

Pražské poziční značky (Hajič) 1. Pekař 2. peče 3. housky 4. v 5. pekárně 6.. NNMS1-----A---VB-S---3P-AA--NNFP4-----A---RR--6---------NNFS6-----A---Z:------------- 23

CoNLL 2006 (podle pražských) 1. Pekař 2. peče 3. housky 4. v 5. pekárně 6.. N V N R N Z N B N R N : Gen=M Num=S Cas=1 Neg=A Num=S Per=3 Ten=P Neg=A Voi=A Gen=F Num=P Cas=4 Neg=A Cas=6 Gen=F Num=S Cas=6 Neg=A _ 24

CoNLL 2009 (podle pražských) 1. Pekař 2. peče 3. housky 4. v 5. pekárně 6.. N V N R N Z SubPOS=N Gen=M Num=S Cas=1 Neg=A SubPOS=B Num=S Per=3 Ten=P Neg=A Voi=A SubPOS=N Gen=F Num=P Cas=4 Neg=A SubPOS=R Cas=6 SubPOS=N Gen=F Num=S Cas=6 Neg=A SubPOS=: 25

Značky Multext-East 1. Pekař 2. peče 3. housky 4. v 5. pekárně 6.. Ncmsa--y Vmip3s-an Ncfpa Spsl Ncfsl X 26

Pražský mluvený korpus (dlouhé značky) 1. Pekař 2. peče 3. housky 4. v 5. pekárně 6.. 51 různých značek 105 různých značek 72 různých značek 7 různých značek 78 různých značek 27

Převody mezi sadami značek Interset https://wiki.ufal.ms.mff.cuni.cz/user:zeman:interset http://quest.ms.mff.cuni.cz/cgi-bin/interset/index.pl MorphCon (nadstavba Intersetu) Petr Pořízka, Markus Schäfer, Daniel Zeman 28

Převody mezi sadami značek Některé sady umí něco, co jiné ne Interpunkce Cizí slova Zkratky Stylové varianty (hovorové, zastaralé atd.) Slovesný vid Detailní rozlišení druhů zájmen, číslovek, příslovcí Kategorizace vlastních jmen (osoba / místo / organizace) 29

Interset Univerzální repertoár rysů (features) jejich hodnot (values) Pro každou sadu značek stačí popsat převod sada Interset ( dekódování ) převod Interset sada ( zakódování ) Z každé sady do každé pak přes Interset 30

Morfologické analyzátory Hajičův analyzátor a tagger http://ufal-point.mff.cuni.cz/services/morph/ Morfo (Hajič / Kolovratník) inflector http://quest.ms.mff.cuni.cz/cgi-bin/zeman/morfo/index.pl Ajka (Radek Sedláček, Brno) http://nlp.fi.muni.cz/projekty/wwwajka/wwwajkaskripty/morph.cgi?jazyk=0 31

Homonymie: víceznačné výsledky morfologické analýzy je = on + PPNS4-3, PPXP4-3 být + VB-S-3P-AA stát = stát-1 (země) stát-2 (na ulici) stát-3 (milión) stát 4 (se) stát-5 (sníh) stane = stát-4 + VB-S-3P-AA stanout + VB-S-3P-AA stan + NNIS5-A hnát = hnát-1 (noha) hnát-2 (honit) žena = žena + NNFS1-A hnát-2 + VeYS-A kupuje = kupovat + VB-S-3P-AA kupovat + VeYS-A růže = růže + NNFS1-A NNFS2-A NNFS5-A NNFP1-A NNFP4-A NNFP5-A 32

Treebanky Zachycují větnou stavbu pomocí stromů Uzly (vrcholy) Hrany spojují uzly Shora dolů: uzel-rodič a uzel-dítě Nejvyšší uzel v hierarchii je kořen Ostatní uzly mají právě jednoho rodiče Uzly bez dětí jsou listy 33

Frázový (složkový) strom ((Pavel (dal Petrovi (dvě hrušky))).) S VP NP V N Pavel dal NP NP N C Petrovi dvě Z N hrušky. 34

Závislostní strom [#,0] ([dal,2] ([Pavel,1], [Petrovi,3], [hrušky,5] ([dvě,4])), [.,6]) # dal Pavel. Petrovi hrušky dvě 35

Pojmenování závislostí (analytické funkce) # / AuxS dal / Pred Pavel / Sb. / AuxK Petrovi / Obj hrušky / Obj dvě / Atr 36

Frázové vs. závislostní stromy Frázové (složkové) stromy Ukazují členění věty na fráze a pojmenovávají je. Nezdůrazňují, co je hlava fráze, které slovo na kterém závisí. Nemusí obsahovat funkci, tj. druh závislosti. Závislostní stromy Ukazují závislosti mezi slovy a pojmenovávají je. Nezachycují podobnost tvoření různých částí věty, rekurzi. Nezachycují průběh budování věty, blízkost závislých členů na hlavě. Neobsahují druhy frází, ty lze leda odhadnout ze značek hlav. 37

Rozdíly závislostního a frázového modelu Chceme převést frázový strom F na závislostní strom Z nebo obráceně. Frázový strom neříká, co je hlava fráze. Pro převod F Z potřebujeme výběrovou funkci, která pro každý druh fráze určí hlavu (řídící člen, ostatní členové fráze na něm závisí). Závislostní strom neukazuje, jak věta vznikla, ani nutně nepostihuje celé dělení na fráze. Co bylo do věty přidáno dříve a co později? Více frázových struktur vede na stejnou závislostní, převod zpět není jednoznačný. 38

Příklad S(koupil) NP(Pavel) S(koupil) VP(koupil) V(koupil) VP(koupil) NP(kolo) NP(Pavel) V(koupil) NP(kolo) koupil Pavel kolo 39

Nespojité fráze Frázový strom je pevně spjat se slovosledem (vlastně jen přidává závorky do textu). Nespojité fráze v něm nelze zachytit: (Soubor (se nepodařilo) otevřít). VP(nepodařilo) VR(nepodařilo) N(soubor) T(se) VPinf(otevřít) V(nepodařilo) Vinf(otevřít) 40

Neprojektivita Závislostní strom nesouvislé fráze umí zachytit. Dostaneme podstrom, který nepokrývá souvislý kus věty, je v něm díra. Tomuto jevu se říká neprojektivita. Asi 2% slov v PDT jsou zavěšena neprojektivně. Asi 20% vět obsahuje alespoň 1 neprojektivitu. 41

Neprojektivita nepodařilo / Pred se / AuxT otevřít / Obj soubor / Obj 42

Problém: ne vše je závislost Koordinace a apozice Společné rozvití celé koordinace členy koordinace Pomocné uzly (interpunkce apod.) a / Coord koupil Pred_Co předevčírem Adv, AuxX opravil Pred_Co včera Adv prodal Pred_Co auto Obj dnes Adv 43

Předložkové fráze, vnořené klauze spojkové budu Pred ptáte Pred od AuxP na AuxP na AuxP rozdíl AuxP Pavla Adv se AuxT zda AuxC, AuxX zápraží Adv vidím Obj vás Obj 44

Vnořené klauze vztažné muž??? představil Atr, AuxX kterého Obj jsem AuxV vám Obj 45

Vallex Elektronický valenční slovník = slovník vazeb českých sloves Z mnoha zdrojů, zejména SSJČ, Slovesa pro praxi PDT a další korpusy 46

Valenční rámec slovesa budit ACT PAT (MEANS) Budil své děti každé ráno (zpěvem). budit ACT PAT (LOC) = vyvolávat Budil (ve mně) podezření. budit se ACT = procitat ze spánku Budí se kolem sedmé. 47

Valenční rámec slovesa cítit se ACT PAT = považovat se za nějakého Cítí se jako mladík. cítit se ACT MANN = pociťovat svůj stav Cítí se mizerně. cítit se ACT PAT = stačit na něco (idiom) Cítí se na tento úkol. Funktory (hloubkový rámec) 48

Povrchové realizace rámce cítit se ACT PAT cítit se Nom Ins cítit se Nom být+ins cítit se Nom jako+nom cítit se na+acc cítit se být+adj/nom cítit se být+adj/ins cítit se Adj/Nom cítit se Adj/Ins Pády, předložky aj. (povrchový rámec) cítit se ACT MANN cítit se Nom 49

Vallex Než se do něj podíváme, uděláme si malý test. Poznamenejte si na papír nebo do editoru 50

nechávat / nechat Kolik různých hloubkových rámců (významů) vymyslíte pro sloveso nechat? 51

Reflexiva tantum Pouze zvratná slovesa, bez se se nevyskytují. Příklad: bát se Kolik takových českých sloves dáte dohromady z hlavy? Ostatní funkce zvratného se, si 52

Povinné doplnění místa Která slovesa mají v některém svém významu povinný funktor LOC (odpověď na otázku kde? ) Kolik takových českých sloves dáte dohromady z hlavy? 53

Valenční genitiv Která slovesa mají v některém svém významu povinný předmět v genitivu Příklad: bát se někoho Kolik takových českých sloves dáte dohromady z hlavy? 54

Vazba v + akuzativ Která slovesa mají v některém svém významu povinný předmět s předložkou v a akuzativem Příklad: věřit v něco Kolik takových českých sloves dáte dohromady z hlavy? 55

Podřadící spojky Které podřadící spojky mohou být v češtině valenční? Příklad: řekl, že Kolik takových českých spojek dáte dohromady z hlavy? 56

Vidové dvojice (skupiny) Slovesa, která jsou současně dokonavá i nedokonavá Pouze nedokonavá (bez dokonavého protějšku) Pouze dokonavá Více než dva tvary (některé dokonavé, některé nedokonavé) 57

A nyní exkurze do Vallexu http://ufal.mff.cuni.cz/vallex/2.6/data/html/generated/alphabet/index.html 58

Automatické zpracování jazyka Programy, založené na seznamech a pravidlech Spousta ruční práce počítačových lingvistů Pravidla nikdy nepokryjí vše Programy, založené na statistických modelech Velká trénovací data Velké nároky na výkon počítače 59

Od znaků po morfémy Tokenizátor (hranice slov) Segmentace na věty (příklad problému: sv. Jan ) Morfologický analyzátor (např. Hajič, Majka) slovník lemmata morfologické značky zatím nejednoznačně, bez ohledu na kontext 60

Tagger (značkovač) Zjednoznační morfologickou analýzu na základě kontextu Statistický model na ručně anotovaných trénovacích datech Pro češtinu např. Hajič HMM, Morče, Featurama Úspěšnost přes 95 % správně označkovaných slov 61

Parser (syntaktický analyzátor) Vstup: zjednoznačněná morf. analýza z taggeru Výstup: strom (pro češtinu většinou analytický dle PDT) Statistický model na ručně anotovaných trénovacích datech (PDT) Pro češtinu např. MST Parser, Malt Parser Úspěšnost asi 86 % správně zavěšených slov Pokud započítáme i správnost afunů, klesne to k 80 % 62

Treex Pouštění nástrojů náročné na obsluhu na výkon počítače datové formáty, spolupráce nástrojů Treex je naše zastřešující platforma Díky webovému rozhraní ho může použít každý http://ufal-point.mff.cuni.cz/services/treex-web/ 63

Shrnutí Hajičova morfologie Morfo (generování tvarů) Interset (rozklad a převod morfologických značek) Treex (taggery, parsery, překlad a další) Tred (prohlížeč a editor stromů) PML Tree Query (vyhledávání v treebancích) Česílko Korektor Styx a Čapek 64