Morfologie, morfologická analýza

Podobné dokumenty
Popis morfologických značek poziční systém

Dataprojektor, kodifikační příručky

Slovníky a morfologická analýza

Jazyk a jazyková komunikace 2. ročník a sexta

VY_12_INOVACE_26_MLUVNICKE_KATEGORIE_PODSTATNYCH_ JMEN. Předmět: Český jazyk Ročník: 4. Časová dotace: 45 min Datum ověření:

Morfologie. Gramatika gramatické tvary a konstrukce a jejich sémantické funkce - obecný úvod

Gramatické rozbory češtiny Výklad a cvičení s řešeními. Robert Adam a kol. Recenzovaly: PhDr. Jasňa Pacovská, CSc. PhDr. Jana Bílková, Ph.D.

SADA VY_32_INOVACE_CJ1

Úvod do gramatiky. Galénos a Hippokratés na fresce v kryptě katedrály v Anagni, vybudované v roce 1255

Úvodní jazykový seminář: výklad a cvičení (s terminologickým slovníkem)

Univerzita Karlova v Praze, Nakladatelství Karolinum, 2015 Robert Adam, 2015

Morfologie I - seminář CJA009 (C32) seminář pro I. cyklus studia. úterý

NÁZEV TŘÍDA ANOTACE PLNĚNÉ VÝSTUPY KLÍČOVÁ SLOVA

DeriNet: Lexikální databáze českých derivátů

Automatická post-editace výstupů frázového strojového překladu (Depfix)

Příloha č. 4 ČESKÝ JAZYK JAZYKOVÁ VÝCHOVA

LISTOPAD Úvod do nauky o tvoření slov, PROSINEC Psaní velkých písmen

Obsah. Úvodní poznámka 11 Německý jazyk, spisovná řeč a nářečí 13 Pomůcky ke studiu němčiny 15

Automatická post-editace výstupů frázového strojového překladu (Depfix)

Český jazyk - Jazyková výchova

Slovní druhy. Ohebné i neohebné

Morfologie I - seminář CJA009 (C41/C13) seminář pro I. cyklus studia. středa/pátek

1 Substantiva. 2 Adjektiva. Obsah. Lekce Obsah Cvičení

ŠVP Gymnázium Ostrava-Zábřeh Latina

OBSAH. Předmluva (Libuše Dušková) DÍL I. Rozbor fonologický

Dotazy v CQL (pro Sketch Engine)

Morfologie odborných textů

VY_32_INOVACE_ / IQ cesta

MASARYKOVA UNIVERSITA FAKULTA INFORMATIKY. Morfologický analyzátor

DIGITÁLNÍ ARCHIV VZDĚLÁVACÍCH MATERIÁLŮ

III/2 - Inovace a zkvalitnění výuky prostřednictvím ICT. Žák se seznámí se základními pojmy morfologie tvarosloví, ohebnost, význam slov.

Dataprojektor, jazykové příručky, pracovní listy

Ročník: 5. Časová dotace: 7 hodin týdně učivo, téma očekávané výstupy klíčové kompetence, mezipředmětové vazby

Morfologie. Morfém. Morf. Typy morfů (podle významu, který vyjadřují) Morfologická homonymie. Morfologická synonymie

Příloha č. 4 ČESKÝ JAZYK JAZYKOVÁ VÝCHOVA

Všestranný jazykový rozbor (VJR)

Olympiáda v českém jazyce 45. ročník 2018/2019

1. MORFOLOGIE. 1. Morfologie

Základy latiny II

ZŠ ÚnO, Bratří Čapků 1332

VY_12_INOVACE_29_TEMER_VSE_O_PODSTATNYCH_JMENECH_ NA_1_ST_ZS. Téměř vše o podstatných jménech na 1. stupni ZŠ. Předmět: Český jazyk Ročník: 4.

Příspěvky k české morfologii

Český jazyk a literatura - jazyková výchova

SSOS_CJL_5.13. III/2 - Inovace a zkvalitnění výuky prostřednictvím ICT. Číslo a název projektu Číslo a název šablony

3 Morfologická analýza. 2 Reprezentace morfologického. lemma. Pomocí slovotvorného vzoru se generuje seznam

Roviny analýzy jazyka. Fonetika

Předmět: Latina. Charakteristika vyučovacího předmětu:

Český jazyk ve 4. ročníku

SLOVNÍ DRUHY Platón Aristoteles Dionysios Thrácký Priscianus

Krajské kolo Olympiády v českém jazyce 2005/ ročník. II. kategorie Počet bodů:... Jméno:... Škola:...

Depfix: Jak dělat strojový překlad lépe než Google Translate

Výukový materiál zpracován v rámci projektu EU peníze školám

Lingvistická terminologie

MORFOLOGIE ČESKÉHO JAZYKA

Pravopis i-y. MODERNÍ A KONKURENCESCHOPNÁ ŠKOLA reg. č.: CZ.1.07/1.4.00/

Zápis morfologických dat návrh řešení pro lexikální databázi LEXIKON 21 1

TVAROSLOVÍ Mgr. Soňa Bečičková

Přídavná jména Střední průmyslová škola a Obchodní akademie Uherský Brod Český jazyk a literatura

VY_32_INOVACE_6/19_JAZYK A JAZYKOVÁ KOMUNIKACE. Předmět: Český jazyk Ročník: 7. Poznámka: Procvičování - slovotvorba Vypracoval: Mgr.

12. Opakování tvarosloví Vypracovala: Martina Miškeříková, červenec 2013

Název materiálu SLOVNÍ DRUHY PODSTATNÁ JMÉNA. Metodika. Pořadové číslo III-2-ČJ-III- 1-9.r.

Reálné gymnázium a základní škola města Prostějova Školní vzdělávací program pro ZV Ruku v ruce

METODY A CÍLE VÝUKY TVAROSLOVÍ NA 1. STUPNI ZÁKLADNÍ ŠKOLY

Ročník: 4. Časová dotace: 7 hodin týdně učivo, téma očekávané výstupy klíčové kompetence, mezipředmětové vazby

E K O G Y M N Á Z I U M B R N O o.p.s. přidružená škola UNESCO

ANOTACE K VÝUKOVÉ SADĚ č. VY_32_INOVACE_02_05_NEJ_Ps

SLOVNÍ DRUHY- KVÍZ. Zakroužkuj správnou odpověď.

Roční úvodní kurs českého jazyka pro nově příchozí žáky - cizince

Český jazyk v 5. ročníku

Jak lze v korpusech hledat doklady pro výzkum morfologie?

Předmět speciálně pedagogické péče

Nové orgány na postupu

TVAROSLOVÍ Mgr. Soňa Bečičková

Chytal tlouště na višni

Olympiáda v českém jazyce 45. ročník, 2018/2019

II. Nástroje a metody, kterými ověřujeme plnění cílů

ČESKÝ JAZYK A LITERATURA 4.ROČNÍK

Olympiáda v českém jazyce, 40. ročník, 2013/2014 krajské kolo

III/2 - Inovace a zkvalitnění výuky prostřednictvím ICT

1. Podstatná jména (substantiva)

Morfologická analýza Unifikační gramatiky

Modul NE2-1. Osnova: Arbeitsbuch. Ismaning: Max Hueber, s. ISBN

Přední střední zadní Přední střední zadní vysoké i u í ú vysoké střední e o é ó střední nízké a á nízké

Tvarosloví (morfologie)

http: //pravopisne.cz/2014/11/test-podstatna-jmena-konkretni-a-abstraktni-11/

Tematický plán pro školní rok 2015/16 Předmět: Český jazyk Vyučující: Mgr. Marta Klimecká Týdenní dotace hodin: 8 hodin Ročník: třetí

Národní institut pro další vzdělávání MŠMT Senovážné náměstí 25, Praha 1. Olympiáda v českém jazyce, 42. ročník, 2015/2016 okresní kolo

Školní výstupy Učivo (pojmy) Poznámka

Božetěchova 1/2, , Brno 2 MFF, Univerzita Karlova v Praze. Abstrakt. Cílem bylo vytvořit stematizační algoritmus pro český jazyk

Gymnázium, Praha 6, Arabská 14. Předmět: Latina

Slovesa. Český jazyk 9. ročník ZŠ Mgr. Iveta Burianová

ČESKÝ JAZYK 3. ROČNÍK

Okresní kolo Olympiády v českém jazyce 2007/ ročník

Přísudek a podmět. Český jazyk 9. ročník Mgr. Iveta Burianová

ANOTACE K VÝUKOVÉ SADĚ č. VY_32_INOVACE_02_04_NEJ_Fo

Olympiáda v českém jazyce 44. ročník, 2017/2018

Pořadové číslo projektu:

Olympiáda v českém jazyce 44. ročník, 2017/2018

Výukové programy - Mgr. Karla Pitáková, tel

Šablona: I/2 Inovace a zkvalitnění výuky směřující k rozvoji čtenářské a informační gramotnosti

Transkript:

Morfologie, morfologická analýza Aleš Horák E-mail: hales@fi.muni.cz http://nlp.fi.muni.cz/poc_lingv/ Obsah: Morfologie Úvod do počítačové lingvistiky 4/11 1 / 30

Morfologie Morfologie Morfologie nauka o stavbě a tvorbě slov (v daném jazyce) morfém nejmenší jednotka, která může nést význam pří-lež-it-ost-n-ými základní tvar = příležitostný příd. jméno, rod muž. živ., neživ., žen. nebo stř., 7. pád, mn. č. pří prefix (bĺızko) lež lexikální kořen (ležet) it adjektivní derivační sufix (ten, který) ost substantivní derivační sufix (ta skutečnost, že) n adjektivní derivační sufix (charakteristický pro) ými gramatický afix (instrumentál plurálu) Úvod do počítačové lingvistiky 4/11 2 / 30

Morfologie Morfologie Morfologie nauka o stavbě a tvorbě slov (v daném jazyce) morfém nejmenší jednotka, která může nést význam pří-lež-it-ost-n-ými základní tvar = příležitostný příd. jméno, rod muž. živ., neživ., žen. nebo stř., 7. pád, mn. č. pří prefix (bĺızko) lež lexikální kořen (ležet) it adjektivní derivační sufix (ten, který) ost substantivní derivační sufix (ta skutečnost, že) n adjektivní derivační sufix (charakteristický pro) ými gramatický afix (instrumentál plurálu) Úvod do počítačové lingvistiky 4/11 2 / 30

Morfologie Základní termíny Základní lingvistické termíny v morfologii slovní druh podstatné jméno (substantivum), přídavné jméno (adjektivum), sloveso (verbum), příslovce (adverbium),... pád nominativ, genitiv, dativ, akuzativ, vokativ, lokál, instrumentál číslo singulár, plurál rod 4 rody, mužský (masculinum) životný a neživotný (animativní a inanimativní), ženský (femininum) a střední (neutrum) slovotvorba předpona (prefix), přípona (sufix), předpona nebo přípona (afix) základní tvar slova lemma (mn. č. lemmata) ohýbání slov (flexe) skloňování (deklinace) a časování (konjugace) odvozování derivování Úvod do počítačové lingvistiky 4/11 3 / 30

Dělení morfémů Morfologie Dělení morfémů dělení používané zejména v analytických jazycích (angličtina): morfémy obsahové (content) funkční (function) morfémy volné (free) vázané (bound) dělení používané zejména ve flektivních jazycích (čeština): kořeny nesamostatné morfémy nesoucí elementární lexikální významy afixy, které se dále děĺı podle funkce: gramatické/flektivní vyjadřují gramatické kategorie slovotvorné/derivační odvozování slov podle postavení vzhledem ke kořeni: prefixy morfémy stojící před kořenovým morfémem (pod-, anti-, v-) sufixy morfémy připojované za kořenové morfémy (-ík, -izmus,...) postfixy slovotvorné morfémy připojované až za gramatický sufix (kdosi, kohokoli,...) circumfix morfémy připojované kolem základu, není v češtině infix, interfix morfémy vsazované dovnitř slova (mal-il-inký, velk-o-město,...) Úvod do počítačové lingvistiky 4/11 4 / 30

Dělení morfémů Morfologie Dělení morfémů dělení používané zejména v analytických jazycích (angličtina): morfémy obsahové (content) funkční (function) morfémy volné (free) vázané (bound) dělení používané zejména ve flektivních jazycích (čeština): kořeny nesamostatné morfémy nesoucí elementární lexikální významy afixy, které se dále děĺı podle funkce: gramatické/flektivní vyjadřují gramatické kategorie slovotvorné/derivační odvozování slov podle postavení vzhledem ke kořeni: prefixy morfémy stojící před kořenovým morfémem (pod-, anti-, v-) sufixy morfémy připojované za kořenové morfémy (-ík, -izmus,...) postfixy slovotvorné morfémy připojované až za gramatický sufix (kdosi, kohokoli,...) circumfix morfémy připojované kolem základu, není v češtině infix, interfix morfémy vsazované dovnitř slova (mal-il-inký, velk-o-město,...) Úvod do počítačové lingvistiky 4/11 4 / 30

Dělení morfémů Morfologie Dělení morfémů dělení používané zejména v analytických jazycích (angličtina): morfémy obsahové (content) funkční (function) morfémy volné (free) vázané (bound) dělení používané zejména ve flektivních jazycích (čeština): kořeny nesamostatné morfémy nesoucí elementární lexikální významy afixy, které se dále děĺı podle funkce: gramatické/flektivní vyjadřují gramatické kategorie slovotvorné/derivační odvozování slov podle postavení vzhledem ke kořeni: prefixy morfémy stojící před kořenovým morfémem (pod-, anti-, v-) sufixy morfémy připojované za kořenové morfémy (-ík, -izmus,...) postfixy slovotvorné morfémy připojované až za gramatický sufix (kdosi, kohokoli,...) circumfix morfémy připojované kolem základu, není v češtině infix, interfix morfémy vsazované dovnitř slova (mal-il-inký, velk-o-město,...) Úvod do počítačové lingvistiky 4/11 4 / 30

Dělení morfémů Morfologie Dělení morfémů dělení používané zejména v analytických jazycích (angličtina): morfémy obsahové (content) funkční (function) morfémy volné (free) vázané (bound) dělení používané zejména ve flektivních jazycích (čeština): kořeny nesamostatné morfémy nesoucí elementární lexikální významy afixy, které se dále děĺı podle funkce: gramatické/flektivní vyjadřují gramatické kategorie slovotvorné/derivační odvozování slov podle postavení vzhledem ke kořeni: prefixy morfémy stojící před kořenovým morfémem (pod-, anti-, v-) sufixy morfémy připojované za kořenové morfémy (-ík, -izmus,...) postfixy slovotvorné morfémy připojované až za gramatický sufix (kdosi, kohokoli,...) circumfix morfémy připojované kolem základu, není v češtině infix, interfix morfémy vsazované dovnitř slova (mal-il-inký, velk-o-město,...) Úvod do počítačové lingvistiky 4/11 4 / 30

Dělení morfémů Morfologie Dělení morfémů dělení používané zejména v analytických jazycích (angličtina): morfémy obsahové (content) funkční (function) morfémy volné (free) vázané (bound) dělení používané zejména ve flektivních jazycích (čeština): kořeny nesamostatné morfémy nesoucí elementární lexikální významy afixy, které se dále děĺı podle funkce: gramatické/flektivní vyjadřují gramatické kategorie slovotvorné/derivační odvozování slov podle postavení vzhledem ke kořeni: prefixy morfémy stojící před kořenovým morfémem (pod-, anti-, v-) sufixy morfémy připojované za kořenové morfémy (-ík, -izmus,...) postfixy slovotvorné morfémy připojované až za gramatický sufix (kdosi, kohokoli,...) circumfix morfémy připojované kolem základu, není v češtině infix, interfix morfémy vsazované dovnitř slova (mal-il-inký, velk-o-město,...) Úvod do počítačové lingvistiky 4/11 4 / 30

Dělení morfémů Morfologie Dělení morfémů dělení používané zejména v analytických jazycích (angličtina): morfémy obsahové (content) funkční (function) morfémy volné (free) vázané (bound) dělení používané zejména ve flektivních jazycích (čeština): kořeny nesamostatné morfémy nesoucí elementární lexikální významy afixy, které se dále děĺı podle funkce: gramatické/flektivní vyjadřují gramatické kategorie slovotvorné/derivační odvozování slov podle postavení vzhledem ke kořeni: prefixy morfémy stojící před kořenovým morfémem (pod-, anti-, v-) sufixy morfémy připojované za kořenové morfémy (-ík, -izmus,...) postfixy slovotvorné morfémy připojované až za gramatický sufix (kdosi, kohokoli,...) circumfix morfémy připojované kolem základu, není v češtině infix, interfix morfémy vsazované dovnitř slova (mal-il-inký, velk-o-město,...) Úvod do počítačové lingvistiky 4/11 4 / 30

Procesy tvoření slov Morfologie Procesy tvoření slov dělení morfologie podle třech základních procesů tvoření slov: flektivní morfologie popisuje strukturu slovních tvarů pomocí flexe (ohýbání skloňování a časování) 1 pes 2 psa 3 psovi, psu 4 psa 5 pse 6 psovi, psu 7 psem 1 psové, psi 2 psů 3 psum, psům 4 psy 5 psové, psi 6 psách, psech 7 psy, psama derivativní (derivační) morfologie zkoumá odvozování slov mýdlo: mydl-ář, mydl-ina, mýdel-ný, mydl-it, mýdél-ko kompozicionální (kompoziční) morfologie zachycuje tvoření slov pomocí skládání ohni-vzdorný, pravdě-podobný, oka-mžik tlako-měr, vodo-pád, děje-pis samo-obsluha, malo-město, býlo-žravý Úvod do počítačové lingvistiky 4/11 5 / 30

Procesy tvoření slov Morfologie Procesy tvoření slov dělení morfologie podle třech základních procesů tvoření slov: flektivní morfologie popisuje strukturu slovních tvarů pomocí flexe (ohýbání skloňování a časování) 1 pes 2 psa 3 psovi, psu 4 psa 5 pse 6 psovi, psu 7 psem 1 psové, psi 2 psů 3 psum, psům 4 psy 5 psové, psi 6 psách, psech 7 psy, psama derivativní (derivační) morfologie zkoumá odvozování slov mýdlo: mydl-ář, mydl-ina, mýdel-ný, mydl-it, mýdél-ko kompozicionální (kompoziční) morfologie zachycuje tvoření slov pomocí skládání ohni-vzdorný, pravdě-podobný, oka-mžik tlako-měr, vodo-pád, děje-pis samo-obsluha, malo-město, býlo-žravý Úvod do počítačové lingvistiky 4/11 5 / 30

Procesy tvoření slov Morfologie Procesy tvoření slov dělení morfologie podle třech základních procesů tvoření slov: flektivní morfologie popisuje strukturu slovních tvarů pomocí flexe (ohýbání skloňování a časování) 1 pes 2 psa 3 psovi, psu 4 psa 5 pse 6 psovi, psu 7 psem 1 psové, psi 2 psů 3 psum, psům 4 psy 5 psové, psi 6 psách, psech 7 psy, psama derivativní (derivační) morfologie zkoumá odvozování slov mýdlo: mydl-ář, mydl-ina, mýdel-ný, mydl-it, mýdél-ko kompozicionální (kompoziční) morfologie zachycuje tvoření slov pomocí skládání ohni-vzdorný, pravdě-podobný, oka-mžik tlako-měr, vodo-pád, děje-pis samo-obsluha, malo-město, býlo-žravý Úvod do počítačové lingvistiky 4/11 5 / 30

Morfologie Vztah fundace Derivační morfologie vztah fundace fundace základní slovotvorný vztah slova neutvořená, prvotní, fundující nemůžeme vysvětlit pomocí jiných slov jazyka voda, hlava, vejce slova utvořená, fundovaná opírají se o slova základová trávník, růžový, učitel fundace spojení slova základového se slovem utvořeným mladý mladík slovotvorná řada opakované odvození až k prvotnímu slovu rybníkářský rybníkář rybník ryba Úvod do počítačové lingvistiky 4/11 6 / 30

Morfologie Vztah fundace Derivační morfologie vztah fundace fundace základní slovotvorný vztah slova neutvořená, prvotní, fundující nemůžeme vysvětlit pomocí jiných slov jazyka voda, hlava, vejce slova utvořená, fundovaná opírají se o slova základová trávník, růžový, učitel fundace spojení slova základového se slovem utvořeným mladý mladík slovotvorná řada opakované odvození až k prvotnímu slovu rybníkářský rybníkář rybník ryba Úvod do počítačové lingvistiky 4/11 6 / 30

Morfologie Vztah fundace Derivační morfologie vztah fundace fundace základní slovotvorný vztah slova neutvořená, prvotní, fundující nemůžeme vysvětlit pomocí jiných slov jazyka voda, hlava, vejce slova utvořená, fundovaná opírají se o slova základová trávník, růžový, učitel fundace spojení slova základového se slovem utvořeným mladý mladík slovotvorná řada opakované odvození až k prvotnímu slovu rybníkářský rybníkář rybník ryba Úvod do počítačové lingvistiky 4/11 6 / 30

Morfologie Vztah fundace Derivační morfologie vztah fundace fundace základní slovotvorný vztah slova neutvořená, prvotní, fundující nemůžeme vysvětlit pomocí jiných slov jazyka voda, hlava, vejce slova utvořená, fundovaná opírají se o slova základová trávník, růžový, učitel fundace spojení slova základového se slovem utvořeným mladý mladík slovotvorná řada opakované odvození až k prvotnímu slovu rybníkářský rybníkář rybník ryba Úvod do počítačové lingvistiky 4/11 6 / 30

Morfologie Vztah fundace Derivační morfologie vztah fundace slovotvorný svazek/hnízdo souhrn slov fundovaných jedním slovem mýdlo mydl-ář, mydl-ina, mýdel-ný, mydl-it, mýdél-ko slovotvorná čeled souhrn všech příbuzných slov (se stejným kořenem) les pra-les pra-les-ní les-ní lesn-ík lesnic-ký lesnic-tví lesn-ice nad-lesní les-ík lesíč-ek Úvod do počítačové lingvistiky 4/11 7 / 30

Morfologie Vztah fundace Derivační morfologie vztah fundace slovotvorný svazek/hnízdo souhrn slov fundovaných jedním slovem mýdlo mydl-ář, mydl-ina, mýdel-ný, mydl-it, mýdél-ko slovotvorná čeled souhrn všech příbuzných slov (se stejným kořenem) les pra-les pra-les-ní les-ní lesn-ík lesnic-ký lesnic-tví lesn-ice nad-lesní les-ík lesíč-ek Úvod do počítačové lingvistiky 4/11 7 / 30

Obsah 1 Morfologie Morfologie Základní termíny Dělení morfémů Procesy tvoření slov Vztah fundace 2 Lexikální a gramatické kategorie angličtiny češtiny České morfologické analyzátory Úvod do počítačové lingvistiky 4/11 8 / 30

Lexikální a gramatické kategorie Lexikální a gramatické kategorie klasifikuje (značkuje, tag) slovní tvary jednotlivých kategoríı (Part of Speech/PoS tags). Kategorie pro účely analýzy můžeme dělit na dvě skupiny: lexikální kategorie pojmenovávají věci, akce, myšlenky podstatná jména, slovesa, přídavná jména, příslovce,... gramatické kategorie vyjadřují vztahy mezi ostatními větnými členy předložky, spojky, částice, anglické členy,... jednoduchou morfologíı (angličtina) několik desítek kategoríı (POS Part of Speech slovní druhy) jazyky s bohatou morfologíı hierarchický systém, kde vedle základních slovních druhů určujeme nejrůznější subklasifikace (pád, číslo, rod, osoba, druhy příslovcí,...) celkově tisíce značek Úvod do počítačové lingvistiky 4/11 9 / 30

Lexikální a gramatické kategorie Lexikální a gramatické kategorie klasifikuje (značkuje, tag) slovní tvary jednotlivých kategoríı (Part of Speech/PoS tags). Kategorie pro účely analýzy můžeme dělit na dvě skupiny: lexikální kategorie pojmenovávají věci, akce, myšlenky podstatná jména, slovesa, přídavná jména, příslovce,... gramatické kategorie vyjadřují vztahy mezi ostatními větnými členy předložky, spojky, částice, anglické členy,... jednoduchou morfologíı (angličtina) několik desítek kategoríı (POS Part of Speech slovní druhy) jazyky s bohatou morfologíı hierarchický systém, kde vedle základních slovních druhů určujeme nejrůznější subklasifikace (pád, číslo, rod, osoba, druhy příslovcí,...) celkově tisíce značek Úvod do počítačové lingvistiky 4/11 9 / 30

Lexikální a gramatické kategorie Lexikální a gramatické kategorie klasifikuje (značkuje, tag) slovní tvary jednotlivých kategoríı (Part of Speech/PoS tags). Kategorie pro účely analýzy můžeme dělit na dvě skupiny: lexikální kategorie pojmenovávají věci, akce, myšlenky podstatná jména, slovesa, přídavná jména, příslovce,... gramatické kategorie vyjadřují vztahy mezi ostatními větnými členy předložky, spojky, částice, anglické členy,... jednoduchou morfologíı (angličtina) několik desítek kategoríı (POS Part of Speech slovní druhy) jazyky s bohatou morfologíı hierarchický systém, kde vedle základních slovních druhů určujeme nejrůznější subklasifikace (pád, číslo, rod, osoba, druhy příslovcí,...) celkově tisíce značek Úvod do počítačové lingvistiky 4/11 9 / 30

rozpoznávání slovních tvarů nástroj se nazývá morfologický analyzátor (Part-of-Speech/PoS tagger) provádí lemmatizaci přiřazuje k rozpoznaným slovním tvarům základní tvar (lemma) charakterizuje morfo-syntaktické vlastnosti nalezených slovních tvarů: příležitostného 1. <s> příležitostn-ého (mladý GcAa) <l> příležitostný <c> adje Man sg #4 <c> adje Man,Min,Neu sg #2 kvalita morfologické analýzy ovlivňuje všechny následující analytické roviny Úvod do počítačové lingvistiky 4/11 10 / 30

rozpoznávání slovních tvarů nástroj se nazývá morfologický analyzátor (Part-of-Speech/PoS tagger) provádí lemmatizaci přiřazuje k rozpoznaným slovním tvarům základní tvar (lemma) charakterizuje morfo-syntaktické vlastnosti nalezených slovních tvarů: příležitostného 1. <s> příležitostn-ého (mladý GcAa) <l> příležitostný <c> adje Man sg #4 <c> adje Man,Min,Neu sg #2 kvalita morfologické analýzy ovlivňuje všechny následující analytické roviny Úvod do počítačové lingvistiky 4/11 10 / 30

rozpoznávání slovních tvarů nástroj se nazývá morfologický analyzátor (Part-of-Speech/PoS tagger) provádí lemmatizaci přiřazuje k rozpoznaným slovním tvarům základní tvar (lemma) charakterizuje morfo-syntaktické vlastnosti nalezených slovních tvarů: příležitostného 1. <s> příležitostn-ého (mladý GcAa) <l> příležitostný <c> adje Man sg #4 <c> adje Man,Min,Neu sg #2 kvalita morfologické analýzy ovlivňuje všechny následující analytické roviny Úvod do počítačové lingvistiky 4/11 10 / 30

rozpoznávání slovních tvarů nástroj se nazývá morfologický analyzátor (Part-of-Speech/PoS tagger) provádí lemmatizaci přiřazuje k rozpoznaným slovním tvarům základní tvar (lemma) charakterizuje morfo-syntaktické vlastnosti nalezených slovních tvarů: příležitostného 1. <s> příležitostn-ého (mladý GcAa) <l> příležitostný <c> adje Man sg #4 <c> adje Man,Min,Neu sg #2 kvalita morfologické analýzy ovlivňuje všechny následující analytické roviny Úvod do počítačové lingvistiky 4/11 10 / 30

rozpoznávání slovních tvarů nástroj se nazývá morfologický analyzátor (Part-of-Speech/PoS tagger) provádí lemmatizaci přiřazuje k rozpoznaným slovním tvarům základní tvar (lemma) charakterizuje morfo-syntaktické vlastnosti nalezených slovních tvarů: příležitostného 1. <s> příležitostn-ého (mladý GcAa) <l> příležitostný <c> adje Man sg #4 <c> adje Man,Min,Neu sg #2 kvalita morfologické analýzy ovlivňuje všechny následující analytické roviny Úvod do počítačové lingvistiky 4/11 10 / 30

Úkol morfologické analýzy zahrnuje 3 podúkoly: vypsat všechny možné analýzy klasický morfologický analyzátor <s> =svěž=í== (331-cizí) <l>svěží <c>k2eagmnsc1d1 <c>k2eagmnsc5d1 <c>k2eagmnpc1d1 <c>k2eagmnpc4d1 <c>k2eaginsc1d1 <c>k2eaginsc4d1 <c>k2eaginsc5d1... vybrat jednu nejpravděpodobnější analýzu značkovač (tagger) Svěží vánek zanesl do naší vesnice příchut jara. <s> Svěží svěží k2eaginsc1d1 vánek vánek k1ginsc1... analýzy pro neznámé slovo podle koncovky hádač (guesser) memorizovatelnými: ajka: notfound guesser: memorizovatelnými <l>memorizovatelný <c>k1gfnpc7 Úvod do počítačové lingvistiky 4/11 11 / 30

Úkol morfologické analýzy zahrnuje 3 podúkoly: vypsat všechny možné analýzy klasický morfologický analyzátor <s> =svěž=í== (331-cizí) <l>svěží <c>k2eagmnsc1d1 <c>k2eagmnsc5d1 <c>k2eagmnpc1d1 <c>k2eagmnpc4d1 <c>k2eaginsc1d1 <c>k2eaginsc4d1 <c>k2eaginsc5d1... vybrat jednu nejpravděpodobnější analýzu značkovač (tagger) Svěží vánek zanesl do naší vesnice příchut jara. <s> Svěží svěží k2eaginsc1d1 vánek vánek k1ginsc1... analýzy pro neznámé slovo podle koncovky hádač (guesser) memorizovatelnými: ajka: notfound guesser: memorizovatelnými <l>memorizovatelný <c>k1gfnpc7 Úvod do počítačové lingvistiky 4/11 11 / 30

Úkol morfologické analýzy zahrnuje 3 podúkoly: vypsat všechny možné analýzy klasický morfologický analyzátor <s> =svěž=í== (331-cizí) <l>svěží <c>k2eagmnsc1d1 <c>k2eagmnsc5d1 <c>k2eagmnpc1d1 <c>k2eagmnpc4d1 <c>k2eaginsc1d1 <c>k2eaginsc4d1 <c>k2eaginsc5d1... vybrat jednu nejpravděpodobnější analýzu značkovač (tagger) Svěží vánek zanesl do naší vesnice příchut jara. <s> Svěží svěží k2eaginsc1d1 vánek vánek k1ginsc1... analýzy pro neznámé slovo podle koncovky hádač (guesser) memorizovatelnými: ajka: notfound guesser: memorizovatelnými <l>memorizovatelný <c>k1gfnpc7 Úvod do počítačové lingvistiky 4/11 11 / 30

Úkol morfologické analýzy zahrnuje 3 podúkoly: vypsat všechny možné analýzy klasický morfologický analyzátor <s> =svěž=í== (331-cizí) <l>svěží <c>k2eagmnsc1d1 <c>k2eagmnsc5d1 <c>k2eagmnpc1d1 <c>k2eagmnpc4d1 <c>k2eaginsc1d1 <c>k2eaginsc4d1 <c>k2eaginsc5d1... vybrat jednu nejpravděpodobnější analýzu značkovač (tagger) Svěží vánek zanesl do naší vesnice příchut jara. <s> Svěží svěží k2eaginsc1d1 vánek vánek k1ginsc1... analýzy pro neznámé slovo podle koncovky hádač (guesser) memorizovatelnými: ajka: notfound guesser: memorizovatelnými <l>memorizovatelný <c>k1gfnpc7 Úvod do počítačové lingvistiky 4/11 11 / 30

Anglické gramatické morfémy angličtiny -s 3. osoba, jedn.č., přítomný čas -ed minulý čas -ing průběhový -en příčestí minulé trpné -s množné číslo - s přivlastnění -er 2. stupeň přídavného jména (komparativ) -est 3. stupeň přídavného jména (superlativ) Pro získání základního tvaru (pro indexování) často stačí odsekávat koncovky (stemming) Úvod do počítačové lingvistiky 4/11 12 / 30

Automatické značkování angličtiny Part-Of-Speech Tagging The/DT girls/nns learned/vvd basic/aj martial/aj arts/nns poses/nns. učení z trénovacích dat s dohledem (supervised) vzorové texty i značky bez dohledu (unsupervised) pouze texty s částečným dohledem (semi-supervised) texty a výstup morf.analyzátoru (s pravděpodobnostmi) Úvod do počítačové lingvistiky 4/11 13 / 30

Automatické značkování angličtiny Part-Of-Speech Tagging The/DT girls/nns learned/vvd basic/aj martial/aj arts/nns poses/nns. učení z trénovacích dat s dohledem (supervised) vzorové texty i značky bez dohledu (unsupervised) pouze texty s částečným dohledem (semi-supervised) texty a výstup morf.analyzátoru (s pravděpodobnostmi) Úvod do počítačové lingvistiky 4/11 13 / 30

Brillův značkovač angličtiny učí se podle trénovacích dat: 1. přiřad nejčastější značku 2. zkontroluj, kde jsou chyby (podle trénovacích dat) 3. ohodnot pravidla pro opravu chyb vyber nelepší oprav zpětně chybné značky 4. opakuj, dokud se daří odvozovat dobrá pravidla používá učení založené na transformacích (transformation-based learning) analogie malování obrazu: nejprve pozadí a pak přes něj stále drobnější detaily značkuje 36 různých POS značek úspěšnost přes 90% Úvod do počítačové lingvistiky 4/11 14 / 30

Brillův značkovač angličtiny učí se podle trénovacích dat: 1. přiřad nejčastější značku 2. zkontroluj, kde jsou chyby (podle trénovacích dat) 3. ohodnot pravidla pro opravu chyb vyber nelepší oprav zpětně chybné značky 4. opakuj, dokud se daří odvozovat dobrá pravidla používá učení založené na transformacích (transformation-based learning) analogie malování obrazu: nejprve pozadí a pak přes něj stále drobnější detaily značkuje 36 různých POS značek úspěšnost přes 90% Úvod do počítačové lingvistiky 4/11 14 / 30

Brillův značkovač angličtiny učí se podle trénovacích dat: 1. přiřad nejčastější značku 2. zkontroluj, kde jsou chyby (podle trénovacích dat) 3. ohodnot pravidla pro opravu chyb vyber nelepší oprav zpětně chybné značky 4. opakuj, dokud se daří odvozovat dobrá pravidla používá učení založené na transformacích (transformation-based learning) analogie malování obrazu: nejprve pozadí a pak přes něj stále drobnější detaily značkuje 36 různých POS značek úspěšnost přes 90% Úvod do počítačové lingvistiky 4/11 14 / 30

Brillův značkovač angličtiny učí se podle trénovacích dat: 1. přiřad nejčastější značku 2. zkontroluj, kde jsou chyby (podle trénovacích dat) 3. ohodnot pravidla pro opravu chyb vyber nelepší oprav zpětně chybné značky 4. opakuj, dokud se daří odvozovat dobrá pravidla používá učení založené na transformacích (transformation-based learning) analogie malování obrazu: nejprve pozadí a pak přes něj stále drobnější detaily značkuje 36 různých POS značek úspěšnost přes 90% Úvod do počítačové lingvistiky 4/11 14 / 30

Brillův značkovač angličtiny učí se podle trénovacích dat: 1. přiřad nejčastější značku 2. zkontroluj, kde jsou chyby (podle trénovacích dat) 3. ohodnot pravidla pro opravu chyb vyber nelepší oprav zpětně chybné značky 4. opakuj, dokud se daří odvozovat dobrá pravidla používá učení založené na transformacích (transformation-based learning) analogie malování obrazu: nejprve pozadí a pak přes něj stále drobnější detaily značkuje 36 různých POS značek úspěšnost přes 90% Úvod do počítačové lingvistiky 4/11 14 / 30

Brillův značkovač příklad angličtiny věta: podle frekvence: P1: P2: správně (zlatý standard): The at at President nn-tl nn-tl said vbd vbd he pps pps will md md ask vb vb Congress np np to to to increase nn vb vb grants nns nns to to to in in states nns nns for in in vocational jj jj rehabilitation nn nn... P1: Replace nn with vb when the previous word is to P2: Replace to with in when the next tag is nns Úvod do počítačové lingvistiky 4/11 15 / 30

Brillův značkovač příklad angličtiny Loading tagged data... Training unigram tagger: [accuracy: 0.820940] Training Brill tagger on 37168 tokens... Iteration 1: 1482 errors; ranking 23989 rules; Found: Replace POS with VBZ if the preceding word is tagged PRP Apply: [changed 39 tags: 39 correct; 0 incorrect] Iteration 2: 1443 errors; ranking 23662 rules; Found: Replace VBP with VB if one of the 3 preceding words is tagged MD Apply: [changed 36 tags: 36 correct; 0 incorrect] Iteration 3: 1407 errors; ranking 23308 rules; Found: Replace VBP with VB if the preceding word is tagged TO Apply: [changed 24 tags: 23 correct; 1 incorrect]... Iteration 21: 1128 errors; ranking 20569 rules; Found: Replace VBD with VBN if the preceding word is tagged VBD [insufficient improvement; stopping] Brill accuracy: 0.835145 Úvod do počítačové lingvistiky 4/11 16 / 30

Obsah češtiny 1 Morfologie Morfologie Základní termíny Dělení morfémů Procesy tvoření slov Vztah fundace 2 Lexikální a gramatické kategorie angličtiny češtiny České morfologické analyzátory Úvod do počítačové lingvistiky 4/11 17 / 30

češtiny Algoritmický popis české formální morfologie v češtině nestačí pravidla podle obecných morfémů je potřebné mít lexikon, který ke každému kmenu obsahuje jeho přiřazení ke vzoru morfologické (tvaroslovné) paradigma soubor tvarů ohebného slova vyjadřující systém jeho mluvnických kategoríı vzor reprezentace tvaroslovného paradigmatu paradigmatem určitého konkrétního slova Algoritmický popis: 1. definice koncovkových množin 2. definice vzorů prostřednictvím vzorových slov rozdělených na: neměnná část vzorového slova kmenový základ proměnlivé části vzorového slova intersegmenty koncovkové množiny obsahující utříděné seznamy všech přípustných koncovek vzorového slova spolu s jejich gramatickými významy popis vzoru = formální pravidlo, které specifikuje přípustné kombinace těchto komponent (segmentů) ohebného slova Úvod do počítačové lingvistiky 4/11 18 / 30

češtiny Algoritmický popis české formální morfologie v češtině nestačí pravidla podle obecných morfémů je potřebné mít lexikon, který ke každému kmenu obsahuje jeho přiřazení ke vzoru morfologické (tvaroslovné) paradigma soubor tvarů ohebného slova vyjadřující systém jeho mluvnických kategoríı vzor reprezentace tvaroslovného paradigmatu paradigmatem určitého konkrétního slova Algoritmický popis: 1. definice koncovkových množin 2. definice vzorů prostřednictvím vzorových slov rozdělených na: neměnná část vzorového slova kmenový základ proměnlivé části vzorového slova intersegmenty koncovkové množiny obsahující utříděné seznamy všech přípustných koncovek vzorového slova spolu s jejich gramatickými významy popis vzoru = formální pravidlo, které specifikuje přípustné kombinace těchto komponent (segmentů) ohebného slova Úvod do počítačové lingvistiky 4/11 18 / 30

češtiny Algoritmický popis české formální morfologie v češtině nestačí pravidla podle obecných morfémů je potřebné mít lexikon, který ke každému kmenu obsahuje jeho přiřazení ke vzoru morfologické (tvaroslovné) paradigma soubor tvarů ohebného slova vyjadřující systém jeho mluvnických kategoríı vzor reprezentace tvaroslovného paradigmatu paradigmatem určitého konkrétního slova Algoritmický popis: 1. definice koncovkových množin 2. definice vzorů prostřednictvím vzorových slov rozdělených na: neměnná část vzorového slova kmenový základ proměnlivé části vzorového slova intersegmenty koncovkové množiny obsahující utříděné seznamy všech přípustných koncovek vzorového slova spolu s jejich gramatickými významy popis vzoru = formální pravidlo, které specifikuje přípustné kombinace těchto komponent (segmentů) ohebného slova Úvod do počítačové lingvistiky 4/11 18 / 30

češtiny Algoritmický popis české formální morfologie v češtině nestačí pravidla podle obecných morfémů je potřebné mít lexikon, který ke každému kmenu obsahuje jeho přiřazení ke vzoru morfologické (tvaroslovné) paradigma soubor tvarů ohebného slova vyjadřující systém jeho mluvnických kategoríı vzor reprezentace tvaroslovného paradigmatu paradigmatem určitého konkrétního slova Algoritmický popis: 1. definice koncovkových množin 2. definice vzorů prostřednictvím vzorových slov rozdělených na: neměnná část vzorového slova kmenový základ proměnlivé části vzorového slova intersegmenty koncovkové množiny obsahující utříděné seznamy všech přípustných koncovek vzorového slova spolu s jejich gramatickými významy popis vzoru = formální pravidlo, které specifikuje přípustné kombinace těchto komponent (segmentů) ohebného slova Úvod do počítačové lingvistiky 4/11 18 / 30

češtiny Algoritmický popis české formální morfologie v češtině nestačí pravidla podle obecných morfémů je potřebné mít lexikon, který ke každému kmenu obsahuje jeho přiřazení ke vzoru morfologické (tvaroslovné) paradigma soubor tvarů ohebného slova vyjadřující systém jeho mluvnických kategoríı vzor reprezentace tvaroslovného paradigmatu paradigmatem určitého konkrétního slova Algoritmický popis: 1. definice koncovkových množin 2. definice vzorů prostřednictvím vzorových slov rozdělených na: neměnná část vzorového slova kmenový základ proměnlivé části vzorového slova intersegmenty koncovkové množiny obsahující utříděné seznamy všech přípustných koncovek vzorového slova spolu s jejich gramatickými významy popis vzoru = formální pravidlo, které specifikuje přípustné kombinace těchto komponent (segmentů) ohebného slova Úvod do počítačové lingvistiky 4/11 18 / 30

češtiny Algoritmický popis české formální morfologie v češtině nestačí pravidla podle obecných morfémů je potřebné mít lexikon, který ke každému kmenu obsahuje jeho přiřazení ke vzoru morfologické (tvaroslovné) paradigma soubor tvarů ohebného slova vyjadřující systém jeho mluvnických kategoríı vzor reprezentace tvaroslovného paradigmatu paradigmatem určitého konkrétního slova Algoritmický popis: 1. definice koncovkových množin 2. definice vzorů prostřednictvím vzorových slov rozdělených na: neměnná část vzorového slova kmenový základ proměnlivé části vzorového slova intersegmenty koncovkové množiny obsahující utříděné seznamy všech přípustných koncovek vzorového slova spolu s jejich gramatickými významy popis vzoru = formální pravidlo, které specifikuje přípustné kombinace těchto komponent (segmentů) ohebného slova Úvod do počítačové lingvistiky 4/11 18 / 30

češtiny Algoritmický popis české formální morfologie v češtině nestačí pravidla podle obecných morfémů je potřebné mít lexikon, který ke každému kmenu obsahuje jeho přiřazení ke vzoru morfologické (tvaroslovné) paradigma soubor tvarů ohebného slova vyjadřující systém jeho mluvnických kategoríı vzor reprezentace tvaroslovného paradigmatu paradigmatem určitého konkrétního slova Algoritmický popis: 1. definice koncovkových množin 2. definice vzorů prostřednictvím vzorových slov rozdělených na: neměnná část vzorového slova kmenový základ proměnlivé části vzorového slova intersegmenty koncovkové množiny obsahující utříděné seznamy všech přípustných koncovek vzorového slova spolu s jejich gramatickými významy popis vzoru = formální pravidlo, které specifikuje přípustné kombinace těchto komponent (segmentů) ohebného slova Úvod do počítačové lingvistiky 4/11 18 / 30

češtiny Formát české morfologické databáze slovník = lemma:vzor poznámka Luděk:Luděk 180.1 Vladěk:Luděk 180.1 hlemýžděk:luděk 180.1 vzor koncovkové množiny =rs-mluv-s204 =rs-mluv-s386 {_, k1gmnsc1} {ů, k1gmnpc2} =rs-mluv-s99 =rs-mluv-s499 {i, k1gmnpc1} {ovi, k1gmnsc3} =rs-mluv-s102 {ovi, k1gmnsc6} {i, k1gmnpc5}... +Luděk <děk> rs-mluv-s204 <d c> rs-mluv-s99, rs-mluv-s102, rs-mluv-s385 <d k> rs-mluv-s386, rs-mluv-s499, rs-mluv-s460, rs-mluv-konc12, rs-mluv-s510, rs-mluv-s74, rs-mluv-s71, rs-mluv-s294, rs-mluv-s521, rs-mluv-s522, rs-mluv-s163, rs-mluv-s171, rs-mluv-s299, rs-mluv-konc08 Úvod do počítačové lingvistiky 4/11 19 / 30

češtiny Segmentace slova pro potřeby algoritmického popisu segmentace od začátku slova a) segmenty se snadno formalizovatelným výskytem vázaným gramaticky: negativní prefix ne- superlativní prefix nej- futurální slovesný prefix pob) segmenty s nesnadno formalizovatelným výskytem vázáným sémanticky: prefixy první členy kompozit prefixy ni-, ně- zájmen neurčitých a záporných segmentace od konce slova a) rozdělení slovního tvaru na kmen a koncovku b) další segmentace kmene na kmenový základ a intersegment Úvod do počítačové lingvistiky 4/11 20 / 30

češtiny Segmentace slova pro potřeby algoritmického popisu segmentace od začátku slova a) segmenty se snadno formalizovatelným výskytem vázaným gramaticky: negativní prefix ne- superlativní prefix nej- futurální slovesný prefix pob) segmenty s nesnadno formalizovatelným výskytem vázáným sémanticky: prefixy první členy kompozit prefixy ni-, ně- zájmen neurčitých a záporných segmentace od konce slova a) rozdělení slovního tvaru na kmen a koncovku b) další segmentace kmene na kmenový základ a intersegment Úvod do počítačové lingvistiky 4/11 20 / 30

češtiny Segmentace slova pro potřeby algoritmického popisu segmentace od začátku slova a) segmenty se snadno formalizovatelným výskytem vázaným gramaticky: negativní prefix ne- superlativní prefix nej- futurální slovesný prefix pob) segmenty s nesnadno formalizovatelným výskytem vázáným sémanticky: prefixy první členy kompozit prefixy ni-, ně- zájmen neurčitých a záporných segmentace od konce slova a) rozdělení slovního tvaru na kmen a koncovku b) další segmentace kmene na kmenový základ a intersegment Úvod do počítačové lingvistiky 4/11 20 / 30

češtiny Segmentace slova pro potřeby algoritmického popisu segmentace od začátku slova a) segmenty se snadno formalizovatelným výskytem vázaným gramaticky: negativní prefix ne- superlativní prefix nej- futurální slovesný prefix pob) segmenty s nesnadno formalizovatelným výskytem vázáným sémanticky: prefixy první členy kompozit prefixy ni-, ně- zájmen neurčitých a záporných segmentace od konce slova a) rozdělení slovního tvaru na kmen a koncovku b) další segmentace kmene na kmenový základ a intersegment Úvod do počítačové lingvistiky 4/11 20 / 30

češtiny Segmentace slova pro potřeby algoritmického popisu segmentace od začátku slova a) segmenty se snadno formalizovatelným výskytem vázaným gramaticky: negativní prefix ne- superlativní prefix nej- futurální slovesný prefix pob) segmenty s nesnadno formalizovatelným výskytem vázáným sémanticky: prefixy první členy kompozit prefixy ni-, ně- zájmen neurčitých a záporných segmentace od konce slova a) rozdělení slovního tvaru na kmen a koncovku b) další segmentace kmene na kmenový základ a intersegment Úvod do počítačové lingvistiky 4/11 20 / 30

češtiny Segmentace slova pro potřeby algoritmického popisu segmentace od začátku slova a) segmenty se snadno formalizovatelným výskytem vázaným gramaticky: negativní prefix ne- superlativní prefix nej- futurální slovesný prefix pob) segmenty s nesnadno formalizovatelným výskytem vázáným sémanticky: prefixy první členy kompozit prefixy ni-, ně- zájmen neurčitých a záporných segmentace od konce slova a) rozdělení slovního tvaru na kmen a koncovku b) další segmentace kmene na kmenový základ a intersegment Úvod do počítačové lingvistiky 4/11 20 / 30

češtiny Efektivní implementace morfologického lexikonu trie struktura trie: uspořádaný strom nad danou abecedou A v každém uzlu je různé písmeno z abecedy A kĺıč je v trie uložen jako cesta od kořene výhody: sdílení společných prefixů v každém případě nalezení nejdelšího shodného prefixu ǫ p s v z r e i a o Úvod do počítačové lingvistiky 4/11 21 / 30

češtiny Efektivní implementace morfologického lexikonu trie struktura trie: uspořádaný strom nad danou abecedou A v každém uzlu je různé písmeno z abecedy A kĺıč je v trie uložen jako cesta od kořene výhody: sdílení společných prefixů v každém případě nalezení nejdelšího shodného prefixu ǫ p s v z r e i a o Úvod do počítačové lingvistiky 4/11 21 / 30

češtiny Efektivní implementace morfologického lexikonu trie struktura trie: uspořádaný strom nad danou abecedou A v každém uzlu je různé písmeno z abecedy A kĺıč je v trie uložen jako cesta od kořene výhody: sdílení společných prefixů v každém případě nalezení nejdelšího shodného prefixu ǫ p s v z r e i a o Úvod do počítačové lingvistiky 4/11 21 / 30

češtiny Efektivní implementace morfologického lexikonu trie struktura trie: uspořádaný strom nad danou abecedou A v každém uzlu je různé písmeno z abecedy A kĺıč je v trie uložen jako cesta od kořene výhody: sdílení společných prefixů v každém případě nalezení nejdelšího shodného prefixu ǫ p s v z r e i a o Úvod do počítačové lingvistiky 4/11 21 / 30

češtiny Efektivní implementace morfologického lexikonu trie struktura trie: uspořádaný strom nad danou abecedou A v každém uzlu je různé písmeno z abecedy A kĺıč je v trie uložen jako cesta od kořene výhody: sdílení společných prefixů v každém případě nalezení nejdelšího shodného prefixu ǫ p s v z r e i a o Úvod do počítačové lingvistiky 4/11 21 / 30

češtiny Efektivní implementace morfologického lexikonu trie struktura trie: uspořádaný strom nad danou abecedou A v každém uzlu je různé písmeno z abecedy A kĺıč je v trie uložen jako cesta od kořene výhody: sdílení společných prefixů v každém případě nalezení nejdelšího shodného prefixu ǫ p s v z r e i a o Úvod do počítačové lingvistiky 4/11 21 / 30

Eliminace cest v trie češtiny ǫ m p r v a r í r a a r í z a r o k z a r k t č k o Úvod do počítačové lingvistiky 4/11 22 / 30

Eliminace cest v trie češtiny ǫ m pro rak v az rak ír o to az rak ír č Úvod do počítačové lingvistiky 4/11 22 / 30

češtiny Jiná efektivní implementace ML konečný automat původně BP, Radovan Štancel, 2005 doplňování diakritiky použití mírně pozměněných volně dostupných knihoven pro práci s KA od Jana Daciuka FSA library vstupní data se generují ze slovníku ajky převedeného do tvaru slovo<tab>lemma<tab>značka (cca 33 mil. řádků) Abcházce Abcházec k1gmnpc4 Abcházce Abcházec k1gmnsc2 Abcházce Abcházec k1gmnsc4 Abcházcem Abcházec k1gmnsc7 Abcházci Abcházec k1gmnpc1 Abcházci Abcházec k1gmnpc5 Abcházci Abcházec k1gmnpc7 Abcházci Abcházec k1gmnsc3 Abcházci Abcházec k1gmnsc6... Úvod do počítačové lingvistiky 4/11 23 / 30

češtiny Jiná efektivní implementace ML konečný automat původně BP, Radovan Štancel, 2005 doplňování diakritiky použití mírně pozměněných volně dostupných knihoven pro práci s KA od Jana Daciuka FSA library vstupní data se generují ze slovníku ajky převedeného do tvaru slovo<tab>lemma<tab>značka (cca 33 mil. řádků) Abcházce Abcházec k1gmnpc4 Abcházce Abcházec k1gmnsc2 Abcházce Abcházec k1gmnsc4 Abcházcem Abcházec k1gmnsc7 Abcházci Abcházec k1gmnpc1 Abcházci Abcházec k1gmnpc5 Abcházci Abcházec k1gmnpc7 Abcházci Abcházec k1gmnsc3 Abcházci Abcházec k1gmnsc6... Úvod do počítačové lingvistiky 4/11 23 / 30

češtiny Jiná efektivní implementace ML konečný automat původně BP, Radovan Štancel, 2005 doplňování diakritiky použití mírně pozměněných volně dostupných knihoven pro práci s KA od Jana Daciuka FSA library vstupní data se generují ze slovníku ajky převedeného do tvaru slovo<tab>lemma<tab>značka (cca 33 mil. řádků) Abcházce Abcházec k1gmnpc4 Abcházce Abcházec k1gmnsc2 Abcházce Abcházec k1gmnsc4 Abcházcem Abcházec k1gmnsc7 Abcházci Abcházec k1gmnpc1 Abcházci Abcházec k1gmnpc5 Abcházci Abcházec k1gmnpc7 Abcházci Abcházec k1gmnsc3 Abcházci Abcházec k1gmnsc6... Úvod do počítačové lingvistiky 4/11 23 / 30

češtiny Jiná efektivní implementace ML konečný automat data se dále upravují pro KA slovo+zkr.lemma+značky: Abcházce+ACec+k1gMnPc4, k1gmnsc2, k1gmnsc4 Abcházcem+ADec+k1gMnSc7 Abcházci+ACec+k1gMnPc1, k1gmnpc5, k1gmnpc7, k1gmnsc3,...... v lemmatu 1. písmeno je počet znaků, které se odtrhnou jako předpona, 2. písmeno je počet znaků, které se trhají od konce, a ostatní znaky se přidají tím se sníží počet řádků na 6.7 mil. řádků, ze kterých se přímo generuje (a minimalizuje) konečný automat výsledný slovník má 4.3 MB rychlost je cca o 1/4 lepší než u trie, velikost řádově srovnatelná Úvod do počítačové lingvistiky 4/11 24 / 30

češtiny Jiná efektivní implementace ML konečný automat data se dále upravují pro KA slovo+zkr.lemma+značky: Abcházce+ACec+k1gMnPc4, k1gmnsc2, k1gmnsc4 Abcházcem+ADec+k1gMnSc7 Abcházci+ACec+k1gMnPc1, k1gmnpc5, k1gmnpc7, k1gmnsc3,...... v lemmatu 1. písmeno je počet znaků, které se odtrhnou jako předpona, 2. písmeno je počet znaků, které se trhají od konce, a ostatní znaky se přidají tím se sníží počet řádků na 6.7 mil. řádků, ze kterých se přímo generuje (a minimalizuje) konečný automat výsledný slovník má 4.3 MB rychlost je cca o 1/4 lepší než u trie, velikost řádově srovnatelná Úvod do počítačové lingvistiky 4/11 24 / 30

češtiny Jiná efektivní implementace ML konečný automat data se dále upravují pro KA slovo+zkr.lemma+značky: Abcházce+ACec+k1gMnPc4, k1gmnsc2, k1gmnsc4 Abcházcem+ADec+k1gMnSc7 Abcházci+ACec+k1gMnPc1, k1gmnpc5, k1gmnpc7, k1gmnsc3,...... v lemmatu 1. písmeno je počet znaků, které se odtrhnou jako předpona, 2. písmeno je počet znaků, které se trhají od konce, a ostatní znaky se přidají tím se sníží počet řádků na 6.7 mil. řádků, ze kterých se přímo generuje (a minimalizuje) konečný automat výsledný slovník má 4.3 MB rychlost je cca o 1/4 lepší než u trie, velikost řádově srovnatelná Úvod do počítačové lingvistiky 4/11 24 / 30

češtiny Jiná efektivní implementace ML konečný automat data se dále upravují pro KA slovo+zkr.lemma+značky: Abcházce+ACec+k1gMnPc4, k1gmnsc2, k1gmnsc4 Abcházcem+ADec+k1gMnSc7 Abcházci+ACec+k1gMnPc1, k1gmnpc5, k1gmnpc7, k1gmnsc3,...... v lemmatu 1. písmeno je počet znaků, které se odtrhnou jako předpona, 2. písmeno je počet znaků, které se trhají od konce, a ostatní znaky se přidají tím se sníží počet řádků na 6.7 mil. řádků, ze kterých se přímo generuje (a minimalizuje) konečný automat výsledný slovník má 4.3 MB rychlost je cca o 1/4 lepší než u trie, velikost řádově srovnatelná Úvod do počítačové lingvistiky 4/11 24 / 30

češtiny Jiná efektivní implementace ML konečný automat data se dále upravují pro KA slovo+zkr.lemma+značky: Abcházce+ACec+k1gMnPc4, k1gmnsc2, k1gmnsc4 Abcházcem+ADec+k1gMnSc7 Abcházci+ACec+k1gMnPc1, k1gmnpc5, k1gmnpc7, k1gmnsc3,...... v lemmatu 1. písmeno je počet znaků, které se odtrhnou jako předpona, 2. písmeno je počet znaků, které se trhají od konce, a ostatní znaky se přidají tím se sníží počet řádků na 6.7 mil. řádků, ze kterých se přímo generuje (a minimalizuje) konečný automat výsledný slovník má 4.3 MB rychlost je cca o 1/4 lepší než u trie, velikost řádově srovnatelná Úvod do počítačové lingvistiky 4/11 24 / 30

České morfologické analyzátory České morfologické analyzátory ajka Radek Sedláček, FI MU Brno http://nlp.fi.muni.cz/projekty/ajka/ značky jsou řetězce dvojic atribut hodnota napsaný v C využívá struktury trie 390000 základních tvarů, 6300000 různých slovních tvarů, 15000 různých značek, slovník 3.13 MB rychlost analýzy cca 18000 slov/s v současnosti nový nástroj majka od Pavla Šmerka, na principu konečných automatů, s novým mechanizmem vzorů pražský morfologický analyzátor Barbora Hladká, Jan Hajič a jeho tým, ÚFAL MFF UK Praha http://ufal.mff.cuni.cz/czech-tagging/ používá poziční značky free část napsaná v Perlu, menší slovník (cca 76 000 základních tvarů, 6 000 koncovek) Úvod do počítačové lingvistiky 4/11 25 / 30

České morfologické analyzátory České morfologické analyzátory ajka Radek Sedláček, FI MU Brno http://nlp.fi.muni.cz/projekty/ajka/ značky jsou řetězce dvojic atribut hodnota napsaný v C využívá struktury trie 390000 základních tvarů, 6300000 různých slovních tvarů, 15000 různých značek, slovník 3.13 MB rychlost analýzy cca 18000 slov/s v současnosti nový nástroj majka od Pavla Šmerka, na principu konečných automatů, s novým mechanizmem vzorů pražský morfologický analyzátor Barbora Hladká, Jan Hajič a jeho tým, ÚFAL MFF UK Praha http://ufal.mff.cuni.cz/czech-tagging/ používá poziční značky free část napsaná v Perlu, menší slovník (cca 76 000 základních tvarů, 6 000 koncovek) Úvod do počítačové lingvistiky 4/11 25 / 30

České morfologické analyzátory Pražský morfologický analyzátor poziční značky pozice kategorie anglicky česky 1 POS Part of Speech Slovní druh 2 SUBPOS Detailed Part of Speech Slovní poddruh 3 GENDER Agreement Gender Rod 4 NUMBER Agreement Number Číslo 5 CASE Case Pád 6 POSSGENDER Possessor s Gender Rod vlastníka 7 POSSNUMBER Possessor s Number Číslo vlastníka 8 PERSON Person Osoba 9 TENSE Tense Čas 10 GRADE Degree of Comparison Stupeň 11 NEGATION Negation (by prefix) Negace 12 VOICE Voice Slovesný rod 13 RESERVE1 Reserved for future use Rezerva 14 RESERVE2 Reserved for future use Rezerva 15 VAR Variant, Style, Register Varianta, styl Úvod do počítačové lingvistiky 4/11 26 / 30

České morfologické analyzátory Pražský morfologický analyzátor příklad vstup: Prezident rezignoval na svou funkci. výstup: <csts> <f cap>prezident<mml>prezident<mmt>nnms1-----a---- <f>rezignoval<mml>rezignovat :T<MMt>VpYS---XR-AA--- <f>na<mml>na<mmt>rr--4----------<mmt>rr--6---------- <f>svou<mml>svůj-1 ^(přivlast.)<mmt>p8fs4---------1 <MMt>P8FS7---------1 <f>funkci<mml>funkce<mmt>nnfs3-----a---- <MMt>NNFS4-----A----<MMt>NNFS6-----A---- <D> <d>.<mml>.<mmt>z:------------- </csts> Úvod do počítačové lingvistiky 4/11 27 / 30

České morfologické analyzátory Značky morfologického analyzátoru ajka značka = řetězec dvojic atributhodnota: k1gnnsc3 k slovní druh 1 podst. jméno, 2 př. jméno,... g rod M muž. životný, I muž. neživotný,... n číslo S jednotné, P množné, D duál c pád 1, 2,..., 7 p osoba 1, 2, 3 m slovesný způsob F infinitiv, R imperativ,... a slovesný vid P dokonavý, I nedokonavý t typ příslovcí T času, L místa, M způsobu,... x typ spojky C souřadící, S podřadící Úvod do počítačové lingvistiky 4/11 28 / 30

České morfologické analyzátory Morfologický analyzátor ajka příklad dávkově Prezident <l>prezident <c>k1gmnsc1 rezignoval <l>rezignovat <c>k5eapmnstmmpai <c>k5eapinstmmpai na <l>na <c>k7c4 <c>k7c6 svou <l>svůj <c>k3xogfnsc4p3 <c>k3xogfnsc7p3 funkci <l>funkce <c>k1gfnsc3 <c>k1gfnsc6 <c>k1gfnsc4 interaktivně <s> ne=snesiteln=ého== (1023) <l>snesitelný <c>k2engmnsc2d1 <c>k2engmnsc4d1... všechny tvary (ajka -a) <s> =p=es== (1148) <l>pes <c>k1gmnsc1 pes psům psů psovi psem psa psu psy psech pse psi psové Úvod do počítačové lingvistiky 4/11 29 / 30

České morfologické analyzátory Morfologický analyzátor ajka příklad dávkově Prezident <l>prezident <c>k1gmnsc1 rezignoval <l>rezignovat <c>k5eapmnstmmpai <c>k5eapinstmmpai na <l>na <c>k7c4 <c>k7c6 svou <l>svůj <c>k3xogfnsc4p3 <c>k3xogfnsc7p3 funkci <l>funkce <c>k1gfnsc3 <c>k1gfnsc6 <c>k1gfnsc4 interaktivně <s> ne=snesiteln=ého== (1023) <l>snesitelný <c>k2engmnsc2d1 <c>k2engmnsc4d1... všechny tvary (ajka -a) <s> =p=es== (1148) <l>pes <c>k1gmnsc1 pes psům psů psovi psem psa psu psy psech pse psi psové Úvod do počítačové lingvistiky 4/11 29 / 30

České morfologické analyzátory Morfologický analyzátor ajka příklad dávkově Prezident <l>prezident <c>k1gmnsc1 rezignoval <l>rezignovat <c>k5eapmnstmmpai <c>k5eapinstmmpai na <l>na <c>k7c4 <c>k7c6 svou <l>svůj <c>k3xogfnsc4p3 <c>k3xogfnsc7p3 funkci <l>funkce <c>k1gfnsc3 <c>k1gfnsc6 <c>k1gfnsc4 interaktivně <s> ne=snesiteln=ého== (1023) <l>snesitelný <c>k2engmnsc2d1 <c>k2engmnsc4d1... všechny tvary (ajka -a) <s> =p=es== (1148) <l>pes <c>k1gmnsc1 pes psům psů psovi psem psa psu psy psech pse psi psové Úvod do počítačové lingvistiky 4/11 29 / 30

České morfologické analyzátory Morfologický analyzátor ajka webové rozhraní http://nlp.fi.muni.cz/projekty/wwwajka/ Úvod do počítačové lingvistiky 4/11 30 / 30

České morfologické analyzátory Morfologický analyzátor ajka webové rozhraní http://nlp.fi.muni.cz/projekty/wwwajka/ Úvod do počítačové lingvistiky 4/11 30 / 30

České morfologické analyzátory Morfologický analyzátor ajka webové rozhraní http://nlp.fi.muni.cz/projekty/wwwajka/ Úvod do počítačové lingvistiky 4/11 30 / 30