Slovníky a morfologická analýza

Podobné dokumenty
Popis morfologických značek poziční systém

Lingvistická terminologie

1 Substantiva. 2 Adjektiva. Obsah. Lekce Obsah Cvičení

Dataprojektor, kodifikační příručky

2AA TIME TO TALK (začátek od Unit 4) prof. Volfová Po 17:30 uč. 27

Slovní druhy. Ohebné i neohebné

SADA VY_32_INOVACE_CJ1

Roční úvodní kurs českého jazyka pro nově příchozí žáky - cizince

Obsah. Úvodní poznámka 11 Německý jazyk, spisovná řeč a nářečí 13 Pomůcky ke studiu němčiny 15

Výukový materiál zpracován v rámci projektu EU peníze školám

Dataprojektor, jazykové příručky, pracovní listy

Úvod do gramatiky. Galénos a Hippokratés na fresce v kryptě katedrály v Anagni, vybudované v roce 1255

II. Nástroje a metody, kterými ověřujeme plnění cílů

DIGITÁLNÍ ARCHIV VZDĚLÁVACÍCH MATERIÁLŮ

NÁZEV TŘÍDA ANOTACE PLNĚNÉ VÝSTUPY KLÍČOVÁ SLOVA

Morfologie. Gramatika gramatické tvary a konstrukce a jejich sémantické funkce - obecný úvod

Anglický jazyk. Anglický jazyk. žák: TÉMATA. Fonetika: abeceda, výslovnost odlišných hlásek, zvuková podoba slova a její zvláštnosti

ZŠ ÚnO, Bratří Čapků 1332

ŠVP Gymnázium Ostrava-Zábřeh Latina

Název materiálu. Význam slov. Slova souřadná, nadřazená, podřazená, procvičování.

Jak lze v korpusech hledat doklady pro výzkum morfologie?

Tvarosloví (morfologie)

Automatická post-editace výstupů frázového strojového překladu (Depfix)

Modul NE2-1. Osnova: Arbeitsbuch. Ismaning: Max Hueber, s. ISBN

Základy latiny II

Školní výstupy Učivo (pojmy) Poznámka

Všestranný jazykový rozbor (VJR)

VY_32_INOVACE_ / IQ cesta

ANOTACE K VÝUKOVÉ SADĚ č. VY_32_INOVACE_02_05_NEJ_Ps

4. ročník (Click 2) Přehled učiva za 2. pololetí 2017/18. - Theme gramatika:

SSOS_CJL_5.13. III/2 - Inovace a zkvalitnění výuky prostřednictvím ICT. Číslo a název projektu Číslo a název šablony

VY_12_INOVACE_26_MLUVNICKE_KATEGORIE_PODSTATNYCH_ JMEN. Předmět: Český jazyk Ročník: 4. Časová dotace: 45 min Datum ověření:

Žáci zodpoví všechny otázky. Určí slovní druhy a větné členy, vyjmenují znaky písemného a ústního projevu.

Angličtina pro číšníky a kuchaře

Gramatické formalismy pro ZPJ

ČESKÝ JAZYK 3. ROČNÍK Slovní druhy ohebné ROZLIŠUJEME DESET SLOVNÍCH DRUHŮ.

Školní výstupy Učivo (pojmy) Poznámka

Počítač, dataprojektor, interaktivní tabule, audio a video technika, plány měst, mapy, slovníky

Číslo Označení materiálu hodiny

Faktorované překladové modely. Základní informace

OBSAH 5 7 II 15. O. Y...,, t

Český jazyk - Jazyková výchova

SEZNAM ANOTACÍ. CZ.1.07/1.5.00/ III/2 Inovace a zkvalitnění výuky prostřednictvím ICT. VY_32_INOVACE_AJ5-Vá Angličtina - Gramatika

Příloha č. 4 ČESKÝ JAZYK JAZYKOVÁ VÝCHOVA

DIGITÁLNÍ ARCHIV VZDĚLÁVACÍCH MATERIÁLŮ

Specifikace požadavků pro školní část přijímací zkoušky (anglický jazyk) Šestiletý obor vzdělávání

Automatická post-editace výstupů frázového strojového překladu (Depfix)

Dotazy v CQL (pro Sketch Engine)

Zápis morfologických dat návrh řešení pro lexikální databázi LEXIKON 21 1

RVP ZV CIZÍ JAZYK. 1. stupeň 2. období (5. ročník) UČIVO (slouží ke specifikaci obsahu a rozsahu očekávaných výstupů nebo indikátorů)

Dokáže správně přečíst krátký text. Čtení vět dle probírané slovní zásoby. Rýmy autentické texty. Vánoční koledy

Vzdělávací oblast: Jazyk a jazyková komunikace Vyučovací předmět: Anglický jazyk Ročník: 3.. Průřezová témata Mezipředmětové vztahy.

http: //pravopisne.cz/2014/11/test-podstatna-jmena-konkretni-a-abstraktni-11/

III/2 - Inovace a zkvalitnění výuky prostřednictvím ICT. Žák se seznámí se základními pojmy morfologie tvarosloví, ohebnost, význam slov.

E K O G Y M N Á Z I U M B R N O o.p.s. přidružená škola UNESCO

ČESKÝ JAZYK 5. TŘÍDA

Vzdělávací obor Německý jazyk

4. ročník (Click 2) 5. ročník (Project 1 4th edition)

ANGLICKÝ JAZYK - II. období (3. 5. ročník)

Olympiáda v českém jazyce 45. ročník, 2018/2019

Učebnice, počítač, dataprojektor, interaktivní tabule, plány měst, mapy, smartphone, slovníky

Vzdělávací oblast: Jazyk a jazyková komunikace Vzdělávací obor (předmět): Český jazyk: jazyková výchova - ročník: PRIMA

Základní škola Ruda nad Moravou

Sestava gramatiky. 1 Abstraktum, das Abstraktum, abstrakce. 2 Adjektiv, das Přídavné jméno. 3 Adverb, das Příslovce

Ukázkový test. Otázka číslo: 1. Text k otázkám 1-15: Nevzpomínám si, kdo přišel s nápadem, abychom si opatřili do bytu nějaké přítulné zvířátko.

Daniel Zeman Charles University in Prague

1. Podstatná jména (substantiva)

Vyučovací předmět: Francouzský jazyk. Charakteristika vyučovacího předmětu. Obsahové, časové a organizační vymezení předmětu

AJ-1 Anglický jazyk. o materiál, který vykládá a doplňuje učivo o členech. Rozlišují použití určitého a neurčitého členu v různých jevech.

Očekávané výstupy RVP Školní výstupy Učivo Poznámky (průřezová témata, mezipředmětové vztahy apod.) Řečové dovednosti

ZÁZNAMOVÝ ARCH ověření nově vytvořených/inovovaných materiálů

VY_12_INOVACE_29_TEMER_VSE_O_PODSTATNYCH_JMENECH_ NA_1_ST_ZS. Téměř vše o podstatných jménech na 1. stupni ZŠ. Předmět: Český jazyk Ročník: 4.

Vzdělávací oblast: Jazyk a jazyková komunikace Vyučovací předmět: Anglický jazyk Ročník: 6. Průřezová témata Mezipředmětové vztahy.

Český jazyk a literatura - jazyková výchova

Nové orgány na postupu

LISTOPAD Úvod do nauky o tvoření slov, PROSINEC Psaní velkých písmen

Korpusová lingvistika a počítačová lexikografie. Od 60. let 20. st.

ANGLICKÝ JAZYK 3. ROČNÍK

Depfix: Jak dělat strojový překlad lépe než Google Translate

Mluvnice současné češtiny

Anglický jazyk 3.ročník 2007/2008. učivo - témata kompetence (čtení,psaní,poslech, dialog) pomůcky

Anglický jazyk. 5. ročník. Poslech s porozuměním

ANGLICKÝ JAZYK - II. období (3. 5. ročník)

Vzdělávací obor Německý jazyk

Morfologie, morfologická analýza

OBSAH. Předmluva (Libuše Dušková) DÍL I. Rozbor fonologický

TVAROSLOVÍ Mgr. Soňa Bečičková

AX Systém pro automatizovanou extrakci lexikálně-syntaktických údajů z korpusu.

7. ročník. Český jazyk a literatura. Komunikační a slohová výchova. Vypravování uspořádání dějových prvků

Ročník: 5. Časová dotace: 7 hodin týdně učivo, téma očekávané výstupy klíčové kompetence, mezipředmětové vazby

Výukové programy - Mgr. Karla Pitáková, tel

Automatické rozpoznávání substantivního dativu při morfologické disambiguaci českých textů 1

Morfologická analýza Unifikační gramatiky

Počítač, dataprojektor, interaktivní tabule, audio a video technika, plány měst, mapy, slovníky

Výstupy žáka. Tematický okruh. Welcome Module. dmětové vztahy. Průřezov é téma. Mezipře. Poslech s porozuměním (P+R) Jazykové prostředky a funkce

Anglický jazyk 2.cizí jazyk

6.4 Francouzský jazyk

OBSAH SEZNAM TERMÍNŮ, ZKRTATEK A ZNAČEK POUŽÍVANÝCH V UČEBNICI POSTAVY PŘÍBĚHU 3 LEKCE 1 STUDIUM JAZYKŮ 8 LEKCE 2 LIDSKÁ KOMUNIKACE 42.

Olympiáda v českém jazyce 45. ročník 2018/2019

Tabulka vypracovaných DUM

Transkript:

Počítačové zpracování přirozeného jazyka Slovníky a morfologická analýza Daniel Zeman http://ufal.mff.cuni.cz/course/popj1/

Slovník Zásobárna informací o slovech Morfologie vzory ohýbání, pravidelné odvozování (zdrobněliny, přídavná jména slovesná ) Syntaxe slovní druh vztah k ostatním slovům: subkategorizace (neboli povrchové valenční rámce ) Sémantika významové rysy valenční rámce se sémantickými rolemi a cokoli dalšího, například překlad 18.11.1999 http://ufal.mff.cuni.cz/course/popj1 2

Slovní druhy (parts of speech) Čeština N podstatná jména A přídavná jména P zájmena C číslovky V slovesa D příslovce R předložky J spojky T částice I citoslovce Jiné Z zvláštní (např. interpunkce) X neznámé slovo Člen (např. angličtina) Wh-slovo (tázací / vztažné zájmeno či příslovce např. angličtina: who, what, which, how, Počítací slovo (čínština) 18.11.1999 http://ufal.mff.cuni.cz/course/popj1 3

Slovní druhy Seznam slovních druhů (anglicky part of speech) je ve většině jazyků celkem podobný. Jde o sémanticko-syntaktickou, ne morfologickou kategorii, ale určuje, které morf. kat. jsou relevantní. Syntakticky vymezené druhy (podle vztahů ve větě) Slovesa, podstatná jména, přídavná jména, příslovce, předložky, spojky, členy, wh-slova. Případně i citoslovce. Druhy vymezené jinak Zájmena (syntakticky N, A, někdy se zvláštní funkcí Wh) Číslovky (syntakticky A, N, Adv) Částice (to, co se nevešlo jinam) 18.11.1999 http://ufal.mff.cuni.cz/course/popj1 4

Slovní druhy Otevřené kategorie (přijímají nová slova) slovesa, podstatná jména, přídavná jména, příslovce, (citoslovce) odvozování slov napříč kategoriemi Uzavřené kategorie (slova lze vyjmenovat) zájmena, (předložky), spojky, částice, číslovky (matematicky neomezené, ale lingvisticky ano) nejsou podkladem pro odvozování slov 18.11.1999 http://ufal.mff.cuni.cz/course/popj1 5

Sady značek Obecná definice: značka (k 1,k 2,,k n ) na sadu značek se často pohlíží jako na prostý seznam T = {t i } i=1..n přičemž se předpokládá vzájemně jednoznačné zobrazení Angličtina T (K 1,K 2,,K n ) Penn TreeBank (45) (VBZ: Verb,Pres,3,sg, JJR: Adj. Comp.) Brown Corpus (87), Claws c5 (62), London-Lund (197) 18.11.1999 http://ufal.mff.cuni.cz/course/popj1 6

Sady značek Rozdíly v různých korpusech a jazycích: velikost (10 až 10000) pokryté kategorie (slovní druh, číslo, negace, ) míra podrobnosti rozpracování podoba (krátké identifikátory dlouhé poziční značky ) Čeština poziční značky PDT kompaktní (starší) značky PDT MULTEXT-EAST (Orwell 1984, paralelní korpus) Majka (FI MU Brno) 18.11.1999 http://ufal.mff.cuni.cz/course/popj1 7

Co všechno by měla kódovat morfologická značka pro češtinu? Informace z morfologické značky by měla umožňovat vytvořit z lemmatu příslušný tvar slova. Pokud je to nutné, může kromě morfologických informací obsahovat i lexikální, sémantické (slovní druh?) Extrém 1: každý slovní tvar je lemma. Morfologie je nulová, lemma je samo svojí značkou. Extrém 2: značka obsahuje detailní sémantické zařazení slova, takže lemma už není potřeba. 18.11.1999 http://ufal.mff.cuni.cz/course/popj1 8

Poziční značky PDT (Pražského závislostního korpusu) slovní druh poddruh vnitřní rod vnitřní číslo zápor slovesný rod AGFS3----1A---- rod číslo pád osoba čas stupeň odstín 18.11.1999 http://ufal.mff.cuni.cz/course/popj1 9

Rod M mužský životný Y M nebo I I mužský neživotný T I nebo F F ženský W I nebo N N střední H, Q F nebo N X neznámý Z M, I nebo N 18.11.1999 http://ufal.mff.cuni.cz/course/popj1 10

Číslo S jednotné (singulár) D dvojné (duál) P množné (plurál) X neznámé 18.11.1999 http://ufal.mff.cuni.cz/course/popj1 11

Pád 1 nominativ 2 genitiv 3 dativ 4 akuzativ 5 vokativ 6 lokál 7 instrumentál X neznámý 18.11.1999 http://ufal.mff.cuni.cz/course/popj1 12

Stupeň, zápor, osoba Stupeň přídavných jmen a příslovcí: 1, 2 (komparativ), 3 (superlativ) Zápor (u V, A, D a taky N): A (afirmativ), N (negativ) Osoba sloves a zájmen: 1, 2, 3 18.11.1999 http://ufal.mff.cuni.cz/course/popj1 13

Slovesný čas, rod a způsob Mění relevanci ostatních kategorií (jako je osoba a číslo) zacházet s nimi jako se slovním (pod-) druhem. Čas: přítomný (P), minulý (M), budoucí (F) Rod: činný (aktivum A), trpný (pasivum P) Způsob: oznamovací (N), rozkazovací (R), podmiňovací (C např. bych) 18.11.1999 http://ufal.mff.cuni.cz/course/popj1 14

Stylová či jiná odchylka 1 jiná varianta, méně častá 2 jiná varianta, velmi řídká, zastaralá nebo knižní 3 velmi zastaralá, popř. hovorová varianta 5 hovorová, tolerovaná v mluv. i psaném projevu 6 hovorová, nevhodná v psaném projevu 7 hovorová jako 6, ale méně preferovaná mluvčími 9 zvláštní použití (např. po jistých předložkách) 18.11.1999 http://ufal.mff.cuni.cz/course/popj1 15

Sada značek Penn TreeBanku 1.CC coord. conj. 2. CD cardinal number 3. DT determiner 4. EX existential there 5.FW foreign word 6. IN preposition or subord. conjunction 7. JJ adjective 8. JJR adj, comparative 9. JJS adj, superlative 10.LS list item marker 11.MD modal 12. NN noun, singular/mass 13. NNS noun, plural 14. NNP proper noun, sing. 15. NNPS proper noun, pl. 16. PDT predeterminer 17. POS possessive ending 18. PRP personal pronoun 19. PRP$ poss. pronoun 18.11.1999 http://ufal.mff.cuni.cz/course/popj1 16

Sada značek Penn TreeBanku 20. RB adverb 21. RBR adv, comparative 22. RBS adv, superlative 23. RP particle 24. SYM symbol 25.TO to 26. UH interjection 27.VB verb, base (do) 28.VBD verb, past (did) 29.VBG verb, gerund or pres. participle (doing) 30.VBN verb, past participle (done) 31.VBP verb, non-3 rd pers. sing. present (do) 32.VBZ verb, 3 rd pers. sing. present (does) 33. WDT wh-det. (which?) 34. WP wh-pronoun (who) 35. WP$ possessive whpronoun (whose) 36. WRB wh-adv. (where) 37.. period 18.11.1999 http://ufal.mff.cuni.cz/course/popj1 17

Universal POS Tags http://universaldependencies.org/u/pos/index.html NOUN PROPN (proper noun) VERB ADJ (adjective) ADV (adverb) INTJ (interjection) PRON (pronoun) DET (determiner) AUX (auxiliary) NUM (numeral) ADP (adposition) SCONJ (subordinating conj.) CONJ (coordinating conj.) PART (particle) PUNCT (punctuation) SYM (symbol) X (unknown) 22.10.2010 http://ufal.mff.cuni.cz/course/npfl094 18

Universal Features http://universaldependencies.org/u/feat/index.html PronType (druh zájmena) NumType (druh číslovky) Poss (přivlastňovací) Reflex (zvratné) Gender (rod) Animacy (životnost) Number (číslo) Case (pád) Definite(ness) (určitost) Degree (stupeň) VerbForm (slovesný tvar) Mood (způsob) Tense (čas) Aspect (vid) Voice (slovesný rod) Person (osoba) Negative(ness) (zápor) 22.10.2010 http://ufal.mff.cuni.cz/course/npfl094 19

Morfologická analýza a syntéza Formálně: Zobrazení, které každému slovu (slovnímu tvaru) přiřadí dvojici lemma značka, nebo množinu takových dvojic. Veškerá informace o slovním tvaru je ve značce. Z dvojice lemma značka lze jednoznačně dostat slovní tvar (= morfologická syntéza). 18.11.1999 http://ufal.mff.cuni.cz/course/popj1 20

Morfologie A abeceda grafémů, A + je např. slovo L 2 A+ slovník lemmat (lemma = základní, heslový tvar) lemma l L K i i-tá morfologická kategorie kategorie je množina hodnot. např. K rod = {M, I, F, N} T K 1 K n = sada morfologických značek v angličtině part-of-speech tag set, obvykle n=1; u nás např. n=15 značka t = (k 1,, k n ) T, k i je hodnota i-té kategorie 18.11.1999 http://ufal.mff.cuni.cz/course/popj1 21

Morfologická analýza a značkování Analýza: A + 2 (L, T) Syntéza: (L, T) A + Značkování: A + (L, T) resp. 2 (L, T), Kontexty (L, T) Značkování (tagging) je zjednoznačnění morfologické analýzy. Může být ruční nebo automatické ((pos)taggerem). 18.11.1999 http://ufal.mff.cuni.cz/course/popj1 22

Příklady značkování Slovní tvar A + 2 (L,K 1,,Kn) T Vysušený kámen se pokryl bílou solí. morfologická analýza: solí {(sůl, podstatné-jméno, pád-7, číslojednotné), (solit, sloveso, číslo-jednotné, čas-přítomný, osoba-3)} značkování (zjednoznačnění): (sůl, podstatné-jméno, ) He always books the tickets early. morfologická analýza: books {(book-1, podstatné-jméno, číslomnožné), (book-2, sloveso, číslo-jednotné, čas-přítomný)} značkování: (book-2, sloveso, číslo-jednotné, čas-přítomný) [napodzim] [dozraje] [slatkí] [plot] m.a.: [plot] {(plot, pád-1), (plod, pád-1), (plot, pád-4), } značkování: (plod, pád-1) 18.11.1999 http://ufal.mff.cuni.cz/course/popj1 23

Lemmatizace Opakování: lemma l L je lexikální jednotka (slovníkové heslo). Bývá reprezentováno základním tvarem slova, ale zrovna tak by to mohl být číselný odkaz. Úplná morfologická analýza MA: A + 2 (L,K1,K2,,Kn) Lemmatizace je částečná morfologická analýza LA: A + 2 L (w {l; (l,t 1,t 2,...,t n ) MA(w)}) chceme však A + L, takže opět musíme zjednoznačňovat (speciální případ rozlišování významu slov, WSD) klasické značkování se lemmatizací nezabývá (předpokládá, že se nějak provede později) 18.11.1999 http://ufal.mff.cuni.cz/course/popj1 24