Počítačové zpracování přirozeného jazyka Lingvistická terminologie Daniel Zeman http://ufal.mff.cuni.cz/course/popj1/
Slovní druhy slovní druh part of speech podstatné jméno substantivum noun přídavné jméno adjektivum adjective zájmeno pronomium pronoun číslovka numeralium numeral sloveso verbum verb příslovce adverbium adverb předložka, záložka prepozice, postpozice preposition, postposition spojka konjunkce conjunction částice partikule particle citoslovce interjekce interjection člen determiner, article 4.11.1999 http://ufal.mff.cuni.cz/course/popj1 2
Rody a čísla rod genus gender mužský maskulinum masculine neživotný inanimatum inanimate ženský femininum feminine střední neutrum neuter číslo numerus number jednotné singulár singular dvojné duál dual množné plurál plural 4.11.1999 http://ufal.mff.cuni.cz/course/popj1 3
Pády a osoby pád casus case 1. nominativ nominative 2. genitiv genitive 3. dativ dative 4. akuzativ accusative 5. vokativ vocative 6. lokál local 7. instrumentál instrumental osoba person 1. 1 st 2. 2 nd 3. 3 rd 4.11.1999 http://ufal.mff.cuni.cz/course/popj1 4
Časy, vidy, způsoby čas tempus tense přítomný prézens present minulý préteritum past budoucí futurum future neurčitek infinitiv infinitive vid aspect dokonavý perfektum perfect nedokonavý imperfektum imperfect způsob modus mode oznamovací indikativ indicative rozkazovací imperativ imperative podmiňovací kondicionál conditional 4.11.1999 http://ufal.mff.cuni.cz/course/popj1 5
Slovesné rody, větné způsoby, stupně, zápory slovesný rod voice činný aktivní active trpný pasivní passive tázací (zájmeno, věta ) interrogativum interrogative (ne)určitý (in)definite zápor negativeness kladný afirmativ affirmative záporný negativ negative stupeň degree (of comparison) 1. pozitiv positive 2. komparativ comparative 3. superlativ superlative 4.11.1999 http://ufal.mff.cuni.cz/course/popj1 6
Větné členy přísudek predikát predicate podmět subjekt subject předmět objekt object příslovečné určení adverbiale adverbial přívlastek atribut attribute přechodné sloveso tranzitivní verbum transitive verb nepřechodné sloveso intranzitivní verbum intransitive verb 4.11.1999 http://ufal.mff.cuni.cz/course/popj1 7
Počítačové zpracování přirozeného jazyka Roviny zpracování přirozeného jazyka Daniel Zeman http://ufal.mff.cuni.cz/course/popj1/
Formální popis jazyka Gramatika soubor pravidel, popisujících, co je v jazyce přípustné Klasické gramatiky určeny lidem, kteří daný jazyk znají definice a pravidla na základě příkladů (skoro) žádné nástroje pro formalizaci; nelze naprogramovat Explicitní gramatiky (CFG, HPSG, závislostní gramatiky, spojové gramatiky, ) formální popis lze naprogramovat a testovat na datech (textech) 4.11.1999 http://ufal.mff.cuni.cz/course/popj1 9
Jazykové roviny analýza Základní roviny, víceméně společné všem teoriím pragmatika (znalost světa ), logika aj., mezivětné vztahy sémantika (hloubková syntaxe, význam) syntaxe (povrchová) morfologie fonologie, morfonologie fonetika / pravopis Každá rovina má vstupní a výstupní reprezentaci výstup z nižší roviny je vstup do následující vyšší roviny syntéza někdy je vhodné některé roviny dále rozdělit, nebo naopak sloučit či přeskočit 4.11.1999 http://ufal.mff.cuni.cz/course/popj1 10
Vztahy mezi rovinami vyšší rovina jednoduchý R C složený nižší rovina Nižší je formou vyššího. Vyšší je funkcí nižšího. Shora dolů = od významu k výrazu (povrchu). 4.11.1999 http://ufal.mff.cuni.cz/course/popj1 11
Fonetická rovina Vstup: akustický signál Výstup: posloupnost fónů (zvuků vektorů různých charakteristik, rysů, které lze vysledovat ve vstupním signálu) Obsah: základní: charakteristiky (např. délka samohlásky); silový slabičný přízvuk, tóny, délka samohlásek složené: fóny (kombinace hodnot) zapsané fonetickou abecedou suprasegmentální: intonace (větný přízvuk) klasifikace hlásek ve vztahu k tvaru a pozici jazyka apod. 4.11.1999 http://ufal.mff.cuni.cz/course/popj1 12
Fonetická rovina rys 2 C p C p rys 3 C p rys 1 fonetika fón z b a ņ k o u akustický signál 4.11.1999 http://ufal.mff.cuni.cz/course/popj1 13
Fonetická rovina Nelingvistická rovina. Nejde o funkci a formu, pouze o konverzi akustického signálu na řadu charakteristik: samohláska / souhláska dlouhá / krátká tón vysoký / nízký / klesající / znělá / neznělá nosová / nenosová Ne všechny zjištěné rozdíly jsou v daném jazyku relevantní. Tedy: ne všechny mají funkci. Ty, které ji mají, nazýváme distinktivní rysy. 4.11.1999 http://ufal.mff.cuni.cz/course/popj1 14
Příklad: distinktivní rysy Znělost je v češtině distinktivní rys: tři dři. Odlišuje různé hlásky, zde t/d. Podobně v angličtině je distinktivní rys i rozdíl mezi n a ng: thin (tenký) thing (věc). Tento rozdíl však není distinktivním rysem v češtině: rána ranka. Nejde o dvě hlásky, ale o dvě poziční varianty jedné hlásky! V němčině je distinktivní rys rozdíl mezi ü a ie: Abfahrt der Züge (odjezd vlaků) Abfahrt der Ziege (odjezd kozy). V češtině tento rozdíl neodlišuje dvě hlásky, pro nás je obojí í. 4.11.1999 http://ufal.mff.cuni.cz/course/popj1 15
Fonologická rovina Vstup: posloupnost fónů zapsaných ve fonetické abecedě Výstup: posloupnost hlásek (fonémů zvuků majících význam (funkci), zapsaných písmeny abstraktní abecedy třeba podmnožiny té fonetické) Obsah: základní: distinktivní rysy složené: hlásky (fonémy) vztah R mezi fóny a fonémy (jednotky, které mohou mít nějakou funkci na vyšší rovině) 4.11.1999 http://ufal.mff.cuni.cz/course/popj1 16
Fonologická rovina distinktivní rys 3 distinktivní C p rys 2 distinktivní rys 1 C p fonologie fonetika C p foném R z b a n k o u z b a ņ k o u 4.11.1999 http://ufal.mff.cuni.cz/course/popj1 17
Fonologická rovina Žádné složené struktury, jen jednoduché symboly. Kromě symbolů, které popisují určitý úsek výpovědi a jdou za sebou, i takové, které se vztahují k celé posloupnosti úseků: větná intonace. I u větné intonace pouze takové rysy, které v daném jazyce rozlišují význam. 4.11.1999 http://ufal.mff.cuni.cz/course/popj1 18
Pravopisná rovina Vstup: text (posloupnost písmen grafémů symbolů abecedy konkrétního jazyka) Výstup: posloupnost symbolů abstraktní abecedy, použitelná na fonologické rovině Obsah: normalizace, interpunkce, konce slov a vět 4.11.1999 http://ufal.mff.cuni.cz/course/popj1 19
Pravopisná rovina fonémy fonologie pravopis R j a b l o ň e j a b l o n ě grafémy 4.11.1999 http://ufal.mff.cuni.cz/course/popj1 20
Stejné znění, různý zápis fonologie R v i l y R v i/y l i/y pravopis v i l y v i l i fonetika 4.11.1999 http://ufal.mff.cuni.cz/course/popj1 21
Opačný případ: stejný zápis, jiná výslovnost r e d fonologie R r í d R r í d pravopis r e a d r í d fonetika 4.11.1999 http://ufal.mff.cuni.cz/course/popj1 22
Opačný případ: stejný zápis, jiná výslovnost k u t u b knihy fonologie R k a t a b psát pravopis 4.11.1999 http://ufal.mff.cuni.cz/course/popj1 23
Morfonologická rovina Vstup: posloupnost fonémů zapsaných v abstraktní abecedě Výstup: posloupnost morfonémů členěná do morfů Obsah: základní prvky: morfonémy složené prvky: morfy morfonémů víc než fonémů: vedle k c č nadále existuje i k, c a č morfy = kmeny a afixy (= koncovky, ale i předpony, přípony a infixy) 4.11.1999 http://ufal.mff.cuni.cz/course/popj1 24
Morfonologická rovina morf mat(k c č) a C s morfoném m a t k c č morfonologie R fonologie m a t k a m a t c e m a t č i n 4.11.1999 http://ufal.mff.cuni.cz/course/popj1 25
Morfematická rovina Vstup: posloupnost morfů Výstup: posloupnost slovních tvarů spolu s lexikální (významovou) a gramatickou informací Obsah: základní prvek: séma (lexikální nebo gramatické) složený prvek: morfém (lexikální / gramatický (skloňovací / časovací)) složený prvek: formém nejen ohýbání, ale i odvozování a skládání 4.11.1999 http://ufal.mff.cuni.cz/course/popj1 26
Morfematická rovina formém [k,r3] ([zdravý,a(m N)S33N]) C s sémata morfémy rod = M N číslo = S pád = 3 C p morfematika R k nej ne zdrav ější mu morfonologie k nej ne zdrav ější mu morfy 4.11.1999 http://ufal.mff.cuni.cz/course/popj1 27
Morfematická rovina Formém zhruba odpovídá slovnímu tvaru, ale po morfologické analýze jde hlavně o dvojici [lemma, značka]. Morfémy jsou lexikální (např. kmen zdrav ) a gramatické (např. koncovka ější ). Sémata jsou lexikální (např. kmen zdrav, slovní druh přídavné jméno, zájmeno osobní ) a gramatická (např. mužský rod, 3. stupeň ). Morfém někdy ~ 1 séma (aglutinační jazyky), častěji více sémat. 4.11.1999 http://ufal.mff.cuni.cz/course/popj1 28
Odvozování ohýbání Odvozování slov je spolu s ohýbáním součástí morfologie. Některé pravidelné způsoby odvozování lze stejně jako skloňování, časování apod. řešit automaticky: dělat udělat, předělat, dodělat, oddělat, prodělat, vydělat, zadělat, přidělat, podělat stačí vyjmenovat povolené předpony. dělat dělávat, dělání, dělající, udělavší, udělaný, dělný, dělník dělníkův, dělnický, dělnice; dílo, dílna dílnový učit učitel, ale ne dělat *dělatel, ani učit *učitník! (učedník ano, ale význam je jiný než u dělník ) 4.11.1999 http://ufal.mff.cuni.cz/course/popj1 29
Syntaktická (povrchová) rovina Vstup: posloupnost formémů (obvykle [lemma, značka]) Výstup: větná struktura (strom) s označením větných vztahů Obsah: základní prvek: tagmém (větný člen) složený prvek: syntagmém (věta: strom + povrchový slovosled) vztah mezi morfologickými kategoriemi a větnou strukturou syntaktické kategorie (podmět, přísudek, předmět ) 4.11.1999 http://ufal.mff.cuni.cz/course/popj1 30
Syntaktická rovina přísudek syntagmém předmět předmět přívlastek tagmémy syntaxe psát VPS3A R dopis NIS4A svůj PSRMS3 přítel NMS3A. Z morfematika 4.11.1999 http://ufal.mff.cuni.cz/course/popj1 31
Syntaktická rovina Tagmém je větný člen, tedy nejen slovo, ale třeba i několik slov: v domě, dělal jsem. Nepraktické: uzel stromu by musel být strukturovaný, aby uchoval informace o více slovech protože nechceme zapomenout informaci z nižších rovin. 4.11.1999 http://ufal.mff.cuni.cz/course/popj1 32
Sémantická (tektogramatická, hloubková) rovina Vstup: větná struktura (strom) s pojmenováním vztahů Výstup: rovněž stromová struktura, ale: hloubkové funkce, odstraněná pomocná slova Obsah: základní prvek: sémantém (odpovídá tagmému) sémoglyf (lexikální sémantém: synonyma jedním symbolem, syntaktické odvozeniny (nominalizace)) typ doplnění (sémantický větný člen) složený prvek: propozice (strom, hloubkový slovosled) vztah mezi povrchovými kategoriemi jako podmět, předmět a hloubkovými kategoriemi jako konatel, trpitel 4.11.1999 http://ufal.mff.cuni.cz/course/popj1 33
Tektogramatická rovina žít, V, F druh doplnění koordinace slučovací 36 aktuální členění 23 (v) Jana, N, T koreference bratr, N, T ona, PP, T jenž, WH, T založit, V, F 35 3 30 rodina, N, F Jana a její bratr, jež založili rodinu, žijí v Praze. Praha, N, F 4.11.1999 http://ufal.mff.cuni.cz/course/popj1 34
Sémantická rovina Koordinace poměr slučovací (a, i, ani, nebo) poměr odporovací (ale, avšak, nýbrž) poměr vylučovací (buď-nebo) Koreference něco jako shoda podmětu s přísudkem, ale na jiné úrovni (na dlouhé vzdálenosti) zvratné zájmeno Hloubkové povrchové funkce: Pavel viděl Petra. Petr byl viděn Pavlem. 4.11.1999 http://ufal.mff.cuni.cz/course/popj1 35
Aktuální členění věty Věta se dělí na téma (základ, východisko, topic) a réma (jádro, ohnisko, focus). Východisko: to, co už víme. Ohnisko: to, co o tom známém nového sdělujeme. Podrobnější členění: kontextová zapojenost členů frází: východisko je kontextově zapojené, ohnisko je kontextově nezapojené. V rámci východiska nebo ohniska se členy řadí do tzv. systémového slovosledu daného daným jazykem. Dohromady jde o hloubkový slovosled ( povrchový). 4.11.1999 http://ufal.mff.cuni.cz/course/popj1 36
Rovina diskurzu Vstup: posloupnost vět (propozic) patřících k sobě (např. jeden článek) = diskurz Výstup: diskurz s vyřešenými mezivětnými vztahy Obsah: např. anafora, katafora: Pavel přišel po desáté. Dala jsem mu večeři. 4.11.1999 http://ufal.mff.cuni.cz/course/popj1 37
Pragmatická (logická) rovina Vstup: hloubková struktura věty (propozice) Výstup: logická forma, která může být vyhodnocena (pravda/nepravda) Obsah: přiřazení objektů reálného světa uzlům větné struktury mimolingvistický obsah: znalost světa ( oči barvy nebe ) kvantif. ( mnoho knih čte málo lidí mnoho lidí čte málo knih ) například (já/sg/pat/t (vidět(past/pred/t) babička/sg/ag/f) ~ vidět(babička-bn[ssn: ],Němcová[SSN: ]) [čas:před 7.10.2016 21:48][místo:mezi (50 20 00 N15 30 00 E,51 00 00 N16 30 20 E)] 4.11.1999 http://ufal.mff.cuni.cz/course/popj1 38
Teorie a praxe Některé roviny jsou zbytečně podrobně členěné, aniž to konkrétní aplikace potřebuje: např. skládání morfonémů, pravopisná pravidla ďe = dě apod. lze řešit najednou. Některé roviny lze někdy vypustit, např. často máme text a fonetické problémy odpadnou. Některá členění přinášejí technické obtíže, např. u syntaktických stromů je lepší pracovat se slovy než s formémy. 4.11.1999 http://ufal.mff.cuni.cz/course/popj1 39
Zjednodušený systém rovin tektogramatická hloubkový slovosled (aktuální členění) koordinace koreference, doplnění vypuštěných členů, spojování členů analytická (syntaktická) posloupnost dvojic stromová struktura morfologická slovní tvar dvojice [lemma, značka] předzpracování posloupnost znaků (písmen) posloupnost slov (a interpunkce) 4.11.1999 http://ufal.mff.cuni.cz/course/popj1 40
Treex: nástroj nejen pro analýzu Open-source, napsáno v Perlu Webové demo: https://lindat.mff.cuni.cz/services/treex-web/ 4.11.1999 http://ufal.mff.cuni.cz/course/popj1 41