Poítaové zpracování pirozeného jazyka Lingvistická terminologie Daniel Zeman http://ckl.mff.cuni.cz/~zeman/
Slovní druhy slovní druh podstatné jméno pídavné jméno zájmeno íslovka sloveso píslovce pedložka spojka ástice citoslovce len substantivum adjektivum pronomium numeralium verbum adverbium prepozice partikule interjekce part of speech noun adjective pronoun numeral verb adverb preposition conjunction particle interjection determiner, article 4.11.1999 http://ckl.mff.cuni.cz/~zeman/ 2
Rody a ísla rod mužský neživotný ženský stední íslo jednotné dvojné množné maskulinum femininum neutrum numerus singulár duál plurál gender masculine inanimate feminine neuter number singular dual plural 4.11.1999 http://ckl.mff.cuni.cz/~zeman/ 3
Pády a osoby pád 1. 2. 3. 4. 5. 6. 7. osoba 1. 2. 3. nominativ genitiv dativ akuzativ vokativ lokál instrumentál case nominative genitive dative accusative vocative local instrumental person 1 st 2 nd 3 rd 4.11.1999 http://ckl.mff.cuni.cz/~zeman/ 4
asy, vidy, zpsoby as pítomný minulý budoucí neuritek vid dokonavý nedokonavý zpsob oznamovací rozkazovací podmiovací prézens préteritum futurum infinitiv perfektum imperfektum modus indikativ imperativ kondicionál tense present past future infinitive aspect perfect imperfect mode indicative imperative conditional 4.11.1999 http://ckl.mff.cuni.cz/~zeman/ 5
Slovesné rody, vtné zpsoby, stupn, zápory slovesný rod inný trpný tázací (zájmeno, vta ) (ne)uritý zápor kladný záporný stupe 1. 2. 3. aktivní pasivní interrogativum afirmativ negativ pozitiv komparativ superlativ voice active passive interrogative (in)definite negativeness affirmative negative degree (of comparison) positive comparative superlative 4.11.1999 http://ckl.mff.cuni.cz/~zeman/ 6
Vtné leny písudek podmt pedmt píslovené urení pívlastek pechodné sloveso nepechodné sloveso predikát subjekt objekt adverbiale atribut tranzitivní verbum intranzitivní verbum predicate subject object adverbial attribute transitive verb intransitive verb 4.11.1999 http://ckl.mff.cuni.cz/~zeman/ 7
Poítaové zpracování pirozeného jazyka Roviny zpracování pirozeného jazyka Daniel Zeman http://ckl.mff.cuni.cz/~zeman/
Popis jazyka Gramatika soubor pravidel, popisujících, co je v jazyce pípustné Klasické gramatiky ureny lidem, kteí daný jazyk znají definice a pravidla na základ píklad (skoro) žádné nástroje pro formalizaci; nelze naprogramovat Explicitní gramatiky (CFG, HPSG, závislostní gramatiky, spojové gramatiky, ) formální popis lze naprogramovat a testovat na datech (textech) 4.11.1999 http://ckl.mff.cuni.cz/~zeman/ 9
Jazykové roviny analýza Základní roviny, vícemén spolené všem teoriím pragmatika (znalost svta ), logika aj., mezivtné vztahy sémantika (hloubková syntaxe, význam) syntaxe (povrchová) morfologie fonologie, morfonologie fonetika / pravopis Každá rovina má vstupní a výstupní reprezentaci výstup z nižší roviny je vstup do následující vyšší roviny syntéza nkdy je vhodné nkteré roviny dále rozdlit, nebo naopak slouit i peskoit 4.11.1999 http://ckl.mff.cuni.cz/~zeman/ 10
Vztahy mezi rovinami vyšší rovina jednoduchý R C složený nižší rovina Nižší je formou vyššího. Vyšší je funkcí nižšího. Shora dol = od významu k výrazu. 4.11.1999 http://ckl.mff.cuni.cz/~zeman/ 11
Fonetická rovina Vstup: akustický signál Výstup: posloupnost fón (zvuk vektor rzných charakteristik, rys, které lze vysledovat ve vstupním signálu) Obsah: základní: charakteristiky (nap. délka samohlásky); silový slabiný pízvuk, tóny, délka samohlásek složené: fóny (kombinace hodnot) zapsané fonetickou abecedou suprasegmentální: intonace (vtný pízvuk) klasifikace hlásek ve vztahu k tvaru a pozici jazyka apod. 4.11.1999 http://ckl.mff.cuni.cz/~zeman/ 12
Fonetická rovina rys 2 C p C p rys 3 C p rys 1 fonetika fón s b a k o u akustický signál 4.11.1999 http://ckl.mff.cuni.cz/~zeman/ 13
Fonetická rovina Nelingvistická rovina. Nejde o funkci a formu, pouze o konverzi akustického signálu na adu charakteristik: samohláska / souhláska dlouhá / krátká tón vysoký / nízký / klesající / znlá / neznlá nosová / nenosová Ne všechny zjištné rozdíly jsou v daném jazyku relevantní. Tedy: ne všechny mají funkci. Ty, které ji mají, nazýváme distinktivní rysy. 4.11.1999 http://ckl.mff.cuni.cz/~zeman/ 14
Píklad: distinktivní rysy Znlost je v eštin distinktivní rys: ti di. Odlišuje rzné hlásky, zde t/d. Podobn v anglitin je distinktivní rys i rozdíl mezi n a ng: thin (tenký) thing (vc). Tento rozdíl však není distinktivním rysem v eštin: rána ranka. Nejde o dv hlásky, ale o dv poziní varianty jedné hlásky! V nmin je distinktivní rys rozdíl mezi ü a ie: Abfahrt der Züge (odjezd vlak) Abfahrt der Ziege (odjezd kozy). V eštin tento rozdíl neodlišuje dv hlásky, pro nás je obojí i. 4.11.1999 http://ckl.mff.cuni.cz/~zeman/ 15
Fonologická rovina Vstup: posloupnost fón zapsaných ve fonetické abeced Výstup: posloupnost hlásek (foném zvuk majících význam (funkci), zapsaných písmeny abstraktní abecedy teba podmnožiny té fonetické) Obsah: základní: distinktivní rysy složené: hlásky (fonémy) vztah R mezi fóny a fonémy (jednotky, které mohou mít njakou funkci na vyšší rovin) 4.11.1999 http://ckl.mff.cuni.cz/~zeman/ 16
Fonologická rovina distinktivní rys 3 distinktivní C p rys 2 distinktivní rys 1 C p fonologie fonetika C p foném R s b a n k o u s b a k o u 4.11.1999 http://ckl.mff.cuni.cz/~zeman/ 17
Fonologická rovina Žádné složené struktury, jen jednoduché symboly. Krom symbol, které popisují uritý úsek výpovdi a jdou za sebou, i takové, které se vztahují k celé posloupnosti úsek: vtná intonace. I u vtné intonace pouze takové rysy, které v daném jazyce rozlišují význam. 4.11.1999 http://ckl.mff.cuni.cz/~zeman/ 18
Pravopisná rovina Vstup: text (posloupnost písmen grafém symbol abecedy konkrétního jazyka) Výstup: posloupnost symbol abstraktní abecedy, použitelná na fonologické rovin Obsah: normalizace, interpunkce, konce slov a vt 4.11.1999 http://ckl.mff.cuni.cz/~zeman/ 19
Pravopisná rovina fonémy fonologie pravopis R j a b l o e j a b l o n grafémy 4.11.1999 http://ckl.mff.cuni.cz/~zeman/ 20
Nestejná informace v psaném a mluveném vstupu fonologie R v i l y R v i/y l i/y pravopis v i l y v i l i fonetika 4.11.1999 http://ckl.mff.cuni.cz/~zeman/ 21
Opaný pípad: stejný zápis, jiná výslovnost r e d fonologie R r í d R r í d pravopis r e a d r í d fonetika 4.11.1999 http://ckl.mff.cuni.cz/~zeman/ 22
Opaný pípad: stejný zápis, jiná výslovnost k u t u b knihy fonologie R k a t a b psát pravopis 4.11.1999 http://ckl.mff.cuni.cz/~zeman/ 23
Morfonologická rovina Vstup: posloupnost foném zapsaných v abstraktní abeced Výstup: posloupnost morfonémlenná do morf Obsah: základní prvky: morfonémy složené prvky: morfy morfoném víc než foném: vedle k c nadále existuje i k, c a morfy = kmeny a afixy (= koncovky, ale i pedpony, pípony a infixy) 4.11.1999 http://ckl.mff.cuni.cz/~zeman/ 24
Morfonologická rovina morf mat(k c ) a C s morfoném m a t k c morfonologie R fonologie m a t k a m a t c e m a t i n 4.11.1999 http://ckl.mff.cuni.cz/~zeman/ 25
Morfematická rovina Vstup: posloupnost morf Výstup: posloupnost slovních tvar spolu s lexikální (významovou) a gramatickou informací Obsah: základní prvek: séma (lexikální nebo gramatické) složený prvek: morfém (lexikální / gramatický (skloovací / asovací)) složený prvek: formém nejen ohýbání, ale i odvozování a skládání 4.11.1999 http://ckl.mff.cuni.cz/~zeman/ 26
Morfematická rovina formém [k,r3] ([zdravý,a(m N)S33N]) C s sémata morfémy rod = M N íslo = S pád = 3 C p morfematika R k nej ne zdrav jší mu morfonologie k nej ne zdrav jší mu morfy 4.11.1999 http://ckl.mff.cuni.cz/~zeman/ 27
Morfematická rovina Formém zhruba odpovídá slovnímu tvaru, ale po morfologické analýze jde hlavn o dvojici [lemma, znaka]. Morfémy jsou lexikální (nap. kmen zdrav ) a gramatické (nap. koncovka jší ). Sémata jsou lexikální (nap. kmen zdrav, slovní druh pídavné jméno, zájmeno osobní ) a gramatická (nap. mužský rod, 3. stupe ). Morfém nkdy ~ 1 séma (aglutinaní jazyky), astji více sémat. 4.11.1999 http://ckl.mff.cuni.cz/~zeman/ 28
Odvozování ohýbání Odvozování slov je spolu s ohýbáním souástí morfologie. Nkteré pravidelné zpsoby odvozování lze stejn jako skloování, asování apod. ešit automaticky: dlat udlat, pedlat, dodlat, oddlat, prodlat, vydlat, zadlat, pidlat, podlat staí vyjmenovat povolené pedpony. dlat dlávat, dlání, dlající, udlavší, udlaný, dlný, dlník dlníkv, dlnický, dlnice; dílo, dílna dílnový uit uitel, ale ne dlat *dlatel, ani uit *uitník! (uedník ano, ale význam je jiný než u dlník ) 4.11.1999 http://ckl.mff.cuni.cz/~zeman/ 29
Syntaktická (povrchová) rovina Vstup: posloupnost formém (obvykle [lemma, znaka]) Výstup: vtná struktura (strom) s oznaením vtných vztah Obsah: základní prvek: tagmém (vtný len) složený prvek: syntagmém (vta: strom + povrchový slovosled) vztah mezi morfologickými kategoriemi a vtnou strukturou syntaktické kategorie (podmt, písudek, pedmt ) 4.11.1999 http://ckl.mff.cuni.cz/~zeman/ 30
Syntaktická rovina písudek syntagmém pedmt pedmt pívlastek tagmémy syntaxe psát VPS3A R dopis NIS4A svj PSRMS3 pítel NMS3A. Z morfematika 4.11.1999 http://ckl.mff.cuni.cz/~zeman/ 31
Syntaktická rovina Tagmém je vtný len, tedy nejen slovo, ale teba i nkolik slov: v dom, dlal jsem. Nepraktické: uzel stromu by musel být strukturovaný, aby uchoval informace o více slovech protože nechceme zapomenout informaci z nižších rovin. 4.11.1999 http://ckl.mff.cuni.cz/~zeman/ 32
Sémantická (tektogramatická, hloubková) rovina Vstup: vtná struktura (strom) s pojmenováním vztah Výstup: rovnž stromová struktura, ale: hloubkové funkce, odstranná pomocná slova Obsah: základní prvek: sémantém (odpovídá tagmému) sémoglyf (lexikální sémantém: synonyma jedním symbolem, syntaktické odvozeniny (nominalizace)) typ doplnní (sémantický vtný len) složený prvek: propozice (strom, hloubkový slovosled) vztah mezi povrchovými kategoriemi jako podmt, pedmt a hloubkovými kategoriemi jako konatel, trpitel 4.11.1999 http://ckl.mff.cuni.cz/~zeman/ 33
Sémantická rovina žít, V, F sluovací 36 23 (v) Jana, N, T bratr, N, T ona, PP, T jenž, WH, T založit, V, F 35 3 30 rodina, N, F Jana a její bratr, jež založili rodinu, žijí v Praze. Praha, N, F 4.11.1999 http://ckl.mff.cuni.cz/~zeman/ 34
Sémantická rovina Koordinace pomr sluovací (a, i, ani, nebo) pomr odporovací (ale, avšak, nýbrž) pomr vyluovací (bu-nebo) Koreference nco jako shoda podmtu s písudkem, ale na jiné úrovni (na dlouhé vzdálenosti) zvratné zájmeno Hloubkové povrchové funkce: Pavel vidl Petra. Petr byl vidn Pavlem. 4.11.1999 http://ckl.mff.cuni.cz/~zeman/ 35
Aktuální lenní vty Vta se dlí na téma (základ, východisko, topic) a réma (jádro, ohnisko, focus). Východisko: to, co už víme. Ohnisko: to, co o tom známém nového sdlujeme. Podrobnjší lenní: kontextová zapojenost len frází: východisko je kontextov zapojené, ohnisko je kontextov nezapojené. V rámci východiska nebo ohniska se leny adí do tzv. systémového slovosledu daného daným jazykem. Dohromady jde o hloubkový slovosled ( povrchový). 4.11.1999 http://ckl.mff.cuni.cz/~zeman/ 36
Rovina diskurzu Vstup: posloupnost vt (propozic) patících k sob (nap. jeden lánek) = diskurz Výstup: diskurz s vyešenými mezivtnými vztahy Obsah: nap. anafora, katafora: Pavel pišel po desáté. Dala jsem mu veei. 4.11.1999 http://ckl.mff.cuni.cz/~zeman/ 37
Pragmatická (logická) rovina Vstup: hloubková struktura vty (propozice) Výstup: logická forma, která mže být vyhodnocena (pravda/nepravda) Obsah: piazení objekt reálného svta uzlm vtné struktury mimolingvistický obsah: znalost svta ( oi barvy nebe ) kvantif. ( mnoho knih te málo lidí mnoho lidí te málo knih ) napíklad (já/sg/pat/t (vidt(past/pred/t) babika/sg/ag/f) ~ vidt(babika-bn[ssn: ],Nmcová[SSN: ]) [as:ped 26.10.2004 21:32][místo:mezi (50 20 00 N15 30 00 E,51 00 00 N16 30 20 E)] 4.11.1999 http://ckl.mff.cuni.cz/~zeman/ 38
Teorie a praxe Nkteré roviny jsou zbyten podrobn lenné, aniž to konkrétní aplikace potebuje: nap. skládání morfoném, pravopisná pravidla e = d apod. lze ešit najednou. Nkteré roviny lze nkdy vypustit, nap. asto máme text a fonetické problémy odpadnou. Nkterá lenní pinášejí technické obtíže, nap. u syntaktických strom je lepší pracovat se slovy než s formémy. 4.11.1999 http://ckl.mff.cuni.cz/~zeman/ 39
Zjednodušený systém rovin tektogramatická hloubkový slovosled (aktuální lenní) koordinace koreference, doplnní vypuštných len, spojování len analytická (syntaktická) posloupnost dvojic stromová struktura morfologická slovní tvar dvojice [lemma, znaka] pedzpracování posloupnost znak (písmen) posloupnost slov (a interpunkce) 4.11.1999 http://ckl.mff.cuni.cz/~zeman/ 40