Přirozený jazyk a matematika: jak popsat češtinu tak, aby jí porozuměly počítače? Markéta Lopatková Ústav formální a aplikované lingvistiky, MFF UK lopatkova@ufal.mff.cuni.cz
Cíl popsat přirozený jazyk akademická / filosofická perspektiva výzva ~ velice komplexní systém jazyk ~ myšlení, poznávání světa analytická filosofie (začátek 20. století) Gottlog Frege, Bertrand Russell, George Edward Moore, Rudolf Carnap, Ludwig Wittgenstein, Willard Van Orman Quine, skrze jazyk si uvědomujeme sebe sama prostředek porozumění (si navzájem)
Cíl popsat přirozený jazyk akademická / filosofická perspektiva výzva ~ velice komplexní systém jazyk ~ myšlení, poznávání světa analytická filosofie (začátek 20. století) Gottlog Frege, Bertrand Russell, George Edward Moore, Rudolf Carnap, Ludwig Wittgenstein, Willard Van Orman Quine, skrze jazyk si uvědomujeme sebe sama prostředek porozumění (si navzájem) nástroje pro automatické zpracování přirozeného jazyka strojový překlad dialogové systémy vyhledávání informací nestrukturovaná (částečně) strukturovaná data formální modely pro reprezentaci dat
Osnova Jak se přirozený jazyk liší od formálního komplexnost víceznačnost volný slovosled 'nelokální' vztahy neprojektivita (= long distance dependencies) Základní jazykové vztahy Stromové formalismy složkové vs. závislostní přístupy OK pro např. pro angličtinu, ne pro češtinu proto závislostní Jaký modelovat (ne)závislosti? jednoduchá redukční analýza redukční analýza se 'shifty' jak se to odráží v datech? model restartovací automat Závislostní popis v nástrojích NLP
Komplexnost význam výraz
Víceznačnost (a stejnoznačnost) koleje;?kohoutek; jeřáb; stát; žena; nakupovat lexikum homonymie
Víceznačnost (a stejnoznačnost) koleje;?kohoutek; jeřáb; stát; žena; nakupovat lexikum Brňáci čekají na nádraží. (Petkevič) Jemnou dětskou pokožku chrání i pěstí. (Spoustová) morfologie Chlapci přinesou velkou rybu. (Daneš, 1964) Představil tchyni hospodyni. (Panevová, 1981) Prvořadým úkolem jednotek UNPROFOR je chránit bezpečnostní zóny vyhlášené OSN. (MF Dnes A tahle kráva se jmenuje jak? (Zeman) Baví se dva králové: Můj šašek polyká meče! No, ten můj polyká mlaskaje. (Zeman) homonymie
Víceznačnost (a stejnoznačnost) koleje;?kohoutek; jeřáb; stát; žena; nakupovat lexikum Brňáci čekají na nádraží. (Petkevič) Jemnou dětskou pokožku chrání i pěstí. (Spoustová) morfologie Chlapci přinesou velkou rybu. (Daneš, 1964) Představil tchyni hospodyni. (Panevová, 1981) Prvořadým úkolem jednotek UNPROFOR je chránit bezpečnostní zóny vyhlášené OSN. (MF Dnes A tahle kráva se jmenuje jak? (Zeman) Baví se dva králové: Můj šašek polyká meče! No, ten můj polyká mlaskaje. (Zeman) (úřad) hledá policisty na hranici. (MF Dnes, 1996) Přijela policie, evakuovala téměř tisíc přítomných lidí a bezpečně nastraženou bombu odpálila. (MF Dnes, 1997) Pestrá přihrblá armáda. Jediná armáda, které pan P. nevyhlásil válku. Dokonce kdysi válčil s nimi. (Třešňák Klíč je pod rohožkou) syntax (povrchová) homonymie
Víceznačnost (a stejnoznačnost) koleje;?kohoutek; jeřáb; stát; žena; nakupovat lexikum Brňáci čekají na nádraží. (Petkevič) Jemnou dětskou pokožku chrání i pěstí. (Spoustová) morfologie Chlapci přinesou velkou rybu. (Daneš, 1964) Představil tchyni hospodyni. (Panevová, 1981) Prvořadým úkolem jednotek UNPROFOR je chránit bezpečnostní zóny vyhlášené OSN. (MF Dnes A tahle kráva se jmenuje jak? (Zeman) Baví se dva králové: Můj šašek polyká meče! No, ten můj polyká mlaskaje. (Zeman) (úřad) hledá policisty na hranici. (MF Dnes, 1996) Přijela policie, evakuovala téměř tisíc přítomných lidí a bezpečně nastraženou bombu odpálila. (MF Dnes, 1997) Pestrá přihrblá armáda. Jediná armáda, které pan P. nevyhlásil válku. Dokonce kdysi válčil s nimi. (Třešňák Klíč je pod rohožkou) syntax (povrchová) Spotřeba motorů stoupá. (Sgall, 1967) Kritika brazilského delegáta byla ostrá. (Daneš, 1964) Udělá to za dvě hodiny. (Panevová, 1980) Nechceš udělat kávu? syntax (hloubková) homonymie
Víceznačnost (a stejnoznačnost) eliminace homonymie 'garden path sentences' Vlaky u nás jezdí se zpožděním. Před vlastním zásahem policie neprodyšně uzavřela okolí kostela. homonymie
Víceznačnost (a stejnoznačnost) eliminace homonymie 'garden path sentences' Vlaky u nás jezdí se zpožděním. Vlaky u nás jezdí se zpožděním i malí školáci. (Peregrin) Před vlastním zásahem policie neprodyšně uzavřela okolí kostela. Před vlastním zásahem policie [hlídka] neprodyšně uzavřela okolí kostela. (MF Dnes, 1997) homonymie
Víceznačnost (a stejnoznačnost) eliminace homonymie 'garden path sentences' Vlaky u nás jezdí se zpožděním. Vlaky u nás jezdí se zpožděním i malí školáci. (Peregrin) Před vlastním zásahem policie neprodyšně uzavřela okolí kostela. Před vlastním zásahem policie [hlídka] neprodyšně uzavřela okolí kostela. (MF Dnes, 1997) kontext, pragmatika To se však nijak neprojevilo na výkonu závodnic, které noc před závodem se soupeřkami strávily hrátkami v posteli. (idnes) Banky snižují úroky z ekonomických důvodů / z krátkodobých půjček. (Kuboň, 2001) Bezdomovci ukradly hodinky, ale další příležitost už nedostaly. (Kuboň, 2001) [Ty ženy byly zkušené kapsářky.] homonymie
Víceznačnost (a stejnoznačnost) eliminace homonymie 'garden path sentences' Vlaky u nás jezdí se zpožděním. Vlaky u nás jezdí se zpožděním i malí školáci. (Peregrin) Před vlastním zásahem policie neprodyšně uzavřela okolí kostela. Před vlastním zásahem policie [hlídka] neprodyšně uzavřela okolí kostela. (MF Dnes, 1997) kontext, pragmatika To se však nijak neprojevilo na výkonu závodnic, které noc před závodem se soupeřkami strávily hrátkami v posteli. (idnes) Banky snižují úroky z ekonomických důvodů / z krátkodobých půjček. (Kuboň, 2001) Bezdomovci ukradly hodinky, ale další příležitost už nedostaly. (Kuboň, 2001) [Ty ženy byly zkušené kapsářky.] Dementi MŠMT ke spekulacím o zastavení Operačního programu Vzdělávání pro konkurenceschopnost. (TÝDEN, 6.2.2012, rubrika Zápisník z Malé Strany) homonymie
(Víceznačnost a) stejnoznačnost borovice sosna; kopaná fotbal, obrátit se otočit se lexikum konverzivní predikáty: prodávat kupovat symetrické predikáty: sousedit, vzít si relační predikáty: bát následníkem být předchůdcem; být vyšší být nižší synonymie
(Víceznačnost a) stejnoznačnost borovice sosna; kopaná fotbal, obrátit se otočit se lexikum konverzivní predikáty: prodávat kupovat symetrické predikáty: sousedit, vzít si relační predikáty: bát následníkem být předchůdcem; být vyšší být nižší Knihu vydalo nakladatelství. Kniha byla vydána nakladatelstvím (se ziskem?) Otec děti bije. Od otce jsou děti bity (s radostí?) Po babiččině příjezdu půjdou rodiče do divadla. Až babička přijede, půjdou rodiče do divadla.?když babička přijede, půjdou rodiče do divadla. syntax (povrchová) synonymie
(Víceznačnost a) stejnoznačnost borovice sosna; kopaná fotbal, obrátit se otočit se lexikum konverzivní predikáty: prodávat kupovat symetrické predikáty: sousedit, vzít si relační predikáty: bát následníkem být předchůdcem; být vyšší být nižší Knihu vydalo nakladatelství. Kniha byla vydána nakladatelstvím (se ziskem?) Otec děti bije. Od otce jsou děti bity (s radostí?) Po babiččině příjezdu půjdou rodiče do divadla. Až babička přijede, půjdou rodiče do divadla.?když babička přijede, půjdou rodiče do divadla. syntax (povrchová) Ten starý stůl je žlutý.?ten žlutý stůl je starý. syntax (hloubková) synonymie
Volný slovosled změnou slovosledu se mění význam, ale Našeho Karla plánujeme poslat na příští rok o Anglie. Plánujeme našeho Karla na příští rok poslat do Anglie. Do Anglie plánujeme poslat našeho Karla na příští rok. Poslat našeho Karla do Anglie plánujeme na příští rok. Plánujeme poslat našeho Karla na příští rok do Anglie. Na příští rok plánujeme poslat našeho Karla do Anglie. Plánujeme poslat na příští rok do Anglie našeho Karla.? Karla našeho plánujeme poslat na příští rok o Anglie. * Našeho Karla plánujeme poslat příští rok na o Anglie.
Volný slovosled změnou slovosledu se mění význam, ale Našeho Karla plánujeme poslat na příští rok o Anglie. Plánujeme našeho Karla na příští rok poslat do Anglie. Do Anglie plánujeme poslat našeho Karla na příští rok. Poslat našeho Karla do Anglie plánujeme na příští rok. Plánujeme poslat našeho Karla na příští rok do Anglie. Na příští rok plánujeme poslat našeho Karla do Anglie. Plánujeme poslat na příští rok do Anglie našeho Karla.? Karla našeho plánujeme poslat na příští rok o Anglie. * Našeho Karla plánujeme poslat příští rok na o Anglie. zdůrazněny jiné informace (distinkce staré-nové) informační struktura věty (Hajičová et al., 1998; 2004) stejné strukturní vztahy
Volný slovosled změnou slovosledu se mění význam, ale Našeho Karla plánujeme poslat na příští rok o Anglie. Plánujeme našeho Karla na příští rok poslat do Anglie. Do Anglie plánujeme poslat našeho Karla na příští rok. Poslat našeho Karla do Anglie plánujeme na příští rok. Plánujeme poslat našeho Karla na příští rok do Anglie. Na příští rok plánujeme poslat našeho Karla do Anglie. Plánujeme poslat na příští rok do Anglie našeho Karla.? Karla našeho plánujeme poslat na příští rok o Anglie. * Našeho Karla plánujeme poslat příští rok na o Anglie. zdůrazněny jiné informace (distinkce staré-nové) informační struktura věty (Hajičová et al., 1998; 2004) stejné strukturní vztahy neprojektivitní konstrukce
Osnova Jak se přirozený jazyk liší od formálního komplexnost víceznačnost volný slovosled 'nelokální' vztahy neprojektivita (= long distance dependencies) Základní jazykové vztahy Stromové formalismy složkové vs. závislostní přístupy OK pro např. pro angličtinu, ne pro češtinu proto závislostní Jaký modelovat (ne)závislosti? jednoduchá redukční analýza redukční analýza se 'shifty' jak se to odráží v datech? model restartovací automat Závislostní popis v nástrojích NLP
Tři typy jazykových vztahů (Tesnière, 1959) 1. závislost základní syntakticko-sémantická struktura věty binární vztah řídící závislý větný člen valency ~ the range of syntactic elements either required or specifically permitted by a verb or other lexical unit 'valenční' doplnění ~ slovníková informace volná doplnění lexikalizace (Concise Oxford Dictionary of Linguistics,1997)
Tři typy jazykových vztahů (Tesnière, 1959) 1. závislost základní syntakticko-sémantická struktura věty binární vztah řídící závislý větný člen valency ~ the range of syntactic elements either required or specifically permitted by a verb or other lexical unit 'valenční' doplnění ~ slovníková informace volná doplnění lexikalizace 2. slovosled lineární uspořádání slov (a interpunkce) ve větě (Concise Oxford Dictionary of Linguistics,1997)
Tři typy jazykových vztahů (Tesnière, 1959) 1. závislost základní syntakticko-sémantická struktura věty binární vztah řídící závislý větný člen valency ~ the range of syntactic elements either required or specifically permitted by a verb or other lexical unit 'valenční' doplnění ~ slovníková informace volná doplnění lexikalizace 2. slovosled lineární uspořádání slov (a interpunkce) ve větě 3. koordinace `zmnožení' syntaltické pozice Po babiččině příjezdu půjdou rodiče do divadla. Po babiččině příjezdu půjde maminka s tatínkem do divadla. Po babiččině příjezdu půjdou maminka a tatínek do divadla. Petr potkal Marii v divadle. Petr se potkal s Marií v divadle. Petr a Marie se potkali v divadle. Petr potkal Marii v divadle a Marie potkala Petra v divadle. (Concise Oxford Dictionary of Linguistics,1997)
Tři typy jazykových vztahů (Tesnière, 1959) 1. závislost základní syntakticko-sémantická struktura věty 2. slovosled lineární uspořádání slov a interpunkce ve větě 3. koordinace 'zmnožení' syntaktické pozice stromové formalismy pro popis syntaxe
Osnova Jak se přirozený jazyk liší od formálního komplexnost víceznačnost volný slovosled 'nelokální' vztahy neprojektivita (= long distance dependencies) Základní jazykové vztahy Stromové formalismy složkové vs. závislostní přístupy typologie jazyků: angličtina vs. čeština závislostní pro jazyky s volným slovosledem Jaký modelovat (ne)závislosti? jednoduchá redukční analýza redukční analýza se 'shifty' jak se to odráží v datech? model restartovací automat Závislostní popis v nástrojích NLP
Složkové vs. závislostní přístupy složkové přístupy ~ "context free grammars" N. Chomsky: Syntactic Structures (1957) rekurzivní vhodné pro jazyky s pevným slovosledem (podmětná vs. přísudková část věty) Mary will eat bread. S NP VP N VP NP Mary AuxV V N will eat bread zásobníkové automaty
Složkové vs. závislostní přístupy složkové přístupy ~ "context free grammars" N. Chomsky: Syntactic Structures (1957) rekurzivní vhodné pro jazyky s pevným slovosledem (podmětná vs. přísudková část věty) Mary will eat bread. S What will Mary eat? NP VP N VP NP S Mary AuxV V N NP VP will eat bread N VP NP zásobníkové automaty Mary AuxV will V eat N bread
Složkové vs. závislostní přístupy složkové přístupy ~ "context free grammars" N. Chomsky: Syntactic Structures (1957) rekurzivní vhodné pro jazyky s pevným slovosledem (podmětná vs. přísudková část věty) Mary will eat bread. S What will Mary eat? S' NP VP NP T' N VP NP what AuxV S Mary AuxV V N will NP VP will eat bread N VP NP zásobníkové automaty Mary AuxV trace i V eat N trace j
Složkové vs. závislostní přístupy složkové přístupy ~ "context free grammars" N. Chomsky: Syntactic Structures (1957) rekurzivní vhodné pro jazyky s pevným slovosledem problém s volným slovosledem S VP NP PrepP VP N Prep NP VP rodiče PrepP po Atr N V Prep NP babičině příjezdu do N půjdou divadla
Složkové vs. závislostní přístupy závislostní přístupy ~ "valenční syntax" L. Tesnière: Éléments de syntaxe structurale (1959) lexikalizace rekurzivní vhodné pro jazyky s volným slovosledem půjdou.pred po příjezdu.adv rodiče.sb do divadla.adv babiččině.atr
Složkové vs. závislostní přístupy závislostní přístupy ~ "valenční syntax" L. Tesnière: Éléments de syntaxe structurale (1959) lexikalizace rekurzivní vhodné pro jazyky s volným slovosledem půjdou.pred po příjezdu.adv rodiče.sb do divadla.adv babiččině.atr půjdou.pred půjdou.pred rodiče.sb po příjezdu.adv do divadla.adv po příjezdu.adv rodiče.sb do divadla.adv babiččině.atr babiččině.atr?? vhodný formální model
Osnova Jak se přirozený jazyk liší od formálního komplexnost víceznačnost volný slovosled 'nelokální' vztahy neprojektivita (= long distance dependencies) Základní jazykové vztahy Stromové formalismy složkové vs. závislostní přístupy typologie jazyků: angličtina vs. čeština závislostní pro jazyky s volným slovosledem Jaký modelovat (ne)závislosti? jednoduchá redukční analýza redukční analýza se 'shifty' jak se to odráží v datech? model restartovací automat Závislostní popis v nástrojích NLP
Jak modelovat (ne)závislosti? metoda redukční analýzy (RA) (Jančar et al., 1999, Lopatková et al., 2005; 2007) postupné zjednodušování věty při zachování správnosti a významu vypuštění slova/několika slov (a příp. přepsání jiných) Tato firma sídlí ve státě Texas. Tato firma sídlí ve státě Texas. Tato firma sídlí ve státě Texas.
Jak modelovat (ne)závislosti? metoda redukční analýzy (RA) (Jančar et al., 1999, Lopatková et al., 2005; 2007) postupné zjednodušování věty při zachování správnosti a významu vypuštění slova/několika slov (a příp. přepsání jiných) určení formálních závislostních vztahů (Lopatková et al., 2005) vzájemně nezávislé uzly vypouštěny v libovolném pořadí Tato firma sídlí ve státě Texas. Tato firma sídlí ve státě Texas. Tato firma sídlí ve státě Texas. Tato firma sídlí ve státě Texas. tato, Texas vzájemně nezávislé
Jak modelovat (ne)závislosti? metoda redukční analýzy (RA) (Jančar et al., 1999, Lopatková et al., 2005; 2007) postupné zjednodušování věty při zachování správnosti a významu vypuštění slova/několika slov (a příp. přepsání jiných) určení formálních závislostních vztahů (Lopatková et al., 2005) vzájemně nezávislé uzly vypouštěny v libovolném pořadí závislý uzel vypuštěn vždy dřív než řídící Tato firma sídlí ve státě Texas. Tato firma sídlí ve státě Texas. Tato firma sídlí ve státě Texas. Tato firma sídlí ve státě Texas. tato firma ve státě Texas
Jak modelovat (ne)závislosti? metoda redukční analýzy (RA) (Jančar et al., 1999, Lopatková et al., 2005; 2007) postupné zjednodušování věty při zachování správnosti a významu vypuštění slova/několika slov (a příp. přepsání jiných) určení formálních závislostních vztahů (Lopatková et al., 2005) vzájemně nezávislé uzly vypouštěny v libovolném pořadí závislý uzel vypuštěn vždy dřív než řídící některé uzly vypuštěny současně: redukční komponenty Tato firma sídlí ve státě Texas. Tato firma sídlí ve státě Texas. Tato firma sídlí ve státě Texas. Tato firma sídlí ve státě Texas. firma sídlí ve státě. firma sídlí ve státě. firma sídlí ve státě. tato firma ve státě Texas firma, ve státě vzájemně nezávislé
Jak modelovat (ne)závislosti? metoda redukční analýzy (RA) (Jančar et al., 1999, Lopatková et al., 2005; 2007) postupné zjednodušování věty při zachování správnosti a významu vypuštění slova/několika slov (a příp. přepsání jiných) určení formálních závislostních vztahů (Lopatková et al., 2005) vzájemně nezávislé uzly vypouštěny v libovolném pořadí závislý uzel vypuštěn vždy dřív než řídící některé uzly vypuštěny současně: redukční komponenty Tato firma sídlí ve státě Texas. Tato firma sídlí ve státě Texas. Tato firma sídlí ve státě Texas. Tato firma sídlí ve státě Texas. sídlí firma sídlí ve státě. firma sídlí ve státě. firma sídlí ve státě. tato firma ve státě Texas.
Závislosti a slovosled při RA Petr se rozhodl nekoupit knihu. Petr se rozhodl nekoupit. * se rozhodl nekoupit.
Závislosti a slovosled při RA rozšíření redukční analýzy: operace shift (Kuboň et al., 2012) změna slovosledu, pokud si vynucuje princip zachování správnosti (permutace slov, zachování hran) Petr se rozhodl nekoupit knihu. Petr se rozhodl nekoupit. * se rozhodl nekoupit. rozhodl se nekoupit. rozhodl rozhodl se nekoupit. se nekoupit. využít operaci shift pro měření volnosti slovosledu??
Složitost vs. volnost slovosledu (ne)projektivita ~ složitost slovosledu projektivivta (Marcus, 1965; Nebeský, 1975; Havelka et al.. 2004) počet 'děr' v pokrytí hrany (Plátek et al., 2000) (m-)planarita 'zahnízděnost' (Kuhlmann, Nivre, 2006)
Složitost vs. volnost slovosledu (Kuhlmann, Nivre, 2006)
Složitost vs. volnost slovosledu (ne)projektivita ~ složitost slovosledu hypotéza: počet 'shiftů' ~ volnost slovosledu čím více omezení na slovosled, tím více shiftů při RA korelace s neprojektivitou??
Složitost vs. volnost slovosledu (ne)projektivita ~ složitost slovosledu hypotéza: počet 'shiftů' ~ volnost slovosledu čím více omezení na slovosled, tím více shiftů při RA korelace s neprojektivitou? Pražský závislostní korpus (PDT) 1.0 (Hajič et al, 2001): 73 tis. vět, z nich 23% neproj. (17 tis.) neprojektivity: modální/fázové sloveso + infinitiv (5,7 tis. v 4,7 tis. větách) (Zeman, 2004) (Kuboň et al, 2012)
Složitost vs. volnost slovosledu (ne)projektivita ~ složitost slovosledu hypotéza: počet 'shiftů' ~ volnost slovosledu čím více omezení na slovosled, tím více shiftů při RA korelace s neprojektivitou? Pražský závislostní korpus (PDT) 1.0 (Hajič et al, 2001): 73 tis. vět, z nich 23% neproj. (17 tis.) neprojektivity: modální/fázové sloveso + infinitiv (5,7 tis. v 4,7 tis. větách) (Zeman, 2004) (Kuboň et al, 2012)
Složitost vs. volnost slovosledu (ne)projektivita ~ složitost slovosledu hypotéza: počet 'shiftů' ~ volnost slovosledu čím více omezení na slovosled, tím více shiftů při RA korelace s neprojektivitou? Pražský závislostní korpus (PDT) 1.0 (Hajič et al, 2001): 73 tis. vět, z nich 23% neproj. (17 tis.) neprojektivity: modální/fázové sloveso + infinitiv (5,7 tis. v 4,7 tis. větách) (Zeman, 2004) klitiky Opravit jsem se mu to včera snažil marně. (Hana, 2007) snažil opravit jsem se včera marně mu to (Kuboň et al, 2012)
Složitost vs. volnost slovosledu (ne)projektivita ~ složitost slovosledu hypotéza: počet 'shiftů' ~ volnost slovosledu čím více omezení na slovosled, tím více shiftů při RA korelace s neprojektivitou ALE: S těžkým se mu bála pomoci úkolem. (s využitím Holan et al, 2000) bála se pomoci. s mu úkolem těžkým
Složitost vs. volnost slovosledu (ne)projektivita ~ složitost slovosledu hypotéza: počet 'shiftů' ~ volnost slovosledu čím více omezení na slovosled, tím více shiftů při RA korelace s neprojektivitou ALE: S těžkým se mu bála pomoci úkolem. (s využitím Holan et al, 2000) S těžkým se bála pomoci úkolem. bála * S se bála pomoci úkolem. S úkolem se bála pomoci. se pomoci. * se bála pomoci. s mu * Bála se bála pomoci. úkolem těžkým (Kuboň et al, 2013) alespoň 2 shifty potřeba
Složitost vs. volnost slovosledu (ne)projektivita ~ složitost slovosledu hypotéza: počet 'shiftů' ~ volnost slovosledu další zjemnění: vypouštění sousedících slov 'projektivizace' vypouštění??? Jak se projevuje v českých větách?
Složitost vs. volnost slovosledu PDT 2.0 (Hajič et al, 2006) 38,7 tis. vět (trénovací sada) automatická RA (řízená závislostními stromy) 'Podezřelé' jevy v PDT 2.0
1800 1600 1400 1200 1000 800 600 400 200 PDT 2.0 (Hajič et al, 2006) 38,7 tis. vět (trénovací) automatická RA (řízená závislostními stromy) testovací sada projektivní RA bez 'shiftů': 0 Složitost vs. volnost slovosledu 1640 29 354 235 113 věty o 10-25 slovech (vč. interpunkce) bez koordinace jen věty s 1 určitým slovesem bez číslovkových výrazů 2,5 tis. vět 44 21 10 5 2 1 2 3 4 5 6 7 8 9 10 10000 1000 100 10 1 1640 29 354 235 113 1 2 3 4 5 6 7 8 9 10 44 21 10 5 2
Složitost vs. volnost slovosledu PDT 2.0 (Hajič et al, 2006) 38,7 tis. vět (trénovací) automatická RA (řízená závislostními stromy) testovací sada projektivní RA bez 'shiftů': věty o 10-25 slovech (vč. interpunkce) bez koordinace jen věty s 1 určitým slovesem bez číslovkových výrazů 2,5 tis. vět
Složitost vs. volnost slovosledu PDT 2.0 (Hajič et al, 2006) 38,7 tis. vět (trénovací) automatická RA (řízená závislostními stromy) testovací sada projektivní RA bez 'shiftů': redukovaná věta s 10 uzly věty o 10-25 slovech (vč. interpunkce) bez koordinace jen věty s 1 určitým slovesem bez číslovkových výrazů 2,5 tis. vět??? Jak se projevuje ve složitějších větách?
Formální model syntaxe struktura závislostních vztahů ve větě rekurzivita nelokální chování češtiny lexikalizace jednoduchá RA ~ model závislostí slovosled míra volnosti slovosledu (ne)projektivita ~ míra složitosti slovosledu RA se shifty závislostní stromy pro popis syntaktické struktury
Restartovací automat matematický model závislostní redukční analýzy přirozeného jazyka jednoduchý restartovací automat (simple restarting automaton) (Jančar et al., 1995; Otto, 2006) zpracování vstupní věty delete, rewrite restart výpočet v cyklech rekurze nelokální chování ~ volný slovosled budování struktury věty DR-stromy, D-stromy (Plátek et al, 2000) (paralelní) závislostní struktury (Plátek et al., 2010) operace shift (Kuboň et al, 2012; Lopatková, Plátek 2013)
Osnova Jak se přirozený jazyk liší od formálního komplexnost víceznačnost volný slovosled 'nelokální' vztahy neprojektivita (= long distance dependencies) Základní jazykové vztahy Stromové formalismy složkové vs. závislostní přístupy typologie jazyků: angličtina vs. čeština závislostní pro jazyky s volným slovosledem Jaký modelovat (ne)závislosti? jednoduchá redukční analýza redukční analýza se 'shifty' jak se to odráží v datech? model restartovací automat Závislostní popis v nástrojích NLP
Korpusová lingvistika a slovníky Pražský závislostní korpus (PDT) 3 roviny anotace: m-rovina, a-rovina, t-rovina (semantické role, gramatémy, inf. struktura, koreference) PDT 3.0 (Hajič et al., 2003, Bejček et al, 2013) http://ufal.mff.cuni.cz/pdt3.0/ http://ufal.mff.cuni.cz/pdt2.0/visual-data/sample/sample0_a_2.htm Prague Czech English Dependency Treebank (PCEDT) (Hajič et al., 2010) texty z Penn Treebank (Wall Street Journal) přeloženy do češtiny (překladatelé) anotační schéma 'zděděné' z PDT http://ufal.mff.cuni.cz/pcedt2.0/trees/00/01/wsj_0001_1.xhtml?lang=en Pražský závislostní korpus mluvené češtiny Prague Arabic Dependency Treebank
Korpusová lingvistika a slovníky Syntaktické slovníky Valenční slovník českých sloves VALLEX (Lopatkováet al., 2003, 2008) PDT-VALLEX (Hajič et al., 2003; Urešová, 2011) EngVallex (Šindlerová, Cinková, 2011) nejčastější česká slovesa valenční rámec glosa, příklady přístupnost pro uživatele NLP technologie (xml) člověk (html, pdf)
Závislostní popis v datech a nástrojích K čemu korpusy a slovníky? počítačové zpracování přirozeného jazyka data: statistické metody, strojové učení vyhodnocování experimentů datové formáty uživatel-člověk výuka češtiny, tradiční teoretická lingvistika formální modelování složitost přirozeného jazyka
Strojový překlad frázový překlad: Moses, Joshua (Ondřej Bojar, ) En Cz (Russian, Hindi, ) http://quest.ms.mff.cuni.cz/khresmoi/demo/
Strojový překlad překlad analýza transfer syntéza: TectoMT En Cz (Tamil) Zdeněk Žabokrtský, David Mareček, Martin Popel transfer She has never laughed in her new boss's office. Nikdy se nesmála v úřadu svého nového šéfa.
Strojový překlad
Dialogové systémy Companions (Hajič, Cinková, Ptáček et al.) společník pro seniory prohlížení fotografií "Petra je sympatický partner pro konverzaci, zajímá se o Vaše fotky a o vzpomínky, které s nimi máte spojené. Je jí kolem třiceti a je to Češka jako poleno, názory na generaci jejích rodičů odpovídají jejímu věku. Má svoje názory, ale už nezná svoji biografii." http://www.youtube.com/watch?v=seud4bsnl2i&feature=mfu_in_order&list=ul http://www.youtube.com/watch?v=4dlljjg_ztk&feature=mfu_in_order&list=ul http://www.youtube.com/watch?v=6atuest85pu&feature=mfu_in_order&list=ul
Dialogové systémy automatické zpracování jazyka analýza vět (až na roviny významu) generování dialog manager Dialog::DAFRunner DAF (= dialog action form) šablony pro sítě stavů instance těchto sítí v průběhu dialogu (aktuální stav pro každého uživatele) dialogové korpusy
Malá Seminář Úpa, současné 3.6.2013 matematiky, 12.3.2014 1