Přirozený jazyk a matematika: jak popsat češtinu tak, aby jí porozuměly počítače?

Rozměr: px
Začít zobrazení ze stránky:

Download "Přirozený jazyk a matematika: jak popsat češtinu tak, aby jí porozuměly počítače?"

Transkript

1 Přirozený jazyk a matematika: jak popsat češtinu tak, aby jí porozuměly počítače? Markéta Lopatková Ústav formální a aplikované lingvistiky, MFF UK lopatkova@ufal.mff.cuni.cz

2 Cíl popsat přirozený jazyk akademická / filosofická perspektiva výzva ~ velice komplexní systém jazyk ~ myšlení, poznávání světa analytická filosofie (začátek 20. století) Gottlog Frege, Bertrand Russell, George Edward Moore, Rudolf Carnap, Ludwig Wittgenstein, Willard Van Orman Quine, skrze jazyk si uvědomujeme sebe sama prostředek porozumění (si navzájem)

3 Cíl popsat přirozený jazyk akademická / filosofická perspektiva výzva ~ velice komplexní systém jazyk ~ myšlení, poznávání světa analytická filosofie (začátek 20. století) Gottlog Frege, Bertrand Russell, George Edward Moore, Rudolf Carnap, Ludwig Wittgenstein, Willard Van Orman Quine, skrze jazyk si uvědomujeme sebe sama prostředek porozumění (si navzájem) nástroje pro automatické zpracování přirozeného jazyka strojový překlad dialogové systémy vyhledávání informací nestrukturovaná (částečně) strukturovaná data formální modely pro reprezentaci dat

4 Osnova Jak se přirozený jazyk liší od formálního komplexnost víceznačnost volný slovosled 'nelokální' vztahy neprojektivita (= long distance dependencies) Základní jazykové vztahy Stromové formalismy složkové vs. závislostní přístupy OK pro např. pro angličtinu, ne pro češtinu proto závislostní Jaký modelovat (ne)závislosti? jednoduchá redukční analýza redukční analýza se 'shifty' jak se to odráží v datech? model restartovací automat Závislostní popis v nástrojích NLP

5 Komplexnost význam výraz

6 Víceznačnost (a stejnoznačnost) koleje;?kohoutek; jeřáb; stát; žena; nakupovat lexikum homonymie

7 Víceznačnost (a stejnoznačnost) koleje;?kohoutek; jeřáb; stát; žena; nakupovat lexikum Brňáci čekají na nádraží. (Petkevič) Jemnou dětskou pokožku chrání i pěstí. (Spoustová) morfologie Chlapci přinesou velkou rybu. (Daneš, 1964) Představil tchyni hospodyni. (Panevová, 1981) Prvořadým úkolem jednotek UNPROFOR je chránit bezpečnostní zóny vyhlášené OSN. (MF Dnes A tahle kráva se jmenuje jak? (Zeman) Baví se dva králové: Můj šašek polyká meče! No, ten můj polyká mlaskaje. (Zeman) homonymie

8 Víceznačnost (a stejnoznačnost) koleje;?kohoutek; jeřáb; stát; žena; nakupovat lexikum Brňáci čekají na nádraží. (Petkevič) Jemnou dětskou pokožku chrání i pěstí. (Spoustová) morfologie Chlapci přinesou velkou rybu. (Daneš, 1964) Představil tchyni hospodyni. (Panevová, 1981) Prvořadým úkolem jednotek UNPROFOR je chránit bezpečnostní zóny vyhlášené OSN. (MF Dnes A tahle kráva se jmenuje jak? (Zeman) Baví se dva králové: Můj šašek polyká meče! No, ten můj polyká mlaskaje. (Zeman) (úřad) hledá policisty na hranici. (MF Dnes, 1996) Přijela policie, evakuovala téměř tisíc přítomných lidí a bezpečně nastraženou bombu odpálila. (MF Dnes, 1997) Pestrá přihrblá armáda. Jediná armáda, které pan P. nevyhlásil válku. Dokonce kdysi válčil s nimi. (Třešňák Klíč je pod rohožkou) syntax (povrchová) homonymie

9 Víceznačnost (a stejnoznačnost) koleje;?kohoutek; jeřáb; stát; žena; nakupovat lexikum Brňáci čekají na nádraží. (Petkevič) Jemnou dětskou pokožku chrání i pěstí. (Spoustová) morfologie Chlapci přinesou velkou rybu. (Daneš, 1964) Představil tchyni hospodyni. (Panevová, 1981) Prvořadým úkolem jednotek UNPROFOR je chránit bezpečnostní zóny vyhlášené OSN. (MF Dnes A tahle kráva se jmenuje jak? (Zeman) Baví se dva králové: Můj šašek polyká meče! No, ten můj polyká mlaskaje. (Zeman) (úřad) hledá policisty na hranici. (MF Dnes, 1996) Přijela policie, evakuovala téměř tisíc přítomných lidí a bezpečně nastraženou bombu odpálila. (MF Dnes, 1997) Pestrá přihrblá armáda. Jediná armáda, které pan P. nevyhlásil válku. Dokonce kdysi válčil s nimi. (Třešňák Klíč je pod rohožkou) syntax (povrchová) Spotřeba motorů stoupá. (Sgall, 1967) Kritika brazilského delegáta byla ostrá. (Daneš, 1964) Udělá to za dvě hodiny. (Panevová, 1980) Nechceš udělat kávu? syntax (hloubková) homonymie

10 Víceznačnost (a stejnoznačnost) eliminace homonymie 'garden path sentences' Vlaky u nás jezdí se zpožděním. Před vlastním zásahem policie neprodyšně uzavřela okolí kostela. homonymie

11 Víceznačnost (a stejnoznačnost) eliminace homonymie 'garden path sentences' Vlaky u nás jezdí se zpožděním. Vlaky u nás jezdí se zpožděním i malí školáci. (Peregrin) Před vlastním zásahem policie neprodyšně uzavřela okolí kostela. Před vlastním zásahem policie [hlídka] neprodyšně uzavřela okolí kostela. (MF Dnes, 1997) homonymie

12 Víceznačnost (a stejnoznačnost) eliminace homonymie 'garden path sentences' Vlaky u nás jezdí se zpožděním. Vlaky u nás jezdí se zpožděním i malí školáci. (Peregrin) Před vlastním zásahem policie neprodyšně uzavřela okolí kostela. Před vlastním zásahem policie [hlídka] neprodyšně uzavřela okolí kostela. (MF Dnes, 1997) kontext, pragmatika To se však nijak neprojevilo na výkonu závodnic, které noc před závodem se soupeřkami strávily hrátkami v posteli. (idnes) Banky snižují úroky z ekonomických důvodů / z krátkodobých půjček. (Kuboň, 2001) Bezdomovci ukradly hodinky, ale další příležitost už nedostaly. (Kuboň, 2001) [Ty ženy byly zkušené kapsářky.] homonymie

13 Víceznačnost (a stejnoznačnost) eliminace homonymie 'garden path sentences' Vlaky u nás jezdí se zpožděním. Vlaky u nás jezdí se zpožděním i malí školáci. (Peregrin) Před vlastním zásahem policie neprodyšně uzavřela okolí kostela. Před vlastním zásahem policie [hlídka] neprodyšně uzavřela okolí kostela. (MF Dnes, 1997) kontext, pragmatika To se však nijak neprojevilo na výkonu závodnic, které noc před závodem se soupeřkami strávily hrátkami v posteli. (idnes) Banky snižují úroky z ekonomických důvodů / z krátkodobých půjček. (Kuboň, 2001) Bezdomovci ukradly hodinky, ale další příležitost už nedostaly. (Kuboň, 2001) [Ty ženy byly zkušené kapsářky.] Dementi MŠMT ke spekulacím o zastavení Operačního programu Vzdělávání pro konkurenceschopnost. (TÝDEN, , rubrika Zápisník z Malé Strany) homonymie

14 (Víceznačnost a) stejnoznačnost borovice sosna; kopaná fotbal, obrátit se otočit se lexikum konverzivní predikáty: prodávat kupovat symetrické predikáty: sousedit, vzít si relační predikáty: bát následníkem být předchůdcem; být vyšší být nižší synonymie

15 (Víceznačnost a) stejnoznačnost borovice sosna; kopaná fotbal, obrátit se otočit se lexikum konverzivní predikáty: prodávat kupovat symetrické predikáty: sousedit, vzít si relační predikáty: bát následníkem být předchůdcem; být vyšší být nižší Knihu vydalo nakladatelství. Kniha byla vydána nakladatelstvím (se ziskem?) Otec děti bije. Od otce jsou děti bity (s radostí?) Po babiččině příjezdu půjdou rodiče do divadla. Až babička přijede, půjdou rodiče do divadla.?když babička přijede, půjdou rodiče do divadla. syntax (povrchová) synonymie

16 (Víceznačnost a) stejnoznačnost borovice sosna; kopaná fotbal, obrátit se otočit se lexikum konverzivní predikáty: prodávat kupovat symetrické predikáty: sousedit, vzít si relační predikáty: bát následníkem být předchůdcem; být vyšší být nižší Knihu vydalo nakladatelství. Kniha byla vydána nakladatelstvím (se ziskem?) Otec děti bije. Od otce jsou děti bity (s radostí?) Po babiččině příjezdu půjdou rodiče do divadla. Až babička přijede, půjdou rodiče do divadla.?když babička přijede, půjdou rodiče do divadla. syntax (povrchová) Ten starý stůl je žlutý.?ten žlutý stůl je starý. syntax (hloubková) synonymie

17 Volný slovosled změnou slovosledu se mění význam, ale Našeho Karla plánujeme poslat na příští rok o Anglie. Plánujeme našeho Karla na příští rok poslat do Anglie. Do Anglie plánujeme poslat našeho Karla na příští rok. Poslat našeho Karla do Anglie plánujeme na příští rok. Plánujeme poslat našeho Karla na příští rok do Anglie. Na příští rok plánujeme poslat našeho Karla do Anglie. Plánujeme poslat na příští rok do Anglie našeho Karla.? Karla našeho plánujeme poslat na příští rok o Anglie. * Našeho Karla plánujeme poslat příští rok na o Anglie.

18 Volný slovosled změnou slovosledu se mění význam, ale Našeho Karla plánujeme poslat na příští rok o Anglie. Plánujeme našeho Karla na příští rok poslat do Anglie. Do Anglie plánujeme poslat našeho Karla na příští rok. Poslat našeho Karla do Anglie plánujeme na příští rok. Plánujeme poslat našeho Karla na příští rok do Anglie. Na příští rok plánujeme poslat našeho Karla do Anglie. Plánujeme poslat na příští rok do Anglie našeho Karla.? Karla našeho plánujeme poslat na příští rok o Anglie. * Našeho Karla plánujeme poslat příští rok na o Anglie. zdůrazněny jiné informace (distinkce staré-nové) informační struktura věty (Hajičová et al., 1998; 2004) stejné strukturní vztahy

19 Volný slovosled změnou slovosledu se mění význam, ale Našeho Karla plánujeme poslat na příští rok o Anglie. Plánujeme našeho Karla na příští rok poslat do Anglie. Do Anglie plánujeme poslat našeho Karla na příští rok. Poslat našeho Karla do Anglie plánujeme na příští rok. Plánujeme poslat našeho Karla na příští rok do Anglie. Na příští rok plánujeme poslat našeho Karla do Anglie. Plánujeme poslat na příští rok do Anglie našeho Karla.? Karla našeho plánujeme poslat na příští rok o Anglie. * Našeho Karla plánujeme poslat příští rok na o Anglie. zdůrazněny jiné informace (distinkce staré-nové) informační struktura věty (Hajičová et al., 1998; 2004) stejné strukturní vztahy neprojektivitní konstrukce

20 Osnova Jak se přirozený jazyk liší od formálního komplexnost víceznačnost volný slovosled 'nelokální' vztahy neprojektivita (= long distance dependencies) Základní jazykové vztahy Stromové formalismy složkové vs. závislostní přístupy OK pro např. pro angličtinu, ne pro češtinu proto závislostní Jaký modelovat (ne)závislosti? jednoduchá redukční analýza redukční analýza se 'shifty' jak se to odráží v datech? model restartovací automat Závislostní popis v nástrojích NLP

21 Tři typy jazykových vztahů (Tesnière, 1959) 1. závislost základní syntakticko-sémantická struktura věty binární vztah řídící závislý větný člen valency ~ the range of syntactic elements either required or specifically permitted by a verb or other lexical unit 'valenční' doplnění ~ slovníková informace volná doplnění lexikalizace (Concise Oxford Dictionary of Linguistics,1997)

22 Tři typy jazykových vztahů (Tesnière, 1959) 1. závislost základní syntakticko-sémantická struktura věty binární vztah řídící závislý větný člen valency ~ the range of syntactic elements either required or specifically permitted by a verb or other lexical unit 'valenční' doplnění ~ slovníková informace volná doplnění lexikalizace 2. slovosled lineární uspořádání slov (a interpunkce) ve větě (Concise Oxford Dictionary of Linguistics,1997)

23 Tři typy jazykových vztahů (Tesnière, 1959) 1. závislost základní syntakticko-sémantická struktura věty binární vztah řídící závislý větný člen valency ~ the range of syntactic elements either required or specifically permitted by a verb or other lexical unit 'valenční' doplnění ~ slovníková informace volná doplnění lexikalizace 2. slovosled lineární uspořádání slov (a interpunkce) ve větě 3. koordinace `zmnožení' syntaltické pozice Po babiččině příjezdu půjdou rodiče do divadla. Po babiččině příjezdu půjde maminka s tatínkem do divadla. Po babiččině příjezdu půjdou maminka a tatínek do divadla. Petr potkal Marii v divadle. Petr se potkal s Marií v divadle. Petr a Marie se potkali v divadle. Petr potkal Marii v divadle a Marie potkala Petra v divadle. (Concise Oxford Dictionary of Linguistics,1997)

24 Tři typy jazykových vztahů (Tesnière, 1959) 1. závislost základní syntakticko-sémantická struktura věty 2. slovosled lineární uspořádání slov a interpunkce ve větě 3. koordinace 'zmnožení' syntaktické pozice stromové formalismy pro popis syntaxe

25 Osnova Jak se přirozený jazyk liší od formálního komplexnost víceznačnost volný slovosled 'nelokální' vztahy neprojektivita (= long distance dependencies) Základní jazykové vztahy Stromové formalismy složkové vs. závislostní přístupy typologie jazyků: angličtina vs. čeština závislostní pro jazyky s volným slovosledem Jaký modelovat (ne)závislosti? jednoduchá redukční analýza redukční analýza se 'shifty' jak se to odráží v datech? model restartovací automat Závislostní popis v nástrojích NLP

26 Složkové vs. závislostní přístupy složkové přístupy ~ "context free grammars" N. Chomsky: Syntactic Structures (1957) rekurzivní vhodné pro jazyky s pevným slovosledem (podmětná vs. přísudková část věty) Mary will eat bread. S NP VP N VP NP Mary AuxV V N will eat bread zásobníkové automaty

27 Složkové vs. závislostní přístupy složkové přístupy ~ "context free grammars" N. Chomsky: Syntactic Structures (1957) rekurzivní vhodné pro jazyky s pevným slovosledem (podmětná vs. přísudková část věty) Mary will eat bread. S What will Mary eat? NP VP N VP NP S Mary AuxV V N NP VP will eat bread N VP NP zásobníkové automaty Mary AuxV will V eat N bread

28 Složkové vs. závislostní přístupy složkové přístupy ~ "context free grammars" N. Chomsky: Syntactic Structures (1957) rekurzivní vhodné pro jazyky s pevným slovosledem (podmětná vs. přísudková část věty) Mary will eat bread. S What will Mary eat? S' NP VP NP T' N VP NP what AuxV S Mary AuxV V N will NP VP will eat bread N VP NP zásobníkové automaty Mary AuxV trace i V eat N trace j

29 Složkové vs. závislostní přístupy složkové přístupy ~ "context free grammars" N. Chomsky: Syntactic Structures (1957) rekurzivní vhodné pro jazyky s pevným slovosledem problém s volným slovosledem S VP NP PrepP VP N Prep NP VP rodiče PrepP po Atr N V Prep NP babičině příjezdu do N půjdou divadla

30 Složkové vs. závislostní přístupy závislostní přístupy ~ "valenční syntax" L. Tesnière: Éléments de syntaxe structurale (1959) lexikalizace rekurzivní vhodné pro jazyky s volným slovosledem půjdou.pred po příjezdu.adv rodiče.sb do divadla.adv babiččině.atr

31 Složkové vs. závislostní přístupy závislostní přístupy ~ "valenční syntax" L. Tesnière: Éléments de syntaxe structurale (1959) lexikalizace rekurzivní vhodné pro jazyky s volným slovosledem půjdou.pred po příjezdu.adv rodiče.sb do divadla.adv babiččině.atr půjdou.pred půjdou.pred rodiče.sb po příjezdu.adv do divadla.adv po příjezdu.adv rodiče.sb do divadla.adv babiččině.atr babiččině.atr?? vhodný formální model

32 Osnova Jak se přirozený jazyk liší od formálního komplexnost víceznačnost volný slovosled 'nelokální' vztahy neprojektivita (= long distance dependencies) Základní jazykové vztahy Stromové formalismy složkové vs. závislostní přístupy typologie jazyků: angličtina vs. čeština závislostní pro jazyky s volným slovosledem Jaký modelovat (ne)závislosti? jednoduchá redukční analýza redukční analýza se 'shifty' jak se to odráží v datech? model restartovací automat Závislostní popis v nástrojích NLP

33 Jak modelovat (ne)závislosti? metoda redukční analýzy (RA) (Jančar et al., 1999, Lopatková et al., 2005; 2007) postupné zjednodušování věty při zachování správnosti a významu vypuštění slova/několika slov (a příp. přepsání jiných) Tato firma sídlí ve státě Texas. Tato firma sídlí ve státě Texas. Tato firma sídlí ve státě Texas.

34 Jak modelovat (ne)závislosti? metoda redukční analýzy (RA) (Jančar et al., 1999, Lopatková et al., 2005; 2007) postupné zjednodušování věty při zachování správnosti a významu vypuštění slova/několika slov (a příp. přepsání jiných) určení formálních závislostních vztahů (Lopatková et al., 2005) vzájemně nezávislé uzly vypouštěny v libovolném pořadí Tato firma sídlí ve státě Texas. Tato firma sídlí ve státě Texas. Tato firma sídlí ve státě Texas. Tato firma sídlí ve státě Texas. tato, Texas vzájemně nezávislé

35 Jak modelovat (ne)závislosti? metoda redukční analýzy (RA) (Jančar et al., 1999, Lopatková et al., 2005; 2007) postupné zjednodušování věty při zachování správnosti a významu vypuštění slova/několika slov (a příp. přepsání jiných) určení formálních závislostních vztahů (Lopatková et al., 2005) vzájemně nezávislé uzly vypouštěny v libovolném pořadí závislý uzel vypuštěn vždy dřív než řídící Tato firma sídlí ve státě Texas. Tato firma sídlí ve státě Texas. Tato firma sídlí ve státě Texas. Tato firma sídlí ve státě Texas. tato firma ve státě Texas

36 Jak modelovat (ne)závislosti? metoda redukční analýzy (RA) (Jančar et al., 1999, Lopatková et al., 2005; 2007) postupné zjednodušování věty při zachování správnosti a významu vypuštění slova/několika slov (a příp. přepsání jiných) určení formálních závislostních vztahů (Lopatková et al., 2005) vzájemně nezávislé uzly vypouštěny v libovolném pořadí závislý uzel vypuštěn vždy dřív než řídící některé uzly vypuštěny současně: redukční komponenty Tato firma sídlí ve státě Texas. Tato firma sídlí ve státě Texas. Tato firma sídlí ve státě Texas. Tato firma sídlí ve státě Texas. firma sídlí ve státě. firma sídlí ve státě. firma sídlí ve státě. tato firma ve státě Texas firma, ve státě vzájemně nezávislé

37 Jak modelovat (ne)závislosti? metoda redukční analýzy (RA) (Jančar et al., 1999, Lopatková et al., 2005; 2007) postupné zjednodušování věty při zachování správnosti a významu vypuštění slova/několika slov (a příp. přepsání jiných) určení formálních závislostních vztahů (Lopatková et al., 2005) vzájemně nezávislé uzly vypouštěny v libovolném pořadí závislý uzel vypuštěn vždy dřív než řídící některé uzly vypuštěny současně: redukční komponenty Tato firma sídlí ve státě Texas. Tato firma sídlí ve státě Texas. Tato firma sídlí ve státě Texas. Tato firma sídlí ve státě Texas. sídlí firma sídlí ve státě. firma sídlí ve státě. firma sídlí ve státě. tato firma ve státě Texas.

38 Závislosti a slovosled při RA Petr se rozhodl nekoupit knihu. Petr se rozhodl nekoupit. * se rozhodl nekoupit.

39 Závislosti a slovosled při RA rozšíření redukční analýzy: operace shift (Kuboň et al., 2012) změna slovosledu, pokud si vynucuje princip zachování správnosti (permutace slov, zachování hran) Petr se rozhodl nekoupit knihu. Petr se rozhodl nekoupit. * se rozhodl nekoupit. rozhodl se nekoupit. rozhodl rozhodl se nekoupit. se nekoupit. využít operaci shift pro měření volnosti slovosledu??

40 Složitost vs. volnost slovosledu (ne)projektivita ~ složitost slovosledu projektivivta (Marcus, 1965; Nebeský, 1975; Havelka et al ) počet 'děr' v pokrytí hrany (Plátek et al., 2000) (m-)planarita 'zahnízděnost' (Kuhlmann, Nivre, 2006)

41 Složitost vs. volnost slovosledu (Kuhlmann, Nivre, 2006)

42 Složitost vs. volnost slovosledu (ne)projektivita ~ složitost slovosledu hypotéza: počet 'shiftů' ~ volnost slovosledu čím více omezení na slovosled, tím více shiftů při RA korelace s neprojektivitou??

43 Složitost vs. volnost slovosledu (ne)projektivita ~ složitost slovosledu hypotéza: počet 'shiftů' ~ volnost slovosledu čím více omezení na slovosled, tím více shiftů při RA korelace s neprojektivitou? Pražský závislostní korpus (PDT) 1.0 (Hajič et al, 2001): 73 tis. vět, z nich 23% neproj. (17 tis.) neprojektivity: modální/fázové sloveso + infinitiv (5,7 tis. v 4,7 tis. větách) (Zeman, 2004) (Kuboň et al, 2012)

44 Složitost vs. volnost slovosledu (ne)projektivita ~ složitost slovosledu hypotéza: počet 'shiftů' ~ volnost slovosledu čím více omezení na slovosled, tím více shiftů při RA korelace s neprojektivitou? Pražský závislostní korpus (PDT) 1.0 (Hajič et al, 2001): 73 tis. vět, z nich 23% neproj. (17 tis.) neprojektivity: modální/fázové sloveso + infinitiv (5,7 tis. v 4,7 tis. větách) (Zeman, 2004) (Kuboň et al, 2012)

45 Složitost vs. volnost slovosledu (ne)projektivita ~ složitost slovosledu hypotéza: počet 'shiftů' ~ volnost slovosledu čím více omezení na slovosled, tím více shiftů při RA korelace s neprojektivitou? Pražský závislostní korpus (PDT) 1.0 (Hajič et al, 2001): 73 tis. vět, z nich 23% neproj. (17 tis.) neprojektivity: modální/fázové sloveso + infinitiv (5,7 tis. v 4,7 tis. větách) (Zeman, 2004) klitiky Opravit jsem se mu to včera snažil marně. (Hana, 2007) snažil opravit jsem se včera marně mu to (Kuboň et al, 2012)

46 Složitost vs. volnost slovosledu (ne)projektivita ~ složitost slovosledu hypotéza: počet 'shiftů' ~ volnost slovosledu čím více omezení na slovosled, tím více shiftů při RA korelace s neprojektivitou ALE: S těžkým se mu bála pomoci úkolem. (s využitím Holan et al, 2000) bála se pomoci. s mu úkolem těžkým

47 Složitost vs. volnost slovosledu (ne)projektivita ~ složitost slovosledu hypotéza: počet 'shiftů' ~ volnost slovosledu čím více omezení na slovosled, tím více shiftů při RA korelace s neprojektivitou ALE: S těžkým se mu bála pomoci úkolem. (s využitím Holan et al, 2000) S těžkým se bála pomoci úkolem. bála * S se bála pomoci úkolem. S úkolem se bála pomoci. se pomoci. * se bála pomoci. s mu * Bála se bála pomoci. úkolem těžkým (Kuboň et al, 2013) alespoň 2 shifty potřeba

48 Složitost vs. volnost slovosledu (ne)projektivita ~ složitost slovosledu hypotéza: počet 'shiftů' ~ volnost slovosledu další zjemnění: vypouštění sousedících slov 'projektivizace' vypouštění??? Jak se projevuje v českých větách?

49 Složitost vs. volnost slovosledu PDT 2.0 (Hajič et al, 2006) 38,7 tis. vět (trénovací sada) automatická RA (řízená závislostními stromy) 'Podezřelé' jevy v PDT 2.0

50 PDT 2.0 (Hajič et al, 2006) 38,7 tis. vět (trénovací) automatická RA (řízená závislostními stromy) testovací sada projektivní RA bez 'shiftů': 0 Složitost vs. volnost slovosledu věty o slovech (vč. interpunkce) bez koordinace jen věty s 1 určitým slovesem bez číslovkových výrazů 2,5 tis. vět

51 Složitost vs. volnost slovosledu PDT 2.0 (Hajič et al, 2006) 38,7 tis. vět (trénovací) automatická RA (řízená závislostními stromy) testovací sada projektivní RA bez 'shiftů': věty o slovech (vč. interpunkce) bez koordinace jen věty s 1 určitým slovesem bez číslovkových výrazů 2,5 tis. vět

52 Složitost vs. volnost slovosledu PDT 2.0 (Hajič et al, 2006) 38,7 tis. vět (trénovací) automatická RA (řízená závislostními stromy) testovací sada projektivní RA bez 'shiftů': redukovaná věta s 10 uzly věty o slovech (vč. interpunkce) bez koordinace jen věty s 1 určitým slovesem bez číslovkových výrazů 2,5 tis. vět??? Jak se projevuje ve složitějších větách?

53 Formální model syntaxe struktura závislostních vztahů ve větě rekurzivita nelokální chování češtiny lexikalizace jednoduchá RA ~ model závislostí slovosled míra volnosti slovosledu (ne)projektivita ~ míra složitosti slovosledu RA se shifty závislostní stromy pro popis syntaktické struktury

54 Restartovací automat matematický model závislostní redukční analýzy přirozeného jazyka jednoduchý restartovací automat (simple restarting automaton) (Jančar et al., 1995; Otto, 2006) zpracování vstupní věty delete, rewrite restart výpočet v cyklech rekurze nelokální chování ~ volný slovosled budování struktury věty DR-stromy, D-stromy (Plátek et al, 2000) (paralelní) závislostní struktury (Plátek et al., 2010) operace shift (Kuboň et al, 2012; Lopatková, Plátek 2013)

55 Osnova Jak se přirozený jazyk liší od formálního komplexnost víceznačnost volný slovosled 'nelokální' vztahy neprojektivita (= long distance dependencies) Základní jazykové vztahy Stromové formalismy složkové vs. závislostní přístupy typologie jazyků: angličtina vs. čeština závislostní pro jazyky s volným slovosledem Jaký modelovat (ne)závislosti? jednoduchá redukční analýza redukční analýza se 'shifty' jak se to odráží v datech? model restartovací automat Závislostní popis v nástrojích NLP

56 Korpusová lingvistika a slovníky Pražský závislostní korpus (PDT) 3 roviny anotace: m-rovina, a-rovina, t-rovina (semantické role, gramatémy, inf. struktura, koreference) PDT 3.0 (Hajič et al., 2003, Bejček et al, 2013) Prague Czech English Dependency Treebank (PCEDT) (Hajič et al., 2010) texty z Penn Treebank (Wall Street Journal) přeloženy do češtiny (překladatelé) anotační schéma 'zděděné' z PDT Pražský závislostní korpus mluvené češtiny Prague Arabic Dependency Treebank

57 Korpusová lingvistika a slovníky Syntaktické slovníky Valenční slovník českých sloves VALLEX (Lopatkováet al., 2003, 2008) PDT-VALLEX (Hajič et al., 2003; Urešová, 2011) EngVallex (Šindlerová, Cinková, 2011) nejčastější česká slovesa valenční rámec glosa, příklady přístupnost pro uživatele NLP technologie (xml) člověk (html, pdf)

58 Závislostní popis v datech a nástrojích K čemu korpusy a slovníky? počítačové zpracování přirozeného jazyka data: statistické metody, strojové učení vyhodnocování experimentů datové formáty uživatel-člověk výuka češtiny, tradiční teoretická lingvistika formální modelování složitost přirozeného jazyka

59 Strojový překlad frázový překlad: Moses, Joshua (Ondřej Bojar, ) En Cz (Russian, Hindi, )

60 Strojový překlad překlad analýza transfer syntéza: TectoMT En Cz (Tamil) Zdeněk Žabokrtský, David Mareček, Martin Popel transfer She has never laughed in her new boss's office. Nikdy se nesmála v úřadu svého nového šéfa.

61 Strojový překlad

62 Dialogové systémy Companions (Hajič, Cinková, Ptáček et al.) společník pro seniory prohlížení fotografií "Petra je sympatický partner pro konverzaci, zajímá se o Vaše fotky a o vzpomínky, které s nimi máte spojené. Je jí kolem třiceti a je to Češka jako poleno, názory na generaci jejích rodičů odpovídají jejímu věku. Má svoje názory, ale už nezná svoji biografii."

63 Dialogové systémy automatické zpracování jazyka analýza vět (až na roviny významu) generování dialog manager Dialog::DAFRunner DAF (= dialog action form) šablony pro sítě stavů instance těchto sítí v průběhu dialogu (aktuální stav pro každého uživatele) dialogové korpusy

64 Malá Seminář Úpa, současné matematiky,

ve strojovém překladu

ve strojovém překladu Jaká data se používají ve strojovém překladu Ondřej Bojar bojar@ufal.mff.cuni.cz Ústav formální a aplikované lingvistiky MFF UK ELRC Training Workshop, 15. prosinec 2015 1/39 Osnova Typy dat ve strojovém

Více

Využití korpusu InterCorp při vytváření ručních pravidel pro automatickou detekci pleonastického it a jeho českých ekvivalentů v závislostních datech

Využití korpusu InterCorp při vytváření ručních pravidel pro automatickou detekci pleonastického it a jeho českých ekvivalentů v závislostních datech Využití korpusu InterCorp při vytváření ručních pravidel pro automatickou detekci pleonastického it a jeho českých ekvivalentů v závislostních datech Kateřina Veselovská ÚFAL MFF UK veselovska@ufal.mff.cuni.cz

Více

PLIN041 Vývoj počítačové lingvistiky Algebraická lingvistika. Mgr. Dana Hlaváčková, Ph.D. od 2. pol. 50. let 20. st.

PLIN041 Vývoj počítačové lingvistiky Algebraická lingvistika. Mgr. Dana Hlaváčková, Ph.D. od 2. pol. 50. let 20. st. PLIN041 Vývoj počítačové lingvistiky Algebraická lingvistika Mgr. Dana Hlaváčková, Ph.D. od 2. pol. 50. let 20. st. Algebraická lingvistika matematika algebra logika formální logika logická analýza jazyka

Více

Automatická post-editace výstupů frázového strojového překladu (Depfix)

Automatická post-editace výstupů frázového strojového překladu (Depfix) Rudolf Rosa diplomová práce Automatická post-editace výstupů frázového strojového překladu (Depfix) Automatic post-editing of phrase-based machine translation outputs Motivační příklad Zdroj: All the winners

Více

Automatická post-editace výstupů frázového strojového překladu (Depfix)

Automatická post-editace výstupů frázového strojového překladu (Depfix) Rudolf Rosa diplomová práce Automatická post-editace výstupů frázového strojového překladu (Depfix) Automatic post-editing of phrase-based machine translation outputs Motivační příklad Zdroj (WMT 2010):

Více

Gramatické závislosti vs. koordinace z pohledu redukční analýzy

Gramatické závislosti vs. koordinace z pohledu redukční analýzy V. Kůrková et al. (Eds.): ITAT 2014 with selected papers from Znalosti 2014, CEUR Workshop Proceedings Vol. 1214, pp. 61 67 http://ceur-ws.org/vol-1214, Series ISSN 1613-0073, c 2014 M. Lopatková, J. Mírovský,

Více

Zachycení (nejen) koordinací v závislostních stromech

Zachycení (nejen) koordinací v závislostních stromech Zachycení (nejen) koordinací v závislostních stromech Markéta Lopatková ÚFAL MFF UK atural language syntax: Treebanks text corpora, esp. treebanks tens of languages stress on morphology, syntax manual

Více

SYNTAX LS Úvod

SYNTAX LS Úvod SYNTAX LS 2017 Úvod Co očekáváte od předmětu? viz sylabus požadavky Literatura Nový encyklopedický slovník češtiny https://www.czechency.org/ Panevová a kol. (2014) Mluvnice současné češtiny 2. http://www.cupress.cuni.cz/ink2_ext/index.jsp?

Více

Stanovisko habilitační komise

Stanovisko habilitační komise Stanovisko habilitační komise 5000 Vstupní a identifikační údaje Stanovisko komise na jmenování uchazeče: Markéta Lopatková {dříve Straňáková), RNDr., Ph.D. docentem pro obor: Informatika matematická lingvistika

Více

Depfix: Jak dělat strojový překlad lépe než Google Translate

Depfix: Jak dělat strojový překlad lépe než Google Translate Rudolf Rosa rur@nikdeeu http://ufalmffcunicz/rudolf-rosa Depfix: Jak dělat strojový překlad lépe než Google Translate Univerzita Karlova v Praze Matematicko-fyzikální fakulta Ústav formální a aplikované

Více

Významové vztahy v jazyce. Markéta Lopatková Ústav formální a aplikované lingvistiky MFF UK

Významové vztahy v jazyce. Markéta Lopatková Ústav formální a aplikované lingvistiky MFF UK ové vztahy v jazyce Markéta Ústav formální a aplikované lingvistiky MFF UK ové vztahy v jazyce Znak základní jazyková jednotka Co je to význam reprezentace významu ve FGD Reprezentace významu slov systém

Více

Další povinnosti / odb. praxe. Návrh témat prací. Návaznost na další stud. prog.

Další povinnosti / odb. praxe. Návrh témat prací. Návaznost na další stud. prog. Teoretická informatika Složitost I 2p+1c Z, Zk P RNDr. Čepek, PhD není stanoven Složitost II 2p+1c Z, Zk PV RNDr. Čepek, PhD Vyčíslitelnost II 2p Zk PV doc. Kučera, CSc. Datové struktury I 2p Zk P RNDr.

Více

Korpusová lingvistika a počítačové zpracování přirozeného jazyka

Korpusová lingvistika a počítačové zpracování přirozeného jazyka Korpusová lingvistika a počítačové zpracování přirozeného jazyka Vladimír Petkevič & Alexandr Rosen Ústav teoretické a komputační lingvistiky Filozofické fakulty Univerzity Karlovy v Praze Korpusový seminář

Více

V této kapitole jsou popsány hlavní vlastnosti anotačního schématu spolu s důvody, proč byly zavedeny.

V této kapitole jsou popsány hlavní vlastnosti anotačního schématu spolu s důvody, proč byly zavedeny. Syntakticky anotovaný korpus českých textů Milena Hnátková, Petr Jäger, Tomáš Jelínek, Vladimír Petkevič, Alexandr Rosen, Hana Skoumalová Ústav teoretické a komputační lingvistiky, Filozofická fakulta

Více

Jak dělat strojový překlad lépe než Google Translate

Jak dělat strojový překlad lépe než Google Translate Mgr. Rudolf Rosa Jak dělat strojový překlad lépe než Google Translate Univerzita Karlova v Praze Matematicko-fyzikální fakulta Ústav formální a aplikované lingvistiky ProSŠ, Gymnázium Kladno, 23. října

Více

Stromy. Strom: souvislý graf bez kružnic využití: počítačová grafika seznam objektů efektivní vyhledávání výpočetní stromy rozhodovací stromy

Stromy. Strom: souvislý graf bez kružnic využití: počítačová grafika seznam objektů efektivní vyhledávání výpočetní stromy rozhodovací stromy Stromy úvod Stromy Strom: souvislý graf bez kružnic využití: počítačová grafika seznam objektů efektivní vyhledávání výpočetní stromy rozhodovací stromy Neorientovaný strom Orientovaný strom Kořenový orientovaný

Více

LEXIKÁLNĚ- -SÉMANTICKÉ KONVERZE VE VALENČNÍM SLOVNÍKU

LEXIKÁLNĚ- -SÉMANTICKÉ KONVERZE VE VALENČNÍM SLOVNÍKU LEXIKÁLNĚ- -SÉMANTICKÉ KONVERZE VE VALENČNÍM SLOVNÍKU VÁCLAVA KETTNEROVÁ KAROLINUM Lexikálně-sémantické konverze ve valenčním slovníku Mgr. Václava Kettnerová, Ph.D. Recenzovali: prof. PhDr. Petr Karlík,

Více

VALENČNÍ SLOVNÍK PRAŽSKÉHO ZÁVISLOSTNÍHO KORPUSU PDT-Vallex. Zdeňka Urešová

VALENČNÍ SLOVNÍK PRAŽSKÉHO ZÁVISLOSTNÍHO KORPUSU PDT-Vallex. Zdeňka Urešová VALENČNÍ SLOVNÍK PRAŽSKÉHO ZÁVISLOSTNÍHO KORPUSU PDT-Vallex Zdeňka Urešová STUDIES IN COMPUTATIONAL AND THEORETICAL LINGUISTICS Zdeňka Urešová VALENČNÍ SLOVNÍK PRAŽSKÉHO ZÁVISLOSTNÍHO KORPUSU PDT-Vallex

Více

Výbor textů k moderní logice

Výbor textů k moderní logice Mezi filosofií a matematikou 5 Logika 20. století: mezi filosofií a matematikou Výbor textů k moderní logice K vydání připravil a úvodními slovy opatřil Jaroslav Peregrin 2006 Mezi filosofií a matematikou

Více

Strojové učení a pravidla pro extrakci informací z textů

Strojové učení a pravidla pro extrakci informací z textů Strojové učení a pravidla pro extrakci informací z textů Barbora Hladká Ústav formální a aplikované lingvistiky MFF UK http://ufal.mff.cuni.cz Machine Learning Meetups, 2. prosince 2015 Pozvánka Jako výzkumníci

Více

Nedostatky bezkontextové gramatiky

Nedostatky bezkontextové gramatiky Nedostatky bezkontextové gramatiky Běžná gramatika nezachytí schodu podmětu s přísudkem. Lze řešit přidáním zvláštních neterminálů pro jednotné číslo, množné číslo... Velký nárust počtu neterminálů Rozšířené

Více

Faktorované překladové modely. Základní informace

Faktorované překladové modely. Základní informace Základní informace statistická metoda překladu statistická metoda překladu založena na frázích (nikoliv slovo slovo) statistická metoda překladu založena na frázích (nikoliv slovo slovo) doplňková informace

Více

Univerzita Karlova v Praze Matematicko-fyzikální fakulta DIPLOMOVÁ PRÁCE. Ondřej Bojar Automatická extrakce. z korpusu Praha 2002

Univerzita Karlova v Praze Matematicko-fyzikální fakulta DIPLOMOVÁ PRÁCE. Ondřej Bojar Automatická extrakce. z korpusu Praha 2002 Univerzita Karlova v Praze Matematicko-fyzikální fakulta DIPLOMOVÁ PRÁCE Ondřej Bojar Automatická extrakce lexikálně-syntaktických údajů z korpusu Praha 2002 Ústav formální a aplikované lingvistiky Vedoucí

Více

Nainstalovat Tred!

Nainstalovat Tred! Nainstalovat Tred! http://ufal.mff.cuni.cz/tred/ 1 Korpusy a lingvistické nástroje Daniel Zeman zeman@ufal.mff.cuni.cz Ústav formální a aplikované lingvistiky Matematicko-fyzikální fakulta Univerzita Karlova

Více

Paralelní korpusy. 0/2 Z, zimní semestr 2006/2007. Alexandr Rosen

Paralelní korpusy. 0/2 Z, zimní semestr 2006/2007. Alexandr Rosen Paralelní korpusy 0/2 Z, zimní semestr 2006/2007 Alexandr Rosen Ústav teoretické a komputační lingvistiky Filozofická fakulta Univerzity Karlovy v Praze Alexandr Rosen (ÚTKL FF UK ) Paralelní korpusy 1

Více

PDT-Vallex: trochu jiný valenční slovník

PDT-Vallex: trochu jiný valenční slovník PDT-Vallex: trochu jiný valenční slovník Zdeňka Urešová uresova@ufal.mff.cuni.cz Univerzita Karlova v Praze Ústav formální a aplikované lingvistiky Malostranské nám. 25 11800 Praha 1 Česká republika Abstract

Více

Dolování z textu. Martin Vítek

Dolování z textu. Martin Vítek Dolování z textu Martin Vítek Proč dolovat z textu Obrovské množství materiálu v nestrukturované textové podobě knihy časopisy vědeckéčlánky sborníky konferencí internetové diskuse Proč dolovat z textu

Více

Perfektym v současné cestine

Perfektym v současné cestine Perfektym v současné cestine Korpusová studie jeho gramatikalizace na bázi Českého národního korpusu Mira Načeva-Marvanová NAKLADATELSTVÍ LIDOVÉ NOVINY Ústav Českého národního korpusu Obsah PŘEDMLUVA (František

Více

Anglický jazyk. Anglický jazyk. žák: TÉMATA. Fonetika: abeceda, výslovnost odlišných hlásek, zvuková podoba slova a její zvláštnosti

Anglický jazyk. Anglický jazyk. žák: TÉMATA. Fonetika: abeceda, výslovnost odlišných hlásek, zvuková podoba slova a její zvláštnosti Prima jednoduše mluví o sobě Slovní zásoba: elementární slovní 1 B/ 26, 27, 29, 30 tvoří jednoduché otázky a aktivně je používá zásoba pro zvolené tematické okruhy odpovídá na jednoduché otázky obsahující

Více

HOMONYMIE PŘEDLOŽKOVÝCH SKUPIN A MOŽNOST JEJICH AUTOMATICKÉHO ZPRACOVÁNÍ

HOMONYMIE PŘEDLOŽKOVÝCH SKUPIN A MOŽNOST JEJICH AUTOMATICKÉHO ZPRACOVÁNÍ Matematicko-fyzikální fakulta Univerzity Karlovy HOMONYMIE PŘEDLOŽKOVÝCH SKUPIN A MOŽNOST JEJICH AUTOMATICKÉHO ZPRACOVÁNÍ Markéta Straňáková Disertační práce Ústav formální a aplikované lingvistiky Praha,

Více

K některým otázkám závislostní gramatiky *

K některým otázkám závislostní gramatiky * K některým otázkám závislostní gramatiky * EVA HAJIČOVÁ On some issues of dependency grammar ABSTRACT: The popularity of dependency-based syntax has grown in the last thirty years, in spite of the fact

Více

Ondřej Bojar Ústav formální a aplikované lingvistiky Matematicko-fyzikální fakulta Univerzita Karlova v Praze

Ondřej Bojar Ústav formální a aplikované lingvistiky Matematicko-fyzikální fakulta Univerzita Karlova v Praze ÔÐ ØÖÓ ÓÚ Ó Ô Ð Ù Ondřej Bojar bojar@ufal.mff.cuni.cz Ústav formální a aplikované lingvistiky Matematicko-fyzikální fakulta Univerzita Karlova v Praze 18. říjen 2010 Aplikace strojového překladu Ç ÔÖ Þ

Více

Učíme počítače (nejen) česky: ÚFAL

Učíme počítače (nejen) česky: ÚFAL Učíme počítače (nejen) česky: ÚFAL Barbora Hladká Ústav formální a aplikované lingvistiky Matematicko-fyzikální fakulta Univerzita Karlova v Praze http://ufal.mff.cuni.cz Ústav formální a aplikované lingvistiky

Více

Pražský závislostní korpus jako elektronická cvičebnice češtiny

Pražský závislostní korpus jako elektronická cvičebnice češtiny Pražský závislostní korpus jako elektronická cvičebnice češtiny OndřejKučera ondrej.kucera@centrum.cz Abstrakt Pražský závislostní korpus patří mezi nejvýznamnější jazykové korpusy na světě. Cílem naší

Více

VALENČNÍ SLOVNÍK ČESKÝCH SUBSTANTIV: VÝCHODISKA A CÍLE

VALENČNÍ SLOVNÍK ČESKÝCH SUBSTANTIV: VÝCHODISKA A CÍLE VALENČNÍ SLOVNÍK ČESKÝCH SUBSTANTIV: VÝCHODISKA A CÍLE Veronika Kolářová, Jana Klímová, Anna Vernerová Ústav formální a aplikované lingvistiky MFF UK Praha 22. 4. 2016 Slovanská lexikografie počátkem 21.

Více

ŽÁKOVSKÝ KORPUS MERLIN: JAZYKOVÉ ÚROVNĚ A TROJJAZYČNÁ CHYBOVÁ ANOTACE

ŽÁKOVSKÝ KORPUS MERLIN: JAZYKOVÉ ÚROVNĚ A TROJJAZYČNÁ CHYBOVÁ ANOTACE ŽÁKOVSKÝ KORPUS MERLIN: JAZYKOVÉ ÚROVNĚ A TROJJAZYČNÁ CHYBOVÁ ANOTACE Mgr. Barbora Štindlová, Ph. D., Mgr. Veronika Čurdová, Mgr. Petra Klimešová, Mgr. Eva Levorová ÚJOP UK, Praha Práce s chybou, Poděbrady

Více

postaveny výhradně na syntaktické bázi: jazyk logiky neinterpretujeme, provádíme s ním pouze syntaktické manipulace důkazy

postaveny výhradně na syntaktické bázi: jazyk logiky neinterpretujeme, provádíme s ním pouze syntaktické manipulace důkazy Formální systémy (výrokové) logiky postaveny výhradně na syntaktické bázi: jazyk logiky neinterpretujeme, provádíme s ním pouze syntaktické manipulace důkazy cíl: získat formální teorii jako souhrn dokazatelných

Více

Co nového ve zpracování MWE Automatická identifikace

Co nového ve zpracování MWE Automatická identifikace Co nového ve zpracování MWE Automatická identifikace Společný workshop tří GAČRů 15. dubna 2013 Víceslovné výrazy Osnova Víceslovné výrazy (VV, MWE) v PDT 2.5 Automatická identifikace Problémy (Úpravy

Více

Korpusová lingvistika 2. Mgr. Dana Hlaváčková, Ph.D. CJBB105

Korpusová lingvistika 2. Mgr. Dana Hlaváčková, Ph.D. CJBB105 Korpusová lingvistika 2 Mgr. Dana Hlaváčková, Ph.D. CJBB105 Vývoj korpusové lingvistiky raná korpusová lingvistika, počítačová lexikografie, frekvenční studie (90. léta 19. st. 50. léta 20. st.) předěl

Více

Gramatické formalismy pro ZPJ

Gramatické formalismy pro ZPJ Gramatické formalismy pro ZPJ Aleš Horák E-mail: hales@fi.muni.cz http://nlp.fi.muni.cz/poc_lingv/ Obsah: Gramatické formalismy Kategoriální gramatiky Závislostní gramatiky Stromové gramatiky TAG a LTAG

Více

Automatic Alignment of Tectogrammatical Trees from Czech-English Parallel Corpus

Automatic Alignment of Tectogrammatical Trees from Czech-English Parallel Corpus Automatic Alignment of Tectogrammatical Trees from Czech-English Parallel Corpus David Mareček obhajoba diplomové práce 8. 9. 2008 Motivace Na t-rovině jsou si jazyky podobnější alignment by zde měl být

Více

2. Korpusový portál a volně dostupné nástroje

2. Korpusový portál a volně dostupné nástroje 1. Něco málo o jazykových korpusech co to je a jak se to používá 2. Korpusový portál a volně dostupné nástroje webový portál www.korpus.cz 3. Korpusový nástroj SyD porovnání dvou a více slov z hlediska

Více

Koncepce rozvoje Ústavu teoretické a komputační lingvistiky FF UK na období Úvod

Koncepce rozvoje Ústavu teoretické a komputační lingvistiky FF UK na období Úvod Koncepce rozvoje Ústavu teoretické a komputační lingvistiky FF UK na období 1. 2. 2016 31. 1. 2019 1. Úvod Ústav teoretické a komputační lingvistiky FF UK (dále ÚTKL) byl založen roku 1990 prof. PhDr.

Více

DALŠÍ CIZÍ JAZYK - NĚMECKÝ JAZYK

DALŠÍ CIZÍ JAZYK - NĚMECKÝ JAZYK DALŠÍ CIZÍ JAZYK - NĚMECKÝ JAZYK Charakteristika vyučovacího předmětu Obsahové vymezení Další cizí jazyk si povinně vyberou žáci od 7. ročníku. Výuka je zaměřena na rozvíjení komunikativní kompetence žáků,

Více

Formální jazyky a gramatiky Teorie programovacích jazyků

Formální jazyky a gramatiky Teorie programovacích jazyků Formální jazyky a gramatiky Teorie programovacích jazyků doc. Ing. Jiří Rybička, Dr. ústav informatiky PEF MENDELU v Brně rybicka@mendelu.cz Připomenutí základních pojmů ABECEDA jazyk je libovolná podmnožina

Více

Redukční analýza a Pražský závislostní korpus

Redukční analýza a Pražský závislostní korpus J. Yaghob (Ed.): ITAT 2015 pp. 43 50 Charles University in Prague, Prague, 2015 Redukční analýza a Pražský závislostní korpus Martin Plátek 1, Dana Pardubská 2, and Karel Oliva 3 1 MFF UK Praha, Malostranské

Více

Anotace rematizátorů a discourse connectives v PEDT

Anotace rematizátorů a discourse connectives v PEDT Anotace rematizátorů a discourse connectives v PEDT Kateřina Veselá Horní Mísečky 11. 2. 2009 Obsah Úvod Anotace rematizátorů v PEDT Specifické problémy v anglické anotaci Co jsme se naučili o rematizátorech

Více

AUTOMATICKÉ PROPOJOVÁNÍ LEXIKOGRAFICKÝCH ZDROJŮ A KORPUSOVÝCH DAT

AUTOMATICKÉ PROPOJOVÁNÍ LEXIKOGRAFICKÝCH ZDROJŮ A KORPUSOVÝCH DAT Univerzita Karlova v Praze Matematicko-fyzikální fakulta Disertační práce AUTOMATICKÉ PROPOJOVÁNÍ LEXIKOGRAFICKÝCH ZDROJŮ A KORPUSOVÝCH DAT Eduard Bejček Praha, 2015 Disertační práce Eduard Bejček Vedoucí

Více

Přísudek a podmět. Český jazyk 9. ročník Mgr. Iveta Burianová

Přísudek a podmět. Český jazyk 9. ročník Mgr. Iveta Burianová Přísudek a podmět Český jazyk 9. ročník Mgr. Iveta Burianová Autor: Mgr. Iveta Burianová Období: březen 2012 Šablona: I/2 12_INOVACE_93 Druh učebního materiálu: prezentace Vzdělávací oblast: Jazyk a jazyková

Více

Verbs. eoverview. Irregular. Part 1. Pre-intermediate! course A2-B1 CEFR. mp3 INTEGRATED into PDF. Printable flash cards included!

Verbs. eoverview. Irregular. Part 1. Pre-intermediate! course A2-B1 CEFR. mp3 INTEGRATED into PDF. Printable flash cards included! Part 1 mp3 INTEGRATED into PDF eoverview Printable flash cards included! What will you find in this audio eoverview? 100 most common irregular verbs in full sentences + Free cut-out flash cards for each

Více

XML databáze. Přednáška pro kurz PB138 Moderní značkovací jazyky Ing. Petr Adámek

XML databáze. Přednáška pro kurz PB138 Moderní značkovací jazyky Ing. Petr Adámek XML databáze Přednáška pro kurz PB138 Moderní značkovací jazyky 22. 4. 2003 Ing. Petr Adámek xadamek2@fi.muni.cz http://www.bilysklep.cz/petr/ XML databáze Proč XML databáze Efektivní ukládání a vyhledávání

Více

Automatické párování uzlů českých a anglických tektogramatických stromů

Automatické párování uzlů českých a anglických tektogramatických stromů Automatické párování uzlů českých a anglických tektogramatických stromů David Mareček pondělní seminář 13. 10. 2008 Osnova rozdíly mezi párováním na morfologické a na tektogramatické rovině ruční párování

Více

Modely datové. Další úrovní je logická úroveň Databázové modely Relační, Síťový, Hierarchický. Na fyzické úrovni se jedná o množinu souborů.

Modely datové. Další úrovní je logická úroveň Databázové modely Relační, Síťový, Hierarchický. Na fyzické úrovni se jedná o množinu souborů. Modely datové Existují různé úrovně pohledu na data. Nejvyšší úroveň je úroveň, která zachycuje pouze vztahy a struktury dat samotných. Konceptuální model - E-R model. Další úrovní je logická úroveň Databázové

Více

Vyjádření propozice pomocí verbálních substantiv v korpusech psané a mluvené češtiny

Vyjádření propozice pomocí verbálních substantiv v korpusech psané a mluvené češtiny Vyjádření propozice pomocí verbálních substantiv v korpusech psané a mluvené češtiny Veronika Kolářová, Jan Kolář, Marie Mikulová Ústav formální a aplikované lingvistiky Matematicko-fyzikální fakulta Univerzita

Více

Redukční analýza s operacemi delete a shift a analytická rovina Pražského závislostního korpusu (PDT).

Redukční analýza s operacemi delete a shift a analytická rovina Pražského závislostního korpusu (PDT). Redukční analýza s operacemi delete a shift a analytická rovina Pražského závislostního korpusu (PDT). M. Plátek, K. Oliva Rozšíření a zpřesnění prezentace z ITATu 2015. Pracovní verze. Úvod: tři typy

Více

Ústav bohemistických studií Bohemistika pro cizince tříletý bakalářský studijní program

Ústav bohemistických studií Bohemistika pro cizince tříletý bakalářský studijní program Ústav bohemistických studií Bohemistika pro cizince tříletý bakalářský studijní program https://ubs.ff.cuni.cz/cs/ Charakteristika studijního programu SP vychází zvl. z vědních oborů: lingvistika, literatura,

Více

Řešitelský kolektiv Finanční požadavky Finanční výhled na další roky Rozšiřující informace Přílohy. Role Celé jméno Typ odměny

Řešitelský kolektiv Finanční požadavky Finanční výhled na další roky Rozšiřující informace Přílohy. Role Celé jméno Typ odměny Detail projektu Řešitelský kolektiv Finanční požadavky Finanční výhled na další roky Rozšiřující informace Přílohy Základní informace o projektu č. 1572314 Český název projektu: Modelování závislostní

Více

Přehledvzdělávacích materiálů

Přehledvzdělávacích materiálů Přehledvzdělávacích materiálů Název školy Název a číslo OP Název šablony klíčové aktivity Název sady vzdělávacích materiálů Jméno tvůrce vzdělávací sady Číslo sady Anotace Základní škola Želiv Novými materiály

Více

Autor: Josef Kraus Datum: Škola: Trnová, Šablona: Číslo sady: 01. Název sady: Jazyková výchova Číslo DUM: 06

Autor: Josef Kraus Datum: Škola: Trnová, Šablona: Číslo sady: 01. Název sady: Jazyková výchova Číslo DUM: 06 Autor: Josef Kraus Datum: 16.3.2012 Škola: Integrovaná ZŠ a MŠM Trnová, Trnová 222, okres Plzeň - sever Šablona: III/2 - Inovace a zkvalitnění výuky Číslo sady: 01 Název sady: Jazyková výchova Číslo DUM:

Více

PLIN041 Vývoj počítačové lingvistiky. Korpusová lingvistika v ČR Počítačová lingvistika v ČR Brno. Mgr. Dana Hlaváčková, Ph.D.

PLIN041 Vývoj počítačové lingvistiky. Korpusová lingvistika v ČR Počítačová lingvistika v ČR Brno. Mgr. Dana Hlaváčková, Ph.D. PLIN041 Vývoj počítačové lingvistiky Korpusová lingvistika v ČR Počítačová lingvistika v ČR Brno Mgr. Dana Hlaváčková, Ph.D. Korpusová lingvistika v ČR lexikografické počátky 1988 Iniciativní skupina pro

Více

5. Abstraktní podstatná jména se často tvoří odvozováním od přídavných jmen různými příponami. Utvořte:

5. Abstraktní podstatná jména se často tvoří odvozováním od přídavných jmen různými příponami. Utvořte: Vzorové zadání 1. Užijte předložkové spojení bez peněz ve čtyřech větách nebo slovních spojeních tak, aby pokaždé mělo funkci jiného větného členu (napište kterého). (Příslovečná určení různého druhu započítávejte

Více

Úvod do logiky. (FLÚ AV ČR) Logika: CZ.1.07/2.2.00/ / 23

Úvod do logiky. (FLÚ AV ČR) Logika: CZ.1.07/2.2.00/ / 23 Úvod do logiky (FLÚ AV ČR) Logika: CZ.1.07/2.2.00/28.0216 2013 1 / 23 Co je logika? Čeho se týkají logické zákony? Tři možnosti: (1) světa (2) myšlení (3) jazyka (FLÚ AV ČR) Logika: CZ.1.07/2.2.00/28.0216

Více

0. Úvod. 1. Syntaktické značkování textu

0. Úvod. 1. Syntaktické značkování textu Systém pro syntaktické značkování velkých textových korpusů 1 Tomáš Jelínek Ústav teoretické a komputační lingvistiky Filozofické fakulty Karlovy univerzity Abstract Syntactic annotation of corpora is

Více

Nové EU projekty (od 2010)

Nové EU projekty (od 2010) Nové EU projekty (od 2010) Faust (STREP) T4ME Net (NoE) Jan Hajič & al. FAUST: Feedback Analysis for User-adaptive Statistical Translation 7. RP, kooperativní, STREP, 2010-13 (únor), GA #247762 Unit E1:

Více

Chytal tlouště na višni

Chytal tlouště na višni Chytal tlouště na višni Barbora Hladká Ústav formální a aplikované lingvistiky Matematicko-fyzikální fakulta Univerzita Karlova v Praze http://ufal.mff.cuni.cz Jedna noc s informatikou a matematikou MFF

Více

Jazyky a počítač: překážky a možnosti. Eva Hajičová MFF UK Praha

Jazyky a počítač: překážky a možnosti. Eva Hajičová MFF UK Praha Jazyky a počítač: překážky a možnosti Eva Hajičová MFF UK Praha Historický pohled 1947: Warren Weaver, dekódování 1949: memorandum Translation 1952: první konference o SP, USA 1954: Georgetown Univ., R

Více

Modely vyhledávání informací 4 podle technologie. 1) Booleovský model. George Boole 1815 1864. Aplikace booleovské logiky

Modely vyhledávání informací 4 podle technologie. 1) Booleovský model. George Boole 1815 1864. Aplikace booleovské logiky Modely vyhledávání informací 4 podle technologie 1) Booleovský model 1) booleovský 2) vektorový 3) strukturní 4) pravděpodobnostní a další 1 dokumenty a dotazy jsou reprezentovány množinou indexových termů

Více

Ontologie. Otakar Trunda

Ontologie. Otakar Trunda Ontologie Otakar Trunda Definice Mnoho různých definic: Formální specifikace sdílené konceptualizace Hierarchicky strukturovaná množina termínů popisujících určitou věcnou oblast Strukturovaná slovní zásoba

Více

Vzdělávací oblast: Inovace a zkvalitnění Vzdělávací obor: žáci SOU všechny obory výuky cizích jazyků na středních školách

Vzdělávací oblast: Inovace a zkvalitnění Vzdělávací obor: žáci SOU všechny obory výuky cizích jazyků na středních školách STŘEDNÍ ODBORNÁ ŠKOLA A STŘEDNÍ ODBORNÉ UČILIŠTĚ NERATOVICE Školní 664, 277 11 Neratovice, tel.: 315 682 314, IČO: 683 834 95, IZO: 110 450 639 Ředitelství školy: Spojovací 632, 277 11 Neratovice tel.:

Více

VALENCE SLOVES V PRAŽSKÉM ZÁVISLOSTNÍM KORPUSU. Zdeňka Urešová

VALENCE SLOVES V PRAŽSKÉM ZÁVISLOSTNÍM KORPUSU. Zdeňka Urešová VALENCE SLOVES V PRAŽSKÉM ZÁVISLOSTNÍM KORPUSU Zdeňka Urešová STUDIES IN COMPUTATIONAL AND THEORETICAL LINGUISTICS Zdeňka Urešová VALENCE SLOVES V PRAŽSKÉM ZÁVISLOSTNÍM KORPUSU Published by Institute of

Více

Školní kolo Olympiády v českém jazyce 2007/2008 34. ročník

Školní kolo Olympiády v českém jazyce 2007/2008 34. ročník Školní kolo Olympiády v českém jazyce 2007/2008 34. ročník II. kategorie Počet bodů:... Jméno:... Škola:... Přečtěte si následující text: Při utkání devátého kola první fotbalové soutěže hrozí střety mezi

Více

Typy predikátů: slovesa, predikativní jména, adjektiva, tranzitivní slovesa, relativní 1 věty / 10

Typy predikátů: slovesa, predikativní jména, adjektiva, tranzitivní slovesa, relativní 1 věty / 10 : slovesa, predikativní jména, adjektiva, tranzitivní slovesa, relativní věty FF MU Mojmír Dočekal ÚJABL Logika: systémový rámec rozvoje oboru v ČR a koncepce logických propedeutik pro mezioborová studia

Více

1 Úvod 5 1.1 Co je PDT 2.0... 5 1.2 Historické pozadí projektu... 6 1.3 Vývoj projektu... 6. 2 Roviny anotace 11 2.1 Morfologická rovina...

1 Úvod 5 1.1 Co je PDT 2.0... 5 1.2 Historické pozadí projektu... 6 1.3 Vývoj projektu... 6. 2 Roviny anotace 11 2.1 Morfologická rovina... Průvodce PDT 2.0 Jan Hajič, Eva Hajičová, Jaroslava Hlaváčová, Václav Klimeš, Jiří Mírovský, Petr Pajas, Jan Štěpánek, Barbora Vidová Hladká, and Zdeněk Žabokrtský 20. června 2006 Obsah 1 Úvod 5 1.1 Co

Více

Sémantický web a extrakce

Sémantický web a extrakce Sémantický web a extrakce informací Martin Kavalec kavalec@vse.cz Katedra informačního a znalostního inženýrství FIS VŠE Seminář KEG, 11. 11. 2004 p.1 Přehled témat Vize sémantického webu Extrakce informací

Více

na postupech, které se souhrnně nazývají závislostními. Oba principy lze vykládat

na postupech, které se souhrnně nazývají závislostními. Oba principy lze vykládat Závislostní redukční analýza přirozených jazyků Markéta Lopatková, 1 Martin Plátek 2 a Vladislav Kuboň 3 1 CKL MFF UK, Praha lopatkova@ckl.mff.cuni.cz 2 KTIML MFF UK, Praha platek@ksi.ms.mff.cuni.cz 3

Více

Maturitní otázky z předmětu PROGRAMOVÁNÍ

Maturitní otázky z předmětu PROGRAMOVÁNÍ Wichterlovo gymnázium, Ostrava-Poruba, příspěvková organizace Maturitní otázky z předmětu PROGRAMOVÁNÍ 1. Algoritmus a jeho vlastnosti algoritmus a jeho vlastnosti, formy zápisu algoritmu ověřování správnosti

Více

Syntaktická proměna Českého akademického korpusu. The syntactic transformation of the Czech Academic Corpus

Syntaktická proměna Českého akademického korpusu. The syntactic transformation of the Czech Academic Corpus ROZHLEDY Barbora Hladká Zdeňka Urešová Alla Bémová Syntaktická proměna Českého akademického korpusu The syntactic transformation of the Czech Academic Corpus ABSTRACT: The idea of the Czech Academic Corpus

Více

Název materiálu: Jazykové rozbory

Název materiálu: Jazykové rozbory Základní škola Nový Bor, náměstí Míru 128, okres Česká Lípa, příspěvková organizace e-mail: info@zsnamesti.cz; www.zsnamesti.cz; telefon: 487 722 010; fax: 487 722 378 Registrační číslo: CZ.1.07/1.4.00/21.3267

Více

Strukturovaný životopis

Strukturovaný životopis Strukturovaný životopis Mgr. Magdaléna Rysová Osobní informace E-mail: magdalena.rysova@post.cz WWW: https://ufal.mff.cuni.cz/magdalena-rysova Vzdělání od 2012 FF UK v Praze: doktorské studium, obor Český

Více

Počítačová lingvistika v praxi Pavel Ševeček, Tomáš Pavelek

Počítačová lingvistika v praxi Pavel Ševeček, Tomáš Pavelek Počítačová lingvistika v praxi Pavel Ševeček, Tomáš Pavelek I. Zpracování textu II. III. IV. Jazyk G Desambiguace Kontrola gramatiky V. Kontrola stylu VI. Valence sloves VII. Vývoj a odezva I. Zpracování

Více

Výroková a predikátová logika - III

Výroková a predikátová logika - III Výroková a predikátová logika - III Petr Gregor KTIML MFF UK ZS 2017/2018 Petr Gregor (KTIML MFF UK) Výroková a predikátová logika - III ZS 2017/2018 1 / 16 2-SAT 2-SAT Výrok je v k-cnf, je-li v CNF a

Více

Výměnný formát XML DTM DMVS PK

Výměnný formát XML DTM DMVS PK Výměnný formát XML DTM DMVS PK Představení partnerským krajům Praha 8. 2. 2016 Krajský úřad Plzeňského kraje Odbor informatiky Koncept etapizace tvorby výměnného formátu XML aktualizačních zakázek Digitální

Více

O SLOVOSLEDU Z KOMUNIKAČNÍHO POHLEDU. Kateřina Rysová

O SLOVOSLEDU Z KOMUNIKAČNÍHO POHLEDU. Kateřina Rysová O SLOVOSLEDU Z KOMUNIKAČNÍHO POHLEDU Kateřina Rysová STUDIES IN COMPUTATIONAL AND THEORETICAL LINGUISTICS Kateřina Rysová O SLOVOSLEDU Z KOMUNIKAČNÍHO POHLEDU Published by Institute of Formal and Applied

Více

Automatická anotace angličtiny na tektogramatické

Automatická anotace angličtiny na tektogramatické Univerzita Karlova v Praze Matematicko-fyzikální fakulta DIPLOMOVÁ PRÁCE Josef Toman Automatická anotace angličtiny na tektogramatické rovině Ústav formální a aplikované lingvistiky Vedoucí diplomové práce:

Více

Kam s ní? O interpunkční čárce v souvětí Jana Svobodová

Kam s ní? O interpunkční čárce v souvětí Jana Svobodová Kam s ní? O interpunkční čárce v souvětí Jana Svobodová KATEDRA ČESKÉHO JAZYKA A LITERATURY S DIDAKTIKOU, PdF OU Teoreticky o čárce v souvětí Bylo by asi výhodné, kdyby se psaní čárky jako interpunkčního

Více

AX Systém pro automatizovanou extrakci lexikálně-syntaktických údajů z korpusu.

AX Systém pro automatizovanou extrakci lexikálně-syntaktických údajů z korpusu. AX Systém pro automatizovanou extrakci lexikálně-syntaktických údajů z korpusu. Ondřej Bojar obo@cuni.cz Abstrakt Systém AX je určen ke zpracování morfologicky analyzovaných vět přirozeného jazyka s cílem

Více

Výroková a predikátová logika - XIII

Výroková a predikátová logika - XIII Výroková a predikátová logika - XIII Petr Gregor KTIML MFF UK ZS 2013/2014 Petr Gregor (KTIML MFF UK) Výroková a predikátová logika - XIII ZS 2013/2014 1 / 13 Úvod Algoritmická (ne)rozhodnutelnost Které

Více

Počítačové zpracování češtiny. Syntaktická analýza. Daniel Zeman

Počítačové zpracování češtiny. Syntaktická analýza. Daniel Zeman Počítačové zpracování češtiny Syntaktická analýza Daniel Zeman http://ufal.mff.cuni.cz/course/popj1/ Syntaktická rovina Vztahy mezi větnými členy. Větný člen je pro nás slovo (tj. též interpunkce). Z praktických

Více

Logika pro sémantický web

Logika pro sémantický web ZVYŠOVÁNÍ ODBORNÝCH KOMPETENCÍ AKADEMICKÝCH PRACOVNÍKŮ OSTRAVSKÉ UNIVERZITY V OSTRAVĚ A SLEZSKÉ UNIVERZITY V OPAVĚ Logika pro sémantický web Martin Žáček PROČ BALÍČEK? 1. balíček Formální logické systémy

Více

Škola: Střední škola obchodní, České Budějovice, Husova 9. Inovace a zkvalitnění výuky prostřednictvím ICT

Škola: Střední škola obchodní, České Budějovice, Husova 9. Inovace a zkvalitnění výuky prostřednictvím ICT Škola: Střední škola obchodní, České Budějovice, Husova 9 Projekt MŠMT ČR: EU PENÍZE ŠKOLÁM Číslo projektu: CZ.1.07/1.5.00/34.0536 Název projektu školy: Šablona III/2: Výuka s ICT na SŠ obchodní České

Více

Úvod do teorie grafů

Úvod do teorie grafů Úvod do teorie grafů Neorientovaný graf G = (V,E,I) V množina uzlů (vrcholů) - vertices E množina hran - edges I incidence incidence je zobrazení, buď: funkce: I: E V x V relace: I E V V incidence přiřadí

Více

4EK201 Matematické modelování. 2. Lineární programování

4EK201 Matematické modelování. 2. Lineární programování 4EK201 Matematické modelování 2. Lineární programování 2.1 Podstata operačního výzkumu Operační výzkum (výzkum operací) Operational research, operations research, management science Soubor disciplín zaměřených

Více

ANALÝZA DAT V R 5. ZÁKLADNÍ STATISTICKÉ TESTY. Mgr. Markéta Pavlíková Katedra pravděpodobnosti a matematické statistiky MFF UK.

ANALÝZA DAT V R 5. ZÁKLADNÍ STATISTICKÉ TESTY. Mgr. Markéta Pavlíková Katedra pravděpodobnosti a matematické statistiky MFF UK. ANALÝZA DAT V R 5. ZÁKLADNÍ STATISTICKÉ TESTY Mgr. Markéta Pavlíková Katedra pravděpodobnosti a matematické statistiky MFF UK www.biostatisticka.cz PRINCIPY STATISTICKÉ INFERENCE identifikace závisle proměnné

Více

Programování 3. hodina. RNDr. Jan Lánský, Ph.D. Katedra informatiky a matematiky Fakulta ekonomických studií Vysoká škola finanční a správní 2015

Programování 3. hodina. RNDr. Jan Lánský, Ph.D. Katedra informatiky a matematiky Fakulta ekonomických studií Vysoká škola finanční a správní 2015 Programování 3. hodina RNDr. Jan Lánský, Ph.D. Katedra informatiky a matematiky Fakulta ekonomických studií Vysoká škola finanční a správní 2015 Umíme z minulé hodiny Implementace zásobníku a fronty pomocí

Více

Testování konzistence a úplnosti valenčního slovníku českých sloves

Testování konzistence a úplnosti valenčního slovníku českých sloves Testování konzistence a úplnosti valenčního slovníku českých sloves Markéta Lopatková and Zdeněk Žabokrtský Center for Computational Linguistics, MFF UK, Prague {lopatkova,zabokrtsky}@ckl.mff.cuni.cz Abstrakt

Více

Větná polarita v češtině. Kateřina Veselovská Žďárek Hořovice,

Větná polarita v češtině. Kateřina Veselovská Žďárek Hořovice, Větná polarita v češtině Kateřina Veselovská Žďárek Hořovice, 27. 11. 2009 1 Polarita - úvod do problematiky Větná polarita: a) Cíl a motivace b) Charakteristika c) Možnosti výzkumu Větná polarita a vyhledávání

Více

Eva Lehečková 28. workshop Ţďárek Litoměřice

Eva Lehečková 28. workshop Ţďárek Litoměřice Eva Lehečková (eva.leheckova@ff.cuni.cz) 28. workshop Ţďárek Litoměřice 14. 5. 2011 1 1. Téma 2. Kontext (Korpus DEAF), termíny, problémy 3. Syntax CN kvalitativní sonda 2 V psané češtině českých neslyšících

Více

Rekonstrukce standardizovaného textu z mluvené řeči

Rekonstrukce standardizovaného textu z mluvené řeči Rekonstrukce standardizovaného textu z mluvené řeči Marie Mikulová, Zdeňka Urešová Příspěvek shrnuje dosavadní poznatky získané při budování Pražského závislostního korpusu mluvené češtiny (Prague Dependency

Více

Common Language Resources and Their Applications

Common Language Resources and Their Applications Common Language Resources and Their Applications http://clara.b.uib.no/ Markéta Lopatková Ústav formální a aplikované lingvistiky Matematicko-fyzikální fakulta Univerzita Karlova v Praze formální rámec

Více

Stefan Ratschan. Fakulta informačních technologíı. Evropský sociální fond Praha & EU: Investujeme do vaší budoucnosti

Stefan Ratschan. Fakulta informačních technologíı. Evropský sociální fond Praha & EU: Investujeme do vaší budoucnosti Logika pro každodenní přežití Stefan Ratschan Katedra číslicového návrhu Fakulta informačních technologíı České vysoké učení technické v Praze Evropský sociální fond Praha & EU: Investujeme do vaší budoucnosti

Více