Přirozený jazyk a matematika: jak popsat češtinu tak, aby jí porozuměly počítače?
|
|
- Emilie Hájková
- před 8 lety
- Počet zobrazení:
Transkript
1 Přirozený jazyk a matematika: jak popsat češtinu tak, aby jí porozuměly počítače? Markéta Lopatková Ústav formální a aplikované lingvistiky, MFF UK lopatkova@ufal.mff.cuni.cz
2 Cíl popsat přirozený jazyk akademická / filosofická perspektiva výzva ~ velice komplexní systém jazyk ~ myšlení, poznávání světa analytická filosofie (začátek 20. století) Gottlog Frege, Bertrand Russell, George Edward Moore, Rudolf Carnap, Ludwig Wittgenstein, Willard Van Orman Quine, skrze jazyk si uvědomujeme sebe sama prostředek porozumění (si navzájem)
3 Cíl popsat přirozený jazyk akademická / filosofická perspektiva výzva ~ velice komplexní systém jazyk ~ myšlení, poznávání světa analytická filosofie (začátek 20. století) Gottlog Frege, Bertrand Russell, George Edward Moore, Rudolf Carnap, Ludwig Wittgenstein, Willard Van Orman Quine, skrze jazyk si uvědomujeme sebe sama prostředek porozumění (si navzájem) nástroje pro automatické zpracování přirozeného jazyka strojový překlad dialogové systémy vyhledávání informací nestrukturovaná (částečně) strukturovaná data formální modely pro reprezentaci dat
4 Osnova Jak se přirozený jazyk liší od formálního komplexnost víceznačnost volný slovosled 'nelokální' vztahy neprojektivita (= long distance dependencies) Základní jazykové vztahy Stromové formalismy složkové vs. závislostní přístupy OK pro např. pro angličtinu, ne pro češtinu proto závislostní Jaký modelovat (ne)závislosti? jednoduchá redukční analýza redukční analýza se 'shifty' jak se to odráží v datech? model restartovací automat Závislostní popis v nástrojích NLP
5 Komplexnost význam výraz
6 Víceznačnost (a stejnoznačnost) koleje;?kohoutek; jeřáb; stát; žena; nakupovat lexikum homonymie
7 Víceznačnost (a stejnoznačnost) koleje;?kohoutek; jeřáb; stát; žena; nakupovat lexikum Brňáci čekají na nádraží. (Petkevič) Jemnou dětskou pokožku chrání i pěstí. (Spoustová) morfologie Chlapci přinesou velkou rybu. (Daneš, 1964) Představil tchyni hospodyni. (Panevová, 1981) Prvořadým úkolem jednotek UNPROFOR je chránit bezpečnostní zóny vyhlášené OSN. (MF Dnes A tahle kráva se jmenuje jak? (Zeman) Baví se dva králové: Můj šašek polyká meče! No, ten můj polyká mlaskaje. (Zeman) homonymie
8 Víceznačnost (a stejnoznačnost) koleje;?kohoutek; jeřáb; stát; žena; nakupovat lexikum Brňáci čekají na nádraží. (Petkevič) Jemnou dětskou pokožku chrání i pěstí. (Spoustová) morfologie Chlapci přinesou velkou rybu. (Daneš, 1964) Představil tchyni hospodyni. (Panevová, 1981) Prvořadým úkolem jednotek UNPROFOR je chránit bezpečnostní zóny vyhlášené OSN. (MF Dnes A tahle kráva se jmenuje jak? (Zeman) Baví se dva králové: Můj šašek polyká meče! No, ten můj polyká mlaskaje. (Zeman) (úřad) hledá policisty na hranici. (MF Dnes, 1996) Přijela policie, evakuovala téměř tisíc přítomných lidí a bezpečně nastraženou bombu odpálila. (MF Dnes, 1997) Pestrá přihrblá armáda. Jediná armáda, které pan P. nevyhlásil válku. Dokonce kdysi válčil s nimi. (Třešňák Klíč je pod rohožkou) syntax (povrchová) homonymie
9 Víceznačnost (a stejnoznačnost) koleje;?kohoutek; jeřáb; stát; žena; nakupovat lexikum Brňáci čekají na nádraží. (Petkevič) Jemnou dětskou pokožku chrání i pěstí. (Spoustová) morfologie Chlapci přinesou velkou rybu. (Daneš, 1964) Představil tchyni hospodyni. (Panevová, 1981) Prvořadým úkolem jednotek UNPROFOR je chránit bezpečnostní zóny vyhlášené OSN. (MF Dnes A tahle kráva se jmenuje jak? (Zeman) Baví se dva králové: Můj šašek polyká meče! No, ten můj polyká mlaskaje. (Zeman) (úřad) hledá policisty na hranici. (MF Dnes, 1996) Přijela policie, evakuovala téměř tisíc přítomných lidí a bezpečně nastraženou bombu odpálila. (MF Dnes, 1997) Pestrá přihrblá armáda. Jediná armáda, které pan P. nevyhlásil válku. Dokonce kdysi válčil s nimi. (Třešňák Klíč je pod rohožkou) syntax (povrchová) Spotřeba motorů stoupá. (Sgall, 1967) Kritika brazilského delegáta byla ostrá. (Daneš, 1964) Udělá to za dvě hodiny. (Panevová, 1980) Nechceš udělat kávu? syntax (hloubková) homonymie
10 Víceznačnost (a stejnoznačnost) eliminace homonymie 'garden path sentences' Vlaky u nás jezdí se zpožděním. Před vlastním zásahem policie neprodyšně uzavřela okolí kostela. homonymie
11 Víceznačnost (a stejnoznačnost) eliminace homonymie 'garden path sentences' Vlaky u nás jezdí se zpožděním. Vlaky u nás jezdí se zpožděním i malí školáci. (Peregrin) Před vlastním zásahem policie neprodyšně uzavřela okolí kostela. Před vlastním zásahem policie [hlídka] neprodyšně uzavřela okolí kostela. (MF Dnes, 1997) homonymie
12 Víceznačnost (a stejnoznačnost) eliminace homonymie 'garden path sentences' Vlaky u nás jezdí se zpožděním. Vlaky u nás jezdí se zpožděním i malí školáci. (Peregrin) Před vlastním zásahem policie neprodyšně uzavřela okolí kostela. Před vlastním zásahem policie [hlídka] neprodyšně uzavřela okolí kostela. (MF Dnes, 1997) kontext, pragmatika To se však nijak neprojevilo na výkonu závodnic, které noc před závodem se soupeřkami strávily hrátkami v posteli. (idnes) Banky snižují úroky z ekonomických důvodů / z krátkodobých půjček. (Kuboň, 2001) Bezdomovci ukradly hodinky, ale další příležitost už nedostaly. (Kuboň, 2001) [Ty ženy byly zkušené kapsářky.] homonymie
13 Víceznačnost (a stejnoznačnost) eliminace homonymie 'garden path sentences' Vlaky u nás jezdí se zpožděním. Vlaky u nás jezdí se zpožděním i malí školáci. (Peregrin) Před vlastním zásahem policie neprodyšně uzavřela okolí kostela. Před vlastním zásahem policie [hlídka] neprodyšně uzavřela okolí kostela. (MF Dnes, 1997) kontext, pragmatika To se však nijak neprojevilo na výkonu závodnic, které noc před závodem se soupeřkami strávily hrátkami v posteli. (idnes) Banky snižují úroky z ekonomických důvodů / z krátkodobých půjček. (Kuboň, 2001) Bezdomovci ukradly hodinky, ale další příležitost už nedostaly. (Kuboň, 2001) [Ty ženy byly zkušené kapsářky.] Dementi MŠMT ke spekulacím o zastavení Operačního programu Vzdělávání pro konkurenceschopnost. (TÝDEN, , rubrika Zápisník z Malé Strany) homonymie
14 (Víceznačnost a) stejnoznačnost borovice sosna; kopaná fotbal, obrátit se otočit se lexikum konverzivní predikáty: prodávat kupovat symetrické predikáty: sousedit, vzít si relační predikáty: bát následníkem být předchůdcem; být vyšší být nižší synonymie
15 (Víceznačnost a) stejnoznačnost borovice sosna; kopaná fotbal, obrátit se otočit se lexikum konverzivní predikáty: prodávat kupovat symetrické predikáty: sousedit, vzít si relační predikáty: bát následníkem být předchůdcem; být vyšší být nižší Knihu vydalo nakladatelství. Kniha byla vydána nakladatelstvím (se ziskem?) Otec děti bije. Od otce jsou děti bity (s radostí?) Po babiččině příjezdu půjdou rodiče do divadla. Až babička přijede, půjdou rodiče do divadla.?když babička přijede, půjdou rodiče do divadla. syntax (povrchová) synonymie
16 (Víceznačnost a) stejnoznačnost borovice sosna; kopaná fotbal, obrátit se otočit se lexikum konverzivní predikáty: prodávat kupovat symetrické predikáty: sousedit, vzít si relační predikáty: bát následníkem být předchůdcem; být vyšší být nižší Knihu vydalo nakladatelství. Kniha byla vydána nakladatelstvím (se ziskem?) Otec děti bije. Od otce jsou děti bity (s radostí?) Po babiččině příjezdu půjdou rodiče do divadla. Až babička přijede, půjdou rodiče do divadla.?když babička přijede, půjdou rodiče do divadla. syntax (povrchová) Ten starý stůl je žlutý.?ten žlutý stůl je starý. syntax (hloubková) synonymie
17 Volný slovosled změnou slovosledu se mění význam, ale Našeho Karla plánujeme poslat na příští rok o Anglie. Plánujeme našeho Karla na příští rok poslat do Anglie. Do Anglie plánujeme poslat našeho Karla na příští rok. Poslat našeho Karla do Anglie plánujeme na příští rok. Plánujeme poslat našeho Karla na příští rok do Anglie. Na příští rok plánujeme poslat našeho Karla do Anglie. Plánujeme poslat na příští rok do Anglie našeho Karla.? Karla našeho plánujeme poslat na příští rok o Anglie. * Našeho Karla plánujeme poslat příští rok na o Anglie.
18 Volný slovosled změnou slovosledu se mění význam, ale Našeho Karla plánujeme poslat na příští rok o Anglie. Plánujeme našeho Karla na příští rok poslat do Anglie. Do Anglie plánujeme poslat našeho Karla na příští rok. Poslat našeho Karla do Anglie plánujeme na příští rok. Plánujeme poslat našeho Karla na příští rok do Anglie. Na příští rok plánujeme poslat našeho Karla do Anglie. Plánujeme poslat na příští rok do Anglie našeho Karla.? Karla našeho plánujeme poslat na příští rok o Anglie. * Našeho Karla plánujeme poslat příští rok na o Anglie. zdůrazněny jiné informace (distinkce staré-nové) informační struktura věty (Hajičová et al., 1998; 2004) stejné strukturní vztahy
19 Volný slovosled změnou slovosledu se mění význam, ale Našeho Karla plánujeme poslat na příští rok o Anglie. Plánujeme našeho Karla na příští rok poslat do Anglie. Do Anglie plánujeme poslat našeho Karla na příští rok. Poslat našeho Karla do Anglie plánujeme na příští rok. Plánujeme poslat našeho Karla na příští rok do Anglie. Na příští rok plánujeme poslat našeho Karla do Anglie. Plánujeme poslat na příští rok do Anglie našeho Karla.? Karla našeho plánujeme poslat na příští rok o Anglie. * Našeho Karla plánujeme poslat příští rok na o Anglie. zdůrazněny jiné informace (distinkce staré-nové) informační struktura věty (Hajičová et al., 1998; 2004) stejné strukturní vztahy neprojektivitní konstrukce
20 Osnova Jak se přirozený jazyk liší od formálního komplexnost víceznačnost volný slovosled 'nelokální' vztahy neprojektivita (= long distance dependencies) Základní jazykové vztahy Stromové formalismy složkové vs. závislostní přístupy OK pro např. pro angličtinu, ne pro češtinu proto závislostní Jaký modelovat (ne)závislosti? jednoduchá redukční analýza redukční analýza se 'shifty' jak se to odráží v datech? model restartovací automat Závislostní popis v nástrojích NLP
21 Tři typy jazykových vztahů (Tesnière, 1959) 1. závislost základní syntakticko-sémantická struktura věty binární vztah řídící závislý větný člen valency ~ the range of syntactic elements either required or specifically permitted by a verb or other lexical unit 'valenční' doplnění ~ slovníková informace volná doplnění lexikalizace (Concise Oxford Dictionary of Linguistics,1997)
22 Tři typy jazykových vztahů (Tesnière, 1959) 1. závislost základní syntakticko-sémantická struktura věty binární vztah řídící závislý větný člen valency ~ the range of syntactic elements either required or specifically permitted by a verb or other lexical unit 'valenční' doplnění ~ slovníková informace volná doplnění lexikalizace 2. slovosled lineární uspořádání slov (a interpunkce) ve větě (Concise Oxford Dictionary of Linguistics,1997)
23 Tři typy jazykových vztahů (Tesnière, 1959) 1. závislost základní syntakticko-sémantická struktura věty binární vztah řídící závislý větný člen valency ~ the range of syntactic elements either required or specifically permitted by a verb or other lexical unit 'valenční' doplnění ~ slovníková informace volná doplnění lexikalizace 2. slovosled lineární uspořádání slov (a interpunkce) ve větě 3. koordinace `zmnožení' syntaltické pozice Po babiččině příjezdu půjdou rodiče do divadla. Po babiččině příjezdu půjde maminka s tatínkem do divadla. Po babiččině příjezdu půjdou maminka a tatínek do divadla. Petr potkal Marii v divadle. Petr se potkal s Marií v divadle. Petr a Marie se potkali v divadle. Petr potkal Marii v divadle a Marie potkala Petra v divadle. (Concise Oxford Dictionary of Linguistics,1997)
24 Tři typy jazykových vztahů (Tesnière, 1959) 1. závislost základní syntakticko-sémantická struktura věty 2. slovosled lineární uspořádání slov a interpunkce ve větě 3. koordinace 'zmnožení' syntaktické pozice stromové formalismy pro popis syntaxe
25 Osnova Jak se přirozený jazyk liší od formálního komplexnost víceznačnost volný slovosled 'nelokální' vztahy neprojektivita (= long distance dependencies) Základní jazykové vztahy Stromové formalismy složkové vs. závislostní přístupy typologie jazyků: angličtina vs. čeština závislostní pro jazyky s volným slovosledem Jaký modelovat (ne)závislosti? jednoduchá redukční analýza redukční analýza se 'shifty' jak se to odráží v datech? model restartovací automat Závislostní popis v nástrojích NLP
26 Složkové vs. závislostní přístupy složkové přístupy ~ "context free grammars" N. Chomsky: Syntactic Structures (1957) rekurzivní vhodné pro jazyky s pevným slovosledem (podmětná vs. přísudková část věty) Mary will eat bread. S NP VP N VP NP Mary AuxV V N will eat bread zásobníkové automaty
27 Složkové vs. závislostní přístupy složkové přístupy ~ "context free grammars" N. Chomsky: Syntactic Structures (1957) rekurzivní vhodné pro jazyky s pevným slovosledem (podmětná vs. přísudková část věty) Mary will eat bread. S What will Mary eat? NP VP N VP NP S Mary AuxV V N NP VP will eat bread N VP NP zásobníkové automaty Mary AuxV will V eat N bread
28 Složkové vs. závislostní přístupy složkové přístupy ~ "context free grammars" N. Chomsky: Syntactic Structures (1957) rekurzivní vhodné pro jazyky s pevným slovosledem (podmětná vs. přísudková část věty) Mary will eat bread. S What will Mary eat? S' NP VP NP T' N VP NP what AuxV S Mary AuxV V N will NP VP will eat bread N VP NP zásobníkové automaty Mary AuxV trace i V eat N trace j
29 Složkové vs. závislostní přístupy složkové přístupy ~ "context free grammars" N. Chomsky: Syntactic Structures (1957) rekurzivní vhodné pro jazyky s pevným slovosledem problém s volným slovosledem S VP NP PrepP VP N Prep NP VP rodiče PrepP po Atr N V Prep NP babičině příjezdu do N půjdou divadla
30 Složkové vs. závislostní přístupy závislostní přístupy ~ "valenční syntax" L. Tesnière: Éléments de syntaxe structurale (1959) lexikalizace rekurzivní vhodné pro jazyky s volným slovosledem půjdou.pred po příjezdu.adv rodiče.sb do divadla.adv babiččině.atr
31 Složkové vs. závislostní přístupy závislostní přístupy ~ "valenční syntax" L. Tesnière: Éléments de syntaxe structurale (1959) lexikalizace rekurzivní vhodné pro jazyky s volným slovosledem půjdou.pred po příjezdu.adv rodiče.sb do divadla.adv babiččině.atr půjdou.pred půjdou.pred rodiče.sb po příjezdu.adv do divadla.adv po příjezdu.adv rodiče.sb do divadla.adv babiččině.atr babiččině.atr?? vhodný formální model
32 Osnova Jak se přirozený jazyk liší od formálního komplexnost víceznačnost volný slovosled 'nelokální' vztahy neprojektivita (= long distance dependencies) Základní jazykové vztahy Stromové formalismy složkové vs. závislostní přístupy typologie jazyků: angličtina vs. čeština závislostní pro jazyky s volným slovosledem Jaký modelovat (ne)závislosti? jednoduchá redukční analýza redukční analýza se 'shifty' jak se to odráží v datech? model restartovací automat Závislostní popis v nástrojích NLP
33 Jak modelovat (ne)závislosti? metoda redukční analýzy (RA) (Jančar et al., 1999, Lopatková et al., 2005; 2007) postupné zjednodušování věty při zachování správnosti a významu vypuštění slova/několika slov (a příp. přepsání jiných) Tato firma sídlí ve státě Texas. Tato firma sídlí ve státě Texas. Tato firma sídlí ve státě Texas.
34 Jak modelovat (ne)závislosti? metoda redukční analýzy (RA) (Jančar et al., 1999, Lopatková et al., 2005; 2007) postupné zjednodušování věty při zachování správnosti a významu vypuštění slova/několika slov (a příp. přepsání jiných) určení formálních závislostních vztahů (Lopatková et al., 2005) vzájemně nezávislé uzly vypouštěny v libovolném pořadí Tato firma sídlí ve státě Texas. Tato firma sídlí ve státě Texas. Tato firma sídlí ve státě Texas. Tato firma sídlí ve státě Texas. tato, Texas vzájemně nezávislé
35 Jak modelovat (ne)závislosti? metoda redukční analýzy (RA) (Jančar et al., 1999, Lopatková et al., 2005; 2007) postupné zjednodušování věty při zachování správnosti a významu vypuštění slova/několika slov (a příp. přepsání jiných) určení formálních závislostních vztahů (Lopatková et al., 2005) vzájemně nezávislé uzly vypouštěny v libovolném pořadí závislý uzel vypuštěn vždy dřív než řídící Tato firma sídlí ve státě Texas. Tato firma sídlí ve státě Texas. Tato firma sídlí ve státě Texas. Tato firma sídlí ve státě Texas. tato firma ve státě Texas
36 Jak modelovat (ne)závislosti? metoda redukční analýzy (RA) (Jančar et al., 1999, Lopatková et al., 2005; 2007) postupné zjednodušování věty při zachování správnosti a významu vypuštění slova/několika slov (a příp. přepsání jiných) určení formálních závislostních vztahů (Lopatková et al., 2005) vzájemně nezávislé uzly vypouštěny v libovolném pořadí závislý uzel vypuštěn vždy dřív než řídící některé uzly vypuštěny současně: redukční komponenty Tato firma sídlí ve státě Texas. Tato firma sídlí ve státě Texas. Tato firma sídlí ve státě Texas. Tato firma sídlí ve státě Texas. firma sídlí ve státě. firma sídlí ve státě. firma sídlí ve státě. tato firma ve státě Texas firma, ve státě vzájemně nezávislé
37 Jak modelovat (ne)závislosti? metoda redukční analýzy (RA) (Jančar et al., 1999, Lopatková et al., 2005; 2007) postupné zjednodušování věty při zachování správnosti a významu vypuštění slova/několika slov (a příp. přepsání jiných) určení formálních závislostních vztahů (Lopatková et al., 2005) vzájemně nezávislé uzly vypouštěny v libovolném pořadí závislý uzel vypuštěn vždy dřív než řídící některé uzly vypuštěny současně: redukční komponenty Tato firma sídlí ve státě Texas. Tato firma sídlí ve státě Texas. Tato firma sídlí ve státě Texas. Tato firma sídlí ve státě Texas. sídlí firma sídlí ve státě. firma sídlí ve státě. firma sídlí ve státě. tato firma ve státě Texas.
38 Závislosti a slovosled při RA Petr se rozhodl nekoupit knihu. Petr se rozhodl nekoupit. * se rozhodl nekoupit.
39 Závislosti a slovosled při RA rozšíření redukční analýzy: operace shift (Kuboň et al., 2012) změna slovosledu, pokud si vynucuje princip zachování správnosti (permutace slov, zachování hran) Petr se rozhodl nekoupit knihu. Petr se rozhodl nekoupit. * se rozhodl nekoupit. rozhodl se nekoupit. rozhodl rozhodl se nekoupit. se nekoupit. využít operaci shift pro měření volnosti slovosledu??
40 Složitost vs. volnost slovosledu (ne)projektivita ~ složitost slovosledu projektivivta (Marcus, 1965; Nebeský, 1975; Havelka et al ) počet 'děr' v pokrytí hrany (Plátek et al., 2000) (m-)planarita 'zahnízděnost' (Kuhlmann, Nivre, 2006)
41 Složitost vs. volnost slovosledu (Kuhlmann, Nivre, 2006)
42 Složitost vs. volnost slovosledu (ne)projektivita ~ složitost slovosledu hypotéza: počet 'shiftů' ~ volnost slovosledu čím více omezení na slovosled, tím více shiftů při RA korelace s neprojektivitou??
43 Složitost vs. volnost slovosledu (ne)projektivita ~ složitost slovosledu hypotéza: počet 'shiftů' ~ volnost slovosledu čím více omezení na slovosled, tím více shiftů při RA korelace s neprojektivitou? Pražský závislostní korpus (PDT) 1.0 (Hajič et al, 2001): 73 tis. vět, z nich 23% neproj. (17 tis.) neprojektivity: modální/fázové sloveso + infinitiv (5,7 tis. v 4,7 tis. větách) (Zeman, 2004) (Kuboň et al, 2012)
44 Složitost vs. volnost slovosledu (ne)projektivita ~ složitost slovosledu hypotéza: počet 'shiftů' ~ volnost slovosledu čím více omezení na slovosled, tím více shiftů při RA korelace s neprojektivitou? Pražský závislostní korpus (PDT) 1.0 (Hajič et al, 2001): 73 tis. vět, z nich 23% neproj. (17 tis.) neprojektivity: modální/fázové sloveso + infinitiv (5,7 tis. v 4,7 tis. větách) (Zeman, 2004) (Kuboň et al, 2012)
45 Složitost vs. volnost slovosledu (ne)projektivita ~ složitost slovosledu hypotéza: počet 'shiftů' ~ volnost slovosledu čím více omezení na slovosled, tím více shiftů při RA korelace s neprojektivitou? Pražský závislostní korpus (PDT) 1.0 (Hajič et al, 2001): 73 tis. vět, z nich 23% neproj. (17 tis.) neprojektivity: modální/fázové sloveso + infinitiv (5,7 tis. v 4,7 tis. větách) (Zeman, 2004) klitiky Opravit jsem se mu to včera snažil marně. (Hana, 2007) snažil opravit jsem se včera marně mu to (Kuboň et al, 2012)
46 Složitost vs. volnost slovosledu (ne)projektivita ~ složitost slovosledu hypotéza: počet 'shiftů' ~ volnost slovosledu čím více omezení na slovosled, tím více shiftů při RA korelace s neprojektivitou ALE: S těžkým se mu bála pomoci úkolem. (s využitím Holan et al, 2000) bála se pomoci. s mu úkolem těžkým
47 Složitost vs. volnost slovosledu (ne)projektivita ~ složitost slovosledu hypotéza: počet 'shiftů' ~ volnost slovosledu čím více omezení na slovosled, tím více shiftů při RA korelace s neprojektivitou ALE: S těžkým se mu bála pomoci úkolem. (s využitím Holan et al, 2000) S těžkým se bála pomoci úkolem. bála * S se bála pomoci úkolem. S úkolem se bála pomoci. se pomoci. * se bála pomoci. s mu * Bála se bála pomoci. úkolem těžkým (Kuboň et al, 2013) alespoň 2 shifty potřeba
48 Složitost vs. volnost slovosledu (ne)projektivita ~ složitost slovosledu hypotéza: počet 'shiftů' ~ volnost slovosledu další zjemnění: vypouštění sousedících slov 'projektivizace' vypouštění??? Jak se projevuje v českých větách?
49 Složitost vs. volnost slovosledu PDT 2.0 (Hajič et al, 2006) 38,7 tis. vět (trénovací sada) automatická RA (řízená závislostními stromy) 'Podezřelé' jevy v PDT 2.0
50 PDT 2.0 (Hajič et al, 2006) 38,7 tis. vět (trénovací) automatická RA (řízená závislostními stromy) testovací sada projektivní RA bez 'shiftů': 0 Složitost vs. volnost slovosledu věty o slovech (vč. interpunkce) bez koordinace jen věty s 1 určitým slovesem bez číslovkových výrazů 2,5 tis. vět
51 Složitost vs. volnost slovosledu PDT 2.0 (Hajič et al, 2006) 38,7 tis. vět (trénovací) automatická RA (řízená závislostními stromy) testovací sada projektivní RA bez 'shiftů': věty o slovech (vč. interpunkce) bez koordinace jen věty s 1 určitým slovesem bez číslovkových výrazů 2,5 tis. vět
52 Složitost vs. volnost slovosledu PDT 2.0 (Hajič et al, 2006) 38,7 tis. vět (trénovací) automatická RA (řízená závislostními stromy) testovací sada projektivní RA bez 'shiftů': redukovaná věta s 10 uzly věty o slovech (vč. interpunkce) bez koordinace jen věty s 1 určitým slovesem bez číslovkových výrazů 2,5 tis. vět??? Jak se projevuje ve složitějších větách?
53 Formální model syntaxe struktura závislostních vztahů ve větě rekurzivita nelokální chování češtiny lexikalizace jednoduchá RA ~ model závislostí slovosled míra volnosti slovosledu (ne)projektivita ~ míra složitosti slovosledu RA se shifty závislostní stromy pro popis syntaktické struktury
54 Restartovací automat matematický model závislostní redukční analýzy přirozeného jazyka jednoduchý restartovací automat (simple restarting automaton) (Jančar et al., 1995; Otto, 2006) zpracování vstupní věty delete, rewrite restart výpočet v cyklech rekurze nelokální chování ~ volný slovosled budování struktury věty DR-stromy, D-stromy (Plátek et al, 2000) (paralelní) závislostní struktury (Plátek et al., 2010) operace shift (Kuboň et al, 2012; Lopatková, Plátek 2013)
55 Osnova Jak se přirozený jazyk liší od formálního komplexnost víceznačnost volný slovosled 'nelokální' vztahy neprojektivita (= long distance dependencies) Základní jazykové vztahy Stromové formalismy složkové vs. závislostní přístupy typologie jazyků: angličtina vs. čeština závislostní pro jazyky s volným slovosledem Jaký modelovat (ne)závislosti? jednoduchá redukční analýza redukční analýza se 'shifty' jak se to odráží v datech? model restartovací automat Závislostní popis v nástrojích NLP
56 Korpusová lingvistika a slovníky Pražský závislostní korpus (PDT) 3 roviny anotace: m-rovina, a-rovina, t-rovina (semantické role, gramatémy, inf. struktura, koreference) PDT 3.0 (Hajič et al., 2003, Bejček et al, 2013) Prague Czech English Dependency Treebank (PCEDT) (Hajič et al., 2010) texty z Penn Treebank (Wall Street Journal) přeloženy do češtiny (překladatelé) anotační schéma 'zděděné' z PDT Pražský závislostní korpus mluvené češtiny Prague Arabic Dependency Treebank
57 Korpusová lingvistika a slovníky Syntaktické slovníky Valenční slovník českých sloves VALLEX (Lopatkováet al., 2003, 2008) PDT-VALLEX (Hajič et al., 2003; Urešová, 2011) EngVallex (Šindlerová, Cinková, 2011) nejčastější česká slovesa valenční rámec glosa, příklady přístupnost pro uživatele NLP technologie (xml) člověk (html, pdf)
58 Závislostní popis v datech a nástrojích K čemu korpusy a slovníky? počítačové zpracování přirozeného jazyka data: statistické metody, strojové učení vyhodnocování experimentů datové formáty uživatel-člověk výuka češtiny, tradiční teoretická lingvistika formální modelování složitost přirozeného jazyka
59 Strojový překlad frázový překlad: Moses, Joshua (Ondřej Bojar, ) En Cz (Russian, Hindi, )
60 Strojový překlad překlad analýza transfer syntéza: TectoMT En Cz (Tamil) Zdeněk Žabokrtský, David Mareček, Martin Popel transfer She has never laughed in her new boss's office. Nikdy se nesmála v úřadu svého nového šéfa.
61 Strojový překlad
62 Dialogové systémy Companions (Hajič, Cinková, Ptáček et al.) společník pro seniory prohlížení fotografií "Petra je sympatický partner pro konverzaci, zajímá se o Vaše fotky a o vzpomínky, které s nimi máte spojené. Je jí kolem třiceti a je to Češka jako poleno, názory na generaci jejích rodičů odpovídají jejímu věku. Má svoje názory, ale už nezná svoji biografii."
63 Dialogové systémy automatické zpracování jazyka analýza vět (až na roviny významu) generování dialog manager Dialog::DAFRunner DAF (= dialog action form) šablony pro sítě stavů instance těchto sítí v průběhu dialogu (aktuální stav pro každého uživatele) dialogové korpusy
64 Malá Seminář Úpa, současné matematiky,
ve strojovém překladu
Jaká data se používají ve strojovém překladu Ondřej Bojar bojar@ufal.mff.cuni.cz Ústav formální a aplikované lingvistiky MFF UK ELRC Training Workshop, 15. prosinec 2015 1/39 Osnova Typy dat ve strojovém
VíceVyužití korpusu InterCorp při vytváření ručních pravidel pro automatickou detekci pleonastického it a jeho českých ekvivalentů v závislostních datech
Využití korpusu InterCorp při vytváření ručních pravidel pro automatickou detekci pleonastického it a jeho českých ekvivalentů v závislostních datech Kateřina Veselovská ÚFAL MFF UK veselovska@ufal.mff.cuni.cz
VícePLIN041 Vývoj počítačové lingvistiky Algebraická lingvistika. Mgr. Dana Hlaváčková, Ph.D. od 2. pol. 50. let 20. st.
PLIN041 Vývoj počítačové lingvistiky Algebraická lingvistika Mgr. Dana Hlaváčková, Ph.D. od 2. pol. 50. let 20. st. Algebraická lingvistika matematika algebra logika formální logika logická analýza jazyka
VíceAutomatická post-editace výstupů frázového strojového překladu (Depfix)
Rudolf Rosa diplomová práce Automatická post-editace výstupů frázového strojového překladu (Depfix) Automatic post-editing of phrase-based machine translation outputs Motivační příklad Zdroj: All the winners
VíceAutomatická post-editace výstupů frázového strojového překladu (Depfix)
Rudolf Rosa diplomová práce Automatická post-editace výstupů frázového strojového překladu (Depfix) Automatic post-editing of phrase-based machine translation outputs Motivační příklad Zdroj (WMT 2010):
VíceGramatické závislosti vs. koordinace z pohledu redukční analýzy
V. Kůrková et al. (Eds.): ITAT 2014 with selected papers from Znalosti 2014, CEUR Workshop Proceedings Vol. 1214, pp. 61 67 http://ceur-ws.org/vol-1214, Series ISSN 1613-0073, c 2014 M. Lopatková, J. Mírovský,
VíceZachycení (nejen) koordinací v závislostních stromech
Zachycení (nejen) koordinací v závislostních stromech Markéta Lopatková ÚFAL MFF UK atural language syntax: Treebanks text corpora, esp. treebanks tens of languages stress on morphology, syntax manual
VíceSYNTAX LS Úvod
SYNTAX LS 2017 Úvod Co očekáváte od předmětu? viz sylabus požadavky Literatura Nový encyklopedický slovník češtiny https://www.czechency.org/ Panevová a kol. (2014) Mluvnice současné češtiny 2. http://www.cupress.cuni.cz/ink2_ext/index.jsp?
VíceStanovisko habilitační komise
Stanovisko habilitační komise 5000 Vstupní a identifikační údaje Stanovisko komise na jmenování uchazeče: Markéta Lopatková {dříve Straňáková), RNDr., Ph.D. docentem pro obor: Informatika matematická lingvistika
VíceDepfix: Jak dělat strojový překlad lépe než Google Translate
Rudolf Rosa rur@nikdeeu http://ufalmffcunicz/rudolf-rosa Depfix: Jak dělat strojový překlad lépe než Google Translate Univerzita Karlova v Praze Matematicko-fyzikální fakulta Ústav formální a aplikované
VíceVýznamové vztahy v jazyce. Markéta Lopatková Ústav formální a aplikované lingvistiky MFF UK
ové vztahy v jazyce Markéta Ústav formální a aplikované lingvistiky MFF UK ové vztahy v jazyce Znak základní jazyková jednotka Co je to význam reprezentace významu ve FGD Reprezentace významu slov systém
VíceDalší povinnosti / odb. praxe. Návrh témat prací. Návaznost na další stud. prog.
Teoretická informatika Složitost I 2p+1c Z, Zk P RNDr. Čepek, PhD není stanoven Složitost II 2p+1c Z, Zk PV RNDr. Čepek, PhD Vyčíslitelnost II 2p Zk PV doc. Kučera, CSc. Datové struktury I 2p Zk P RNDr.
VíceKorpusová lingvistika a počítačové zpracování přirozeného jazyka
Korpusová lingvistika a počítačové zpracování přirozeného jazyka Vladimír Petkevič & Alexandr Rosen Ústav teoretické a komputační lingvistiky Filozofické fakulty Univerzity Karlovy v Praze Korpusový seminář
VíceV této kapitole jsou popsány hlavní vlastnosti anotačního schématu spolu s důvody, proč byly zavedeny.
Syntakticky anotovaný korpus českých textů Milena Hnátková, Petr Jäger, Tomáš Jelínek, Vladimír Petkevič, Alexandr Rosen, Hana Skoumalová Ústav teoretické a komputační lingvistiky, Filozofická fakulta
VíceJak dělat strojový překlad lépe než Google Translate
Mgr. Rudolf Rosa Jak dělat strojový překlad lépe než Google Translate Univerzita Karlova v Praze Matematicko-fyzikální fakulta Ústav formální a aplikované lingvistiky ProSŠ, Gymnázium Kladno, 23. října
VíceStromy. Strom: souvislý graf bez kružnic využití: počítačová grafika seznam objektů efektivní vyhledávání výpočetní stromy rozhodovací stromy
Stromy úvod Stromy Strom: souvislý graf bez kružnic využití: počítačová grafika seznam objektů efektivní vyhledávání výpočetní stromy rozhodovací stromy Neorientovaný strom Orientovaný strom Kořenový orientovaný
VíceLEXIKÁLNĚ- -SÉMANTICKÉ KONVERZE VE VALENČNÍM SLOVNÍKU
LEXIKÁLNĚ- -SÉMANTICKÉ KONVERZE VE VALENČNÍM SLOVNÍKU VÁCLAVA KETTNEROVÁ KAROLINUM Lexikálně-sémantické konverze ve valenčním slovníku Mgr. Václava Kettnerová, Ph.D. Recenzovali: prof. PhDr. Petr Karlík,
VíceVALENČNÍ SLOVNÍK PRAŽSKÉHO ZÁVISLOSTNÍHO KORPUSU PDT-Vallex. Zdeňka Urešová
VALENČNÍ SLOVNÍK PRAŽSKÉHO ZÁVISLOSTNÍHO KORPUSU PDT-Vallex Zdeňka Urešová STUDIES IN COMPUTATIONAL AND THEORETICAL LINGUISTICS Zdeňka Urešová VALENČNÍ SLOVNÍK PRAŽSKÉHO ZÁVISLOSTNÍHO KORPUSU PDT-Vallex
VíceVýbor textů k moderní logice
Mezi filosofií a matematikou 5 Logika 20. století: mezi filosofií a matematikou Výbor textů k moderní logice K vydání připravil a úvodními slovy opatřil Jaroslav Peregrin 2006 Mezi filosofií a matematikou
VíceStrojové učení a pravidla pro extrakci informací z textů
Strojové učení a pravidla pro extrakci informací z textů Barbora Hladká Ústav formální a aplikované lingvistiky MFF UK http://ufal.mff.cuni.cz Machine Learning Meetups, 2. prosince 2015 Pozvánka Jako výzkumníci
VíceNedostatky bezkontextové gramatiky
Nedostatky bezkontextové gramatiky Běžná gramatika nezachytí schodu podmětu s přísudkem. Lze řešit přidáním zvláštních neterminálů pro jednotné číslo, množné číslo... Velký nárust počtu neterminálů Rozšířené
VíceFaktorované překladové modely. Základní informace
Základní informace statistická metoda překladu statistická metoda překladu založena na frázích (nikoliv slovo slovo) statistická metoda překladu založena na frázích (nikoliv slovo slovo) doplňková informace
VíceUniverzita Karlova v Praze Matematicko-fyzikální fakulta DIPLOMOVÁ PRÁCE. Ondřej Bojar Automatická extrakce. z korpusu Praha 2002
Univerzita Karlova v Praze Matematicko-fyzikální fakulta DIPLOMOVÁ PRÁCE Ondřej Bojar Automatická extrakce lexikálně-syntaktických údajů z korpusu Praha 2002 Ústav formální a aplikované lingvistiky Vedoucí
VíceNainstalovat Tred!
Nainstalovat Tred! http://ufal.mff.cuni.cz/tred/ 1 Korpusy a lingvistické nástroje Daniel Zeman zeman@ufal.mff.cuni.cz Ústav formální a aplikované lingvistiky Matematicko-fyzikální fakulta Univerzita Karlova
VíceParalelní korpusy. 0/2 Z, zimní semestr 2006/2007. Alexandr Rosen
Paralelní korpusy 0/2 Z, zimní semestr 2006/2007 Alexandr Rosen Ústav teoretické a komputační lingvistiky Filozofická fakulta Univerzity Karlovy v Praze Alexandr Rosen (ÚTKL FF UK ) Paralelní korpusy 1
VícePDT-Vallex: trochu jiný valenční slovník
PDT-Vallex: trochu jiný valenční slovník Zdeňka Urešová uresova@ufal.mff.cuni.cz Univerzita Karlova v Praze Ústav formální a aplikované lingvistiky Malostranské nám. 25 11800 Praha 1 Česká republika Abstract
VíceDolování z textu. Martin Vítek
Dolování z textu Martin Vítek Proč dolovat z textu Obrovské množství materiálu v nestrukturované textové podobě knihy časopisy vědeckéčlánky sborníky konferencí internetové diskuse Proč dolovat z textu
VícePerfektym v současné cestine
Perfektym v současné cestine Korpusová studie jeho gramatikalizace na bázi Českého národního korpusu Mira Načeva-Marvanová NAKLADATELSTVÍ LIDOVÉ NOVINY Ústav Českého národního korpusu Obsah PŘEDMLUVA (František
VíceAnglický jazyk. Anglický jazyk. žák: TÉMATA. Fonetika: abeceda, výslovnost odlišných hlásek, zvuková podoba slova a její zvláštnosti
Prima jednoduše mluví o sobě Slovní zásoba: elementární slovní 1 B/ 26, 27, 29, 30 tvoří jednoduché otázky a aktivně je používá zásoba pro zvolené tematické okruhy odpovídá na jednoduché otázky obsahující
VíceHOMONYMIE PŘEDLOŽKOVÝCH SKUPIN A MOŽNOST JEJICH AUTOMATICKÉHO ZPRACOVÁNÍ
Matematicko-fyzikální fakulta Univerzity Karlovy HOMONYMIE PŘEDLOŽKOVÝCH SKUPIN A MOŽNOST JEJICH AUTOMATICKÉHO ZPRACOVÁNÍ Markéta Straňáková Disertační práce Ústav formální a aplikované lingvistiky Praha,
VíceK některým otázkám závislostní gramatiky *
K některým otázkám závislostní gramatiky * EVA HAJIČOVÁ On some issues of dependency grammar ABSTRACT: The popularity of dependency-based syntax has grown in the last thirty years, in spite of the fact
VíceOndřej Bojar Ústav formální a aplikované lingvistiky Matematicko-fyzikální fakulta Univerzita Karlova v Praze
ÔÐ ØÖÓ ÓÚ Ó Ô Ð Ù Ondřej Bojar bojar@ufal.mff.cuni.cz Ústav formální a aplikované lingvistiky Matematicko-fyzikální fakulta Univerzita Karlova v Praze 18. říjen 2010 Aplikace strojového překladu Ç ÔÖ Þ
VíceUčíme počítače (nejen) česky: ÚFAL
Učíme počítače (nejen) česky: ÚFAL Barbora Hladká Ústav formální a aplikované lingvistiky Matematicko-fyzikální fakulta Univerzita Karlova v Praze http://ufal.mff.cuni.cz Ústav formální a aplikované lingvistiky
VícePražský závislostní korpus jako elektronická cvičebnice češtiny
Pražský závislostní korpus jako elektronická cvičebnice češtiny OndřejKučera ondrej.kucera@centrum.cz Abstrakt Pražský závislostní korpus patří mezi nejvýznamnější jazykové korpusy na světě. Cílem naší
VíceVALENČNÍ SLOVNÍK ČESKÝCH SUBSTANTIV: VÝCHODISKA A CÍLE
VALENČNÍ SLOVNÍK ČESKÝCH SUBSTANTIV: VÝCHODISKA A CÍLE Veronika Kolářová, Jana Klímová, Anna Vernerová Ústav formální a aplikované lingvistiky MFF UK Praha 22. 4. 2016 Slovanská lexikografie počátkem 21.
VíceŽÁKOVSKÝ KORPUS MERLIN: JAZYKOVÉ ÚROVNĚ A TROJJAZYČNÁ CHYBOVÁ ANOTACE
ŽÁKOVSKÝ KORPUS MERLIN: JAZYKOVÉ ÚROVNĚ A TROJJAZYČNÁ CHYBOVÁ ANOTACE Mgr. Barbora Štindlová, Ph. D., Mgr. Veronika Čurdová, Mgr. Petra Klimešová, Mgr. Eva Levorová ÚJOP UK, Praha Práce s chybou, Poděbrady
Vícepostaveny výhradně na syntaktické bázi: jazyk logiky neinterpretujeme, provádíme s ním pouze syntaktické manipulace důkazy
Formální systémy (výrokové) logiky postaveny výhradně na syntaktické bázi: jazyk logiky neinterpretujeme, provádíme s ním pouze syntaktické manipulace důkazy cíl: získat formální teorii jako souhrn dokazatelných
VíceCo nového ve zpracování MWE Automatická identifikace
Co nového ve zpracování MWE Automatická identifikace Společný workshop tří GAČRů 15. dubna 2013 Víceslovné výrazy Osnova Víceslovné výrazy (VV, MWE) v PDT 2.5 Automatická identifikace Problémy (Úpravy
VíceKorpusová lingvistika 2. Mgr. Dana Hlaváčková, Ph.D. CJBB105
Korpusová lingvistika 2 Mgr. Dana Hlaváčková, Ph.D. CJBB105 Vývoj korpusové lingvistiky raná korpusová lingvistika, počítačová lexikografie, frekvenční studie (90. léta 19. st. 50. léta 20. st.) předěl
VíceGramatické formalismy pro ZPJ
Gramatické formalismy pro ZPJ Aleš Horák E-mail: hales@fi.muni.cz http://nlp.fi.muni.cz/poc_lingv/ Obsah: Gramatické formalismy Kategoriální gramatiky Závislostní gramatiky Stromové gramatiky TAG a LTAG
VíceAutomatic Alignment of Tectogrammatical Trees from Czech-English Parallel Corpus
Automatic Alignment of Tectogrammatical Trees from Czech-English Parallel Corpus David Mareček obhajoba diplomové práce 8. 9. 2008 Motivace Na t-rovině jsou si jazyky podobnější alignment by zde měl být
Více2. Korpusový portál a volně dostupné nástroje
1. Něco málo o jazykových korpusech co to je a jak se to používá 2. Korpusový portál a volně dostupné nástroje webový portál www.korpus.cz 3. Korpusový nástroj SyD porovnání dvou a více slov z hlediska
VíceKoncepce rozvoje Ústavu teoretické a komputační lingvistiky FF UK na období Úvod
Koncepce rozvoje Ústavu teoretické a komputační lingvistiky FF UK na období 1. 2. 2016 31. 1. 2019 1. Úvod Ústav teoretické a komputační lingvistiky FF UK (dále ÚTKL) byl založen roku 1990 prof. PhDr.
VíceDALŠÍ CIZÍ JAZYK - NĚMECKÝ JAZYK
DALŠÍ CIZÍ JAZYK - NĚMECKÝ JAZYK Charakteristika vyučovacího předmětu Obsahové vymezení Další cizí jazyk si povinně vyberou žáci od 7. ročníku. Výuka je zaměřena na rozvíjení komunikativní kompetence žáků,
VíceFormální jazyky a gramatiky Teorie programovacích jazyků
Formální jazyky a gramatiky Teorie programovacích jazyků doc. Ing. Jiří Rybička, Dr. ústav informatiky PEF MENDELU v Brně rybicka@mendelu.cz Připomenutí základních pojmů ABECEDA jazyk je libovolná podmnožina
VíceRedukční analýza a Pražský závislostní korpus
J. Yaghob (Ed.): ITAT 2015 pp. 43 50 Charles University in Prague, Prague, 2015 Redukční analýza a Pražský závislostní korpus Martin Plátek 1, Dana Pardubská 2, and Karel Oliva 3 1 MFF UK Praha, Malostranské
VíceAnotace rematizátorů a discourse connectives v PEDT
Anotace rematizátorů a discourse connectives v PEDT Kateřina Veselá Horní Mísečky 11. 2. 2009 Obsah Úvod Anotace rematizátorů v PEDT Specifické problémy v anglické anotaci Co jsme se naučili o rematizátorech
VíceAUTOMATICKÉ PROPOJOVÁNÍ LEXIKOGRAFICKÝCH ZDROJŮ A KORPUSOVÝCH DAT
Univerzita Karlova v Praze Matematicko-fyzikální fakulta Disertační práce AUTOMATICKÉ PROPOJOVÁNÍ LEXIKOGRAFICKÝCH ZDROJŮ A KORPUSOVÝCH DAT Eduard Bejček Praha, 2015 Disertační práce Eduard Bejček Vedoucí
VícePřísudek a podmět. Český jazyk 9. ročník Mgr. Iveta Burianová
Přísudek a podmět Český jazyk 9. ročník Mgr. Iveta Burianová Autor: Mgr. Iveta Burianová Období: březen 2012 Šablona: I/2 12_INOVACE_93 Druh učebního materiálu: prezentace Vzdělávací oblast: Jazyk a jazyková
VíceVerbs. eoverview. Irregular. Part 1. Pre-intermediate! course A2-B1 CEFR. mp3 INTEGRATED into PDF. Printable flash cards included!
Part 1 mp3 INTEGRATED into PDF eoverview Printable flash cards included! What will you find in this audio eoverview? 100 most common irregular verbs in full sentences + Free cut-out flash cards for each
VíceXML databáze. Přednáška pro kurz PB138 Moderní značkovací jazyky Ing. Petr Adámek
XML databáze Přednáška pro kurz PB138 Moderní značkovací jazyky 22. 4. 2003 Ing. Petr Adámek xadamek2@fi.muni.cz http://www.bilysklep.cz/petr/ XML databáze Proč XML databáze Efektivní ukládání a vyhledávání
VíceAutomatické párování uzlů českých a anglických tektogramatických stromů
Automatické párování uzlů českých a anglických tektogramatických stromů David Mareček pondělní seminář 13. 10. 2008 Osnova rozdíly mezi párováním na morfologické a na tektogramatické rovině ruční párování
VíceModely datové. Další úrovní je logická úroveň Databázové modely Relační, Síťový, Hierarchický. Na fyzické úrovni se jedná o množinu souborů.
Modely datové Existují různé úrovně pohledu na data. Nejvyšší úroveň je úroveň, která zachycuje pouze vztahy a struktury dat samotných. Konceptuální model - E-R model. Další úrovní je logická úroveň Databázové
VíceVyjádření propozice pomocí verbálních substantiv v korpusech psané a mluvené češtiny
Vyjádření propozice pomocí verbálních substantiv v korpusech psané a mluvené češtiny Veronika Kolářová, Jan Kolář, Marie Mikulová Ústav formální a aplikované lingvistiky Matematicko-fyzikální fakulta Univerzita
VíceRedukční analýza s operacemi delete a shift a analytická rovina Pražského závislostního korpusu (PDT).
Redukční analýza s operacemi delete a shift a analytická rovina Pražského závislostního korpusu (PDT). M. Plátek, K. Oliva Rozšíření a zpřesnění prezentace z ITATu 2015. Pracovní verze. Úvod: tři typy
VíceÚstav bohemistických studií Bohemistika pro cizince tříletý bakalářský studijní program
Ústav bohemistických studií Bohemistika pro cizince tříletý bakalářský studijní program https://ubs.ff.cuni.cz/cs/ Charakteristika studijního programu SP vychází zvl. z vědních oborů: lingvistika, literatura,
VíceŘešitelský kolektiv Finanční požadavky Finanční výhled na další roky Rozšiřující informace Přílohy. Role Celé jméno Typ odměny
Detail projektu Řešitelský kolektiv Finanční požadavky Finanční výhled na další roky Rozšiřující informace Přílohy Základní informace o projektu č. 1572314 Český název projektu: Modelování závislostní
VícePřehledvzdělávacích materiálů
Přehledvzdělávacích materiálů Název školy Název a číslo OP Název šablony klíčové aktivity Název sady vzdělávacích materiálů Jméno tvůrce vzdělávací sady Číslo sady Anotace Základní škola Želiv Novými materiály
VíceAutor: Josef Kraus Datum: Škola: Trnová, Šablona: Číslo sady: 01. Název sady: Jazyková výchova Číslo DUM: 06
Autor: Josef Kraus Datum: 16.3.2012 Škola: Integrovaná ZŠ a MŠM Trnová, Trnová 222, okres Plzeň - sever Šablona: III/2 - Inovace a zkvalitnění výuky Číslo sady: 01 Název sady: Jazyková výchova Číslo DUM:
VícePLIN041 Vývoj počítačové lingvistiky. Korpusová lingvistika v ČR Počítačová lingvistika v ČR Brno. Mgr. Dana Hlaváčková, Ph.D.
PLIN041 Vývoj počítačové lingvistiky Korpusová lingvistika v ČR Počítačová lingvistika v ČR Brno Mgr. Dana Hlaváčková, Ph.D. Korpusová lingvistika v ČR lexikografické počátky 1988 Iniciativní skupina pro
Více5. Abstraktní podstatná jména se často tvoří odvozováním od přídavných jmen různými příponami. Utvořte:
Vzorové zadání 1. Užijte předložkové spojení bez peněz ve čtyřech větách nebo slovních spojeních tak, aby pokaždé mělo funkci jiného větného členu (napište kterého). (Příslovečná určení různého druhu započítávejte
VíceÚvod do logiky. (FLÚ AV ČR) Logika: CZ.1.07/2.2.00/ / 23
Úvod do logiky (FLÚ AV ČR) Logika: CZ.1.07/2.2.00/28.0216 2013 1 / 23 Co je logika? Čeho se týkají logické zákony? Tři možnosti: (1) světa (2) myšlení (3) jazyka (FLÚ AV ČR) Logika: CZ.1.07/2.2.00/28.0216
Více0. Úvod. 1. Syntaktické značkování textu
Systém pro syntaktické značkování velkých textových korpusů 1 Tomáš Jelínek Ústav teoretické a komputační lingvistiky Filozofické fakulty Karlovy univerzity Abstract Syntactic annotation of corpora is
VíceNové EU projekty (od 2010)
Nové EU projekty (od 2010) Faust (STREP) T4ME Net (NoE) Jan Hajič & al. FAUST: Feedback Analysis for User-adaptive Statistical Translation 7. RP, kooperativní, STREP, 2010-13 (únor), GA #247762 Unit E1:
VíceChytal tlouště na višni
Chytal tlouště na višni Barbora Hladká Ústav formální a aplikované lingvistiky Matematicko-fyzikální fakulta Univerzita Karlova v Praze http://ufal.mff.cuni.cz Jedna noc s informatikou a matematikou MFF
VíceJazyky a počítač: překážky a možnosti. Eva Hajičová MFF UK Praha
Jazyky a počítač: překážky a možnosti Eva Hajičová MFF UK Praha Historický pohled 1947: Warren Weaver, dekódování 1949: memorandum Translation 1952: první konference o SP, USA 1954: Georgetown Univ., R
VíceModely vyhledávání informací 4 podle technologie. 1) Booleovský model. George Boole 1815 1864. Aplikace booleovské logiky
Modely vyhledávání informací 4 podle technologie 1) Booleovský model 1) booleovský 2) vektorový 3) strukturní 4) pravděpodobnostní a další 1 dokumenty a dotazy jsou reprezentovány množinou indexových termů
VíceOntologie. Otakar Trunda
Ontologie Otakar Trunda Definice Mnoho různých definic: Formální specifikace sdílené konceptualizace Hierarchicky strukturovaná množina termínů popisujících určitou věcnou oblast Strukturovaná slovní zásoba
VíceVzdělávací oblast: Inovace a zkvalitnění Vzdělávací obor: žáci SOU všechny obory výuky cizích jazyků na středních školách
STŘEDNÍ ODBORNÁ ŠKOLA A STŘEDNÍ ODBORNÉ UČILIŠTĚ NERATOVICE Školní 664, 277 11 Neratovice, tel.: 315 682 314, IČO: 683 834 95, IZO: 110 450 639 Ředitelství školy: Spojovací 632, 277 11 Neratovice tel.:
VíceVALENCE SLOVES V PRAŽSKÉM ZÁVISLOSTNÍM KORPUSU. Zdeňka Urešová
VALENCE SLOVES V PRAŽSKÉM ZÁVISLOSTNÍM KORPUSU Zdeňka Urešová STUDIES IN COMPUTATIONAL AND THEORETICAL LINGUISTICS Zdeňka Urešová VALENCE SLOVES V PRAŽSKÉM ZÁVISLOSTNÍM KORPUSU Published by Institute of
VíceŠkolní kolo Olympiády v českém jazyce 2007/2008 34. ročník
Školní kolo Olympiády v českém jazyce 2007/2008 34. ročník II. kategorie Počet bodů:... Jméno:... Škola:... Přečtěte si následující text: Při utkání devátého kola první fotbalové soutěže hrozí střety mezi
VíceTypy predikátů: slovesa, predikativní jména, adjektiva, tranzitivní slovesa, relativní 1 věty / 10
: slovesa, predikativní jména, adjektiva, tranzitivní slovesa, relativní věty FF MU Mojmír Dočekal ÚJABL Logika: systémový rámec rozvoje oboru v ČR a koncepce logických propedeutik pro mezioborová studia
Více1 Úvod 5 1.1 Co je PDT 2.0... 5 1.2 Historické pozadí projektu... 6 1.3 Vývoj projektu... 6. 2 Roviny anotace 11 2.1 Morfologická rovina...
Průvodce PDT 2.0 Jan Hajič, Eva Hajičová, Jaroslava Hlaváčová, Václav Klimeš, Jiří Mírovský, Petr Pajas, Jan Štěpánek, Barbora Vidová Hladká, and Zdeněk Žabokrtský 20. června 2006 Obsah 1 Úvod 5 1.1 Co
VíceSémantický web a extrakce
Sémantický web a extrakce informací Martin Kavalec kavalec@vse.cz Katedra informačního a znalostního inženýrství FIS VŠE Seminář KEG, 11. 11. 2004 p.1 Přehled témat Vize sémantického webu Extrakce informací
Vícena postupech, které se souhrnně nazývají závislostními. Oba principy lze vykládat
Závislostní redukční analýza přirozených jazyků Markéta Lopatková, 1 Martin Plátek 2 a Vladislav Kuboň 3 1 CKL MFF UK, Praha lopatkova@ckl.mff.cuni.cz 2 KTIML MFF UK, Praha platek@ksi.ms.mff.cuni.cz 3
VíceMaturitní otázky z předmětu PROGRAMOVÁNÍ
Wichterlovo gymnázium, Ostrava-Poruba, příspěvková organizace Maturitní otázky z předmětu PROGRAMOVÁNÍ 1. Algoritmus a jeho vlastnosti algoritmus a jeho vlastnosti, formy zápisu algoritmu ověřování správnosti
VíceSyntaktická proměna Českého akademického korpusu. The syntactic transformation of the Czech Academic Corpus
ROZHLEDY Barbora Hladká Zdeňka Urešová Alla Bémová Syntaktická proměna Českého akademického korpusu The syntactic transformation of the Czech Academic Corpus ABSTRACT: The idea of the Czech Academic Corpus
VíceNázev materiálu: Jazykové rozbory
Základní škola Nový Bor, náměstí Míru 128, okres Česká Lípa, příspěvková organizace e-mail: info@zsnamesti.cz; www.zsnamesti.cz; telefon: 487 722 010; fax: 487 722 378 Registrační číslo: CZ.1.07/1.4.00/21.3267
VíceStrukturovaný životopis
Strukturovaný životopis Mgr. Magdaléna Rysová Osobní informace E-mail: magdalena.rysova@post.cz WWW: https://ufal.mff.cuni.cz/magdalena-rysova Vzdělání od 2012 FF UK v Praze: doktorské studium, obor Český
VícePočítačová lingvistika v praxi Pavel Ševeček, Tomáš Pavelek
Počítačová lingvistika v praxi Pavel Ševeček, Tomáš Pavelek I. Zpracování textu II. III. IV. Jazyk G Desambiguace Kontrola gramatiky V. Kontrola stylu VI. Valence sloves VII. Vývoj a odezva I. Zpracování
VíceVýroková a predikátová logika - III
Výroková a predikátová logika - III Petr Gregor KTIML MFF UK ZS 2017/2018 Petr Gregor (KTIML MFF UK) Výroková a predikátová logika - III ZS 2017/2018 1 / 16 2-SAT 2-SAT Výrok je v k-cnf, je-li v CNF a
VíceVýměnný formát XML DTM DMVS PK
Výměnný formát XML DTM DMVS PK Představení partnerským krajům Praha 8. 2. 2016 Krajský úřad Plzeňského kraje Odbor informatiky Koncept etapizace tvorby výměnného formátu XML aktualizačních zakázek Digitální
VíceO SLOVOSLEDU Z KOMUNIKAČNÍHO POHLEDU. Kateřina Rysová
O SLOVOSLEDU Z KOMUNIKAČNÍHO POHLEDU Kateřina Rysová STUDIES IN COMPUTATIONAL AND THEORETICAL LINGUISTICS Kateřina Rysová O SLOVOSLEDU Z KOMUNIKAČNÍHO POHLEDU Published by Institute of Formal and Applied
VíceAutomatická anotace angličtiny na tektogramatické
Univerzita Karlova v Praze Matematicko-fyzikální fakulta DIPLOMOVÁ PRÁCE Josef Toman Automatická anotace angličtiny na tektogramatické rovině Ústav formální a aplikované lingvistiky Vedoucí diplomové práce:
VíceKam s ní? O interpunkční čárce v souvětí Jana Svobodová
Kam s ní? O interpunkční čárce v souvětí Jana Svobodová KATEDRA ČESKÉHO JAZYKA A LITERATURY S DIDAKTIKOU, PdF OU Teoreticky o čárce v souvětí Bylo by asi výhodné, kdyby se psaní čárky jako interpunkčního
VíceAX Systém pro automatizovanou extrakci lexikálně-syntaktických údajů z korpusu.
AX Systém pro automatizovanou extrakci lexikálně-syntaktických údajů z korpusu. Ondřej Bojar obo@cuni.cz Abstrakt Systém AX je určen ke zpracování morfologicky analyzovaných vět přirozeného jazyka s cílem
VíceVýroková a predikátová logika - XIII
Výroková a predikátová logika - XIII Petr Gregor KTIML MFF UK ZS 2013/2014 Petr Gregor (KTIML MFF UK) Výroková a predikátová logika - XIII ZS 2013/2014 1 / 13 Úvod Algoritmická (ne)rozhodnutelnost Které
VícePočítačové zpracování češtiny. Syntaktická analýza. Daniel Zeman
Počítačové zpracování češtiny Syntaktická analýza Daniel Zeman http://ufal.mff.cuni.cz/course/popj1/ Syntaktická rovina Vztahy mezi větnými členy. Větný člen je pro nás slovo (tj. též interpunkce). Z praktických
VíceLogika pro sémantický web
ZVYŠOVÁNÍ ODBORNÝCH KOMPETENCÍ AKADEMICKÝCH PRACOVNÍKŮ OSTRAVSKÉ UNIVERZITY V OSTRAVĚ A SLEZSKÉ UNIVERZITY V OPAVĚ Logika pro sémantický web Martin Žáček PROČ BALÍČEK? 1. balíček Formální logické systémy
VíceŠkola: Střední škola obchodní, České Budějovice, Husova 9. Inovace a zkvalitnění výuky prostřednictvím ICT
Škola: Střední škola obchodní, České Budějovice, Husova 9 Projekt MŠMT ČR: EU PENÍZE ŠKOLÁM Číslo projektu: CZ.1.07/1.5.00/34.0536 Název projektu školy: Šablona III/2: Výuka s ICT na SŠ obchodní České
VíceÚvod do teorie grafů
Úvod do teorie grafů Neorientovaný graf G = (V,E,I) V množina uzlů (vrcholů) - vertices E množina hran - edges I incidence incidence je zobrazení, buď: funkce: I: E V x V relace: I E V V incidence přiřadí
Více4EK201 Matematické modelování. 2. Lineární programování
4EK201 Matematické modelování 2. Lineární programování 2.1 Podstata operačního výzkumu Operační výzkum (výzkum operací) Operational research, operations research, management science Soubor disciplín zaměřených
VíceANALÝZA DAT V R 5. ZÁKLADNÍ STATISTICKÉ TESTY. Mgr. Markéta Pavlíková Katedra pravděpodobnosti a matematické statistiky MFF UK.
ANALÝZA DAT V R 5. ZÁKLADNÍ STATISTICKÉ TESTY Mgr. Markéta Pavlíková Katedra pravděpodobnosti a matematické statistiky MFF UK www.biostatisticka.cz PRINCIPY STATISTICKÉ INFERENCE identifikace závisle proměnné
VíceProgramování 3. hodina. RNDr. Jan Lánský, Ph.D. Katedra informatiky a matematiky Fakulta ekonomických studií Vysoká škola finanční a správní 2015
Programování 3. hodina RNDr. Jan Lánský, Ph.D. Katedra informatiky a matematiky Fakulta ekonomických studií Vysoká škola finanční a správní 2015 Umíme z minulé hodiny Implementace zásobníku a fronty pomocí
VíceTestování konzistence a úplnosti valenčního slovníku českých sloves
Testování konzistence a úplnosti valenčního slovníku českých sloves Markéta Lopatková and Zdeněk Žabokrtský Center for Computational Linguistics, MFF UK, Prague {lopatkova,zabokrtsky}@ckl.mff.cuni.cz Abstrakt
VíceVětná polarita v češtině. Kateřina Veselovská Žďárek Hořovice,
Větná polarita v češtině Kateřina Veselovská Žďárek Hořovice, 27. 11. 2009 1 Polarita - úvod do problematiky Větná polarita: a) Cíl a motivace b) Charakteristika c) Možnosti výzkumu Větná polarita a vyhledávání
VíceEva Lehečková 28. workshop Ţďárek Litoměřice
Eva Lehečková (eva.leheckova@ff.cuni.cz) 28. workshop Ţďárek Litoměřice 14. 5. 2011 1 1. Téma 2. Kontext (Korpus DEAF), termíny, problémy 3. Syntax CN kvalitativní sonda 2 V psané češtině českých neslyšících
VíceRekonstrukce standardizovaného textu z mluvené řeči
Rekonstrukce standardizovaného textu z mluvené řeči Marie Mikulová, Zdeňka Urešová Příspěvek shrnuje dosavadní poznatky získané při budování Pražského závislostního korpusu mluvené češtiny (Prague Dependency
VíceCommon Language Resources and Their Applications
Common Language Resources and Their Applications http://clara.b.uib.no/ Markéta Lopatková Ústav formální a aplikované lingvistiky Matematicko-fyzikální fakulta Univerzita Karlova v Praze formální rámec
VíceStefan Ratschan. Fakulta informačních technologíı. Evropský sociální fond Praha & EU: Investujeme do vaší budoucnosti
Logika pro každodenní přežití Stefan Ratschan Katedra číslicového návrhu Fakulta informačních technologíı České vysoké učení technické v Praze Evropský sociální fond Praha & EU: Investujeme do vaší budoucnosti
Více