Přirozený jazyk a matematika: jak popsat češtinu tak, aby jí porozuměly počítače?



Podobné dokumenty
ve strojovém překladu

Využití korpusu InterCorp při vytváření ručních pravidel pro automatickou detekci pleonastického it a jeho českých ekvivalentů v závislostních datech

PLIN041 Vývoj počítačové lingvistiky Algebraická lingvistika. Mgr. Dana Hlaváčková, Ph.D. od 2. pol. 50. let 20. st.

Automatická post-editace výstupů frázového strojového překladu (Depfix)

Automatická post-editace výstupů frázového strojového překladu (Depfix)

Gramatické závislosti vs. koordinace z pohledu redukční analýzy

Zachycení (nejen) koordinací v závislostních stromech

SYNTAX LS Úvod

Stanovisko habilitační komise

Depfix: Jak dělat strojový překlad lépe než Google Translate

Významové vztahy v jazyce. Markéta Lopatková Ústav formální a aplikované lingvistiky MFF UK

Další povinnosti / odb. praxe. Návrh témat prací. Návaznost na další stud. prog.

Korpusová lingvistika a počítačové zpracování přirozeného jazyka

V této kapitole jsou popsány hlavní vlastnosti anotačního schématu spolu s důvody, proč byly zavedeny.

Jak dělat strojový překlad lépe než Google Translate

Stromy. Strom: souvislý graf bez kružnic využití: počítačová grafika seznam objektů efektivní vyhledávání výpočetní stromy rozhodovací stromy

LEXIKÁLNĚ- -SÉMANTICKÉ KONVERZE VE VALENČNÍM SLOVNÍKU

VALENČNÍ SLOVNÍK PRAŽSKÉHO ZÁVISLOSTNÍHO KORPUSU PDT-Vallex. Zdeňka Urešová

Výbor textů k moderní logice

Strojové učení a pravidla pro extrakci informací z textů

Nedostatky bezkontextové gramatiky

Faktorované překladové modely. Základní informace

Univerzita Karlova v Praze Matematicko-fyzikální fakulta DIPLOMOVÁ PRÁCE. Ondřej Bojar Automatická extrakce. z korpusu Praha 2002

Nainstalovat Tred!

Paralelní korpusy. 0/2 Z, zimní semestr 2006/2007. Alexandr Rosen

PDT-Vallex: trochu jiný valenční slovník

Dolování z textu. Martin Vítek

Perfektym v současné cestine

Anglický jazyk. Anglický jazyk. žák: TÉMATA. Fonetika: abeceda, výslovnost odlišných hlásek, zvuková podoba slova a její zvláštnosti

HOMONYMIE PŘEDLOŽKOVÝCH SKUPIN A MOŽNOST JEJICH AUTOMATICKÉHO ZPRACOVÁNÍ

K některým otázkám závislostní gramatiky *

Ondřej Bojar Ústav formální a aplikované lingvistiky Matematicko-fyzikální fakulta Univerzita Karlova v Praze

Učíme počítače (nejen) česky: ÚFAL

Pražský závislostní korpus jako elektronická cvičebnice češtiny

VALENČNÍ SLOVNÍK ČESKÝCH SUBSTANTIV: VÝCHODISKA A CÍLE

ŽÁKOVSKÝ KORPUS MERLIN: JAZYKOVÉ ÚROVNĚ A TROJJAZYČNÁ CHYBOVÁ ANOTACE

postaveny výhradně na syntaktické bázi: jazyk logiky neinterpretujeme, provádíme s ním pouze syntaktické manipulace důkazy

Co nového ve zpracování MWE Automatická identifikace

Korpusová lingvistika 2. Mgr. Dana Hlaváčková, Ph.D. CJBB105

Gramatické formalismy pro ZPJ

Automatic Alignment of Tectogrammatical Trees from Czech-English Parallel Corpus

2. Korpusový portál a volně dostupné nástroje

Koncepce rozvoje Ústavu teoretické a komputační lingvistiky FF UK na období Úvod

DALŠÍ CIZÍ JAZYK - NĚMECKÝ JAZYK

Formální jazyky a gramatiky Teorie programovacích jazyků

Redukční analýza a Pražský závislostní korpus

Anotace rematizátorů a discourse connectives v PEDT

AUTOMATICKÉ PROPOJOVÁNÍ LEXIKOGRAFICKÝCH ZDROJŮ A KORPUSOVÝCH DAT

Přísudek a podmět. Český jazyk 9. ročník Mgr. Iveta Burianová

Verbs. eoverview. Irregular. Part 1. Pre-intermediate! course A2-B1 CEFR. mp3 INTEGRATED into PDF. Printable flash cards included!

XML databáze. Přednáška pro kurz PB138 Moderní značkovací jazyky Ing. Petr Adámek

Automatické párování uzlů českých a anglických tektogramatických stromů

Modely datové. Další úrovní je logická úroveň Databázové modely Relační, Síťový, Hierarchický. Na fyzické úrovni se jedná o množinu souborů.

Vyjádření propozice pomocí verbálních substantiv v korpusech psané a mluvené češtiny

Redukční analýza s operacemi delete a shift a analytická rovina Pražského závislostního korpusu (PDT).

Ústav bohemistických studií Bohemistika pro cizince tříletý bakalářský studijní program

Řešitelský kolektiv Finanční požadavky Finanční výhled na další roky Rozšiřující informace Přílohy. Role Celé jméno Typ odměny

Přehledvzdělávacích materiálů

Autor: Josef Kraus Datum: Škola: Trnová, Šablona: Číslo sady: 01. Název sady: Jazyková výchova Číslo DUM: 06

PLIN041 Vývoj počítačové lingvistiky. Korpusová lingvistika v ČR Počítačová lingvistika v ČR Brno. Mgr. Dana Hlaváčková, Ph.D.

5. Abstraktní podstatná jména se často tvoří odvozováním od přídavných jmen různými příponami. Utvořte:

Úvod do logiky. (FLÚ AV ČR) Logika: CZ.1.07/2.2.00/ / 23

0. Úvod. 1. Syntaktické značkování textu

Nové EU projekty (od 2010)

Chytal tlouště na višni

Jazyky a počítač: překážky a možnosti. Eva Hajičová MFF UK Praha

Modely vyhledávání informací 4 podle technologie. 1) Booleovský model. George Boole Aplikace booleovské logiky

Ontologie. Otakar Trunda

Vzdělávací oblast: Inovace a zkvalitnění Vzdělávací obor: žáci SOU všechny obory výuky cizích jazyků na středních školách

VALENCE SLOVES V PRAŽSKÉM ZÁVISLOSTNÍM KORPUSU. Zdeňka Urešová

Školní kolo Olympiády v českém jazyce 2007/ ročník

Typy predikátů: slovesa, predikativní jména, adjektiva, tranzitivní slovesa, relativní 1 věty / 10

1 Úvod Co je PDT Historické pozadí projektu Vývoj projektu Roviny anotace Morfologická rovina...

Sémantický web a extrakce

na postupech, které se souhrnně nazývají závislostními. Oba principy lze vykládat

Maturitní otázky z předmětu PROGRAMOVÁNÍ

Syntaktická proměna Českého akademického korpusu. The syntactic transformation of the Czech Academic Corpus

Název materiálu: Jazykové rozbory

Strukturovaný životopis

Počítačová lingvistika v praxi Pavel Ševeček, Tomáš Pavelek

Výroková a predikátová logika - III

Výměnný formát XML DTM DMVS PK

O SLOVOSLEDU Z KOMUNIKAČNÍHO POHLEDU. Kateřina Rysová

Automatická anotace angličtiny na tektogramatické

Kam s ní? O interpunkční čárce v souvětí Jana Svobodová

AX Systém pro automatizovanou extrakci lexikálně-syntaktických údajů z korpusu.

Výroková a predikátová logika - XIII

Počítačové zpracování češtiny. Syntaktická analýza. Daniel Zeman

Logika pro sémantický web

Škola: Střední škola obchodní, České Budějovice, Husova 9. Inovace a zkvalitnění výuky prostřednictvím ICT

Úvod do teorie grafů

4EK201 Matematické modelování. 2. Lineární programování

ANALÝZA DAT V R 5. ZÁKLADNÍ STATISTICKÉ TESTY. Mgr. Markéta Pavlíková Katedra pravděpodobnosti a matematické statistiky MFF UK.

Programování 3. hodina. RNDr. Jan Lánský, Ph.D. Katedra informatiky a matematiky Fakulta ekonomických studií Vysoká škola finanční a správní 2015

Testování konzistence a úplnosti valenčního slovníku českých sloves

Větná polarita v češtině. Kateřina Veselovská Žďárek Hořovice,

Eva Lehečková 28. workshop Ţďárek Litoměřice

Rekonstrukce standardizovaného textu z mluvené řeči

Common Language Resources and Their Applications

Stefan Ratschan. Fakulta informačních technologíı. Evropský sociální fond Praha & EU: Investujeme do vaší budoucnosti

Transkript:

Přirozený jazyk a matematika: jak popsat češtinu tak, aby jí porozuměly počítače? Markéta Lopatková Ústav formální a aplikované lingvistiky, MFF UK lopatkova@ufal.mff.cuni.cz

Cíl popsat přirozený jazyk akademická / filosofická perspektiva výzva ~ velice komplexní systém jazyk ~ myšlení, poznávání světa analytická filosofie (začátek 20. století) Gottlog Frege, Bertrand Russell, George Edward Moore, Rudolf Carnap, Ludwig Wittgenstein, Willard Van Orman Quine, skrze jazyk si uvědomujeme sebe sama prostředek porozumění (si navzájem)

Cíl popsat přirozený jazyk akademická / filosofická perspektiva výzva ~ velice komplexní systém jazyk ~ myšlení, poznávání světa analytická filosofie (začátek 20. století) Gottlog Frege, Bertrand Russell, George Edward Moore, Rudolf Carnap, Ludwig Wittgenstein, Willard Van Orman Quine, skrze jazyk si uvědomujeme sebe sama prostředek porozumění (si navzájem) nástroje pro automatické zpracování přirozeného jazyka strojový překlad dialogové systémy vyhledávání informací nestrukturovaná (částečně) strukturovaná data formální modely pro reprezentaci dat

Osnova Jak se přirozený jazyk liší od formálního komplexnost víceznačnost volný slovosled 'nelokální' vztahy neprojektivita (= long distance dependencies) Základní jazykové vztahy Stromové formalismy složkové vs. závislostní přístupy OK pro např. pro angličtinu, ne pro češtinu proto závislostní Jaký modelovat (ne)závislosti? jednoduchá redukční analýza redukční analýza se 'shifty' jak se to odráží v datech? model restartovací automat Závislostní popis v nástrojích NLP

Komplexnost význam výraz

Víceznačnost (a stejnoznačnost) koleje;?kohoutek; jeřáb; stát; žena; nakupovat lexikum homonymie

Víceznačnost (a stejnoznačnost) koleje;?kohoutek; jeřáb; stát; žena; nakupovat lexikum Brňáci čekají na nádraží. (Petkevič) Jemnou dětskou pokožku chrání i pěstí. (Spoustová) morfologie Chlapci přinesou velkou rybu. (Daneš, 1964) Představil tchyni hospodyni. (Panevová, 1981) Prvořadým úkolem jednotek UNPROFOR je chránit bezpečnostní zóny vyhlášené OSN. (MF Dnes A tahle kráva se jmenuje jak? (Zeman) Baví se dva králové: Můj šašek polyká meče! No, ten můj polyká mlaskaje. (Zeman) homonymie

Víceznačnost (a stejnoznačnost) koleje;?kohoutek; jeřáb; stát; žena; nakupovat lexikum Brňáci čekají na nádraží. (Petkevič) Jemnou dětskou pokožku chrání i pěstí. (Spoustová) morfologie Chlapci přinesou velkou rybu. (Daneš, 1964) Představil tchyni hospodyni. (Panevová, 1981) Prvořadým úkolem jednotek UNPROFOR je chránit bezpečnostní zóny vyhlášené OSN. (MF Dnes A tahle kráva se jmenuje jak? (Zeman) Baví se dva králové: Můj šašek polyká meče! No, ten můj polyká mlaskaje. (Zeman) (úřad) hledá policisty na hranici. (MF Dnes, 1996) Přijela policie, evakuovala téměř tisíc přítomných lidí a bezpečně nastraženou bombu odpálila. (MF Dnes, 1997) Pestrá přihrblá armáda. Jediná armáda, které pan P. nevyhlásil válku. Dokonce kdysi válčil s nimi. (Třešňák Klíč je pod rohožkou) syntax (povrchová) homonymie

Víceznačnost (a stejnoznačnost) koleje;?kohoutek; jeřáb; stát; žena; nakupovat lexikum Brňáci čekají na nádraží. (Petkevič) Jemnou dětskou pokožku chrání i pěstí. (Spoustová) morfologie Chlapci přinesou velkou rybu. (Daneš, 1964) Představil tchyni hospodyni. (Panevová, 1981) Prvořadým úkolem jednotek UNPROFOR je chránit bezpečnostní zóny vyhlášené OSN. (MF Dnes A tahle kráva se jmenuje jak? (Zeman) Baví se dva králové: Můj šašek polyká meče! No, ten můj polyká mlaskaje. (Zeman) (úřad) hledá policisty na hranici. (MF Dnes, 1996) Přijela policie, evakuovala téměř tisíc přítomných lidí a bezpečně nastraženou bombu odpálila. (MF Dnes, 1997) Pestrá přihrblá armáda. Jediná armáda, které pan P. nevyhlásil válku. Dokonce kdysi válčil s nimi. (Třešňák Klíč je pod rohožkou) syntax (povrchová) Spotřeba motorů stoupá. (Sgall, 1967) Kritika brazilského delegáta byla ostrá. (Daneš, 1964) Udělá to za dvě hodiny. (Panevová, 1980) Nechceš udělat kávu? syntax (hloubková) homonymie

Víceznačnost (a stejnoznačnost) eliminace homonymie 'garden path sentences' Vlaky u nás jezdí se zpožděním. Před vlastním zásahem policie neprodyšně uzavřela okolí kostela. homonymie

Víceznačnost (a stejnoznačnost) eliminace homonymie 'garden path sentences' Vlaky u nás jezdí se zpožděním. Vlaky u nás jezdí se zpožděním i malí školáci. (Peregrin) Před vlastním zásahem policie neprodyšně uzavřela okolí kostela. Před vlastním zásahem policie [hlídka] neprodyšně uzavřela okolí kostela. (MF Dnes, 1997) homonymie

Víceznačnost (a stejnoznačnost) eliminace homonymie 'garden path sentences' Vlaky u nás jezdí se zpožděním. Vlaky u nás jezdí se zpožděním i malí školáci. (Peregrin) Před vlastním zásahem policie neprodyšně uzavřela okolí kostela. Před vlastním zásahem policie [hlídka] neprodyšně uzavřela okolí kostela. (MF Dnes, 1997) kontext, pragmatika To se však nijak neprojevilo na výkonu závodnic, které noc před závodem se soupeřkami strávily hrátkami v posteli. (idnes) Banky snižují úroky z ekonomických důvodů / z krátkodobých půjček. (Kuboň, 2001) Bezdomovci ukradly hodinky, ale další příležitost už nedostaly. (Kuboň, 2001) [Ty ženy byly zkušené kapsářky.] homonymie

Víceznačnost (a stejnoznačnost) eliminace homonymie 'garden path sentences' Vlaky u nás jezdí se zpožděním. Vlaky u nás jezdí se zpožděním i malí školáci. (Peregrin) Před vlastním zásahem policie neprodyšně uzavřela okolí kostela. Před vlastním zásahem policie [hlídka] neprodyšně uzavřela okolí kostela. (MF Dnes, 1997) kontext, pragmatika To se však nijak neprojevilo na výkonu závodnic, které noc před závodem se soupeřkami strávily hrátkami v posteli. (idnes) Banky snižují úroky z ekonomických důvodů / z krátkodobých půjček. (Kuboň, 2001) Bezdomovci ukradly hodinky, ale další příležitost už nedostaly. (Kuboň, 2001) [Ty ženy byly zkušené kapsářky.] Dementi MŠMT ke spekulacím o zastavení Operačního programu Vzdělávání pro konkurenceschopnost. (TÝDEN, 6.2.2012, rubrika Zápisník z Malé Strany) homonymie

(Víceznačnost a) stejnoznačnost borovice sosna; kopaná fotbal, obrátit se otočit se lexikum konverzivní predikáty: prodávat kupovat symetrické predikáty: sousedit, vzít si relační predikáty: bát následníkem být předchůdcem; být vyšší být nižší synonymie

(Víceznačnost a) stejnoznačnost borovice sosna; kopaná fotbal, obrátit se otočit se lexikum konverzivní predikáty: prodávat kupovat symetrické predikáty: sousedit, vzít si relační predikáty: bát následníkem být předchůdcem; být vyšší být nižší Knihu vydalo nakladatelství. Kniha byla vydána nakladatelstvím (se ziskem?) Otec děti bije. Od otce jsou děti bity (s radostí?) Po babiččině příjezdu půjdou rodiče do divadla. Až babička přijede, půjdou rodiče do divadla.?když babička přijede, půjdou rodiče do divadla. syntax (povrchová) synonymie

(Víceznačnost a) stejnoznačnost borovice sosna; kopaná fotbal, obrátit se otočit se lexikum konverzivní predikáty: prodávat kupovat symetrické predikáty: sousedit, vzít si relační predikáty: bát následníkem být předchůdcem; být vyšší být nižší Knihu vydalo nakladatelství. Kniha byla vydána nakladatelstvím (se ziskem?) Otec děti bije. Od otce jsou děti bity (s radostí?) Po babiččině příjezdu půjdou rodiče do divadla. Až babička přijede, půjdou rodiče do divadla.?když babička přijede, půjdou rodiče do divadla. syntax (povrchová) Ten starý stůl je žlutý.?ten žlutý stůl je starý. syntax (hloubková) synonymie

Volný slovosled změnou slovosledu se mění význam, ale Našeho Karla plánujeme poslat na příští rok o Anglie. Plánujeme našeho Karla na příští rok poslat do Anglie. Do Anglie plánujeme poslat našeho Karla na příští rok. Poslat našeho Karla do Anglie plánujeme na příští rok. Plánujeme poslat našeho Karla na příští rok do Anglie. Na příští rok plánujeme poslat našeho Karla do Anglie. Plánujeme poslat na příští rok do Anglie našeho Karla.? Karla našeho plánujeme poslat na příští rok o Anglie. * Našeho Karla plánujeme poslat příští rok na o Anglie.

Volný slovosled změnou slovosledu se mění význam, ale Našeho Karla plánujeme poslat na příští rok o Anglie. Plánujeme našeho Karla na příští rok poslat do Anglie. Do Anglie plánujeme poslat našeho Karla na příští rok. Poslat našeho Karla do Anglie plánujeme na příští rok. Plánujeme poslat našeho Karla na příští rok do Anglie. Na příští rok plánujeme poslat našeho Karla do Anglie. Plánujeme poslat na příští rok do Anglie našeho Karla.? Karla našeho plánujeme poslat na příští rok o Anglie. * Našeho Karla plánujeme poslat příští rok na o Anglie. zdůrazněny jiné informace (distinkce staré-nové) informační struktura věty (Hajičová et al., 1998; 2004) stejné strukturní vztahy

Volný slovosled změnou slovosledu se mění význam, ale Našeho Karla plánujeme poslat na příští rok o Anglie. Plánujeme našeho Karla na příští rok poslat do Anglie. Do Anglie plánujeme poslat našeho Karla na příští rok. Poslat našeho Karla do Anglie plánujeme na příští rok. Plánujeme poslat našeho Karla na příští rok do Anglie. Na příští rok plánujeme poslat našeho Karla do Anglie. Plánujeme poslat na příští rok do Anglie našeho Karla.? Karla našeho plánujeme poslat na příští rok o Anglie. * Našeho Karla plánujeme poslat příští rok na o Anglie. zdůrazněny jiné informace (distinkce staré-nové) informační struktura věty (Hajičová et al., 1998; 2004) stejné strukturní vztahy neprojektivitní konstrukce

Osnova Jak se přirozený jazyk liší od formálního komplexnost víceznačnost volný slovosled 'nelokální' vztahy neprojektivita (= long distance dependencies) Základní jazykové vztahy Stromové formalismy složkové vs. závislostní přístupy OK pro např. pro angličtinu, ne pro češtinu proto závislostní Jaký modelovat (ne)závislosti? jednoduchá redukční analýza redukční analýza se 'shifty' jak se to odráží v datech? model restartovací automat Závislostní popis v nástrojích NLP

Tři typy jazykových vztahů (Tesnière, 1959) 1. závislost základní syntakticko-sémantická struktura věty binární vztah řídící závislý větný člen valency ~ the range of syntactic elements either required or specifically permitted by a verb or other lexical unit 'valenční' doplnění ~ slovníková informace volná doplnění lexikalizace (Concise Oxford Dictionary of Linguistics,1997)

Tři typy jazykových vztahů (Tesnière, 1959) 1. závislost základní syntakticko-sémantická struktura věty binární vztah řídící závislý větný člen valency ~ the range of syntactic elements either required or specifically permitted by a verb or other lexical unit 'valenční' doplnění ~ slovníková informace volná doplnění lexikalizace 2. slovosled lineární uspořádání slov (a interpunkce) ve větě (Concise Oxford Dictionary of Linguistics,1997)

Tři typy jazykových vztahů (Tesnière, 1959) 1. závislost základní syntakticko-sémantická struktura věty binární vztah řídící závislý větný člen valency ~ the range of syntactic elements either required or specifically permitted by a verb or other lexical unit 'valenční' doplnění ~ slovníková informace volná doplnění lexikalizace 2. slovosled lineární uspořádání slov (a interpunkce) ve větě 3. koordinace `zmnožení' syntaltické pozice Po babiččině příjezdu půjdou rodiče do divadla. Po babiččině příjezdu půjde maminka s tatínkem do divadla. Po babiččině příjezdu půjdou maminka a tatínek do divadla. Petr potkal Marii v divadle. Petr se potkal s Marií v divadle. Petr a Marie se potkali v divadle. Petr potkal Marii v divadle a Marie potkala Petra v divadle. (Concise Oxford Dictionary of Linguistics,1997)

Tři typy jazykových vztahů (Tesnière, 1959) 1. závislost základní syntakticko-sémantická struktura věty 2. slovosled lineární uspořádání slov a interpunkce ve větě 3. koordinace 'zmnožení' syntaktické pozice stromové formalismy pro popis syntaxe

Osnova Jak se přirozený jazyk liší od formálního komplexnost víceznačnost volný slovosled 'nelokální' vztahy neprojektivita (= long distance dependencies) Základní jazykové vztahy Stromové formalismy složkové vs. závislostní přístupy typologie jazyků: angličtina vs. čeština závislostní pro jazyky s volným slovosledem Jaký modelovat (ne)závislosti? jednoduchá redukční analýza redukční analýza se 'shifty' jak se to odráží v datech? model restartovací automat Závislostní popis v nástrojích NLP

Složkové vs. závislostní přístupy složkové přístupy ~ "context free grammars" N. Chomsky: Syntactic Structures (1957) rekurzivní vhodné pro jazyky s pevným slovosledem (podmětná vs. přísudková část věty) Mary will eat bread. S NP VP N VP NP Mary AuxV V N will eat bread zásobníkové automaty

Složkové vs. závislostní přístupy složkové přístupy ~ "context free grammars" N. Chomsky: Syntactic Structures (1957) rekurzivní vhodné pro jazyky s pevným slovosledem (podmětná vs. přísudková část věty) Mary will eat bread. S What will Mary eat? NP VP N VP NP S Mary AuxV V N NP VP will eat bread N VP NP zásobníkové automaty Mary AuxV will V eat N bread

Složkové vs. závislostní přístupy složkové přístupy ~ "context free grammars" N. Chomsky: Syntactic Structures (1957) rekurzivní vhodné pro jazyky s pevným slovosledem (podmětná vs. přísudková část věty) Mary will eat bread. S What will Mary eat? S' NP VP NP T' N VP NP what AuxV S Mary AuxV V N will NP VP will eat bread N VP NP zásobníkové automaty Mary AuxV trace i V eat N trace j

Složkové vs. závislostní přístupy složkové přístupy ~ "context free grammars" N. Chomsky: Syntactic Structures (1957) rekurzivní vhodné pro jazyky s pevným slovosledem problém s volným slovosledem S VP NP PrepP VP N Prep NP VP rodiče PrepP po Atr N V Prep NP babičině příjezdu do N půjdou divadla

Složkové vs. závislostní přístupy závislostní přístupy ~ "valenční syntax" L. Tesnière: Éléments de syntaxe structurale (1959) lexikalizace rekurzivní vhodné pro jazyky s volným slovosledem půjdou.pred po příjezdu.adv rodiče.sb do divadla.adv babiččině.atr

Složkové vs. závislostní přístupy závislostní přístupy ~ "valenční syntax" L. Tesnière: Éléments de syntaxe structurale (1959) lexikalizace rekurzivní vhodné pro jazyky s volným slovosledem půjdou.pred po příjezdu.adv rodiče.sb do divadla.adv babiččině.atr půjdou.pred půjdou.pred rodiče.sb po příjezdu.adv do divadla.adv po příjezdu.adv rodiče.sb do divadla.adv babiččině.atr babiččině.atr?? vhodný formální model

Osnova Jak se přirozený jazyk liší od formálního komplexnost víceznačnost volný slovosled 'nelokální' vztahy neprojektivita (= long distance dependencies) Základní jazykové vztahy Stromové formalismy složkové vs. závislostní přístupy typologie jazyků: angličtina vs. čeština závislostní pro jazyky s volným slovosledem Jaký modelovat (ne)závislosti? jednoduchá redukční analýza redukční analýza se 'shifty' jak se to odráží v datech? model restartovací automat Závislostní popis v nástrojích NLP

Jak modelovat (ne)závislosti? metoda redukční analýzy (RA) (Jančar et al., 1999, Lopatková et al., 2005; 2007) postupné zjednodušování věty při zachování správnosti a významu vypuštění slova/několika slov (a příp. přepsání jiných) Tato firma sídlí ve státě Texas. Tato firma sídlí ve státě Texas. Tato firma sídlí ve státě Texas.

Jak modelovat (ne)závislosti? metoda redukční analýzy (RA) (Jančar et al., 1999, Lopatková et al., 2005; 2007) postupné zjednodušování věty při zachování správnosti a významu vypuštění slova/několika slov (a příp. přepsání jiných) určení formálních závislostních vztahů (Lopatková et al., 2005) vzájemně nezávislé uzly vypouštěny v libovolném pořadí Tato firma sídlí ve státě Texas. Tato firma sídlí ve státě Texas. Tato firma sídlí ve státě Texas. Tato firma sídlí ve státě Texas. tato, Texas vzájemně nezávislé

Jak modelovat (ne)závislosti? metoda redukční analýzy (RA) (Jančar et al., 1999, Lopatková et al., 2005; 2007) postupné zjednodušování věty při zachování správnosti a významu vypuštění slova/několika slov (a příp. přepsání jiných) určení formálních závislostních vztahů (Lopatková et al., 2005) vzájemně nezávislé uzly vypouštěny v libovolném pořadí závislý uzel vypuštěn vždy dřív než řídící Tato firma sídlí ve státě Texas. Tato firma sídlí ve státě Texas. Tato firma sídlí ve státě Texas. Tato firma sídlí ve státě Texas. tato firma ve státě Texas

Jak modelovat (ne)závislosti? metoda redukční analýzy (RA) (Jančar et al., 1999, Lopatková et al., 2005; 2007) postupné zjednodušování věty při zachování správnosti a významu vypuštění slova/několika slov (a příp. přepsání jiných) určení formálních závislostních vztahů (Lopatková et al., 2005) vzájemně nezávislé uzly vypouštěny v libovolném pořadí závislý uzel vypuštěn vždy dřív než řídící některé uzly vypuštěny současně: redukční komponenty Tato firma sídlí ve státě Texas. Tato firma sídlí ve státě Texas. Tato firma sídlí ve státě Texas. Tato firma sídlí ve státě Texas. firma sídlí ve státě. firma sídlí ve státě. firma sídlí ve státě. tato firma ve státě Texas firma, ve státě vzájemně nezávislé

Jak modelovat (ne)závislosti? metoda redukční analýzy (RA) (Jančar et al., 1999, Lopatková et al., 2005; 2007) postupné zjednodušování věty při zachování správnosti a významu vypuštění slova/několika slov (a příp. přepsání jiných) určení formálních závislostních vztahů (Lopatková et al., 2005) vzájemně nezávislé uzly vypouštěny v libovolném pořadí závislý uzel vypuštěn vždy dřív než řídící některé uzly vypuštěny současně: redukční komponenty Tato firma sídlí ve státě Texas. Tato firma sídlí ve státě Texas. Tato firma sídlí ve státě Texas. Tato firma sídlí ve státě Texas. sídlí firma sídlí ve státě. firma sídlí ve státě. firma sídlí ve státě. tato firma ve státě Texas.

Závislosti a slovosled při RA Petr se rozhodl nekoupit knihu. Petr se rozhodl nekoupit. * se rozhodl nekoupit.

Závislosti a slovosled při RA rozšíření redukční analýzy: operace shift (Kuboň et al., 2012) změna slovosledu, pokud si vynucuje princip zachování správnosti (permutace slov, zachování hran) Petr se rozhodl nekoupit knihu. Petr se rozhodl nekoupit. * se rozhodl nekoupit. rozhodl se nekoupit. rozhodl rozhodl se nekoupit. se nekoupit. využít operaci shift pro měření volnosti slovosledu??

Složitost vs. volnost slovosledu (ne)projektivita ~ složitost slovosledu projektivivta (Marcus, 1965; Nebeský, 1975; Havelka et al.. 2004) počet 'děr' v pokrytí hrany (Plátek et al., 2000) (m-)planarita 'zahnízděnost' (Kuhlmann, Nivre, 2006)

Složitost vs. volnost slovosledu (Kuhlmann, Nivre, 2006)

Složitost vs. volnost slovosledu (ne)projektivita ~ složitost slovosledu hypotéza: počet 'shiftů' ~ volnost slovosledu čím více omezení na slovosled, tím více shiftů při RA korelace s neprojektivitou??

Složitost vs. volnost slovosledu (ne)projektivita ~ složitost slovosledu hypotéza: počet 'shiftů' ~ volnost slovosledu čím více omezení na slovosled, tím více shiftů při RA korelace s neprojektivitou? Pražský závislostní korpus (PDT) 1.0 (Hajič et al, 2001): 73 tis. vět, z nich 23% neproj. (17 tis.) neprojektivity: modální/fázové sloveso + infinitiv (5,7 tis. v 4,7 tis. větách) (Zeman, 2004) (Kuboň et al, 2012)

Složitost vs. volnost slovosledu (ne)projektivita ~ složitost slovosledu hypotéza: počet 'shiftů' ~ volnost slovosledu čím více omezení na slovosled, tím více shiftů při RA korelace s neprojektivitou? Pražský závislostní korpus (PDT) 1.0 (Hajič et al, 2001): 73 tis. vět, z nich 23% neproj. (17 tis.) neprojektivity: modální/fázové sloveso + infinitiv (5,7 tis. v 4,7 tis. větách) (Zeman, 2004) (Kuboň et al, 2012)

Složitost vs. volnost slovosledu (ne)projektivita ~ složitost slovosledu hypotéza: počet 'shiftů' ~ volnost slovosledu čím více omezení na slovosled, tím více shiftů při RA korelace s neprojektivitou? Pražský závislostní korpus (PDT) 1.0 (Hajič et al, 2001): 73 tis. vět, z nich 23% neproj. (17 tis.) neprojektivity: modální/fázové sloveso + infinitiv (5,7 tis. v 4,7 tis. větách) (Zeman, 2004) klitiky Opravit jsem se mu to včera snažil marně. (Hana, 2007) snažil opravit jsem se včera marně mu to (Kuboň et al, 2012)

Složitost vs. volnost slovosledu (ne)projektivita ~ složitost slovosledu hypotéza: počet 'shiftů' ~ volnost slovosledu čím více omezení na slovosled, tím více shiftů při RA korelace s neprojektivitou ALE: S těžkým se mu bála pomoci úkolem. (s využitím Holan et al, 2000) bála se pomoci. s mu úkolem těžkým

Složitost vs. volnost slovosledu (ne)projektivita ~ složitost slovosledu hypotéza: počet 'shiftů' ~ volnost slovosledu čím více omezení na slovosled, tím více shiftů při RA korelace s neprojektivitou ALE: S těžkým se mu bála pomoci úkolem. (s využitím Holan et al, 2000) S těžkým se bála pomoci úkolem. bála * S se bála pomoci úkolem. S úkolem se bála pomoci. se pomoci. * se bála pomoci. s mu * Bála se bála pomoci. úkolem těžkým (Kuboň et al, 2013) alespoň 2 shifty potřeba

Složitost vs. volnost slovosledu (ne)projektivita ~ složitost slovosledu hypotéza: počet 'shiftů' ~ volnost slovosledu další zjemnění: vypouštění sousedících slov 'projektivizace' vypouštění??? Jak se projevuje v českých větách?

Složitost vs. volnost slovosledu PDT 2.0 (Hajič et al, 2006) 38,7 tis. vět (trénovací sada) automatická RA (řízená závislostními stromy) 'Podezřelé' jevy v PDT 2.0

1800 1600 1400 1200 1000 800 600 400 200 PDT 2.0 (Hajič et al, 2006) 38,7 tis. vět (trénovací) automatická RA (řízená závislostními stromy) testovací sada projektivní RA bez 'shiftů': 0 Složitost vs. volnost slovosledu 1640 29 354 235 113 věty o 10-25 slovech (vč. interpunkce) bez koordinace jen věty s 1 určitým slovesem bez číslovkových výrazů 2,5 tis. vět 44 21 10 5 2 1 2 3 4 5 6 7 8 9 10 10000 1000 100 10 1 1640 29 354 235 113 1 2 3 4 5 6 7 8 9 10 44 21 10 5 2

Složitost vs. volnost slovosledu PDT 2.0 (Hajič et al, 2006) 38,7 tis. vět (trénovací) automatická RA (řízená závislostními stromy) testovací sada projektivní RA bez 'shiftů': věty o 10-25 slovech (vč. interpunkce) bez koordinace jen věty s 1 určitým slovesem bez číslovkových výrazů 2,5 tis. vět

Složitost vs. volnost slovosledu PDT 2.0 (Hajič et al, 2006) 38,7 tis. vět (trénovací) automatická RA (řízená závislostními stromy) testovací sada projektivní RA bez 'shiftů': redukovaná věta s 10 uzly věty o 10-25 slovech (vč. interpunkce) bez koordinace jen věty s 1 určitým slovesem bez číslovkových výrazů 2,5 tis. vět??? Jak se projevuje ve složitějších větách?

Formální model syntaxe struktura závislostních vztahů ve větě rekurzivita nelokální chování češtiny lexikalizace jednoduchá RA ~ model závislostí slovosled míra volnosti slovosledu (ne)projektivita ~ míra složitosti slovosledu RA se shifty závislostní stromy pro popis syntaktické struktury

Restartovací automat matematický model závislostní redukční analýzy přirozeného jazyka jednoduchý restartovací automat (simple restarting automaton) (Jančar et al., 1995; Otto, 2006) zpracování vstupní věty delete, rewrite restart výpočet v cyklech rekurze nelokální chování ~ volný slovosled budování struktury věty DR-stromy, D-stromy (Plátek et al, 2000) (paralelní) závislostní struktury (Plátek et al., 2010) operace shift (Kuboň et al, 2012; Lopatková, Plátek 2013)

Osnova Jak se přirozený jazyk liší od formálního komplexnost víceznačnost volný slovosled 'nelokální' vztahy neprojektivita (= long distance dependencies) Základní jazykové vztahy Stromové formalismy složkové vs. závislostní přístupy typologie jazyků: angličtina vs. čeština závislostní pro jazyky s volným slovosledem Jaký modelovat (ne)závislosti? jednoduchá redukční analýza redukční analýza se 'shifty' jak se to odráží v datech? model restartovací automat Závislostní popis v nástrojích NLP

Korpusová lingvistika a slovníky Pražský závislostní korpus (PDT) 3 roviny anotace: m-rovina, a-rovina, t-rovina (semantické role, gramatémy, inf. struktura, koreference) PDT 3.0 (Hajič et al., 2003, Bejček et al, 2013) http://ufal.mff.cuni.cz/pdt3.0/ http://ufal.mff.cuni.cz/pdt2.0/visual-data/sample/sample0_a_2.htm Prague Czech English Dependency Treebank (PCEDT) (Hajič et al., 2010) texty z Penn Treebank (Wall Street Journal) přeloženy do češtiny (překladatelé) anotační schéma 'zděděné' z PDT http://ufal.mff.cuni.cz/pcedt2.0/trees/00/01/wsj_0001_1.xhtml?lang=en Pražský závislostní korpus mluvené češtiny Prague Arabic Dependency Treebank

Korpusová lingvistika a slovníky Syntaktické slovníky Valenční slovník českých sloves VALLEX (Lopatkováet al., 2003, 2008) PDT-VALLEX (Hajič et al., 2003; Urešová, 2011) EngVallex (Šindlerová, Cinková, 2011) nejčastější česká slovesa valenční rámec glosa, příklady přístupnost pro uživatele NLP technologie (xml) člověk (html, pdf)

Závislostní popis v datech a nástrojích K čemu korpusy a slovníky? počítačové zpracování přirozeného jazyka data: statistické metody, strojové učení vyhodnocování experimentů datové formáty uživatel-člověk výuka češtiny, tradiční teoretická lingvistika formální modelování složitost přirozeného jazyka

Strojový překlad frázový překlad: Moses, Joshua (Ondřej Bojar, ) En Cz (Russian, Hindi, ) http://quest.ms.mff.cuni.cz/khresmoi/demo/

Strojový překlad překlad analýza transfer syntéza: TectoMT En Cz (Tamil) Zdeněk Žabokrtský, David Mareček, Martin Popel transfer She has never laughed in her new boss's office. Nikdy se nesmála v úřadu svého nového šéfa.

Strojový překlad

Dialogové systémy Companions (Hajič, Cinková, Ptáček et al.) společník pro seniory prohlížení fotografií "Petra je sympatický partner pro konverzaci, zajímá se o Vaše fotky a o vzpomínky, které s nimi máte spojené. Je jí kolem třiceti a je to Češka jako poleno, názory na generaci jejích rodičů odpovídají jejímu věku. Má svoje názory, ale už nezná svoji biografii." http://www.youtube.com/watch?v=seud4bsnl2i&feature=mfu_in_order&list=ul http://www.youtube.com/watch?v=4dlljjg_ztk&feature=mfu_in_order&list=ul http://www.youtube.com/watch?v=6atuest85pu&feature=mfu_in_order&list=ul

Dialogové systémy automatické zpracování jazyka analýza vět (až na roviny významu) generování dialog manager Dialog::DAFRunner DAF (= dialog action form) šablony pro sítě stavů instance těchto sítí v průběhu dialogu (aktuální stav pro každého uživatele) dialogové korpusy

Malá Seminář Úpa, současné 3.6.2013 matematiky, 12.3.2014 1