johanka April 16, 2008

Podobné dokumenty
Automatická post-editace výstupů frázového strojového překladu (Depfix)

Automatická post-editace výstupů frázového strojového překladu (Depfix)

pokroky ve johanka Obsah telenovely Bez ladu a skladu Unsupervised johanka 21. dubna 2008

Co nového ve zpracování MWE Automatická identifikace

ve strojovém překladu

Jak lze v korpusech hledat doklady pro výzkum morfologie?

SYNTAX LS Úvod

Automatic Alignment of Tectogrammatical Trees from Czech-English Parallel Corpus

PSANÍ. Anglický jazyk 5. třída Hana Stryalová

Text Mining: SAS Enterprise Miner versus Teragram. Petr Berka, Tomáš Kliegr VŠE Praha

KOMBINOVANÉ STATISTICKO-PRAVIDLOVÉ METODY ZNAČKOVÁNÍ ČEŠTINY. Drahomíra johanka Spoustová

Čeština doma & ve světě. [nová]

Anglický jazyk. Anglický jazyk. žák: TÉMATA. Fonetika: abeceda, výslovnost odlišných hlásek, zvuková podoba slova a její zvláštnosti

Univerzita Karlova v Praze Matematicko-fyzikální fakulta

Všestranný jazykový rozbor (VJR)

Překladač a jeho struktura

Faktorované překladové modely. Základní informace

Korpusová lingvistika a počítačové zpracování přirozeného jazyka

ICT podporuje moderní způsoby výuky CZ.1.07/1.5.00/ Český jazyk skladba. Mgr. Jana Rozumová

Depfix: Jak dělat strojový překlad lépe než Google Translate

Název materiálu: Jazykové rozbory

DIGITÁLNÍ ARCHIV VZDĚLÁVACÍCH MATERIÁLŮ

Hardening ICT platforem: teorie nebo praxe. Pavel Hejduk ČEZ ICT Services, a. s.

Příloha č. 4 ČESKÝ JAZYK JAZYKOVÁ VÝCHOVA

Větná polarita v češtině. Kateřina Veselovská Žďárek Hořovice,

2. Přídavná jména Tři stránky tabulek obsahují 156 nejběžnějších anglických přídavných jmen.

STRATEGIE ROZVOJE SLUŽEB ICT VE ŠKOLE

Příloha č. 4 ČESKÝ JAZYK JAZYKOVÁ VÝCHOVA

Využití korpusu InterCorp při vytváření ručních pravidel pro automatickou detekci pleonastického it a jeho českých ekvivalentů v závislostních datech

[ 1 ] Ing. František Chuchma, CSc. Seminář SVP/SDP, Státní ústav kontrolu léčiv

Tento dokument popisuje instalaci a používání elektronické cvičebnice Styx.

Jiří Janda. Keep Calm and Speak! Větná stavba 1: Čas přítomný

Hodnocení psaní. Seminář Brno

0. Úvod. 1. Syntaktické značkování textu

Pokročilé typové úlohy a scénáře 2006 UOMO 71

Jak dělat strojový překlad lépe než Google Translate

PSANÍ. M e t o d i c k é p o z n á m k y k z á k l a d o v é m u t e x t u :

Vyučovací předmět: Český jazyk a literatura Ročník: 6. Jazyková výchova

Motivace pro jazykovou správnost. Prezentace pro předmět Základy odborného stylu (VB000) K. Pala, Centrum ZPJ FI MU podzim 2014

EXTRAKCE STRUKTUROVANÝCH DAT O PRODUKTOVÝCH A PRACOVNÍCH NABÍDKÁCH POMOCÍ EXTRAKČNÍCH ONTOLOGIÍ ALEŠ POUZAR

Kurz č PhDr. Hana Peterková. Skladba. Souvětí podřadné Souvětí souřadné

Vzdělávací obor Německý jazyk

Počítačová lingvistika v praxi Pavel Ševeček, Tomáš Pavelek

Ročník: 5. Časová dotace: 7 hodin týdně učivo, téma očekávané výstupy klíčové kompetence, mezipředmětové vazby

7. NEDĚLE VELIKONOČNÍ CYKLU C

PSANÍ. M e t o d i c k é p o z n á m k y k z á k l a d o v é m u t e x t u :

PowerOPTI Řízení účinnosti tepelného cyklu

Akademie zákaznické zkušenosti Nejlíp nám to šlape, když vám to klape. Koučovací model GROW

Tematický plán pro školní rok 2015/2016 Předmět: Český jazyk Vyučující: Mgr. Jitka Vlčková Týdenní dotace hodin: 8 hodin Ročník: čtvrtý

Vzdělávací obsah vyučovacího předmětu

SSOS_CJL_5.13. III/2 - Inovace a zkvalitnění výuky prostřednictvím ICT. Číslo a název projektu Číslo a název šablony

Tematický plán pro školní rok 2015/16 Předmět: Český jazyk Vyučující: Mgr. Iveta Jedličková Týdenní dotace hodin: 8 hodin Ročník: pátý

Evidence požadavků uživatelů bytů a nebytových prostor

ZVAŽOVÁNÍ RIZIKA V PROCESECH A ZPŮSOBŮ JEJICH ŘÍZENÍ. Dům techniky České Budějovice

Iterační výpočty. Dokumentace k projektu č. 2 do IZP. 24. listopadu 2004

Slovní úlohy o směsích II

Benchmarking jako EBL metoda aneb jak uspět v BIX

Český jazyk - Jazyková výchova

KSRZIS. Příručka - Role žadatel. Projekt - ereg - Úprava rezortních registrů a konsolidace rezortních. dat v návaznosti na základní registry VS

MENSA GYMNÁZIUM, o.p.s. TEMATICKÉ PLÁNY TEMATICKÝ PLÁN (ŠR 2014/15)

Městský úřad Horažďovice profesionalita s lidskou tváří Reg.č. CZ.1.04/4.1.01/

Úvod do CSS. Střední škola informatiky, elektrotechniky a řemesel Rožnov pod Radhoštěm. Modernizace výuky s využitím ICT, CZ.1.07/1.5.00/34.

Komunikace a jazyková správnost (pravopis)? Předmět Základy odborného stylu (VB000) K. Pala, Centrum ZPJ FI MU podzim 2015

Ondřej Bojar Ústav formální a aplikované lingvistiky Matematicko-fyzikální fakulta Univerzita Karlova v Praze

ŠVP Školní očekávané výstupy. - rozumí jednoduchým sdělením učitele k danému tématu - reaguje na pokyny učitele

9 Kolmost vektorových podprostorů

Metody analýzy modelů. Radek Pelánek

Sloh, literární teorie, jazyk 3

Detekce a rozpoznávání mincí v obraze

Jiří Janda. Keep Calm and Speak! Větná stavba 1: Čas přítomný

Český jazyk a literatura

Juxtapozice z do v Arabštině

Počítačové zpracování češtiny. Syntaktická analýza. Daniel Zeman

Reprodukce tohoto návodu k obsluze, nebo jeho části, v jakékoli formě bez předchozího písemného svolení společnosti DEGA CZ s.r.o. je zakázána.

Výtisk č.: Počet listů 19. Přílohy: 0 ÚZIS ČR. Role žadatel - postup

Load Balancer. RNDr. Václav Petříček. Lukáš Hlůže Václav Nidrle Přemysl Volf Stanislav Živný

Management sítí OSI management framework SNMP Komerční diagnostické nástroje Opensource diagnostické nástroje

Strojové učení a pravidla pro extrakci informací z textů

Kvalita ve veřejné správě. Ing. Mgr. David Sláma ředitel odboru strategického rozvoje a koordinace veřejné správy Ministerstvo vnitra

Český jazyk v 5. ročníku

Očekávané výstupy podle RVP ZV Učivo Přesahy a vazby. JAZYKOVÁ VÝCHOVA hláska, písmeno, slabika, slovo slovní přízvuk určování počtu slabik

ZÁKLADNÍ ŠKOLA A MATEŘSKÁ ŠKOLA, DĚTŘICHOV NAD BYSTŘICÍ okres Bruntál, příspěvková organizace Dětřichov nad Bystřicí č. 38

LATINA. Oddíl E učební osnovy VI.1.B

Scada systém Promotic s přímým driverem pro PLC Simatic S7

NLP & strojové učení

Typy souborů ve STATISTICA. Tento článek poslouží jako přehled hlavních typů souborů v programu

[APLIKACE PRO PŘEHRÁVÁNÍ VIDEA - PROJEKT MIAMI]

Automatické rozpoznávání substantivního dativu při morfologické disambiguaci českých textů 1

Program Podnikání 5. týden. a produktivita

Pravděpodobně skoro správné. PAC učení 1

ANNEX PŘÍLOHA NAŘÍZENÍ KOMISE V PŘENESENÉ PRAVOMOCI,

PHP tutoriál (základy PHP snadno a rychle)

2 Důkazové techniky, Indukce

MENSA GYMNÁZIUM, o.p.s. TEMATICKÉ PLÁNY TEMATICKÝ PLÁN (ŠR 2016/17)

Kvalita SW produktů. Jiří Sochor, Jaroslav Ráček 1

Program pro automatickou opravu stochastické syntaktické anotace (analytická rovina PDT)

Automatické párování uzlů českých a anglických tektogramatických stromů

MENSA GYMNÁZIUM, o.p.s. TEMATICKÉ PLÁNY TEMATICKÝ PLÁN (ŠR 2017/18)

Návrh na zápis změny zapsaných údajů do spolkového rejstříku

Popisná statistika - úvod

Transkript:

(Jak disambiguátoři přicházejí o iluze) April 16, 2008

Výchozí podmínky Co máme k dispozici? Jazyk LanGR + poloboha Pavla Květoně Pravidla pro (částečnou) morfologickou disambiguaci (Niki Petkevič, Tomáš Jeĺınek) O co se snažíme? Něco z toho dostat (ne nutně morfologickou disambiguaci)

Proč syntax? Mnohá disambiguační pravidla se v ní stejně vrtají a pak získanou informaci (zbytečně) zahodí Některá jsou jasná (identifikace podmětu a přísudku, předložkové fráze...) Jiná lze využít nepřímo či kolektivně (antecedent vztažného zájmena, cokoli v koordinaci..) LanGR snadno umožňuje i psaní ryze syntaktických pravidel

Přesná specifikace úlohy Ověření, zda lze stávající disambiguační pravidla využít pro parsing (úplný či částečný) Menší úpravy možné, doplňková pravidla možná, ale neměla by tvořit většinu díla V žádném případě nepsat od začátku nový parser! (Takových už je dost a lepších.)

Jak funguje? (138. opakování) Načítá text po větách, provede či načte morfologickou analýzu Na každou větu pouští v cyklu pravidla, dokud se něco děje (ubývají tagy) Pravidla mají část konfigurační (kde se uplatní) a akční (co tam mají udělat) Pravidla se děĺı na negativní (mažou nepřípustné tagy) a pozitivní (vybírají přípustné tagy)

Technické řešení syntaktické extenze Syntax běží zároveň s disambiguací (záleží ovšem na konkrétních pravidlech) LanGR nebuduje žádné interní datové stuktury, ale umí vyhodit hlášku Vyhodíme tedy hlášku, kdykoli máme (na základě namatchované konfigurace) pocit, že nějaká dvě slova jsou v určitém syntaktickém vztahu Následně sebereme všechny hlášky pro danou větu a zkusíme z nich něco postavit

Konkrétní vykonaná činnost Ohledána všechna pravidla (cca 2000), cca 400 z nich shledáno pro syntax vhodnými a rozšířeno, napsáno cca 80 vlastních záchytných ryze syntaktických pravidel Postprocessing (ečná semílačka ) v Perlu, poměrně netriviální Output: závislosti PDT a-layer compatible - ne nutně, hlavně kvůli evaluaci Přirozeným výsledkem je les, lze si vynutit ošklivý strom Evaluace, porovnání s jinými parsery + kombinovatelnost

Detaily posprocessingu Na vstupu dostane hlášky typu CONNECT 1 2 Desc: Subj, Dom: P [Opt: level bezpečnosti] V závislostním pojetí bere řídící členy jako kandidáty na otce, ale výsledek není přímočarý Některé závislosti vznikají z více vztahů (vztažná věta) Asi 30 různých dalších úprav (propagování vztahu skrz koordinaci apod.) Při sporu se méně bezpečné informace zahazují, ale ne hned Průběžná detekce cyklů Velká výhoda: zachování levelů bezpečnosti - každá výsledná závislost má stanoveno, jak moc jí věříme!

Čísla (PDT 1.0 etest) Data Coverage Rules Charniak Collins All 100 % 65.37 % 84.24 % 82.29 % Very Safe 35.64 % 93.35 % 93.65 % 93.07 % Safe 22.69 % 80.42 % 86.72 % 85.26 % Unsafe 21.45 % 50.63 % 79.86 % 77.73 % Untouched 20.20 % 14.79 % 69.39 % 64.78 %

Proč je to úplně blbě? (I) Pozitivní pravidla nepřinesou nic nového Zdeněk má lepší :) Všichni mají stejné problémy a statistika je vždy o krok napřed Negativní pravidla pozitivním nepomůžou Lze je (případně) zkusit jako hinty někomu jinému Nebo jako Karlsson a jeho parta - zkusit všechno a seškrtávat

Proč je to úplně blbě? (II) Disambiguace má malé pokrytí - trvalý problém! Nepomůže ani vmezeření statistického taggeru Systém je regulární :( (= jednoprůchodový. Nelze vypustit rozpoznaný kus věty a znova začít ohledávat.) Na tohle každý parser jednou dojede (IMHO i tagger) Bezkontextovost lze dohackovat, ale dost brutálně a s nejistým výsledkem

Drtivá disambiguační čísla Opáčko z minulého týdne (únor 2006, PDT 2.0 d-test): morfologie: precision 25.72 %, recall 99.40 % root (bezpečná pravidla): precision 54.95 %, recall 98.84 % všechna pravidla: precision 70.11 %, recall 97.94 % perceptron Anny K.: accuracy 95.50 %

Jak použít disambiguaci k disambiguaci? Samotná nic moc (k ryzí homonymii má výsledek daleko) Zvednutí čísel v konečném čase nereálné (výkonnost systému je stabilizovaná s občasnými drobnými výkyvy směrem k vyšší precision či recallu) Heuristiky zklamaly očekávání (chybují příliš a uplatňují se málo) Jediná naděje je v kombinaci :) Nutná, ale nikoli postačující podmínka: musíme umět různé věci!

Jak mohou pravidla pomoci statistice? Možností není zase tolik: Pustíme předem Pustíme zadem Sdrátujeme dohromady Ještě něco jiného?

Předení a drátování Všichni pořád básní o ručně psaných featurách Efektivně to ale znamená skoro totéž jako pustit předem (jen bychom tagy nemazali, ale označili) A má to i stejný zádrhel - velmi nízké uplatnění pravidel na zcela nedisambiguovaném (tedy defaultním) vstupu Tedy puštění předem funguje, nechybuje, ale nic moc nedělá (dle výběru pravidel od nepatrného zlepšení po patrné zhoršení :)) Potěšující pozorování: Annin tagger není citlivý na redukování tagů na vstupu, netřeba přetrénovávat (naopak)

Pravidla po statistice Hodně chyb oprávněně chytí Víc jich ale nareportují neoprávněně a ještě víc neodhaĺı vůbec Proč 90 % chyb taggeru vůbec nenajdeme, toť otázka :) (neznámá slova?) Smazaný tag téměř vždy znamená problém ve větě, ale ledva v polovině případů je to přímo na místě onoho tagu (přecitlivělost na překlepy, gramatické chyby...) Pravidla po statistice nelze tedy v žádném případě použít jako automatický detektor a opravovač chyb

Co teď? - Úkoly hodné celých mužů 1. Proč se pravidla v preprocessingu nechytají? Kvůli slovnědruhové homonymii! No tak jim s ní po, ne? 2. Dají se nějak využít přecitlivělá pravidla v postprocessingu? Dají. Třeba na odlišení slušně a méně slušně vypadajících/označkovaných dat.

Pravidla po rozetnutí slovního druhu Pracovní postup (+ výsledky na d-testu): 1 Morfologická analýza (25.72 %/recall 99.40 %) 2 (opt) Pečlivě zvolená pravidla (zatím neděláme) 3 Tagger (95.50 %) 4 Vrátíme všechny tagy se stejným subposem, jako má vybraný tag (30.11 %, recall 98.87 %) 5 Pravidla (zatím root) (61.87 %/98.61 %) (vs. 54.95 %/98.84 %) 6 Tagger (95.73 %!) (vs. 95.50 %) Ověření: pouze kroky: 1, 3, 4, 6 dávají jen 95.46 % - samotné rozfázování téměř nemá vliv Pozorování: pokles recallu mezi 4 a 5 je nepatrný - není třeba redukovat množinu pravidel, naopak je možné zkusit ji rozšiřovat

Unsupervised vize (náčelníkova :)) Pracovní postup (+ výsledky na dtestu): 1 Ojetí hromady dat (SYN*) více taggery (3?) (95.50/93.97/94.37) 2 Vybrání pouze těch vět, kde se všechny na všem shodnou (33 % dat, 98.40 (m. recall 99.64)) 3 (opt) Vyházení těch vět, kde se něco neĺıbí pravidlům (30 % dat, 98.64 (m. recall 99.71)) 4 Použití výsledku jako nových trénovacích dat pro taggery (???)

Postranní čísýlka Accuracy/podíl na datech: Morče + pravidla 96.1/80 Morče + Hajič 97.94/43 (+pravidla 98.25/38) Morče + Krbec 97.77/47 Hajič + Krbec 96.97/45 alespoň dva taggery 95.89/89 K zamyšlení: Šlo by to i s parsery? A šlo by k tomu použít negativních pravidel?

Prozatímní y Parsování pozitivními pravidly byl blbej nápad Negativní pravidla zatím čekají na možné syntaktické využití Pravidla nelze žádným triviálním způsobem využít ke zlepšení situace na poli taggerů Existují však způsoby netriviální :) Úkol do diskuse/ke kafi/na doma: Máte nějaké další nápady?