Co nového ve zpracování MWE Automatická identifikace

Podobné dokumenty
S frazémy si hrát na nervy je balzám Víceslovné výrazy v PDT dnes a zítra

ve strojovém překladu

Automatic Alignment of Tectogrammatical Trees from Czech-English Parallel Corpus

Automatická post-editace výstupů frázového strojového překladu (Depfix)

Automatické párování uzlů českých a anglických tektogramatických stromů

INTLIB. Osnova. Projekt (TA /Inteligentní knihovna) je řešen s finanční podporou TA ČR. ! Legislativní doména

NLP & strojové učení

Inovace CRM systémů využitím internetových zdrojů dat pro malé a střední podniky. Ing. Jan Ministr, Ph.D.

Role informační architektury a optimalizace pro vyhledavače v online publikování

ZKUŠENOSTI S AUTOMATIZACÍ CITAČNÍ ANALÝZY NA ZAKONECHPROLIDI.CZ. Pavel Gardavský/AION CS, s.r.o

Sémantický web a extrakce

Jak pracuje internetový vyhledávač

Algoritmizace a programování

VAŠE, a.s. Praha 99, Hornodolní 123, PSČ IČO: ROZVAHA k

Internetový prohlížeč-vyhledávání a ukládání dat z internetu do počítače

Pokročilé funkce. Průvodce systémem Moodle ČZU. Pokročilé funkce. Středisko podpory elektronického vzdělávání

KAPITOLA 4: PENĚŽNÍ TRH

Jak psát Bc. resp. Mgr. závěrečnou práci. Zpracoval: Karel Bílek

Personální audit v ČNB. aneb Stíny horkého léta 2005 Drama, thriller nebo pohodové rodinné představení?

Zkušenosti s aplikací definice MSP v ČR

Zjednodušený návod plnění Národního registru zdravotnických pracovníků pro organizace vzdělávající nelékařské zdravotnické pracovníky (SŠ, VoŠ a VŠ)

Seznam použitých zkratek: ÚT účtová třída účtová skupina. účetní jednotka SÚO směrná účtová osnova. Účtová skupina 01 - Dlouhodobý nehmotný majetek

Sklady. Níže popsaný návod je určen pro uživatele s rolí Administrátor nebo Správce skladu. Přehled funkcí 2. Postup pro vytvoření nového skladu 2

Strategické řízení a plánování. Pracovní skupina pro udržitelný rozvoj regionů, obcí a území, Ministerstvo pro místní rozvoj, 17.

KUDY KAM orientace žáků Olomouckého a Zlínského kraje v systému veřejné správy

Částka 14 Sbírka mezinárodních smluv č. 26 / Ministerstva zahraničních věcí

johanka April 16, 2008

S databázemi se v běžném životě setkáváme velmi často. Uvádíme běžné použití databází velkého rozsahu:

Převodový můstek

Kurz Databáze. Prezentace dat. Obsah. Tiskové sestavy (Report) Ing. Jolana Škutová

Výroková logika syntaxe a sémantika

REGISTR CITES VE STÁTNÍ SPRÁVĚ. Duben 2009

Jak dělat strojový překlad lépe než Google Translate

Český jazyk a literatura - jazyková výchova

V L Á D A Č E S K É R E P U B L I K Y PROGRAM SCHŮZE VLÁDY ČESKÉ REPUBLIKY

Automatická segmentace slov s pomocí nástroje Affisix. Michal@Hrusecky.net, Hlavacova@ufal.mff.cuni.cz

Veřejné zakázky Stavební fórum,

DOPORUČENÁ OSNOVA PODNIKATELSKÉHO ZÁMĚRU. PROGRAM PODPORY MARKETING VÝZVA IV Individuální účasti MSP na výstavách a veletrzích

Zjednodušený návod plnění Národního registru zdravotnických pracovníků pro organizace vzdělávající nelékařské zdravotnické pracovníky (SŠ, VoŠ a VŠ)

Gymnázium a Střední odborná škola, Rokycany, Mládežníků 1115

PROSPERITA investiční společnost, a.s. Pololetní zpráva za 1. pololetí roku 2015

Venkovské komunitní školy nástroj celoživotního vzdělávání. RNDr. Zuzana Guthová Jarkovská, CSc.

Tabulky nákladového modelu. Příloha A Studie proveditelnosti institucionálního zajištění navrhovaného systému hodnocení

Návod na vyplnění elektronického formuláře

Algoritmy a datové struktury

Použití technik UI v algoritmickém obchodování III

Navrhovaná opatření k podpoře zaměstnávání osob se zdravotním postižením

Text Mining: SAS Enterprise Miner versus Teragram. Petr Berka, Tomáš Kliegr VŠE Praha

Metodický materiál Národního zdravotnického informačního systému (NZIS)

Úpravy za 4. čtvrtletí. Skutečnost k

Algoritmizace Dynamické programování. Jiří Vyskočil, Marko Genyg-Berezovskyj 2010

Strategický cíl 3. Prosperita

Přístupy zaměřené na člověka a jejich využití na podporu inkluzívního vzdělávání. Julie Lunt

Česká terminologická databáze knihovnictví a informační vědy. Bc. Jaroslava Citová, DiS. Národní knihovna ČR Knihovnický institut

Druh zadávacího řízení: zjednodušené podlimitní řízení na stavební práce

ROZPOČTY A KALKULACE... 3 DATOVÁ ZÁKLADNA... 6 SOUPISY PRACÍ ČERPÁNÍ... 8 POROVNÁNÍ ROZPOČTŮ A NABÍDEK... 11

L E G E N D A : URBAPLAN ZMĚNA Č.1 ÚP MĚSTA ČESKÁ LÍPA PLOCHY S ROZDÍLNÝM ZPŮSOBEM VYUŽITÍ: I URBAPLAN s.r.o.

Vyplnění projektové žádosti

KSRZIS. Postup kroků nutných pro napojení nemocničního informačního systému s registrem NSHNU v prostředí registrů resortu zdravotnictví

FAKULTA INFORMAČNÍCH TECHNOLOGIÍ

Dobývání znalostí z textů text mining

Kódování vzácných onemocnění v MKN-11

EXTRAKCE STRUKTUROVANÝCH DAT O PRODUKTOVÝCH A PRACOVNÍCH NABÍDKÁCH POMOCÍ EXTRAKČNÍCH ONTOLOGIÍ ALEŠ POUZAR

Ing. Petr Hájek, Ph.D. Podpora přednášky kurzu Aplikace umělé inteligence

Zpráva o výsledku přezkoumání hospodaření

Projekt OPTIMED. Prohlížeč výstupů z učení, Registr výukových jednotek

Maturitní otázky k ústní zkoušce

Vyhledávání. doc. Mgr. Jiří Dvorský, Ph.D. Katedra informatiky Fakulta elektrotechniky a informatiky VŠB TU Ostrava. Prezentace ke dni 21.

IS Benefit7. Příručka pro žadatele. pro. podání žádosti o udělení dotace. Czech POINT kontaktní místa

GRANTYS online formulář žádosti

7. ROČNÍK KONFERENCE , FEL ZČU v PLZNI VÍTÁME VŠECHNY ÚČASTNÍKY!

Datace, popis a příklady použití

Inovační broker zkušenosti v rámci projektů EIP. EIP Evropské inovační partnertví

Sociální bydlení a jeho implementace v ČR - pilotní testování v obcích

pokroky ve johanka Obsah telenovely Bez ladu a skladu Unsupervised johanka 21. dubna 2008

SWOT ANALÝZA. Obchodní akademie, Vyšší odborná škola a Jazyková škola s právem státní jazykové zkoušky Uherské Hradiště Název DUMu

Novinky ve verzi Nastavení. Práce s textem a grafickými objekty. Vkládání textu. Vložte 2 strany latinského textu

Programování II. Návrh programu I 2018/19

Mateřská škola Kámen - ústřední vytápění

2) Napište algoritmus pro vložení položky na konec dvousměrného seznamu. 3) Napište algoritmus pro vyhledání položky v binárním stromu.

Občanská věda a vzdělávání v zrcadle digitálních technologií. Inforum 2016 Michal Černý KISK FF MU

VÝKAZ PRO HODNOCENÍ PLNĚNÍ ROZPOČTU SPRÁVCŮ KAPITOL, JIMI ZŘÍZENÝCH ORG. SLOŽEK STÁTU A STÁTNÍCH FONDŮ

Stromy. Strom: souvislý graf bez kružnic využití: počítačová grafika seznam objektů efektivní vyhledávání výpočetní stromy rozhodovací stromy

Detekce a rozpoznávání mincí v obraze

Genetické algoritmy a jejich praktické využití

Vyhledávání na portálu Knihovny.cz

Co jsou otevřená propojená data?

HROMADNÉ ÚPRAVY NAJÍT A NAHRADIT

Binární vyhledávací strom pomocí směrníků Miroslav Hostaša L06620

Aukční prokliky. Doplňková služba na Zboží.cz, kterou lze zvýšit pozici eshopu v detailu produktu nebo ve fulltextovém výsledku hledání na Zboží.

Organizace a zpracování dat I

Jednoduchá sdělení představování, poděkování, pozdrav, omluva Základní výslovnostní návyky

Větná polarita v češtině. Kateřina Veselovská Žďárek Hořovice,

Zkušenosti facilitátora s realizací projektů 1. fáze Programu Klastry OPPP. Moravskoslezský kraj

Reforma systému zdravotnictví v rámci strukturálních reforem veřejných financí. Euro Forum

Dodatečné informace k veřejné zakázce na výběr zhotovitele stavby s názvem - dostavba objektu základní školy v Roztokách

ZPRÁVA O VÝSLEDKU PŘEZKOUMÁNÍ HOSPODAŘENÍ Obce Hlavenec za rok 2013

Analýza dotazníků projektu National Teams of ECVET Experts

"Podřipsko",svazek obcí Závěrečný účet za rok 2017

Transkript:

Co nového ve zpracování MWE Automatická identifikace Společný workshop tří GAČRů 15. dubna 2013

Víceslovné výrazy Osnova Víceslovné výrazy (VV, MWE) v PDT 2.5 Automatická identifikace Problémy (Úpravy slovníku) 15. dubna 2013, 16:00 Víceslovné výrazy: automatická identifikace 2/24

PDT 2.5 screenshot V Republice srbské (RS, v Bosně) včera skončilo dvoudenní referendum o mírovém plánu kontaktní skupiny. 3/24

PDT 2.5 screenshot V Republice srbské (RS, v Bosně) včera skončilo dvoudenní referendum o mírovém plánu kontaktní skupiny. 4/24

Co jsou VV? řada kritérií jen vodítka uloženy ve slovníku SemLex když anotátor považoval za správné vložit do slovníku víc než jen kolokace detaily: komposicionalita překlad substituovatelnost variovatelnost odlučitelnost neblahý konec vs. vysoká škola high school účetní poradce vs. účetní závěrka *dopravní hřích *dopravní závažný přestupek 5/24

SemLex Slovník VV z celé t-roviny PDT slovník má smysl výběr netriviální pouze víceslovné lexie pojmenované entity nikoli uložena též stromová struktura ( podstrom ) jinak málo metadat předpoklad 1: jeden VV = jedna struktura pro všechny výskyty předpoklad 2: má-li něco strukturu VV, je to VV téměř 9 000 slovníkových položek 6/24

Stromová struktura v SemLexu podstrom v l podstrom v l 7/24

Stromová struktura v SemLexu podstrom v l podstrom #root Nový ředitel peněžního odboru zmíněné banky podal resignaci. v l 8/24

Podstrom pro frazém podívat se pravdě do očí 9/24

Automatická identifikace SemLex t-rovina automaticky vyhledat 10/24

Automatická identifikace SemLex t-rovina automaticky vyhledat SNADNÉ...nebýt chyb 11/24

Automatická identifikace SemLex t-rovina automaticky vyhledat chyby návrhu PDT (guidelines) SNADNÉ...nebýt chyb 12/24

Automatická identifikace SemLex t-rovina automaticky vyhledat chyby návrhu PDT (guidelines) SNADNÉ...nebýt chyb chyby anotace PDT 13/24

Automatická identifikace chyby anotace VV SemLex t-rovina automaticky vyhledat chyby návrhu PDT (guidelines) SNADNÉ...nebýt chyb chyby anotace PDT 14/24

Automatická identifikace chyby anotace VV SemLex t-rovina automaticky vyhledat chyby návrhu PDT (guidelines) nedostatečnost struktury v SemLexu SNADNÉ...nebýt chyb neúplný SemLex chyby anotace PDT 15/24

Automatická identifikace chyby anotace VV chyby v parsingu t-roviny SemLex t-rovina automaticky vyhledat chyby návrhu PDT (guidelines) nedostatečnost struktury v SemLexu SNADNÉ...nebýt chyb neúplný SemLex chyby anotace PDT 16/24

Podstrom VV nenalezen zkratky: ODS, ministr ŽP přechýlení mistryně světa, ministryně zahraničí, hlavní hygienička zdrobněliny rodinný dům/domek, konferenční sál/salonek vid: zaujmout/zaujímat stanovisko elipsy; reflexivita; PoS; synonyma; přívlastky 17/24

Výsledky (zatím žalostné) Precision / Recall PDT 2.5 PDT parsované ČNK parsované t-rovina 61.99 / 95.95 63.40 / 86.32 TBD a-rovina 66.11 / 88.67 66.09 / 81.96 TBD m-rovina (win=3) 62.65 / 90.50 62.73 / 89.80 TBD nedostatečná evaluace na trénovacích datech mnoho chyb v datech mnoho možných zlepšení pro slovník a hledání nezdá se zatím, že by t-rovina porazila a-rovinu, nebo alespoň m-rovinu... 18/24

Budoucnost propojení SemLexu Podobné VV jsou i ve slovníku někdy jsou synonymní, či antonymní jindy zkrátka jen odkazují na tentýž kratší VV nějak je zachytit musíme snaha propojit související pojmy, relacemi (synonymie, hyponymie, ale nejen jimi) případné uznané duplicity promazat příklad (násobný) druhá vlna kuponové privatizace, 2. vlna kupónové privatizace druhá vlna KP, druhá vlna privatizace druhá vlna... může být až 12 variant 19/24

Budoucnost propojení SemLexu další příklady (neuspořádané) (základní) umělecká škola (trvale/dlouhodobě) udržitelný rozvoj; (šitý/ušít) na míru osoba/pracovník se změněnou pracovní schopností / změněná prac. sch. ((první) náměstek) ministra zahraničí/zahraničních věcí loutkové divadlo/divadelnictví/představení (deficitní/vyrovnaný/přebytkový) státní rozpočet; zákon o (vyr.) st. rozp.; (deficit/vyrovnanost/schodek/návrh/výdaje) státního rozpočtu; dotace ze státního rozpočtu věci veřejné / věc veřejná / veřejná věc; pro i/a proti 20/24

Poděkování Silvii Silvie, děkuju. :-)...a samozřejmě všem za pozornost.

Anotace VV na t-rovině motivace je to blízké anotaci významu, patří to sem snazší odstínění povrchových variant (slovosled, nesouvislé/přerušené výrazy) tektogramatický podstrom tvořící VV by měl (ideálně) být shodný pro všechny výskyty jsou zde doplněné uzly popáleniny 3. a 4. stupně na 40 procentech povrchu těla...a bez Sarajeva by nebyla žádná první světová válka. A bez první možná ani druhá. [PDT 2.0, m-rovina] Naučili jsme je zobat raději z naší než z jiné ruky. [PDT 2.0, m-rovina] 22/24

Anotace VV na t-rovině nevýhody vyhledávání pomocí t-podstromu není všemocné: Leonardo dal svým gólem signál k výhře nad Nagojou a svůj první gól v zemi vycházejícího slunce vstřelil Němec Buchwald. [PDT 2.0] anotace obsahuje pouze t-uzly tvořící VV nevýhoda: aux-uzly nejsou nikdy součástí hodit flintu do žita zkusit do třetice zkoušet do soudného dne investovat do kotované emise lze doplnit automaticky ze slovníku 23/24

Tektogramatický podstrom nevýhody: 24/24