Word Sense Disambiguation (1)



Podobné dokumenty
Sémantický web a extrakce

Anotace žákovského korpusu. Alena Poncarová Žďárek, Listopad 2011

Korpusová lingvistika a počítačová lexikografie. Od 60. let 20. st.

Korpusová lingvistika 2. Mgr. Dana Hlaváčková, Ph.D. CJBB105

Japonsko-jazyčné online slovníky

Ontologie. Otakar Trunda

Faktorované překladové modely. Základní informace

Využití korpusu InterCorp při vytváření ručních pravidel pro automatickou detekci pleonastického it a jeho českých ekvivalentů v závislostních datech

Právní datasety. co, proč, kdo a komu. Jakub HARAŠTA. Ústav práva a technologií, Právnická fakulta MU

Filozofická fakulta. Compiled Jan 21, :48:06 PM by Document Globe 1

EXTRAKT z mezinárodní normy

PŘÍLOHA C Požadavky na Dokumentaci

Korpusová lingvistika a počítačové zpracování přirozeného jazyka

1. Přehled cizojazyčných a vícejazyčných korpusů

SEMINÁŘ Z ČESKÉHO JAZYKA. Pokaždé se něčemu přiučíme, kdykoliv otevřeme knihu

Relační DB struktury sloužící k optimalizaci dotazů - indexy, clustery, indexem organizované tabulky

Metody tvorby ontologií a sémantický web. Martin Malčík, Rostislav Miarka

Příprava na Cambridge English

Pracovní celky 3.2, 3.3 a 3.4 Sémantická harmonizace - Srovnání a přiřazení datových modelů

ZKUŠENOSTI S AUTOMATIZACÍ CITAČNÍ ANALÝZY NA ZAKONECHPROLIDI.CZ. Pavel Gardavský/AION CS, s.r.o

Dolování z textu. Martin Vítek

Disambiguace mnohoznačných slov pomocí vizuální informace

Mezinárodní výzkum PISA 2009

Metadata, sémantika a sémantický web. Ing. Vilém Sklenák, CSc.

Klasifikace vzácných onemocnění, Orphanet

Identifikace. Jiří Jelínek. Katedra managementu informací Fakulta managementu J. Hradec Vysoká škola ekonomická Praha

Větná polarita v češtině. Kateřina Veselovská Žďárek Hořovice,

Proces auditu. Health Research & Information Division, ESRI, Dublin, July 2008

NLP & strojové učení

Automatic Alignment of Tectogrammatical Trees from Czech-English Parallel Corpus

PSANÍ. Anglický jazyk 5. třída Hana Stryalová

Dovednosti dospělých v prostředí informačních technologií

Itálie Dotazník pro učitele VŠ připravující budoucí učitele cizích jazyků Zpracování údajů

Karel Pala, Vít Suchomel

ŽÁKOVSKÝ KORPUS MERLIN: JAZYKOVÉ ÚROVNĚ A TROJJAZYČNÁ CHYBOVÁ ANOTACE

Výsledky mezinárodního výzkumu OECD PISA 2009

VÝUKOVÝ MATERIÁL. Bratislavská 2166, Varnsdorf, IČO: tel Číslo projektu

Výukový plán. Tematický okruh č. 1 - odborné jazykové vzdělávání pracovníků chemického průmyslu - odborná terminologie - chemie

Strukturovaný životopis

Úvod do programovacích jazyků (Java)

Jak lze v korpusech hledat doklady pro výzkum morfologie?

CO DĚLAT, ABY BYLA DATA V DOKTORSKÝCH DISERTACÍCH ZNOVU VYUŽITELNÁ PRO VÝZKUM? Joachim Schöpfel Hélène Prost Cécile Malleret

Vyučovací hodina. 1vyučovací hodina: 2vyučovací hodiny: Opakování z minulé hodiny. Procvičení nové látky

Obr. 1.: Hlavní okno ukázka, že poměrně specializovaný medicínský termín se najde i ve velkém Platinum a Wordnetu

Technický slovník anglicko-český a česko-anglický byl již pod rozhraním LEXICON 2 a 4.

Specifika a scénáře vykazování dat AnaCredit prostřednictvím systému MtS-ISL-SÚD-SDNS

současný neformální mluvený jazyk (komunikace v rodině nebo mezi přáteli), včetně propojení přepisu se zvukem;

5.1.5 Německý jazyk - 2. stupeň

Francouzský jazyk. Náměty jeu de role skupinová práce jazykové hry domácí úkoly práce s časopisy

Sémantický web 10 let poté

Dovednosti dospělých v prostředí informačních technologií

Zpráva o přípravě a realizaci hlavního šetření PISA 2018

Tematický plán učiva

Reálné gymnázium a základní škola města Prostějova Školní vzdělávací program pro ZV Ruku v ruce

Moravské gymnázium Brno s.r.o. Hana Blaudeová. Ročník 2. Datum tvorby Anotace. -prezentace určena pro učitele

Manuál k programu RIZIKA

MODERNÍ PŘÍSTUPY K MANAGEMENTU

ZÁKLADY PROGRAMOVÁNÍ. Mgr. Vladislav BEDNÁŘ /14

Petr Křemen. Katedra kybernetiky, FEL ČVUT. Petr Křemen (Katedra kybernetiky, FEL ČVUT) Sémantické sítě a rámce 1 / 112

Natural Language Toolkit

PSANÍ. M e t o d i c k é p o z n á m k y k z á k l a d o v é m u t e x t u :

Charakteristika předmětu Anglický jazyk

Obohacování bibliografických záznamů o věcné selekční prvky postup NKČR

BIM a stavební výrobky

ve strojovém překladu

Lekce 9 - Migrace dat

PSANÍ. (1) My address is Dlouhá 34, Liberec. Thank you and!

Slovníky a morfologická analýza

Přehledvzdělávacích materiálů

Orphanet Portál pro vzácná onemocnění

Jak na Medline efektivně

Kapitola 1: Úvod. Systém pro správu databáze (Database Management Systém DBMS) Účel databázových systémů

Dnešní téma. Oblasti standardizace v ICT. Oblasti standardizace v ICT. Oblasti standardizace v ICT

Inovace CRM systémů využitím internetových zdrojů dat pro malé a střední podniky. Ing. Jan Ministr, Ph.D.

Gramatika. Přítomný čas prostý a průběhový. Minulý čas prostý pravidelných i nepravidelných sloves. Počitatelná a nepočitatelná podstatná jména

WEBOVÉ KORPUSY ARANEA A VÍCEJAZYČNÉ KOLOKAČNÍ PROFILY

Charakteristika studijního předmětu

PLIN041 Vývoj počítačové lingvistiky. Korpusová lingvistika od 70. let 20. st. Mgr. Dana Hlaváčková, Ph.D.

Závěrečná práce. Odborný styl

ČESKÁ TECHNICKÁ NORMA

ONLINE PŘÍPRAVNÝ KURZ KE ZKOUŠCE TOEFL IBT (Internet Based

Modely vyhledávání informací 4 podle technologie. 1) Booleovský model. George Boole Aplikace booleovské logiky

FAKULTA INFORMAČNÍCH TECHNOLOGIÍ

Gymnázium a Střední odborná škola Moravské Budějovice. Pravidla pro tvorbu seminárních a maturitních prací

Mgr.Jana Berkovcová. Učitelka anglického jazyka. Školní metodik prevence. Školní rok 2018/ Anglický jazyk, 5.ročník. Učivo:

Obsah přednášky. programovacího jazyka. Motivace. Princip denotační sémantiky Sémantické funkce Výrazy Příkazy Vstup a výstup Kontinuace Program

P(w i w 1 w 2...w i 1 ) = P(w 1...w i ) P(w 1...w i ) = P(w 1 ) P(w 2 w 1 ) P(w 3 w 1 w 2 )... P(w i w 1...w i 1 ) slova w i

CISAŽP. Celostátní informační systém pro sběr a hodnocení informací o znečištění životního prostředí

Zpráva z evaluačního nástroje Dotazník strategií učení cizímu jazyku

Programovací jazyky. imperativní (procedurální) neimperativní (neprocedurální) assembler (jazyk symbolických instrukcí)

VĚCNÝ POPIS DOKUMENTŮ (VĚCNÁ KATALOGIZACE) Mgr. Dagmar Smékalová

XERXES Portál informačních zdrojů. Ing. Lukáš Budínský PhDr. Ondřej Fabián

4. Francouzský jazyk

Kohezní politika EU po roce 2013

Logika a logické programování

Vyučovací předmět: Francouzský jazyk. Charakteristika vyučovacího předmětu. Obsahové, časové a organizační vymezení předmětu

Základy vytěžování dat

vyprávění, popis přítomný čas, minulý čas, předložky, členy, stupňování

Učebnice, počítač, dataprojektor, interaktivní tabule, plány měst, mapy, smartphone, slovníky

KORPUSOVÝ WORKSHOP. Václav Cvrček, Lucie Chlumská Univerzita Karlova v Praze VŠE, CO JSTE CHTĚLI VĚDĚT O KORPUSU, A BÁLI JSTE SE ZEPTAT!

Transkript:

SENSEVAL

SENSEVAL (1) Mezinárodní organizace zabývající se hodnocením systémů Word Sense Disambiguation (WSD) Organizace a řízení hodnocení a související činnosti Testování kladů a záporů WSD systémů s ohledem na různost slov, různé aspekty jazyka a různost jazyků

SENSEVAL (2) Prohlubování našich znalostí o lexikální sémantice a mnohoznačnosti Řízen malou komisí pod dohledem ACL- SIGLEX (zvláštní zájmová skupina LEXiconu a Assotiation for Computational Linguistics).

Word Sense Disambiguation (1) Zjednoznačnění významu slova Problém jak stanovit význam určitého slova v jakémkoliv možném kontextu Problém jak formalizovat proces probíhající přirozeně v lidském mozku Nejednoznačnost slovních významů je potenciálním zdrojem chyb ve všech aplikacích zpracování jazyka

Word Sense Disambiguation (2) Zažil oživení spolu možností vytvářet velké korpusy Díky SENSEVAL se statistické metody, obzvláště techniky strojového učení ukázaly být velmi efektivní Podobné značkování části promluvy Zahrnuje označení každého slova speciálním tagem z předdefinované množiny s použitím prvků kontextu a dalších informací

Word Sense Disambiguation použití (1) Anglické slovo drug ve francouzštině drogue nebo médicament překladový systém musí rozhodnout o jednoznačném významu slova při každém jeho výskytu podobně systémy pro získávání informací mohou chybně vrátit dokumenty týkající se nelegálních narkotik, zatímco dotaz se týkal léků

Word Sense Disambiguation použití (2) Systémy pro extrakci informací mohou vrátit špatnou odpověď Systémy pro převod textu na hlas mohou zaměnit významy slova zámek budova i předmět k uzamykání

Word Sense Disambiguation (2) V reálných aplikacích bývá WSD většinou plně zabudováno do systému bez možnosti separace Např. v systémech pro získávání informací není WSD prováděno explicitně, ale jako vedlejší produkt přiřazování dokumentu k odpovídajícímu dotazu Úkolem SENSEVAL je ovšem zaměřit se na samostatné obecně použitelné WSD systémy

SENSEVAL historie (1) Založena v roce 1997 jako pokračování workshopu SIGLEX-97 - Značkování s lexikální sémantikou: proč, co a jak?, pořádaného na konferenci Aplikace zpracování přirozeného jazyka Senseval-1 (1998) workshop v Herstmonceux Castle v Anglii 2. až 4. září. úkoly pro angličtinu, francouzštinu a italštinu

SENSEVAL historie (2) SIGLEX-99 Standardizace lexikálních prostředků University of Mariland, červenec 2009

SENSEVAL-2 (1) 2001 podporován organizacemi EURALEX, ELSNET, EPSRC a ELRA ve spojení s ACL-2001 5. až 6. července v Toulouse Hlavním cílem bylo podpořit účast nových jazyků a vyvinout metodologii pro všeslovné vyhodnocování

SENSEVAL 2 (2) 3 typy úkolů pro 12 jazyků: all-words : čeština, dánština, angličtina, estonština Lexikálnívzorky: baskydština, angličtina, italština, japonština, korejština, španělština, švédština Překlad: japonština

SENSEVAL 2 (3) all-words systémy musí označkovat téměř všechna slova obsažená ve vzorku souvislého textu Lexikálnívzorky nejprve je ze slovníku pečlivě vybrán vzorek slov. Systém poté musí na krátkém fragmentu textu označkovat určité instance zvolených slov. Překlad význam slova je definován vzhledem k odlišnostem v překladu

SENSEVAL-2 tabulka odevzdaných projektů

SENSEVAL-2 - úkoly Skládají se ze 3 typů dat: významový inventář přiřazení slov k významům s eventuálními dalšími informacemi k vysvětlení definici nebo rozlišení významů korpus manuálně značkovaného textu nebo vzorky textu (rozdělen do volitelného cvičného korpusu a testovacího korpusu) volitelná významová seskupení sloužící k omezení významových odlišností ve výsledku

SENSEVAL-2 vyhodnocování (1) Cílem bylo, aby při nestrojovém značkování nastala shoda v alespoň 90% případů Vyhodnocení řízeno centrálně z webu University of Pennsylvania, dodržovalo stejný postup jako v případě SENSEVAL-1 Pro každý úkol byla data rozdělena do třech částí: zkušební, cvičná a testovací data Týmy registrují své systémy, stáhnou data a poté mají 21 dnů na práci s cvičnými daty a 7 dnů na testovací data

SENSEVAL-2 - vyhodnocování (2) Každý tým odevzdá odpovědi na web, kde jsou automaticky vyhodnoceny Výsledky SENSEVAL-2 byly zhruba o 14% horší než v SENSEVAL-1 Mnoho systémů byly pouze vylepšené verze stejných systémů, které se účastnily SENSEVAL-1

SENSEVAL-2 plány do budoucna Současné nejvýkonnější systémy dosahují svých úspěchů díky kontrolovanému strojovému učení Současný výzkum se zaměřuje na to, jak způsoby výběru pro algoritmy strojového učení ovlivňují výkon na různých typech mnohoznačnosti Na základě toho, jak snadno nebo obtížně jsou slova zjednoznačněna různými metodami, bychom měli být schopni určit různé typy polysémie

ACL-02 Workshop (1) Word Sense Disambiguation: Současné úspěchy a směry do budoucnosti Philadelphia, červenec 2002 Analyzovat výsledky SENSEVAL-2, plánování SENSEVAL-3 Hloubková analýza odevzdaných projektů Srovnání různých systémů, technik nad různými jazyky

ACL-02 Workshop (2) Srovnání SENSEVAL-1 a SENSEVAL-2 Co způsobuje, že je pro některá slova snazší najít jednoznačný význam než pro jiná? Efektivnost různých korpusů Odlišnosti v inventářích významů požadovaných pro různé aplikace

ACL-02 Workshop (3) Zvláštní diskuse věnovaná sémantice předložek Většina z nich je vysoce mnohoznačná Význam je většinou abstraktní Více než u jakékoliv jiné syntaktické kategorie je přesný význam definován kontextem Vítány metody klasifikace předložek a formalizování sémantik

SENSEVAL historie (4) Senseval-3 (2004) od března do dubna s navazujícím workshopem v červenci 2004 v Barceloně WSD úkoly pro jazyky baskytština, katalánština, čínština, angličtina, italština, rumunština a španělština obsahoval 14 různých úkolů jak na samotné WSD, tak i na identifikaci sémantických rolí, mnohojazyčné anotace, logické formy, subkategorizační akvizice, atd. více než 55 týmů, přes 160 systémů, 16 úkolů

SENSEVAL 2007 Vyhodnocování systémů: 26.2. 1.4. Workshop: 23. 24. června v Praze spolu s ACL-2007 Účastníkům budou poskytnuta testovací data Podobné úkoly budou testovány nad stejným formátem dat 18 úkolů

SENSEVAL příklady úkolů Klasifikace sémantických vztahů mezi nominály Vícejazyčné čínsko-anglické lexikální vzorky WSD předložek Webové vyhledávání lidí Emoční text Víceúrovňová sémantická anotace katalánštiny a španělštiny Anglické lexikální substituce Vyhodnocení znalostních zdrojů o širokém pokrytí

SEMiSUSANNE Sémanticky značkovaný a strukturovaně anotovaný korpus Autor: Chris Powell Vzniklý sloučením korpusů SUSANNE a SemCor Skládá se ze 33 dokumentů společných pro oba korpusy Zachovává strukturu SUSANNE, tj. jedno slovo na řádek Využívá významy WordNet 1.6

SUSANNE SUSANNE = Surface and underlying structural analysis of natural English 130 000 reprezentativní průřez psanou americkou angličtinou Založeno na podmnožině Brown korpusu čítající přes milion slov Pokračující projekt CHRISTINE rozšířeno i o mluvenou angličtinu ( umm, err ) reprezentativní vzorky dnešní mluvené britské angličtiny Nejnovější rozšíření LUCY psaná angličtina moderní Británie teenageři, 9-12 leté děti, méně zkušení pisatelé

SEMiSUSANNE - struktura Podobná struktuře SUSANNE Osm polí na každé slovo šest z původního korpusu pole indukující samostatné/složené slovo pole pro kódování významu získaného ze SemCor

SEMiSUSANNE významové tagy (1) Významové pole je složeno ze 2 částí: znak z množiny {n,v,j,r} podstatné jméno, sloveso, přídavné jméno, příslovce nebo část promluvy číselná posloupnost lokalizující element v rámci WordNet databáze Např. kódování významu slova irregularity : A01:0030.06 - NN2 irregularities irregularity.np:s] 0 n475542

SEMiSUSANNE významové tagy (2) Použité kódování má zajistit rychlý přístup k databázi s použitím WordNet API řeší problém synonym při porovnávání významů s použitím formálních významových klíčů WordNetu

SEMiSUSANNE kódování složených slov Význam složeniny je přiřazen každé ze složek Opakován na každém odpovídajícím řádku

SEMiSUSANNE kódování samostatných slov V poli indikující, zda jde o složené slovo je vždy 0 A01:0010.21 VVDv said say [Vd.Vd] 0 v682542

SEMiSUSANNE funkční slova Slova jimž není přiřazen konkrétní význam A01:0010.06 AT The the [O[S[Nns:s. - -

DSO korpus (1) 191 lemat, 192 800 instancí Inventář: WordNet 1.5 Zdroje textů: Brown Corpus, Wall Street Journal Autoři: Hwee Tou Ng a Hian Beng Lee

DSO korpus (2) Významově značkované výskyty 121 podstatných jmen a 70 sloves Nejfrekventovanější nebo víceznačná anglická slova 192 800 vět převzatých z korpusu Brown a z Wall Street Journal Definice významu jednotlivých výskytů z WordNet 1.5

DSO korpus (3) Obsahuje kompletní výčet definic významů z WordNet 1.5 Formát věty s významovým tagem pro slovo action : ca01.db #020 `` These >> actions 8 << should serve to protect in fact and in effect the court 's wards from undue costs and its appointed and elected servants from unmeritorious criticisms, '' the jury said.

DSO definice významu z WordNet1.5 Sense 8 legal action, action, case, lawsuit, suit -- (a judicial proceeding brought by one party against another; "no criminal cases were heard while the judge was ill") => proceeding, legal proceeding, judicial proceeding, proceedings -- (the institution of a legal action) => due process, due process of law -- (the administration of justice according to established rules and principles) => group action -- (action taken by a group of people) => act, human action, human activity -- (something that people do or cause to happen)

DSO (4) Všechny značkované výskyty daného podstatného jména nebo slovesa jsou uloženy společně v jednom souboru Každá věta na jednom řádku, definice významu uloženy ve dvou souborech

Interest korpus (1) 1 lemma, 2369 instancí Inventář: LDCOE Zdroje textů: Wall Street Journal, Rebecca Bruce and Jan Wiebe Datový soubor složen z vět obsahující pouze slovo interest nebo interests Automaticky vyňato z korpusu Penn Treebank Wall Street Journal Každá věta v souboru obsahuje jeden významově značkovaný výskyt slova interest ( interests )

Interest korpus (2) Významové značky odpovídají šesti významům slova "interest" definovaných v elektronické verzi první edice Longman's Dictionary of Contemporary English Významové značky přidány za slovo Např. interest_6/nn význam číslo 6 Každá věta v souboru je vymezena řádkem obsahující symboly $$ Celkem 2369 vět

SemCor 23 346 lemmat, 234 113 instancí Inventář: WordNet 1.6, 1.7, 1.7.1, 2.0 Zdroje textů: 80% korpus Brown, 20% novela The Red Badge of Courage

Hector slovník Výzkumný projekt Oxford University Press a DEC cca 300 lemmat, 200 000 instancí Inventář: Hector Zdroj textu: A 20M-word pilot pro British National Corpus

Open Mind Word Expert 230 lemmat, 70 000 instancí včetně duplikátů, počet každým dnem roste On-line zdroj, uživatelé ho mohou sami kdykoliv rozšiřovat Inventář: WordNet 1.7 Zdroje textů: Penn treebank, LA Times, aj.

HKUST-Chinese 38 725 vět Inventář: Hownet Zdroj textu: Sinica corpus

Švédský korpus 179 151 značkovaných instancí Inventář: Gothenburg lexical database Zdroj textu: The SUC Corpus

Popisky obrázků 2 304 lemmat, 8 816 instancí Inventář: WordNet 1.5 Zdroj textů: Popisky obrázků z obrázkové kolekce

Line, hard, serve 3 slova, více jak 12 000 instancí více než 4000 instancí podstatného jména line značkováno 6 významy wordnetu více než 4000 instancí přídavného jména hard značkováno 3 významy wordnetu více než 4000 instancí slovesa serve značkováno 4 významy wordnetu Inventář: WordNet 1.5 Zdroje textů: Wall Street Journal, American Printing House for the Blind, San Jose Mercury, Leacock, Towell

Odkazy Homepage: www.senseval.org www.itri.brighton.ac.uk/events/senseval Výsledky SENSEVAL-2: www.itri.brighton.ac.uk/events/senseval/ar CHIVE/RESULTS/senseval-summary.html - unassignable http://193.133.140.102/senseval2/resul ts/all_graphs_files/sheet001.htm