Vybrané aktuální projekty Centra ZPJ. Kolokace a dokumenty. Metody. Kontext:,,One-click dictionary post-editing lexicography

Podobné dokumenty
Tento materiál byl vytvořen v rámci projektu Operačního programu Vzdělávání pro konkurenceschopnost.

Compression of a Dictionary

GUIDELINES FOR CONNECTION TO FTP SERVER TO TRANSFER PRINTING DATA

USING VIDEO IN PRE-SET AND IN-SET TEACHER TRAINING

Název projektu: Multimédia na Ukrajinské

Korpusová lingvistika a počítačové zpracování přirozeného jazyka

Website review vaznikystrechy.eu

Syntactic annotation of a second-language learner corpus

WORKSHEET 1: LINEAR EQUATION 1

Informace jako antropologický fenomén

CZ.1.07/1.5.00/

Střední průmyslová škola strojnická Olomouc, tř.17. listopadu 49

Klepnutím lze upravit styl předlohy. nadpisů. nadpisů.

Škola: Střední škola obchodní, České Budějovice, Husova 9. Inovace a zkvalitnění výuky prostřednictvím ICT

Využití korpusu InterCorp při vytváření ručních pravidel pro automatickou detekci pleonastického it a jeho českých ekvivalentů v závislostních datech

Tento materiál byl vytvořen v rámci projektu Operačního programu Vzdělávání pro konkurenceschopnost.

POSLECH. M e t o d i c k é p o z n á m k y k z á k l a d o v é m u t e x t u :

Website review ciporat.ru

Mut goes shopping VY_22_INOVACE_27. Vzdělávací oblast: Jazyk a jazyková komunikace. Vzdělávací obor: Anglický jazyk. Ročník: 6

WYSIWYG EDITOR PRO XML FORM

Litosil - application

Czech Republic. EDUCAnet. Střední odborná škola Pardubice, s.r.o.

Střední průmyslová škola strojnická Olomouc, tř.17. listopadu 49

Korpusová lingvistika a počítačová lexikografie. Od 60. let 20. st.

Výukový materiál zpracovaný v rámci operačního programu Vzdělávání pro konkurenceschopnost

Škola: Střední škola obchodní, České Budějovice, Husova 9. Inovace a zkvalitnění výuky prostřednictvím ICT

The Czech education system, school

SEARCH & BIG DATA [ & ANALYTICS] INFORUM 2015, Pavel Kocourek

Present Simple and Continuous Přítomný čas prostý a průběhový Pracovní list

Radiova meteoricka detekc nı stanice RMDS01A

Výukový materiál zpracovaný v rámci operačního programu Vzdělávání pro konkurenceschopnost

AŤ ŽIJE MEFANET! VYUŽIJE MEFANET NOVÉ TECHNOLOGIE PRO PODPORU VÝUKY?

CZ.1.07/1.5.00/

Návrh a implementace algoritmů pro adaptivní řízení průmyslových robotů

Výukový materiál zpracovaný v rámci operačního programu Vzdělávání pro konkurenceschopnost

VYSOKÁ ŠKOLA HOTELOVÁ V PRAZE 8, SPOL. S R. O.

Universal Dependencies and non-native Czech

Digitální učební materiál

Unstructured data pre-processing using Snowball language

Invitation to ON-ARRIVAL TRAINING COURSE for EVS volunteers

CZ.1.07/1.5.00/

Gymnázium a Střední odborná škola, Rokycany, Mládežníků 1115

User manual SŘHV Online WEB interface for CUSTOMERS June 2017 version 14 VÍTKOVICE STEEL, a.s. vitkovicesteel.com

Korpusová lingvistika 2. Mgr. Dana Hlaváčková, Ph.D. CJBB105

Klepnutím lze upravit styl předlohy. Klepnutím lze upravit styl předlohy. nadpisů. nadpisů. Aleš Křupka.

Jméno autora: Mgr. Alena Chrastinová Datum vytvoření: Číslo DUMu: VY_32_INOVACE_15_AJ_CON_1

Tabulka 1 Stav členské základny SK Praga Vysočany k roku 2015 Tabulka 2 Výše členských příspěvků v SK Praga Vysočany Tabulka 3 Přehled finanční

. 1 st International School of Ostrava - mezinárodní gymnázium, s. r. o., Gregorova 2582/3, Ostrava. IZO: Forma vzdělávání: denní

Translation Model Interpolation for Domain Adaptation in TectoMT

Britské společenství národů. Historie Spojeného království Velké Británie a Severního Irska ročník gymnázia (vyšší stupeň)

VY_32_INOVACE_06_Předpřítomný čas_03. Škola: Základní škola Slušovice, okres Zlín, příspěvková organizace

SPOLUPRÁCE - KOORDINÁTOR/KA ZAHRANIČNÍCH KURZŮ

CLIL a projektové vyučování

Projekt: ŠKOLA RADOSTI, ŠKOLA KVALITY Registrační číslo projektu: CZ.1.07/1.4.00/ EU PENÍZE ŠKOLÁM

Střední průmyslová škola strojnická Olomouc, tř.17. listopadu 49

Vliv metody vyšetřování tvaru brusného kotouče na výslednou přesnost obrobku

Digitální učební materiál

Learning Technologies

DIACRAN: a framework for diachronic analysis

IA161 Pokročilé techniky zpracování přirozeného jazyka

Využití hybridní metody vícekriteriálního rozhodování za nejistoty. Michal Koláček, Markéta Matulová

cstenten17, a Recent Czech Web Corpus

Textmining a Redukce dimenzionality

CZ.1.07/1.5.00/

Škola: Střední škola obchodní, České Budějovice, Husova 9. Inovace a zkvalitnění výuky prostřednictvím ICT

VIKBA32 Informační vzdělávání Modely informační gramotnosti Rozdíl mezi mediální a informační gramotností. Mgr. Jan Zikuška 1.3.

Content Language level Page. Mind map Education All levels 2. Go for it. We use this expression to encourage someone to do something they want.

PLIN041 Vývoj počítačové lingvistiky. Korpusová lingvistika od 70. let 20. st. Mgr. Dana Hlaváčková, Ph.D.

DC circuits with a single source

Bibliometric probes into the world of scientific publishing: Economics first

Aktuální trendy ve výuce a testování cizích jazyků v akademickém prostředí

Tento materiál byl vytvořen v rámci projektu Operačního programu Vzdělávání pro konkurenceschopnost.

SLOVNIK CIZICH SLOV PDF

SenseLab. z / from CeMaS. Otevřené sledování senzorů, ovládání zařízení, nahrávání a přehrávání ve Vaší laboratoři

Vánoční sety Christmas sets

A take zpráva o jednom vítězství. Pavel Pecina

Anglický jazyk Ročník: 5. Téma učivo: Countries, flags, languages, nationalities Výukový cíl: Předmět:

AJ 3_08_Shopping.notebook. November 08, úvodní strana

IBM Connections. úvod. Petr Kunc, IBM IBM Corporation

Kdo jsme Čím se zabýváme Nabídka služeb pro veřejnou správu Ověřeno v praxi u tisíce uživatelů v podnikatelské a bankovní sféře Plně využitelné u

VY_22_INOVACE_60 MODAL VERBS CAN, MUST

Anglický jazyk 5. ročník

Next line show use of paragraf symbol. It should be kept with the following number. Jak může státní zástupce věc odložit zmiňuje 159a.

WWW. Petr Jarolímek, DiS. Školní rok:

Gymnázium, Brno, Slovanské nám. 7, SCHEME OF WORK Mathematics SCHEME OF WORK. cz

ITICA. SAP Školení přehled Seznam kurzů

18.VY_32_INOVACE_AJ_UMB18, Frázová slovesa.notebook. September 09, 2013

My Year Manager is Vedoucí našeho ročníku je. P.E. is on Tělocvik mám v

CZ.1.07/1.5.00/

Theme 6. Money Grammar: word order; questions

Gymnázium, Brno, Elgartova 3

Úvod do datového a procesního modelování pomocí CASE Erwin a BPwin

Perception Motivated Hybrid Approach to Tone Mapping

Gymnázium a Střední odborná škola, Rokycany, Mládežníků 1115

5.VY_32_INOVACE_AJ_UMB5, Vztažné věty.notebook. September 09, 2013

Microsoft Lync WEB meeting

Číslo materiálu: VY 32 INOVACE 29/18. Číslo projektu: CZ.1.07/1.4.00/

HandiClamp. Single Band Repair Clamp Jednodílný Opravný Třmen INSTALLATION INSTRUCTIONS

Verb + -ing or infinitive

ADC Young Creative. Brief MOBIL.CZ

Transkript:

Obsah: Vybrané aktuální projekty Centra ZPJ Vojtěch Kovář, Zuzana Nevěřilová E-mail: xkovar3@fi.muni.cz,xpopelk@fi.muni.cz http://nlp.fi.muni.cz/poc_lingv/ Kontext:,,One-click dictionary post-editing lexicography Cíl word sense iduction, WSI: vstup: označkovaný korpus + slovo výstup: rozdělení významů pro dané slovo výstup: indikátory významů Usnadnění práce pro editora slovníku: pouze editace draftu hesla DWS (dictionary writing system) musí podporovat snadnou editaci významů Metody Úvod do počítačové lingvistiky 12/12 1 / 24 Kolokace a dokumenty: dokument obvykle obsahuje pouze 1 význam jedna kolokace často znamená 1 význam Word embeddings: vektor slova může být součtem více vektorů = významů hledáme nejlepší rozdělení Úvod do počítačové lingvistiky 12/12 2 / 24 Kolokace a dokumenty Algoritmus: pokud má kolokace dost dokumentových souvýskytů s nějakou kolokací v již existujícím clusteru, přidej ji do clusteru jinak vytvoř nový cluster dost = funkce frekvence slova (1/5000) významy = clustery indikátory významů = kolokace Problémy: princip 1 sense per collocation ne vždy funguje kolokace se všemi významy slova parametry jsou důležité (min. freq. = 100, min. score = 3) Příklad Úvod do počítačové lingvistiky 12/12 3 / 24 Úvod do počítačové lingvistiky 12/12 4 / 24

Word embeddings Adagram příklad Skip-gram: pro každé slovo W pravděpodobnost, že určité slovo se vyskytne v okoĺı W Adaptive skip-gram (Adagram): pro každé slovo W a index významu pravděpodobnost, že určité slovo se vyskytne v okoĺı W musíme předem určit počet významů Výstup: vektory pro jednotlivé významy indikátory významů = podobná slova (bĺızké vektory) Lodička: střevíček kozačka botka bota páskový balerína balerínka podpatek člun kajak pramice kanoe parník lod ka lod ka kánoe skořápka skořápkový rozkrajování lod ka košíček pouštění zvoneček věneček lod ka sandál bota botka teniska vratký polobotka bosý teniska tričko mikina gumáček vestička gumák bota džíny Úspěšnost Úvod do počítačové lingvistiky 12/12 5 / 24 Základní vyhodnocení (10 víceznačných slov, asi 30 významů): Poznámky: Precision Recall Docs CZ 46 % 61 % Adagrams CZ 38 % 61 % Docs DK 67 % 84 % Adagrams DK 18 % 35 % čistota korpusu může mít velký vliv špatně definovaný úkol, spolehlivé vyhodnocení je problém Výhody a nevýhody Kolokace a dokumenty: Úvod do počítačové lingvistiky 12/12 6 / 24 závislé na gramatice pro slovní profily (sketch grammar), značkování apod. problém s kolokacemi všech významů technicky přímočaré propojené s korpusovým manažerem snadno se ladí Word embeddings: černá skříňka prakticky nejde ladit musíme předem určit počet významů není snadné určit, do kterého významu patři konkrétní výskyt výpočetně náročné nezávislé, potřebujeme pouze texty Úvod do počítačové lingvistiky 12/12 7 / 24 Úvod do počítačové lingvistiky 12/12 8 / 24

Možná vylepšení Kombinace: vytvoříme vektory pro kolokace, ty pak budeme clusterovat Detekce kolokací se všemi významy: vytvoříme matici dokumentových souvýskytů všech kolokací hledáme skupinky kolokace se všemi významy bude možné poznat Úvod do počítačové lingvistiky 12/12 9 / 24 a demo application complete processing pipeline from data to knowledge: 1. convert an uploaded file to text 2. detect language 3. apply keyword search 4. recognize named entities 5. perform Wikipedia search of the keywords 6. evaluate the results so far, keywords in 12 languages (cs, sk, en, de, fr, it, es, vi, pl, hu, da, ru) so far, named entities in 5 languages (cs, en, es, de, ru) Úvod do počítačové lingvistiky 12/12 10 / 24 Extract Texts TextPerience I: Extract Texts from Files After a successful MIME type guessing... use Apache Tika for Office-like texts and PDFs use JusText for extracting text from web pages, Pomikálek (2011) take plain texts as they are many other file types: tables (Excel, TSV, CSV) presentations images (OCR) source codes (plain text with a particular extension) videos (subtitles)... Úvod do počítačové lingvistiky 12/12 11 / 24 Úvod do počítačové lingvistiky 12/12 12 / 24

Extract Texts Extract Texts TextPerience I: Extract Texts from Files TextPerience I: Extract Texts from Files selecting the right content from web pages: JusText parameters vs. customization repair extracted texts: distorted diacritics in PDFs headers, footers, page numbers hyphenation Úvod do počítačové lingvistiky 12/12 13 / 24 Detect Language(s) TextPerience II: Detect Language(s) Úvod do počítačové lingvistiky 12/12 14 / 24 Keyword Search TextPerience III: Keyword Search the langid module, Lui and Baldwin (2012) trained for 90 languages, excl. cestina Naive-Bayes classifier on letter n-grams good for longer texts noise reduction needed (HTML tags and entities, URLs, non-words etc.) how about multi-lingual documents? language independent way: TF-IDF tokenize the text detect POS assume keywords to be only nouns lemmatize nouns compute TF-IDF on lemmata what about keyphrases? Úvod do počítačové lingvistiky 12/12 15 / 24 Úvod do počítačové lingvistiky 12/12 16 / 24

Keyword Search Keyword Search TextPerience III: Keyword Search TextPerience III: Keyword Search Tagging and Lemmatization: a very simplistic approach find a word form in corpus (limit to 10 occurrences) save the most frequent lemma and tag works for all POS-annotated corpora with lemmatization fast and independent but not very precise TF-IDF on noun lemmata corpora of different sizes for different languages precomputed d f s in our corpora what about words not present in our corpora? Úvod do počítačové lingvistiky 12/12 17 / 24 Named Entity Recognition TextPerience IV: Named Entity Recognition Úvod do počítačové lingvistiky 12/12 18 / 24 Wikipedia Search TextPerience V: Wikipedia Search Stanford NER with different models, Finkel et al. (2005) ready to use models for es, en, de training data for cs and ru (see IA161) new models very different model parameters for e.g. English and German apply models for a language on close languages (e.g. es model on fr) for training models, we need NE annotated corpus use of API MediaWiki (2015) for each keyword/ne try to get the most relevant Wikipedia article no keyword scoring employed no graph-based scoring employed no generalization methods different sizes of Wikipedias in different languages Úvod do počítačové lingvistiky 12/12 19 / 24 Úvod do počítačové lingvistiky 12/12 20 / 24

TextPerience VI: users can click on the evaluation icons 443 files 1541 evaluations: entities: 586 correct, 220 incorrect keywords: 401 correct, 150 incorrect no learning from evaluations Try It Úvod do počítačové lingvistiky 12/12 21 / 24 Conclusion and Further Work 1. convert an uploaded file to text repair texts from PDFs 2. detect language detect multi-lingual documents, noise reduction 3. apply keyword search better ways to fast lemmatization keyword search in multi-lingual documents keyphrase search (what is a phrase?) 4. recognize named entities evaluation of existing models evaluation of using existing models on close languages 5. perform Wikipedia search of the keywords keyword weighting graph algorithms for disambiguation generalization methods (Wikipedia categories) 6. evaluate the results learning methods References I Úvod do počítačové lingvistiky 12/12 22 / 24 Try TextPerience http://nlp.fi.muni.cz/projects/textperience Finkel, J. R., Grenager, T., and Manning, C. (2005). Incorporating non-local information into information extraction systems by gibbs sampling. In Proceedings of the 43rd Annual Meeting on Association for Computational Linguistics, ACL 05, pages 363 370, Stroudsburg, PA, USA. Association for Computational Linguistics. Lui, M. and Baldwin, T. (2012). Langid.py: An Off-the-shelf Language Identification Tool. In Proceedings of the ACL 2012 System Demonstrations, ACL 12, pages 25 30, Stroudsburg, PA, USA. Association for Computational Linguistics. MediaWiki (2015). API:Search MediaWiki, The Free Wiki Engine. Pomikálek, J. (2011). justext. software. Úvod do počítačové lingvistiky 12/12 23 / 24 Úvod do počítačové lingvistiky 12/12 24 / 24