Karel Pala, Vít Suchomel

Podobné dokumenty
Korpusová lingvistika 2. Mgr. Dana Hlaváčková, Ph.D. CJBB105

KORPUSOVÝ WORKSHOP. Václav Cvrček, Lucie Chlumská Univerzita Karlova v Praze VŠE, CO JSTE CHTĚLI VĚDĚT O KORPUSU, A BÁLI JSTE SE ZEPTAT!

P(w i w 1 w 2...w i 1 ) = P(w 1...w i ) P(w 1...w i ) = P(w 1 ) P(w 2 w 1 ) P(w 3 w 1 w 2 )... P(w i w 1...w i 1 ) slova w i

Korpusová lingvistika a počítačová lexikografie. Od 60. let 20. st.

WEBOVÉ KORPUSY ARANEA A VÍCEJAZYČNÉ KOLOKAČNÍ PROFILY

n-gramy Jazykové modely a textové korpusy n-gramy pokrač. Markovovy modely Obsah: se dostanou na trh... Jazykové modely Co to je korpus?

PLIN041 Vývoj počítačové lingvistiky. Korpusová lingvistika v ČR Počítačová lingvistika v ČR Brno. Mgr. Dana Hlaváčková, Ph.D.

1. Přehled cizojazyčných a vícejazyčných korpusů

Korpusová lingvistika a počítačové zpracování přirozeného jazyka

NLP & strojové učení

Workshop o paralelním korpusu InterCorp

K možnostem počítačového zpracování literárního textu

STUDIJNÍ OPORA K DISCIPLÍNĚ KORPUSOVÁ LINGVISTIKA. Katedra českého jazyka a literatury Pedagogické fakulty Univerzity Palackého

PLIN041 Vývoj počítačové lingvistiky. Korpusová lingvistika od 70. let 20. st. Mgr. Dana Hlaváčková, Ph.D.

Analýza staročeské morfologie v Excelu

2. Korpusový portál a volně dostupné nástroje

Využití korpusu InterCorp při vytváření ručních pravidel pro automatickou detekci pleonastického it a jeho českých ekvivalentů v závislostních datech

ve strojovém překladu

Text Mining: SAS Enterprise Miner versus Teragram. Petr Berka, Tomáš Kliegr VŠE Praha

zejména synonymie a antonymie, s odpovídajícím popisem gramatických vlastností

MBI - technologická realizace modelu

Práce s administračním systémem internetových stránek Podaných rukou

Dolování z textu. Martin Vítek

Sémantický web a extrakce

Jak lze zefektivnit monitoring médií

Tovek Tools. Tovek Tools jsou standardně dodávány ve dvou variantách: Tovek Tools Search Pack Tovek Tools Analyst Pack. Připojené informační zdroje

PRODUKTY. Tovek Tools

Tovek Server. Tovek Server nabízí následující základní a servisní funkce: Bezpečnost Statistiky Locale

Faktorované překladové modely. Základní informace

Paralelní vyhledávač MetaLib verze 3. Martin Ledínský Univerzita Karlova v Praze Ústav výpočetní techniky

Vzdělávací obsah vyučovacího předmětu

Technický slovník anglicko-český a česko-anglický byl již pod rozhraním LEXICON 2 a 4.

Cestovní zpráva. Program akce: Průběh akce. O Anopress

PV030 Textual Information Systems

Kvantitativní analýza textu. miroslav kubát FF OU Ostrava

Komunikace a jazyková správnost (pravopis)? Předmět Základy odborného stylu (VB000) K. Pala, Centrum ZPJ FI MU podzim 2015

1. Manuál ke Sketch Engine

současný neformální mluvený jazyk (komunikace v rodině nebo mezi přáteli), včetně propojení přepisu se zvukem;

Obsah. Předmluva 13. O autorovi 15. Poděkování 16. O odborných korektorech 17. Úvod 19

ABBYY Automatizované zpracování dokumentů

BMOF011 Aplikace MS Office. Word 2016 Lekce 4 Bibliografie. Matěj Karolyi IBA LF MU,

Multimediální systémy

local content in a Europeana cloud

RETROBI Softwarová aplikace pro zpřístupnění digitalizované lístkové kartotéky Retrospektivní bibliografie české literatury

CSS. SEO Search Engine Optimization (optimalizace pro vyhledávače)

Petr Nevrlý

Uvod Modely n-tic Vyhodnocov an ı Vyhlazov an ı a stahov an ı Rozˇ s ıˇ ren ı model u n-tic Jazykov e modelov an ı Pavel Smrˇ z 27.

ROČNÍKOVÉ PRÁCE ŽÁKŮ ŠESTÉHO AŽ DEVÁTÉHO ROČNÍKU

AMPHORA - NÁSTROJ PRO INDEXOVÁNÍ WEBOVÝCH STRÁNEK.

Motivace pro jazykovou správnost. Prezentace pro předmět Základy odborného stylu (VB000) K. Pala, Centrum ZPJ FI MU podzim 2014

Jak lze v korpusech hledat doklady pro výzkum morfologie?

Automatic Alignment of Tectogrammatical Trees from Czech-English Parallel Corpus

Nápověda 360 Search. Co je 360 Search? Tipy pro vyhledávání

local content in a Europeana cloud

Zpráva o zhotoveném plnění

IA161 Pokročilé techniky zpracování přirozeného jazyka

Web 2.0 vs. sémantický web

Máte to? Summon jako základní vyhledávací nástroj NTK

Uživatelská podpora v prostředí WWW

Ontologie. Otakar Trunda

Digitalizace a oběh dokumentů VUMS LEGEND, spol. s.r.o.

ROZHRANÍ PRO ZPŘÍSTUPNĚNÍ A PREZENTACI ZNALOSTNÍ DATABÁZE INTERPI UŽIVATELSKÁ PŘÍRUČKA

Word Sense Disambiguation (1)

Databázové systémy. Doc.Ing.Miloš Koch,CSc.

Filozofická fakulta. Compiled Jan 21, :48:06 PM by Document Globe 1

5.4 INFORMATIKA CHARAKTERISTIKA VYUČOVACÍHO PŘEDMĚTU. Obsahové, časové a organizační vymezení předmětu

ZKUŠENOSTI S AUTOMATIZACÍ CITAČNÍ ANALÝZY NA ZAKONECHPROLIDI.CZ. Pavel Gardavský/AION CS, s.r.o

Diktovací sw NovaVoice zkušenosti. D.Zoubek KZM FN Motol

Tomáš Klimek, Referát Manuscriptorium, NKČR Olga Čiperová, AiP Beroun s.r.o.

Národní elektronický nástroj. Import profilu zadavatele do NEN

VÝPOČETNÍ TECHNIKA OBOR: EKONOMIKA A PODNIKÁNÍ ZAMĚŘENÍ: PODNIKÁNÍ FORMA: DENNÍ STUDIUM

NEWTON Technologies a.s. Jaroslava Schmidtová Project manager

Primo Central. Martin Vojnar MULTIDATA Praha s.r.o.

The bridge to knowledge 28/05/09

NEWTON Technologies a.s.

PRODUKTY Tovek Server 6

PRODUKTY. Tovek Tools

Multimediální systémy

Uživatelská příručka

RadioBase 3 Databázový subsystém pro správu dat vysílačů plošného pokrytí

Digitální knihovny: principy a problémy Jaroslav Pokorný MFF UK Katedra softwarového inženýrství Praha

Vývoj a využití plnotextových edic historických dokumentů v Manuscriptoriu

Skrytá DVR kamera se záznamem

Rozumíme knihovnám, vyznáme se v knihách

Obohacování bibliografických záznamů o věcné selekční prvky postup NKČR

Bc. Martin Majer, AiP Beroun s.r.o.

ŽÁKOVSKÝ KORPUS MERLIN: JAZYKOVÉ ÚROVNĚ A TROJJAZYČNÁ CHYBOVÁ ANOTACE

Příloha: SEO analýza webové stránky

Vyhledávání informací

Číslo a název šablony III / 2 = Inovace a zkvalitnění výuky prostřednictvím ICT

RDF a RDF Query. Jakub Nerad 1. prosince Nerad () RDF a RDF Query 1. prosince / 16

NLP zpracování přirozeného jazyka

Redakční systémy 1. pro správu obsahu

Značkovací jazyky a spol. HTML/XHTML XML JSON YAML Markdown, Texy!

Informační systémy 2008/2009. Radim Farana. Obsah. Obsah předmětu. Požadavky kreditového systému. Relační datový model, Architektury databází

Vyučovací předmět: Český jazyk a literatura Ročník: 6. Jazyková výchova

Právní datasety. co, proč, kdo a komu. Jakub HARAŠTA. Ústav práva a technologií, Právnická fakulta MU

Olga Rudikova 2. ročník APIN

Microsoft Office Word 2003

Transkript:

PA153 Počítačové zpracování přirozeného jazyka 06 Korpusy a korpusové nástroje, značkování Karel Pala, Vít Suchomel Centrum ZPJ, FI MU, Brno 21. října 2013 Karel Pala, Vít Suchomel PA153 Zpracování přirozeného jazyka Korpusy, nástroje, značkování 1 / 42

1 Korpusy Co je korpus Tradiční textové korpusy Webové korpusy Paralelní a jiné korpusy 2 Korpusové nástroje Nástroje k získávání korpusů Korpusové manažery 3 Anotace Co jsou anotace Druhy Problémy 4 Literatura Karel Pala, Vít Suchomel PA153 Zpracování přirozeného jazyka Korpusy, nástroje, značkování 2 / 42

Definice Korpus je soubor dat (textů) v přirozeném jazyce. Použití obecně: data ke studiu přirozeného jazyka lexikografové: slovníky lingvisté: jazykové analýzy, změny jazyka sociologové: jak a o čem píšeme, která témata jsou aktuální marketingoví experti: hodnocení značek a výrobků v textech statistické nástroje ZPJ: jazykové modely pro značkovače, analyzátory, překladové systémy, prediktivní psaní,... Karel Pala, Vít Suchomel PA153 Zpracování přirozeného jazyka Korpusy, nástroje, značkování 3 / 42

Příklady zdrojů dat tištěná média: knihy, časopisy, noviny, básně internet: články, prezentace, blogy, diskuze, tweety řeč: přepis záznamů řeči, filmové titulky ostatní: osobní korespondence, školní eseje Karel Pala, Vít Suchomel PA153 Zpracování přirozeného jazyka Korpusy, nástroje, značkování 4 / 42

Zvláštní vlastnosti korpusů podle data vzniku obsahu: synchronní x diachronní jednojazyčné x vícejazyčné srovnatelné x paralelní podle zkrácení dokumentů: plné texty x zkrácené vzorky média: audio (záznam dialogu), video (záznam emocí) Karel Pala, Vít Suchomel PA153 Zpracování přirozeného jazyka Korpusy, nástroje, značkování 5 / 42

1 Korpusy Co je korpus Tradiční textové korpusy Webové korpusy Paralelní a jiné korpusy 2 Korpusové nástroje Nástroje k získávání korpusů Korpusové manažery 3 Anotace Co jsou anotace Druhy Problémy 4 Literatura Karel Pala, Vít Suchomel PA153 Zpracování přirozeného jazyka Korpusy, nástroje, značkování 6 / 42

Tradiční textové korpusy Vznik obvykle na objednávku vládní instituce, univerzity nebo nakladatelství zdroje: obvykle z tištěných médíı nakladatelství, skenování knih, přepisy rozhovorů Výhody tradičních korpusů kontrolovaný obsah (vyvážená reprezentace žánrů a stylů) kvalitní a bohaté informace o datech (autor, název, rok vydání, žánr, styl, oblast) možnost opravy chyb Nevýhody tradičních korpusů nedostatenčná velikost pro některá použití obtížné získávání dat, vysoké náklady problémy s autorskými právy Karel Pala, Vít Suchomel PA153 Zpracování přirozeného jazyka Korpusy, nástroje, značkování 7 / 42

Standard Corpus of Present-Day American English (Brown corpus) Brown University (Henry Kucera, W. Nelson Francis) 1964 (1971, 1979) 500 vzorků textu délky 2000 slov každý = 1 mil. slov http://khnt.aksis.uib.no/icame/manuals/brown/ Karel Pala, Vít Suchomel PA153 Zpracování přirozeného jazyka Korpusy, nástroje, značkování 8 / 42

British National Corpus (BNC) Oxford University, Longman 1991 1994 (2001, 2007) vzorky textu délky 100 mil. slov dohromady 90 % psaná řeč, 10 % mluvená řeč http://www.natcorp.ox.ac.uk/ Karel Pala, Vít Suchomel PA153 Zpracování přirozeného jazyka Korpusy, nástroje, značkování 9 / 42

Corpus of Contemporary American English (COCA) Brigham Young University (Mark Davies) od 1990, každý rok přidáno 20 mil. slov 450 mil. slov (2013) http://corpus.byu.edu/coca/ Karel Pala, Vít Suchomel PA153 Zpracování přirozeného jazyka Korpusy, nástroje, značkování 10 / 42

Český národní korpus SYN Ústav ČNK na FF UK v Praze texty od 1990 vydání SYN2000, SYN2005, SYN2010 1,3 mld. slov (2010) http://korpus.cz/ Karel Pala, Vít Suchomel PA153 Zpracování přirozeného jazyka Korpusy, nástroje, značkování 11 / 42

Korpus DESAM CZPJ FI MU morfologicky označkovaný korpus českých textů desambiguované (jednoznačné) značkování 1 mil. slov Karel Pala, Vít Suchomel PA153 Zpracování přirozeného jazyka Korpusy, nástroje, značkování 12 / 42

1 Korpusy Co je korpus Tradiční textové korpusy Webové korpusy Paralelní a jiné korpusy 2 Korpusové nástroje Nástroje k získávání korpusů Korpusové manažery 3 Anotace Co jsou anotace Druhy Problémy 4 Literatura Karel Pala, Vít Suchomel PA153 Zpracování přirozeného jazyka Korpusy, nástroje, značkování 13 / 42

Web je největší korpus Myšlenka a iniciativa,,web as Corpus (http://sigwac.org.uk/) Výhody internetových korpusů obrovské množství dat dokumenty různých druhů aktuální podoba psané formy jazyka snadná dostupnost, nízké náklady Nevýhody internetových korpusů neuspořádanost nežádoucí obsah duplicity chyby víme, co stahujeme? Karel Pala, Vít Suchomel PA153 Zpracování přirozeného jazyka Korpusy, nástroje, značkování 14 / 42

Proč potřebujeme velké korpusy? Přínosy velkých korpusů větší slovník (více různých slov) více/lepší příklady použití slov ve větách lepší pokrytí řídkých jazykových jevů více dat pro přesnější jazykové modely Karel Pala, Vít Suchomel PA153 Zpracování přirozeného jazyka Korpusy, nástroje, značkování 15 / 42

Velké textové korpusy získané z internetu v CZPJ velikost velikost doba korpusu korpusu stahování jazyk [GB] [10 9 tokenů] [dny] ententen12 108 17.8 17 esamtenten11 44 8.7 14 artenten12 58 6.6 28 cztenten11 5.8 40 frtenten12 72 12.4 15 jptenten11 61 11.1 28 rutenten12 198 20.2 14 turecké texty 26 4.1 14 V NLPC máme k dispozici také kolekci dat ClueWeb 09 vyčištěná anglická část obsahuje zhruba 70 miliard tokenů. Karel Pala, Vít Suchomel PA153 Zpracování přirozeného jazyka Korpusy, nástroje, značkování 16 / 42

1 Korpusy Co je korpus Tradiční textové korpusy Webové korpusy Paralelní a jiné korpusy 2 Korpusové nástroje Nástroje k získávání korpusů Korpusové manažery 3 Anotace Co jsou anotace Druhy Problémy 4 Literatura Karel Pala, Vít Suchomel PA153 Zpracování přirozeného jazyka Korpusy, nástroje, značkování 17 / 42

Paralelní korpus InterCorp Ústav ČNK na FF UK v Praze jazykové páry (vždy s češtinou) zarovnané na větách 10 30 mil. slov každý pár http://korpus.cz/intercorp/ Karel Pala, Vít Suchomel PA153 Zpracování přirozeného jazyka Korpusy, nástroje, značkování 18 / 42

Další paralelní korpusy OPUS dosptupná paralelní data (http://opus.lingfil.uu.se/) Europarl jednání EP (http://www.statmt.org/europarl/) 1984 Orwellův román (http://nl.ijs.si/me/vault/cd/docs/1984.html) Karel Pala, Vít Suchomel PA153 Zpracování přirozeného jazyka Korpusy, nástroje, značkování 19 / 42

Google Books Ngrams Vyhledávání ve skenovaných knihách Pouze ntice slov (n {1..5}) https://books.google.com/ngrams Karel Pala, Vít Suchomel PA153 Zpracování přirozeného jazyka Korpusy, nástroje, značkování 20 / 42

1 Korpusy Co je korpus Tradiční textové korpusy Webové korpusy Paralelní a jiné korpusy 2 Korpusové nástroje Nástroje k získávání korpusů Korpusové manažery 3 Anotace Co jsou anotace Druhy Problémy 4 Literatura Karel Pala, Vít Suchomel PA153 Zpracování přirozeného jazyka Korpusy, nástroje, značkování 21 / 42

Postup získávání webových korpusů v CZPJ příprava jayzkově závislých modelů používaných v dalších krocích učení na dokumentech z Wikipedie spuštění crawleru (SpiderLing) zpracování a vyhodnocování během běhu crawleru detekce znakové sady dokumentu (Chared) filtrování jazyka (vektor trigramů znaků) odstraňování nežádoucího obsahu (Justext) kontrola duplicitních dokumentů vyhodnocování průběžné výtěžnosti webových domén zpracování získaných dat odstranění podobných odstavců (Onion) tokenizace (Unitok nebo jiný nástroj) značkování morfologické a syntaktické externími nástroji, jsou-li dostupné zakódování a nahrání do korpusového manažeru (Manatee/Bonito) Více v předmětu PA154 nástroje pro korpusy Karel Pala, Vít Suchomel PA153 Zpracování přirozeného jazyka Korpusy, nástroje, značkování 22 / 42

Web crawler Web crawler je druh počítačového programu Crawlery prochází internet (stránky propojené odkazy) stahuje dokumenty (metainformace, obsah) ukládá části dokumentů v různých formátech k dalšímu použití k získávání obsahu dokumentů GoogleBot (navíc k indexování), Heritrix a mnoho dalších ke sbírání odkazů k získávání textových dokumentů pro ZPJ SpiderLing Karel Pala, Vít Suchomel PA153 Zpracování přirozeného jazyka Korpusy, nástroje, značkování 23 / 42

Ukázka dat v korpusu XML vertikální formát <dokument zanr="blog" nazev="dovolená v Paříži" datum="2011-10-28" url="http://karel.bloguje.cz/dovolena-v-parizi"> <odstavec nadpis="1"> <veta> Po sedmi letech v kouzelné Paříži! </veta> </odstavec>... </dokument> Karel Pala, Vít Suchomel PA153 Zpracování přirozeného jazyka Korpusy, nástroje, značkování 24 / 42

1 Korpusy Co je korpus Tradiční textové korpusy Webové korpusy Paralelní a jiné korpusy 2 Korpusové nástroje Nástroje k získávání korpusů Korpusové manažery 3 Anotace Co jsou anotace Druhy Problémy 4 Literatura Karel Pala, Vít Suchomel PA153 Zpracování přirozeného jazyka Korpusy, nástroje, značkování 25 / 42

Obecný korpusový manažer příprava textu převod z různých formátů zahrnutí metadat (informací o datech zdroj, autor, téma, žánr, datum) tokenizace (rozdělení na slova, interpunkce, znaky) anotace (značkování) efektivní uchování korpusu datové struktury umožňující rychlé získání uložených dat konkordance získání úseků textů odpovídajících uživatelským dotazům výpočet statistik vyhledání typických vzorů v datech, frekvenční distribuce, souvýskyty Karel Pala, Vít Suchomel PA153 Zpracování přirozeného jazyka Korpusy, nástroje, značkování 26 / 42

Word Sketch Engine korpusový manažer (a více) vyvíjený od roku 2000 v CZPJ FI MU (dizertační práce Pavla Rychlého) od 2003 spolupráce s průmyslovým partnerem Lexical Computing hlavní komponenty Manatee korpusový manažer Bonito uživatelské rozhraní a API Corpus Architect vytváření uživatelských korpusů a jejich nahrávání do Manatee pro zaměstnance a studenty MU zdarma na https://ske.fi.muni.cz Karel Pala, Vít Suchomel PA153 Zpracování přirozeného jazyka Korpusy, nástroje, značkování 27 / 42

Manatee korpusový manažer akceptuje XML vertikální formát dat podporuje metadata a anotace, jsou-li správně předzpracovány korpusy uchovává efektivně konkordance získání úseků textů odpovídajících uživatelským dotazům Word Sketch = slovní profil stručný přehled kolokačního a gramatického chování slova výpočet statistik vyhledání typických vzorů v datech, frekvenční distribuce, souvýskyty více v předmětu PA154 Statistické nástroje pro korpusy (jaro 2014) Karel Pala, Vít Suchomel PA153 Zpracování přirozeného jazyka Korpusy, nástroje, značkování 28 / 42

Corpus Query Language (CQL) dotazovací jazyk podporovaný Manatee slouží k vyhledání tokenů v korpuse využívá regulárních výrazů příklad: [lemma="červený" lemma="černý"] [tag="k1.*np.*"] dvě bezprostředně následující slova, první má základní tvar,,červený nebo,,černý, druhé je podstatné jméno v množném čísle, například,,červenými domky je platný odpovídající výraz Karel Pala, Vít Suchomel PA153 Zpracování přirozeného jazyka Korpusy, nástroje, značkování 29 / 42

Bonito uživatelské rozhraní a API převádí uživatelské dotazy do CQL volá funkce Manatee výsledek zobrazuje uživateli nebo ve formátu JSON pro API ukázka: https://ske.fi.muni.cz Karel Pala, Vít Suchomel PA153 Zpracování přirozeného jazyka Korpusy, nástroje, značkování 30 / 42

Corpus Architect uživatelské korpusy zajišt uje autentizaci a přístup uživatelů k jejich korpusům ukládá a zpracovává uživatelská data zpracovaná data nahrává do Manatee obsahuje univerzální tokenizaci pracuje s morfologickými analyzátory pro více než 10 jazyků zahrnuje nástroj WebBootCaT k získávání korpusů z internetu Karel Pala, Vít Suchomel PA153 Zpracování přirozeného jazyka Korpusy, nástroje, značkování 31 / 42

Alternativy k některým funkcím Sketch Engine samostatné vyhledávací nástroje pro daný korpus (např. BNC) WordSmith (Mike Scott, http://www.lexically.net/wordsmith) AntConc (Laurence Anthony, http://www.antlab.sci.waseda.ac.jp/antconc_index.html) Karel Pala, Vít Suchomel PA153 Zpracování přirozeného jazyka Korpusy, nástroje, značkování 32 / 42

1 Korpusy Co je korpus Tradiční textové korpusy Webové korpusy Paralelní a jiné korpusy 2 Korpusové nástroje Nástroje k získávání korpusů Korpusové manažery 3 Anotace Co jsou anotace Druhy Problémy 4 Literatura Karel Pala, Vít Suchomel PA153 Zpracování přirozeného jazyka Korpusy, nástroje, značkování 33 / 42

Anotace Anotace je přidávání lingvistických informací do korpusu. informace o zpracování dat (např. rozdělení na tokeny) metadata textů (zdroj, autor, téma, žánr, datum) struktury (dokument, odstavec, věta, zarovnání, mluvčí) značkování přiřazení značky (např. slovního druhu) k tokenu Karel Pala, Vít Suchomel PA153 Zpracování přirozeného jazyka Korpusy, nástroje, značkování 34 / 42

1 Korpusy Co je korpus Tradiční textové korpusy Webové korpusy Paralelní a jiné korpusy 2 Korpusové nástroje Nástroje k získávání korpusů Korpusové manažery 3 Anotace Co jsou anotace Druhy Problémy 4 Literatura Karel Pala, Vít Suchomel PA153 Zpracování přirozeného jazyka Korpusy, nástroje, značkování 35 / 42

Druhy anotace morfologická (slovní druh a jiné gramatické kategorie) u nás (čeština): morfologický analyzátor Majka jiné: TreeTagger (ententen12), CLAWS (BNC, COCA), FreeLing (estenten11) syntaktická (parsing závislostní nebo složkové stromy, chunking rozdělení na fráze jmennou /NP/, slovesnou /VP/, předložkovou /PP/) u nás (čeština): Synt, SET, DIS/VADIS, IOBBER (polština) jiné: MST Parser, MaltParser sémantická (word sense tagging/desambiguation /WSD/ rozlišení významu slova, named entity recognition rozpoznání jmenných entit /NER/) u nás (čeština): DESAMB desambiguace morfologických značek jiné: WordNet, SuperSenseTagger WSD, NER koreference (určení anafory) u nás (angličtina): SARA pragmatická (označení mluvčího, komunikační situace) Karel Pala, Vít Suchomel PA153 Zpracování přirozeného jazyka Korpusy, nástroje, značkování 36 / 42

Ukázka anotací v korpusu XML vertikální formát <dokument zanr="blog" nazev="dovolená v Paříži"> <veta nadpis="1"> Po po k7c6 0 8 sedmi sedm k4c6 1 7 letech léto k1gnnpc6 2 7 v v k7c6 3 10 kouzelné kouzelný k2eagfnsc6d1 4 9 <entita druh="město"> Paříži Paříž k1gfnsc6 5 9 </entita>!! kx 6 11 <NP> 7 8 <PP> 8 11 <NP> 9 10 <PP> 10 11 <S> 11 - </veta> Karel Pala, Vít Suchomel PA153 Zpracování přirozeného jazyka Korpusy, nástroje, značkování 37 / 42

Editory anotací výstup vždy v XML GATE http://gate.ac.uk/ Brat http://brat.nlplab.org/ WordSmith http://www.lexically.net/wordsmith u nás: Phrase Annotator (shallow parsing: fráze, závislosti), Sysel (sémantické kategorie) Karel Pala, Vít Suchomel PA153 Zpracování přirozeného jazyka Korpusy, nástroje, značkování 38 / 42

1 Korpusy Co je korpus Tradiční textové korpusy Webové korpusy Paralelní a jiné korpusy 2 Korpusové nástroje Nástroje k získávání korpusů Korpusové manažery 3 Anotace Co jsou anotace Druhy Problémy 4 Literatura Karel Pala, Vít Suchomel PA153 Zpracování přirozeného jazyka Korpusy, nástroje, značkování 39 / 42

Problémy s anotacemi Manuální x automatická Ruční anotace je zdlouhavá a nákladná. Přesto nemusí být dokonalá. Nedokonalá automatická anotace (naučená na ručně anotovaných datech) je pro velká data nevyhnutelná. Cyklické anotace (podle lekce Corpus Mark-up) Data v korpusu pozorujeme skrz anotace. Byly-li kategorie anotací zvoleny a anotace provedena ještě před průzkumem korpusu, došlo k omezení předem, na jaké otázky se můžeme při pozorování korpusu ptát. Řešením je cyklicky analyzovat korpus na základě toho volit parametry anotací anotace provádět Karel Pala, Vít Suchomel PA153 Zpracování přirozeného jazyka Korpusy, nástroje, značkování 40 / 42

1 Korpusy Co je korpus Tradiční textové korpusy Webové korpusy Paralelní a jiné korpusy 2 Korpusové nástroje Nástroje k získávání korpusů Korpusové manažery 3 Anotace Co jsou anotace Druhy Problémy 4 Literatura Karel Pala, Vít Suchomel PA153 Zpracování přirozeného jazyka Korpusy, nástroje, značkování 41 / 42

Literatura Kilgarriff, Adam, Gregory Grefenstette. Introduction to the special issue on the web as corpus. In Computational linguistics 29.3 (2003): s. 333-347. RYCHLÝ, Pavel a Pavel SMRŽ. Manatee, Bonito and Word Sketches for Czech. In Proceedings of the Second International Conference on Corpus Linguisitcs. Saint-Petersburg: Saint-Petersburg State University Press, 2004. s. 124-132, 9 s. KILGARRIFF, Adam, Pavel RYCHLÝ, Pavel SMRŽ a David TUGWELL. The Sketch Engine. In Proceedings of the Eleventh EURALEX International Congress. Lorient, France: Universite de Bretagne-Sud, 2004. s. 105-116, 12 s. Corpus Query Language ve Sketch Engine: http://trac.sketchengine.co.uk/wiki/ske/corpusquerying Lekce Corpus Mark-up od Matthew Brook O Donnela z UoL Summer Institute in Corpus Linguistics: www.lexically.net/courses/ sessions/markup/corpus%20mark-up.ppt Karel Pala, Vít Suchomel PA153 Zpracování přirozeného jazyka Korpusy, nástroje, značkování 42 / 42