Univerzita Karlova v Praze Ústav formální a aplikované lingvistiky. Praha, 15. prosince 2014

Podobné dokumenty
DeriNet: Lexikální databáze českých derivátů

ve strojovém překladu

KORPUSOVÝ WORKSHOP. Václav Cvrček, Lucie Chlumská Univerzita Karlova v Praze VŠE, CO JSTE CHTĚLI VĚDĚT O KORPUSU, A BÁLI JSTE SE ZEPTAT!

Co nového ve zpracování MWE Automatická identifikace

Lexikální síť DeriNet: elektronický zdroj pro výzkum derivace v češtině 1

STUDIJNÍ OPORA K DISCIPLÍNĚ KORPUSOVÁ LINGVISTIKA. Katedra českého jazyka a literatury Pedagogické fakulty Univerzity Palackého

LISTOPAD Úvod do nauky o tvoření slov, PROSINEC Psaní velkých písmen

Analýza staročeské morfologie v Excelu

Středoškolská technika SCI-Lab

Ing. Alena Šafrová Drášilová, Ph.D.

Gramatické rozbory češtiny Výklad a cvičení s řešeními. Robert Adam a kol. Recenzovaly: PhDr. Jasňa Pacovská, CSc. PhDr. Jana Bílková, Ph.D.

Automatic Alignment of Tectogrammatical Trees from Czech-English Parallel Corpus

WCAG 2.0 prakticky aneb Jak zlepšit přístupnost webových stránek

Automatická segmentace slov s pomocí nástroje Affisix. Michal@Hrusecky.net, Hlavacova@ufal.mff.cuni.cz

NLP & strojové učení

Jádrem systému je modul GSFrameWork, který je poskytovatelem zejména těchto služeb:

Ontologie. Otakar Trunda

Strojové učení a pravidla pro extrakci informací z textů

Ing. Alena Šafrová Drášilová

postaveny výhradně na syntaktické bázi: jazyk logiky neinterpretujeme, provádíme s ním pouze syntaktické manipulace důkazy

MBI - technologická realizace modelu

Moravské gymnázium Brno s.r.o. Hana Blaudeová. Ročník 2. Datum tvorby Anotace. -prezentace určena pro učitele

Větná polarita v češtině. Kateřina Veselovská Žďárek Hořovice,

SYNTAX LS Úvod

Vývoj moderních technologií při vyhledávání. Patrik Plachý SEFIRA spol. s.r.o.

Obsah. Předmluva 13. O autorovi 15. Poděkování 16. O odborných korektorech 17. Úvod 19

Univerzita Karlova v Praze, Nakladatelství Karolinum, 2015 Robert Adam, 2015

Tam, kde anglické příklady neodpovídají českému jazykovému systému, se český překlad neuvádí.

PODNIKATELSKÝ PLÁN. Střední odborná škola a Gymnázium Staré Město. Ing. Miroslava Kořínková III/2 Inovace a zkvalitnění výuky prostřednictvím ICT

MAL. one of the best corroborated law in linguistics

Obsah. 1) Rozšířené zadání 2) Teorie zásuvných modulů a) Druhy aplikací používajících zásuvné moduly b) Knihovny c) Architektura aplikace d) Výhody

Programovací jazyky. imperativní (procedurální) neimperativní (neprocedurální) assembler (jazyk symbolických instrukcí)

Grafy. doc. Mgr. Jiří Dvorský, Ph.D. Katedra informatiky Fakulta elektrotechniky a informatiky VŠB TU Ostrava. Prezentace ke dni 13.

Základní datové struktury III: Stromy, haldy

Modelování a simulace Lukáš Otte

Vývoj programů. ÚVOD DO OPERAČNÍCH SYSTÉMŮ

Generátor jedinečných zadání

B Organizace databáze na fyzické úrovni u serveru Oracle

U Úvod do modelování a simulace systémů

SSOS_CJL_1.20 Pojmy z lexikologie

Úvod do kvantitativní lingvistiky. Radek Čech

Rozhodování. Ing. Alena Šafrová Drášilová, Ph.D.

Úvodem 9. Zpětná vazba od čtenářů 10 Zdrojové kódy ke knize 10 Errata 10. Než začneme 11

Inovace studia obecné jazykovědy a teorie komunikace ve spolupráci s přírodními vědami. reg. č.: CZ.1.07/2.2.00/

Překladač a jeho struktura

PODNIKATELSKÝ ZÁMĚR, PLÁN. Zpracováno v rámci projektu IVA 2018/FVHE/2380/55

Všestranný jazykový rozbor (VJR)

ZÁKLADNÍ TYPY ROZHODOVACÍH PROBLÉMŮ

Vzorce. StatSoft. Vzorce. Kde všude se dá zadat vzorec

Internetový prohlížeč-vyhledávání a ukládání dat z internetu do počítače

Obsah. Zpracoval:

Programovací jazyky. imperativní (procedurální) neimperativní (neprocedurální) assembler (jazyk symbolických instrukcí)

Statistické metody v ekonomii. Ing. Michael Rost, Ph.D.

Text Mining: SAS Enterprise Miner versus Teragram. Petr Berka, Tomáš Kliegr VŠE Praha

Obsah prezentace. Základní pojmy v teorii o grafech Úlohy a prohledávání grafů Hledání nejkratších cest

Kdy se narodil... Vypracovali: Mrkývka Vojtěch, Mrázek Ondřej, Novotná Marie. Předmět: PLIN08 Projekty II. Semestr: Jaro 2015

PROHLEDÁVÁNÍ GRAFŮ. Doc. RNDr. Josef Kolář, CSc. Katedra teoretické informatiky, FIT České vysoké učení technické v Praze

Zjišťování požadavků zákazníka. Jana Hamanová, SC&C s.r.o.

Zpráva o průběhu přijímacího řízení na vysokých školách dle Vyhlášky MŠMT č. 343/2002 a její změně 276/2004 Sb.

Účelová katastrální mapa jako součást základní datové kompozice veřejné správy

Platforma Java. Petr Krajča. Katedra informatiky Univerzita Palackého v Olomouci. Petr Krajča (UP) KMI/PJA: Seminář V. 27. říjen, / 15

Obsah. Úvod 9 Poděkování 10 Co je obsahem této knihy 10 Pro koho je tato kniha určena 11 Zpětná vazba od čtenářů 11 Errata 11

Jak pracuje internetový vyhledávač

Automaty a gramatiky(bi-aag) Motivace. 1. Základní pojmy. 2 domácí úkoly po 6 bodech 3 testy za bodů celkem 40 bodů

Jak se dělá GRAMATICKÝ KOREKTOR ČEŠTINY. Karel Oliva Ústav pro jazyk český Akademie věd ČR

VÝUKOVÝ MATERIÁL. Bratislavská 2166, Varnsdorf, IČO: tel Číslo projektu

ŽÁKOVSKÝ KORPUS MERLIN: JAZYKOVÉ ÚROVNĚ A TROJJAZYČNÁ CHYBOVÁ ANOTACE

ISVS - VODA v kontextu směrnice INSPIRE. Zdeněk Hošek Sekce vodního hospodářství Sekce pro ekonomiku a informační technologie

Aplikace 3D grafiky ve výuce na ZŠ

Ústav bohemistických studií Bohemistika pro cizince tříletý bakalářský studijní program

Zpráva o hodnocení kvality výuky studenty Fakulty chemické za letní semestr 2015/2016.

Jak dát vědět zákazníkům o svých výrobcích a službách. Věra Staňková

Fyzické uložení dat a indexy

Maturitní otázky z předmětu PROGRAMOVÁNÍ

Modely teorie grafů, min.kostra, max.tok, CPM, MPM, PERT

Obsah přednášky. programovacího jazyka. Motivace. Princip denotační sémantiky Sémantické funkce Výrazy Příkazy Vstup a výstup Kontinuace Program

Aktuální trendy v přístupnosti

VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ BRNO UNIVERSITY OF TECHNOLOGY

PHP framework Nette. Kapitola Úvod. 1.2 Architektura Nette

shine. light of change.

Projekt JetConf REST API pro vzdálenou správu

Čtvrtek 8. prosince. Pascal - opakování základů. Struktura programu:

RDF a RDF Query. Jakub Nerad 1. prosince Nerad () RDF a RDF Query 1. prosince / 16

Dataprojektor, jazykové příručky, pracovní listy

ZÁKLADY PROGRAMOVÁNÍ. Mgr. Vladislav BEDNÁŘ /14

Ukázka knihy z internetového knihkupectví

Stromy, haldy, prioritní fronty

Oborová brána TECH tech.jib.cz

Kvantitativní analýza žánrů. Radek Čech & Miroslav Kubát

ehealth, telemedicína a asistivní technologie na ČVUT FEL Praha

Úvodní jazykový seminář: výklad a cvičení (s terminologickým slovníkem)

Fyzikální veličiny. - Obecně - Fyzikální veličiny - Zápis fyzikální veličiny - Rozměr fyzikální veličiny. Obecně

Syntaktická analýza. Implementace LL(1) překladů. Šárka Vavrečková. Ústav informatiky, FPF SU Opava

Registrační číslo projektu: CZ.1.07/1.5.00/ Elektronická podpora zkvalitnění výuky CZ.1.07 Vzděláním pro konkurenceschopnost

Logika. Akademie managementu a komunikace, Praha PhDr. Peter Jan Kosmály, PhD.

Bezpečnost intranetových aplikací

Typy souborů ve STATISTICA. Tento článek poslouží jako přehled hlavních typů souborů v programu

Střední odborná škola a Střední odborné učiliště, Hořovice

Téma: Způsoby tvoření slov v češtině odvozování, skládání, zkracování Kód: VY_32_INOVACE_1_SPSOA_CJL_16_BAL

PROGRAMOVACÍ JAZYKY A PŘEKLADAČE LEXIKÁLNÍ ANALÝZA

Transkript:

DeriNet: Lexikální databáze českých derivátů Magda Ševčíková, Zdeněk Žabokrtský Univerzita Karlova v Praze Ústav formální a aplikované lingvistiky Praha, 15. prosince 2014

hrát V hraní N hračka N hráč N hrající A hraný A hrávat V hraně D hračkový A hračkář N hrávající A hrávání N hráčka N hráččin A superhráč N hranost N hračička N hračkárna N hrávací A hrávaný A hrávávat V hráčský A hráčův A hračkářka N hračkářův A hráčsky D hračičkář N hračkářský A superhráčka N hráčství N hračkářství N

Technická část - osnova 1 Motivace 2 Technické prostředky pro vývoj DeriNetu 3 Pracovní postup 4 Kvantitativní vlastnosti v. 0.9 5 Závěrečné poznámky, otevřené otázky, práce do budoucna

Motivace

Lingvistická motivace I standardní: existence dat usnadní lingvistický výzkum derivační morfologie z hlediska experimentů podložených elektronickými daty zatím pro češtinu poměrně neprobádaná oblast neexistuje žádná derivačně označkovaná obdoba ČNK

Lingvistická motivace II zkoumání vývoje jazyka slovotvorba jako archeologické okénko do historie jazyka vývoj nelze přesně rekonstruovat ani přesně predikovat extrémní množství nahodilých mimojazykových vlivů ultramultiagentní systém zkoumáním dynamické rovnováhy ale můžeme poznávat hlavní jazykové samoorganizační mechanismy, jako jsou konkurence prostředků (v tlaku jazykové ekonomie) záporná zpětná vazba kladná zpětná vazba

Aplikační motivace řada úkolů v NLP se dotýká jazykového významu MT, IR, postojová analýza... problém: slovní forma = kořenový morfém + inflexní morfémy + derivační morfémy jádro významu kořenový morfém, ale jak se k němu dostat? 1 očištění formy od inflexních morfémů (lemmatizace) 2 očištění formy od derivačních morfémů (jak tomu nazývat: nesting? rooting? niching? hnízdování?) sémantická souvislost se v řetězcové podobnosti manifestuje velmi nepřímočaře kde pomáhá lemmatizace, mohl by pomoci i nesting

Nešlo by to nějak jednoduše? alternativa k derivační databázi: naivnější řešení jako např. sada regulárních výrazů pro časté záměny přípon a časté hláskové změny nevyhnutelně povede ke značnému nadgerování, příklady: ovarium - ovar pohádka - pohádaný potkan - potkání sepse - sepsání sesle - seslání skrutátor - skrotum sněhule - sněhulák sobec - sob sušárna - suši svinutí - svině vůle - vůl štěnice - štěně ženista - žena

Technické prostředky pro vývoj DeriNetu

Implementační rozhodnutí maximální recyklace existujících zdrojů minimální objem ručních anotací - v nevyhnutelných případech postačí ad-hoc textový anotační miniformát objektové API sestavení DeriNetu spustitelné kdykoli znovu od začátku se souborovým formátem se raději držme při zemi (tsv, dump) v počáteční fázi důraz spíše na bezchybnost než na pokrytí (očekávání: pokrytí později doženeme strojovým učením)

Jednoduchá datová struktura lexém uzel grafu derivační vztah mezi základním a odvozeným lexémem hrana grafu slovotvorné hnízdo (slovní čeled, derivational nest) kořenový strom derivační databáze les

Aplikační rozhraní pro DeriNet inspirace z Treexu: objektové rozhraní v Perl+Moose, zatím v namespace Treex::Tool::DerivMorpho procedura sestavení derinetu jako sekvence bloků scénáře bloků spustitelné z příkazové řádky

Ukázka scénáře v Makefile assemble: derimor CreateEmpty \ CS::AddLexemesFromList file=sorted_lemmas_from_syn.tsv \ CS::AddOstLexemesFromCNC \ CS::AddOstLexemesByRules \ CS::AddAdj2AdvByRules \ CS::AddManuallyConfirmedAutorules \ CS::Prefixes \ CS::AddDerivationsFromLemmaSuffices \ CS::AddManuallyConfirmedAutorules2 \ CS::AddConfirmedMluvCandidatesMonosource \ CS::RevertDerivationDirection \ CS::RestructureClusters \ CS::AddOrDeleteLinksInClusters \ CS::AddDerivationsFromList file=otaznickovi.tsv \ Save file=derinet09.tsv

Ukázka jednoho z anotačních miniformátů TRYING TO APPLY RULE V-it --> N-ba chodit --> chodba dražit --> dražba družit --> družba * holit --> holba honit --> honba hradit --> hradba hrozit --> hrozba * klátit --> klatba (CHANGE: á -> a) léčit --> léčba * mámit --> mamba (CHANGE: á -> a) * nadstavit --> nadstavba * nastavit --> nástavba (CHANGE: a -> á) * pažit --> pažba platit --> platba * podvolit --> podvolba prosit --> prosba

Primární souborový formát - ukázka 117580 cukroví cukroví N 117581 A2N CS::AddConfirmedMluvCandidatesMonosource 117581 cukrový cukrový A 117547 N2A CS::AddManuallyConfirmedAutorules 117582 cukrově cukrově_^(*1ý) D 117581 A2D CS::AddAdj2AdvByRules 117583 cukrující cukrující_^(*5ovat) A 117568 V2A CS::AddDerivationsFromLemmaSuffices 117584 cukrárenský cukrárenský A 117585 cukrárenství cukrárenství N 117584 A2N CS::AddManuallyConfirmedAutorules 117586 cukrárna cukrárna N 117547 N2N CS::AddDerivationsFromList 117587 cukrárnička cukrárnička N 117586 N2N CS::AddConfirmedMluvCandidatesMonosource 117588 cukrátko cukrátko N 117589 cukrář cukrář N 117590 cukrářka cukrářka_^(*2) N 117589 N2N CS::AddDerivationsFromLemmaSuffices

Webový prohĺıžeč DeriNetu, autor Milan Straka

Sestavení DeriNetu 0.9 krok za krokem CS::AddLexemesFromList CS::AddOstLexemesFromCNC CS::AddOstLexemesByRules CS::AddAdj2AdvByRules CS::AddManuallyConfirmedAutorules CS::Prefixes CS::AddDerivationsFromLemmaSuffices - CS::AddManuallyConfirmedAutorules2 CS::AddConfirmedMluvCandidatesMonosource CS::RevertDerivationDirection CS::RestructureClusters CS::AddOrDeleteLinksInClusters CS::AddDerivationsFromList

Překvapivý problém: sporná homonymie číslice za pomlčkou na výstupu morfologické analýzy překvapivě často neoznačuje homonymii, ale polysémii v současnosti skoro 7000 n-tic lemmat rozlišených indexem, ale majících identickou flexi (kredit: Milan Straka) příklady: zpaličkovatelný-1 zpaličkovatelný-2 zvěcňovávatelnost-1 zvěcňovávatelnost-2 zvěcňovávatelnost-3 zvěcňovávatelnost-4 skuhrat-1 skuhrat-2 skuhrat-3 zĺıt-1 zĺıt-2 navrčet-1 navrčet-2

DeriNet 0.9: vybrané kvantitativní charakteristiky

Velikost sítě počet lexémů: 305 781 počet derivací: 117 327 průměrná velikost hnízda: 1,6 lexému největší velikost hnízda: 31 lexémů (hrát, řezat) největší hloubka hnízda: 7 úrovní (vědět-věda-vědec-vědátorvědátorský-vědátorství-pseudovědátorství)

Zastoupení slovních druhů Lexémy podle slovního druhu: N: 55 % (z toho cca polovina propria) A: 32 % (z toho cca pětina přivlastňovací tvary propríı) V: 8 % D: 5 % Podle slovního druhu základového a derivovaného lexému: N2A: 28 % V2A: 21 % V2N: 15 % A2D: 12 % N2N: 11 % A2N: 10 % V2V: 2 %...

Měření kvality dat 500 náhodně vybraných lexémů z DeriNetu 0.9, ručně označený základový lexém z toho 4 % negramatických lexémů (mapuče, něnecký, vracovat... ) porovnání ruční anotace s DeriNetem (zbývajících 480 lexémů): 196 rozdílů precision: 0.983 recall: 0.650 f-measure: 0.783

Chybová analýza Hlavní příčiny chybějících derivací: prefixace kompozita přechýlování zdrobněliny vidové protějšky

Závěrečné poznámky

Poučení z derinetového vývoje Aneb co bych dnes dělal jinak: podcenil jsem užitečnost vizualizace, vizualizátor pomohl odhalit chyby dříve nevýhoda zvoleného přístupu: je těžší udržet pořádek (více specializovaných anotací) měl jsem psát víc testů (riziko interference pravidel a anotací) měl jsem se víc soustředit na hláskové změny, je to všeprostupující problém chybovou analýzu jsme měli provést dříve

Otevřené otázky (1) Není náš model příliš zjednodušený? Zjevný nedostatek: nelze reprezentovat kompozici Riziko falešné dichotomie - nebyla by vhodnější přechodná škála? Příklad: skok-doskok vs. pád-nápad

Otevřené otázky (2) Netranzitivita významové podobnosti: přestože jednotlivé derivace ve stromu se mohou jevit nesporné, vzdálenější uzly se (přinejmenším z aplikačního hlediska) mohou jevit jako sémanticky naprosto nesouvisející. Příklad: řezbářství - řeznice Co s homonymíı a pravopisnými variantami? Fantomové lexémy (přeskakování v derivačním modelu) - někdy uvnitř derivačního stromu pocitově chybí lexém, je myslitelný a někdy i vyslovitelný, ale čeština takové slovo nemá. Příklad: plyn-plynárna-plynárenství, mlýn-*mlynárna-mlynárenství

Otevřené otázky (3) Analogie k problémům anotace závislostní syntaxe: nejistá orientace hrany, příklad: brumla-brumlat systematicky vznikající neorientované cykly, příklad: chemie-biochemie-chemik-biochemik nutnost příliš specifických rozhodnutí bez intuitivní opory přináležitost lexému do clusteru může být jasná, přesný předek ne příklad: popěvovat, vandalství, kravinec

Možné směry budoucího rozvoje DeriNetu rozšířit množství lexémů, překvapivě složitý problém co lze považovat za dobré české slovo? (frekvence nestačí) jaké výběrové kritérium zvolit? (frekvence nestačí) co s proprii? doplnit derivace snadno extrahovatelné z dostupných zdrojů (např. z Vallexu nebo překladových slovníků ) doplnit chybějící derivační vztahy s využitím strojového učení upravit logickou strukturu tak, aby bylo možné zachytit i kompozita doplnit k derivacím sémantickou informaci (např. ve smyslu lexikálních funkcí) využití derivací na tektogramatické rovině

Děkuji za pozornost! řezat V řezaný A řezač N řezba N řezák N řezávat V řežba N řezající A řezavý A řezačka N řezník N řezání N řezáč N řízek N řezanka N řezavě D řezbář N řezničin A řezáček N řezanec N řezavost N řezbový A řeznice N řezníkův A řízkův A řezbářka N řezbářův A řezankový A řezbářský A řezbářsky D řezbářství N