Automatická segmentace slov s pomocí nástroje Affisix. Michal@Hrusecky.net, Hlavacova@ufal.mff.cuni.cz

Podobné dokumenty
Affisix. Matematicko-fyzikální fakulta Univerzity Karlovy v Praze, Česká Republika,


Algoritmizace Dynamické programování. Jiří Vyskočil, Marko Genyg-Berezovskyj 2010

Cvičení ze statistiky - 5. Filip Děchtěrenko

Matematika B101MA1, B101MA2

Vyhledávání v textu. doc. Mgr. Jiří Dvorský, Ph.D. Katedra informatiky Fakulta elektrotechniky a informatiky VŠB TU Ostrava

Elegantní algoritmus pro konstrukci sufixových polí

13. cvičení z PSI ledna 2017

PRAVDĚPODOBNOST A STATISTIKA

Statistická teorie učení

Algoritmizace diskrétních. Ing. Michal Dorda, Ph.D.

Metody výpočtu limit funkcí a posloupností

populace soubor jednotek, o jejichž vlastnostech bychom chtěli vypovídat letní semestr Definice subjektech.

pro bakalářské studijní programy fyzika, informatika a matematika 2018, varianta A

Algoritmy komprese dat

Třídy složitosti P a NP, NP-úplnost

Uvod Modely n-tic Vyhodnocov an ı Vyhlazov an ı a stahov an ı Rozˇ s ıˇ ren ı model u n-tic Jazykov e modelov an ı Pavel Smrˇ z 27.

1 LIMITA FUNKCE Definice funkce. Pravidlo f, které každému x z množiny D přiřazuje právě jedno y z množiny H se nazývá funkce proměnné x.

Programování: základní konstrukce, příklady, aplikace. IB111 Programování a algoritmizace

Jana Vránová, 3. lékařská fakulta UK

Lineární algebra : Polynomy

63. ročník Matematické olympiády 2013/2014

Základy algoritmizace a programování

Algoritmizace Hashing II. Jiří Vyskočil, Marko Genyg-Berezovskyj 2010

Funkce, podmíněný příkaz if-else, příkaz cyklu for

Vzdálenost jednoznačnosti a absolutně

Obyčejnými diferenciálními rovnicemi (ODR) budeme nazývat rovnice, ve kterých

Matematická analýza pro informatiky I. Limita funkce

Vektory a matice. Obsah. Aplikovaná matematika I. Carl Friedrich Gauss. Základní pojmy a operace

Matematická analýza pro informatiky I. Limita posloupnosti (I)

Základy algoritmizace. Pattern matching

MIDTERM D. Příjmení a jméno:

Slovník územního rozvoje

Definice (Racionální mocnina). Buď,. Nechť, kde a a čísla jsou nesoudělná. Pak: 1. je-li a sudé, (nebo) 2. je-li liché, klademe

Úvod do mobilní robotiky AIL028

II. kolo kategorie Z9

Rovnice přímky vypsané příklady. Parametrické vyjádření přímky

Testy do hodin - souhrnný test - 6. ročník

Zákony hromadění chyb.

IV. Základní pojmy matematické analýzy IV.1. Rozšíření množiny reálných čísel

PRAVDĚPODOBNOST A STATISTIKA

Posloupnosti a řady. a n+1 = a n + 4, a 1 = 5 a n+1 = a n + 5, a 1 = 5. a n+1 = a n+1 = n + 1 n a n, a 1 = 1 2

Projekt: Inovace oboru Mechatronik pro Zlínský kraj Registrační číslo: CZ.1.07/1.1.08/ Lineární rovnice

Lineární algebra : Násobení matic a inverzní matice

Lekce 01 Úvod do algoritmizace

Výhody a nevýhody jednotlivých reprezentací jsou shrnuty na konci kapitoly.

Matematika (KMI/PMATE)

Otázky z kapitoly Posloupnosti

10. Soustavy lineárních rovnic, determinanty, Cramerovo pravidlo

7B. Výpočet limit L Hospitalovo pravidlo

Matematika (KMI/PMATE)

Genetika pro začínající chovatele

PRAVDĚPODOBNOST A STATISTIKA

Středoškolská technika SCI-Lab

Datové struktury 2: Rozptylovací tabulky

0.1 Funkce a její vlastnosti

Slovní úlohy I

( + ) ( ) f x x f x. x bude zmenšovat nekonečně přesný. = derivace funkce f v bodě x. nazýváme ji derivací funkce f v bodě x. - náš základní zápis

1 0 0 u 22 u 23 l 31. l u11

Y36BEZ Bezpečnost přenosu a zpracování dat. Úvod. Róbert Lórencz. lorencz@fel.cvut.cz

z = a bi. z + v = (a + bi) + (c + di) = (a + c) + (b + d)i. z v = (a + bi) (c + di) = (a c) + (b d)i. z v = (a + bi) (c + di) = (ac bd) + (bc + ad)i.

Matematická analýza ve Vesmíru. Jiří Bouchala

1. Statistická analýza dat Jak vznikají informace Rozložení dat

Hledáme efektivní řešení úloh na grafu

Server Internetu prostøednictvím slu eb (web, , pøenos souborù) poskytuje data. Na na í pracovní stanici Internet

Server Internetu prostøednictvím slu eb (web, , pøenos souborù) poskytuje data. Na na í pracovní stanici Internet

v z t sin ψ = Po úpravě dostaneme: sin ψ = v z v p v p v p 0 sin ϕ 1, 0 < v z sin ϕ < 1.

Stonožka jak se z výsledků dozvědět co nejvíce

5.1. Klasická pravděpodobnst

Programování v C++ Úplnej úvod. Peta (maj@arcig.cz, SPR AG )

Matematika I 2a Konečná pravděpodobnost

Vzorce. StatSoft. Vzorce. Kde všude se dá zadat vzorec

2D transformací. červen Odvození transformačního klíče vybraných 2D transformací Metody vyrovnání... 2

8 Střední hodnota a rozptyl

Náhodná veličina Číselné charakteristiky diskrétních náhodných veličin Spojitá náhodná veličina. Pravděpodobnost

Měření výsledků výuky a vzdělávací standardy

H {{u, v} : u,v U u v }

Dodatek 2: Funkce dvou proměnných 1/9

VÝUKOVÝ MATERIÁL. Bratislavská 2166, Varnsdorf, IČO: tel Číslo projektu

AVL stromy. pro každý uzel u stromu platí, že rozdíl mezi výškou jeho levého a pravého podstromu je nejvýše 1 stromy jsou samovyvažující

DOE (Design of Experiments)

KAPITOLA 9 - POKROČILÁ PRÁCE S TABULKOVÝM PROCESOREM

Komprese dat (Komprimace dat)

SPECIÁLNÍCH PRIMITIVNÍCH FUNKCÍ INTEGRACE RACIONÁLNÍCH FUNKCÍ

Úvod do logiky (VL): 5. Odvození výrokových spojek z jiných

Kapitola 1: Reálné funkce 1/20

označme j = (0, 1) a nazvěme tuto dvojici imaginární jednotkou. Potom libovolnou (x, y) = (x, 0) + (0, y) = (x, 0) + (0, 1)(y, 0) = x + jy,

1 Mnohočleny a algebraické rovnice

Uživatelská příručka. MG^Calendar

Výčtový typ strana 67

Lineární algebra : Násobení matic a inverzní matice

Soustavy lineárních rovnic

Lingebraické kapitolky - Analytická geometrie

Vzdělávací oblast: Matematika a její aplikace Vzdělávací obor: Matematický kroužek pro nadané žáky ročník 9.

Algoritmus. Přesné znění definice algoritmu zní: Algoritmus je procedura proveditelná Turingovým strojem.

Základy fuzzy řízení a regulace

0.1 Úvod do matematické analýzy

Algoritmizace složitost rekurzivních algoritmů. Jiří Vyskočil, Marko Genyg-Berezovskyj 2010

Čtvrtek 8. prosince. Pascal - opakování základů. Struktura programu:

Poslední nenulová číslice faktoriálu

Transkript:

Automatická segmentace slov s pomocí nástroje Affisix Michal Hrušecký, Jaroslava Hlaváčová Michal@Hrusecky.net, Hlavacova@ufal.mff.cuni.cz

Motivace Při zpracování přirozeného jazyka nikdy nemůžeme mít ve slovníku všechna slova i o slovech, která neznáme, chceme být schopni něco říct Jak vznikají slova? přidáním jiné předpony přidáním jiné přípony... Předpony často neovlivňují mluvnické kategorie mohlo by se hodit znát dělení slova (budeme-li to umět automaticky) Michal Hrušecký, Jaroslava Hlaváčová () Automatická segmentace slov s pomocí nástroje Affisix 2 / 26

Algoritmy Michal Hrušecký, Jaroslava Hlaváčová () Automatická segmentace slov s pomocí nástroje Affisix 3 / 26

Úvodní definice nepotřebujeme opravdové lingvistické předpony a přípony potřebujeme něco, co se tak jen chová Předpony předpona je společný začátek mnoha slov předponu můžeme připojit na začátek slova a vznikne nám slovo nové Přípony přípona je společný konec mnoha slov Michal Hrušecký, Jaroslava Hlaváčová () Automatická segmentace slov s pomocí nástroje Affisix 4 / 26

Algoritmy: Metoda čtverců Michal Hrušecký, Jaroslava Hlaváčová () Automatická segmentace slov s pomocí nástroje Affisix 5 / 26

Čtverec předpony můžeme na začátku slova zaměňovat přípony můžeme na konci slova zaměňovat Definujeme čtverec: Nechť a,b,c,d jsou řetězce, Ω množina slov z jazyka a :: značí operaci spojení. Potom <a,b,c,d> tvoří čtverec, právě tehdy pokud: a::c je platné slovo (a::c Ω) a::d je platné slovo (a::d Ω) b::c je platné slovo (b::c Ω) b::d je platné slovo (b::d Ω) Michal Hrušecký, Jaroslava Hlaváčová () Automatická segmentace slov s pomocí nástroje Affisix 6 / 26

Čtverec - příklad Michal Hrušecký, Jaroslava Hlaváčová () Automatická segmentace slov s pomocí nástroje Affisix 7 / 26

Segmentace Obecně zkusíme rozdělit slovo spočítáme, v kolika čtvercích se obě části vyskytují hodně čtverců dělení je dobrý kandidát pro dělení slova Michal Hrušecký, Jaroslava Hlaváčová () Automatická segmentace slov s pomocí nástroje Affisix 8 / 26

Segmentace Obecně zkusíme rozdělit slovo spočítáme, v kolika čtvercích se obě části vyskytují hodně čtverců dělení je dobrý kandidát pro dělení slova Konkrétně zkusíme rozdělit slovo u předpon spočítáme, v kolika čtvercích se vyskytuje počáteční část u přípon spočítáme, v kolika čtvercích se vyskytuje koncová část hodně čtverců dělení je dobrý kandidát na předponu/příponu Michal Hrušecký, Jaroslava Hlaváčová () Automatická segmentace slov s pomocí nástroje Affisix 8 / 26

Algoritmy: Metoda entropie Michal Hrušecký, Jaroslava Hlaváčová () Automatická segmentace slov s pomocí nástroje Affisix 9 / 26

Entropie Vyjadřuje míru nejistoty Definována následovně: H(s) = s i S p(s i s) log 2 p(s i s) kde S je množina jevů, které mohou nastat po jevu s. Michal Hrušecký, Jaroslava Hlaváčová () Automatická segmentace slov s pomocí nástroje Affisix 10 / 26

Dopředná entropie Předpona je společný začátek mnoha slov je těžké předpovědět konec slova budeme-li sledovat písmena jdoucí po sobě, entropie bude vysoká Dopřednou entropii H f definujeme jako: H f (r) = s i ;r::s i Ω p f (s i r) log 2 p f (s i r) kde p f (s i r) označuje pravděpodobnost, že slovo začínající r bude pokračovat s i. Michal Hrušecký, Jaroslava Hlaváčová () Automatická segmentace slov s pomocí nástroje Affisix 11 / 26

Zpětná entropie Přípona je společný konec mnoha slov je těžké předpovědět začátek slova budeme-li sledovat písmena jdoucí po sobě od konce, entropie bude vysoká Zpětnou entropii H b definujeme jako: H b (r) = s i ;s i ::r Ω p b (s i r) log 2 p b (s i r) kde p b (s i r) označuje pravděpodobnost, že slovo končící r bude začínat s i. Michal Hrušecký, Jaroslava Hlaváčová () Automatická segmentace slov s pomocí nástroje Affisix 12 / 26

Problémy metody entropie Dopředná entropie je vždy na začátku slova vysoká Dopředná entropie je vždy na konci slova nízká Měla by postupně klesat Jen hodnota na určení vhodnosti dělení nestačí Slovo odpředchvíle o d p ř e d c h v... H f 2.55 2.92 2.16 1.43 0.00 1.55 0.00 0.00... Michal Hrušecký, Jaroslava Hlaváčová () Automatická segmentace slov s pomocí nástroje Affisix 13 / 26

Diferenční entropie Potřebujeme proměnlivou mez Lze použít změnu entropie jako měřítko Nehledáme místa s vysokou entropíı, ale místa, kde entropie naproti očekávání roste Slovo odpředchvíle o d p ř e d c h v... H f 2.55 2.92 2.16 1.43 0.00 1.55 0.00 0.00... H df 0.00 0.38-0.76-0.73-1.43 1.55-1.55 0.00... Michal Hrušecký, Jaroslava Hlaváčová () Automatická segmentace slov s pomocí nástroje Affisix 14 / 26

Affisix Michal Hrušecký, Jaroslava Hlaváčová () Automatická segmentace slov s pomocí nástroje Affisix 15 / 26

O programu open source podporuje vyhledávání předpon, přípon i vnitřních částí slov dva módy collector Výstupem je seznam segmentů podle zadaných podmínek filter Označí ve vstupním textu segmenty podle zadaných podmínek podporuje vyhodnocování výrazů lze snadno testovat různé podmínky/kombinace metod podporuje proměnné a více průchodů lze vyjádřit ještě složitější podmínky Michal Hrušecký, Jaroslava Hlaváčová () Automatická segmentace slov s pomocí nástroje Affisix 16 / 26

Ukázka konfigurace - Dopředná entropie mode: collector precision: 8 cond_prefix_end: 10 cond_prefix_comb: ">(@(res;fentr;avg;fentr(j));1)" cond_prefix_format: "%n: %w - %{fentr}\n" Michal Hrušecký, Jaroslava Hlaváčová () Automatická segmentace slov s pomocí nástroje Affisix 17 / 26

Ukázka konfigurace - Kombinace entropíı a XML výstup mode: collector precision: 8 cond_prefix_end: 10 cond_prefix_comb: ">(@(res;comb;avg; +(fentr(j);dfentr(j)));1)" cond_prefix_format: "<%n value=\"%{comb}\">%w</%n>\n" Michal Hrušecký, Jaroslava Hlaváčová () Automatická segmentace slov s pomocí nástroje Affisix 18 / 26

Výsledky Michal Hrušecký, Jaroslava Hlaváčová () Automatická segmentace slov s pomocí nástroje Affisix 19 / 26

Data a značení Data data ze SYN2000 (lehce pročištěné) testováno na předpony výsledky hodnoceny člověkem Značení H f - normalizovaná dopředná entropie H df - normalizovaná dopředná diferenční entropie S f - normalizovaný počet dopředných čtverců C = H f + H df + S f Michal Hrušecký, Jaroslava Hlaváčová () Automatická segmentace slov s pomocí nástroje Affisix 20 / 26

Výsledky vyhledávání předpon prefix C f H f H df S f 1. super 2.682 0.967 0.978 0.737 2. pseudo 2.602 0.963 0.961 0.677 3. mikro 2.532 0.921 0.917 0.693 4. sebe 2.505 0.898 0.849 0.757 5. rádoby 2.480 0.983 1.000 0.496 6. deseti 2.437 0.917 0.865 0.653 7. mimo 2.423 0.968 0.801 0.653 8. hyper 2.420 0.906 0.894 0.619 9. anti 2.393 0.942 0.706 0.744 10. roz 2.390 0.922 0.530 0.937 Michal Hrušecký, Jaroslava Hlaváčová () Automatická segmentace slov s pomocí nástroje Affisix 21 / 26

Srovnání precission jednotlivých metod (předpony) metoda 10 50 100 150 200 C f 100% 100% 94% 84% 73% H df 100% 100% 92% 81% 77% H f 100% 82% 79% 70% 70% S f 100% 60% 48% 36% 31% Michal Hrušecký, Jaroslava Hlaváčová () Automatická segmentace slov s pomocí nástroje Affisix 22 / 26

Srovnání precission jednotlivých metod (předpony) Michal Hrušecký, Jaroslava Hlaváčová () Automatická segmentace slov s pomocí nástroje Affisix 23 / 26

Plány do budoucna Michal Hrušecký, Jaroslava Hlaváčová () Automatická segmentace slov s pomocí nástroje Affisix 24 / 26

Plány do budoucna další metody další zdokonalování nástroje Affisix pokusy s těmito novými vlastnostmi pokusy s jinými jazyky pokusy s reálnými aplikacemi další pokusy se strojovým překladem Michal Hrušecký, Jaroslava Hlaváčová () Automatická segmentace slov s pomocí nástroje Affisix 25 / 26

Děkuji za pozornost Michal Hrušecký, Jaroslava Hlaváčová () Automatická segmentace slov s pomocí nástroje Affisix 26 / 26