Tino Haderlein, Elmar Nöth

Podobné dokumenty
Uvod Modely n-tic Vyhodnocov an ı Vyhlazov an ı a stahov an ı Rozˇ s ıˇ ren ı model u n-tic Jazykov e modelov an ı Pavel Smrˇ z 27.

Projekt: ŠKOLA RADOSTI, ŠKOLA KVALITY Registrační číslo projektu: CZ.1.07/1.4.00/ EU PENÍZE ŠKOLÁM

Budějovice Název materiálu: Reported Speech. Datum (období) vytvoření: Srpen Autor materiálu: PhDr. Dalibor Vácha PhD. Zařazení materiálu:

EU peníze středním školám digitální učební materiál

Tento materiál byl vytvořen v rámci projektu Operačního programu Vzdělávání pro konkurenceschopnost.

Střední průmyslová škola strojnická Olomouc, tř.17. listopadu 49

1, Žáci dostanou 5 klíčových slov a snaží se na jejich základě odhadnout, o čem bude následující cvičení.

Gymnázium, Brno, Slovanské nám. 7 WORKBOOK. Mathematics. Teacher: Student:

Škola: Střední škola obchodní, České Budějovice, Husova 9. Inovace a zkvalitnění výuky prostřednictvím ICT

Základní škola Nový Bor,

Mut goes shopping VY_22_INOVACE_27. Vzdělávací oblast: Jazyk a jazyková komunikace. Vzdělávací obor: Anglický jazyk. Ročník: 6

Střední průmyslová škola strojnická Olomouc, tř.17. listopadu 49

POSLECH. M e t o d i c k é p o z n á m k y k z á k l a d o v é m u t e x t u :

VY_32_INOVACE_06_Předpřítomný čas_03. Škola: Základní škola Slušovice, okres Zlín, příspěvková organizace

Informace o písemných přijímacích zkouškách. Doktorské studijní programy Matematika

Střední průmyslová škola strojnická Olomouc, tř.17. listopadu 49

USING VIDEO IN PRE-SET AND IN-SET TEACHER TRAINING

Výukový materiál zpracovaný v rámci operačního programu Vzdělávání pro konkurenceschopnost

Projekt MŠMT ČR: EU peníze školám

Škola: Střední škola obchodní, České Budějovice, Husova 9. Inovace a zkvalitnění výuky prostřednictvím ICT

Present Perfect x Past Simple Předpřítomný čas x Minulý čas Pracovní list

POSLECH. Cinema or TV tonight (a dialogue between Susan and David about their plans for tonight)

DUM DIGITÁLNÍ UČEBNÍ MATERIÁL ANGLIČTINA. Mgr. Kateřina Kasanová

Střední průmyslová škola strojnická Olomouc, tř.17. listopadu 49

EU PENÍZE ŠKOLÁM Operační program Vzdělávání pro konkurenceschopnost

Anglický jazyk. Souslednost časů. Anglický jazyk. Vytvořil: Eva Burianová. Souslednost. DUM číslo: 9. Souslednost časů.

Střední průmyslová škola strojnická Olomouc, tř.17. listopadu 49

Project 3 Unit 7B Kelly s problem

CZ.1.07/1.5.00/

Verb + -ing or infinitive

WORKSHEET 1: LINEAR EQUATION 1

7.VY_32_INOVACE_AJ_UMB7, Tázací dovětky.notebook. September 08, 2013

POSLECH. M e t o d i c k é p o z n á m k y k z á k l a d o v é m u t e x t u :

Tento materiál byl vytvořen v rámci projektu Operačního programu Vzdělávání pro konkurenceschopnost.

AJ 3_08_Shopping.notebook. November 08, úvodní strana

VY_22_INOVACE_CJ_III/2.21

CLIL a projektové vyučování

II_2-01_39 ABBA,Happy New Year, řešení II_2-01_39 ABBA,Happy New Year, for students

Vzdělávací materiál projektu Zlepšení podmínek výuky v ZŠ Sloup. Questions

Anotace Mgr. Filip Soviš (Autor) Angličtina, čeština Speciální vzdělávací potřeby - žádné -

Název projektu: Multimédia na Ukrajinské

ČTENÍ. Anglický jazyk. Hana Vavřenová. Z á k l a d o v ý t e x t ( s l o v ) :

Digitální učební materiál

Tento materiál byl vytvořen v rámci projektu Operačního programu Vzdělávání pro konkurenceschopnost.

Náhradník Náhradník 5.A

Název projektu: Multimédia na Ukrajinské

II/2 Inovace a zkvalitnění výuky cizích jazyků na středních školách

Škola: Střední škola obchodní, České Budějovice, Husova 9. Inovace a zkvalitnění výuky prostřednictvím ICT

SEZNAM PŘÍLOH. Příloha 1 Dotazník Tartu, Estonsko (anglická verze) Příloha 2 Dotazník Praha, ČR (česká verze)... 91

My Year Manager is Vedoucí našeho ročníku je. P.E. is on Tělocvik mám v

Jméno autora: Mgr. Alena Chrastinová Datum vytvoření: Číslo DUMu: VY_32_INOVACE_O7_AJ

Digitální učební materiál

Škola: Střední škola obchodní, České Budějovice, Husova 9. Inovace a zkvalitnění výuky prostřednictvím ICT

Měření dat Filtrace dat, Kalmanův filtr

Psaná podoba jazyka, slovní zásoba

7. Rozdělení pravděpodobnosti ve statistice

Škola: Střední škola obchodní, České Budějovice, Husova 9. Inovace a zkvalitnění výuky prostřednictvím ICT

Registrační číslo projektu: CZ.1.07/1.5.00/ Název projektu: Moderní škola 21. století. Zařazení materiálu: Ověření materiálu ve výuce:

CZ.1.07/1.5.00/

ANGLICKÁ KONVERZACE PRO STŘEDNĚ POKROČILÉ

Výukový materiál zpracovaný v rámci projektu EU peníze do škol. illness, a text


POSLECH. Kate and Jim are friends. It's Thursday afternoon and they are talking about their free time activities.

CZ.1.07/1.5.00/

CZ.1.07/1.5.00/

POSLECH. M e t o d i c k é p o z n á m k y k z á k l a d o v é m u t e x t u :

Střední průmyslová škola strojnická Olomouc, tř.17. listopadu 49

Číslo materiálu: VY 32 INOVACE 29/18. Číslo projektu: CZ.1.07/1.4.00/

TVORBA JAZYKOVÉHO MODELU ZALOŽENÉHO NA TŘÍDÁCH

VY_22_INOVACE_84. P3 U3 Revision

PSANÍ. M e t o d i c k é p o z n á m k y k z á k l a d o v é m u t e x t u :

POSLECH. Mona has got her eleventh birthady on Sathurday, she she is planning a big party for her friends. She met her friend John.

PRIMÁRNÍ MODÁLNÍ SLOVESA CAN

Zásadní gramatické struktury (pro SOU) Michal Kadlec, Dis

CZ.1.07/1.5.00/ Zefektivnění výuky prostřednictvím ICT technologií III/2 - Inovace a zkvalitnění výuky prostřednictvím ICT

Výukový materiál zpracovaný v rámci operačního programu Vzdělávání pro konkurenceschopnost

18.VY_32_INOVACE_AJ_UMB18, Frázová slovesa.notebook. September 09, 2013

II_ _Listening Pracovní list č. 2.doc II_ _Listening Pracovní list č. 3.doc II_ _Listening Řešení 1,2.doc

Vzdálenost jednoznačnosti a absolutně

Present Simple and Continuous Přítomný čas prostý a průběhový Pracovní list

VY_22_INOVACE_60 MODAL VERBS CAN, MUST

PSANÍ. M e t o d i c k é p o z n á m k y k z á k l a d o v é m u t e x t u :

AJ 3_13_Health.notebook. March 28, úvodní strana

PŘEDPŘÍTOMNÝ prostý ČAS - procvičení

Digitální učební materiál

The Czech education system, school

aneb Will Smith nebo Will Scarlet?

POSLECH. M e t o d i c k é p o z n á m k y k z á k l a d o v é m u t e x t u :

Konverzace v AJ? Jak motivovat nemotivované

I STILL HAVEN T FOUND U2 A song

VOŠ, SPŠ automobilní a technická. Mgr. Marie Šíchová. At the railway station

PRÁCE S UKÁZKAMI ODPOVĚDÍ MATURANTŮ NA DVD

Jméno autora: Mgr. Alena Chrastinová Datum vytvoření: Číslo DUMu: VY_32_INOVACE_14_AJ_G

Vánoční sety Christmas sets

Věty k překladu From Unit 4 part A, Project 2

Jméno autora: Mgr. Alena Chrastinová Datum vytvoření: Číslo DUMu: VY_32_INOVACE_6_AJ_G

VY_12_INOVACE_ / Vyprávíme a překládáme příběh

Kód: Vzdělávací materiál projektu Zlepšení podmínek výuky v ZŠ Sloup. Present simple "to have, to be"

20/ Řeč přímá a nepřímá

MARKET UP WEBSITE ON YOUR SIDE MATERIÁLY PRO UČITELE

Transkript:

Interakce člověk počítač v přirozeném jazyce (ICP) LS 2013 Jazykové modely Tino Haderlein, Elmar Nöth Katedra informatiky a výpočetní techniky (KIV) Západočeská univerzita v Plzni Lehrstuhl für Mustererkennung (LME) Friedrich-Alexander-Universität Erlangen-Nürnberg

Why Do We Need Syntactic structure? 2 Wouldn t the sentence I want to put a hyphen between the words Fish and And and And and Chips in my Fish And Chips sign have been clearer if quotation marks had been placed before Fish, and between Fish and and, and and and And, and And and and, and and and And, and And and and, and and and Chips, as well as after Chips? Yes, it makes sense.

Why Do We Need Syntactic structure? 3 John where James had had had had had had had had had had been correct John, where James had had had, had had had had ; had had had been correct. vs. John, where James had had had had, had had had ; had had had been correct.

4 To Know What Was Said Without Listening utterance: We must resolve some problems we hear NOTHING! we count on 91243 sentences of the Wall Street Journal (WSJ) which words are at the beginning of a sentence, and how often the text contains 2265839 words; (47343 different) can we guess the correct utterance? the utterance is not contained in the data set

Which Words Start a Sentence? (7170) 5 Rank Count Word Rank Count Word 1 14844 THE 11 881 THIS 2 3877 IN 12 849 I 3 3801 BUT 13 822 THEY 4 3307 MR. 14 820 AS 5 1776 HE 15 798 WE 6 1742 A 16 789 IF 7 1722 QUOTE 17 751 THAT 8 1631 IT 18 733 AT 9 1290 AND 19 622 SOME 10 1184 FOR 20 568 IT S

Which Words Follow a we in WSJ? 416! 6 Rank Count Word Rank Count Word 1 295 HAVE 11 50 WOULD 2 245 ARE 12 42 BELIEVE 3 119 DON T 13 39 KNOW 4 108 WERE 14 39 DO 5 101 WILL 15 37 CAN T 6 95 CAN 16 36 COULD 7 70 HAD 17 34 DIDN T 8 66 WANT 18 33 EXPECT 9 55 THINK 19 31 SHOULD 10 52 NEED 20 29 MUST

Which Words Follow a must in WSJ? 247! 7 Rank Count Word Rank Count Word 1 26 HAVE 11 6 COME 2 15 PAY 12 5 SHOW 3 15 MAKE 13 5 DECIDE 4 11 TAKE 14 5 CLEAR 5 11 ALSO 15 4 STILL 6 10 APPROVE 16 4 REMAIN 7 8 NOT 17 4 PROVIDE 8 8 MEET 18 4 KNOW 9 6 GO 19 4 GET 10 6 FIND...... 109 1 RESOLVE

Which Words Follow a resolve in WSJ? 36! 8 Rank Count Word Rank Count Word 1 18 THE 11 2 ANY 2 6 A 12 1 TODAY 3 5 TO 13 1 THROUGH 4 3 THEIR 14 1 THESE 5 3 ITS 15 1 TECHNICALLY 6 3 DISPUTES 16 1 TECHNICAL 7 3 CASES 17 1 SOME 8 2 THIS 18 1 SOCIAL 9 2 OUR 19 1 SEVERAL 10 2 DIFFERENCES 20 1 REMAINING

Which Words Follow a some in WSJ? 1364! 9 Rank Count Word Rank Count Word 1 667 OF 11 31 COMPANIES 2 152 ANALYSTS 12 28 TRADERS 3 58 TIME 13 24 INDUSTRY 4 57 PEOPLE 14 23 U. 5 56 CASES 15 23 OBSERVERS 6 49 INVESTORS 16 23 ARE 7 47 OTHER 17 21 KIND 8 36 POINT 18 21 IN 9 34 ONE 19 20 ECONOMISTS 10 31 TWO 20 20 BIG...... 112 5 PROBLEMS

10 N-gramové jazykové modely Pro vyhodnocení Bayesovy rovnice je nutná pravděpodobnost P(w) = P(w 1,..., w N ) = pravděpodobnost, že posloupnost slov w 1,.., w N byla řečena. Rozvij P(W) podle P(w) = P(w 1,.., w N ) = P(w 1 ) P(w 2 w 1 )... P(w N w 1,..., w N 1 ). Pravděpodobnost slova w i je tedy závislá na všech předem řečených slovech (= historie). Nelze odhadnout P(w i w 1,..., w i 1 ) pro velké hodnoty i. Řešení: Definuj ekvivalenční třídy pro předchozí slova.

N-gramové jazykové modely 11 Ekvivalenční třídy: w i je závislé jen na zkrácené historii Φ(w 1,..., w i 1 ): P(w) = P(w 1 ) N i=2 P(w i Φ(w 1,..., w i 1 )) Unigramový jazykový model: Všechny historie jsou ekvivalentní: P(w) = N i=1 P(w i) Bigramový jazykový model: Všechny historie, které skončí ve stejném slově, jsou ekvivalentní: P(w) = P(w 1 ) N i=2 P(w i w i 1 ) Trigramový jazykový model: Všechny historie se stejnými dvěma posledními slovy jsou ekvivalentní: P(w) = P(w 1 ) P(w 2 w 1 ) N i=1 P(w i w i 2, w i 1 )

12 Odhad ML n-gramových jazykových modelů počítej relativní četnosti f(w i w i 2, w i 1 ), f(w i w i 1 ), f(w i ) na tréninkovém korpu např. f(w i w i 2, w i 1 ) = #(w i 2,w i 1,w i ) #(w i 2,w i 1 ) # znamená hojnost výskytu v tréninkovém korpu Odhad ML pro P(w i w i n+1,..., w i 1 ) = f(w i w i n+1,..., w i 1 ) Problém: V tréninkovém korpu se hodně z možných trigramů neobjevuje P(w) = 0 rozpoznávací chyba. Příklad: Velikost slovní zásoby = V = 20000 8 10 12 možných trigramů V tréninkovém textu se 100 000 slovy se pozoruje maximálně 10 5 různých n-gramů, ve skutečnosti ale ještě mnohem méně. Řešení: hlazení odhadních hodnot nebo vytvoření kategorií

Četnost bigramů 13 histogram absolutních četností výskytu bigramů ve vzorku kolem 52000 slov (1780 slov ve slovní zásobě) 1600 "haeufig.bi.gp" 1400 1200 1000 800 600 400 200 0 0 5 10 15 20 25 30 35 40

14 Hlazení n-gramů Nejjednodušší možnost jak zabránit případu #(w i n+1,..., w i ) = 0 je Jeffreyovo hlazení: Bud # (w i n+1,..., w i ) = 1 + #(w i n+1,..., w i ). P(w i w i n+1,..., w i 1 ) = # (w i n+1,...,w i ) # (w i n+1,...,w i 1 ) = 1+#(w i n+1,...,w i ) V + P w i V #(w i n+1,...,w i ) Problém: Nemožné n-gramy dostanou poměrně vysokou pravděpodobnost. Příklad nahoře: I když se při 1780 slovech (types) a 500 000 slovech postupného textu (tokens) každý bigram v tréninkovém textu objeví přesně jednou, stoupá hmota pravděpodobnosti asi od 500 000 asi na 3 670 000, při 52 000 asi od 50 000 na 3 200 000.

15 Hlazení n-gramů: Good-Turingův odhad základní myšlenka: Všechny n-gramy se stejnou četností r v tréninkovém korpu by měli dostat stejnou pravděpodobnost. Good-Turingova odhadní hodnota dodá n-gramu, který se objeví r-krát v tréninkovém korpu, hodnotu r : r = (r + 1) n r+1 n r r je očekávaná hodnota četnosti vyskytování tohoto n-gramu v jiném korpu se stejnou velikostí jako tréninkový korpus. n l je počet n-gramů, které se v tréninkovém korpu vyskytují přesně l-krát. konverze/přeměna na pravděpodobnost: pravděpodobnost, že se n-gram vyskytuje k-krát v datech: p k = r N, kde N = počet n-gramů v tréninkovém korpu

16 Hlazení n-gramů: Good-Turingův odhad Good-Turingův odhad není možný, když n r = 0, tj. před aplikací se musí použít jiná metoda hlazení, aby bylo n r 0 pro všechny n-gramy. Důležité: I pro nové, modifikované hodnoty četností zůstane suma všech četností stejná: (N) = K k=1 (N k) = r=0 n r r = r=0 (r + 1)n r+1 = r=1 rn r = N To znamená, že Good-Turingův odhad ty vypočítané četnosti nemění libovolně, ale jen je přerozdělovává.

17 Hlazení n-gramů: Good-Turingův odhad osa x: četnost unigramů v tréninkovém korpu; osa y: Good-Turingova odhadní hodnota 250 "good.gp" x 200 Good Turing Schaetzwert 150 100 50 0 0 50 100 150 200 250 Unigramm Haeufigkeit im Trainingskorpus

Hlazení n-gramů: strategie 18 Všeobecně: N-gramy, které se nevyskytnou v tréninkovém korpu, se zobrazují na n-gramy nižšího řádu (= se zkrácenou historií). Všeobecná strategie (= backoff smoothing): { ˆq(w v), když #(vw) > 0 P smooth (w v) = β(v) P smooth (w v ), když #(vw) = 0 ˆq( ) je modifikovaná funkce odhadu jemnějšího modelu. Znovurozdělování ušetřené hmoty pravděpodobnosti je proporcionální k P smooth (w v ). v je zhublá (zredukovaná) podmínková část hrubého modelu. Váha β(v) garantuje, že pravděpodobnosti P smooth (w v) dodržují pravidla stochastiky.

Hlazení n-gramů: Katz smoothing 19 Kombinace základů Good-Turingova odhadu se strategií backoff Postup: Nemění se relativní četnost velmi častých n-gramů s r > k (k = 5,..., 8). Relativní četnost n-gramů s k r > 0 se sníží ve prospěch n-gramů, které se neobjeví (r = 0; discounting). Každý n-gram s r = 0 dostane hmotu pravděpodobnosti; dostane vyšší (popř. nižší) pravděpodobnost, když se příslušný (n 1)-gram vyskytuje v korpu velmi často (popř. málo). Katz smoothing: P katz (w v) = #(v,w) #(v), když r > k d r #(v,w) #(v), když k r > 0 α(v) P(w v ), když r = 0

Hlazení n-gramů: Katz smoothing 20 Přesné rovnice získáme z následujících podmínek: Musí zůstat splněna pravidla stochastiky. Faktor d r má být proporcionální ke Good-Turingovu odhadu. Hmota pravděpodobnosti, kterou odebíráme od častých n-gramů, má být stejná jako ta, kterou přidělíme nevyskytujícím n-gramům. Je jediné řešení: d r = r r (k+1)n k+1 n 1 1 (k+1)n k+1 n 1 ; α(v) = P 1 P katz (w v) w #(v,w)>0 P 1 P(w v ) w #(v,w)>0

Hlazení n-gramů: Interpolace 21 Motivace: Pro malé r je odhad ML velmi nepřesný, i když r > 0. Řešení: zahrnovat statistiky nižšího řádu, i když r > 0 Lineární interpolace: P I (w n w 1,.., w n 1 ) = 1 ρ o V + ρ 1 f(w n ) + ρ 2 f(w n w n 1 ) + + ρ n f(w n w 1..w n 1 ) kde i ρ i = 1 Váhy ρ i můžeme určit např. algoritmem EM na separátním validačním (ohodnocovacím) vzorku.

22 Další důležité metody interpolace Kneser-Neyova interpolace: nelineární interpolace interpolace s principem maximální entropie log-lineární interpolace racionální interpolace (jen v Erlangenu!)

Tvoření kategorií 23 další metoda zabránění nespolehlivým odhadním hodnotám L = 1000 slov = 1 000 000 000 trigramů! sniž efektivní velikost slovní zásoby Skupiny slov s podobnými funktionálními a statistickými vlastnostmi se sdružují do kategorií C = {C 1,..., C N }, kde N k=1 C k = V. Příklad: Všechny číslovky, jména měst, osob, měsíců si všechny pro sebe tvoří jednu kategorii. Kategorie mají být po párech disjunktní tvoření kategorií je jednoznačné. Problém: Je např. Teplá jméno města nebo ne? w V C(w) C s vlastností w C(w)

24 Tvoření kategorií příklad: tvoření kategoriálního bigramového jazykového modelu: P(w) = P(w 1 ) P(w 1 C(w 1 )) m i=2 P(w i C(w i )) P(C(w i ) C(w i 1 )) nutné statistiky: při bigramech N 2 1 pravděpodobností P(C i ), P(C j C i ) pro přechody mezi kategoriemi V N příslušností P(W k C(W k )) ke kategoriím lepení při n-gramových gramatikách analogicky komplexnější: překrývající se kategorie příslušnost ke kategorii je nepozorovatelný stav HMM Na kategorie se dají přenášet všechny interpolační a backoff strategie.

25 Parts of Speech (POS) syntakticky/sémanticky/pragmaticky orientované slovní třídy (50 100 POS) druh slova, pád, číslo, rod, čas, způsob/vid,... efektivně v jazycích s komplexním skloňováním, jako čeština, němčina, francouzština, italština

26 Cache Models metoda dynamické adaptace jazykového modelu na téma, o kterém se mluví statický jazykový model P static : lineárně interpolován cache modelem P cache P total(w i w i n+1,.., w i 1) = ρ c P static (w i w i n+1,.., w i 1 ) + (1 ρ c )P cache (w i w i 1 ) odhad cache modelu P cache na slovech, která byla řečena jako poslední proto je typicky jen bi- nebo trigram, protože je pro cache model k dispozici jen málo dat interpolační váha ρ c se mění s velikostí cache především zlepšení v diktovacích systémech

Perplexita 27 perplexita: míra pravděpodobnosti, kterou jazykový model přiděluje větám z testovacího vzorku (testovací množiny) dáno: jazykový model, který větám z testovacího vzorku W přiděluje pravděpodobnost P(W) aproximace entropie H(W) modelu P(w i w i n+1,.., w i 1 ) na datech W : H(W) = 1 N W log 2 P(W); N W je počet slov ve W (empirická) test-set perplexity PP(W) definovaná jako PP(W) = 2 H(W) Můžeme ji počítat s PP(W) = P(W) 1 N W. Čím menší je empiricky aproximovaná perplexita jazykového modelu, tím lépe umí model předpovídat testovací vzorek a tím lépe je vhodný.

Perplexita 28 Skutečná perplexita PP je vždycky menší než empirická aproximace PP(W): PP(W) PP (kvůli Jensenově nerovnici) Skutečná perplexita PP = 2 H s H = lim H 1 m = lim m m m P(w) log 2 P(w) w V m 1 = lim m m E[log 1 2 P(w)] = lim m m log 2 P(w) Náhodný proces má maximální entropii H = log 2 L, když P(v w) = 1 L, kde L = V. Perplexita může proto být interpretována jako střední stupeň rozvětvení jazyka. Čím lépe se slova jednoho jazyka dají předpovídat, tím menší je jeho perplexita.

29 Perplexita Skutečná perplexita anglického jazyka je domněle kolem 30-50. Empirická perplexita jazykového modelu je pro trigramy typicky mnohem menší než pro bigramy a unigramy. Empirická perplexita jazykového modelu je silně závislá na datech: Na textech z novin (Wall Street Journal) se slovní zásobou 5000 slov dosahují jazykové modely hodnoty perplexity kolem 128 (trigram) popř. 176 (bigram). Při hlasovým dialogovým systémech (např. ATIS Air Travel Information System, EVAR informace o vlacích) je perplexita trigramových modelů pod 20.

30 Perplexita Pokud se počítá perplexita nezávisle na akustické možnosti záměny slov, může i při nízké perplexitě výkon rozpoznávače řeči být velmi špatný. Jsou ale metody, které např. zkouší vybrat kategorie tak, že se akusticky snadně záměnitelná slova dostanou do různých kategorií a tím je jazykový model umí rozlišovat.