pravděpodobnostn podobnostní jazykový model



Podobné dokumenty
Pro statistické šetření si zvolte si statistický soubor např. všichni žáci třídy (několika tříd, školy apod.).

Hlas a počítač Možnosti nasazení nových technologií v resortu školství a jako pomůcka pro zdravotně postižené studenty

Závislost slovních znaků

P2: Statistické zpracování dat

Dobývání znalostí. Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze

MATICOVÉ HRY MATICOVÝCH HER

Deskriptivní statistika 1

Cvičení 3 - teorie. Teorie pravděpodobnosti vychází ze studia náhodných pokusů.

Katedra pravděpodobnosti a matematické statistiky. χ 2 test nezávislosti

2.4. INVERZNÍ MATICE

STATISTIKA. Statistika se těší pochybnému vyznamenání tím, že je nejvíce nepochopeným vědním oborem. H. Levinson

IAJCE Přednáška č. 12

1. K o m b i n a t o r i k a

POLYNOM. 1) Základní pojmy. Polynomem stupně n nazveme funkci tvaru. a se nazývají koeficienty polynomu. 0, n N. Čísla. kde

7. KOMBINATORIKA, BINOMICKÁ VĚTA. Čas ke studiu: 2 hodiny. Cíl

I. Výpočet čisté současné hodnoty upravené

OKRUŽNÍ A ROZVOZNÍ ÚLOHY: OBCHODNÍ CESTUJÍCÍ. FORMULACE PŘI RESPEKTOVÁNÍ ČASOVÝCH OKEN

Pravděpodobnostní modely

1.3. POLYNOMY. V této kapitole se dozvíte:

1 POPISNÁ STATISTIKA V PROGRAMU MS EXCEL

Permutace s opakováním

2 STEJNORODOST BETONU KONSTRUKCE

2. Znát definici kombinačního čísla a základní vlastnosti kombinačních čísel. Ovládat jednoduché operace s kombinačními čísly.

1. ZÁKLADY VEKTOROVÉ ALGEBRY 1.1. VEKTOROVÝ PROSTOR A JEHO BÁZE

Metody zkoumání závislosti numerických proměnných

1. Základy počtu pravděpodobnosti:

Zhodnocení přesnosti měření

České vysoké učení technické v Praze. Fakulta dopravní. Semestrální práce. Statistika

U klasifikace podle minimální vzdálenosti je nutno zvolit:

STUDIUM MAXWELLOVA ZÁKONA ROZDĚLENÍ RYCHLSOTÍ MOLEKUL POMOCÍ DERIVE 6

1 ROVNOMĚRNOST BETONU KONSTRUKCE

Náhodu bychom mohli definovat jako součet velkého počtu drobných nepoznaných vlivů.

Aplikovaná informatika. Podklady předmětu Aplikovaná informatika pro akademický rok 2006/2007 Radim Farana. Obsah. Algoritmus

jako konstanta nula. Obsahem centrálních limitních vět je tvrzení, že distribuční funkce i=1 X i konvergují za určitých

Intervalové odhady parametrů některých rozdělení.

Sekvenční logické obvody(lso)

Mendelova univerzita v Brně Statistika projekt

Výukový modul III.2 Inovace a zkvalitnění výuky prostřednictvím ICT

3. Lineární diferenciální rovnice úvod do teorie

S polynomy jste se seznámili již v Matematice 1. Připomeňme definici polynomické

VYSOCE PŘESNÉ METODY OBRÁBĚNÍ

MOŽNOSTI STATISTICKÉHO POSOUZENÍ KVANTITATIVNÍCH VÝSLEDKŮ POŽÁRNÍCH ZKOUŠEK PRO POTŘEBY CERTIFIKACE A POSUZOVÁNÍ SHODY VÝROBKŮ

MATEMATICKÁ INDUKCE. 1. Princip matematické indukce

Odhad parametru p binomického rozdělení a test hypotézy o tomto parametru. Test hypotézy o parametru p binomického rozdělení

Permutace s opakováním

6. KOMBINATORIKA Základní pojmy Počítání s faktoriály a kombinačními čísly Variace

Zimní semestr akademického roku 2015/ listopadu 2015

Popisná statistika - zavedení pojmů. 1 Jednorozměrný statistický soubor s kvantitativním znakem

Kvantová a statistická fyzika 2 (Termodynamika a statistická fyzika)

základním prvkem teorie křivek v počítačové grafice křivky polynomiální n

Nejistoty měření. Aritmetický průměr. Odhad směrodatné odchylky výběrového průměru = nejistota typu A

2,3 ČTYŘI STANDARDNÍ METODY I, ČTYŘI STANDARDNÍ METODY II

Lineární regrese ( ) 2

Matematika I, část II

definované pro jednotlivé řády takto: ) řádu n nazýváme číslo A = det( A) a a a11 a12

Statistika. Statistické funkce v tabulkových kalkulátorech MSO Excel a OO.o Calc

14. Testování statistických hypotéz Úvod statistické hypotézy Definice 14.1 Statistickou hypotézou parametrickou neparametrickou. nulovou testovanou

I. Výpočet čisté současné hodnoty upravené

VLASTNOSTI ÚLOH CELOČÍSELNÉHO PROGRAMOVÁNÍ

Úloha II.S... odhadnutelná

8.2.1 Aritmetická posloupnost I

8. Základy statistiky. 8.1 Statistický soubor

( )! ( ) ( ) ( ) = ( ) ( ) ( ) ( ) ( )

Odhady parametrů 1. Odhady parametrů

Návod pro výpočet základních induktorů s jádrem na síťové frekvenci pro obvody výkonové elektroniky.

6. FUNKCE A POSLOUPNOSTI

4EK311 Operační výzkum. 4. Distribuční úlohy LP část 2

Mezní stavy konstrukcí a jejich porušov. Hru IV. Milan RůžR. zbynek.hruby.

P. Girg. 23. listopadu 2012

8. Odhady parametrů rozdělení pravděpodobnosti

ZÁKLADNÍ STATISTICKÉ VÝPOČTY (S VYUŽITÍM EXCELU)

je konvergentní, právě když existuje číslo a R tak, že pro všechna přirozená <. Číslu a říkáme limita posloupnosti ( ) n n 1 n n n

Experimentální postupy. Koncentrace roztoků

Matematika 1. Katedra matematiky, Fakulta stavební ČVUT v Praze. středa 10-11:40 posluchárna D / 13. Posloupnosti

4.2 Elementární statistické zpracování Rozdělení četností

2 IDENTIFIKACE H-MATICE POPISUJÍCÍ VEDENÍ Z NAMĚŘENÝCH HODNOT

3. Sekvenční obvody. b) Minimalizujte budící funkce pomocí Karnaughovy mapy

je konvergentní, právě když existuje číslo a R tak, že pro všechna přirozená <. Číslu a říkáme limita posloupnosti ( ) n n 1 n n n

Vzorový příklad na rozhodování BPH_ZMAN

Statistika pro metrologii

1.2. NORMA A SKALÁRNÍ SOUČIN

PODNIKOVÁ EKONOMIKA 3. Cena cenných papírů

6 Intervalové odhady. spočteme aritmetický průměr, pak tyto průměry se budou chovat jako by pocházely z normálního. nekonečna.

1.7.4 Těžiště, rovnovážná poloha

DERIVACE FUNKCÍ JEDNÉ REÁLNÉ PROM

Testování statistických hypotéz

f x a x DSM2 Cv 9 Vytvořující funkce Vytvořující funkcí nekonečné posloupnosti a0, a1,, a n , reálných čísel míníme formální nekonečnou řadu ( )

TESTOVÁNÍ STATISTICKÝCH HYPOTÉZ

Konec srandy!!! Mocniny s přirozeným mocnitelem I. Předpoklady: základní početní operace

L A B O R A T O R N Í C V I Č E N Í Z F Y Z I K Y

Kombinatorika- 3. Základy diskrétní matematiky, BI-ZDM

Základní požadavky a pravidla měření

Doc. Ing. Dagmar Blatná, CSc.

Ilustrativní příklad ke zkoušce z B_PS_A léto 2014.

Bezpečnostní technika

III/2 Inovace a zkvalitnění výuky prostřednictvím ICT

1 Trochu o kritériích dělitelnosti

6. Posloupnosti a jejich limity, řady

Užití binomické věty

Diskrétní Fourierova transformace

Transkript:

Pokročilé metody rozpozáváířeči Předáška 8 Rozpozáváí s velkými slovíky, pravděpodobost podobostí jazykový model

Rozpozáváí s velkým slovíkem Úlohy zaměřeé a diktováíči přepis řeči vyžadují velké slovíky Kolik slov je třeba? Agličtia versus češtia Agličtia driver, drivers, driver s importat build, builds, built, buildig AJ 5 tis. slov, ČJ > milio Češtia řidič, řidiče, řidiči, řidičem,. řidička, řidičův, řidičči, řidičský, důležitý, důležitého, důležitá, důležitější, ejdůležitější,. stavit, stavím, stavíš, stavili, stavily, stav,stavící, vystavit, postavit, zastavit, estavit

Rozpozáváí s velkým slovíkem Jak vytvořit vhodý slovík s přijatelou velikostí?. Získat co ejvíce textů z daé oblasti - všeobecý slovík: směs textů oviových, odborých, beletrie - odborý slovík: texty pouze z daé oblasti. Texty je třeba vyčistit a zormalizovat - odstrait etextové položky obrázky, zakovou grafiku, formátovací symboly, atd. - idetifikovat a odstrait překlepy apř. pomocí spell-checkeru, eí jedoduché - rozviout číslovky psaéčíslicí ejedozačá úloha a podobě též zkratky které se evyslovují jako zkratky, apř. tzv., km/hod. Idetifikovat slova, která mají růzé ortografické podoby apř. milio a milió, ebo Al Kajda a Al Kajdá a sjedotit je do jedié vybraé podoby

Rozpozáváí s velkým slovíkem Jak vytvořit vhodý slovík s přijatelou velikostí? pokračováí. Sestavit sezam všech slov vyskytujících se v daých textech a seřadit jej podle četosti 4. Do slovíku vybrat prvích N slov podle četosti - N se volí podle možostí rozpozávacího systému ebo a základě požadovaého pokrytí coverage rate Coverage [%] 98 96 94 9 Spoke data Text data 9 4 5 6 7 8 Lexico size thousad ords Pozámka: Slova mimo slovík OOV Out-of-Vocabulary ebudou ikdy rozpozáa OOV rate = Coverage rate [%]

Rozpozáváí s velkým slovíkem 4 Vliv velikosti slovíku a OOV, ACC přepis zpráv, 5 Slovík Počet slov Mi. frekvece Accuracy [%] OOV [%] 64K 646 7,96 5,7 K 8 4 7,75, 49K 4898 7 75,6,94 95K 9494 4 76,64,4 57K 5756 77,7,97 K 89 78,,75

Rozpozáváí s velkým slovíkem 5 Jak vytvořit vhodý slovík s přijatelou velikostí? pokračováí 6. Ke každému slovu dodat výslovost 7. U ěkterých slov přidat výslovostí variaty apř. 6 šest, šezd, šes, USA úesá, júesej 8. Pro další apř. sématické zpracováí může slovík obsahovat další přídavé iformace: Stadardí ortografie Alterativí ortografie Výslovostí variaty Morfologická třída Základí tvar milioů milióů milijoú, milijóú NumP Num4P milio téze these, teze téze, teze NouMascP téze s s, z, se, ze Prep4, Prep7 s

Jazykový model laguage model LM Pevá gramatika je použitelá pouze u velmi omezeých úloh povely, zadáváíčísel, telefoí volba, apod. Pokud uživatel edodrží gramatiku, systém buď udělá chybu S, D ebo I ebo vůbec edokočí rozpozáváí eajde přijatelou cestu do koce promluvy. Běžářeč se eřídí pevými pravidly. Možá je prakticky každá kombiace slov, liší se však svou pravděpodobostí.

Pravd Pravděpodobost podobostí jazykový jazykový model model Je založeý a pravděpodobostech slovích kombiací. Nejčastěji používaý: N-gramový model - je reprezetovaý pravděpodobostmi N slov za sebou - bigram - trigram, = C C p,,, = C C p Pravděpodobost sekvece slov vypočítaá z bigramů:.....,...,, = p p p start p P

Pravděpodobost podobostí jazykový model Tréováí jazykového modelu bigramu:. Nutý je co ejvětší korpus textů všeobecých ebo odborých. Text je třeba předem vyčistit a ormalizovat.. Pro výpočet bigramů je třeba si v paměti alokovat prostor pro matici četostí a všechy prvky vyulovat. 4. Program prochází text slovo po slovu a za každou alezeou dvojici slov ze slovíku přičte do příslušého prvku. 5. Na závěr se určí bigramové pravděpodobosti, a to vyděleím součtem četostí v řádku pro stejého předchůdce. Součet pravděpodobostí a řádku musí být rove. 6. Zbývá vyřešit otázku, co s ulovými pravděpodostmi. Pravděpodobosti bigramů ve větě se ásobí, takže jediá ula způsobí, že taková věta emůže být ikdy správě rozpozáa. řeší se tzv. vyhlazeím.

Proces odhadu hodot bigram. LM. Sloví páry a jejich četosti odvozeé z korpusu from he I ofte Paris to travel travels e you Zurich from 5 he I ofte 4 4 Paris to 4 travel travels e you Zurich START

. Sloví páry a jejich četosti odvozeé z korpusu. Vypočtey relativíčetosti,8,76,76,59,59,59,76,,59 START,,,,,,, Zurich,86,49,4,4 you,4,86,49,4 e,,,,, travels,9,9,7,8,9,9,8 travel,,,,4 to,,,,,, Paris,8,9,45,64,9,8,45,9,5,9 ofte,5,5 I,,4,4 he,5,, from Zurich you e travels travel to Paris ofte I he from Proces Proces odhadu dhadu hodot hodot bigram bigram. LM LM

Proces odhadu hodot bigram. LM. Sloví páry a jejich četosti odvozeé z korpusu. Vypočtey pravděpodbosti jako relativíčetosti. Provedeo vyhlazeí ulovéčetosti ahrazey malými hodotami from he I ofte Paris to travel travels e you Zurich from,,,,,,,,,,67,67 he,5,5,5,5,5,5,5,5,5,5,5 I,56,6,56,78,56,56,78,556,56,56,56 ofte,9,6,9,9,56,67,9,96,56,9,67 Paris,79,,6,7,6,5,6,57,7,6,7 to,,,,,,,,,,,67 travel,56,9,94,56,,9,,,94,94, travels,,,,67,,,,,,, e,5,4,4,9,4,4,8,47,4,5,4 you,5,4,5,9,4,4,8,47,4,4,4 Zurich,67,,,,,,,,,, START,68,,59,68,68,,68,7,59,59,4

Metody vyhlazov Metody vyhlazováí LM LM Řeší otázku co s ulovými pravděpodobostmi eviděými dvojicemi Metoda ADD ke každému prvku matice se přičte metoda jedoduchá, ale adhodocuje eviděá sloví spojeí V C C p + + = +,

Metody vyhlazováí LM Metoda Witte-Bell v praxi často používaá ulové pravděpodobosti ahrazuje malým číslem, jehož velikost souvisí s tím, kolik má předchůdce růzých ásledovíků Příklad: slovo poťemkiovský se vyskytuje s ěkolika málo ásledíky, proto eviděé bigramy dostaou mohem ižší hodotu ež eviděé bigramy apř. u slova dobrý

Nástroje v HTK HTK podporuje práci s bigramy a trigramy Nástroje: - HLM - HLSTATS Popis: - HTKBook, kapitoly 4 a 5