Pokročilé metody rozpozáváířeči Předáška 8 Rozpozáváí s velkými slovíky, pravděpodobost podobostí jazykový model
Rozpozáváí s velkým slovíkem Úlohy zaměřeé a diktováíči přepis řeči vyžadují velké slovíky Kolik slov je třeba? Agličtia versus češtia Agličtia driver, drivers, driver s importat build, builds, built, buildig AJ 5 tis. slov, ČJ > milio Češtia řidič, řidiče, řidiči, řidičem,. řidička, řidičův, řidičči, řidičský, důležitý, důležitého, důležitá, důležitější, ejdůležitější,. stavit, stavím, stavíš, stavili, stavily, stav,stavící, vystavit, postavit, zastavit, estavit
Rozpozáváí s velkým slovíkem Jak vytvořit vhodý slovík s přijatelou velikostí?. Získat co ejvíce textů z daé oblasti - všeobecý slovík: směs textů oviových, odborých, beletrie - odborý slovík: texty pouze z daé oblasti. Texty je třeba vyčistit a zormalizovat - odstrait etextové položky obrázky, zakovou grafiku, formátovací symboly, atd. - idetifikovat a odstrait překlepy apř. pomocí spell-checkeru, eí jedoduché - rozviout číslovky psaéčíslicí ejedozačá úloha a podobě též zkratky které se evyslovují jako zkratky, apř. tzv., km/hod. Idetifikovat slova, která mají růzé ortografické podoby apř. milio a milió, ebo Al Kajda a Al Kajdá a sjedotit je do jedié vybraé podoby
Rozpozáváí s velkým slovíkem Jak vytvořit vhodý slovík s přijatelou velikostí? pokračováí. Sestavit sezam všech slov vyskytujících se v daých textech a seřadit jej podle četosti 4. Do slovíku vybrat prvích N slov podle četosti - N se volí podle možostí rozpozávacího systému ebo a základě požadovaého pokrytí coverage rate Coverage [%] 98 96 94 9 Spoke data Text data 9 4 5 6 7 8 Lexico size thousad ords Pozámka: Slova mimo slovík OOV Out-of-Vocabulary ebudou ikdy rozpozáa OOV rate = Coverage rate [%]
Rozpozáváí s velkým slovíkem 4 Vliv velikosti slovíku a OOV, ACC přepis zpráv, 5 Slovík Počet slov Mi. frekvece Accuracy [%] OOV [%] 64K 646 7,96 5,7 K 8 4 7,75, 49K 4898 7 75,6,94 95K 9494 4 76,64,4 57K 5756 77,7,97 K 89 78,,75
Rozpozáváí s velkým slovíkem 5 Jak vytvořit vhodý slovík s přijatelou velikostí? pokračováí 6. Ke každému slovu dodat výslovost 7. U ěkterých slov přidat výslovostí variaty apř. 6 šest, šezd, šes, USA úesá, júesej 8. Pro další apř. sématické zpracováí může slovík obsahovat další přídavé iformace: Stadardí ortografie Alterativí ortografie Výslovostí variaty Morfologická třída Základí tvar milioů milióů milijoú, milijóú NumP Num4P milio téze these, teze téze, teze NouMascP téze s s, z, se, ze Prep4, Prep7 s
Jazykový model laguage model LM Pevá gramatika je použitelá pouze u velmi omezeých úloh povely, zadáváíčísel, telefoí volba, apod. Pokud uživatel edodrží gramatiku, systém buď udělá chybu S, D ebo I ebo vůbec edokočí rozpozáváí eajde přijatelou cestu do koce promluvy. Běžářeč se eřídí pevými pravidly. Možá je prakticky každá kombiace slov, liší se však svou pravděpodobostí.
Pravd Pravděpodobost podobostí jazykový jazykový model model Je založeý a pravděpodobostech slovích kombiací. Nejčastěji používaý: N-gramový model - je reprezetovaý pravděpodobostmi N slov za sebou - bigram - trigram, = C C p,,, = C C p Pravděpodobost sekvece slov vypočítaá z bigramů:.....,...,, = p p p start p P
Pravděpodobost podobostí jazykový model Tréováí jazykového modelu bigramu:. Nutý je co ejvětší korpus textů všeobecých ebo odborých. Text je třeba předem vyčistit a ormalizovat.. Pro výpočet bigramů je třeba si v paměti alokovat prostor pro matici četostí a všechy prvky vyulovat. 4. Program prochází text slovo po slovu a za každou alezeou dvojici slov ze slovíku přičte do příslušého prvku. 5. Na závěr se určí bigramové pravděpodobosti, a to vyděleím součtem četostí v řádku pro stejého předchůdce. Součet pravděpodobostí a řádku musí být rove. 6. Zbývá vyřešit otázku, co s ulovými pravděpodostmi. Pravděpodobosti bigramů ve větě se ásobí, takže jediá ula způsobí, že taková věta emůže být ikdy správě rozpozáa. řeší se tzv. vyhlazeím.
Proces odhadu hodot bigram. LM. Sloví páry a jejich četosti odvozeé z korpusu from he I ofte Paris to travel travels e you Zurich from 5 he I ofte 4 4 Paris to 4 travel travels e you Zurich START
. Sloví páry a jejich četosti odvozeé z korpusu. Vypočtey relativíčetosti,8,76,76,59,59,59,76,,59 START,,,,,,, Zurich,86,49,4,4 you,4,86,49,4 e,,,,, travels,9,9,7,8,9,9,8 travel,,,,4 to,,,,,, Paris,8,9,45,64,9,8,45,9,5,9 ofte,5,5 I,,4,4 he,5,, from Zurich you e travels travel to Paris ofte I he from Proces Proces odhadu dhadu hodot hodot bigram bigram. LM LM
Proces odhadu hodot bigram. LM. Sloví páry a jejich četosti odvozeé z korpusu. Vypočtey pravděpodbosti jako relativíčetosti. Provedeo vyhlazeí ulovéčetosti ahrazey malými hodotami from he I ofte Paris to travel travels e you Zurich from,,,,,,,,,,67,67 he,5,5,5,5,5,5,5,5,5,5,5 I,56,6,56,78,56,56,78,556,56,56,56 ofte,9,6,9,9,56,67,9,96,56,9,67 Paris,79,,6,7,6,5,6,57,7,6,7 to,,,,,,,,,,,67 travel,56,9,94,56,,9,,,94,94, travels,,,,67,,,,,,, e,5,4,4,9,4,4,8,47,4,5,4 you,5,4,5,9,4,4,8,47,4,4,4 Zurich,67,,,,,,,,,, START,68,,59,68,68,,68,7,59,59,4
Metody vyhlazov Metody vyhlazováí LM LM Řeší otázku co s ulovými pravděpodobostmi eviděými dvojicemi Metoda ADD ke každému prvku matice se přičte metoda jedoduchá, ale adhodocuje eviděá sloví spojeí V C C p + + = +,
Metody vyhlazováí LM Metoda Witte-Bell v praxi často používaá ulové pravděpodobosti ahrazuje malým číslem, jehož velikost souvisí s tím, kolik má předchůdce růzých ásledovíků Příklad: slovo poťemkiovský se vyskytuje s ěkolika málo ásledíky, proto eviděé bigramy dostaou mohem ižší hodotu ež eviděé bigramy apř. u slova dobrý
Nástroje v HTK HTK podporuje práci s bigramy a trigramy Nástroje: - HLM - HLSTATS Popis: - HTKBook, kapitoly 4 a 5