LS 2013 Teorie skrytých Markovových modelů. Tino Haderlein, Elmar Nöth

Podobné dokumenty
7 Další. úlohy analýzy řeči i a metody

Speciální struktury číslicových systémů ASN P12

Jan Černocký ÚPGM FIT VUT Brno, FIT VUT Brno

Pokročil. Vyučující: Prof. Ing. Jan Nouza, CSc., ITE

Úvod do praxe stínového řečníka. Automatické rozpoznávání řeči

Algoritmy a struktury neuropočítačů ASN P3

UČENÍ BEZ UČITELE. Václav Hlaváč

1. ÚVOD 2. GRAFICKÝ ZÁPIS ZVUKOVÉ PODOBY JAZYKA 2.1 Písmo 2.2 Pravopis 2.3 Fonetická transkripce

Markovské procesy. příklad: diabetický pacient, hladina inzulinu, léky, jídlo

Algoritmy a struktury neuropočítačů ASN P8b

Západočeská univerzita v Plzni Fakulta aplikovaných věd Katedra kybernetiky

Úvod do praxe stínového řečníka. Automatické rozpoznávání řeči

Algoritmy komprese dat

Předmět: Český jazyk. hlasité čtení, praktické čtení. hlasité i tiché čtení s porozuměním

Normalizace textu. Text to Speech, TTS Konverze textu do mluvené podoby. Pavel Cenek, Aleš Horák. Obsah: Související technologie

Uvod Modely n-tic Vyhodnocov an ı Vyhlazov an ı a stahov an ı Rozˇ s ıˇ ren ı model u n-tic Jazykov e modelov an ı Pavel Smrˇ z 27.

Pavel Cenek, Aleš Horák

NĚKTERÉ OBVYKLÉ PROBLÉMY PŘI OSVOJOVÁNÍ ČESKÉHO HLÁSKOVÉHO SYSTÉMU CIZINCI (Ne)problematický vztah hláska foném grafém

Pokročilé neparametrické metody. Klára Kubošová

Ročník II. Český jazyk. Období Učivo téma Metody a formy práce- kurzívou. Kompetence Očekávané výstupy. Průřezová témata. Mezipřed.

Obsah přednášky Jaká asi bude chyba modelu na nových datech?

Rozpoznávání izolovaných slov (malý slovník, např. číslovky, povely).

KOMUNIKAČNÍ A SLOHOVÁ VÝCHOVA - čtení - praktické plynulé čtení. - naslouchání praktické naslouchání; věcné a pozorné naslouchání.

Předmět: Český jazyk a literatura

- naslouchání praktické naslouchání; věcné a pozorné naslouchání. - respektování základních forem společenského styku.

Předmět:: Český jazyk a literatura

Český jazyk a literatura

Dobývání znalostí. Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze

Roviny analýzy jazyka. Fonetika

Algoritmy a struktury neuropočítačů ASN P9 SVM Support vector machines Support vector networks (Algoritmus podpůrných vektorů)

Výstupy z RVP Učivo Ročník Průřezová témata Termín Komunikační a slohová výchova 1. plynule čte s porozuměním texty přiměřeného rozsahu a náročnosti

Segmentální struktura čínské slabiky Segmental Structure of Mandarin Syllable

Komprese dat. Jan Outrata KATEDRA INFORMATIKY UNIVERZITA PALACKÉHO V OLOMOUCI. přednášky

Pravděpodobně skoro správné. PAC učení 1

1. Převeďte dané číslo do dvojkové, osmičkové a šestnáctkové soustavy: a) b)

Tematický plán pro školní rok 2015/2016 Předmět: Český jazyk Vyučující: Mgr. Jarmila Kuchařová Týdenní dotace hodin: 9 hodin Ročník: druhý

Statistická teorie učení

SRE 03 - Skryté Markovovy modely HMM

Výstupy z RVP Učivo Ročník Průřezová témata Termín Komunikační a slohová výchova 1. plynule čte s porozuměním texty přiměřeného rozsahu a náročnosti

Anglický jazyk. Anglický jazyk. žák: TÉMATA. Fonetika: abeceda, výslovnost odlišných hlásek, zvuková podoba slova a její zvláštnosti

Vzdělávací obsah vyučovacího předmětu

Jazyk a jazyková komunikace Německý jazyk

FONETIKA A FONOLOGIE II.

Úloha - rozpoznávání číslic

Algoritmy a struktury neuropočítačů ASN - P10. Aplikace UNS v biomedicíně

Apriorní rozdělení. Jan Kracík.

6.1 I.stupeň. Vzdělávací oblast: Cizí jazyk Vyučovací předmět: ANGLICKÝ JAZYK. Charakteristika vyučovacího předmětu 1.

Německý jazyk - Kvinta

Odhad stavu matematického modelu křižovatek

Řečové technologie na Katedře kybernetiky FAV ZČU v Plzni. Katedra kybernetiky. Fakulta aplikovaných věd. Západočeská univerzita v Plzni

Šablona: I/2Inovace a zkvalitnění výuky směřující k rozvoji čtenářské a informační gramotnosti

Algoritmy a struktury neuropočítačů ASN P6

FONETIKA A FONOLOGIE I.

český jazyk a literatura

Neparametrické odhady hustoty pravděpodobnosti

Tino Haderlein, Elmar Nöth

Náhodný pokus Náhodným pokusem (stručněji pokusem) rozumíme každé uskutečnění určitého systému podmínek resp. pravidel.

Testování neuronových sítí pro prostorovou interpolaci v softwaru GRASS GIS

Neubauer, K. a kol. NEUROGENNÍ PORUCHY KOMUNIKACE U DOSPĚLÝCH (Praha, Portál, r. vydání 2007).

Transkripce psaného českého textu do fonetické podoby

Francouzský jazyk. Jazykové prostředky. Tematické okruhy. význam. Pravopis. zájmová činnost. projevu ve známých výrazech Gramatické kategorie na

Ukázka charakteristiky předmětu Komunikační dovednosti (pro neslyšící) z pracovní verze ŠVP ZŠ pro sluchově postižené, Liberec.

Algoritmy I. Číselné soustavy přečíst!!! ALGI 2018/19

Zákony hromadění chyb.

Pokročilé neparametrické metody. Klára Kubošová

ŠVP Školní očekávané výstupy. - vyslovuje jasně a srozumitelně - mluví přiměřeně hlasitě

SYNTÉZA ŘEČI. Ústav fotoniky a elektroniky, v.v.i. AV ČR, Praha

Úvod do optimalizace, metody hladké optimalizace

Český jazyk - Jazyková výchova

Aktivní detekce chyb

Matematika PRŮŘEZOVÁ TÉMATA

Odečítání pozadí a sledování lidí z nehybné kamery. Ondřej Šerý

V.1.3 Druhý cizí jazyk

Numerické metody optimalizace - úvod

Dobývání znalostí. Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze

Lineární klasifikátory

Tino Haderlein, Elmar Nöth

ZÁŘÍ. Náprava - používání pomůcek: Přípravné období pro výuku čtení a psaní, odstraňování symptomů provázejících dyslexii

Dolování dat z multimediálních databází. Ing. Igor Szöke Speech group ÚPGM, FIT, VUT

Příloha č. 4 ČESKÝ JAZYK JAZYKOVÁ VÝCHOVA

Implementace Bayesova kasifikátoru

ÚSTAV AUTOMATIZACE A MĚŘICÍ TECHNIKY Fakulta elektrotechniky a komunikačních technologií Vysoké učení technické v Brně OBSAH

KOMPRESE OBRAZŮ. Václav Hlaváč, Jan Kybic. Fakulta elektrotechnická ČVUT v Praze katedra kybernetiky, Centrum strojového vnímání.

Český jazyk a literatura

Cvičení z českého jazyka

Neuronové sítě. Vlasta Radová Západočeská univerzita v Plzni katedra kybernetiky

Český jazyk a literatura

7 UČEBNÍ OSNOVY 7.1 JAZYK A JAZYKOVÁ KOMUNIKACE Český jazyk (ČJ) Charakteristika předmětu 1. stupně

Jazyk anglický PRŮŘEZOVÁ TÉMATA POZNÁMKY 1A/ 10, 11, 13 1B/ 5, 7 1C/ 1, 3, 4 1D/ 2, 8 1E/ 8

Vzdělávací obor: Český jazyk a literatura

Využití algoritmu DTW pro vyhodnocování vad řeči dětí postižených Landau-Kleffnerovým syndromem (LKS)

6.1 I.stupeň. Vzdělávací oblast: Matematika a její aplikace Vyučovací předmět: MATEMATIKA. Charakteristika vyučovacího předmětu 1.

Okruhy pojmů ke zkoušce, podzim 2016

ŘEČOVÉ TECHNOLOGIE v PRAXI

Západočeská univerzita v Plzni Fakulta aplikovaných věd Katedra kybernetiky BAKALÁŘSKÁ PRÁCE

PRAVDĚPODOBNOST A STATISTIKA. Odhady parametrů Postačující statistiky


pokyny, vybídnutí, instrukce pozdravy, setkání, loučení, omluva, prosba, poděkování pomalejší promluvy, později v běž ném tempu řeči

Semestrální práce: Rozpoznání hláskované řeči a převedení na text

Úvod do teorie informace

Transkript:

Interakce člověk počítač v přirozeném jazyce (ICP) LS 2013 Teorie skrytých Markovových modelů Tino Haderlein, Elmar Nöth Katedra informatiky a výpočetní techniky (KIV) Západočeská univerzita v Plzni Lehrstuhl für Mustererkennung (LME) Friedrich-Alexander-Universität Erlangen-Nürnberg

2 Inventář modelů Hodně slov ve slovní zásobě na rozpoznávání modelování každého slova vlastním HMM není možné: Je příliš hodně slov, příliš málo trénovacích dat pro slovo. Možná pro několik slov ani nejsou příklady promluvy. Přidání nových slov k aplikaci (např. titul nového filmu v informačním systému pro kina) není moc dobře možné: nejsou příklady promluvy, popř. mají různé varianty výslovnosti být modelovány? Příklad: Slovní zásoba má 1000 slov. Pro robustní odhad modelu slova potřebujeme nejméně10 100 příkladů výslovnosti jednoho mluvčího. Když je průměrná délka slova asi 0,4 sekund (němčina), je minimální potřeba tréninkových dat 0,4 10 1000 = 4000 sekund, tj. asi 1 10 hodin dat jednoho mluvčího.

Inventář modelů 3 Řešení: analýza syntézou Každé slovo lze skládat sekvencí částí slov (angl. subword units). Je jen omezená množina (inventář) částí slov. Každý prvek inventáře se modeluje vlastním HMM. Modely slov se skládají sestavováním (konkatenací) modelů kratších jednotek. Tím je mnohem méně HMM než slov, je proto dost tréninkových dat pro každý HMM. Nové slovo do slovníku: Žádná tréninková data pro slova nejsou nutná, jen posloupnost částí slov.

Inventář HMM pro jednu část slov 4 INVENTORY Bonn /b/ /o/ /n/ 1 2 3 4 1 2 3 4 1 2 3 4 LEXICON Bonn /bon/ Dortmund /do6tmunt/ ich /IC/ nach /nax/ /bon/ 1 2 3 4 /b/ 1 1 2 3 4 /o/ 1 1 2 3 4 /n/ 1 2 3 4 5 6 7 8 9 10 Bonn

Výběr částí slov 5 Dříve rozpoznávání řeči užívalo hodně různých částí slov, např. hlásky, slabiky,... Rozhodnutí pro určité části slov se má orientovat podle těchto kritérií: Přesnost: Prvky inventáře by měly být specifické vzhledem k výslovnosti a s ostatními by se měly překrývat nebo k variacím obměňovat jen málo. Trénovatelnost popř. robustnost: Inventář by mělo mít málo prvků, aby byl dostatek dat pro každý HMM. Modularita: V ideálním případě lze každé slovo jazyka skládat konečním inventářem částí slov. Transfer popř. zobecnitelnost: Pro syntézu modelů nových slov by mělo být ke konstrukci úvod, který vyžaduje žádné náročné znalosti znalce (např. fonetika).

Výběr částí slov 6 koartikulace: (anglicky) hi h3: ha:

7 Výběr částí slov Příklad: Hlásky jsou robustně trénovatelné, protože je jich málo. Hlásky mají velkou modularitu a dobré vlastnosti, co se týká transferu (nutná je jen fonetická transkripce nového slova). Přesnost modelů hlásek je velmi špatná, protože hlásky mluvčí vyslovují ve závislosti na kontextu velmi různě ( koartikulace). Slova jsou velmi precizní, mají ale špatné vlastnosti robustnosti a modularity. Rozlišuje se dva typy částí slov: kontextově nezávislé a kontextově závislé části slov

Kontextově nezávislé části slov 8 Část slov se bud orientuje na fonologickou strukturu slova, anebo je řízená daty stanovena automatickou metodou. Pro každý prvek inventáře části slov se trénuje přesně jeden HMM. Dříve se užívalo hodně různých kontextově nezávislých částí slov. Část slov se vybere tak, že kontextově podmíněná variace je malá, popř. že kontext, který má vliv na variaci, je už součástí části slov: zmrazení kontextu /ham/ slabika /burk/ slabika /a/ /m/ foném/fón /b/ /b/ /U/ /r/ /k/ /a/ /m/ /b/ iniciální poloslabika terminální difon /b/ /U/ /r/ /k/ /a/ /m/ /b/ začáteční konečná posloupnost souhlásek nucleus transem centrum fonému

Kontextově nezávislé části slov: příklady 9 fóny mezi 40 a 200 univerzálních jednotek velmi modulární a přesnější než fonémy (jeden foném >1 fón) fonetická notace už není jednoznačná slabiky 20 000 angl., 100 japon. slabik, ve slovanských jazycích kolem 2500 3000 v němčině 50 000 slabik možných, ale objevuje se jen malá část; špatná modularita, např. pro 1000 slov > 1000 slabik výborná rozlišovací ostrost, koartikulace uvnitř vyslovené slabiky poloslabiky rozdělení slabiky do iniciální a terminální poloslabiky menší inventář, ale stejná přesnost 800 ( 1000) iniciálních a 2560 ( 1000) terminálních německých (anglických) poloslabik

10 Řízené daty, kontextově nezávislé části slov: fenony Stanovení části slov by se mělo stát empiricky s množinou dat tak, že uvedená kritéria jakosti jsou optimalizovaná. Výsledná část slov se jmenuje fenon. Různé postupy stanovení inventáře fenonů a fenonického základního tvaru F = f 1,..., f m slova, např.: 1 Trénuj vektorový kvantizér na datech. 2 Přiřad ke každému příznakovému vektoru symbol kódové knihy kvantizéru. 3 Spoj po sobě následující symboly, které jsou stejné. 4 Každý symbol kódové knihy odpovídá fenonickému symbolu f a je reprezentován pomocí HMM λ(f). Když jsou různé příklady výslovnosti X 1,..., X n jednoho slova, vybereme optimální fenonický základní tvar F tak, že maximalizuje pravděpodobnost vytvářet všechny n příklady: F = argmax F n i=1 P(X i λ(f))

Fenony 11 příznakové vektory vektorová kvantizace posloupnost symbolů splynutí sousedících stejných symbolů přiřazení symbolů k HMM tréninkový materiál pro HMM

12 Fenony Výhoda: Vektorová kvantizace tvoří modulární, precizní, robustně trénovatelné jednotky. Nevýhoda: Pro každé nové slovo je potřebný příklad výslovnosti fenony jsou málo užíváné.

13 Kontextově závislé části slov Problém kontextově nezávislých částí slov: Když kontext, který ovlivňuje jednotku, má být součástí jednotky, jednotka musí být poměrně dlouhá. Robustní odhad delších jednotek je ale složitý. Postup u kontextově závislých částí slov: Jednotka modelovaná pomocí HMM je krátká. Ale pro každý kontext, ve kterém se jednotka nachází, se trénuje vlastní HMM. robustně odhadnuté a přesto precizní modely

14 Kontextově závislé části slov Většina kontextově závislých částí slov se zakládá na fonémech v různých kontextech (alofonech). Předpokládáme, že je realizace fonému závislá jenom na sousedních hláskách. trifony: Zohledňuje se pouze levá a pravá sousední hláska /r/ v /hamburk/ U/r/k. pravé/levé bifony: Zohledňuje se pouze pravá/levá sousední hláska r /r/k r U/r/. monofony: Žádný hláskový kontext není zohledňován r /r/. Hranici slova reprezentuje vlastní symbol #. důležité: bifon není difon!

Trifony 15 / h a m b U r k / #/h/a h/a/m a/m/b m/b/u b/u/r U/r/k r/k/# Příklad: Trifon U/r/k charakterizuje v němčině centralizovanou hlásku [6] s regresivní asimilací vzhledem k palatální plozivě /k/. HMM trifonu b/u/r je trénován jen s příznakovými vektory hlásky U, ale ne s každými /U/ v tréninkových datech, ale pouze se všemi /U/, kde levý kontext je /b/ a pravý kontext je /r/. užívaný materiál /h/ /a/ /m/ /b/ /U/ /r/ /k/ zohledněný kontext

16 Trifony Většina trifonů se neobjevuje v tréninkových datech. Trifon-HMM má ale přesně stejnou topologii jako bia monofon-hmm stejného fonemu. Strategie recyklace menších jednotek: žádný trifon vezmi pravý bifon žádný pravý bifon vezmi levý bifon žádný levý bifon vezmi monofon b/u/r /U/r b/u/ /U/ Monofony se mohou užívat i pro inicializaci modelů bi- a trifonů.

17 Trifonová interpolace Trifony jsou velmi precizní, ale příslušné HMM často nejsou odhadnuté robustně. Monofony a bifony jsou méně precizní, ale odhad je robustnější. Lineární interpolace parametrů HMM mono-, bi- a trifonů sdružují výhody těchto jednotek. Interpolační váhy se mohou stanovit heuristicky (proporcionálně na četnost v datech). Interpolační váhy se mohou optimalizovat algoritmem EM na separátní množině dat.

18 Generalizované trifony problém: vzácné trifony parametry HMM jsou statisticky špatně odhadované řešení: splynutí trifonů, které patří ke stejnému fonému, a podobných kontextů cíl: sdružování různých sousedních fonémů, které ovlivňují artikulaci centrálního fonému stejným způsobem postup: sdružování/generalizace bud zakládající se na fonetickém vědomí anebo řízené daty

Generalizované trifony 19 např. systém s 5 třídami pro levé/pravé sousední fonémy (původně pro němčinu) jádrový foném je samohláska jádrový foném je souhláska hranice slova, aspirace nebo /h/ hranice slova nebo aspirace labiální souhlásky palatální samohlásky nebo /j/ dentální, alveolární zaokrouhlené samohlásky nebo palatální souhlásky nebo /w/ velární souhlásky nezaokrouhlené samohlásky samohlásky souhlásky pro jádrový foném je možných jen 5 5=25 trifonů

20 Řízená daty generalizace trifonů např. pomocí phoneme environment clustering (PEC): 1 Začni s robustně odhadnutými modely monofonů. 2 Udělej několik binárních rozdělení vzorové oblasti: Každé půlení zvýší počet (generalizovaných) trifonů. 3 Opakuj do té chvíle, než budou trifonové modely robustně odhadnuté a precizní. Binární dělení vzorové oblasti např. pomocí CART (classification and regression tree): Stanov určitou zásobu otázek, např. Je pravý sousední foném přední samohláska? Možné odpovědi pro každý trifon jsou ano a ne. Při každém binárním dělení vybereme otázku, která při dělení optimalizuje entropii (maximální zisk informací).

21 Polyfony I když jazykové jednotky s dlouhým kontextem (tetra-, penta-, hexa-, heptafony,... ) jsou poměrně velmi vzácné, přesto je v každé množině dat těch jednotek hodně, které se objevují často. Je možné je modelovat (lze robustně odhadnout HMM). Je ale i nutné je modelovat (silný vliv nadbytečnosti a zkreslení) fonémy v libovolně širokém pravém/levém kontextu foném závislý na celém slově. Zhrubnutí vyváženým odřezáváním; vpravo a vlevo, zvenku dovnitř Dodatečně: označování přízvuku a hranic (fráze, slovo, morfém, slabika) Trénuj HMM pro polyfon, když se objevuje v datech víckrát než dolní práh, např. 50krát.

Polyfony 22 Hannover /h/ano:f6 ha/n/o:f6 hano:f/6/ ha/n/o:f pentafon víc příkladů a/n/o:f víc tetrafon výslovnosti a/n/o: kontextu trifon /n/o: bifon generalizace /n/ monofon hierarchická reprezentace, ekonomický postup Jeden vzor může sloužit na trénink vícero HMM. Polyfony využívají tréninkovou množinu nejlépe.

Trénink HMM a části slov 23 V tréninkových datech se běžně říkají celé věty a ne jednotlivá slova nebo dokonce části slov. V tréninku proto spojíme jednoduché modely do komplexního HMM pro celou větu: Části slov a slova spojíme s pravděpodobností přechodu 1. Mezi slovy se vloží doplňkové HMM ticha. Baum-Welchův algoritmus zařídí korektní přiřazení mezi vzorem a modelem. (ticho) nebýt (ticho) to (ticho) je... (ticho) být nebo otázka (ticho)

24 Neexistující slova a neznámá slova V reálné aplikaci se vždycky objevují promluvy spontánní řeči, zvuky okolí, extralingvistické promluvy, slova mimo slovní zásobu. Rozpoznávač přiřazuje ke každé neznámé promluvě nejpodobnější slovo své slovní zásoby chyby. Řešení: dodatečné modely pro nonverbální fenomény jako chrchlání, kašlání, smích, zvuky dýchání nebo mlaskání pochybování: vyplněné a nevyplněné pauzy rušivé zvuky: např. tútání telefonu, klepání neznámá slova

25 Modelace slovních hranic koartikulace nejen uvnitř slova: např. zkreslení krátkých funkčních slov: ten muž /ten/ + /muz/ /temuz/ trifonové modely překrývající slova: crossword triphones kombinatorika kombinace hlásek mezi dvěma slovy ztrojnásobení počtu různých trifonů (od 1800 na 5500) nové trifony mezi slovy jsou vzácné jen nové trifony, které se objevují nejméně 30krát počet stoupá o méně než 10 generalizace/interpolace disponibilního inventáře modelů na trifony mezi slovy modelu dekódování rozpoznávací fáze: sousední slova a hláskový kontext neznámé!