Rozpoznávání izolovaných slov (malý slovník, např. číslovky, povely).



Podobné dokumenty
Klasifikace Landau-Kleffnerova syndromu

Aplikovaná numerická matematika

2. Numerické výpočty. 1. Numerická derivace funkce

0.1 Úvod do lineární algebry

PRAVDĚPODOBNOST A STATISTIKA

Vektorové podprostory, lineární nezávislost, báze, dimenze a souřadnice

Semestrální práce: Rozpoznání hláskované řeči a převedení na text

Náhodný vektor. Náhodný vektor. Hustota náhodného vektoru. Hustota náhodného vektoru. Náhodný vektor je dvojice náhodných veličin (X, Y ) T = ( X

Petr Zlatník, Roman Čmejla. Katedra teorie obvodů, Fakulta elektrotechnická, ČVUT, Praha. Abstrakt

2D transformací. červen Odvození transformačního klíče vybraných 2D transformací Metody vyrovnání... 2

Matematické modelování dopravního proudu

ČESKÉ VYSOKÉ UČENÍ TECHNICKÉ V PRAZE

0.1 Úvod do lineární algebry

INVESTICE DO ROZVOJE VZDĚLÁVÁNÍ. Modernizace studijního programu Matematika na PřF Univerzity Palackého v Olomouci CZ.1.07/2.2.00/28.

Náhodný vektor. Náhodný vektor. Hustota náhodného vektoru. Hustota náhodného vektoru. Náhodný vektor je dvojice náhodných veličin (X, Y ) T = ( X

Regresní a korelační analýza

Využití algoritmu DTW pro vyhodnocování vad řeči dětí postižených Landau-Kleffnerovým syndromem (LKS)

Maticí typu (m, n), kde m, n jsou přirozená čísla, se rozumí soubor mn veličin a jk zapsaných do m řádků a n sloupců tvaru:

Ekonomická formulace. Matematický model

fakulty MENDELU v Brně (LDF) s ohledem na disciplíny společného základu (reg. č. CZ.1.07/2.2.00/28.

Trénování sítě pomocí učení s učitelem

Regresní a korelační analýza

MO-ME-N-T MOderní MEtody s Novými Technologiemi

Základy matematiky pro FEK

LDF MENDELU. Simona Fišnarová (MENDELU) Základy lineárního programování VMAT, IMT 1 / 25

ROZ1 CVIČENÍ VI. Geometrická registrace (matching) obrazů

10. Soustavy lineárních rovnic, determinanty, Cramerovo pravidlo

Úvod do lineární algebry

Přehled matematického aparátu

SIGNÁLY A LINEÁRNÍ SYSTÉMY

12 DYNAMIKA SOUSTAVY HMOTNÝCH BODŮ

SIGNÁLY A LINEÁRNÍ SYSTÉMY

Matematika (CŽV Kadaň) aneb Úvod do lineární algebry Matice a soustavy rovnic

ANALYTICKÁ GEOMETRIE LINEÁRNÍCH ÚTVARŮ V ROVINĚ

13. Lineární programování

DTW. Petr Zlatník, Roman Čmejla. Abstrakt: Příspěvek popisuje metodu, která byla vyvinuta pro vyhodnocení

i=1 Přímka a úsečka. Body, které leží na přímce procházející body a a b můžeme zapsat pomocí parametrické rovnice

Obr. P1.1 Zadání úlohy v MS Excel

Soustavy lineárních rovnic a determinanty

VEKTORY. Obrázek 1: Jediný vektor. Souřadnice vektoru jsou jeho průměty do souřadných os x a y u dvojrozměrného vektoru, AB = B A

19 Eukleidovský bodový prostor

Numerické metody a programování. Lekce 8

IB112 Základy matematiky

ANALYTICKÁ GEOMETRIE V ROVINĚ

Univerzitní licence MATLABu. Pište mail na: se žádostí o nejnovější licenci MATLABu.

Náhodné veličiny jsou nekorelované, neexistuje mezi nimi korelační vztah. Když jsou X; Y nekorelované, nemusí být nezávislé.

SEMESTRÁLNÍ PRÁCE Z X37SAS Zadání č. 7

Normální (Gaussovo) rozdělení

Přehled vhodných metod georeferencování starých map

9 Kolmost vektorových podprostorů

4EK213 LINEÁRNÍ MODELY

Aplikovaná numerická matematika - ANM

Nejdřív spočítáme jeden příklad na variaci konstant pro lineární diferenciální rovnici 2. řádu s kostantními koeficienty. y + y = 4 sin t.

7 Transformace 2D. 7.1 Transformace objektů obecně. Studijní cíl. Doba nutná k nastudování. Průvodce studiem

Funkce, elementární funkce.

2 Zpracování naměřených dat. 2.1 Gaussův zákon chyb. 2.2 Náhodná veličina a její rozdělení

TSO NEBO A INVARIANTNÍ ROZPOZNÁVACÍ SYSTÉMY

Parametrické programování

Statistická analýza jednorozměrných dat

7. Derivace složené funkce. Budeme uvažovat složenou funkci F = f(g), kde některá z jejich součástí

POLYNOMICKÁ REGRESE. Jedná se o regresní model, který je lineární v parametrech, ale popisuje nelineární závislost mezi proměnnými.

STANOVENÍ CHARAKTERU SEGMENTU ŘEČI S VYUŽITÍM REÁLNÉHO KEPSTRA

Náhodné signály. Honza Černocký, ÚPGM

1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.

Algoritmy a struktury neuropočítačů ASN - P11

Státnice odborné č. 20

MATICE. a 11 a 12 a 1n a 21 a 22 a 2n A = = [a ij]

1. července 2010

4EK213 Lineární modely. 4. Simplexová metoda - závěr

Vektory a matice. Obsah. Aplikovaná matematika I. Carl Friedrich Gauss. Základní pojmy a operace

a počtem sloupců druhé matice. Spočítejme součin A.B. Označme matici A.B = M, pro její prvky platí:

Neuronové časové řady (ANN-TS)

7. Důležité pojmy ve vektorových prostorech

4EK213 Lineární modely. 10. Celočíselné programování

6 Ordinální informace o kritériích

Přílohy. Příloha 1. Obr. P1.1 Zadání úlohy v MS Excel

Matematika I, část I. Rovnici (1) nazýváme vektorovou rovnicí roviny ABC. Rovina ABC prochází bodem A a říkáme, že má zaměření u, v. X=A+r.u+s.

Stav Svobodný Rozvedený Vdovec. Svobodná Rozvedená Vdova 5 8 6

příkladů do cvičení. V textu se objeví i pár detailů, které jsem nestihl (na které jsem zapomněl) a(b u) = (ab) u, u + ( u) = 0 = ( u) + u.

Signál v čase a jeho spektrum

4. Napjatost v bodě tělesa

1. Číselné posloupnosti - Definice posloupnosti, základní vlastnosti, operace s posloupnostmi, limita posloupnosti, vlastnosti limit posloupností,

Dynamické programování

V roce 1998 se v Liberci oženili muži a vdaly ženy v jednotlivých věkových skupinách v následujících počtech:

Lineární funkce, rovnice a nerovnice

algoritmus»postup06«p e t r B y c z a n s k i Ú s t a v g e o n i k y A V

Zpracování náhodného vektoru. Ing. Michal Dorda, Ph.D.

Jméno autora: Mgr. Zdeněk Chalupský Datum vytvoření: Číslo DUM: VY_32_INOVACE_16_FY_A

PROGRAMY PRO GIS. Formovat/formulovat problém pro aplikaci v počítači. Fungování GIS programů na základní úrovni - "uvažovat" jako počítač

vyjádřete ve tvaru lineární kombinace čtverců (lineární kombinace druhých mocnin). Rozhodněte o definitnosti kvadratické formy κ(x).

Připomenutí co je to soustava lineárních rovnic

(Cramerovo pravidlo, determinanty, inverzní matice)

Přednáška 13 Redukce dimenzionality

7. Funkce jedné reálné proměnné, základní pojmy

3. úloha - problém batohu metodami branch & bound, dynamické programování, heuristika s testem

Teorie informace a kódování (KMI/TIK) Reed-Mullerovy kódy

9.3. Úplná lineární rovnice s konstantními koeficienty

Kolik existuje různých stromů na pevně dané n-prvkové množině vrcholů?

Transkript:

Rozpoznávání řeči Každý člověk má originální hlasové ústrojí a odlišný způsob artikulace, to se projevuje rozdílnou barvou hlasu, přízvukem, rychlostí řeči atd. I hlas jednoho řečníka je variabilní a závislý na mnoha aspektech (otázka, příkaz, nálada, nemoc atd.). To se projevuje v délce jednotlivých úseků řeči i v intenzitě řečového signálu. Ve skutečnosti je vlastně nemožné, aby bylo slovo řečeno dvakrát naprosto stejně. Rozpoznávače řeči Rozpoznávání izolovaných slov (malý slovník, např. číslovky, povely). Rozpoznávání diskrétního diktátu (rozsáhlejší slovník, slova jsou vyslovována izolovaně s krátkou mezislovní pauzou). Rozpoznávání souvislé řeči (slovník na desítky tisíc slov) Pracuje se s využitím statistických metod, kde jsou slova i celé promluvy modelovány pomocí tzv. skrytých Markovových modelů. Tato metoda je nejrozsáhlejší a je vhodná pro rozpoznávače s velkým slovníkem. Dynamické programování Při vstupu signálu do této metody jsou slova reprezentována sekvencí vektorů, které budeme nazývat obrazem slova. Délka sekvence je dána délkou slova a velikost vektorů počtem kepstrálních koeficientů. Metoda dynamického programování je založena na porovnávání neznámého testovaného a referenčního obrazu kde jsou vektory kepstrálních koeficientů testovaného obrazu. kde jsou vektory kepstrálních koeficientů referenčního obrazu. Referenční obrazy jsou rozdělené do tříd a neznámé obrazy se přidělí do té třídy, kde se nachází obraz, od kterého má nejmenší vzdálenost (součet odchylek jednotlivých vektorů slova). Základní odlišnosti mezi slovy ovšem nejsou ve

spektrální části, ale v délce slov či vnitřních částech slova (hlásek). Problém se dá řešit lineární časovou normalizací obrazu, ta ale neovlivní rozdílné délky hlásek. Řešení přináší metoda DTW (dynamic time warping), česky dynamické borcení času. Tato funkce minimalizuje rozdíly mezi dvěma obrazy borcením časové osy jednoho z nich. Transformační funkce, která optimálně přizpůsobuje referenční slovo testovanému, je dána pomocí lokálních vzdáleností mezi body obrazů v rovině. Při výpočtu funkce DTW většinou uvažujeme testované příznaky podél horizontální osy a referenční podél osy vertikální. Lokální vzdálenosti se můžou jednoduše určit Z těchto vzdáleností můžeme udělat matici o rozměrech. R(j) R......... d(t,r) 3 d(,3) d(3,3)......... 2 d(,2) d(2,2) d(3,2)......... d(,) d(2,) d(3,)......... 2 3 4......... T O(i) Nyní spočítáme cesty uprostřed matice, které vedou z počátku do konce. Pro další výklad je vhodné zavést časovou proměnou, kde ukazuje délku porovnávací cesty a na ní závislé transformační funkce referenční sekvenci cesty, a testovanou sekvenci cesty.

Pro referenční i testovaný obraz musí být délka cesty stejná, i když jsou oba obrazy rozdílné velikosti. Příklad cesty funkce DTW a aplikace proměnné, ukazuje obrázek r(k) R 4 3 2 t(k) T 6 5 4 3 2 2 3 4 5 6 7 K k 2 3 4 5 6 7 K k Hledaná cesta je ta s minimální celkovou vzdáleností. Pro nalezení minima je nutno prozkoumat všechny možné cesty. Některé cesty jsou z důvodu nereálných zkreslení zkoumaných slov předem vyloučeny.

Lokální omezení Abychom se vyhnuli nadměrné kompresi nebo expanzi časového měřítka u porovnávacích obrazů, musíme na funkci DTW aplikovat omezení monotónnosti a souvislosti. kde, jsou kladná celá čísla. Jde vlastně o omezení délky kroku funkce DTW. Bude-li jedna z hodnot nebo rovna jedné, funkce nesmí v dané ose žádné segmenty vynechat. V praxi většinou necháváme funkci vynechávat za sebou maximálně dva segmenty. Problém může nastat i v případě, že bude funkce příliš strmá ve směru jedné z os. Proto se zavádí omezení strmosti. Pokud funkce bude postupovat ve směru pouze jedné osy krát za sebou, není jí dovoleno ve směru pokračovat, dokud nepostoupí krát ve směru jiném. R 5 4 3 2 k=2 k=3 k=4 k=6 k=5 k=7 K=8 k= 2 3 4 5 6 7 O

Globální vymezení cesty Aplikujeme-li lokální podmínky na celou rovinu, lze vymezit oblast přípustnou pro průchod cesty. Globální vymezení můžeme matematicky zapsat kde jsou směrnice přímky vymezující přípustnou oblast cesty. Další omezení vyplývá z předpokladu, že při porovnávání dvou obrazů, které reprezentují stejné slovo, nemůže dojít k zásadním časovým rozdílům mezi příslušnými úseky obou obrazců. Proto můžeme definovat jako vhodné celé číslo, které vytyčí maximální vzdálenost jednotlivých úseků porovnávaných obrazců. r (,R) (T,R) (,) (T,) t

Výpočet vzdálenosti Každá cesta je jednoznačně dána svou délkou, a průběhem funkcí a. Pro tuto cestu se vzdálenost mezi obrazy a vypočítá jako kde je vzdálenost dvou vektorů, je váha odpovídající -tému kroku cesty, je normalizační faktor závislý na vahách. Vzdálenost obrazů a je dána jako minimální vzdálenost ze všech možných cest Podle typu lokálního omezení, využíváme čtyři druhy váhových funkci normalizačních faktorů. a Typ funkce DTW α β Typ W(k) I a 0 d II a III b

Váhová funkce Typy funkcí a) symetrická váhová funkce 2 b) asymetrická váhová funkce b) 0 0 b2) c) váhová funkce minimální vzdálenosti kroku d) váhová funkce maximální vzdálenosti kroku

Normalizační faktor Tento faktor je zaveden, aby kompenzoval délku cesty funkce DTW. Je závislý na váhové funkci a můžeme ho spočítat jako Pro jednotlivé váhovací funkce přiřazujeme tyto faktory a) b) b) b2) Pro váhové funkce typu c) a d) se osvědčila volba faktoru nezávisle na průběhu funkce DTW

Postup zjištění optimální cesty funkce DTW Rozhodnutí o průběhu optimální cesty se nemusí dělat až na konci, ale můžeme postupovat minimální cestou již od začátku. Víme, z jakých předchozích bodů se do toho současného můžeme dostat (lokální omezení), proto můžeme od začátku vybírat jenom ty nejlepší varianty pro jednotlivé body. Na konci obou obrazců v bodě ( ), je pak k dispozici velikost cesty s nejmenší vzdáleností. Postup této metody je následující. Vytvoříme mřížku o rozměrech, do které zapíšeme vzdálenosti jednotlivých testovacích a referenčních vektorů. 2. Vytvoříme další mřížku částečných kumulovaných vzdáleností, která má k mřížce navíc nultý řádek a nultý sloupec, které inicializujeme na 3. Částečnou kumulovanou vzdálenost vypočítáme pro každý bod takto možní předchůdci jsou dáni pomocí tabulky lokálních omezení cesty. Váha odpovídá pohybu z předchůdce do bodu. 4. Konečná minimální vzdálenost mezi dvěma obrazy je pak dána

9..5 Funkce dtw Funkce dtw porovnává referenční slovo se slovem testovaným pomocí metody dynamického borcení času. Tato metoda je podrobněji popsána v odstavci 6.2. Vstupními parametry funkce jsou obrazy testovaného a referenčního slova, které obdržíme z funkce mfcc. Jednotlivé rámce obrazů jsou tedy reprezentovány kepstrálními koeficienty. Nejdříve si vytvoříme matici dd, kde na horizontální ose jsou uvedeny vektory rámců testovaného slova a na vertikální ose vektory rámců slova referenčního. Matici naplníme hodnotami rozdílu mezi patřičnými vektory obrazů. V další fázi definujeme matici gg, která bude mít oproti dd o jeden sloupec a jeden řádek více. Hodnoty v prvním sloupci a v prvním řádku definujeme jako nereálně velké, pouze hodnota na prvním řádku a prvním sloupci je rovna nule. Docílíme tak vytvoření jediného bodu, ze kterého můžou všechny cesty vycházet. Takovou matici gg vytvoříme pro každou použitou metodu lokálního omezení a budeme jí plnit nejmenšími hodnotami z možných cest omezení tak, že sečteme hodnotu v bodě, ze kterého vycházíme, s hodnotou v bodě, do kterého směřujeme. Velký pozor si ale musíme dát na fakt, že hodnoty matice gg jsou vždy posunuty o jeden sloupec a jeden řádek výše, než jim příslušné hodnoty matice dd. Počítáme-li tedy hodnotu v bodě gg[3,2], musíme sečíst hodnotu z pozice, ze které cesta do tohoto bodu vychází s hodnotou uloženou v matici dd na pozici dd[2,]. Minimální vzdálenost mezi obrazy referenčního a testovaného slova pak udává hodnota v posledním řádku a posledním sloupci matice gg. Protože druhá a třetí metoda lokálního omezení se pohybuje o dvě pozice v každém směru, je potřeba definovat i počáteční podmínky pro druhý sloupec i řádek. U třetí metody je navíc vytvořena podmínka, kdy cesta nemůže jít dvakrát za sebou jenom v horizontálním směru. Na závěr celkovou vzdálenost pro každou metodu vydělíme příslušnou normalizační hodnotou. Použité metody lokálního omezení a k nim příslušné hodnoty jsou uvedeny v Tabulce. Jako výstupní parametry jsou uvedeny nejen hodnoty vzdáleností ale i výsledné matice gg pro každé omezení. function[d,d2,d3,g,g2,g3]=dtw(ref,test), [koef_test,ramce_test] = size(test); % Zjištění rozměrů testované matice [koef_ref,ramce_ref] = size(ref); % Zjištění rozměrů referenční matice d = zeros(ramce_ref,ramce_test); % inicializace matice vzdáleností %% naplnění matice d for n=ramce_ref, % pro každý referenční rámec for m=ramce_test, %pro každý testovaný rámec d(n,m) = sum(abs(ref(,n)-test(,m))); %rozdíl mezi referenčním a testovaným rámcem end end g = zeros(ramce_ref+,ramce_test+); % předdefinování matice postupného součtu vzdáleností g(,)=e4; % definujeme omezení cesty g(,)=e4; % definujeme omezení cesty g(,)=0; % jediný výchozí bod g2 = g; % matice vzdáleností pro druhou metodu lokálního omezení g3 = g; % matice vzdáleností pro třetí metodu lokálního omezení er = zeros(ramce_ref+,ramce_test+); % podmínka aby nedošlo k vícenásobnému opakováni segmentu %% naplnění matic g 5

Další zdroje literatury Diplomová práce,,rozpoznání slov diskrétního diktátu - Bc. Miloslav Kočí Upa Zpracování řečových signálů - studijní opora, Fakulta informačních technologií, Vysoké učení technické v Brně - Honza Černocký PSUTKA, Josef. 995. Komunikace s počítačem mluvenou řečí. Praha Academia Praha, 995. ISBN 80-200-0203-0. PSUTKA, Josef, a další. 2006. Mluvíme s počítačem česky. Praha Academia Praha, 2006. ISBN- 80-200-309-.