Semestrální práce: Rozpoznání hláskované řeči a převedení na text

Podobné dokumenty
Klasifikace Landau-Kleffnerova syndromu

Rozpoznávání izolovaných slov (malý slovník, např. číslovky, povely).

7 Další. úlohy analýzy řeči i a metody

SRE 03 - Statistické rozpoznávání

Pokročil. Vyučující: Prof. Ing. Jan Nouza, CSc., ITE

Speciální struktury číslicových systémů ASN P12

ADA Semestrální práce. Harmonické modelování signálů

Rozpoznávání písmen. Jiří Šejnoha Rudolf Kadlec (c) 2005

TSO NEBO A INVARIANTNÍ ROZPOZNÁVACÍ SYSTÉMY

Klasifikace hudebních stylů

Normalizace textu. Text to Speech, TTS Konverze textu do mluvené podoby. Pavel Cenek, Aleš Horák. Obsah: Související technologie

JAK LZE VYUŽÍT GRAFICKÉHO ZOBRAZENÍ AKUSTICKÉHO SIGNÁLU PŘI VÝUCE JAZYKA A SPRÁVNÉ VÝSLOVNOSTI

Stavový model a Kalmanův filtr

Dobývání znalostí. Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze

Petr Zlatník, Roman Čmejla. Katedra teorie obvodů, Fakulta elektrotechnická, ČVUT, Praha. Abstrakt

Náhodné signály. Honza Černocký, ÚPGM

Agent pracující v částečně pozorovatelném prostředí udržuje na základě senzorického modelu odhaduje, jak se svět může vyvíjet.

Předmět: Český jazyk. hlasité čtení, praktické čtení. hlasité i tiché čtení s porozuměním

Pavel Cenek, Aleš Horák

Kapitola 4: Extrémy funkcí dvou proměnných 1/5

Faculty of Nuclear Sciences and Physical Engineering Czech Technical University in Prague

Úloha: Verifikace osoby pomocí dynamického podpisu

Implementace Bayesova kasifikátoru

Český jazyk a literatura

algoritmus»postup06«p e t r B y c z a n s k i Ú s t a v g e o n i k y A V

Rekurentní filtry. Matlab

Dotazy tvorba nových polí (vypočítané pole)

ROZPOZNÁVÁNÍ S MARKOVSKÝMI MODELY

ROZPOZNÁNÍ TITULU GRAMOFONOVÉ DESKY PODLE KRÁTKÉ UKÁZKY

Výhody a nevýhody jednotlivých reprezentací jsou shrnuty na konci kapitoly.

Testování hypotéz. Testování hypotéz o rozdílu průměrů t-test pro nezávislé výběry t-test pro závislé výběry

3 METODY PRO POTLAČENÍ ŠUMU U ŘE- ČOVÉHO SIGNÁLU

Úvod do praxe stínového řečníka. Automatické rozpoznávání řeči

Globální extrémy. c ÚM FSI VUT v Brně. 10. ledna 2008

, Brno Hanuš Vavrčík Základy statistiky ve vědě

Algoritmizace. 1. Úvod. Algoritmus

Základy algoritmizace. Pattern matching

Statistická teorie učení

STANOVENÍ CHARAKTERU SEGMENTU ŘEČI S VYUŽITÍM REÁLNÉHO KEPSTRA

český jazyk a literatura

Trénování sítě pomocí učení s učitelem

VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ BRNO UNIVERSITY OF TECHNOLOGY

český jazyk a literatura

Ilustrační příklad odhadu LRM v SW Gretl

UČENÍ BEZ UČITELE. Václav Hlaváč

REGRESNÍ ANALÝZA V PROSTŘEDÍ MATLAB

obhajoba diplomové práce

Ultrazvukový detektor úniku plynu GM. Jak rychle váš systém detekce plynu detekuje úniky? Protože každý život má smysl...

Profilování vzorků heroinu s využitím vícerozměrné statistické analýzy

Ročník II. Český jazyk. Období Učivo téma Metody a formy práce- kurzívou. Kompetence Očekávané výstupy. Průřezová témata. Mezipřed.

Program Statistica Base 9. Mgr. Karla Hrbáčková, Ph.D.

Markovské procesy. příklad: diabetický pacient, hladina inzulinu, léky, jídlo

Zvuková karta. Zvuk a zvuková zařízení. Vývoj, typy, vlastnosti

PHP tutoriál (základy PHP snadno a rychle)

Reranking založený na metadatech

Semestrální práce z předmětu Matematika 6F

Jednofaktorová analýza rozptylu

Testování hypotéz. 1. vymezení základních pojmů 2. testování hypotéz o rozdílu průměrů 3. jednovýběrový t-test

Tvorba krátkého videofilmu

LPC. Jan Černocký ÚPGM FIT VUT Brno, FIT VUT Brno. LPC Jan Černocký, ÚPGM FIT VUT Brno 1/39

Testování hypotéz. Testování hypotéz o rozdílu průměrů t-test pro nezávislé výběry t-test pro závislé výběry

Zpráva pro školu z evaluačního nástroje Strategie učení se cizímu jazyku

Regrese. 28. listopadu Pokud chceme daty proložit vhodnou regresní křivku, musíme obvykle splnit tři úkoly:

Dynamický podpis. vycházející z přednášek Dr. Andrzej Drygajlo,

Semestrální práce KIV/PC Řešení kolizí frekvencí sítě vysílačů Zdeněk Bečvář A14B0466P 10. ledna 2016

Virtuální elektrody v kochleárních implantátech Nucleus 24

Střední průmyslová škola a Vyšší odborná škola, Hrabákova 271, Příbram. III / 2 = Inovace a zkvalitnění výuky prostřednictvím ICT

ZÁKLADY PROGRAMOVÁNÍ. Mgr. Vladislav BEDNÁŘ /14

Iterační výpočty. Dokumentace k projektu č. 2 do IZP. 24. listopadu 2004

DTW. Petr Zlatník, Roman Čmejla. Abstrakt: Příspěvek popisuje metodu, která byla vyvinuta pro vyhodnocení

aneb jiný úhel pohledu na prvák

cyklus s daným počtem opakování cyklus s podmínkou na začátku (cyklus bez udání počtu opakování)

IB111 Úvod do programování skrze Python

Strukturální regresní modely. určitý nadhled nad rozličnými typy modelů

TECHNICKÁ UNIVERZITA V LIBERCI

Markov Chain Monte Carlo. Jan Kracík.

1. Vlastnosti diskretních a číslicových metod zpracování signálů... 15

1. Přednáška. Ing. Miroslav Šulai, MBA

VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ FAKULTA ELEKTROTECHNIKY A KOMUNIKAČNÍCH TECHNOLOGIÍ ÚSTAV RADIOELEKTRONIKY

Lekce 01 Úvod do algoritmizace

7. ODE a SIMULINK. Nejprve velmi jednoduchý příklad s numerických řešením. Řešme rovnici

Magnetické vlastnosti materiálů - ukázky. Příklad č.2. Konstrukční ocel tř

SEMESTRÁLNÍ PRÁCE Z X37SAS Zadání č. 7

Klasifikace a rozpoznávání. Bayesovská rozhodovací teorie

v Praze mezi kanály EEG Ondřej Drbal 5. ročník, stud. sk. 9

escribe: Online přepisovací centrum pro neslyšící

markov-midi Automatický generátor MIDI souborů podle vzoru Vít Novotný

Synth challange 2016

Algoritmizace Dynamické programování. Jiří Vyskočil, Marko Genyg-Berezovskyj 2010

Diskrétní náhodná veličina

VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ

VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ FAKULTA ELEKTROTECHNIKY A KOMUNIKAČNÍCH TECHNOLOGIÍ ÚSTAV RADIOELEKTRONIKY

II. Úlohy na vložené cykly a podprogramy

EVIDENČNÍ FORMULÁŘ. FTVS-UK evidence VaV výsledků nepodléhající řízení o zápisu u ÚPV v Praze

Nelineární rovnice. Numerické metody 6. května FJFI ČVUT v Praze

3. Vícevrstvé dopředné sítě

J. Tatarinov, P. Pollák. Fakulta elektrotechnická. Abstrakt. otestován a zhodnocen na signálech z databáze CAR2CS. Detektor využívající

VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ FAKULTA STROJNÍHO INŽENÝRSTVÍ

Semestrální práce z KIV/PC. Kolja Matuševský (A14B0310P)

ČESKÉ VYSOKÉ UČENÍ TECHNICKÉ V PRAZE

Transkript:

VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ Fakulta strojního inženýrství Ústav mechaniky těles, mechatroniky a biomechaniky Technická 2, Brno 616 69 RSZ Základy zpracování signálu Semestrální práce: Rozpoznání hláskované řeči a převedení na text Libor Příleský (4O/99) y125788@stud.fme.vutbr.cz liborprilesky@gmail.com Autor: Libor Příleský Datum: 25.9.2012

Obsah 1 Zadání...3 2 Rešerše...3 2.1. Metody...3 2.2. Výsledek rešerše...3 3 Vypracování...4 3.1. Rozdělení nahrávky na písmena...4 3.2. Samotný algoritmus porovnávání...4 4 Závěr...5 5 Reference...5 2

1 Zadání Úkolem tohoto semestrálního projektu je vytvořit skript v matlabu, který bude zpracovávat mluvenou řeč. Konkrétně bude fungovat tak, že si načte z disku nahrávku, na které bude vyhláskované slovo. Tuto nahrávku rozseká na jednotlivá písmena, ty porovná s uloženou abecedou, najde největší shodu a vypíše písmenka, která jsou nejpodobnější těm v nahrávce. 2 Rešerše Metoda rozpoznávání řeči je často velmi citlivá na rozdíly v intonaci i výslovnosti. Rozpoznávání řeči může být jednak závislé na mluvčím (SD - Speaker Depent) či na mluvčím nezávislé (SI - Speake Indepent). Systémy, které jsou závislé na mluvčím dosahují pro danou osobu lepších výsledků, ale jejich nevýhodou je, že mluvčí musí namluvit několik hodin nahrávek, aby bylo možné natrénovat dobré modely. 2.1. Metody Mezi základní metody adaptace patří metody MAP (Maximum a posteriori estimation - Maximální Aposteriorní Pravděpodobnost), MLLR (Maximum Likelihood Linear Regression) a jejich různé variace. Pro počítačové rozpoznání řeči se využívá algoritmu HMM (Hidden Markov Model - Skryté Markovovské Modely). Tento model je statistický Markovovský model, který obsahuje skryté stavy. HMM se používají v rozpoznávání řeči, protože řečový signál může být chápán jako po částech stacionární signál, nebo po krátkých časových úsecích stacionární signál. V krátkém čase (např. 10 ms), může být řeč aproximována jako stacionární proces. Pro rozpoznávání se často používá Viterbiho algoritmus. Další využívanou metodou je metoda DTW (Dynamic Time Warping - Dynamické Borcení Času). Tato metoda je vhodná pro rozpoznávání izolovaných slov (například pro hlasové ovládání počítače), protože je zapotřebí mít ve slovníku uloženou modelovou nahrávku každého použitého slova. Metoda měří podobnost mezi dvěma nahrávkami slov (popřípadě slovních spojení) a snaží se najít nejlepší shodu - určité úseky zkracuje či prodlužuje tak, aby byl rozdíl mezi nahrávkami co nejmenší. 2.2. Výsledek rešerše Z uvedených metod jsem si vybral metodu DTW. Ta by měla být vhodná pro rozpoznávání izolovaných hlásek. Algoritmus bude pravděpodobně dobře fungovat jen na můj hlas, protože porovnávací abeceda bude namluvena mnou a všechny konstanty budou nastaveny na můj hlas. Takže metoda bude SD speaker depent. 3

3 Vypracování 3.1. Rozdělení nahrávky na písmena Na začátku nahrávku nahrajeme a vyfilrujeme pásovou propustí, aby nám zůstaly jen frekvence odpovídající lidské řeči (cca. 300Hz 3,5 khz). [y, Fs, nbits] = wavread('raw_nahravky/bernard.wav'); y_fil = filter(bandpass, y(:,1)); Dále potřebujeme určit hranice jednotlivých písmen. To se na první pohled zdálo jednoduché, ale ve skutečnosti to tak jednoduché nebylo. V prvé řadě je důležité použít dobrý mikrofon a mít velké signal to noise ratio. Signál upravíme tak, aby byly více odlišeny jednotlivé slova a potom to projdeme cyklem, zjistíme, na kterém místě slovo začíná a končí a podle toho jej vyřízneme z vyfiltrovaných dat. index = 0.015; %hranicni index pro rozpoznavani slov for i= 2:length(Prms) if (Prms(i) > index && Prms(i-1) <= index) start = i; if (Prms(i) <= index && Prms(i-1) > index) stop = i; if (start ~= 0 && stop ~= 0) %kdyz mam vybrany zacatek a konec %Pokud je to dost dlouhe na pismeno if (length(y_fil(start:stop)) > 5000) num = num +1; unknowns{num} = y_fil(start:stop); %vyberu usek,kde si myslim, ze je pismenko start = 0; % vynuluju indexy stop = 0; 3.2. Samotný algoritmus porovnávání Nejprve si uděláme spektrogram obou vzorků. Potom sestavíme matici, která vyjadřuje lokální shodu obou vzorků. Pak najdeme cestu, která vede diagonálně přes tuto matici, která spojuje místa s největší shodou. Potom se vypočítá koeficient podobnosti, který se pak porovnává mezi vzorky a vzorek s nejmenší hodnotou se shoduje nejvíce. Tento algoritmus pak již jen vložíme do dvou vnořených cyklů a rozpoznávání písmen je hotovo. Viz. Přiložený m-file. 4

4 Závěr Při práci na tomto projektu jsem zjistil, že to s rozpoznáváním řeči není tak jednoduché, jak by se mohlo zdát. Při hláskování totiž záleží, v jaké podobě je nahrána vzorová abeceda a jak je vyhláskováno slovo, které chceme rozpoznat. Je totiž rozdíl mezí bééé a b apod. Toto má velký vliv na výsledek. Proto se musíme snažit slovo vyhláskovat stejným zpúsobem, jakým je vyhláskována abeceda. To je rozdíl oproti rozpoznávání slov, kdy to slovo řekne vždy zhruba stejně, lišit se může jen rychlost, s jakou slovo vyslovíte a s tímto algoritmus DTW počítá. Při testování algoritmu jsem dosáhl uspokojivých výsledků: AHOJ rozkódoval jako AAOJ BERNARD rozkódoval bez chyby JAK TO DE rozkódoval jako JAK KO DE Tyto výsledky předčili mé očekávání. Na rozpoznávání řeči se pracují teamy inženýrů už posledních cca. 30 let a teprve nedávno Google dosáhl uspokojivého převodu mluvené řeči na text. Proto jsem se svými výsledky spokojen. 5 Reference D. Ellis (2003). Dynamic Time Warp (DTW) in Matlab available: http://www.ee.columbia.edu/~dpwe/resources/matlab/dtw/. (15.12.2012) 5