KLASIFIKÁTOR IZOLOVANÝCH SLOV NA BÁZI UMĚLÉ NEURONOVÉ SÍTĚ



Podobné dokumenty
KLASIFIKÁTOR MODULACÍ S VYUŽITÍM UMĚLÉ NEURONOVÉ SÍTĚ

Z OBRAZOVÉHO ZÁZNAMU. Jan HAVLÍK. Katedra teorie obvodů, Fakulta elektrotechnická

WEBDISPEČINK NA MOBILNÍCH ZAŘÍZENÍCH PŘÍRUČKA PRO WD MOBILE

Algoritmizace a programování

Neuronová síť. x 2 x 3. σ j. x 4. x 5. Menu: QCExpert Prediktivní metody

VYUŽITÍ NEURONOVÝCH SÍTÍ PROSTŘEDÍ MATLAB K PREDIKCI HODNOT NÁKLADŮ PRO ELEKTRICKÉ OBLOUKOVÉ PECE

5. VZORKY. Obsah. 5.1 Vzorky 5. VZORKY 52

METODIKA PRO NÁVRH TEPELNÉHO ČERPADLA SYSTÉMU VZDUCH-VODA

Požární odolnost ocelobetonových stropů

Fraktální analýza tiskových struktur

Čl. 3 Poskytnutí finančních prostředků vyčleněných na rozvojový program Čl. 4 Předkládání žádostí, poskytování dotací, časové určení programu

Příloha č. 54. Specifikace hromadné aktualizace SMS-KLAS

Uživatelská dokumentace

ŘÁD UPRAVUJÍCÍ POSTUP DO DALŠÍHO ROČNÍKU

Obchodní podmínky pro spolupráci se společností Iweol EU s.r.o.

ZVYŠOVÁNÍ ODOLNOSTI PROTI NÁHLÝM ZMĚNÁM TEPLOTY U NÍZKOCEMENTOVÝCH ŽÁROBETONŮ

M. Balíková, R. Záhořík, NK ČR 1

54_2008_Sb 54/2008 VYHLÁŠKA. ze dne 6. února 2008

Katedra obecné elektrotechniky Fakulta elektrotechniky a informatiky, VŠB - TU Ostrava 16. ZÁKLADY LOGICKÉHO ŘÍZENÍ

Rychnov nad Kněžnou. Trutnov VÝVOJ BYTOVÉ VÝSTAVBY V KRÁLOVÉHRADECKÉM KRAJI V LETECH 1998 AŽ

Projekt: Inovace oboru Mechatronik pro Zlínský kraj Registrační číslo: CZ.1.07/1.1.08/

Elektrická měření 4: 4/ Osciloskop (blokové schéma, činnost bloků, zobrazení průběhu na stínítku )

Model dvanáctipulzního usměrňovače

Veletrh. Obr Měřeni účinnosti ohřevu. Oldřich Lepil, Přírodovědecká fakulta UP Olomouc

PROGRAM PRO POSKYTOVÁNÍ DOTACÍ Z ROZPOČTU KARLOVARSKÉHO KRAJE ODBORU KULTURY, PAMÁTKOVÉ PÉČE, LÁZEŇSTVÍ A CESTOVNÍHO RUCHU

Ústav fyziky a měřicí techniky Laboratoř chemických vodivostních senzorů. Měření elektrofyzikálních parametrů krystalových rezonátorů

Číslicová technika 3 učební texty (SPŠ Zlín) str.: - 1 -

Návrh rotujícího usměrňovače pro synchronní bezkroužkové generátory výkonů v jednotkách MVA část 1

1.11 Vliv intenzity záření na výkon fotovoltaických článků

Prostorová akustika. Akce: Akustické úpravy nové učebny č.01 ZŠ Líbeznice, Měšická 322, Líbeznice. akustická studie. Datum: prosinec 2013

Semestrální práce z předmětu mobilní komunikace na téma: Bezdrátové optické sítě

6. HODNOCENÍ ŽÁKŮ A AUTOEVALUACE ŠKOLY

PARAMETRICKÁ STUDIE PRŮBĚHU RYCHLOSTI PROUDĚNÍ V PULTOVÉ DVOUPLÁŠŤOVÉ PROVĚTRÁVANÉ STŘEŠE NA VSTUPNÍ RYCHLOSTI

120/2002 Sb. ZÁKON. ze dne 8. března o podmínkách uvádění biocidních přípravků a účinných látek na trh a o změně některých souvisejících zákonů

VY_62_INOVACE_VK64. Datum (období), ve kterém byl VM vytvořen Červen 2012

Ėlektroakustika a televize. TV norma ... Petr Česák, studijní skupina 205

Inovace a zkvalitnění výuky prostřednictvím ICT. Tváření. Název: Přesný střih. Téma: Ing. Kubíček Miroslav. Autor:

Technická zpráva SO-05 Zastřešené jeviště - stavební část

Příloha č. 3 VÝKONOVÉ UKAZATELE

Kreativní malování. s dětmi. Dana Cejpková

LED svítidla - nové trendy ve světelných zdrojích

29 Evidence smluv. Popis modulu. Záložka Evidence smluv

KOMISE EVROPSKÝCH SPOLEČENSTVÍ

NÁVRHOVÝ PROGRAM VÝMĚNÍKŮ TEPLA FIRMY SECESPOL CAIRO PŘÍRUČKA UŽIVATELE

INTERNETOVÝ TRH S POHLEDÁVKAMI. Uživatelská příručka

Vyvažování tuhého rotoru v jedné rovině přístrojem Adash Vibrio

Modely rozvrhování produkce s využitím Matlabu

Antény. Zpracoval: Ing. Jiří. Sehnal. 1.Napájecí vedení 2.Charakteristické vlastnosti antén a základní druhy antén

Memoria Mundi Series Bohemica z trezoru na Internet

NÚOV Kvalifikační potřeby trhu práce

STATUTÁRNÍ MĚSTO ÚSTÍ NAD LABEM Adresa: Magistrát města Ústí nad Labem; Velká Hradební 2336/8; Ústí nad Labem; Tel.

Aplikované úlohy Solid Edge. SPŠSE a VOŠ Liberec. Ing. Jiří Haňáček [ÚLOHA 03 VYSUNUTÍ TAŽENÍM A SPOJENÍM PROFILŮ.]

MS měření teploty 1. METODY MĚŘENÍ TEPLOTY: Nepřímá Přímá - Termoelektrické snímače - Odporové kovové snímače - Odporové polovodičové

1. DÁLNIČNÍ A SILNIČNÍ SÍŤ V OKRESECH ČR

TWINNING PROJEKT CZ01/IB-EN-01

21 SROVNÁVACÍ LCA ANALÝZA KLASICKÝCH ŽÁROVEK A KOMPAKTNÍCH ZÁŘIVEK

Tel/fax: IČO:

Repeatery pro systém GSM

Mikromarz. CharGraph. Programovatelný výpočtový měřič fyzikálních veličin. Panel Version. Stručná charakteristika:

Výzva zájemcům k podání nabídky a Zadávací dokumentace

1. LINEÁRNÍ APLIKACE OPERAČNÍCH ZESILOVAČŮ

Tlačítkový spínač s regulací svitu pro LED pásky TOL-02

Modul Řízení objednávek.

Programový komplet pro evidence provozu jídelny v modul Sklad Sviták Bechyně Ladislav Sviták hotline: 608/

KATALOGY PROTECH. Dialogové okno obsahuje seznamy Katalogy editace, Katalogy výběr a seznam Tabulky.

TECHNICKÁ DOKUMENTACE NA PC

Školní kolo soutěže Mladý programátor 2016, kategorie A, B

Trvanlivosti břitů HSS nástrojů nové generace při frézování slitiny Ti6Al4V

NÁVOD K OBSLUZE MODULU VIDEO 64 ===============================

Ukázka knihy z internetového knihkupectví

Komutace a) komutace diod b) komutace tyristor Druhy polovodi ových m Usm ova dav

PŘIJÍMACÍ ŘÍZENÍ. Strana

Průzkum veřejného mínění věcné hodnocení

MATEMATIKA A BYZNYS. Finanční řízení firmy. Příjmení: Rajská Jméno: Ivana

DYNAMICKÉ VÝPOČTY PROGRAMEM ESA PT

Výpočet dotace na jednotlivé druhy sociálních služeb

OBEC PETKOVY, okres Mladá Boleslav. Obecně závazná vyhláška obce Petkovy č. 1/2013

Provoz a poruchy topných kabelů

Orientační průvodce mateřstvím a rodičovstvím v zadávacích dokumentacích poskytovatele

Podpora výroby elektřiny z biomasy a bioplynu (z pohledu ERÚ) Petr Kusý Odbor elektroenergetiky Energetický regulační úřad

VLÁDA ČESKÉ REPUBLIKY. Příloha k usnesení vlády ze dne 13. února 2013 č Stanovisko

QRS DETEKTOR V PROSTŘEDÍ SIMULINK

Město Mariánské Lázně

Výstavba víceúčelových sportovních zařízení Stavební práce Předpokládaná hodnota VZ (v Kč bez DPH):

Pravidla. používání Národního elektronického nástroje při realizaci zadávacích postupů prostřednictvím národního elektronického nástroje

VYUŽITÍ MATLABU PŘI NÁVRHU FUZZY LOGICKÉHO REGULÁTORU. Ing. Aleš Hrdlička

V Černošicích dne Výzva k podání nabídky na veřejnou zakázku malého rozsahu s názvem: Nákup a pokládka koberců OŽÚ.

účetních informací státu při přenosu účetního záznamu,

-1- N á v r h ČÁST PRVNÍ OBECNÁ USTANOVENÍ. 1 Předmět úpravy

I N V E S T I C E D O R O Z V O J E V Z D Ě L Á V Á N Í

6. Příklady aplikací Start/stop Pulzní start/stop. Příručka projektanta VLT AQUA Drive

EDSTAVENÍ ZÁZNAMNÍKU MEg21

PARLAMENT ČESKÉ REPUBLIKY Poslanecká sněmovna 2005 IV. volební období

Škola VOŠ a SPŠE Plzeň, IČO , REDIZO

Zajištění stavební jámy. akreditovaný program N/05 PŘÍPRAVA A REALIZACE STAVEB

D o h o d a. o s o u č i n n o s t i

STÍRÁNÍ NEČISTOT, OLEJŮ A EMULZÍ Z KOVOVÝCH PÁSŮ VE VÁLCOVNÁCH ZA STUDENA

Návod k používání registračního systému ČSLH

Vyhlášení opakované veřejné soutěže 1/6

Budování aplikačních rozhraní pro obousměrnou komunikaci mezi ERMS a jejich vztah k Národnímu standardu pro komunikaci mezi ERMS.

Transkript:

KLASIFIKÁTOR IZOLOVANÝCH SLOV NA BÁZI UMĚLÉ NEURONOVÉ SÍTĚ David Juráček PČR MŘ Brno Abstrakt V příspěvku je demonstrováno využití umělé neuronové sítě pro klasifikaci izolovaných slov od vybrané skupiny řečníků V programovém prostředí MATLAB byl sestaven klasifikátor izolovaných slov na bázi umělé neuronové sítě Experimentálním způsobem byl stanoven optimální počet neuronů ve struktuře klasifikátoru Veškeré výpočty s vyjímkou nahrání a digitalizace vzorků řeči byly provedeny v programovém prostředí MATLAB Úvod Analýza řečových signálů [] je v současnosti dynamicky rozvíjející se součást oblasti zpracování signálu Vzhledem k velkému množství různých variant vyjádření stejného obsahu řeči a skutečnosti, že způsob rozpoznávání řečového signálu člověkem není v současnosti jednoznačně popsán, tvoří analýza řeči jednu z vhodných oblastí použití umělých neuronových sítí Koncepce klasifikátoru řeči Na základě poznatků publikovaných v [,,,, 6, 7] byla navržena originální koncepce klasifikátoru řeči pro rozpoznávání jednotlivých mluvčích Klasifikátor řeči se skládá z těchto šesti bloků: () blok pro analogové předzpracování vzorku řeči, () A/D převodník, () blok preemfáze, () blok segmentace Hammingovým oknem, () blok pro extrakci charakteristických příznaků řeči (6) klasifikátor na bázi umělé neuronové sítě Blokové schéma klasifikátoru řeči je uvedeno na obr Obr : Blokové schéma klasifikátoru řeči Nyní si stručně nastíníme význam jednotlivých bloků klasifikátoru řeči Analogové předzpracování Pro správnou funkci klasifikátoru je žádoucí, aby ve vzorcích řečového signálu nebyly obsaženy rušivé signály Velikost poměru výkonu signálu k šumu má významný vliv na chybovost rozpoznávání V rámci tohoto bloku je možné vyhodnotit úroveň šumu v signálu a následně provést korekci např metodou spektrálního odečítání, případně zvolit metodu parametrizace odolnější vůči šumu Analogově digitální převodník (ADC) Analogově digitální převodník je nutno volit s ohledem na požadavky rozpoznávání řeči Na rozpoznávání obsahu řečových signálů postačí nižší hodnoty vzorkovacího kmitočtu (f vz ) a kvantovacích úrovní Obvykle se setkáme s hodnotami f vz v rozmezí (8 ) khz a kvantování přibližně (8 ) bity V případě diagnostiky řečových orgánů se požadavky na ADC zvýší na hodnoty f vz ~ khz a kvantování až 6 bity

Preemfáze Z charakteristik spektrální výkonové hustoty řeči vyplývá poznatek, že tato křivka dosahuje maxim v okolí Hz pro mužský hlas a přibližně v Hz pro hlas ženský V úseku v rozmezí až Hz se nachází převážná část energie podstatná pro rozpoznání řeči Vzhledem k poklesu úrovně spektrální výkonové hustoty řečového signálu, zaznamenané od kmitočtu Hz se sklonem přibližně 6 db na oktávu, se tato disproporce v systémech pro zpracování řeči odstraňuje zařazením korekčního článku typu preemfáze Hammingovo okno Pro analýzu řečových signálů se jako nejvýhodnější funkce pro účely segmentace jeví tzv Hammingovo okno [] Volbou okna s výrazným potlačením postranních laloků v modulu kmitočtového spektra váhovací funkce dosáhneme lepší potlačení periodicky se opakujících složek analyzovaného signálu Optimálních výsledků lze dosáhnout vhodnou volbou překryvu oken Extrakce charakteristických příznaků řeči Na základě rozboru a analýzy typických charakteristik řeči a na základě poznatků uvedených v [, ] byla pro extrakci charakteristických příznaků řeči zvolena melfrekvenční cepstrální analýza V programovém prostředí Matlab byl sestaven algoritmus pro výpočet -ti melfrekvenčních cepstrálních koeficientů (MFCC) Příklad průběhu MFCC pro izolované slovo je uveden na obr Spektrogram slova dobrý řečníka č MFCC slova dobrý řečníka č MFCC slova dobrý řečníka č MFCC slova dobrý řečníka č Obr : Průběh melfrekvenčních cepstrálních koeficientů a spektrogramu klíčového slova dobrý pro tři řečníky

Na zobrazených grafech je zajímavé povšimnout si u stejného izolovaného slova (od různých řečníků) velmi podobných hodnot MFCC Tato zobrazení potvrdila předpoklad, že zvolená metoda analýzy řeči dosahuje relativně dobrých výsledků v rozpoznávání obsahu řeči, neboť částečně odstraňuje závislost na individuálním charakteru řečníka Klasifikátor na bázi umělé neuronové sítě Pro účely klasifikace řeči je možno zvolit různé topologie neuronových sítí Dopředné neuronové sítě typu backpropagation jsou používány zejména v aplikacích predikce a klasifikace [, 6, 7] Dle doporučení uvedených v [,, 6, 7] byl sestaven klasifikátor izolovaných slov, který je tvořen umělou neuronovou sítí typu backpropagation Umělá neuronová síť je tvořena čtyřmi vrstvami neuronů Vstupní vrstva má pět neuronů, které odpovídají počtu pro klasifikaci zvoleným MFCC, v první skryté vrstvě má neuronová síť osm neuronů, deset neuronů se nachází v druhé skryté vrstvě a výstupní vrstvu tvoří počet neuronů odpovídající počtu klasifikovaných klíčových slov Topologie neuronové sítě pro klasifikátor izolovaných slov je uvedena na obr Ve vstupní vrstvě je použito pět konkrétních hodnot MFCC, výstupní vrstvu tvoří osm neuronů, což odpovídá počtu klasifikovaných slov (osmý je neznámý) MFCC Vstupní vrstva m m m m r I Skrytá vrstva II Skrytá vrstva n n n n o Identifikace mluvčího č č č neznámý Obr : Struktura dopředné umělé neuronové sítě pro identifikaci izolovaných slov Pro strukturu umělých neuronové sítě z obr byla vytvořena trénovací množina Trénovací množina se skládá z matice cílů (izolovaná slova) a matice příznaků (zvolené MFCC) Příklad struktury trénovací množiny je naznačen na obr

n- n P Ř Í Z N A K Y MFCC C Í L E A h o j A n o N a s h l e d a n o u N e Výsledky experimentu Obr : Příklad struktury trénovací množiny pro izolovaná slova Pro experimentální ověření činnosti klasifikátoru izolovaných slov na bázi umělé neuronové sítě byla zvolena nejčastěji vyskytující se slova v běžné české mluvě (ahoj, ano, dobrý, den, dobrý den, nashledanou, ne) Byla provedena klasifikace těchto sedmi izolovaných slov od sedmi mluvčích, z nichž byly čtyři vzorky řeči od mužů a tři od žen Výsledky klasifikace izolovaných slov jsou uvedeny v tab Tab : Výsledky klasifikace izolovaných slov od sedmi mluvčích Slovo Ahoj Ano Dobrý Den Dobrý den Nashledanou Ne Celkem úspěšnost 6,6 % 7 %, % 6, %,8 %,8 % 6,6 %,6 % Dále byla experimentálně sledována úspěšnost klasifikace izolovaných slov pro jednotlivé mluvčí Výsledky experimentu jsou uvedeny v tab Tab : Úspěšnost klasifikace izolovaných slov pro jednotlivé mluvčí Řečník Muž Muž Muž Muž Žena Žena Žena Celkem úspěšnost 67, % 99,7 % 7,7 % 7,7 % 87,7 % 67, % 8,86 % 7,7 % Z výsledků experimentu vyplývá, že v případě klasifikace klíčových slov bylo dosaženo větší úspěšnosti než v případě rozpoznávání mluvčího s využitím klíčových slov Tato skutečnost byla před provedením pokusů samotných předpokládána, a to zejména ze dvou důvodů Důvodem prvním je systém skladby trénovací množiny Při klasifikaci klíčových slov bylo zpočátku dosaženo výsledků o přibližně ( ) % horších, než v prezentovaném případě Zlepšení bylo dosaženo změnou systému skladby trénovací množiny

Dalším důvodem je, že melfrekvenční cepstrální analýza do značné míry odstraňuje závislost vlastního obsahu řeči na individuálním charakteru projevu, určitá zbytková závislost však zůstane zachována Nižší percentuální hodnoty dosažených výsledků této skutečnosti nasvědčují Ve vstupní vrstvě je použito pět konkrétních hodnot MFCC, výstupní vrstvu tvoří osm neuronů, což odpovídá počtu klasifikovaných slov Demonstrace činnosti klasifikátoru v programovém prostředí Matlab Aby bylo možné demonstrovat činnost klasifikátoru izolovaných slov na bázi neuronové sítě, bylo navrženo programové rozhraní v programovém prostředí Matlab (obr ) Toto programové rozhraní bylo vytvořeno v rámci řešení projektu [8] Navržené rozhraní je využíváno pro účely výuky studentů na Univerzitě obrany Obr Programové rozhraní pro klasifikaci izolovaných slov V levé horní části zobrazeného okna je možno volit parametry sítě a tréninku Naprogramovány jsou varianty tří, čtyř a pětivrstvých neuronových sítí (s jednou, dvěma, třemi skrytými vrstvami) Popup menu v levé horní části volíme počet vrstev sítě Nižší tři popup menu slouží k volbě počtu neuronů ve skrytých vrstvách sítě Pod těmito volbami se nachází pětice editačních oken, kde je možno zadat (měnit) parametry tréninku umělé neuronové sítě V závorkách jsou uvedeny orientační meze volby, ve kterých má trénink sítě smysl nastavovat V levé dolní části okna se nachází tlačítko obnovení původního nastavení, které síti vrací přednastavené (odladěné) parametry tréninku V pravé střední části okna je popup menu, kterým lze vybírat požadovanou činnost sítě (klasifikaci fonémů volba Muž až Žena, nebo rozpoznávání mluvčích volba Slova až Slova 7) Pod tímto menu se nachází tlačítka Trénink sítě a Rozpoznávání Po výběru požadované činnosti sítě je nutno síť natrénovat Trénink sítě se aktivuje stejnojmenným tlačítkem Po jeho spuštění se objeví okno, které zobrazuje hodnotu součtu čtverců kvadratické chyby a velikost kroku učení sítě v závislosti na počtu vykonaných epoch Po dosažení zadané hodnoty maximální chyby (příp po vykonání nastaveného počtu epoch v případě, že nastavená chyba je tak malá, že jí nelze dosáhnout) se v dolní střední části zobrazí hlášení o úspěšnosti tréninku sítě (síť pracuje/nepracuje odpovídajícím způsobem)

Nyní je možno přistoupit k vlastní klasifikaci Popup menu Volba vzorku řeči vybereme vzorek, který chceme klasifikovat a tlačítkem Rozpoznávání tento proces spustíme V průběhu rozpoznávání se v grafu uprostřed okna zobrazují hodnoty melfrekvenčních cepstrálních koeficientů (všech dvanácti, do sítě jsou přivedeny pouze koeficienty s č,, 7, 9, ), které jako parametry přichází do sítě Po dokončení klasifikace se v okně pod grafem zobrazí hlášení o ukončení procedury a v pravém horním rohu okna v sekci Statistika klasifikace se zobrazí údaje o úspěšnosti klasifikace Rozhraní se uzavírá tlačítkem Konec práce Závěr Experimentální výsledky ukázaly, že klasifikátor řeči založený na bázi dopředné umělé neuronové sítě typu backpropagation lze realizovat Jeho využití je možné zejména v případech, kdy počet osob, jejichž vzorky budeme analyzovat, bude velmi nízký S využitím rozvíjejících se metod parametrizace řečových signálů lze předpokládat snížení závislostí individuálního charakteru řečníka na obsah řeči na hodnoty, na které se zvládne umělá neuronová síť dynamicky adaptovat Vytvořené programové rozhraní dovoluje uživateli demonstrovat činnost umělých neuronových sítí v programovém prostředí Matlab a seznamuje uživatele s charakteristikami reálných vzorků řeči Literatura [] J Černocký Temporal processing for feature extraction in speech recognition VUT, Brno, [] L Rabiner,B H Juang Fundamentals of speech recognition Prentice Hall, London, 99 [] D P Morgan, Ch L Scofield Neural Networks and Speech Processing Kluwer Academic Publishers, Boston, 99 [] Y Bengio Neural Networks for Speech and Sequence Recognition International Thomson Publishing, London, 996 [] M G Rahim Artificial Neural Networks for Speech Analysis/Synthesis Chapman and Hall, London, 99 [6] M Richterova Signal Modulation Recognizer Based on Method of Artificial Neural Networks In Proceeding of Symposium PIERS, Hangzhou, China, [7] M Richterová, A Mazálek, K Pelikán Modulation Classifier of Digitally Modulated Signals Based on Method of Artificial Neural Networks In Proceeding of the WSEAS Conferences: th WSEAS Int Conf on AEE Prague, [8] D Juráček Klasifikátor řeči Diplomová práce Univerzita obrany, Brno, [9] H Demuth, M Beale Neural Network Toolbox For Use with MATLAB User s Guid, ver The MathWorks, Inc, MA 76-98 Kontakt Ing David Juráček PČR MŘ Brno, Cejl /6, 6 Brno E-mail: Davidjk@seznamcz