Podobné dokumenty
7 Další. úlohy analýzy řeči i a metody

ROZPOZNÁVÁNÍ AKUSTICKÉHO SIGNÁLU ŘEČI S PODPOROU VIZUÁLNÍ INFORMACE

DISERTAČNÍ PRÁCE OPRAVENÁ VERZE

Dolování dat z multimediálních databází. Ing. Igor Szöke Speech group ÚPGM, FIT, VUT

Josef Rajnoha. České vysoké učení technické v Praze, Fakulta elektrotechnická rajnoj1@fel.cvut.cz

Diktovací sw NovaVoice zkušenosti. D.Zoubek KZM FN Motol

ŘEČOVÉ TECHNOLOGIE v PRAXI

SEMESTRÁLNÍ PRÁCE Z PŘEDMĚTU KVD/GRPR GRAFICKÉ PROJEKTY

Pokročil. Vyučující: Prof. Ing. Jan Nouza, CSc., ITE

Počítače a grafika. Ing. Radek Poliščuk, Ph.D. Přednáška č.7. z předmětu

NEWTON Technologies a.s. Jaroslava Schmidtová Project manager

NEWTON Technologies a.s.

Vodoznačení video obsahu

Umělá inteligence pro zpracování obrazu a zvuku

Řečové technologie na Katedře kybernetiky FAV ZČU v Plzni. Katedra kybernetiky. Fakulta aplikovaných věd. Západočeská univerzita v Plzni

Algoritmy a struktury neuropočítačů ASN - P10. Aplikace UNS v biomedicíně

Zpracování digitalizovaného obrazu (ZDO) - Popisy III

JAK LZE VYUŽÍT GRAFICKÉHO ZOBRAZENÍ AKUSTICKÉHO SIGNÁLU PŘI VÝUCE JAZYKA A SPRÁVNÉ VÝSLOVNOSTI

Klasifikace a rozpoznávání. Extrakce příznaků

escribe: Online přepisovací centrum pro neslyšící

Systémy digitálního vodotisku. Digital Watermarking Systems

Simultánní přepis mluvené češtiny pro osoby se sluchovým postižením

Jasové transformace. Karel Horák. Rozvrh přednášky:

Co chcete udělat? Přepis nahrávek. Přepis URL. Korekce přepisů. Vyhodnocení přepisů. Ukládání přepisů. Přidávání slov do slovníku

EXPERIMENT S VYUŽITÍM GRAFICKÉHO ZOBRAZENÍ ŘEČI PŘI VÝUCE SPRÁVNÉ VÝSLOVNOSTI U SLUCHOVĚ POSTIŽENÝCH OSOB

Klasifikace hudebních stylů

Tvorba a adaptace lingvistické vrstvy pro systém rozpoznávání mluvené češtiny

Řečové technologie pomáhají překonávat bariéry

Fakulta informačních technologií VUT Brno. Předmět: Srovnání klasifikátorů Autor : Jakub Mahdal Login: xmahda03 Datum:

Rozpoznávání v obraze

Speciální struktury číslicových systémů ASN P12

Statistické modely tvaru a vzhledu

Náhodné signály. Honza Černocký, ÚPGM


VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ FAKULTA ELEKTROTECHNIKY A KOMUNIKAČNÍCH TECHNOLOGIÍ ÚSTAV TELEKOMUNIKACÍ

Petr Zlatník, Roman Čmejla. Katedra teorie obvodů, Fakulta elektrotechnická, ČVUT, Praha. Abstrakt

Creation of Lexicons and Language Models for Automatic Broadcast News Transcription

ODHAD EMOCÍ ŘEČNÍKA Z MLUVENÉ ŘEČI EMOTION DETECTION FROM SPEECH

Úvod do modelování a simulace. Ing. Michal Dorda, Ph.D.

Architektura informačních systémů. - dílčí architektury - strategické řízení taktické řízení. operativní řízení a provozu. Globální architektura

Vlnění. vlnění kmitavý pohyb částic se šíří prostředím. přenos energie bez přenosu látky. druhy vlnění: 1. a. mechanické vlnění (v hmotném prostředí)

Christoph Damm, Svatoslav Ondra, Jiří Tužil. Masarykova univerzita

Lekce 01 Úvod do algoritmizace

Algoritmy a struktury neuropočítačů ASN P9 SVM Support vector machines Support vector networks (Algoritmus podpůrných vektorů)

Použití mluvených korpusů ve vývoji systému pro rozpoznávání českých přednášek *

Přednáška 13 Redukce dimenzionality

Automatické rozpoznávání dopravních značek

Chyby a neurčitosti měření

NAKI - ČRo archiv - Zpřístupnění archivu Českého rozhlasu pro sofistikované vyhledávání

Dálkový průzkum Země. Ústav geoinformačních technologií Lesnická a dřevařská fakulta MENDELU

A2M31RAT- Řečové aplikace v telekomunikacích

ANALÝZA A KLASIFIKACE DAT

Z X H o d n o c e n í v l i v ů n a ž i v o t n í p r o s t ř e d í. Vybrané metody posuzování dopadu záměrů na životní

Komunikace člověk počítač v přirozeném jazyce

3 METODY PRO POTLAČENÍ ŠUMU U ŘE- ČOVÉHO SIGNÁLU

Evropský sociální fond Praha & EU: Investujeme do vaší budoucnosti

Ukázka charakteristiky předmětu Český jazyk (pro nedoslýchavé) z pracovní verze ŠVP ZŠ pro sluchově postižené, Liberec.

Text úlohy. Kolik je automaticky generovaných barev ve standardní paletě 3-3-2?

Modernizace a inovace výpočetní kapacity laboratoří ITE pro účely strojového učení. Jiří Málek

DTW. Petr Zlatník, Roman Čmejla. Abstrakt: Příspěvek popisuje metodu, která byla vyvinuta pro vyhodnocení

WP6 - Komponenty robotického systému interakce člověk-stroj

ZÁKLADY PROGRAMOVÁNÍ. Mgr. Vladislav BEDNÁŘ /14

Self Organizing Map. Michael Anděl. Praha & EU: Investujeme do vaší budoucnosti. 1 / 10 Slef Organizing Map

Efektivní komunikace díky inovativním hlasovým technologiím. Praha, Call centrum ve finančních službách

DIGITÁLNÍ VIDEO. pokus o poodhalení jeho neskutečné obludnosti (bez jednosměrné jízdenky do blázince)

Podporováno Technologickou agenturou České republiky, projekt TE

Semestrální projekt. Vyhodnocení přesnosti sebelokalizace VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ. Fakulta elektrotechniky a komunikačních technologií

VYHLEDÁVÁNÍ INFORMACÍ V ŘEČI A VYUŽITÍ SLEPÉ ZPĚTNÉ VAZBY. Ing. Lucie Skorkovská

časovém horizontu na rozdíl od experimentu lépe odhalit chybné poznání reality.

U Úvod do modelování a simulace systémů

ZÍSKÁVÁNÍ ZNALOSTÍ Z DATABÁZÍ

Popis objektů. Karel Horák. Rozvrh přednášky:

SEBELOKALIZACE MOBILNÍCH ROBOTŮ. Tomáš Jílek

Biofyzikální ústav LF MU Brno. jarní semestr 2011

Modelování neřečových událostí pro rozpoznávání řeči v reálných podmínkách

Úvodem Dříve les než stromy 3 Operace s maticemi

Využití algoritmu DTW pro vyhodnocování vad řeči dětí postižených Landau-Kleffnerovým syndromem (LKS)

biometrických systémů a testování jejich spolehlivosti Přehled drahan@fit.vutbr.cz) Martin Drahanský (drahan(

Building Your Own Real Remote Experiment Controlled by a Mobile or Touch Enabled Device

Výukový materiál zpracován v rámci projektu EU peníze školám

Algoritmy a struktury neuropočítačů ASN - P11

Lombardův efekt v řečové databázi CLSD

Roman Juránek. Fakulta informačních technologíı. Extrakce obrazových příznaků 1 / 30

Vojtěch Franc. Biometrie ZS Poděkování Janu Šochmanovi za slajdy vysvětlující AdaBoost

PERSPEKTIVY A MOŽNOSTI ZLEPŠENI STUDIJNÍCH PODMÍNEK PRO VYSOKOŠKOLSKÉ STUDENTY SE SLUCHOVÝM POSTIŽENÍM

Kalibrační proces ve 3D

Struktura a architektura počítačů (BI-SAP) 3

1 Strukturované programování

A2M31RAT Řečový signál a jeho základní charakteristiky Model vzniku řeči. Digitalizace a základní kódovací strategie

Václav Syrový: Hudební akustika, Praha 2003, s. 7

Moderní systémy pro získávání znalostí z informací a dat

FAKULTA INFORMAČNÍCH TECHNOLOGIÍ

Modelování a simulace Lukáš Otte

Analýza obrazu II. Jan Macháček Ústav skla a keramiky VŠCHT Praha

Profilování vzorků heroinu s využitím vícerozměrné statistické analýzy

TSO NEBO A INVARIANTNÍ ROZPOZNÁVACÍ SYSTÉMY

Pojednání k Disertační práci/discourse on the PhD Thesis

Analýza a zpracování digitálního obrazu

Příloha č. 3 TECHNICKÉ PARAMETRY PRO DODÁVKU TECHNOLOGIE: UNIVERZÁLNÍ MĚŘICÍ ÚSTŘEDNA

Klasifikace předmětů a jevů

Transkript:

5 1. Úvod Automatického rozpoznávání řeči (Automatic Speech Recognition, ASR) je obor, ve kterém aktivní výzkum probíhá již od 60. let minulého století. V dnešní době nachází široké uplatnění, např. v oblastech bezpečnosti, vzdělávání, interakce člověka s počítačem, ale i v chytrých domácnostech a zábavě. I přes nesporný pokrok však nelze považovat problém za vyřešený. Především v prostředích s hlukem na pozadí algoritmy často nedosahují uspokojivé přesnosti. ASR proto zahrnuje řadu pod-oblastí, které řeší některé dílčí problémy, případně se snaží využít specifických podmínek reálných aplikací za účelem snížení chybovosti. Jednu z těchto oblastí představuje audiovizuální rozpoznávání řeči (Audio-Visual Speech Recognition, AVSR), které se snaží využít dodatečná obrazová data, akustickým hlukem na pozadí nezatížená. Idea je přitom inspirována způsobem, jakým se s podobnými podmínkami běžně vypořádávají zdraví, ale i sluchově postižení lidé, tj. odezíráním pohybu rtů. Proces audiovizuálního rozpoznávání řeči lze rozdělit do několika základních bloků, které jsou schematicky znázorněny na obrázku 1.1. Vstupem systému je řečníkova promluva v podobě akustického a vizuálního signálu, výstup pak představuje sekvence rozpoznaných slov. Zpracování akustického a obrazového kanálu probíhá do značné míry nezávisle a k fúzi informace dochází až ve fázi samotného rozpoznávání. Toto uspořádání zajišťuje modularitu automatického rozpoznávání řeči tak, aby bylo možné při absenci jednoho z kanálů zachovat funkci celého systému. Podrobně jednotlivé komponenty rozebírají kapitoly 2 5 hlavního textu předložené práce. Kvantitativní srovnání současného stavu poznání v závislosti na typu úlohy a dalších faktorech poskytuje kapitola 7. 1.1 Cíle dizertační práce Cílem předložené dizertační práce je především návrh robustní a dostatečně diskriminační vizuální parametrizace vhodné pro rozpoznávání nezávislém na řečníkovi. Pro extrakci by se kromě klasické RGB textury a tvarových příznaků jako vhodná mohla ukázat i informace o trojrozměrné podobě úst, např. změny ve vyšpulení a zatažení. Pro extrakci takových příznaků lze rekonstruovat povrch oblasti zájmu z více pohledů, nebo využít některé z dostupných zařízení, jež úlohu řeší interně a problémy s případnou citlivostí Akustický1signál Výpočet1akustických1příznaků Kombinace1příznaků1a1rozpoznávání 10 5 0 50 Vizuální1signál 100 150 200 250 300 Detekce1zajmové1oblasti Výpočet1vizuálních1příznaků Obrázek 1.1: Princip audiovizuálního rozpoznávání.

2k + 1 N M 1 x y t d

2k+1 sousledných snímků extrakce a transformace bloků DCT3 příznaky 2k+1 blok (1, 1) 3D DCT blok (M, N) 3D DCT xy xt yt t g xy g xt g yt 2k + 1 k k = 3 n sousledných snímků histogramy orientovaných gradientů HOGTOP příznaky n gradient xy gradient xt y x t gradient yt bloky políček pro normalizaci

w s p a = λ = Φd, w d γ γ w s w d

k k T V S k 2 T V S k S S (k 2) T V k 1 64 64 v = 93

10 3.4. Ostatní použité databáze tvar nalezený v obraze pomocí ESR normalizovaný průměrný tvar obličeje výsledná oblast zájmu Obrázek 3.2: Extrakce oblasti zájmu. 3.4 Ostatní použité databáze Kromě vlastní databáze TULAVD byly pro srovnávací experimenty využity dvě další volně dostupné databáze: OuluVS [Zhao 2009] a CUAVE [Patterson 2002]. Databáze OuluVS obsahuje celkem 20 řečníků (17 mužů a 3 ženy), z nichž každý 5x opakuje 10 krátkých každodenních frází v angličtině, dohromady tedy přibližně 1000 promluv (výjimečně jsou promluvy opakovány 4x či 6x). Pro modely, jenž vyžadují anotaci jednotlivých snímků (např. dynamizace LDA), byly zvukové nahrávky OuluVS a CUAVE nuceně zarovnány (forced alignment) s využitím volně dostupného akustického modelu1 pro americkou angličtinu připraveného lingvistickou laboratoří na University of Pennsylvania. 4. Rozpoznávání izolovaných slov a frází Experimentální část dizertační práce je rozdělena do dvou kapitol, z nichž první (10) prezentuje výsledky dosažené v úloze rozpoznávání izolovaných slov a frází pomocí celoslovních modelů. Následující kapitola 11 hlavního textu se pak zabývá modely hláskovými a jejich aplikací v úloze audiovizuálního rozpoznávání spojité řeči s velkým slovníkem. V obou úlohách byla za kritérium úspěšnosti byla zvolena slovní přesnost (angl. word accuracy, WAcc) WAcc = N D S I, N (4.1) kde N je celkový počet slov v referenčním přepisu, D je počet vynechaných slov, tzv. delecí, S počet chybně rozpoznaných slov, tzv. substitucí, a I počet chybně vložených slov, tzv. inzercí. V případě izolovaných slov vyjadřuje WAcc podíl správně rozpoznaných jednotek vůči celkovému počtu. Při posuzování míry zlepšení jednoho modelu vůči jinému je rovněž uváděna relativní změna slovní chybovosti (Word Error Rate, WER) δwer = (WER2 WER1) WAcc1 WAcc2 =, WER1 1 WAcc1 (4.2) kde WER = 1 WAcc. Pro trénování modelů i klasifikaci byla využita volně dostupná knihovna HTK1 [Young 2006] verze 3.4.1. 1 1 http://www.ling.upenn.edu/phonetics/p2fa http://htk.eng.cam.ac.uk/

6 20 6 2K +1

DCT stat. K5LDA 63.0 76.2 79.2 DCT stat. K4LDA- 64.7 74.2 81.4 PCA stat. K5LDA 60.5 73.9 77.9 PCA stat. K5LDA 61.2 69.7 80.1 AAM-r stat. K5LDA 72.8 76.0 82.1 AAM-r stat. K4LDA 63.4 64.7 79.0 LBPTOP stat. K5LDA 54.2 62.0 82.5 LBPTOP stat. K4LDA- 69.6 67.6 91.2 stat. DCT3 K4LDA 73.3 82.3 79.5 stat. DCT3 K4LDA- 71.3 78.6 88.3 stat. HOGTOP K4LDA- 75.5 79.6 85.7 stat. HOGTOP K4LDA 80.3 81.6 85.5 40 50 60 70 80 90 100 Wacc [%] 40 50 60 70 80 90 100 Wacc [%]

100 90 89.9 90.6 84.8 84.9 Wacc [%] 80 70 77.3 75.1 71.6 67.7 76.3 75.7 70.6 68.4 75.5 74.8 73.0 71.4 71.5 77.3 78.0 77.8 76.6 60 50 video hloubka brzká integrace stední integrace video hloubka brzká integrace stední integrace video hloubka brzká integrace stední integrace video hloubka brzká integrace stední integrace 63.9 62.0 59.6 video hloubka DCT PCA AAM LBPTOP DCT3 HOGTOP brzká integrace stední integrace video hloubka brzká integrace stední integrace δ = 47 δ = 56 δ 14 45

PCA + LBPTOP + HOGTOP (bez norm.) HOGTOP (bez norm.) HOGTOP (audio norm.) 85.7 89.9 92.3 LBPTOP 6x[24:6:6] 91.2 HOGTOP 6x[24:6:6] 85.5 [Pei 2013] [Zhou 2011] (SVM norm.) [Zhou 2011] (bez norm.) 58.6 81.3 89.7 [Papandreou 2009] 6x[30:6] 83.0 [Lucey 2006] 10x[28:8] 77.1 [Zhou 2014] (aut. extr. ROI) [Zhou 2014] (man. extr. ROI) 76.6 85.6 [Rekik 2014] [1:1] 70.1 [Rekik 2014] [Ong 2011] [Zhao 2009] 68.3 65.6 62.4 [Ngiam 2011] [18:18] 68.7 [Saenko 2006] 43.3 0 20 40 60 80 100 Wacc [%] 0 20 40 60 80 100 Wacc [%] δ = +35

100 90 80 Wacc [%] 70 60 50 40 v:dct v:pca v:aam v:lbptop v:dct3 v:hogtop d:dct d:pca d:aam d:lbptop d:dct3 d:hogtop 10 5 0 5 10 15 20 25 SNR [db] 100 90 80 70 Wacc [%] 60 50 40 30 20 10 audio audio-mbss video hloubka audio + video (MF) audio + hloubka (MF) audio + video + hloubka (MF) 10 5 0 5 10 15 20 25 SNR [db]

[ 10, 25] n δ

(, ) n = 2 0, 1

[, ] λ [, ] λ [,, ] λ [, ] λ [, ] λ [,, ] λ [, ] λ [, ] λ [,, ] λ [, (, )] λ [x, y] λ x y λ λ (s) = 1 s λ ( ) = 0, 4 λ ( ) λ ( ) = 0, 69 λ ( ) = 0, 74 λ ( ) = 1 λ ( ) 0,7 : 0,2 : 0,1

80 70 60 50 WAcc [%] 40 30 20 10 0 audio audio + video audio + hloubka audio + video + hloubka 0 5 10 15 20 25 SNR

k