DEMO
Převodsignálu na slovní reprezentaci Rozpozná jen to,na co byl naučen Jazyk,prostředí, slovník, téma Každé slovo zná svůj čas
Přijďteza mnou po přednášce(iphone, ipad) SledujteTwitter Podívejte se, jak se choval rozpoznávač v nestandardních situacích
ZÍSKÁVÁNÍ DAT Z ŘEČI www.phonexia.com, 1/16
INFORMACE V ŘEČI B žný lov k vysloví pr m rn 7400 slov denn, napíše však maximáln n kolik set slov písmo 8% e 92% Pouze text je však dnes indexován vyhledáva i, dohledatelný a používán v rozhodovacích procesech www.phonexia.com, 2/16
OBSAH Co je v e i? Jaké jsou dnes k dispozici technologie a co umí? Kdy se budeme s e ovými technologiemi b žn setkávat? Jak se zapojit? www.phonexia.com, 3/16
CO JE V ŘEČI Mluvčí Jazyk hovoru Dialekt, p vod e níka Vzd lání e níka Pohlaví, v k Identifikace mluvčího Prostředí Kde mluv í mluví Ke komu mluv í mluví (dialog, tení, proslov) Jiné zvuky (hudba apod.) Obsah Klíčová slova Doslovný přepis řeči Téma Kdy mluv í mluví Technika P ístroj (tel./mic/...) P enosové kanály (pevná/mobil/skype) Kodeky (gsm/mp3/ ) Kvalita signálu www.phonexia.com, 4/29
ŘEČOVÉ TECHNOLOGIE Rozpoznání řeči Přepis Dobrý den Klíčová slova Novák Hovor / řeč Identifikace mluvčího Identifikace pohlaví Kdo Jan Novák Pohlaví Muž / Žena Identifikace jazyka Jazyk ENG / DEU /?? www.phonexia.com, 5/29
PŘEPIS ŘEČI NA TEXT P epis e i vygeneruje k audiu dopl kovou informaci (text), kterou lze snadno indexovat, vyhledávat v ní a použít pro zp ístupn ní audia Umož uje nasadit nástroje pro analýzu textu. pro Příklady využití: PrepisReci.cz (CZ), Prednasky.com (CZ), SuperLectures.com (EN) www.phonexia.com, 6/29
KVALITA PŘEPISU Pokud je adaptace na jazykovou doménu (medicína, právo, IT), má text minimum chyb a lze ho b žn íst Prednasky.com, SuperLectures.com Bez adaptace na jazykovou doménu a p i b žné konverza ní e i lze pochopit význam textu a lze v n m vyhledávat PrepisReci.cz www.phonexia.com, 7/16
PŘEPIS ŘEČI NA TEXT e Zdroj P epis Dopravní policisté chystají na Velikonoční svátky přes sto sedmdesát dopravních akcí. Na idi e bude podle šéfa dopravní police dohlížet p es tisíc policistů. Dopravní policisté chystají nevelikonoční svátky přesto sedmdesát dopravních akci. Ne idi e bude podle šéfa dopravní policie dohlížet p es tisíc policistu. www.phonexia.com, 8/16
DOHLEDATELNOST Rozpoznávač může dělat chyby (počítač nezná fyzikální podstatu světa, naše koníčky, kamarády, vztahy) Můžeme ale vygenerovat i alternativní (blízké) varianty přepisu a v nich pak vyhledávat => Téměř 100% dohledatelnost www.phonexia.com, 9/16
DETEKCE KLÍČOVÝCH SLOV Jednodušší a rychlejší technologie Nižší přesnost než přepis Lze snadněji pokrýt velkou řadu jazyků Použití například pro monitoring médií nebo kontrolu práce operátorů v call centrech www.phonexia.com, 10/16
IDENTIFIKACE MLUVČÍHO Mluvčího lze popsat hlasovým otiskem o délce jen 600 bajtů Hlasové otisky lze snadno porovnávat (řádově milióny porovnání v čase < 1s) Aplikace: verifikace osoby / vyhledávání záznamu podle hlasu / propojování záznamů od stejného mluvčího / segmentace nahrávky na mluvčí Technologie je výrazně lepší než člověk Každé 2 roky chybovost klesne na ½ V brzké době bude na každém telefonu a výrazně omezí anonymitu hlasové komunikace x x >> x x www.phonexia.com, 11/16
IDENTIFIKACE JAZYKA Funguje jako klasifikátor, který lze trénovat k rozpoznání libovolného jazyka nebo i dialektu Tréning probíhá na 10 až 20 hodinách nepopsané řeči (jen je potřeba znát jazyk) Cca 40 předtrénovaných jazyků x x x x >> x x x x x www.phonexia.com, 12/16
KDY SE BUDEME S ŘEČOVÝMI TECHNOLOGIEMI BĚŽNĚ SETKÁVAT? Dnes jsou běžně využívány call centry, zpravodajskými složkami, začínají se používat v mobilních aplikacích a začínají se objevovat se na internetu (např. Prednasky.com) Omezující faktor je kvalita záznamu: se vzdáleností mikrofonu od úst klesá přesnost šumy a neřečové události snižují přesnost s množstvím různých mikrofonů klesá přesnost Řešením je nový hardware a lepší algoritmy www.phonexia.com, 13/16
ZAŘÍZENÍ, KTERÉ VŠE ZMĚNÍ Mobilní telefon Mikrofonní pole Handsfree www.phonexia.com, 14/16
JAK SE ZAPOJIT? 1) Společné inovativní projekty Nabízíme technologii, technickou podporu, pomoc s komercializací a naše kontakty 2) Hledáme vývojáře, obchodníky, marketéry, designéry, na stálou pozici i na občasnou výpomoc 3) Lze se zapojit přímo do špičkového výzkumu na Speech@FIT www.phonexia.com, 15/16
OTÁZKY A ODPOVĚDI Phonexia s.r.o. info@phonexia.com www.phonexia.com www.phonexia.com, 16/16
í Phonexia a Superlectures?
Nasbírat data Zvolit parametry Zvolit model Apriorní znalost problému Natrénovat model Evaluaovat klasifikátor nasazení
Modely vstup Výpočet příznaků Vyhodnocení pravděpodobností nebo věrohodností (skóre hypotéz) Dekódování rozhodnutí
-
Gaussian Mixture models kluci, holky vstup MFCC Vyhodenocení GMM skóre Rozhodnutí kluk, holka
O
O
matylda1:/mnt/data 19T 14T 5,2T 72% /mnt/matylda1 matylda2:/speech 8,1T 6,3T 1,8T 78% /mnt/matylda2 matylda3:/speech 26T 23T 3,0T 89% /mnt/matylda3 matylda4:/speech 26T 14T 12T 55% /mnt/matylda4 matylda5:/speech 8,7T 8,7T 74G 100% /mnt/matylda5 matylda6:/speech 8,7T 8,0T 713G 92% /mnt/matylda6 scratch01:/mnt/data 3,0T 2,5T 531G 83% /mnt/scratch01 scratch02:/mnt/data 3,0T 866G 2,1T 29% /mnt/scratch02 scratch03:/mnt/data 1,9T 1,4T 522G 73% /mnt/scratch03 scratch04:/mnt/data 3,0T 1,4T 1,6T 48% /mnt/scratch04 scratch05:/mnt/data 3,0T 15G 3,0T 1% /mnt/scratch05 scratch06:/mnt/data 4,4T 1,9T 2,6T 42% /mnt/scratch06
Faculty (faculty members, research intent) research funds) EU projects (FP[4567]) Past: SpeechDat, SpeeCon, M4, AMI, CareTaker, AMIDA, MOBIO, weknowit, DIRAC Running: FP7 GLOCAL US funding Air Force EOARD, IARPA, DARPA Local funding agencies - Grant Agency of CR, Ministries of Education, and Trade and Commerce Czech force ministries Defense, Interior
Přemýšlet o výsledcích a chtít přijít věcem na kloub.
Děkujeme za pozornost http://phonexia.com/ http://superlectures.com/ http://speech.fit.vutbr.cz/