Počítačové zpracování řeči a možnosti jeho využití ve státní správě Josef Psutka Katedra kybernetiky, Fakulta aplikovaných věd Západočeská univerzita v Plzni 26.9 2006 1
Řečové technologie možnosti využití Rozpoznávání mluvené řeči počítačem Vyhledávání slov v audio archivech anebo v proudu řeči Počítačová syntéza řeči Hlasové dialogové systémy (dialog člověka s počítačem) Verifikace a identifikace osob podle hlasu 26.9 2006 2
Rozpoznávání mluvené řeči počítačem (1) Nároky na konstrukci systému: Charakteristiky hlasů jednotlivých řečníků jsou modelovány tzv. akustickým modelem systém může být trénován na hlas jediného řečníka, anebo může být na řečníku nezávislý (je trénován z hlasů stovek až tisíců různých hlasů) Způsob řazení slov v promluvě je modelován tzv. jazykovým modelem jazykový model je získán zpracováním rozsáhlých textů (promluv) miliony až stovky milionů běžných slov 26.9 2006 3
Rozpoznávání mluvené řeči počítačem (2) Současné možnosti: Počítač umí rozpoznat jen slova, která má ve slovníku Velikost slovníku může být několik desítek až stovek tisíc slov Systémy jsou schopny práce v reálném čase Přesnost (chybovost) systému silně závisí na mnoha (často neovlivnitelných) parametrech 26.9 2006 4
Rozpoznávání mluvené řeči počítačem (3) Dosahovaná přesnost rozpoznávání: Ovlivněna kvalitou přenosového kanálu a prostředím (telefonní kanál, tichá místnost, řeč v jedoucím autě ap.) Množstvím řečníků, na jejichž hlasy byl systém trénován a kteří jej využívají Způsobem mluvení (čtená řeč, spontánní řeč ap.) Typické hodnoty přesnosti rozpoznávání: čtená řeč, systém adaptován na jediný hlas 90 až 95% spontánní řeč, telefonní kanál 50 až 70% 26.9 2006 5
On-line titulkování zasedání parlamentu
Rozpoznávání mluvené řeči počítačem (4) Možnosti využití systémů rozpoznávání řeči: Přepis řeči do textu (omezené možnosti) Titulkování televizních pořadů (skryté titulky) Systémy pro vyhledávání informací v rozsáhlých řečových archivech Systémy vyhledávání klíčových slov v proudu řeči Hlasové dialogové systémy 26.9 2006 7
Hledání klíčových slov (1) Možnosti využití: Hledání v řečových archivech (záznamy schůzí, videonahrávky diskusí apod.) Lze hledat klíčová slova nebo topiky (témata, o kterých se mluví) Systémy on-line vyhledávání klíčových slov v proudu řeči (monitorování telefonních linek apod.) Systémy umožňují hledat i slova, která nejsou ve slovníku 26.9 2006 8
Hledání klíčových slov (2) Ukázka vyhledávání klíčových slov v záznamech schůzí Parlamentu ČR 26.9 2006 9
Počítačová syntéza řeči (1) Nejsložitější a nejpoužívanější jsou systémy převodu textu na řeč Systémy dosahují dokonalé srozumitelnosti výsledné syntetické řeči Intenzivní výzkum je soustředěn na zvyšování přirozenosti Systémy převodu textu na řeč jsou konstruovány tzv. zřetězováním velmi krátkých segmentů řeči z rozsáhlé databáze promluv konkrétního řečníka 26.9 2006 10
Počítačová syntéza řeči (2) Ukázky vývoje počítačové syntézy češtiny: věta č.1 : věta č.2 : 26.9 2006 11
Počítačová syntéza s podporou audiovizuální artikulující hlavy 26.9 2006 12
26.9 2006 13
Hlasové dialogové systémy (1) Dovolují člověku získávat informace prostřednictvím hlasové komunikace s počítačovými a internetovými aplikacemi Dialogové systémy jsou zatím konstruovány vždy pro konkrétní aplikační oblast Vyhledávání informací uložených v databázích a na Internetu (často komunikace s využitím telefonu) informační systémy (informace o kulturních pořadech, o odjezdech vlaků apod). Komunikace se systémy automatického řízení, ovládání a monitorování automatická spojovatelka, ovládání zařízení hlasem apod. 26.9 2006 14
Hlasové dialogové systémy (2) Přihlašování na zkoušky Příklady použití: Alternativa k přihlašování na zkoušky přes internet. Automatická spojovatelka Aktuální zpravodajství Čtení aktuálních novinek (zpráv) ze serveru www.idnes.cz pomocí formátu RSS, tel. 377 638 805 Výsledky přijímacího řízení na ZČU přes telefon V provozu již od roku 2000, každý rok (červen, červenec) obslouží 2000-3000 hovorů. 26.9 2006 15
Hlasové dialogové systémy (3) Funkční schéma dialogového systému Přijímací řízení Vybrat fakultu ze seznamu Pozdrav a informace Vybrat studijní obor ze seznamu Vlož své IČ Výsledky zkoušky nnnnnenalezeno IČ nalezeno??zeno Další info? + nnnnnenal + 26.9 2006 16
Verifikace a identifikace osob podle hlasu Verifikace řečníka ověření, zda hlas neznámé osoby je dostatečně podobný hlasu člověka, za kterého se neznámá osoba vydává Identifikace řečníka úkolem je zjistit, kterému ze skupiny známých (referenčních) řečníků je hlas neznámé osoby nejvíce podobný Využití Všude, kde jde o ověřování totožnosti lidí a k dispozici je vzorek jejich hlasu (soudy, policie, zabezpečení před neoprávněným vstupem apod.) 26.9 2006 17
SHRNUTÍ Možnosti využití řečových technologií ve státní správě a při obraně bezpečnosti státu: Hledání klíčových slov (terorismus, kriminalita) Vyhledávání v řečových archivech (audio nebo video záznamy schůzí, jednání, telefonních záznamů apod.) Informační stánky počítačové syntéza řeči (handicapovaní) Dialogové systémy (možnost vyhledat zveřejněné informace prostřednictvím telefonu) Verifikace a identifikace osob podle hlasu (bezpečnost státu) 26.9 2006 18
Děkuji za pozornost! Zveme Vás do přísálí na ukázky funkce reálných systémů z oblasti řečových technologií http://ui.zcu.cz 26.9 2006 19