F A K U L T A E K O N O M I C K Á Studijní obor: 6208T086 Podniková ekonomika a management SEMESTRÁLNÍ PRÁCE Z PŘEDMĚTU KVD/GRPR GRAFICKÉ PROJEKTY TÉMA: SYNTÉZA A ROZPOZNÁVÁNÍ ŘEČI TERMÍN: ZS 2006-01-21 608/260 790 STUDENTKA/KONTAKT: K00529 - ZIEGLEROVÁ ALICE, 6.ROČNÍK VALCICEK@CENTRUM.CZ 1
Obsah OBSAH... 2 SYNTÉZA ŘEČI... 2 ROZPOZNÁVÁNÍ ŘEČI... 4 PREZENTACE PROJEKTŮ... 5 ZPRÁVA Z PREZENTACE KONANÉ DNE 11. 11. 2005... 6 ZPRÁVA A PŘIPOMÍNKY K PREZENTACI KONANÉ 1. 12. 2005... 6 Syntéza řeči Syntéza řeči patří mezi významné úlohy komunikace člověk-počítač. Pro dialog vedený pro člověka v co nejpřijatelnější podobě, je nezbytné, aby vedle rozpoznávání řeči byl stroj schopen řeč rovněž vytvářet, a to jak ve srozumitelné, tak i přirozené formě. Nejobecnější úlohou počítačové syntézy řeči je syntéza řeči z textu (text-to-speech, TTS), kdy je úkolem TTS systému přečíst libovolný text. TTS systém se typicky skládá ze 2 modulů: modulu zpracování textu a vytváření řeči. Zatímco modul zpracování textu provádí převod textu na jeho výslovností podobu, modul vytváření řeči má na starost vlastní produkci řeči. Syntetizéry řeči z textu je možné použít ve všech systémech, kde je požadován hlasový výstup (např. automatické čtení e-mailů, SMS, knih, atd.). Na ZČU v Plzni se Katedra kybernetiky (KKY) na Fakultě aplikovaných věd (FAV) v rámci svých projektů zabývá tématy, zaměřenými rovněž na podporu informační společnosti a integraci handicapovaných lidí do běžného života. Podrobnější informace o jednotlivých projektech je možné nalézt na stránkách KKY: http://ui.zcu.cz/grants.php. Namátkou můžeme uvést projekty: MALACH : Multilingual Access to Large Spoken Archives (automatické rozpoznávání výpovědí svědků Holocaustu, Spielbergova nadace) Vizuální syntéza češtiny metodou parametrického modelu jako doplněk řečového syntetizéru o tomto projektu podrobněji pojednával článek publikovaný v prosincovém čísle Univerzitních novin 2005, jejichž elektronickou podobu lze nalézt na internetové adrese http://www.noviny.zcu.cz (v archivu). Zde navíc nám byly k projektu, zbývajícím se mimo jiné mluvící hlavou, poskytnuty další obrázky a videoukázka. 2
Obrázek 1: Mluvící hlava Obrázek 2: Videoukázka Mluvící hlavy Nutno poznamenat, že syntéza řeči čili převod textu do mluvené řeči je možné zrealizovat bezchybně. Rozpoznávání řeči již vykazuje jistou chybovost. 3
Rozpoznávání řeči Problematika komunikace člověka s počítačem pomocí mluvené řeči je v současnosti jednou z nejaktuálnějších oblastí umělé inteligence. Při rozpoznávání přirozené řeči člověka se využívá mnoha vědních oblastí jako je akustika, fonetika, teorie informace, zpracování signálů, rozpoznávání, prohledávání a další. Současný stav této vědní disciplíny podporuje problémově zaměřené aplikace využívající rozpoznávání řeči, jako konzultace databázových systémů, automatické informační a reservační systémy a podobně. Dobrým příkladem komunikace člověka s počítačem pomocí mluvené řeči je produkt firmy Fugasoft, která na trh přichází se svým programem MyVoice. Program MyVoice byl vyvinut s cílem pomoci zejména handicapovaným lidem v přístupu k počítačové technice a k informačním technologiím. Umožňuje totiž: ovládat počítač a na něm nainstalované programy výhradně pomocí hlasových povelů, diktovat text, zadávat nové hlasové povely, atd. Bližší informace a řadu videoukázek, jako je práce s internetem, řízení pohybu kurzoru myši po obrazovce a ovládání tlačítek myši hlasem, ovládání aplikace MS Word a mnoho dalších, je možné shlédnout na internetových stránkách firmy Fugasoft http://www.fugasoft.cz/myvoice.htm. (Práci na počítači do jisté míry zpřístupňují handicapovaným i pomůcky systému Windows.) Jak již bylo uvedeno, rozpoznávání řeči je (na rozdíl od syntézy) postiženo, někdy značnou, chybovostí. Nejen proto se Oddělení umělé inteligence na KKY zabývá projekty, jako je např.: Rozpoznávání souvislé řeči s velkými slovníky - Úloha rozpoznávání řeči s velkými slovníky je řešena zejména v kontextu zpracování vysoce flexivních jazyků, jejichž jedním reprezentantem je i mluvená čeština. Bohatá flexe způsobuje obrovský nárůst položek ve slovníku a i když čítá takový slovník obvykle desítky tisíc slov, přesto běžná řeč, kterou chceme rozpoznávat, obsahuje standardně velké procento slov mimo slovník. Navíc, relativně volná struktura české věty ztěžuje konstrukci robustního 1 jazykového modelu. Při rozpoznávání spontánní řeči se přidává další problém, který je specifický zejména pro mluvenou češtinu, a to je velké množství používaných nespisovných slov. Vzhledem k tomu, že statistiky jazykových modelů jsou běžně získávány z rozsáhlého textového materiálu, který je obvykle gramaticky korektní, vznikají tak při konstrukci systému rozpoznávání spontánní řeči obtíže s nedostatkem materiálu pro trénování těchto modelů. To vše velmi znesnadňuje úlohu rozpoznávání narozdíl například od rozpoznávání mluvené angličtiny. Práce členů oddělení jsou proto soustředěny především na překonání výše 1 Robustnost je schopnost rozpoznávacího systému dosahovat dobré úspěšnosti za různých podmínek: vliv prostředí hluk, ozvěna, zkreslení přenosového kanálu, vliv konkrétního řečníka (u rozpoznávání řeči), vliv obsahu promluvy (u rozpoznávání řečníka) 4
uvedených problémů. Funkčnost navržených postupů je ověřována na úlohách rozpoznávání čtené i spontánní řeči. Další z řady zajímavých projektů: Multimodální zpracování lidské znakové a mluvené řeči počítačem pro komunikaci člověk-stroj Hlasové technologie v podpoře informační společnosti tento projekt lze přiblížit videoukázkou Titulkování hokeje. Prezentace projektů Obrázek 3: Videoukázka - Titulkování hokeje S projekty je postupně seznamována i veřejnost, především okruh handicapovaných lidí, kteří mohou poskytnout nejlepší zpětnou vazbu autorům projektů a přispět tak k jejich dalšímu rozvoji. Zprávu a připomínky k prezentaci projektů zabývajících se Mluvící hlavou a Titulkováním hokeje nám zprostředkovala naše kontaktní osoba, paní Ivana Blasczyková. 5
Zpráva z prezentace konané dne 11. 11. 2005 Dne 11. 11. 2005 v rámci členské schůze SNN ČR (Svaz neslyšících a nedoslýchavých v České republice) ve Škroupově ulici v Plzni byla provedena ukázka nové technologie titulkování televizních pořadů, které v budoucnu umožní sledovat titulky i u přímých přenosů. Tuto technologii vyvíjejí pracovníci ZČU Fakulty aplikovaných věd, Katedry kybernetiky v projektu Automatické rozlišování a syntéza mluvené řeči a převodu do textu. Druhým projektem je tzv. Mluvící hlava, která by mohla pomoci lidem nedoslýchavým (odezírání) i zrakově postiženým. Ukázku předváděl ing. Aleš Pražák se svým kolegou. Jednání s Českou televizí o obou projektech již probíhají. Je důležité ovšem zjistit, zda neslyšící lidé budou mít o tuto technologii zájem. V současné době je vše ve stadiu vývoje. Pracovníci ZČU uvítají všechny připomínky a návrhy ze strany sluchově i zrakově postižených. Po předvedení mluvící hlavy už byly první připomínky vzneseny a budou akceptovány. Jde především o zpomalení řeči, protože při stávající rychlosti nelze odezírat. Bylo by dobré vytvořit skupinku SP (sluchově postižených), kteří by s pracovníky ZČU spolupracovali při dalším vývoji. K uvedení obou projektů do praxe je třeba digitální vysílání, které už je realizováno v Praze a postupně bude rozšířeno i do dalších míst ČR. Ukázka bude postupně provedena ve Speciální škole pro sluchově postižené i ve Sportovním klubu neslyšících, tak aby se k celé věci mohlo vyjádřit co nejvíce sluchově postižených lidí z Plzně a okolí. Ivana Blasczyková Zpráva a připomínky k prezentaci konané 1. 12. 2005 Dne 1. 12. 2005 byla provedena ukázka nové technologie titulkování v SKN Plzeň (Sportovní klub neslyšících Plzeň) ve Vyšehradské ulici. Akce se zúčastnilo hodně sluchově postižených a přímo na místě vyjadřovali své připomínky a návrhy: - zjednodušení textu, případně odstranění čísel hráčů konkrétně u hokeje - barevné rozlišení titulků - přání, aby byly titulkovány politické diskuse - u mluvící hlavy zvýraznit otevírání úst a zpomalit řeč 6