Úroveň využití hlasového uživatelského rozhraní

Transkript

1 Abstrakt Tato práce rozebírá hlasové uživatelské rozhraní, respektive komunikaci člověka se strojem pomocí řeči. Cílem je zlepšit orientaci čtenáře v základních teoretických přístupech této problematiky, identifikovat hlavní softwarové produkty a zhodnotit současnou úroveň jejich využitelnosti. Důraz je přitom kladen na vymezení kritických faktorů, které brání masovému rozšíření těchto technologií mezi běžnými uživateli. Práce je rozdělena do dvou částí. První část je věnovaná seznámení se základními pojmy, východisky a principy fungování hlasového uživatelského rozhraní a jeho tří hlavních částí: systému pro syntézu řeči, pro rozpoznávání řeči a dialogového manažeru. V druhé části je uvedena charakteristika konkrétních produktů využívajících syntézu nebo rozpoznávání řeči se zaměřením především na ty, které jsou určeny pro obecné použití na osobních počítačích. Je zde zařazena rovněž kapitola o současném stavu a možnostech využití hlasového rozhraní u zrakově postižených. Závěrečné kapitoly se věnují dalším variantám použití, avšak zejména z pohledu uživatelů telefonů. 1

2 Abstract This study focuses on the voice user interface, that is the communication between a human and a machine using speech. The aim is to contribute to reader s familiarity with basic theoretical approaches to the topic, to identify main software products and to assess their present level of usability. A recognition of crucial factors hindering mass utilization of such technologies by common users is included as well. The work consists of two parts. The goal of the first one is to introduce basic terms and principles of the functionality of the voice user interface and its three main parts: a system for speech synthesis, for speech recognition and a dialog manager. In the second part, characteristics of particular products based on the speech synthesis or recognition will be given, especially of those designed for general use on a PC. A chapter examining current situation and possible progress in the usage of the voice user interface by the visually impaired people follows. The last chapters study other possible utilities, where an adequate attention is paid especially to those bringing advantage to telephone users. 2

3 Obsah ABSTRAKT 1 ABSTRACT 2 OBSAH 3 1 ÚVOD 6 2 PRINCIPY FUNGOVÁNÍ CO JE TO HLASOVÉ UŽIVATELSKÉ ROZHRANÍ VYTVÁŘENÍ ŘEČI ČLOVĚKEM POHLED DO MINULOSTI SYNTÉZA ŘEČI ARTIKULAČNÍ SYNTÉZA ŘETĚZÍCÍ SYNTÉZA Syntéza výběru jednotek SYNTÉZA PODLE PRAVIDEL TTS SYSTÉMY ROZPOZNÁVÁNÍ ŘEČI ZÁKLADNÍ POJMY KLASIFIKACE ASR Izolované výrazy Spojené výrazy Souvislá řeč Spontánní řeč Šumy prostředí VYUŽITÍ ASR Diktování Command&Control Interaktivní hlasová odezva Systémy pro handicapované 22 3

4 2.5.4 PRINCIPY FUNGOVÁNÍ Zpracování signálu Rozklad na frekvenční pásma Dekodér řeči Akustický model Jazykový model Přizpůsobení DIALOGOVÝ MANAŽER 25 3 VYUŽITÍ V PRAXI TTS APLIKACE SYNTÉZY PODLE PRAVIDEL APLIKACE ŘETĚZÍCÍ SYNTÉZY Microsoft TextAloud IBM Neospeech AT&T Labs Realspeak SpeechTech SHRNUTÍ ASR OPERA IBM VIAVOICE IVOS WAVE TO TEXT MICROSOFT OFFICE XP DRAGON NATURALLYSPEAKING PHILIPS ASR V ČEŠTINĚ SHRNUTÍ NEJBLIŽŠÍ ZMĚNY ZRAKOVĚ POSTIŽENÍ 38 4

5 3.4.1 SLABOZRACÍ UŽIVATELÉ NEVIDOMÍ UŽIVATELÉ SHRNUTÍ BLIND FRIENDLY WEB TELEFONY EMBEDDED ZAŘÍZENÍ IVR SLUŽBY 44 4 ZÁVĚR 45 5 ZDROJE INFORMACÍ 47 6 TERMINOLOGICKÝ SLOVNÍK 51 5

6 1 Úvod Již od počátků vědecko fantastické literatury se počítače na obřích vesmírných plavidlech či v super tajných počítačových centrech vyznačovaly mimo své inteligence i neuvěřitelně vyspělými komunikačními schopnostmi. Od času prvních z těchto románů prošly věda a technika rychlým vývojem a byly tak jedněmi z nejvýznamnějších faktorů při přetváření celé společnosti, Tak, jako se lety do vesmíru staly skutečností a úžasně výkonné počítače rovněž přestaly být doménou pouze vědecko fantastických úvah, se můžeme zamyslet i nad současnou úrovní vývoje způsobu komunikace člověka se strojem. Od spínačů se lidstvo dostalo přes děrné štítky až k obrazovce a klávesnici s myší. Vývoj se však nezastavil, a tak dnes můžeme denně dozvídat z medií o sofistikovaných zařízeních, která by měla nahradit ta současná. Virtuální realitou počínaje, rozeznáváním mimiky konče. Jak je to však s člověku nejpřirozenějším způsobem komunikace, s řečí? Vyvstává hned několik otázek. Je už současná technologie na dostatečné úrovni, aby bylo možné komunikovat se stroji hlasem, nebo jsme stále odkázáni pouze na tlačítka a spínače, myši a klávesnice? Jestli ne, tak jaké jsou příčiny toho, že takovou technologii ještě nejsme schopni vyvinout? Pakliže však ano, tak jaký je stav takového hlasového ovládání? Je nutno znát jen sadu určitých příkazů, nebo je možné volně se strojem hovořit? Proč není použití tohoto způsobu komunikace se strojem rozšířenější? Jaké jsou příčiny toho, že dnes nepoužívá každý k prácí s počítačem pouze mikrofon a sluchátka? A právě nalézt uspokojivé odpovědi na tyto otázky je cílem této práce. Objasnit příčiny toho, že v současné době není hlas běžným komunikačním kanálem mezi uživateli a osobními počítači, mobilními telefony i jinými zařízeními, jejichž povaha by takový způsob ovládání umožňovala a přinášela výhody. Největší důraz bude kladen na osobní počítače. Nutno je ještě upozornit na to, že pod pojmem komunikace je zde rozuměna pouhá výměna dat pomocí hlasu, což by však nemělo být zaměňováno se schopností počítače rozumět obsahu promluvy. Práce se zabývá jen prvním zmíněným výkladem. Určena je zejména čtenářům, kteří nejsou o této problematice příliš informováni, ale mají alespoň základní povědomí o práci s osobním počítačem. Příkladem takového čtenáře může být inovativní IT manažer, který má na starosti celou síť počítačů nebo jen zvídavý student 6

7 s jedním domácím PC. Proto je i způsob výkladu v celé práci přizpůsoben zaměření na tuto skupinu čtenářů. K dosažení vytyčeného cíle bude nutno nejprve získat potřebné teoretické podklady, na jejichž základě bude možné provádět odpovídající analýzy softwarových produktů v praxi. Jako největší úskalí se však jeví dostupnost relevantních zástupců těchto výrobků. Na základě zvolené metody zkoumání je práce rozdělena do dvou částí. První část je věnovaná seznámení se základními pojmy, východisky a principy fungování hlasového uživatelského rozhraní. Začneme vymezením pojmu hlasové uživatelské rozhraní, následovat bude nástin tvorby hlasu živým člověkem a krátké shrnutí nejzajímavějších momentů z historie snah lidstva pracovat s řečí. V dalších kapitolách se už zaměříme na jednotlivé komponenty takového hlasového rozhraní. Nejprve na umělou tvorbu řeči, pak na rozpoznávání řeči a nakonec na vedení dialogu. Záměrem této části je seznámit čtenáře s problematikou, vysvětlit základní prvky a vazby mezi nimi. To znamená, že pro detailnější studium odkazuji zvídavější na příslušnou odbornou literaturu. S povědomím základních principů je ve druhé části práce kladen důraz na praktické využití zkoumaných přístupů. Čtenáři je nabídnuta charakteristika konkrétních produktů využívajících jednotlivé technologie, přičemž nejprve produkty pro tvorbu a rozpoznávání řeči pro obecné použití na osobních počítačích. Zařazena je zde také kapitola o možnostech využití hlasového rozhraní u zrakově postižených. Nejprve jsou v ní naznačeny hlavní způsoby komunikace této skupiny uživatelů s počítačem v současné době a poté se snažím identifikovat kritické faktory a nastínit možné cesty zlepšení. Závěrečné kapitoly se věnují dalším variantám použití, avšak se zaměřením na telefony. Většina softwarových řešení diskutovaných v této části pracuje s anglickým jazykem, nicméně je snahou zmínit i možnosti pro českého uživatele. Vztahu češtiny a angličtiny se týká i problém, jaké termíny užívat. Stejně jako i v dalších oblastech spojených s výpočetní technikou není česká terminologie příliš ustálená, autoři používají různé české ekvivalenty nebo přímo anglické výrazy. Pro orientaci v problematice je proto v textu uvedeno u definic i několik užívaných pojmů včetně výrazu anglického. Ve výkladu však užívám, až na zkratky a všeobecně známé pojmy, termíny české, neboť se domnívám, že dávají čtenáři nejlepší představu o významu. Shrnutí použitých odborných výrazů je pak uvedeno v terminologickém slovníku na konci práce. 7

8 2 Principy fungování Tato část se bude zabývat teoretickým podkladem a celkovým přiblížením řešené problematiky čtenáři. Začneme definováním a vysvětlením několika základních pojmů, následovat bude objasnění tvorby hlasu u člověka a několika základních lingvistických termínů a krátký exkurz do historie snah lidstva pracovat s řečí. Poté se již budeme zabývat základními teoretickými koncepty fungování jednotlivých částí hlasového uživatelského rozhraní. Po jednotlivých přístupech k tvorbě řeči rozebereme jednotlivé metody rozpoznávání řeči, jejich využití v různých situacích a schématicky také celý proces rozpoznávání. Poslední kapitola stručně nastíní možnosti počítače vést dialog. 2.1 Co je to hlasové uživatelské rozhraní Je složité najít přesnou a ustálenou definici tohoto pojmu, neboť tento způsob ovládání počítače není stále považován za rovnocenný svým dvěma příbuzným: ovládání z příkazové řádky (CLI) a grafickému uživatelskému rozhraní (GUI). Vyjdeme-li však z definic těchto dvou pojmů [ORO1], můžeme hlasové uživatelské rozhraní (Voice User Interface, VUI) definovat jako způsob komunikace mezi lidským uživatelem a počítačovým systémem pomocí řeči. Vstupním zařízením bývá zpravidla mikrofon, výstupním reproduktory nebo častěji uživatel dialog vstup odpověď Počítačový sytém Vstup v interní formě rozpoznání řeči Zpracování rozpoznání řečníka systémem syntéza řeči Odpověď interní formě Obr. 2-1 Základní schéma VUI sluchátka. Důvod, proč by měl VUI vystřídat své předchůdce, je spatřován ve skutečnosti, že řeč je pro člověka komunikací daleko přirozenější, a tak práce s počítačem pohodlnější a rychlejší. Formálně lze celý postup rozdělit do několika fází. Uživatel zadá slovně příkaz a systém provede rozpoznání zadané fráze a předá dál k dalšímu zpracování dle povahy a určení daného systému. Ten pak vygeneruje odpověď, která je syntezátorem řeči převedena na 8

9 uživatelem vnímatelné sdělení. Opakováním takového procesu, s cílem získání informací, nazveme dialogem. Vzhledem k relativní jedinečnosti hlasu každého člověka může celému dialogu předcházet také fáze rozpoznání řečníka, kdy je systém na základě uložených charakteristik uživatelova hlasu schopen jej rozpoznat (to je však nad rámec tohoto výkladu a proto odkazuji čtenáře např. na [CFSLU2]). Celý proces VUI je znázorněn na schématu Obr.2-1. V pravém slova smyslu považujeme za VUI rozhraní, které využívá ke komunikaci pouze řeči. Pakliže totiž probíhá komunikace člověka s počítačem i pomocí jiných prostředků (obrazovky, klávesnice, atd.), hovoříme o tzv. multimodálním rozhraní. Tento pojem však není spojen pouze s využíváním hlasu, ale všeobecně s kombinací jakýchkoli různých prostředků. Více např. [LABMA1]. 2.2 Vytváření řeči člověkem Než se pustíme do zkoumání metod, jak vytvořit nebo naopak analyzovat řeč pomocí počítače, nepochybně stojí za zmínku i způsob, jakým se řeč vytváří přirozeně lidským organismem. Podle [PSUJO1], [WOOKI1], [WIKI1]. Řeč je vytvářena u člověka v řečových orgánech na bázi modulace vydechovaného vzduchu Obr. 2-2 Řečová soustava člověka Podle [WOOKI1] pomocí překážek a změny tvaru dutin těchto orgánů. Vzduch tlačený při běžném dýchání plícemi za pomocí bránice a dalších dýchacích svalů se dostává skrze průdušnice a jícen do hrtanu. V jeho horní části se nacházejí hlasivky, které jsou tvořeny dvěma blánami a uzavírají tak průchod hrtanem. Pomocí chrupek lze však hlasivky proměnlivě napínat, čímž se mění prostor mezi hlasivkami. Podle tlaku vzduchu a napnutí se pak hlasivky rozkmitávají různou frekvencí. Proměnný vzduchový proud je pak v dutině hltanové (hrdle) a ústní nebo nosní modulován tak, že vzniká zvuk. V závislosti na pozici ostatních orgánů (jazyku, zubů, rtů, měkkého patra a dalších) pak vznikají zvuky vzájemně odlišné. 9

10 Frekvence kmitů hlasivek se nazývá základní tón lidského hlasu a je základem všech znělých zvuků, tj. samohlásek a znělých souhlásek (b, d, g, z, v, h, m, n, l, j, r,...). Naproti tomu neznělé souhlásky (p,t, k,s,f,c, ch,...) vznikají modulací proudu, který prošel hlasivkami otevřenými jako u běžného dýchání a nevytvářejí tak hlas. Samohlásky vznikají při plně uvolněný hlasivkách, to znamená, že jimi prochází nejsilnější proud vzduchu, který pak rezonancí s dalšími orgány vytváří charakteristické zesílené zvuky, tzv. formanty. Základní nejmenší jednotkou zvukové stavby schopnou rozlišit význam je z lingvistického hlediska foném. Fonémem však není každá hláska, ale pouze ta, která nese význam. Díky fyziologické nemožnosti řečových orgánů se dostatečně rychle změnit ze stavu produkující jednu hlásku do stavu pro následující, vzniká během přeměny těchto orgánů jev zvaný koartikulace. Ten má za následek, že zvukovou podobu jedné hlásky ovlivňují jak předchozí, tak následující hláska a vzniká tak pro jeden foném několik možných zvuků, alofónů. Jsou to vlastně varianty jednoho fonému lišící se pouze tím, jak je koartikulace změnila. Zjednodušeně to v praxi znamená, že např. hláska ŋ ve slově venku je pouze alofónem fonému n, protože neexistuje dvojice slov, kde by n a ŋ tato slova odlišovala. Jiným příkladem je m ve slovech myš, sláma a semknout. Zaměříte-li se na jejich výslovnost, všimnete si rozdílu mezi nimi. I zde jde o tři různé alofóny fonému m. Díky nesčetnému množství kombinací fonémů, tak existuje i obrovská řada alofónů k jednotlivým fonémům. Blíže to rozebírá např. [WIKI1]. Dále si zavedeme pojem difón. Difón je termín, který je užíván pro označení posloupnosti samohláska-souhláska tak, že difónu odpovídající úsek promluvy se rozšiřuje ze středu samohlásky do středu souhlásky a nebo naopak [PSUJO1]. Pro naše účely pak budeme chápat foném jako společnou část všech jeho alofónů, tj. tu část, která neobsahuje žádné informace o koartikulaci, a alofón a difón jako jednotky vyšší úrovně, které jsou již nositeli koartikulace mezi hláskami. 2.3 Pohled do minulosti Před výkladem další teorie fungování práce s hlasem, určitě stojí za zmínku stručné ohlédnutí za různými přístupy člověka uměle napodobit řeč během času. Náš první výlet do minulosti se bude zabývat lidským snažením uměle vytvořit řeč a to především dřív, než přišli ke slovu počítače. Podle [LAMSA1], [PSUJO1], [KOPIV1], Pokud se budeme snažit popsat historii vývoje, nemůžeme začít nikdy později než asi před dva a půl milionem let, kdy se u Homo habilis začíná objevovat velice jednoduchá řeč. Od té 10

11 doby lidská řeč prošla dlouhým vývojem a přeměnila se z prvotních několika zvuků na složitý komplex hlásek. Patrně zhruba před sto tisíci lety se začali předkové lidí rozšiřovat z Afriky do ostatních částí světa a s přerušením jejich vzájemných kontaktů se způsoby jejich řeči začali víc a víc odlišovat. Došlo ke vzniku různých jazyků [VCOMD1]. Přenesme se ale v čase do dob antiky, kde vznikají první snahy člověka o umělé vytvoření řeči. V tehdejších delfských věštírnách využívali kněží k ovládání a zastrašování obyvatelstva mluvící sochy a bůžky. Prakticky to ale byly skryté trubky, které, když do nich schovaný kněz promluvil, vydávaly hrozivé zvuky. Nešlo sice ještě o umělou řeč, ale jistě to byl jeden z prvních pokusů o její vytvoření. Na její objev si lidstvo ale muselo ještě dlouho počkat. Daleko později, až v šestnáctém století našeho letopočtu učinil všestranný vědec Galileo Galilei první krůček k dosažení cíle, všiml si souvislosti mezi tónem a frekvencí. O dvě století později, roku 1779 v St. Petersburgu, objasnil ruský profesor Christian Kratzenstein vznik dlouhých samohlásek v hlasivkách a sestrojil první rezonátor, tj. mechanický syntezátor na základě rezonance a modelu lidského řečového traktu. Příslušné tvary dutin, které při průchodu vzduchu vydávají samohlásky ilustruje obrázek Obr.2-3. Roku 1791 se dostal vídeňský Wolfgang von Kempelen ještě dál, když představil svůj Obr. 2-3 Kratzensteinův rezonátor (Schroeder 1993) [LAMSA1] akustický mechanický řečový stroj, který rovněž na základě systému trubic a měchů simuloval fungování řečových orgánů. Byl jím schopen napodobit jak samostatné zvuky, tak i některé jejich kombinace. O tom, proč nebyl jeho unikátní vynález brán díky beznohému šachistovi vážně, blíže pojednává [LAMSA1]. Po dalších pokusech s mechanickými syntezátory uvedl Steward roku 1922 první verze elektrického syntezátoru, který produkoval samohlásky. Po dalších vylepšeních a formulaci formantové analýzy byl představen na New Yorské světové výstavě v roce 1939 přístroj VODER sestavený na základě VOCODERu od Bell Laboratories. Ačkoli jím syntetizovaná řeč připomíná spíše kvákání žab (ukázka je k dispozici na [LAMSA1]) a je příliš vzdálena jakémukoli praktickému využití, ukázal VODER směr pro další vývoj. Koncem padesátých a začátkem šedesátých let byly představeny všechny tři hlavní techniky syntézy řeči, jak je známe nyní, o něco později první TTS systém a zohlednění prozodie (tj. souhrnu zvukových vlastností jazyka). Během sedmdesátých let pak bylo k TTS přidáno 11

12 Kurztweilem i čtecí zařízení a v letech devadesátých se začaly objevovat první aplikace využívající umělé inteligence, tj. neuronových sítí (viz terminologický slovník). Většina těchto moderních přístupů však bude obsahem teprve následujících kapitol a tudíž nepokládám za čtenářsky zajímavé se jejich vývoji detailně zabývat. Celý vývoj ilustruje schéma na obrázku Obr Rozpoznávání řeči prodělalo odlišný vývoj. Kvůli své povaze procesu výpočetně nesmírně náročného došlo k rozmachu výzkumu této problematiky až s nástupem počítačů. Nicméně vznik základních přístupů se datuje daleko dříve. Za všechny jmenujme v roce 1822 Homo habilis -2,5 mil Kratzenstein Mluvící sochy 1800 von Kempelen 1.elektrický 1900 VOCODER Artikulační syntéza Syntéza podle pravidel Řetězící syntéza Obr. 2-4 Vývoj snah o syntézu řeči Podle [LAMSA1] 1. TTS Prozodie TTS s čtecím zařízením Neuronové sítě publikovanou Fourierovu analýzu nezbytnou k rozkladu signálu. Už v roce 1952 bylo představeno Davisem rozpoznávání mluvených číslovek.od té doby udělal vývoj nesmírný krok vpřed. Zasloužili se o něj vědci jako např. Jelinek, Vintsyuk, Atal nebo Noll. Zcela jistě nemá smysl na tomto místě předkládat výčet a popis všech metod, teorií a vývojových stádií vývoje rozpoznávání řeči, neboť nebudou ani náplní výkladu. Zájemce o hlubší poznání historie rozpoznávání i syntézy řeči proto odkazuji na literaturu zmíněnou v [PSUJO1]. Jsou to práce [SAINA1] a [SCHMR1]. O syntéze pak i [LAMSA1]. 2.4 Syntéza řeči Lidská řeč je nástroj dorozumívání člověka, který se vyvíjel po stovky tisíc let. Je to proto nástroj komplikovaný jako člověk sám. Už jenom proto, že musíme být schopni postihnout každou myšlenku nebo pocit, kterých je nekonečně mnoho, ovlivňuje i konstrukci řeči nesčetné množství nejrůznějších faktorů jako vlastní emoce, přístup k partnerovy nebo cíl promluvy. Zvážíme-li i fakt, že nejen každý stát, ale i kraj má vlastní specifika řeči, že vzdělání, věk a i pohlaví ovlivňují strukturu řeči, dojdeme k závěru, že zkonstruovat umělý model je nemožné. Naštěstí úroveň poznání dovoluje vytvářet zjednodušené modely řeči a stále se zvyšuje. Existují tři základní přístupy k syntéze řeči: artikulační syntéza, řetězící syntéza a syntéza podle pravidel. Jejich cílem je dosáhnout především co nejvyšší srozumitelnosti a 12

13 přirozenosti. Ačkoli se to na první pohled nemusí zdát patrné, nejedná se o totožné pojmy. Srozumitelnost určuje, jak velké části sdělení posluchač porozuměl. Tuto vlastnost upřednostňují především profesionálové např. u řízení vozidel a nebo osoby vysoce motivované porozumět, tj. např. zrakově handicapovaní občané. Na druhou stranu přirozenost je charakteristika určující, v jaké míře je umělá řeč podobná přirozené. Tento faktor se ukazuje být kritickým především u služeb poskytovaných zákazníkům po telefonu, jako jsou např. objednávkové systémy Artikulační syntéza Artikulační syntéza (articulatory synthesis) se snaží postihnout a dát do souvislosti všechny faktory, jako např. pozici řečových orgánů, působící při tvorbě řeči pomocí fyzikálních vztahů, především pak dynamiky kapalin. Zatím však nebylo touto metodou díky její výpočetní náročnosti dosaženo uspokojivých výsledků, a tak není příliš využívána. Očekává se ale díky vrůstající vyspělostí výpočetní techniky její návrat [WIKI2] Řetězící syntéza Řetězící syntéza (Concatenative syntesis) je založena na řetězení zvukových úseků uložených v databázi. Proto také bývá tento přístup v literatuře označován jako přístup založený na korpusu (corpus based approach), kdy vstupní data jsou vkládána z mohutných souborů hlasových nahrávek. Díky tomu je nutné vytvořit pro různé hlasy systému i různé soubory nahrávek. V nejjednodušší podobě můžeme průběh této metody chápat jako rozstřihání zvukové nahrávky na malé jednotky, které jsou pak skládány (řetězeny) do nového výrazu. Vzhledem k tomu, že např. v anglickém jazyce můžeme nalézt více než slabik, je dokonce i dělení na slabiky příliš náročné. Považování celých slov za základní jednotky by bylo u systému určených pro volnou řeč s ohledem na jejich množství a požadavek na flexibilitu systému u nových výrazů naprosto nevyhovující. Tento přístup je možný pouze u systémů s omezeným slovníkem jako je např. hlášení času, příjezdů a odjezdů vlaků nebo telefonické informace o kulturním programu. Díky přirozenému vzniku jednotek se však tato metoda vyznačuje v porovnání s ostatními nejvyšší přirozeností. Na druhou stranu však při jejím použití dochází někdy k charakteristickým zřetelným nepřirozeným přechodům mezi jednotlivými jednotkami [CFSLU1] a [WIKI2]. Některé zdroje (např. [WIKI2]) uvádějí tři různé přístupy k této metodě: syntéza výběru jednotek (unit selection synthesis), syntéza difónu (diphone synthesis) a syntéza výrazů 13

14 specifické oblasti (domain-specific synthesis), ale domnívám se, že druhé dvě zmiňované jsou specifickými variantami prvního přístupu, a proto je nebudu rozebírat samostatně Syntéza výběru jednotek Při implementaci této metody vybírá specializovaný algoritmus z korpusu většinou na základě závěrů ze statistické analýzy jazyka jednotky řeči. Těmi mohou být podle účelu použití libovolně dlouhé úseky. Čím však jsou tyto jednotky delší, tím vyšší přirozenosti je při následné syntéze dosaženo, neboť obsahují určitý stupeň koartikulace a není tak potřeba aplikovat v následné úpravě všechna koartikulační pravidla. Nejmenší jednotkou je foném, který neobsahuje žádné informace o artikulaci. Alofón a difón jsou jednotky vyšší úrovně, které jsou již nositeli koartikulace mezi hláskami. Další vyšší úrovní je pak použití slabik, které nejenže obsahují informaci o přechodu mezi její samohláskou (v češtině i slabikotvornými souhláskami r a l ) a souhláskami, ale např. i o rytmu a přízvuku. Výstup ze systému je pak mnohem přirozenější. Nevýhodou této techniky však představuje nesmírné množství různých obměn slabik, a tak i náročnost na paměťové prostředky počítače a především na přípravu katalogu jednotek. Když uvážíme, že je v češtině možno nalézt slabiky pouze o jedné hlásce, ale i o šesti, a tak více než různých slabik (např. v angličtině je toto číslo obdobné), stává se katalogizace všech jednotek téměř nemožnou. Při této přípravě také dochází k problému, jak rozdělit slabiky, když jedna končí a druhá začíná souhláskou, neboť zatím nedošlo k všeobecnému souhlasu odborníků na tuto problematiku. Nejvyšší jednotkou by mohla být slova, ale vzhledem k počtu slov v jazyce a jako např. v případě češtiny mnoha morfologickým tvarům jednoho výrazu je tato varianta možná u systémů, kde omezená slovní zásoba není překážkou (syntéza výrazů specifické oblasti). Přehled jednotlivých možností a jejich výhod a nevýhod shrnuje tabulka Tab.2-1. Někdy se také hovoří o hybridní syntéze, která využívá řetězení jednotek, ale navíc se také snaží eliminovat charakteristické poruchy na hranicích jednotek pomocí aplikace pravidel využívaných především formantovou syntézou, jejíž přiblížení následuje [CFSLU1] a [PSUJO1]. 14

15 Jednotka řeči + - Foném Alofón Difón Slabika Slovo, fráze, věta Malá velikost katalogu Obsahuje koartikulaci mezi fonémy Snazší určování konce slov Obsahuje koartikulaci mezi fonémy Obsahuje koartikulaci, přízvuk, rytmus Vysoká přirozenost Tab. 2-1 Přehled jednotek řeči Žádná koartikulace Složité ho ze slova extrahovat Katalog v řádu stovek jednotek Složitost aplikace fonetického přepisu Několik tisíc jednotek Problémy s určením hranice Více než jednotek Problémy s neznámými slovy Obrovský katalog Syntéza podle pravidel Tento přístup (rule-based synthesis) známý také pod pojmem formantová syntéza (formant synthesis) narozdíl od řetězení nevyužívá více či méně rozsáhlého slovníku zvukových záznamů, ze kterých skládá projev, ale generuje ho na základě uloženého fonetického modelu. Tento model je soubor veličin popisujících řeč jako základní tón hlasu, znělost hlásek, intenzita zvuku nebo různé šumy. Z nich je generována základní zvuková vlna, na kterou jsou uplatněna s cílem zvýšit přirozenost ještě pravidla koartikulace, důrazu, rytmu, intonace, a dalších prozodických veličin. Tato parametrizace umožňuje flexibilní změny hlasu, takže měnit zabarvení, výšku, rychlost hlasu nebo použití nejrůznějších zvukových efektů jako např. ozvěna nebo šepot není problémem a neomezuje také uživatele na použití pouze jednoho hlasu, nebo nutnosti disponovat několika soubory záznamů. Ačkoli výstup této syntézy nezní nikdy tak přirozeně jako s využitím řetězící, je při srovnatelné srozumitelnosti výrazně rychlejší, což ji upřednostňuje v aplikacích např. pro zrakově postižené, kde je potřeba rychlá odezva. Další výhodou je díky absenci rozsáhlého slovníku poměrně nízká náročnost na paměť a tudíž využitelnost v mobilních zařízeních jako jsou PDA, mobilní telefony, zařízení pro navigaci apod. 15

16 2.4.4 TTS systémy Aplikací výše zmíněných přístupů jsou tzv. TTS systémy (Text To Speech). Ty přijímají vstup ve formě textu a převádění jej do zvukové podoby. Jsou využívány především v aplikacích pro zrakově postižené jako čtečky obsahu na monitoru. V těchto případech musí text nejprve vstup Nom. HDP klesnul o 4%. Nominální hrubý domácí produkt klesnul o čtyři procenta. Nominální hrubý domácí produkt klesnul o čtyři procenta text lexikální pravidla prozodická pravidla výstup syntéza řeči fonetická transkripce nominálňí hrubí domácí prod ukt klesnul očtyři procenta Obr. 2-5 Schéma TTS projít několika úrovněmi předzpracování, než je pomocí jedné z výše uvedených metod přeměněn na řeč. Celý proces schématicky ilustruje obrázek 2-5. Na počátku přijme TTS systém vstupní text. Může to být text zadaný uživatelem pomocí klávesnice, ale častěji to bude text z elektronické knihy, textového procesoru nebo webového prohlížeče. Ten obsahuje nejrůznější znaky a zkratky, které musí být nejprve aplikací lexikálních pravidel převedeny do formy, ve které jsou běžně vysolovány. Následně jsou na text uplatněna prozodická pravidla, která se vztahují k slovnímu a větnému přízvuku, melodii věty apod. Během následující fáze, fonetické transkripce, je text převeden na řetězec vybraných jednotek řeči (na obrázku 2-5 alofónů) a symbolů pro pauzy, slovní přízvuk ( a ) a jiné prozodické značky. Ten je potom vstupem do syntezátoru řeči popsaném výše, ze kterého je výstupem již záznam zvukové vlny, který je technickým vybavením počítače reprodukován uživateli. Patrně nejsložitějšími úkoly TTS je interpretace mnohoznačných výrazů, neboť systém nezná, nebo lépe řečeno nerozumí, kontextu výpovědi. K prvnímu střetu s tímto problémem dochází během převodu zkratek na jejich plné významy, a tak může docházet k nesmyslným interpretacím. Například větu Včera mi ujel bus. by systém v dobré víře, že se jedná o mezinárodně uznávanou zkratku objemové míry interpretoval jako Včera mi ujel bushel.a určitě bychom přišli i na lepší příklady. Také u převodu čísel se může TTS prohřešit vůči 16

17 všeobecným konvencím, protože neví, zda řadu čísel má přečíst jako PSČ , číslovku čtrnáct tisíc pět nebo jako jedna čtyři nula nula pět. K podobným nedorozuměním dochází vlivem neznalosti kontextu i ve fázi fonetické transkripce u slov označovaných jako homografy. To jsou ta slova, která se stejně píší, ale odlišně vyslovují. Na rozdíl od angličtiny (read přítomný čas [ríd], ale minulý [red]) jich však v češtině až na všeobecně známý konflikt panický (vyslovováno s n nebo ň ) mnoho nenajdeme [TICJA1]. Tato nedorozumění by bylo možné eliminovat pouze, kdyby systém rozuměl kontextu, čehož je snaha dosáhnout buď pomocí nejrůznějších heuristik, nebo umělé inteligence. Fonetická transkripce nemusí být vždy tak snadná jako v případě češtiny, ve které je výslovnost pravidelná a psaná forma se příliš neliší od mluvené. Je tudíž možné zformulovat pravidla pro čtení a jen výslovnost několika např. cizích slov uvést ve slovníku výslovnosti, který pak systém k přepisu použije. Avšak u jazyků jako anglický je daleko výhodnější naplnit slovník výslovností všech slov a pouze některé, pravidelné či nové a zatím neznámé, výrazy hodnotit podle pravidel [LABMA1]. Další informace o syntéze řeči např. ve zdrojích použitých v těchto kapitolách, tj. [CFSLU1], [WIKI2], [PSUJO1] a [LABMA1]. 2.5 Rozpoznávání řeči Pakliže jsme mohli kvalitu syntézy řeči posuzovat podle víceméně subjektivních měřítek, kterými jsou srozumitelnost a přirozenost, rozpoznávání řeči je posuzováno pouze podle jednoho, objektivně zřejmého ukazatele. Rozumí mi to vlastně? je patrně jediná otázka, kterou si bude klást uživatel systému pro automatické rozpoznávání řeči (automatic speech recognition - ASR). Všechny různé technologie a přístupy na pozadí toho systému jsou tak hodnoceny neúprosným ukazatelem efektivity na výstupu. Co však musí takový, bezpochyby velice komplikovaný, systém provést, aby rozuměl tomu, co mu uživatel říká? Na to se podívejme v této kapitole. Nejprve vysvětlím základní pojmy této problematiky, následovat bude nezbytná klasifikace těchto systémů podle složitosti a účelu použití a pak se zaměříme na jednotlivé fáze procesu rozpoznávání. 17

18 2.5.1 Základní pojmy Každý systém pracuje se slovníkem (v tomto smyslu se užívá i výraz gramatika), jak označujeme daný okruh výrazů, které zná a je je schopen rozpoznat. Existují systémy s kapacitou slovníku v řádu jednotek, ale i desítek tisíců položek. Každá položka je výraz, tj. záznam s jedinečným významem pro systém, který je jím brán jako celek. Tím může být slovo, fráze nebo i celá věta. Kvalita ASR se posuzuje podle přesnosti, tj. poměru správně určených výrazů a všech vložených. Tento poměr závisí na určení systému, velikosti slovníku, hlučnosti prostředí a dalších faktorech, kterým se dostaneme později. Jedním z faktorů ovlivňujících přesnost je i trénink. Některé systémy ho vyžadují před použitím naostro. Většinou probíhá tak, že uživatel čte daný text a systém, vzhledem k tomu, že víc, co uživatel říká, může toto porovnávat s obsahem svého slovníku a upravovat své proměnné podle zjištěného rozdílu (dochází k přizpůsobení systémů, viz kapitola ). Koneckonců každý člověk mluví jinak rychle, s různou intonací a přízvukem. Je možná i varianta, že uživatel vyslovuje některý výraz diametrálně odlišně. Systém pak do uživatelova slovníku přidá tuto alternativu a v budoucnu s ní počítá. Koncepce tréninku je však založena na předpokladu, že slovní projev uživatelů je v čase konzistentní, tj. že uživatel mluví stejně při tréninku a pak při každém použití. Z toho vyplývá, že ASR vyžadující trénink jsou poté schopny pracovat pouze s daným uživatelem. Naopak s jinými mohou pracovat bez omezení různí uživatelé. Tato vlastnost, závislost na uživateli, je důležitou charakteristikou ASR [WIKI4] Klasifikace ASR Jelikož složitost systému a požadavky na použité technologie závisí především na typu vstupu, který systém zpracovává, rozdělme si je do několika teoretických tříd podle rostoucí náročnosti na zpracování [COOST1] Izolované výrazy Jeden z nejsložitějších problémů jak v syntéze, tak i v při rozpoznávání řeči, představuje koartikulace mezi slovy. Za prvé je díky ní nesmírně složité určit hranice mezi jednotlivými výroky, protože jsou mnohdy vysloveny najednou a splývají v jeden. Dále se pak také prokázalo, že slovo vyslovené samostatně a v kontextu se liší. Hlavním rozdílem je rychlost, a tak i délka jednotlivých hlásek, což má někdy za následek až nevyslovení hlásky. To pak 18

19 znatelně ztěžuje porovnávání se vzory ve slovníku. Z těchto důvodů jsou logicky systémy, které dostávají jako vstupní data izolované výrazy, podstatně jednoduší Spojené výrazy V tomto případě je systém schopen pracovat se spojenými výrazy, které jsou odděleny jen minimálními pomlkami. Slova jsou zde již vyslovována propojeně, ale stále ještě nejde o souvislou řeč jako u následují třídy Souvislá řeč Jestliže je ASR schopen přijímat souvislou, řeč může uživatel kontrolovaně, ale téměř přirozeně mluvit. Na této úrovni už systém musí umět automaticky hledat hranice mezi známými výrazy a ty pak samostatně dále zpracovávat. Ačkoli je takový systém již velice vyspělý neumí se vyrovnat s některými zvláštnostmi přirozené řeči, které řeší až model spontánní řeči. Současně se s přechodem na souvislou řeč objevuje požadavek na zpracovaní dalších informací obsažených ve spojité promluvě, které se u nižších úrovní nevyskytovaly. Jedná se o intonaci, která určuje, zda je výrok otázkou či oznámením. Tento faktor má pak při použití systému k diktování (viz dále) dopady na interpunkci, která musí být zatím, vzhledem k tomu, že tento problém nebyl dosud spolehlivě vyřešen, zadávána uživatelem explicitně pomocí klíčových slov tečka nový odstavec Některých bodů k dosažení této úrovně v praxi bylo již dosaženo, avšak stále zůstává splnění všech těchto předpokladů spíše cílem pro budoucí vývoj. Nicméně k hodnocení dostupných implementací se ještě dostaneme v druhém oddílu práce Spontánní řeč Jako další teoretický stupeň se je označována schopnost pracovat s přirozenou spontánní řečí. Systém je schopen se zde plně vyrovnat nejen se spojováním slov ale i s nežádoucími prvky řeči jako jsou nejrůznější výplně času ( ehm ) nebo dokonce poruchy řeči. Zatím je ale o tomto stupni uvažováno pouze na teoretické úrovni, neboť zatím nebyl úspěšně realizován Šumy prostředí Z hlediska obtížnosti zpracování vstupního zvuku hraje okolní prostředí uživatele nezanedbatelnou roli. Tyto šumy nemusí být způsobeny pouze elementy vnějšího světa, které vytvářejí hluk. Mohou být způsobeny také způsobem záznamu zvuku a to jak technického rázu, jako je kvalita mikrofonu nebo telefonu a přenosové sítě při komunikaci telefonem, ale i na straně uživatele, kde např. pozice mikrofonu hraje významnou roli, protože hlasité výdechy, skřípání zubů nebo mlaskání podstatnou měrou ztěžují práci systému. Ten 19

20 totiž dostává na vstupu jeden zvukový záznam, zvukovou vlnu, která obsahuje smíchané jak žádoucí tak i nežádoucí zvuky, a ty je pro něj složité od sebe odlišit. Tyto ruchy navíc hrají ještě další negativní roli při hledání hranic mezi výrazy, kde ruchy překrývají očekávané pauzy s minimální úrovní intenzity zvuku. Schopnost systému vyrovnat se s rušivými vlivy a všeobecně s rozdíly mezi zpracovávanými daty a vzorovými daty (např. při změně řečníka) se nazývá robustnost systému. Je řešena speciálními algoritmy pro přizpůsobení systému a filtrování vstupu, ale i stálým zlepšováním statistických metod, na kterých je rozpoznávání založeno (tj. skrytých markovových modelů). Blíže o tom [CFSLU1] a [IDIAP1] Využití ASR Jak jsme zjistili v předchozí kapitole, existuje několik úrovní složitosti systémů ASR. Vzhledem k výši investic do vývoje systémů schopných rozpoznat řeč a jejich náročnosti na technické vybavení strojů, ve kterých pracují, je pochopitelné, že jsou tato zařízení vybavena pouze nezbytnými a dostačujícími vlastnostmi. V této kapitole se podívejme na oblasti, kde se systémy ASR používají [COOST1] Diktování Diktování neboli přepis či transkripce využívá schopnosti systému rozpoznávat souvislou řeč. Nejenže počítač píše to, co je mu diktováno, ale je i možné zadávat pomocí klíčových slov příkazy pro editaci textu ( vymaž, vymaž poslední tři slova ), pro vkládání interpunkce, speciálních znaků a dalších formátujících údajů ( tečka, otazník, zavináč nebo nový odstavec ). Další množství funkcí pro formátování textu ( velké písmeno, označ poslední větu nebo změň písmo na Arial velikost 10 ) je k dispozici po uvedení příkazu speciálním klíčovým slovem ( počítači, ), aby systém poznal, že se jedná o příkaz a nikoliv další slovo k přepisu. Problémem těchto systémů je nutnost rozsáhlého slovníku výrazů ze všech možných oblastí lidského počínání. Zvlášť jsou proto nabízeny ASR pro lékařské, právní a další specializované oblasti. Tyto systémy jsou závislé na uživateli a vyžadují předchozí trénink Command&Control Tyto poměrně jednoduché ASR jsou určené pro ovládání prostředí operačního systému nebo aplikací. Díky relativně malému množství příkazů, které musí být schopné rozeznat, nevyžadují před použitím žádný trénink a jsou schopné pracovat s různými uživateli. Využití 20

21 naleznou jako doplněk ke zrychlení práce nebo u lidí, kteří z důvodu zaměstnanosti nebo postižení nemohou používat ruce. Jsou víceméně hlasovými horkými klávesami a typickými příkazy mohou být např. otevři Word nebo vpřed a zpět v Internetovém prohlížeči. Speciálním případem těchto systémů je i využití u přístrojů jiných, než jsou počítače, k zadávání povelů, jsou to tzv. embedded ASR. o Embedded (vložený, začleněný) ASR tento běžně používaný cizí pojem označuje ASR, které jsou součástí zařízení nejen podobných počítači jako mobilní telefony a PDA, ale v dnešní době i autorádia, přístroje pro navigaci, lednice a další. Jelikož uživatel nemusí mačkat tlačítka a při využití i hlasového výstupu ani sledovat display, může se téměř plně věnovat jiné činnosti jakou je např. řízení auta. o Extrémním, avšak učebnicovým, případem je využití hlasového rozhraní u počítačů, které se ze své povahy nosí na těle (tzv. body-worn computers). V těchto případech by uživateli použití běžného počítače, který zaměstnává ruce zcela znemožnilo práci. Pro ilustraci takovým zařízením je headset s kamerou a brýlemi, ve kterých se technikovi zobrazují instrukce, plán budovy nebo termovize. Obr. 2-6 Rockwell's Trekker [COMDIC1] Interaktivní hlasová odezva Tento pojem (Interactive Voice Response - IVR) zahrnuje všechny aplikace dostupné přes telefon, kde volající komunikuje s automatickým systémem místo telefonního operátora. Typicky si vybírá z několika možností a prochází tak menu. V současné době jsou užívány dva způsoby komunikace s takovým systémem a to buď pomocí tónové volby (DMTF systém komunikace s ústřednou, novější alternativa k dříve používané pulsní volbě) nebo ASR. Příkladem mohou být zákaznické linky, informační systémy o programu kulturních akcí, odjezdu a příjezdu vlaků, objednávání vstupenek a v některých zemích třeba i hlášení stavu plynoměru a další. Úroveň těchto ASR se různí podle účelu dané aplikace. Od jednoduchých ovládaných pomocí omezeného množství příkazů až po sofistikované systémy pracujícími s téměř přirozenou řečí, kde systém na základě empirického výzkumu vztahu mezi užitými slovy a problémy volajících rozhodne o přepojení na patřičného operátora či 21

22 sleduje vlastnosti hlasu volajícího při volbách v menu a v případě, že zaznamená nežádoucí emoce jako rozčílení nebo roztrpčení, nabídne přepojení na živého operátora. Výhodou takového zpracování je jeho dostupnost 24 hodin denně, nižší provozní náklady a eliminace ostychu některých zákazníků několikrát požádat o zopakování informací. Také ve srovnání s dnes velice rozšířenými systémy pracujícími s tónovou volbou nabízejí daleko větší pohodlí komunikace, neboť místo složitých menu může uživatel přímo zadat klíčové heslo pro žádanou položku. Na druhou stranu nižší komfort komunikace daný u jednodušších ASR s omezeným počtem rozpoznatelných výrazů a přesně danou formou očekávané odpovědi v porovnání s živým operátorem znevýhodňuje tyto systémy v oblastech, jako je třeba bankovnictví. Zprovoznění komplikovanějšího ASR také představuje vysoké investiční výdaje. Výrazným specifikem užití ASR v tomto pojetí je, v porovnání s použitím mikrofonu připojeného přímo k počítači, nižší kvalita zvuku způsobená nižší kvalitou přenosu v telefonních sítích a navíc ve většině případů i šumy přicházejícími z prostředí volajícího [WIKI3]. To pak musí být řešeno větší robustností systému Systémy pro handicapované Zcela specifickou oblastí jsou ASR pro tělesně postižené. Využití najdou u lidí s omezením pohybového ústrojí jako náhrady klávesnice a myši nebo u sluchově postižených k přepisu např. telefonních hovorů. Jejich přednostmi musí být především rychlost zpracování a snadné ovládání Principy fungování Po vysvětlení základních pojmů a klasifikací se podívejme na proces zpracování řeči (podle Zdrojová věta Přenosový kanál s šumy Věta s šumy Dekodér Odhad původní věty If music be the food of love...?alice was beginning to get...?every happy family...?in a hole in the ground...?if music be the food of love...?if music be the foot of dove... If music be the food of love... Obr. 2-7 Funkce ASR na základě [GAWJM1] [GAWJM1], [INDINF1] a [WIKI4]). Na počátku tohoto procesu je úsek řeči, na konci očekáváme odpovídající reakci počítače, kterou může být jak provedení příslušného příkazu nebo prostý výpis textu v textovém editoru. Mezitím se však musí sytém vypořádat s mnoha komplikujícími faktory. Jsou jimi především ruchy prostředí, odlišnosti slovního projevů lidí 22

23 a i specifické znaky řeči všeobecně, jakým je např. vázání slov. Některé další byly zmíněny výše, výklad jiných bude následovat. Tuto problematiku ilustruje obrázek Obr.2-7. Zaměřme se tedy nyní detailně na jednotlivé fáze procesu rozpoznávání, od vstupní promluvy až po výstupní rozpoznaná data. Celý tento proces je schématicky zachycen na obrázku Obr Zpracování signálu Ať je vstupním zařízením cokoli, vždy stojí na počátku mikrofon. Buď připojený k osobnímu počítači, nebo jako součást např. telefonu. Z mikrofonu je podle druhu zařízení zvuk veden až do počítače, kde má být zpracován a v něm se dostává do zvukové karty v analogové podobě, tj. jako změny napětí na vodiči. Takový signál musí být nejprve převeden do digitální podoby tzv. vzorkováním (sampling) nečastěji pomocí techniky, která se nazývá pulsní kódová modulace (Pulse Code Modulation - PCM). Vzorkování spočívá v zaznamenávání stavu vstupního signálu v pravidelných intervalech. Kolikrát za sekundu tak bylo učiněno vyjadřuje tzv. vzorkovací frekvence (sampling rate) a její hodnota je nejčastěji pro účely ASR 16 khz (tj. je uloženo hodnot signálu za sekundu). Telefonní spojení vzorkuje signál pouze frekvencí 8kHz a představuje tak horší kvalitu zvuku Rozklad na frekvenční pásma Obr. 2-8 Schéma procesu ASR inspirace [INDINF1] a [LABMA1] V další fázi je digitalizovaný zvuk, který je složen z vln mnoha frekvencí, rozložen pomocí rychlé Fourierovy transformace (Fast Fourier Transformation) na jednotlivé frekvence. Každý výrok je tak charakterizován těmito frekvencemi. 23

24 Dekodér řeči Z předchozího kroku máme k dispozici seznam frekvencí extrahovaných ze zkoumaného výroku. Ty je nyní možno porovnat s výčty frekvencí určujících jednotky řeči uložené v databázi 1 a sestavit akustický model, se kterým ze zvukového záznamu získáme posloupnost fonémů. Tento model také představuje prostředek, jak zahrnout odlišná prostředí mluvčího.následně pak pomocí jazykového modelu získáme z posloupnosti fonémů posloupnost slov. Jak si ukážeme později, takové transformace nejsou jednoznačné, a tak je nutno celý tento proces řešit statistickými metodami (např. skryté Markovovy modely (Hidden Markov Model)). Řešení je získáno až kombinací pravděpodobností z obou modelů a předáno aplikaci k vyhodnocení příslušné reakce Akustický model ASR vyžaduje pro své fungování co největší množství vzorků jednotlivých jednotek řeči, se kterými by porovnal zpracovávaný záznam. Protože však jeden foném, jak bylo zmíněno v předcházejících kapitolách, může mít v závislosti na okolních hláskách různé podoby, má systém takové variace uloženy. Nesmí být ani zapomenuto na varianty, kde se daný foném nachází na začátku nebo konci slova, neboť tak lze nalézt hranice mezi slovy, které často splývají při řeči v jedno. Rovněž může jeden zvuk vyjadřovat různé fonémy nebo spíše jejich skupiny. Tato možnost je typická spíše pro jiné jazyky jako je např. angličtina, a proto uvádím v tabulce příklad z [GAWJM1]: Slovo the Kontext in the ( [ih n n iy]) neat neat little ( [n iy l ax ]) need need to ( [ n iy t ax ]) new New York ( [ n iy y axr k ]) knee knee ( [n iy ]) to talking to you ( [t ao k ih n iy uw ]) Tab. 2-2 Slova, která mohou být vyslovena podle SwitchBoard Corpus s [n iy] 1 V této kapitole budeme se budeme zabývat nejsložitější variantou a za jednotky považovat fonémy. U jednodušších systémů jimi mohou být slova nebo i celé fráze. Tam se pravděpodobnost shody se určuje odlišným způsobem, tj. přímým porovnáním pomocí určení vzdálenosti vzoru a zachyceného výroku. 24

25 Očividně nemá systém pro rozpoznávání práci jednoduchou, neboť existence těchto mnohoznačností zcela vylučuje jednoznačné přiřazení zvuků k fonémům. ASR proto nejprve vytvoří několik řetězců z jednotek z databáze a vyhodnotí pravděpodobnosti, se kterými odpovídají zpracovávanému výrazu. Sestaví tak tzv. akustický model Jazykový model Jelikož však nejsou všechny varianty zřetězení fonémů stejně pravděpodobné, může na základě statistického průzkumu rozsáhlých korpusů některé řetězce upřednostnit, ačkoli jejich shoda se zkoumaným výrazem je nižší. Např. trigram (trojice písmen) pro se v češtině vyskytuje více než 3krát častěji než spo [NLP1] a nesčetněkrát častěji než třeba bezvýznamné xlr. To samé platí pro slova, takže řetězec odpovídající slovu z databáze bude upřednostněn před neznámou skupinou fonémů. Tyto pravděpodobnosti pak tvoří jazykový model, jehož rozsáhlost je vždy kompromisem mezi přesností rozpoznávání a rychlostí zpracování. Proto jsou mnohdy během rozhovoru používány různé modely podle kontextu. Speciální funkci mají u command&control ASR, v němž jsou pomocí nich určeny přípustné příkazy v dané situaci (nepřípustné varianty řetězců mají pravděpodobnost určenou na 0). Protože jsou tak jazykové modely vlastně částí pouze aplikace využívající ASR systém, běžně se nepovažují za součást ASR samotného Přizpůsobení Před použitím diktovacích ASR závislých na uživateli je nutné provést trénink. Uživatel vyslovuje fráze dané systémem, který je zpracuje výše uvedeným způsobem. Jelikož však ale zná původní frázi, může ji porovnat s výsledkem rozpoznávání a podle toho pozměnit parametry akustického modelu. Důvodem pro tyto změn jsou odlišnosti v řeči různých lidí jako rychlost, přízvuk a někdy i odlišná výslovnost některých slov. Během běžného používaní může systém na základě analýzy používaných výrazů pozměnit i jazykový model, tj. upravit pravděpodobnosti výskytu jednotlivých výrazů. Tímto způsobem může být model rozšířen i o úplně nové výrazy. 2.6 Dialogový manažer Vrátíme-li se k obrázku 2-1, je z něj patrné, že třetí významnou složkou komunikace člověka řečí se strojem je dialogový manažer, který se stará o interaktivní chování počítače. U command&control a diktovacích systémů se setkáme spíše s jednoduššími formami, díky kterým je možné odlišit různé kontexty promluvy (např. práce v příkazovém nebo diktovacím modu ASR pro diktováni, či u C&C použití příkazu najdi při práci v textovém procesoru 25

26 k vyhledání slova, ale ve správci souborů k vyhledání souboru). Dialogové manažery jsou tak nezbytné především v systémech interaktivní hlasové odezvy (IVR, viz předchozí kapitola), kde je jejich funkcí [CENPA1]: 1. Koordinovat všechny komponenty (ASR, syntéza, gramatiky) 2. Udržovat reprezentaci aktuálního stavu dialogu 3. Komunikovat s externími aplikacemi 4. Rozhodovat o dalším kroku dialogu Ze všech přístupů k řešení této problematiky si vyberme k ilustraci fungování dialogového manažeru kvůli její názornosti a jednoduchosti koncepci konečně stavových dialogových systémů. Ta je založena na představě, že je dialog množina vzájemně propojených stavů, kde každý způsob průchodu takovým řetězcem stavů je varianta dialogu. Dialog si je pak možné představit, s trochou nadsázky, spíše jako výslech než rozhovor, kde je iniciativa na straně systému, který klade přesně podle připraveného schématu otázky a očekává na ně odpovědi, ze kterých je však schopen, narozdíl od svých komplikovanějších příbuzných, využít pouze odpověď na danou otázku v daný okamžik (tj. že neposlouchá celou dobu, ale jen v určené okamžiky). Příklad grafické reprezentace ilustruje schéma zjednodušeného systému pro Dobrý den. Vítejte na Vlakolince pro informace o železničních spojení po telefonu. Pro nápovědu kdykoli řekněte NÁPOVĚDA, pro nové hledání řekněte ZPĚT. Pakliže si přejete V jaké stanici chcete nastoupit? ZPĚT ZPĚT Jako nástupní stanici NÁPOVĚDA $nástup Zadejte čas, kdy NÁPOVĚDA $čas V kolik hodin? ZPĚT ZPĚT Jako výstupní stanici Do jaké stanice chcete jet? $výstup NÁPOVĚDA Nashledanou NE NÁPOVĚDA ANO Aplikační rozhraní Přejete si slyšet čas odjezdu následujícího vlaku? Vlak odjíždí z $nástup v $čas_odjezdu a je v $výstup v $čas_příjezdu $čas_odjezdu $čas_příjezdu $nástup $čas $výstup Obr. 2-9 Schéma jednoduchého dialogu databáze podávání informací o vlakových spojení (Obr.2-9). Není v něm však zachycen proces kontroly hlasového vstupu, kdy systém nerozumí a vyzve uživatele k znovuzadání údajů. Pro bližší seznámení s tématem odkazuji např. na [CENPA1] nebo [LABMA1]. 26

Zobrazit více