Úroveň využití hlasového uživatelského rozhraní
|
|
- Františka Hájková
- před 7 lety
- Počet zobrazení:
Transkript
1 Abstrakt Tato práce rozebírá hlasové uživatelské rozhraní, respektive komunikaci člověka se strojem pomocí řeči. Cílem je zlepšit orientaci čtenáře v základních teoretických přístupech této problematiky, identifikovat hlavní softwarové produkty a zhodnotit současnou úroveň jejich využitelnosti. Důraz je přitom kladen na vymezení kritických faktorů, které brání masovému rozšíření těchto technologií mezi běžnými uživateli. Práce je rozdělena do dvou částí. První část je věnovaná seznámení se základními pojmy, východisky a principy fungování hlasového uživatelského rozhraní a jeho tří hlavních částí: systému pro syntézu řeči, pro rozpoznávání řeči a dialogového manažeru. V druhé části je uvedena charakteristika konkrétních produktů využívajících syntézu nebo rozpoznávání řeči se zaměřením především na ty, které jsou určeny pro obecné použití na osobních počítačích. Je zde zařazena rovněž kapitola o současném stavu a možnostech využití hlasového rozhraní u zrakově postižených. Závěrečné kapitoly se věnují dalším variantám použití, avšak zejména z pohledu uživatelů telefonů. 1
2 Abstract This study focuses on the voice user interface, that is the communication between a human and a machine using speech. The aim is to contribute to reader s familiarity with basic theoretical approaches to the topic, to identify main software products and to assess their present level of usability. A recognition of crucial factors hindering mass utilization of such technologies by common users is included as well. The work consists of two parts. The goal of the first one is to introduce basic terms and principles of the functionality of the voice user interface and its three main parts: a system for speech synthesis, for speech recognition and a dialog manager. In the second part, characteristics of particular products based on the speech synthesis or recognition will be given, especially of those designed for general use on a PC. A chapter examining current situation and possible progress in the usage of the voice user interface by the visually impaired people follows. The last chapters study other possible utilities, where an adequate attention is paid especially to those bringing advantage to telephone users. 2
3 Obsah ABSTRAKT 1 ABSTRACT 2 OBSAH 3 1 ÚVOD 6 2 PRINCIPY FUNGOVÁNÍ CO JE TO HLASOVÉ UŽIVATELSKÉ ROZHRANÍ VYTVÁŘENÍ ŘEČI ČLOVĚKEM POHLED DO MINULOSTI SYNTÉZA ŘEČI ARTIKULAČNÍ SYNTÉZA ŘETĚZÍCÍ SYNTÉZA Syntéza výběru jednotek SYNTÉZA PODLE PRAVIDEL TTS SYSTÉMY ROZPOZNÁVÁNÍ ŘEČI ZÁKLADNÍ POJMY KLASIFIKACE ASR Izolované výrazy Spojené výrazy Souvislá řeč Spontánní řeč Šumy prostředí VYUŽITÍ ASR Diktování Command&Control Interaktivní hlasová odezva Systémy pro handicapované 22 3
4 2.5.4 PRINCIPY FUNGOVÁNÍ Zpracování signálu Rozklad na frekvenční pásma Dekodér řeči Akustický model Jazykový model Přizpůsobení DIALOGOVÝ MANAŽER 25 3 VYUŽITÍ V PRAXI TTS APLIKACE SYNTÉZY PODLE PRAVIDEL APLIKACE ŘETĚZÍCÍ SYNTÉZY Microsoft TextAloud IBM Neospeech AT&T Labs Realspeak SpeechTech SHRNUTÍ ASR OPERA IBM VIAVOICE IVOS WAVE TO TEXT MICROSOFT OFFICE XP DRAGON NATURALLYSPEAKING PHILIPS ASR V ČEŠTINĚ SHRNUTÍ NEJBLIŽŠÍ ZMĚNY ZRAKOVĚ POSTIŽENÍ 38 4
5 3.4.1 SLABOZRACÍ UŽIVATELÉ NEVIDOMÍ UŽIVATELÉ SHRNUTÍ BLIND FRIENDLY WEB TELEFONY EMBEDDED ZAŘÍZENÍ IVR SLUŽBY 44 4 ZÁVĚR 45 5 ZDROJE INFORMACÍ 47 6 TERMINOLOGICKÝ SLOVNÍK 51 5
6 1 Úvod Již od počátků vědecko fantastické literatury se počítače na obřích vesmírných plavidlech či v super tajných počítačových centrech vyznačovaly mimo své inteligence i neuvěřitelně vyspělými komunikačními schopnostmi. Od času prvních z těchto románů prošly věda a technika rychlým vývojem a byly tak jedněmi z nejvýznamnějších faktorů při přetváření celé společnosti, Tak, jako se lety do vesmíru staly skutečností a úžasně výkonné počítače rovněž přestaly být doménou pouze vědecko fantastických úvah, se můžeme zamyslet i nad současnou úrovní vývoje způsobu komunikace člověka se strojem. Od spínačů se lidstvo dostalo přes děrné štítky až k obrazovce a klávesnici s myší. Vývoj se však nezastavil, a tak dnes můžeme denně dozvídat z medií o sofistikovaných zařízeních, která by měla nahradit ta současná. Virtuální realitou počínaje, rozeznáváním mimiky konče. Jak je to však s člověku nejpřirozenějším způsobem komunikace, s řečí? Vyvstává hned několik otázek. Je už současná technologie na dostatečné úrovni, aby bylo možné komunikovat se stroji hlasem, nebo jsme stále odkázáni pouze na tlačítka a spínače, myši a klávesnice? Jestli ne, tak jaké jsou příčiny toho, že takovou technologii ještě nejsme schopni vyvinout? Pakliže však ano, tak jaký je stav takového hlasového ovládání? Je nutno znát jen sadu určitých příkazů, nebo je možné volně se strojem hovořit? Proč není použití tohoto způsobu komunikace se strojem rozšířenější? Jaké jsou příčiny toho, že dnes nepoužívá každý k prácí s počítačem pouze mikrofon a sluchátka? A právě nalézt uspokojivé odpovědi na tyto otázky je cílem této práce. Objasnit příčiny toho, že v současné době není hlas běžným komunikačním kanálem mezi uživateli a osobními počítači, mobilními telefony i jinými zařízeními, jejichž povaha by takový způsob ovládání umožňovala a přinášela výhody. Největší důraz bude kladen na osobní počítače. Nutno je ještě upozornit na to, že pod pojmem komunikace je zde rozuměna pouhá výměna dat pomocí hlasu, což by však nemělo být zaměňováno se schopností počítače rozumět obsahu promluvy. Práce se zabývá jen prvním zmíněným výkladem. Určena je zejména čtenářům, kteří nejsou o této problematice příliš informováni, ale mají alespoň základní povědomí o práci s osobním počítačem. Příkladem takového čtenáře může být inovativní IT manažer, který má na starosti celou síť počítačů nebo jen zvídavý student 6
7 s jedním domácím PC. Proto je i způsob výkladu v celé práci přizpůsoben zaměření na tuto skupinu čtenářů. K dosažení vytyčeného cíle bude nutno nejprve získat potřebné teoretické podklady, na jejichž základě bude možné provádět odpovídající analýzy softwarových produktů v praxi. Jako největší úskalí se však jeví dostupnost relevantních zástupců těchto výrobků. Na základě zvolené metody zkoumání je práce rozdělena do dvou částí. První část je věnovaná seznámení se základními pojmy, východisky a principy fungování hlasového uživatelského rozhraní. Začneme vymezením pojmu hlasové uživatelské rozhraní, následovat bude nástin tvorby hlasu živým člověkem a krátké shrnutí nejzajímavějších momentů z historie snah lidstva pracovat s řečí. V dalších kapitolách se už zaměříme na jednotlivé komponenty takového hlasového rozhraní. Nejprve na umělou tvorbu řeči, pak na rozpoznávání řeči a nakonec na vedení dialogu. Záměrem této části je seznámit čtenáře s problematikou, vysvětlit základní prvky a vazby mezi nimi. To znamená, že pro detailnější studium odkazuji zvídavější na příslušnou odbornou literaturu. S povědomím základních principů je ve druhé části práce kladen důraz na praktické využití zkoumaných přístupů. Čtenáři je nabídnuta charakteristika konkrétních produktů využívajících jednotlivé technologie, přičemž nejprve produkty pro tvorbu a rozpoznávání řeči pro obecné použití na osobních počítačích. Zařazena je zde také kapitola o možnostech využití hlasového rozhraní u zrakově postižených. Nejprve jsou v ní naznačeny hlavní způsoby komunikace této skupiny uživatelů s počítačem v současné době a poté se snažím identifikovat kritické faktory a nastínit možné cesty zlepšení. Závěrečné kapitoly se věnují dalším variantám použití, avšak se zaměřením na telefony. Většina softwarových řešení diskutovaných v této části pracuje s anglickým jazykem, nicméně je snahou zmínit i možnosti pro českého uživatele. Vztahu češtiny a angličtiny se týká i problém, jaké termíny užívat. Stejně jako i v dalších oblastech spojených s výpočetní technikou není česká terminologie příliš ustálená, autoři používají různé české ekvivalenty nebo přímo anglické výrazy. Pro orientaci v problematice je proto v textu uvedeno u definic i několik užívaných pojmů včetně výrazu anglického. Ve výkladu však užívám, až na zkratky a všeobecně známé pojmy, termíny české, neboť se domnívám, že dávají čtenáři nejlepší představu o významu. Shrnutí použitých odborných výrazů je pak uvedeno v terminologickém slovníku na konci práce. 7
8 2 Principy fungování Tato část se bude zabývat teoretickým podkladem a celkovým přiblížením řešené problematiky čtenáři. Začneme definováním a vysvětlením několika základních pojmů, následovat bude objasnění tvorby hlasu u člověka a několika základních lingvistických termínů a krátký exkurz do historie snah lidstva pracovat s řečí. Poté se již budeme zabývat základními teoretickými koncepty fungování jednotlivých částí hlasového uživatelského rozhraní. Po jednotlivých přístupech k tvorbě řeči rozebereme jednotlivé metody rozpoznávání řeči, jejich využití v různých situacích a schématicky také celý proces rozpoznávání. Poslední kapitola stručně nastíní možnosti počítače vést dialog. 2.1 Co je to hlasové uživatelské rozhraní Je složité najít přesnou a ustálenou definici tohoto pojmu, neboť tento způsob ovládání počítače není stále považován za rovnocenný svým dvěma příbuzným: ovládání z příkazové řádky (CLI) a grafickému uživatelskému rozhraní (GUI). Vyjdeme-li však z definic těchto dvou pojmů [ORO1], můžeme hlasové uživatelské rozhraní (Voice User Interface, VUI) definovat jako způsob komunikace mezi lidským uživatelem a počítačovým systémem pomocí řeči. Vstupním zařízením bývá zpravidla mikrofon, výstupním reproduktory nebo častěji uživatel dialog vstup odpověď Počítačový sytém Vstup v interní formě rozpoznání řeči Zpracování rozpoznání řečníka systémem syntéza řeči Odpověď interní formě Obr. 2-1 Základní schéma VUI sluchátka. Důvod, proč by měl VUI vystřídat své předchůdce, je spatřován ve skutečnosti, že řeč je pro člověka komunikací daleko přirozenější, a tak práce s počítačem pohodlnější a rychlejší. Formálně lze celý postup rozdělit do několika fází. Uživatel zadá slovně příkaz a systém provede rozpoznání zadané fráze a předá dál k dalšímu zpracování dle povahy a určení daného systému. Ten pak vygeneruje odpověď, která je syntezátorem řeči převedena na 8
9 uživatelem vnímatelné sdělení. Opakováním takového procesu, s cílem získání informací, nazveme dialogem. Vzhledem k relativní jedinečnosti hlasu každého člověka může celému dialogu předcházet také fáze rozpoznání řečníka, kdy je systém na základě uložených charakteristik uživatelova hlasu schopen jej rozpoznat (to je však nad rámec tohoto výkladu a proto odkazuji čtenáře např. na [CFSLU2]). Celý proces VUI je znázorněn na schématu Obr.2-1. V pravém slova smyslu považujeme za VUI rozhraní, které využívá ke komunikaci pouze řeči. Pakliže totiž probíhá komunikace člověka s počítačem i pomocí jiných prostředků (obrazovky, klávesnice, atd.), hovoříme o tzv. multimodálním rozhraní. Tento pojem však není spojen pouze s využíváním hlasu, ale všeobecně s kombinací jakýchkoli různých prostředků. Více např. [LABMA1]. 2.2 Vytváření řeči člověkem Než se pustíme do zkoumání metod, jak vytvořit nebo naopak analyzovat řeč pomocí počítače, nepochybně stojí za zmínku i způsob, jakým se řeč vytváří přirozeně lidským organismem. Podle [PSUJO1], [WOOKI1], [WIKI1]. Řeč je vytvářena u člověka v řečových orgánech na bázi modulace vydechovaného vzduchu Obr. 2-2 Řečová soustava člověka Podle [WOOKI1] pomocí překážek a změny tvaru dutin těchto orgánů. Vzduch tlačený při běžném dýchání plícemi za pomocí bránice a dalších dýchacích svalů se dostává skrze průdušnice a jícen do hrtanu. V jeho horní části se nacházejí hlasivky, které jsou tvořeny dvěma blánami a uzavírají tak průchod hrtanem. Pomocí chrupek lze však hlasivky proměnlivě napínat, čímž se mění prostor mezi hlasivkami. Podle tlaku vzduchu a napnutí se pak hlasivky rozkmitávají různou frekvencí. Proměnný vzduchový proud je pak v dutině hltanové (hrdle) a ústní nebo nosní modulován tak, že vzniká zvuk. V závislosti na pozici ostatních orgánů (jazyku, zubů, rtů, měkkého patra a dalších) pak vznikají zvuky vzájemně odlišné. 9
10 Frekvence kmitů hlasivek se nazývá základní tón lidského hlasu a je základem všech znělých zvuků, tj. samohlásek a znělých souhlásek (b, d, g, z, v, h, m, n, l, j, r,...). Naproti tomu neznělé souhlásky (p,t, k,s,f,c, ch,...) vznikají modulací proudu, který prošel hlasivkami otevřenými jako u běžného dýchání a nevytvářejí tak hlas. Samohlásky vznikají při plně uvolněný hlasivkách, to znamená, že jimi prochází nejsilnější proud vzduchu, který pak rezonancí s dalšími orgány vytváří charakteristické zesílené zvuky, tzv. formanty. Základní nejmenší jednotkou zvukové stavby schopnou rozlišit význam je z lingvistického hlediska foném. Fonémem však není každá hláska, ale pouze ta, která nese význam. Díky fyziologické nemožnosti řečových orgánů se dostatečně rychle změnit ze stavu produkující jednu hlásku do stavu pro následující, vzniká během přeměny těchto orgánů jev zvaný koartikulace. Ten má za následek, že zvukovou podobu jedné hlásky ovlivňují jak předchozí, tak následující hláska a vzniká tak pro jeden foném několik možných zvuků, alofónů. Jsou to vlastně varianty jednoho fonému lišící se pouze tím, jak je koartikulace změnila. Zjednodušeně to v praxi znamená, že např. hláska ŋ ve slově venku je pouze alofónem fonému n, protože neexistuje dvojice slov, kde by n a ŋ tato slova odlišovala. Jiným příkladem je m ve slovech myš, sláma a semknout. Zaměříte-li se na jejich výslovnost, všimnete si rozdílu mezi nimi. I zde jde o tři různé alofóny fonému m. Díky nesčetnému množství kombinací fonémů, tak existuje i obrovská řada alofónů k jednotlivým fonémům. Blíže to rozebírá např. [WIKI1]. Dále si zavedeme pojem difón. Difón je termín, který je užíván pro označení posloupnosti samohláska-souhláska tak, že difónu odpovídající úsek promluvy se rozšiřuje ze středu samohlásky do středu souhlásky a nebo naopak [PSUJO1]. Pro naše účely pak budeme chápat foném jako společnou část všech jeho alofónů, tj. tu část, která neobsahuje žádné informace o koartikulaci, a alofón a difón jako jednotky vyšší úrovně, které jsou již nositeli koartikulace mezi hláskami. 2.3 Pohled do minulosti Před výkladem další teorie fungování práce s hlasem, určitě stojí za zmínku stručné ohlédnutí za různými přístupy člověka uměle napodobit řeč během času. Náš první výlet do minulosti se bude zabývat lidským snažením uměle vytvořit řeč a to především dřív, než přišli ke slovu počítače. Podle [LAMSA1], [PSUJO1], [KOPIV1], Pokud se budeme snažit popsat historii vývoje, nemůžeme začít nikdy později než asi před dva a půl milionem let, kdy se u Homo habilis začíná objevovat velice jednoduchá řeč. Od té 10
11 doby lidská řeč prošla dlouhým vývojem a přeměnila se z prvotních několika zvuků na složitý komplex hlásek. Patrně zhruba před sto tisíci lety se začali předkové lidí rozšiřovat z Afriky do ostatních částí světa a s přerušením jejich vzájemných kontaktů se způsoby jejich řeči začali víc a víc odlišovat. Došlo ke vzniku různých jazyků [VCOMD1]. Přenesme se ale v čase do dob antiky, kde vznikají první snahy člověka o umělé vytvoření řeči. V tehdejších delfských věštírnách využívali kněží k ovládání a zastrašování obyvatelstva mluvící sochy a bůžky. Prakticky to ale byly skryté trubky, které, když do nich schovaný kněz promluvil, vydávaly hrozivé zvuky. Nešlo sice ještě o umělou řeč, ale jistě to byl jeden z prvních pokusů o její vytvoření. Na její objev si lidstvo ale muselo ještě dlouho počkat. Daleko později, až v šestnáctém století našeho letopočtu učinil všestranný vědec Galileo Galilei první krůček k dosažení cíle, všiml si souvislosti mezi tónem a frekvencí. O dvě století později, roku 1779 v St. Petersburgu, objasnil ruský profesor Christian Kratzenstein vznik dlouhých samohlásek v hlasivkách a sestrojil první rezonátor, tj. mechanický syntezátor na základě rezonance a modelu lidského řečového traktu. Příslušné tvary dutin, které při průchodu vzduchu vydávají samohlásky ilustruje obrázek Obr.2-3. Roku 1791 se dostal vídeňský Wolfgang von Kempelen ještě dál, když představil svůj Obr. 2-3 Kratzensteinův rezonátor (Schroeder 1993) [LAMSA1] akustický mechanický řečový stroj, který rovněž na základě systému trubic a měchů simuloval fungování řečových orgánů. Byl jím schopen napodobit jak samostatné zvuky, tak i některé jejich kombinace. O tom, proč nebyl jeho unikátní vynález brán díky beznohému šachistovi vážně, blíže pojednává [LAMSA1]. Po dalších pokusech s mechanickými syntezátory uvedl Steward roku 1922 první verze elektrického syntezátoru, který produkoval samohlásky. Po dalších vylepšeních a formulaci formantové analýzy byl představen na New Yorské světové výstavě v roce 1939 přístroj VODER sestavený na základě VOCODERu od Bell Laboratories. Ačkoli jím syntetizovaná řeč připomíná spíše kvákání žab (ukázka je k dispozici na [LAMSA1]) a je příliš vzdálena jakémukoli praktickému využití, ukázal VODER směr pro další vývoj. Koncem padesátých a začátkem šedesátých let byly představeny všechny tři hlavní techniky syntézy řeči, jak je známe nyní, o něco později první TTS systém a zohlednění prozodie (tj. souhrnu zvukových vlastností jazyka). Během sedmdesátých let pak bylo k TTS přidáno 11
12 Kurztweilem i čtecí zařízení a v letech devadesátých se začaly objevovat první aplikace využívající umělé inteligence, tj. neuronových sítí (viz terminologický slovník). Většina těchto moderních přístupů však bude obsahem teprve následujících kapitol a tudíž nepokládám za čtenářsky zajímavé se jejich vývoji detailně zabývat. Celý vývoj ilustruje schéma na obrázku Obr Rozpoznávání řeči prodělalo odlišný vývoj. Kvůli své povaze procesu výpočetně nesmírně náročného došlo k rozmachu výzkumu této problematiky až s nástupem počítačů. Nicméně vznik základních přístupů se datuje daleko dříve. Za všechny jmenujme v roce 1822 Homo habilis -2,5 mil Kratzenstein Mluvící sochy 1800 von Kempelen 1.elektrický 1900 VOCODER Artikulační syntéza Syntéza podle pravidel Řetězící syntéza Obr. 2-4 Vývoj snah o syntézu řeči Podle [LAMSA1] 1. TTS Prozodie TTS s čtecím zařízením Neuronové sítě publikovanou Fourierovu analýzu nezbytnou k rozkladu signálu. Už v roce 1952 bylo představeno Davisem rozpoznávání mluvených číslovek.od té doby udělal vývoj nesmírný krok vpřed. Zasloužili se o něj vědci jako např. Jelinek, Vintsyuk, Atal nebo Noll. Zcela jistě nemá smysl na tomto místě předkládat výčet a popis všech metod, teorií a vývojových stádií vývoje rozpoznávání řeči, neboť nebudou ani náplní výkladu. Zájemce o hlubší poznání historie rozpoznávání i syntézy řeči proto odkazuji na literaturu zmíněnou v [PSUJO1]. Jsou to práce [SAINA1] a [SCHMR1]. O syntéze pak i [LAMSA1]. 2.4 Syntéza řeči Lidská řeč je nástroj dorozumívání člověka, který se vyvíjel po stovky tisíc let. Je to proto nástroj komplikovaný jako člověk sám. Už jenom proto, že musíme být schopni postihnout každou myšlenku nebo pocit, kterých je nekonečně mnoho, ovlivňuje i konstrukci řeči nesčetné množství nejrůznějších faktorů jako vlastní emoce, přístup k partnerovy nebo cíl promluvy. Zvážíme-li i fakt, že nejen každý stát, ale i kraj má vlastní specifika řeči, že vzdělání, věk a i pohlaví ovlivňují strukturu řeči, dojdeme k závěru, že zkonstruovat umělý model je nemožné. Naštěstí úroveň poznání dovoluje vytvářet zjednodušené modely řeči a stále se zvyšuje. Existují tři základní přístupy k syntéze řeči: artikulační syntéza, řetězící syntéza a syntéza podle pravidel. Jejich cílem je dosáhnout především co nejvyšší srozumitelnosti a 12
13 přirozenosti. Ačkoli se to na první pohled nemusí zdát patrné, nejedná se o totožné pojmy. Srozumitelnost určuje, jak velké části sdělení posluchač porozuměl. Tuto vlastnost upřednostňují především profesionálové např. u řízení vozidel a nebo osoby vysoce motivované porozumět, tj. např. zrakově handicapovaní občané. Na druhou stranu přirozenost je charakteristika určující, v jaké míře je umělá řeč podobná přirozené. Tento faktor se ukazuje být kritickým především u služeb poskytovaných zákazníkům po telefonu, jako jsou např. objednávkové systémy Artikulační syntéza Artikulační syntéza (articulatory synthesis) se snaží postihnout a dát do souvislosti všechny faktory, jako např. pozici řečových orgánů, působící při tvorbě řeči pomocí fyzikálních vztahů, především pak dynamiky kapalin. Zatím však nebylo touto metodou díky její výpočetní náročnosti dosaženo uspokojivých výsledků, a tak není příliš využívána. Očekává se ale díky vrůstající vyspělostí výpočetní techniky její návrat [WIKI2] Řetězící syntéza Řetězící syntéza (Concatenative syntesis) je založena na řetězení zvukových úseků uložených v databázi. Proto také bývá tento přístup v literatuře označován jako přístup založený na korpusu (corpus based approach), kdy vstupní data jsou vkládána z mohutných souborů hlasových nahrávek. Díky tomu je nutné vytvořit pro různé hlasy systému i různé soubory nahrávek. V nejjednodušší podobě můžeme průběh této metody chápat jako rozstřihání zvukové nahrávky na malé jednotky, které jsou pak skládány (řetězeny) do nového výrazu. Vzhledem k tomu, že např. v anglickém jazyce můžeme nalézt více než slabik, je dokonce i dělení na slabiky příliš náročné. Považování celých slov za základní jednotky by bylo u systému určených pro volnou řeč s ohledem na jejich množství a požadavek na flexibilitu systému u nových výrazů naprosto nevyhovující. Tento přístup je možný pouze u systémů s omezeným slovníkem jako je např. hlášení času, příjezdů a odjezdů vlaků nebo telefonické informace o kulturním programu. Díky přirozenému vzniku jednotek se však tato metoda vyznačuje v porovnání s ostatními nejvyšší přirozeností. Na druhou stranu však při jejím použití dochází někdy k charakteristickým zřetelným nepřirozeným přechodům mezi jednotlivými jednotkami [CFSLU1] a [WIKI2]. Některé zdroje (např. [WIKI2]) uvádějí tři různé přístupy k této metodě: syntéza výběru jednotek (unit selection synthesis), syntéza difónu (diphone synthesis) a syntéza výrazů 13
14 specifické oblasti (domain-specific synthesis), ale domnívám se, že druhé dvě zmiňované jsou specifickými variantami prvního přístupu, a proto je nebudu rozebírat samostatně Syntéza výběru jednotek Při implementaci této metody vybírá specializovaný algoritmus z korpusu většinou na základě závěrů ze statistické analýzy jazyka jednotky řeči. Těmi mohou být podle účelu použití libovolně dlouhé úseky. Čím však jsou tyto jednotky delší, tím vyšší přirozenosti je při následné syntéze dosaženo, neboť obsahují určitý stupeň koartikulace a není tak potřeba aplikovat v následné úpravě všechna koartikulační pravidla. Nejmenší jednotkou je foném, který neobsahuje žádné informace o artikulaci. Alofón a difón jsou jednotky vyšší úrovně, které jsou již nositeli koartikulace mezi hláskami. Další vyšší úrovní je pak použití slabik, které nejenže obsahují informaci o přechodu mezi její samohláskou (v češtině i slabikotvornými souhláskami r a l ) a souhláskami, ale např. i o rytmu a přízvuku. Výstup ze systému je pak mnohem přirozenější. Nevýhodou této techniky však představuje nesmírné množství různých obměn slabik, a tak i náročnost na paměťové prostředky počítače a především na přípravu katalogu jednotek. Když uvážíme, že je v češtině možno nalézt slabiky pouze o jedné hlásce, ale i o šesti, a tak více než různých slabik (např. v angličtině je toto číslo obdobné), stává se katalogizace všech jednotek téměř nemožnou. Při této přípravě také dochází k problému, jak rozdělit slabiky, když jedna končí a druhá začíná souhláskou, neboť zatím nedošlo k všeobecnému souhlasu odborníků na tuto problematiku. Nejvyšší jednotkou by mohla být slova, ale vzhledem k počtu slov v jazyce a jako např. v případě češtiny mnoha morfologickým tvarům jednoho výrazu je tato varianta možná u systémů, kde omezená slovní zásoba není překážkou (syntéza výrazů specifické oblasti). Přehled jednotlivých možností a jejich výhod a nevýhod shrnuje tabulka Tab.2-1. Někdy se také hovoří o hybridní syntéze, která využívá řetězení jednotek, ale navíc se také snaží eliminovat charakteristické poruchy na hranicích jednotek pomocí aplikace pravidel využívaných především formantovou syntézou, jejíž přiblížení následuje [CFSLU1] a [PSUJO1]. 14
15 Jednotka řeči + - Foném Alofón Difón Slabika Slovo, fráze, věta Malá velikost katalogu Obsahuje koartikulaci mezi fonémy Snazší určování konce slov Obsahuje koartikulaci mezi fonémy Obsahuje koartikulaci, přízvuk, rytmus Vysoká přirozenost Tab. 2-1 Přehled jednotek řeči Žádná koartikulace Složité ho ze slova extrahovat Katalog v řádu stovek jednotek Složitost aplikace fonetického přepisu Několik tisíc jednotek Problémy s určením hranice Více než jednotek Problémy s neznámými slovy Obrovský katalog Syntéza podle pravidel Tento přístup (rule-based synthesis) známý také pod pojmem formantová syntéza (formant synthesis) narozdíl od řetězení nevyužívá více či méně rozsáhlého slovníku zvukových záznamů, ze kterých skládá projev, ale generuje ho na základě uloženého fonetického modelu. Tento model je soubor veličin popisujících řeč jako základní tón hlasu, znělost hlásek, intenzita zvuku nebo různé šumy. Z nich je generována základní zvuková vlna, na kterou jsou uplatněna s cílem zvýšit přirozenost ještě pravidla koartikulace, důrazu, rytmu, intonace, a dalších prozodických veličin. Tato parametrizace umožňuje flexibilní změny hlasu, takže měnit zabarvení, výšku, rychlost hlasu nebo použití nejrůznějších zvukových efektů jako např. ozvěna nebo šepot není problémem a neomezuje také uživatele na použití pouze jednoho hlasu, nebo nutnosti disponovat několika soubory záznamů. Ačkoli výstup této syntézy nezní nikdy tak přirozeně jako s využitím řetězící, je při srovnatelné srozumitelnosti výrazně rychlejší, což ji upřednostňuje v aplikacích např. pro zrakově postižené, kde je potřeba rychlá odezva. Další výhodou je díky absenci rozsáhlého slovníku poměrně nízká náročnost na paměť a tudíž využitelnost v mobilních zařízeních jako jsou PDA, mobilní telefony, zařízení pro navigaci apod. 15
16 2.4.4 TTS systémy Aplikací výše zmíněných přístupů jsou tzv. TTS systémy (Text To Speech). Ty přijímají vstup ve formě textu a převádění jej do zvukové podoby. Jsou využívány především v aplikacích pro zrakově postižené jako čtečky obsahu na monitoru. V těchto případech musí text nejprve vstup Nom. HDP klesnul o 4%. Nominální hrubý domácí produkt klesnul o čtyři procenta. Nominální hrubý domácí produkt klesnul o čtyři procenta text lexikální pravidla prozodická pravidla výstup syntéza řeči fonetická transkripce nominálňí hrubí domácí prod ukt klesnul očtyři procenta Obr. 2-5 Schéma TTS projít několika úrovněmi předzpracování, než je pomocí jedné z výše uvedených metod přeměněn na řeč. Celý proces schématicky ilustruje obrázek 2-5. Na počátku přijme TTS systém vstupní text. Může to být text zadaný uživatelem pomocí klávesnice, ale častěji to bude text z elektronické knihy, textového procesoru nebo webového prohlížeče. Ten obsahuje nejrůznější znaky a zkratky, které musí být nejprve aplikací lexikálních pravidel převedeny do formy, ve které jsou běžně vysolovány. Následně jsou na text uplatněna prozodická pravidla, která se vztahují k slovnímu a větnému přízvuku, melodii věty apod. Během následující fáze, fonetické transkripce, je text převeden na řetězec vybraných jednotek řeči (na obrázku 2-5 alofónů) a symbolů pro pauzy, slovní přízvuk ( a ) a jiné prozodické značky. Ten je potom vstupem do syntezátoru řeči popsaném výše, ze kterého je výstupem již záznam zvukové vlny, který je technickým vybavením počítače reprodukován uživateli. Patrně nejsložitějšími úkoly TTS je interpretace mnohoznačných výrazů, neboť systém nezná, nebo lépe řečeno nerozumí, kontextu výpovědi. K prvnímu střetu s tímto problémem dochází během převodu zkratek na jejich plné významy, a tak může docházet k nesmyslným interpretacím. Například větu Včera mi ujel bus. by systém v dobré víře, že se jedná o mezinárodně uznávanou zkratku objemové míry interpretoval jako Včera mi ujel bushel.a určitě bychom přišli i na lepší příklady. Také u převodu čísel se může TTS prohřešit vůči 16
17 všeobecným konvencím, protože neví, zda řadu čísel má přečíst jako PSČ , číslovku čtrnáct tisíc pět nebo jako jedna čtyři nula nula pět. K podobným nedorozuměním dochází vlivem neznalosti kontextu i ve fázi fonetické transkripce u slov označovaných jako homografy. To jsou ta slova, která se stejně píší, ale odlišně vyslovují. Na rozdíl od angličtiny (read přítomný čas [ríd], ale minulý [red]) jich však v češtině až na všeobecně známý konflikt panický (vyslovováno s n nebo ň ) mnoho nenajdeme [TICJA1]. Tato nedorozumění by bylo možné eliminovat pouze, kdyby systém rozuměl kontextu, čehož je snaha dosáhnout buď pomocí nejrůznějších heuristik, nebo umělé inteligence. Fonetická transkripce nemusí být vždy tak snadná jako v případě češtiny, ve které je výslovnost pravidelná a psaná forma se příliš neliší od mluvené. Je tudíž možné zformulovat pravidla pro čtení a jen výslovnost několika např. cizích slov uvést ve slovníku výslovnosti, který pak systém k přepisu použije. Avšak u jazyků jako anglický je daleko výhodnější naplnit slovník výslovností všech slov a pouze některé, pravidelné či nové a zatím neznámé, výrazy hodnotit podle pravidel [LABMA1]. Další informace o syntéze řeči např. ve zdrojích použitých v těchto kapitolách, tj. [CFSLU1], [WIKI2], [PSUJO1] a [LABMA1]. 2.5 Rozpoznávání řeči Pakliže jsme mohli kvalitu syntézy řeči posuzovat podle víceméně subjektivních měřítek, kterými jsou srozumitelnost a přirozenost, rozpoznávání řeči je posuzováno pouze podle jednoho, objektivně zřejmého ukazatele. Rozumí mi to vlastně? je patrně jediná otázka, kterou si bude klást uživatel systému pro automatické rozpoznávání řeči (automatic speech recognition - ASR). Všechny různé technologie a přístupy na pozadí toho systému jsou tak hodnoceny neúprosným ukazatelem efektivity na výstupu. Co však musí takový, bezpochyby velice komplikovaný, systém provést, aby rozuměl tomu, co mu uživatel říká? Na to se podívejme v této kapitole. Nejprve vysvětlím základní pojmy této problematiky, následovat bude nezbytná klasifikace těchto systémů podle složitosti a účelu použití a pak se zaměříme na jednotlivé fáze procesu rozpoznávání. 17
18 2.5.1 Základní pojmy Každý systém pracuje se slovníkem (v tomto smyslu se užívá i výraz gramatika), jak označujeme daný okruh výrazů, které zná a je je schopen rozpoznat. Existují systémy s kapacitou slovníku v řádu jednotek, ale i desítek tisíců položek. Každá položka je výraz, tj. záznam s jedinečným významem pro systém, který je jím brán jako celek. Tím může být slovo, fráze nebo i celá věta. Kvalita ASR se posuzuje podle přesnosti, tj. poměru správně určených výrazů a všech vložených. Tento poměr závisí na určení systému, velikosti slovníku, hlučnosti prostředí a dalších faktorech, kterým se dostaneme později. Jedním z faktorů ovlivňujících přesnost je i trénink. Některé systémy ho vyžadují před použitím naostro. Většinou probíhá tak, že uživatel čte daný text a systém, vzhledem k tomu, že víc, co uživatel říká, může toto porovnávat s obsahem svého slovníku a upravovat své proměnné podle zjištěného rozdílu (dochází k přizpůsobení systémů, viz kapitola ). Koneckonců každý člověk mluví jinak rychle, s různou intonací a přízvukem. Je možná i varianta, že uživatel vyslovuje některý výraz diametrálně odlišně. Systém pak do uživatelova slovníku přidá tuto alternativu a v budoucnu s ní počítá. Koncepce tréninku je však založena na předpokladu, že slovní projev uživatelů je v čase konzistentní, tj. že uživatel mluví stejně při tréninku a pak při každém použití. Z toho vyplývá, že ASR vyžadující trénink jsou poté schopny pracovat pouze s daným uživatelem. Naopak s jinými mohou pracovat bez omezení různí uživatelé. Tato vlastnost, závislost na uživateli, je důležitou charakteristikou ASR [WIKI4] Klasifikace ASR Jelikož složitost systému a požadavky na použité technologie závisí především na typu vstupu, který systém zpracovává, rozdělme si je do několika teoretických tříd podle rostoucí náročnosti na zpracování [COOST1] Izolované výrazy Jeden z nejsložitějších problémů jak v syntéze, tak i v při rozpoznávání řeči, představuje koartikulace mezi slovy. Za prvé je díky ní nesmírně složité určit hranice mezi jednotlivými výroky, protože jsou mnohdy vysloveny najednou a splývají v jeden. Dále se pak také prokázalo, že slovo vyslovené samostatně a v kontextu se liší. Hlavním rozdílem je rychlost, a tak i délka jednotlivých hlásek, což má někdy za následek až nevyslovení hlásky. To pak 18
19 znatelně ztěžuje porovnávání se vzory ve slovníku. Z těchto důvodů jsou logicky systémy, které dostávají jako vstupní data izolované výrazy, podstatně jednoduší Spojené výrazy V tomto případě je systém schopen pracovat se spojenými výrazy, které jsou odděleny jen minimálními pomlkami. Slova jsou zde již vyslovována propojeně, ale stále ještě nejde o souvislou řeč jako u následují třídy Souvislá řeč Jestliže je ASR schopen přijímat souvislou, řeč může uživatel kontrolovaně, ale téměř přirozeně mluvit. Na této úrovni už systém musí umět automaticky hledat hranice mezi známými výrazy a ty pak samostatně dále zpracovávat. Ačkoli je takový systém již velice vyspělý neumí se vyrovnat s některými zvláštnostmi přirozené řeči, které řeší až model spontánní řeči. Současně se s přechodem na souvislou řeč objevuje požadavek na zpracovaní dalších informací obsažených ve spojité promluvě, které se u nižších úrovní nevyskytovaly. Jedná se o intonaci, která určuje, zda je výrok otázkou či oznámením. Tento faktor má pak při použití systému k diktování (viz dále) dopady na interpunkci, která musí být zatím, vzhledem k tomu, že tento problém nebyl dosud spolehlivě vyřešen, zadávána uživatelem explicitně pomocí klíčových slov tečka nový odstavec Některých bodů k dosažení této úrovně v praxi bylo již dosaženo, avšak stále zůstává splnění všech těchto předpokladů spíše cílem pro budoucí vývoj. Nicméně k hodnocení dostupných implementací se ještě dostaneme v druhém oddílu práce Spontánní řeč Jako další teoretický stupeň se je označována schopnost pracovat s přirozenou spontánní řečí. Systém je schopen se zde plně vyrovnat nejen se spojováním slov ale i s nežádoucími prvky řeči jako jsou nejrůznější výplně času ( ehm ) nebo dokonce poruchy řeči. Zatím je ale o tomto stupni uvažováno pouze na teoretické úrovni, neboť zatím nebyl úspěšně realizován Šumy prostředí Z hlediska obtížnosti zpracování vstupního zvuku hraje okolní prostředí uživatele nezanedbatelnou roli. Tyto šumy nemusí být způsobeny pouze elementy vnějšího světa, které vytvářejí hluk. Mohou být způsobeny také způsobem záznamu zvuku a to jak technického rázu, jako je kvalita mikrofonu nebo telefonu a přenosové sítě při komunikaci telefonem, ale i na straně uživatele, kde např. pozice mikrofonu hraje významnou roli, protože hlasité výdechy, skřípání zubů nebo mlaskání podstatnou měrou ztěžují práci systému. Ten 19
20 totiž dostává na vstupu jeden zvukový záznam, zvukovou vlnu, která obsahuje smíchané jak žádoucí tak i nežádoucí zvuky, a ty je pro něj složité od sebe odlišit. Tyto ruchy navíc hrají ještě další negativní roli při hledání hranic mezi výrazy, kde ruchy překrývají očekávané pauzy s minimální úrovní intenzity zvuku. Schopnost systému vyrovnat se s rušivými vlivy a všeobecně s rozdíly mezi zpracovávanými daty a vzorovými daty (např. při změně řečníka) se nazývá robustnost systému. Je řešena speciálními algoritmy pro přizpůsobení systému a filtrování vstupu, ale i stálým zlepšováním statistických metod, na kterých je rozpoznávání založeno (tj. skrytých markovových modelů). Blíže o tom [CFSLU1] a [IDIAP1] Využití ASR Jak jsme zjistili v předchozí kapitole, existuje několik úrovní složitosti systémů ASR. Vzhledem k výši investic do vývoje systémů schopných rozpoznat řeč a jejich náročnosti na technické vybavení strojů, ve kterých pracují, je pochopitelné, že jsou tato zařízení vybavena pouze nezbytnými a dostačujícími vlastnostmi. V této kapitole se podívejme na oblasti, kde se systémy ASR používají [COOST1] Diktování Diktování neboli přepis či transkripce využívá schopnosti systému rozpoznávat souvislou řeč. Nejenže počítač píše to, co je mu diktováno, ale je i možné zadávat pomocí klíčových slov příkazy pro editaci textu ( vymaž, vymaž poslední tři slova ), pro vkládání interpunkce, speciálních znaků a dalších formátujících údajů ( tečka, otazník, zavináč nebo nový odstavec ). Další množství funkcí pro formátování textu ( velké písmeno, označ poslední větu nebo změň písmo na Arial velikost 10 ) je k dispozici po uvedení příkazu speciálním klíčovým slovem ( počítači, ), aby systém poznal, že se jedná o příkaz a nikoliv další slovo k přepisu. Problémem těchto systémů je nutnost rozsáhlého slovníku výrazů ze všech možných oblastí lidského počínání. Zvlášť jsou proto nabízeny ASR pro lékařské, právní a další specializované oblasti. Tyto systémy jsou závislé na uživateli a vyžadují předchozí trénink Command&Control Tyto poměrně jednoduché ASR jsou určené pro ovládání prostředí operačního systému nebo aplikací. Díky relativně malému množství příkazů, které musí být schopné rozeznat, nevyžadují před použitím žádný trénink a jsou schopné pracovat s různými uživateli. Využití 20
21 naleznou jako doplněk ke zrychlení práce nebo u lidí, kteří z důvodu zaměstnanosti nebo postižení nemohou používat ruce. Jsou víceméně hlasovými horkými klávesami a typickými příkazy mohou být např. otevři Word nebo vpřed a zpět v Internetovém prohlížeči. Speciálním případem těchto systémů je i využití u přístrojů jiných, než jsou počítače, k zadávání povelů, jsou to tzv. embedded ASR. o Embedded (vložený, začleněný) ASR tento běžně používaný cizí pojem označuje ASR, které jsou součástí zařízení nejen podobných počítači jako mobilní telefony a PDA, ale v dnešní době i autorádia, přístroje pro navigaci, lednice a další. Jelikož uživatel nemusí mačkat tlačítka a při využití i hlasového výstupu ani sledovat display, může se téměř plně věnovat jiné činnosti jakou je např. řízení auta. o Extrémním, avšak učebnicovým, případem je využití hlasového rozhraní u počítačů, které se ze své povahy nosí na těle (tzv. body-worn computers). V těchto případech by uživateli použití běžného počítače, který zaměstnává ruce zcela znemožnilo práci. Pro ilustraci takovým zařízením je headset s kamerou a brýlemi, ve kterých se technikovi zobrazují instrukce, plán budovy nebo termovize. Obr. 2-6 Rockwell's Trekker [COMDIC1] Interaktivní hlasová odezva Tento pojem (Interactive Voice Response - IVR) zahrnuje všechny aplikace dostupné přes telefon, kde volající komunikuje s automatickým systémem místo telefonního operátora. Typicky si vybírá z několika možností a prochází tak menu. V současné době jsou užívány dva způsoby komunikace s takovým systémem a to buď pomocí tónové volby (DMTF systém komunikace s ústřednou, novější alternativa k dříve používané pulsní volbě) nebo ASR. Příkladem mohou být zákaznické linky, informační systémy o programu kulturních akcí, odjezdu a příjezdu vlaků, objednávání vstupenek a v některých zemích třeba i hlášení stavu plynoměru a další. Úroveň těchto ASR se různí podle účelu dané aplikace. Od jednoduchých ovládaných pomocí omezeného množství příkazů až po sofistikované systémy pracujícími s téměř přirozenou řečí, kde systém na základě empirického výzkumu vztahu mezi užitými slovy a problémy volajících rozhodne o přepojení na patřičného operátora či 21
22 sleduje vlastnosti hlasu volajícího při volbách v menu a v případě, že zaznamená nežádoucí emoce jako rozčílení nebo roztrpčení, nabídne přepojení na živého operátora. Výhodou takového zpracování je jeho dostupnost 24 hodin denně, nižší provozní náklady a eliminace ostychu některých zákazníků několikrát požádat o zopakování informací. Také ve srovnání s dnes velice rozšířenými systémy pracujícími s tónovou volbou nabízejí daleko větší pohodlí komunikace, neboť místo složitých menu může uživatel přímo zadat klíčové heslo pro žádanou položku. Na druhou stranu nižší komfort komunikace daný u jednodušších ASR s omezeným počtem rozpoznatelných výrazů a přesně danou formou očekávané odpovědi v porovnání s živým operátorem znevýhodňuje tyto systémy v oblastech, jako je třeba bankovnictví. Zprovoznění komplikovanějšího ASR také představuje vysoké investiční výdaje. Výrazným specifikem užití ASR v tomto pojetí je, v porovnání s použitím mikrofonu připojeného přímo k počítači, nižší kvalita zvuku způsobená nižší kvalitou přenosu v telefonních sítích a navíc ve většině případů i šumy přicházejícími z prostředí volajícího [WIKI3]. To pak musí být řešeno větší robustností systému Systémy pro handicapované Zcela specifickou oblastí jsou ASR pro tělesně postižené. Využití najdou u lidí s omezením pohybového ústrojí jako náhrady klávesnice a myši nebo u sluchově postižených k přepisu např. telefonních hovorů. Jejich přednostmi musí být především rychlost zpracování a snadné ovládání Principy fungování Po vysvětlení základních pojmů a klasifikací se podívejme na proces zpracování řeči (podle Zdrojová věta Přenosový kanál s šumy Věta s šumy Dekodér Odhad původní věty If music be the food of love...?alice was beginning to get...?every happy family...?in a hole in the ground...?if music be the food of love...?if music be the foot of dove... If music be the food of love... Obr. 2-7 Funkce ASR na základě [GAWJM1] [GAWJM1], [INDINF1] a [WIKI4]). Na počátku tohoto procesu je úsek řeči, na konci očekáváme odpovídající reakci počítače, kterou může být jak provedení příslušného příkazu nebo prostý výpis textu v textovém editoru. Mezitím se však musí sytém vypořádat s mnoha komplikujícími faktory. Jsou jimi především ruchy prostředí, odlišnosti slovního projevů lidí 22
23 a i specifické znaky řeči všeobecně, jakým je např. vázání slov. Některé další byly zmíněny výše, výklad jiných bude následovat. Tuto problematiku ilustruje obrázek Obr.2-7. Zaměřme se tedy nyní detailně na jednotlivé fáze procesu rozpoznávání, od vstupní promluvy až po výstupní rozpoznaná data. Celý tento proces je schématicky zachycen na obrázku Obr Zpracování signálu Ať je vstupním zařízením cokoli, vždy stojí na počátku mikrofon. Buď připojený k osobnímu počítači, nebo jako součást např. telefonu. Z mikrofonu je podle druhu zařízení zvuk veden až do počítače, kde má být zpracován a v něm se dostává do zvukové karty v analogové podobě, tj. jako změny napětí na vodiči. Takový signál musí být nejprve převeden do digitální podoby tzv. vzorkováním (sampling) nečastěji pomocí techniky, která se nazývá pulsní kódová modulace (Pulse Code Modulation - PCM). Vzorkování spočívá v zaznamenávání stavu vstupního signálu v pravidelných intervalech. Kolikrát za sekundu tak bylo učiněno vyjadřuje tzv. vzorkovací frekvence (sampling rate) a její hodnota je nejčastěji pro účely ASR 16 khz (tj. je uloženo hodnot signálu za sekundu). Telefonní spojení vzorkuje signál pouze frekvencí 8kHz a představuje tak horší kvalitu zvuku Rozklad na frekvenční pásma Obr. 2-8 Schéma procesu ASR inspirace [INDINF1] a [LABMA1] V další fázi je digitalizovaný zvuk, který je složen z vln mnoha frekvencí, rozložen pomocí rychlé Fourierovy transformace (Fast Fourier Transformation) na jednotlivé frekvence. Každý výrok je tak charakterizován těmito frekvencemi. 23
24 Dekodér řeči Z předchozího kroku máme k dispozici seznam frekvencí extrahovaných ze zkoumaného výroku. Ty je nyní možno porovnat s výčty frekvencí určujících jednotky řeči uložené v databázi 1 a sestavit akustický model, se kterým ze zvukového záznamu získáme posloupnost fonémů. Tento model také představuje prostředek, jak zahrnout odlišná prostředí mluvčího.následně pak pomocí jazykového modelu získáme z posloupnosti fonémů posloupnost slov. Jak si ukážeme později, takové transformace nejsou jednoznačné, a tak je nutno celý tento proces řešit statistickými metodami (např. skryté Markovovy modely (Hidden Markov Model)). Řešení je získáno až kombinací pravděpodobností z obou modelů a předáno aplikaci k vyhodnocení příslušné reakce Akustický model ASR vyžaduje pro své fungování co největší množství vzorků jednotlivých jednotek řeči, se kterými by porovnal zpracovávaný záznam. Protože však jeden foném, jak bylo zmíněno v předcházejících kapitolách, může mít v závislosti na okolních hláskách různé podoby, má systém takové variace uloženy. Nesmí být ani zapomenuto na varianty, kde se daný foném nachází na začátku nebo konci slova, neboť tak lze nalézt hranice mezi slovy, které často splývají při řeči v jedno. Rovněž může jeden zvuk vyjadřovat různé fonémy nebo spíše jejich skupiny. Tato možnost je typická spíše pro jiné jazyky jako je např. angličtina, a proto uvádím v tabulce příklad z [GAWJM1]: Slovo the Kontext in the ( [ih n n iy]) neat neat little ( [n iy l ax ]) need need to ( [ n iy t ax ]) new New York ( [ n iy y axr k ]) knee knee ( [n iy ]) to talking to you ( [t ao k ih n iy uw ]) Tab. 2-2 Slova, která mohou být vyslovena podle SwitchBoard Corpus s [n iy] 1 V této kapitole budeme se budeme zabývat nejsložitější variantou a za jednotky považovat fonémy. U jednodušších systémů jimi mohou být slova nebo i celé fráze. Tam se pravděpodobnost shody se určuje odlišným způsobem, tj. přímým porovnáním pomocí určení vzdálenosti vzoru a zachyceného výroku. 24
25 Očividně nemá systém pro rozpoznávání práci jednoduchou, neboť existence těchto mnohoznačností zcela vylučuje jednoznačné přiřazení zvuků k fonémům. ASR proto nejprve vytvoří několik řetězců z jednotek z databáze a vyhodnotí pravděpodobnosti, se kterými odpovídají zpracovávanému výrazu. Sestaví tak tzv. akustický model Jazykový model Jelikož však nejsou všechny varianty zřetězení fonémů stejně pravděpodobné, může na základě statistického průzkumu rozsáhlých korpusů některé řetězce upřednostnit, ačkoli jejich shoda se zkoumaným výrazem je nižší. Např. trigram (trojice písmen) pro se v češtině vyskytuje více než 3krát častěji než spo [NLP1] a nesčetněkrát častěji než třeba bezvýznamné xlr. To samé platí pro slova, takže řetězec odpovídající slovu z databáze bude upřednostněn před neznámou skupinou fonémů. Tyto pravděpodobnosti pak tvoří jazykový model, jehož rozsáhlost je vždy kompromisem mezi přesností rozpoznávání a rychlostí zpracování. Proto jsou mnohdy během rozhovoru používány různé modely podle kontextu. Speciální funkci mají u command&control ASR, v němž jsou pomocí nich určeny přípustné příkazy v dané situaci (nepřípustné varianty řetězců mají pravděpodobnost určenou na 0). Protože jsou tak jazykové modely vlastně částí pouze aplikace využívající ASR systém, běžně se nepovažují za součást ASR samotného Přizpůsobení Před použitím diktovacích ASR závislých na uživateli je nutné provést trénink. Uživatel vyslovuje fráze dané systémem, který je zpracuje výše uvedeným způsobem. Jelikož však ale zná původní frázi, může ji porovnat s výsledkem rozpoznávání a podle toho pozměnit parametry akustického modelu. Důvodem pro tyto změn jsou odlišnosti v řeči různých lidí jako rychlost, přízvuk a někdy i odlišná výslovnost některých slov. Během běžného používaní může systém na základě analýzy používaných výrazů pozměnit i jazykový model, tj. upravit pravděpodobnosti výskytu jednotlivých výrazů. Tímto způsobem může být model rozšířen i o úplně nové výrazy. 2.6 Dialogový manažer Vrátíme-li se k obrázku 2-1, je z něj patrné, že třetí významnou složkou komunikace člověka řečí se strojem je dialogový manažer, který se stará o interaktivní chování počítače. U command&control a diktovacích systémů se setkáme spíše s jednoduššími formami, díky kterým je možné odlišit různé kontexty promluvy (např. práce v příkazovém nebo diktovacím modu ASR pro diktováni, či u C&C použití příkazu najdi při práci v textovém procesoru 25
26 k vyhledání slova, ale ve správci souborů k vyhledání souboru). Dialogové manažery jsou tak nezbytné především v systémech interaktivní hlasové odezvy (IVR, viz předchozí kapitola), kde je jejich funkcí [CENPA1]: 1. Koordinovat všechny komponenty (ASR, syntéza, gramatiky) 2. Udržovat reprezentaci aktuálního stavu dialogu 3. Komunikovat s externími aplikacemi 4. Rozhodovat o dalším kroku dialogu Ze všech přístupů k řešení této problematiky si vyberme k ilustraci fungování dialogového manažeru kvůli její názornosti a jednoduchosti koncepci konečně stavových dialogových systémů. Ta je založena na představě, že je dialog množina vzájemně propojených stavů, kde každý způsob průchodu takovým řetězcem stavů je varianta dialogu. Dialog si je pak možné představit, s trochou nadsázky, spíše jako výslech než rozhovor, kde je iniciativa na straně systému, který klade přesně podle připraveného schématu otázky a očekává na ně odpovědi, ze kterých je však schopen, narozdíl od svých komplikovanějších příbuzných, využít pouze odpověď na danou otázku v daný okamžik (tj. že neposlouchá celou dobu, ale jen v určené okamžiky). Příklad grafické reprezentace ilustruje schéma zjednodušeného systému pro Dobrý den. Vítejte na Vlakolince pro informace o železničních spojení po telefonu. Pro nápovědu kdykoli řekněte NÁPOVĚDA, pro nové hledání řekněte ZPĚT. Pakliže si přejete V jaké stanici chcete nastoupit? ZPĚT ZPĚT Jako nástupní stanici NÁPOVĚDA $nástup Zadejte čas, kdy NÁPOVĚDA $čas V kolik hodin? ZPĚT ZPĚT Jako výstupní stanici Do jaké stanice chcete jet? $výstup NÁPOVĚDA Nashledanou NE NÁPOVĚDA ANO Aplikační rozhraní Přejete si slyšet čas odjezdu následujícího vlaku? Vlak odjíždí z $nástup v $čas_odjezdu a je v $výstup v $čas_příjezdu $čas_odjezdu $čas_příjezdu $nástup $čas $výstup Obr. 2-9 Schéma jednoduchého dialogu databáze podávání informací o vlakových spojení (Obr.2-9). Není v něm však zachycen proces kontroly hlasového vstupu, kdy systém nerozumí a vyzve uživatele k znovuzadání údajů. Pro bližší seznámení s tématem odkazuji např. na [CENPA1] nebo [LABMA1]. 26
Úvod do praxe stínového řečníka. Proces vytváření řeči
Úvod do praxe stínového řečníka Proces vytváření řeči 1 Proces vytváření řeči člověkem Fyzikální podstatou akustického (tedy i řečového) signálu je vlnění elastického prostředí v oboru slyšitelných frekvencí.
VíceÚvod do praxe stínového řečníka. Úvod
Úvod do praxe stínového řečníka Úvod 1 Ukázka Kdo je to stínový řečník? Simultánní tlumočník z daného jazyka do téhož jazyka Jeho úkolem je přemlouvat televizní pořady tak, aby výsledná promluva byla vhodná
VíceAsistivní technologie
Asistivní technologie Přehled výzkumu na českých vysokých školách Autoři: Lenka Lhotská, Olga Štěpánková, Daniel Novák České vysoké učení technické v Praze Listopad 2013 Úvod Výzkumnými tématy, které mají
VíceZvuková karta. Zvuk a zvuková zařízení. Vývoj, typy, vlastnosti
Zvuk a zvuková zařízení. Vývoj, typy, vlastnosti Zvuková karta Počítač řady PC je ve své standardní konfiguraci vybaven malým reproduktorem označovaným jako PC speaker. Tento reproduktor je součástí skříně
VíceŘEČOVÉ TECHNOLOGIE v PRAXI
ŘEČOVÉ TECHNOLOGIE v PRAXI Josef Psutka, FAV ZČU v Plzni Obsah: 1. Automatické rozpoznávání řeči počítačem 2. Počítačová syntéza řeči 3. Hlasový dialog člověka s počítačem 1.10 2014 1 Automatické rozpoznávání
VíceAlgoritmy a struktury neuropočítačů ASN P8b
Algoritmy a struktury neuropočítačů ASN P8b Úvod - přirozená řeč jako zvukový signál Základní pojmy z fonetiky Charakteristiky mluvené řeči Přirozená řeč jako zvukový signál Řeč (speech) - komplex technických,
VíceZÁKLADY PROGRAMOVÁNÍ. Mgr. Vladislav BEDNÁŘ 2014 7.4 13/14
ZÁKLADY PROGRAMOVÁNÍ Mgr. Vladislav BEDNÁŘ 2014 7.4 13/14 Co je vhodné vědět, než si vybereme programovací jazyk a začneme programovat roboty. 1 / 13 0:40 Implementace Umělá inteligence (UI) Umělá inteligence
VíceVýstupy z RVP Učivo Ročník Průřezová témata Termín Komunikační a slohová výchova 1. plynule čte s porozuměním texty přiměřeného rozsahu a náročnosti
Komunikační a slohová výchova plynule čte s porozuměním texty přiměřeného rozsahu a náročnosti 2. porozumí písemným nebo mluveným pokynům přiměřené složitosti 3. respektuje základní komunikační pravidla
VícePavel Cenek, Aleš Horák
Syntéza a rozpoznávání řeči Pavel Cenek, Aleš Horák E-mail: hales@fi.muni.cz http://nlp.fi.muni.cz/poc_lingv/ Obsah: Rozpoznávání řeči Související technologie Úvod do počítačové lingvistiky 3/11 1 / 20
VíceFONETIKA A FONOLOGIE I.
FONETIKA A FONOLOGIE I. AUTOR Mgr. Jana Tichá DATUM VYTVOŘENÍ 7. 9. 2012 ROČNÍK TEMATICKÁ OBLAST PŘEDMĚT KLÍČOVÁ SLOVA ANOTACE METODICKÉ POKYNY 3. ročník Český jazyk a literatura Český jazyk Fonetika,
VíceNormalizace textu. Text to Speech, TTS Konverze textu do mluvené podoby. Pavel Cenek, Aleš Horák. Obsah: Související technologie
Syntéza a rozpoznávání řeči Obsah: Související technologie Pavel Cenek, Aleš Horák E-mail: hales@fi.muni.cz http://nlp.fi.muni.cz/poc_lingv/ Text to Speech, TTS Konverze textu do mluvené podoby V ideálním
VíceVyučovací předmět: Český jazyk a literatura Ročník: 6. Jazyková výchova
Vyučovací předmět: Český jazyk a literatura Ročník: 6. Vzdělávací obsah Očekávané výstupy z RVP ZV Školní výstupy Učivo Přesahy a vazby, průřezová témata rozlišuje spisovný jazyk, nářečí a obecnou češtinu
VíceVýstupy z RVP Učivo Ročník Průřezová témata Termín Komunikační a slohová výchova 1. plynule čte s porozuměním texty přiměřeného rozsahu a náročnosti
Komunikační a slohová výchova plynule čte s porozuměním texty přiměřeného rozsahu a náročnosti porozumí písemným nebo mluveným 4. pečlivě vyslovuje, opravuje svou nesprávnou nebo nedbalou výslovnost 9.
VíceAnglický jazyk pro 8. ročník
Anglický jazyk pro 8. ročník (Předmět je vyučován 3 hodiny týdně.) Vzdělávací obsah Lekce 1 Očekávané výstupy Z RVP ZV - jednoduchým způsobem se domluví v běžných každodenních situacích - stručně reprodukuje
VíceNÁRODNÍ TESTOVÁNÍ 2018/2019
průměrný percentil Průměrný celkový percentil po jednotlivých třídách y 6. A 6. B 6. C ZŠ GYM 54 64 53 47 61 51 55 55 55 OSP ČJ MA Graf znázorňuje průměrné celkové percentily všech tříd u vaší školy. Zároveň
VíceSEMESTRÁLNÍ PRÁCE Z PŘEDMĚTU KVD/GRPR GRAFICKÉ PROJEKTY
F A K U L T A E K O N O M I C K Á Studijní obor: 6208T086 Podniková ekonomika a management SEMESTRÁLNÍ PRÁCE Z PŘEDMĚTU KVD/GRPR GRAFICKÉ PROJEKTY TÉMA: SYNTÉZA A ROZPOZNÁVÁNÍ ŘEČI TERMÍN: ZS 2006-01-21
VíceSYNTÉZA ŘEČI. Ústav fotoniky a elektroniky, v.v.i. AV ČR, Praha
SYNTÉZA ŘEČI Petr Horák horak@ufe.cz Ústav fotoniky a elektroniky, v.v.i. AV ČR, Praha Obsah Úvod a historie Zpracování textu Modelování prozodie Metody syntézy řeči Aplikace syntézy řeči Petr Horák SYNTÉZA
VícePráce v textovém editoru
Práce v textovém editoru 0) Otevřete NOTEPAD a okopírujte celý tento článek do NOTEPADu. [Můžete použít zkratky Ctrl-A (označit vše) Ctrl+C(kopírovat), Ctrl+V (vložit)] 1) Najděte v tomto textu slovo "myš"
VíceU Úvod do modelování a simulace systémů
U Úvod do modelování a simulace systémů Vyšetřování rozsáhlých soustav mnohdy nelze provádět analytickým výpočtem.často je nutné zkoumat chování zařízení v mezních situacích, do kterých se skutečné zařízení
VíceTestování uživatelského rozhraní mobilního telefonu HTC Hero (Semestrální projekt pro předmět A7B36TUR)
České vysoké učení technické v Praze, Fakulta Elektrotechnická Testování uživatelského rozhraní mobilního telefonu HTC Hero (Semestrální projekt pro předmět A7B36TUR) Autor:Luboš Doležal dolezlu5@fel.cvut.cz
VícePředmět: ANGLICKÝ JAZYK Ročník: 6.
Předmět: ANGLICKÝ JAZYK Ročník: 6. Výstupy z RVP Školní výstupy Učivo Mezipředm. vazby, PT Poslech s porozuměním - rozumí informacím v jednoduchých poslechových textech, jsou-li pronášeny pomalu a zřetelně
VíceVY_32_INOVACE_E 15 03
Název a adresa školy: Střední škola průmyslová a umělecká, Opava, příspěvková organizace, Praskova 399/8, Opava, 746 01 Název operačního programu: OP Vzdělávání pro konkurenceschopnost, oblast podpory
Vícečeský jazyk a literatura
1 Mezipředmětové vztahy --> - 2. ročník Výchovné a vzdělávací strategie Kompetence k učení Kompetence komunikativní Kompetence k řešení problémů Kompetence sociální a personální Kompetence občanské Kompetence
VíceČíslo projektu: CZ.1.07/1.5.00/34.0036 Název projektu: Inovace a individualizace výuky Autor: Mgr. Martin Fryauf Název materiálu: Kriminalistická
Číslo projektu: CZ.1.07/1.5.00/34.0036 Název projektu: Inovace a individualizace výuky Autor: Mgr. Martin Fryauf Název materiálu: Kriminalistická fonoskopie Označení materiálu:vy_32_inovace_fry8 Datum
VíceVzdělávací obsah vyučovacího předmětu
Vzdělávací obsah vyučovacího předmětu Český jazyk a literatura 2. ročník Zpracovala: Mgr. Helena Ryčlová Komunikační a slohová výchova plynule čte s porozuměním texty přiměřeného rozsahu a náročnosti čte
VíceZákladní komunikační řetězec
STŘEDNÍ PRŮMYSLOVÁ ŠKOLA NA PROSEKU EVROPSKÝ SOCIÁLNÍ FOND Základní komunikační řetězec PRAHA & EU INVESTUJEME DO VAŠÍ BUDOUCNOSTI Podpora kvality výuky informačních a telekomunikačních technologií ITTEL
VíceOčekávané výstupy z RVP Učivo Přesahy a vazby Dokáže pracovat se základními obecné poučení o jazyce (jazykové příručky)
Český jazyk a literatura - 6. ročník Dokáže pracovat se základními obecné poučení o jazyce (jazykové příručky) jazykovými příručkami Odliší spisovný a nespisovný jazykový projev Rozpozná nejdůležitější
VíceNEWTON Technologies a.s. Jaroslava Schmidtová Project manager
NEWTON Technologies a.s. Jaroslava Schmidtová Project manager NEWTON Technologies a.s. Budoucnost tvoříme hlasem Jaroslava Schmidtová Project manager NEWTON Technologies, a.s. je česká společnost (založená
VíceEfektivní komunikace díky inovativním hlasovým technologiím. Praha, 25.11.2011 Call centrum ve finančních službách
Efektivní komunikace díky inovativním hlasovým technologiím Praha, 25.11.2011 Call centrum ve finančních službách Agenda Představení společnosti Ovládání hlasových aplikací přirozenou řečí Nové bezpečností
VíceNEWTON Technologies a.s.
NEWTON Technologies a.s. Budoucnost tvoříme hlasem Mgr. Jaroslava Schmidtová Project manager NEWTON Technologies, a.s. je česká společnost (založená v roce 2008), která se specializuje na řešení využívající
VíceKOMUNIKAČNÍ A SLOHOVÁ VÝCHOVA - čtení - praktické plynulé čtení. - naslouchání praktické naslouchání; věcné a pozorné naslouchání.
- plynule čte v porozuměním text přiměřeného rozsahu a náročnosti KOMUNIKAČNÍ A SLOHOVÁ VÝCHOVA - čtení - praktické plynulé čtení. - porozumí písemným nebo mluveným pokynům přiměřené složitosti - respektuje
VíceVoice portál. Pavel Cenek OptimSys, s.r.o.
Voice portál Pavel Cenek OptimSys, s.r.o. Vývoj software pro telekomunikace automatizace telefonní/hlasové komunikace integrace telefonie do firemních procesů (computer telephony integration, CTI) technologie
VíceAnglický jazyk. Anglický jazyk. žák: TÉMATA. Fonetika: abeceda, výslovnost odlišných hlásek, zvuková podoba slova a její zvláštnosti
Prima jednoduše mluví o sobě Slovní zásoba: elementární slovní 1 B/ 26, 27, 29, 30 tvoří jednoduché otázky a aktivně je používá zásoba pro zvolené tematické okruhy odpovídá na jednoduché otázky obsahující
Více- naslouchání praktické naslouchání; věcné a pozorné naslouchání. - respektování základních forem společenského styku.
- plynule čte s porozuměním text přiměřeného rozsahu a náročnosti KOMUNIKAČNÍ A SLOHOVÁ VÝCHOVA - čtení - praktické plynulé čtení. OSV (komunikace)- specifické komunikační dovednosti - porozumí písemným
Více12 Metody snižování barevného prostoru
12 Metody snižování barevného prostoru Studijní cíl Tento blok je věnován základním metodám pro snižování barevného rozsahu pro rastrové obrázky. Postupně zde jsou vysvětleny důvody k použití těchto algoritmů
VíceRočník II. Český jazyk. Období Učivo téma Metody a formy práce- kurzívou. Kompetence Očekávané výstupy. Průřezová témata. Mezipřed.
Jazyková výchova Zvuková stránka jazyka-sluch, rozlišení hlásek, výslovnost samohlásek, souhlásek a souhláskových skupin. Modelace souvislé řeči/tempo, intonace, přízvuk/ Hláska, slabika, slovo, věta,
VíceVýuka čtenářských strategií v zahraničí (evropské a zámořské trendy) Ladislava Whitcroft
Výuka čtenářských strategií v zahraničí (evropské a zámořské trendy) Ladislava Whitcroft Co jsou čtenářské strategie? Záměrné a cílené pokusy čtenáře o kontrolu nad schopností dekódovat text, porozumět
VícePráce se styly 1. Styl
Práce se styly 1. Styl Styl se používá, pokud chceme, aby dokument měl jednotný vzhled odstavců. Můžeme si nadefinovat styly pro různé úrovně nadpisů, jednotlivé popisy, charakteristiky a další odstavce.
VíceKapitola 1. Signály a systémy. 1.1 Klasifikace signálů
Kapitola 1 Signály a systémy 1.1 Klasifikace signálů Signál představuje fyzikální vyjádření informace, obvykle ve formě okamžitých hodnot určité fyzikální veličiny, která je funkcí jedné nebo více nezávisle
Vícečeský jazyk a literatura
1 český jazyk a literatura český jazyk a literatura Učivo Praktické čtení - pozorné, plynulé, přiměřeně rychlé, čtení hlasité i tiché, s porozuměním Zdokonalování techniky čtení Porozumění přiměřeným textům
Více7. Rozdělení pravděpodobnosti ve statistice
7. Rozdělení pravděpodobnosti ve statistice Statistika nuda je, má však cenné údaje, neklesejte na mysli, ona nám to vyčíslí Jednou z úloh statistiky je odhad (výpočet) hodnot statistického znaku x i,
Více1. Základy teorie přenosu informací
1. Základy teorie přenosu informací Úvodem citát o pojmu informace Informace je název pro obsah toho, co se vymění s vnějším světem, když se mu přizpůsobujeme a působíme na něj svým přizpůsobováním. N.
Více1. Matematická logika
MATEMATICKÝ JAZYK Jazyk slouží člověku k vyjádření soudů a myšlenek. Jeho psaná forma má tvar vět. Každá vědní disciplína si vytváří svůj specifický jazyk v úzké návaznosti na jazyk živý. I matematika
VíceStonožka jak se z výsledků dozvědět co nejvíce
Stonožka jak se z výsledků dozvědět co nejvíce Vytvoření Map učebního pokroku umožňuje vyhodnotit v testování Stonožka i dílčí oblasti učiva. Mapy učebního pokroku sledují individuální pokrok žáka a nabízejí
VíceObsah. Úvod Začínáme s PowerPointem Operace se snímky Pro koho je kniha určena...10 Použité konvence...11
Obsah Úvod... 9 Pro koho je kniha určena...10 Použité konvence...11 Začínáme s PowerPointem... 13 1.1 Základní pojmy...14 1.2 Podokno úloh...16 1.3 Zobrazení dokumentu...17 1.4 Uložení prezentace...21
Více5.15 INFORMATIKA A VÝPOČETNÍ TECHNIKA
5.15 INFORMATIKA A VÝPOČETNÍ TECHNIKA 5. 15. 1 Charakteristika předmětu A. Obsahové vymezení: IVT se na naší škole vyučuje od tercie, kdy je cílem zvládnutí základů hardwaru, softwaru a operačního systému,
VíceMULTICOM 112. Průvodce programem
MULTICOM 112 Průvodce programem Cíl Cílem projektu MULTICOM112 CD-ROM je zvýšit a rozšířit základní jazykové schopnosti techniků operačních středisek do takové míry, že budou schopni rozpoznat cizí jazyk
VíceŠkola: Střední škola obchodní, České Budějovice, Husova 9. Inovace a zkvalitnění výuky prostřednictvím ICT
Škola: Střední škola obchodní, České Budějovice, Husova 9 Projekt MŠMT ČR: EU PENÍZE ŠKOLÁM Číslo projektu: CZ.1.07/1.5.00/34.0536 Název projektu školy: Výuka s ICT na SŠ obchodní České Budějovice Šablona
Vícečeský jazyk a literatura
1 český jazyk a literatura český jazyk a literatura Výchovné a vzdělávací strategie Kompetence k učení Kompetence k řešení problémů Kompetence komunikativní Učivo Praktické čtení - pozorné, plynulé, přiměřeně
VíceAnglický jazyk pro 6. ročník
Anglický jazyk pro 6. ročník (Předmět je vyučován 3 hodiny týdně.) Vzdělávací obsah Lekce 1 Očekávané výstupy Z RVP ZV - aktivně se zapojí do jednoduché konverzace, pozdraví a rozloučí se s dospělým i
VícePřístupnost webů knihoven příklady dobré a špatné praxe. Radek PAVLÍČEK, TyfloCentrum Brno, o. p. s., projekt Blind Friendly Web
Přístupnost webů knihoven příklady dobré a špatné praxe Radek PAVLÍČEK, TyfloCentrum Brno, o. p. s., projekt Blind Friendly Web Máte rádi CAPTCHA? Líbila by se vám takto prezentovaná stránka vaší knihovny?
VíceSBĚRNICOVÝ SYSTÉM NIKOBUS OVLÁDÁNÍ PROVOZNĚ TECHNICKÝCH FUNKCÍ HLASEM
Katedra obecné elektrotechniky Fakulta elektrotechniky a elektrotechniky, VŠB TU Ostrava SBĚRNICOVÝ SYSTÉM NIKOBUS OVLÁDÁNÍ PROVOZNĚ TECHNICKÝCH FUNKCÍ HLASEM Návod pro laboratorní úlohu Ing. Jan Vaňuš
VíceČeský jazyk v 5. ročníku
Český jazyk v 5. ročníku září Jazyková Při hlasitém čtení vhodně využívá modulace souvislé řeči a různá zabarvení hlasu. Po tichém čtení samostatně reprodukuje text. Odliší podstatné a okrajové informace,
VíceNěmecký jazyk - Kvinta
- Kvinta Německý jazyk Výchovné a vzdělávací strategie Kompetence k řešení problémů Kompetence komunikativní Kompetence sociální a personální Kompetence občanská Kompetence k podnikavosti Kompetence k
VíceUživatelský manuál. Aplikace GraphViewer. Vytvořil: Viktor Dlouhý
Uživatelský manuál Aplikace GraphViewer Vytvořil: Viktor Dlouhý Obsah 1. Obecně... 3 2. Co aplikace umí... 3 3. Struktura aplikace... 4 4. Mobilní verze aplikace... 5 5. Vytvoření projektu... 6 6. Části
VíceŠablona: I/2Inovace a zkvalitnění výuky směřující k rozvoji čtenářské a informační gramotnosti
STŘEDNÍ ODBORNÁ ŠKOLA A STŘEDNÍ ODBORNÉ UČILIŠTĚ NERATOVICE Školní 664, 277 11 Neratovice, tel.: 315 682 314, IČO: 683 834 95, IZO: 110 450 639 Ředitelství školy: Spojovací 632, 277 11 Neratovice tel.:
VícePředmět: Konverzace v ruském jazyce
Vzdělávací oblast: Vzdělávací obor: Jazyk a jazyková komunikace Cizí jazyk Konverzace v ruském jazyce Vyučovací předmět Konverzace v ruském jazyce vychází ze vzdělávacího oboru Další cizí jazyk, který
VíceVzdělávací obsah vyučovacího předmětu
Vzdělávací obsah vyučovacího předmětu Český jazyk a literatura 4. ročník Zpracovala: Mgr. Helena Ryčlová Komunikační a slohová výchova čte s porozuměním přiměřeně náročné texty potichu i nahlas čte s porozuměním
VíceWORD. (zobecněno pro verzi 2007)
WORD (zobecněno pro verzi 2007) Program MS Word patří softwarově do skupiny uživatelských aplikací, které se nazývají textové editory. Slouží především k editacím či-li úpravám textů vč. vkládání grafických
VíceRočník V. Český jazyk. Období Učivo téma Metody a formy práce- kurzívou. Kompetence Očekávané výstupy. Průřezová témata. Mezipřed.
Komunikační a slohová výchova Praktické a věcné čtení Praktické a věcné naslouchání Základy mluveného projevu Pozdrav, oslovení, omluva, prosba, vzkaz, zpráva, oznámení, vyprávění, dialog, mimika, gesta
VíceUčebnice Project 1 třetí edice, pracovní sešit Project 1 třetí edice. Učebnice Project 2 třetí edice, pracovní sešit Project 2 třetí edice
Vyučovací předmět: Období ročník: Učební texty: Očekávané výstupy předmětu POSLECH S POROZUMĚNÍM žák Anglický jazyk 3. období 6. ročník Učebnice Project 1 třetí edice, pracovní sešit Project 1 třetí edice
VíceObsah. Zpracoval:
Zpracoval: houzvjir@fel.cvut.cz 03. Modelem řízený vývoj. Doménový (business), konceptuální (analytický) a logický (návrhový) model. Vize projektu. (A7B36SIN) Obsah Modelem řízený vývoj... 2 Cíl MDD, proč
VíceJednoduchá sdělení představování, poděkování, pozdrav, omluva Základní výslovnostní návyky
Učební osnovy Ruský jazyk PŘEDMĚT: Ruský jazyk Ročník: 7. třída 1 rozumí jednoduchým pokynům a otázkám učitele, které jsou pronášeny pomalu a s pečlivou výslovností, a reaguje na ně 1p je seznámen se zvukovou
VíceRočník: 5. Časová dotace: 7 hodin týdně učivo, téma očekávané výstupy klíčové kompetence, mezipředmětové vazby
Ročník: 5. Časová dotace: 7 hodin týdně Komunikační a slohová Zážitkové čtení a naslouchání klíčová slova vyhledávací čtení aktivní naslouchání se záznamem slyšeného Žák při hlasitém čtení vhodně využívá
VíceNěmecký jazyk (rozšířená výuka cizích jazyků)
Oblast Předmět Období Časová dotace Místo realizace Charakteristika předmětu Průřezová témata Další cizí jazyk Německý jazyk (rozšířená výuka cizích jazyků) 6. 9. ročník 3 hodiny týdně třídy, jazykové
VíceZvuk a jeho vlastnosti
PEF MZLU v Brně 9. října 2008 Zvuk obecně podélné (nebo příčné) mechanické vlnění v látkovém prostředí, které je schopno vyvolat v lidském uchu sluchový vjem. frekvence leží v rozsahu přibližně 20 Hz až
VíceB P L U S T V a. s. Obecně technické informace pro digitální bezdrátový obecní rozhlas DBOR-D.
B P L U S T V a. s. Obecně technické informace pro digitální bezdrátový obecní rozhlas DBOR-D. Obsah Výhody systému DBOR-D...3 Popis systému DBOR-D...3 Popis jednotlivých částí systému DBOR-D...4 Bytový
VíceVzdělávací oblast: Jazyk a jazyková komunikace Vyučovací předmět: Anglický jazyk Ročník: 9. Průřezová témata Mezipředmětové vztahy.
- pozdraví a představí se; - popíše povolání a dotáže se na ně (interview); - čte inzerát nabídky práce; - sestaví žádost o práci (formální dopis); - vybídne druhé, aby něco udělali; - čte článek v časopise;
VícePracovní celky 3.2, 3.3 a 3.4 Sémantická harmonizace - Srovnání a přiřazení datových modelů
Pracovní celky 3.2, 3.3 a 3.4 Sémantická harmonizace - Srovnání a datových modelů Obsah Seznam tabulek... 1 Seznam obrázků... 1 1 Úvod... 2 2 Metody sémantické harmonizace... 2 3 Dvojjazyčné katalogy objektů
VíceSignEditor 1 - návod k použití
SignEditor 1 - návod k použití Tomáš Ryba tryba@kky.zcu.cz Zdeněk Krňoul zdkrnoul@kky.zcu.cz Jakub Kanis jkanis@kky.zcu.cz 27. března 2012 1 Vznik za podpory projektu Pojabr - Potlačení jazykové bariéry
VíceSpeciální struktury číslicových systémů ASN P12
Aplikace UNS v syntéze řeči modelování prozodie druhy syntezátorů Umělé neuronové sítě pro modelování prozodie Rozdíly mezi přirozenou a syntetickou řečí Požadavky: zlepšování srozumitelnosti zlepšování
VíceFrancouzský jazyk. Jazykové prostředky. Tematické okruhy. význam. Pravopis. zájmová činnost. projevu ve známých výrazech Gramatické kategorie na
Francouzský jazyk ročník TÉMA G5 Tematické okruhy zájmová činnost tradice ni službu, informaci jednoduchý argument Porozumění a poslech běžně rozumí známým výrazům a větám se vztahem k osvojovaným tématům;
VíceRočník: 4. Časová dotace: 7 hodin týdně učivo, téma očekávané výstupy klíčové kompetence, mezipředmětové vazby
Ročník: 4. Časová dotace: 7 hodin týdně Komunikační a slohová Čtení a naslouchání čtení jako zdroj informací aktivní naslouchání s otázkami Žák čte s porozuměním přiměřeně náročné texty potichu i nahlas.
VíceÚvod do zpracování signálů
1 / 25 Úvod do zpracování signálů Karel Horák Rozvrh přednášky: 1. Spojitý a diskrétní signál. 2. Spektrum signálu. 3. Vzorkovací věta. 4. Konvoluce signálů. 5. Korelace signálů. 2 / 25 Úvod do zpracování
VíceVZORCE A VÝPOČTY. Autor: Mgr. Dana Kaprálová. Datum (období) tvorby: září, říjen 2013. Ročník: sedmý
Autor: Mgr. Dana Kaprálová VZORCE A VÝPOČTY Datum (období) tvorby: září, říjen 2013 Ročník: sedmý Vzdělávací oblast: Informatika a výpočetní technika 1 Anotace: Žáci se seznámí se základní obsluhou tabulkového
VíceE K O G Y M N Á Z I U M B R N O o.p.s. přidružená škola UNESCO
Seznam výukových materiálů III/2 Inovace a zkvalitnění výuky prostřednictvím ICT Tematická oblast: Předmět: Vytvořil: Rozvoj řečových dovedností Ruský jazyk Helena Malášková 01 O spánku a váze - prezentace
VícePředmět: Český jazyk a literatura
Komunikační a slohová výchova 1.plynule čte s porozuměním texty přiměřeného rozsahu a náročnosti správné čtení slabik, slov a krátkých vět hlasité čtení, ZÁŘÍ / 3 4. pečlivě vyslovuje, opravuje svou nesprávnou
VíceSIGNÁLY A LINEÁRNÍ SYSTÉMY
SIGNÁLY A LINEÁRNÍ SYSTÉMY prof. Ing. Jiří Holčík, CSc. INVESTICE Institut DO biostatistiky ROZVOJE VZDĚLÁVÁNÍ a analýz VII. SYSTÉMY ZÁKLADNÍ POJMY SYSTÉM - DEFINICE SYSTÉM (řec.) složené, seskupené (v
VíceNázev DUM: VY_32_INOVACE_2B_16_ Tvorba_grafů_v_MS_Excel_2007
Název školy: Základní škola a Mateřská škola Žalany Číslo projektu: CZ. 1.07/1.4.00/21.3210 Téma sady: Informatika pro sedmý až osmý ročník Název DUM: VY_32_INOVACE_2B_16_ Tvorba_grafů_v_MS_Excel_2007
VíceModulární monitorovací systém Gradient Digitální systém pro záznam, archivaci a vyhodnocení telefonie.
Modulární monitorovací systém Gradient Digitální systém pro záznam, archivaci a vyhodnocení telefonie. Obsah prezentace. Historie systému Gradient. Popis funkcí systému Gradient. Závěr kontaktní informace.
VíceObchodní akademie, Náchod, Denisovo nábřeží 673
Název vyučovacího předmětu: GRAFIKA NA PC (GRA Obor vzdělání: 18 20 M/01 Informační technologie Forma vzdělání: denní Celkový počet vyučovacích hodin za studium: 154 (5 hodin týdně) Platnost: 1. 9. 2009
VíceArchitektura počítačů
Architektura počítačů Studijní materiál pro předmět Architektury počítačů Ing. Petr Olivka katedra informatiky FEI VŠB-TU Ostrava email: petr.olivka@vsb.cz Ostrava, 2010 1 1 Architektura počítačů Pojem
VícePříloha č. 1 ke Školnímu vzdělávacímu programu základního vzdělávání pro žáky s mentálním postižením a poruchami komunikace
Logopedická základní škola, Měcholupy 1, příspěvková organizace Příloha č. 1 ke Školnímu vzdělávacímu programu základního vzdělávání pro žáky s mentálním postižením a poruchami komunikace Měcholupy 1.
Více1 Strukturované programování
Projekt OP VK Inovace studijních oborů zajišťovaných katedrami PřF UHK Registrační číslo: CZ.1.07/2.2.00/28.0118 1 Cíl Seznámení s principy strukturovaného programování, s blokovou strukturou programů,
VíceP r e z e n t a c e p r o j e k t u. Přílohy k prezentaci
P r e z e n t a c e p r o j e k t u Přílohy k prezentaci 1. M o d u l Základní pojmy informačních a komunikačních technologií (ICT) Pochopení hlavních pojmů a základní znalost různých částí počítače. Pochopit,
VícePřenosový kanál dvojbrany
STŘEDNÍ PRŮMYSLOVÁ ŠKOLA NA PROSEKU EVROPSKÝ SOCIÁLNÍ FOND Přenosový kanál dvojbrany PRAHA & EU INVESTUJEME DO VAŠÍ BUDOUCNOSTI Podpora kvality výuky informačních a telekomunikačních technologií ITTEL
VícePRODEJ Prodej je pochopitelně základní funkcí pokladního systému. Systému MERCATOR umožňuje prodej realizovat ve 3 režimech:
MERCATOR Moderní pokladní systém od společnosti SICONET a.s. Co je MERCATOR MERCATOR je PC pokladní systém určený především maloobchodním a velkoobchodním prodejnám společností, jejichž podnikovým systémem
VíceGymnázium Vysoké Mýto nám. Vaňorného 163, 566 01 Vysoké Mýto
Gymnázium Vysoké Mýto nám. Vaňorného 163, 566 01 Vysoké Mýto Registrační číslo projektu Šablona Autor Název materiálu CZ.1.07/1.5.00/34.0951 III/2 INOVACE A ZKVALITNĚNÍ VÝUKY PROSTŘEDNICTVÍM ICT Mgr. Jana
VíceOsobní počítač. Zpracoval: ict Aktualizace: 10. 11. 2011
Osobní počítač Zpracoval: ict Aktualizace: 10. 11. 2011 Charakteristika PC Osobní počítač (personal computer - PC) je nástroj člověka pro zpracovávání informací Vyznačuje se schopností samostatně pracovat
VíceZákladní informace: vysoce komfortnímu prostředí je možné se systémem CP Recorder efektivně pracovat prakticky okamžitě po krátké zaškolení.
Základní informace: CP Recorder je v Čechách vyvíjený systém pro sofistikované zaznamenávání telefonních hovorů. V prvé řadě je určen pro optimalizaci služeb, které poskytují u nás stále více populární
VíceInformatika - 7. ročník
Informatika - 7. ročník Očekávané výstupy z RVP ZV Školní výstupy Učivo Přesahy a vazby, průřezová témata I. čtvrtletí - 9 h upravuje si základní uživatelské nastavení počítače, nastavuje si plochu, spořič,
VíceObsah 1. Úvod Účel manuálu Ruční zápis oprav Automatické plánování Plánování pomocí řetězců...
Obsah 1. Úvod... 1 1.1. Účel manuálu... 1 1.2. Ruční zápis oprav... 1 1.3. Automatické plánování... 4 1.4. Plánování pomocí řetězců... 5 1.5. Preventivní prohlídky... 9 1.6. Revize... 12 (c) A-plus 2004
VíceZefektivnění procesu RCM
Zefektivnění procesu RCM Jaroslav Zajíček Abstrakt: Čas jsou peníze. To je hlavní myšlenka této práce. Principy metody RCM jsou všeobecně známé, jedná se o nalezení takové údržby, která je z dlouhodobého
VíceGramatika. Přítomný čas prostý a průběhový. Minulý čas prostý pravidelných i nepravidelných sloves. Počitatelná a nepočitatelná podstatná jména
A B C D E F 1 Vzdělávací oblast: Jazyk a jazyková komunikace 2 Vzdělávací obor: Cizí jazyk 3 Vzdělávací předmět Anglický jazyk 4 Ročník: 7. 5 Klíčové kompetence Průřezová témata Výstupy Učivo (Dílčí kompetence)
VícePříloha č. 4 ČESKÝ JAZYK JAZYKOVÁ VÝCHOVA
říjen září Žák rozlišuje zvukovou a grafickou podobu slova, člení slova na hlásky, odlišuje dlouhé a krátké samohlásky. Zvuková stránka jazyka Slovní zásoba a tvoření slov Skladba Sluchové rozlišení hlásek
VíceVzdělávací obsah vyučovacího předmětu
Vzdělávací obsah vyučovacího předmětu Český jazyk a literatura 9. ročník Zpracovala: Mgr. Marie Čámská Jazyková výchova spisovně vyslovuje běžně užívaná cizí slova samostatně pracuje s Pravidly českého
VíceSemestrální práce: Rozpoznání hláskované řeči a převedení na text
VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ Fakulta strojního inženýrství Ústav mechaniky těles, mechatroniky a biomechaniky Technická 2, Brno 616 69 RSZ Základy zpracování signálu Semestrální práce: Rozpoznání hláskované
VíceZpráva z evaluačního nástroje Dotazník strategií učení cizímu jazyku
Zpráva z evaluačního nástroje Dotazník strategií učení cizímu jazyku Škola Testovací škola NÚOV, Praha Třída 3. A Předmět Francouzština Učitel pepa novák Vážená paní učitelko, vážený pane učiteli, v této
VíceProfilová část maturitní zkoušky 2017/2018
Střední průmyslová škola, Přerov, Havlíčkova 2 751 52 Přerov Profilová část maturitní zkoušky 2017/2018 TEMATICKÉ OKRUHY A HODNOTÍCÍ KRITÉRIA Studijní obor: 78-42-M/01 Technické lyceum Předmět: TECHNIKA
VícePokročilé operace s obrazem
Získávání a analýza obrazové informace Pokročilé operace s obrazem Biofyzikální ústav Lékařské fakulty Masarykovy univerzity Brno prezentace je součástí projektu FRVŠ č.2487/2011 (BFÚ LF MU) Získávání
Více