JAK LZE VYUŽÍT GRAFICKÉHO ZOBRAZENÍ AKUSTICKÉHO SIGNÁLU PŘI VÝUCE JAZYKA A SPRÁVNÉ VÝSLOVNOSTI Jana Mádlíková - Jan Nouza Laboratoř počítačového zpracování řeči na Technické univerzitě v Liberci se již delší dobu zabývá problematikou zpracování řeči pomocí počítače. Významnou část svého výzkumu věnuje využití metod zpracování řeči při vývoji systému pro nácvik řeči u neslyšících osob. Vyvíjený systém byl již v minulosti testován neslyšící osobou, která dosáhla poměrně dobrých výsledků [1]. Toto testování ověřilo funkčnost systému i možnosti jeho využití v oblasti výuky řeči neslyšících. Naším dalším cílem bylo nalézt kvantifikovatelnou míru vlivu grafického zobrazení řeči na úspěšnost výuky. Bylo tedy nutné navrhnout metody či možnosti, jak vlastnosti vyvíjeného systému průběžně a objektivně vyhodnocovat, a to nejen prostřednictvím pokusů s neslyšícími, což bývá časově i organizačně velmi náročné, ale též přímo samotnými tvůrci systému. Vznikl tak projekt, jehož cílem bylo navrhnout a ověřit metody, kterými by bylo možné nasimulovat situaci podobnou té, v níž se ocitá neslyšící člověk, který se s pomocí vizualizačního programu, a případné další osoby (terapeuta specialisty), snaží zlepšovat svou výslovnost. Jako vhodná možnost simulace tohoto problému byla nakonec vybrána úloha, kdy se slyšící člověk učí cizímu jazyku, jehož skutečnou výslovnost nezná. Zde bylo nutné najít takový jazyk, jehož akustická podoba není běžně známa. Cíle a podstata projektu Cílem projektu bylo navrhnout a vyhodnotit metodu napodobující alespoň částečně situaci člověka učícího se správné výslovnosti a odkázaného na jinou než přirozenou sluchovou formu zpětné kontroly. Předmětem vlastního testování se stal prototyp systému umožňujícího nácvik řeči prostřednictvím zpětnovazební vizuální informace. Jde o systém vyvinutý v naší laboratoři a označovaný pracovním názvem VICK (VIsual feedback). Program VICK je komplexní program, který v sobě sdružuje několik funkcí: a) záznam signálu řeči, b) vykreslení tohoto signálu ve formě časového průběhu a spektrogramu, c) rozpoznání signálu v rámci daného slovníku, d) vykreslení až 3 dalších referenčních průběhů signálů téhož slova, e) tvorba protokolu výsledků. Nácvik je umožněn a usnadněn tím,
že uživatel má možnost prohlédnout si záznam své promluvy a porovnat jej se záznamy ostatních referenčních mluvčích. Podrobnější informace [1, 2]. Kromě již zmíněného systému VICK, jsme využívali i program pro záznam a předzpracování řečových dat s názvem WGET. Program umožňuje automatizované nahrávání slov z daného slovníku. Podmínky experimentu Možnosti využití vizuální zpětné vazby při výuce řeči jsou testovány na vybraném okruhu slov, a to v jazyce, který není testovaným (slyšícím) osobám běžně znám. Důležité bylo zvolit cizí jazyk s těžko odhadnutelnou výslovností a se zápisem v latince. Rozhodovala rovněž dostupnost rodilých mluvčích a tzv. supervízora (osoby ovládající češtinu a vybraný jazyk, která plnila funkci poradce). Na základě výše uvedených kritérií jsme zvolili vietnamštinu. Supervizorem se stal vietnamský doktorand s velmi dobrou aktivní znalostí češtiny působící na Technické univerzitě v Liberci (TUL). Po dohodě s ním byl vybrán testovací slovník skládající se z 20 slovních jednotek. Vybraný slovník nahrálo 6 vietnamských mluvčích (3 ženy a 3 muži). Samotné testování prováděli 4 studenti TUL (2 ženy a 2 muži). Celý projekt byl rozvržen do pěti základních fází (Tab. 1). Každá z nich byla zaměřena na vyhodnocení určitého momentu výrazně ovlivňujícího výuku výslovnosti. Na závěr každé fáze každý mluvčí na základě získaných znalostí desetkrát namluvil celý slovník. Tento materiál byl použit pro vyhodnocování úspěšnosti každé fáze. Vyhodnocování se dělo formou testu, v němž bylo každé zaznamenané slovo předloženo rozpoznávacímu systému naučenému na záznamech originální (vietnamské) výslovnosti. Míra úspěšnosti se měřila na základě procentního podílu správně rozpoznaných slov. Protože v každé fázi se test skládal celkem z 200 slov (20 slov x 10 opakování), znamenala 1 chyba při klasifikaci pokles o 0,5 procenta. Rozčlenění experimentu do jednotlivých fází Přípravná fáze zahrnuje pořízení nahrávek vybraného slovníku od rodilých vietnamských mluvčích a vytvoření modelů jednotlivých slov. Fáze 1: Testující osoby měly k dispozici pouze textový zápis slovníku. Mluvčí se mohl při výslovnosti řídit jen svým odhadem. Každý z nich s použitím programu W GET nahrál celkem 10 opakování celého slovníku. Jejich vyhodnocením - na základě počtu správně klasifikovaných slov - byla zjištěna jakási startovací, či základní, úroveň kvality výslovnosti. Fáze 2: Druhá fáze byla dalším vývojovým stupněm nácviku, v níž bylo možno porovnávat záznam jednotlivých slov pořízených experimentátory se třemi záznamy téhož slova tak, jak jej nahráli vietnamští mluvčí. Záznam mužského a ženského hlasu téhož slova není shodný, což vyplývá z obecné hlasové diference obou pohlaví, která je např. dána hlasitostí,
důrazem a dynamikou verbálního projevu. Pro porovnávání bylo možno zvolit buď záznamy žen, nebo záznamy mužů, popř. kombinaci obou. Fáze 3: Ve třetí fázi se do nácviku zapojil i vietnamský supervízor, který se snažil experimentátorům pomoci při správné výslovnosti. Mohl tak však činit jen neverbální, buď písemnou, či mimickou formou. Tímto způsobem jsme se chtěli alespoň částečně přiblížit situaci neslyšícího uživatele. Fáze 4: Čtvrtá fáze se vyznačovala možností nového individuálního nácviku pomocí programu VICK, avšak již za předpokladu vyššího stupně znalosti výslovnosti, získané v předchozí fázi konzultacemi se supervizorem. Fáze 5: Poslední fáze měla za cíl zjistit, nakolik lze výslovnost ještě dále zlepšit, pokud se testované osoby seznámí se skutečnou výslovností. V této fázi tedy experimentátoři poprvé slyšeli od supervízora originální výslovnost. Tab. 1: Souhrn stručných charakteristik jednotlivých fází projektu FÁZE fáze 1 fáze 2 fáze 3 fáze 4 fáze 5 STRUČNÁ CHARAKTERISTIKA Pořízení 10 nahrávek vybrané slovní zásoby pomocí programu W_GET bez jakékoliv znalosti výslovnosti jednotlivých slov trénováni vybrané slovní zásoby v programu VICK pořízeni 10 nahrávek vybrané slovní zásoby programem W_GET neverbální konzultace s vietnamským supervizorem pořízení 10 nahrávek vybrané slovní zásoby programem W_GET trénování vybrané slovní zásoby v programu VICK pořízení 10 nahrávek vybrané slovní zásoby programem WGET verbální konzultace správné výslovnosti se supervizorem pořízení 10 nahrávek vybrané slovní zásoby programem W GET Shrnutí dosažených poznatků Každý jednotlivec je jinak vybaven schopností přijímat a učit se používat nové poznatky. Je tomu tak i při výuce cizích jazyků. Z výsledků jednotlivých experimentátorů je patrné, že každý z nich může být jinak nadán jazykovými schopnostmi, možnostmi pochopit a využívat vizuální zpětnovazební informaci, schopností zafi- xovat si novou výslovnost a zároveň i pracovat v podmínkách časového limitu či momentální indispozice a únavy (Graf č. 1, č. 2). Výsledné hodnoty skóre úspěšnosti rozpoznaných slov se u účastníků projektu liší, byť ne příliš. Z hlediska globálního posouzení budou však výsledky v jednotlivých fázích uváděny jako průměrné hodnoty získané od všech mluvčích.
Fáze 1: Podstatou první fáze bylo zjistit dolní mez míry správné výslovnosti bez jakékoliv přípravy a tréninku. V konkrétním testování se tato hodnota pohybovala v průměru kolem 49 %. Fáze 2: Tato fáze umožňuje rozpoznat a natrénovat slova s chybnou výslovností. Program VICK dovoluje identifikovat místa s výrazně odlišnou výslovností (zejména díky grafickému zobrazení spektra) a umožňuje sledovat, zda-li se při opakovaných pokusech výslovnost posunuje směrem k referenčním promluvám. Zásadní výhodou této fáze se jeví možnost samostatně pracovat na své výslovnosti pomocí vizualizace záznamu a porovnávat ji se záznamy referenčních mluvčích, což umožňuje identifikovat a následně odstraňovat své chyby ve výslovnosti. Během této fáze se všichni mluvčí zlepšili, a to průměrně o 9 % vůči první fázi, což znamená na celkové skóre 58 % správně rozpoznaných slov. Fáze 3: Třetí fáze se vyznačuje významnou pomocí supervízora, který se neverbálně snaží navést mluvčího na správnou výslovnost. Tato fáze byla přínosem pro získání informací o výslovnosti slov, jež se nepodařilo v předchozí fázi správně identifikovat a nacvičit pomocí vlastního tréninku. Tato fáze zaznamenala celkový nárůst o 4 % vůči předcházející fázi (tzn. o 13 % vůči počáteční fázi) na celkové skóre 63 %. Fáze 4: Pro čtvrtou fázi byli mluvčí teoreticky proškoleni", mohli tudíž samostatně pracovat na své výslovnosti pomocí programu VICK. Tato fáze je dle účastníků projektu považována za klíčovou v celém procesu učení, což je doloženo dosaženými výsledky. Celkové skóre se v průměru pohybovalo kolem 77 %, což představuje zlepšení o 14 % vzhledem k předešlé fázi (a tedy o 28 % k počáteční fázi). Základním problémem zde opět bylo časové omezení tréninku. Fáze 5: Poslední fáze byla pouze orientační (neboť pro neslyšící pozbývá smyslu). Překvapivě jsme se zde setkali s opačným efektem. Kromě jediné osoby se všechny ostatní v této fázi zhoršily, a to v průměru o 4 %. Vysvětlujeme si to tím, že všichni experimentátoři byli již natolik ovlivněni předchozími fázemi a nekonečným" opakováním téhož slovníku, že si již ke každému slovu vytvořili výslovnostní stereotypy, kterých se nebyli v krátkém čase schopni zbavit. Závěr Série experimentů, při níž se skupinka testovaných osob snažila naučit výslovnosti několika slov v jim neznámé exotické řeči, a to pouze prostřednictvím poznatků zprostředkovaných jinak než sluchovou formou, ukázala, že systém vizuální zpětné vazby je použitelný. V našem případě lze zlepšení výslovnosti dokumentovat na základě výsledků získaných nepřímým měřením s využitím techniky automatického rozpoznávání řeči. Osoby, jejichž výslovnost byla na začátku experimentů rozpoznávacím systémem hodnocena správně pouze z 45 až 50 %, dosáhly v závěru nácviku úspěšnosti o 20 až 25 % vyšší (Graf č. 2). Výše uvedené závěry potvrzují naši hypotézu
o možnosti využití systému pro nácvik akustické stránky řeči. Projekt byl zároveň pojat jako přípravná fáze pro testování systému přímo u sluchově postižených osob. V nynější době jsou prováděny testy na skupince neslyšících dětí a dětí se zbytkem sluchu, které probíhají ve spolupráci se Školou pro neslyšící v Liberci. Předpokládáme, že s výsledky probíhajících testů budeme moci veřejnost seznámit v nejbližší době - opět v tomto časopise. Graf č. 1: Grafický záznam výsledků - mluvčí ZJM Vliv vizuální zpětné vazby při nácviku řeči v jednotlivých vývojových stupních S 60 e g 55 50 45 1 2 3 4 5 fáze projektu Graf č. 2: Komplexní přehled výsledků dosažených jednotlivými mluvčími - experimentátory Výsledné průběhy vlivu vizuální zpětné vazby pro výuku řeči 1 2 3 4 5 fáze projektu
Literatura: [1JSTRNADO VÁ, V. -NOUZA, J.: Některé z možnosti využiti počítače ovládaného hlasem ve speciální pedagogice. Speciální pedagogika, č. 3, Praha 1997. s. 29-34. [2]NOUZA, J.: Visual Processing ofspeech: Tools for Education, Aids for Handicaped. Proc. of Int. Conference on Speech Processing (ICSP '97), Seoul, Korea, 1997, s. 676-682. m