yužití telefonie v asistivních technologiích pro neslyšící Zdeněk Bumbálek esearch and Development entre, Fakulta elektrotechnická České vysoké učení technické v raze echnická 2, 166 27, raha 6 mail: bumbazde@fel.cvut.cz Úvod a první pohled se může zdát slovní spojení využití telefonie pro neslyšící jako nesmysl. Že tomu tak není, dokazuje projekt ecribe výzkumně-vývojového centra D ČU a České unie neslyšících, jehož cílem je vytvořit online přepisovací centrum pro neslyšící. echnické řešení projektu je založeno na telefonii a online zobrazení přepisu řeči na webových stránkách. odle zákona č. 155/1998 b., o komunikačních systémech neslyšících a hluchoslepých osob, ve znění zákona č. 384/2008 b., mají sice tyto osoby právo svobodně si zvolit takový komunikační systém, který odpovídá jejich potřebám, ve skutečnosti však dosud nebyly vytvořeny podmínky pro naplňování tohoto práva, zejména pokud jde o zajištění přepisu mluvené řeči. rojekt ecribe rozšiřuje původní projekt České unie neslyšících imultánní přepis mluvené řeči. omocí komunikačních technologií a speciální aplikace pro přepis není nutná přítomnost přepisovatele na místě. řepisovatel může pracovat odkudkoli, kde je přístup na internet. A jak ecribe technicky funguje? Z místa konání přednášky pro neslyšící je přenášen hlas pomocí o telefonie do přepisovacího centra nebo kamkoli k přepisovateli. řepis zajišťují speciálně vyškolení rychlopísaři, kteří používají velký seznam zkratek. en se expanduje na celá slova nebo věty. K tomu využívají M ord s velkým seznamem automatického vkládání. oužití M ord bylo jednou ze základních podmínek přepisovatelů na vývoj aplikace pro přepis. projektor a přepisovaný hlas je zobrazován na plátno. Dostupný je však odkudkoli pomocí webového prohlížeče. Do budoucna projekt zamýšlí postupné zapojování automatického na rozpoznávání řeči. ím se zpřístupní služba ještě širšímu počtu neslyšících. rincip přenosu hlasu přes internet nternetová telefonie o (oice over nternet rotocol) přinesla revoluci do tradičního chápání přenosu hlasu. d vynalezení telefonu Antonio Meuccim (1860) až do nedávné minulosti, měly telefonní systémy jedno společné: jasné spojení z bodu A do bodu B. Bylo tomu tak jak u původních analogových systémů, u kterých bylo možné vysledovat kabelové spojení propojené v telefonních ústřednách např. křížovými spínači, tak i později po zavedení digitalizace DM (ime Division Multiplex) pevným přiřazením kanálových intervalů jednotlivým účastníkům. elmi zjednodušeně řečeno, klasická telefonie vytváří mezi uživateli jakési potrubí, které se během spojení nemění a přenáší hlas uživatelů. nternetová telefonie by se dala naproti tomu přirovnat k posílání dopisů poštou. řenášený hovor je rozkouskován na jednotlivé segmenty (pakety), které jsou doplněné o adresu odesílatele a příjemce (hlavičku) a nezávisle poslány sítí. praxi to probíhá tak, že přepisovatel si pomocí webového rozhraní aplikace vytvoří a otevře dokument M ord. a jeho pozadí běží programový kód, který téměř v reálném čase odesílá text na server, odkud je dále zobrazován na webovou stránku. a místě přednášky je k dispozici 1 0 1 1 0 0 0 1 t t+ t+2 t+3
obr. 1 Digitalizace hlasu nternetová telefonie zaznamenala veliký rozmach až v druhé polovině 90. let 20. stol., kdy ji začali podporovat velcí výrobci techniky (Lucent, isto, ocalec, ntel a další). Do té doby byla spíše jen koníčkem několika málo nadšenců obdobným radiovým amatérům. lavní překážkou byla absence jakéhokoliv standardu, který by umožnil propojit různá zařízení. Změna nastala až s příchodem protokolů.323 a zejména (ession nitiation rotocol), které se zasloužily o velké rozšíření internetové telefonie. nternet Digitalizovaný úsek lavička 40 B 160B X f 0 1 0 1 1 0 1 0 0 zorkování Kvantování Kódování řiřazení do časového rámce Digitalizace lnění paketu řidání hlavičky nternet yrovnávací paměť debrání hlavičky ekonstrukce obr. 3 rincip přenosu hlasu v sítích elefonní síť 1 0 1 1 0 1 0 0 dekódování obr. 2 rincip přenosu hlasu v sítích DM rincip přenosu hlasu přes nternet je naznačen na obr. 3. tejně tak jako u klasické telefonie je nejprve hlas digitalizován. oho se dosahuje pravidelným odebíráním vzorků hlasu (vzorkováním), kterému je dále přiřazena diskrétní hodnota v amplitudě (kvantování), tato hodnota je následně zakódována do binárního tvaru. klasické telefonii je takový vzorek vložen do pevně přiděleného kanálového intervalu v časovém rámci o délce trvání =125 ms a celá procedura se opakuje. internetové telefonii se používá nespojový způsob přenosu pomocí paketů. aket je třeba naplnit určitým počtem zakódovaných vzorků (cca 160 B) a doplnit hlavičkou (40B), která obsahuje směrovací údaje. akto sestavený paket je pak odeslán do sítě. Doručení paketu zajišťují jednotlivé uzly sítě routery, které pakety směrují. oto směrování je však do značné míry náhodné a tak ke koncovému uživateli docházejí pakety v různém pořadí. ro přenos paketů se využívá protokol UD, který ovšem nezaručuje 100% doručení a může se proto stát, že některý paket nedorazí k uživateli vůbec. správné seřazení paketů na přijímací straně se stará vyrovnávací paměť paketů viz. obr. 3. nternetová telefonie vykazuje proti klasické větší zpoždění přenosu hlasu. Zpoždění je způsobeno jednak samotným plněním paketu hovorovou informací (než se paket odešle, je třeba počkat než se naplní) a pak náhodnou dobou šíření paketu sítí. echnické řešení projektu ecribe současné době se pro účely projektu a testování používá fyzický stroj v síti feld.cvut.cz. troj má adresu 147.32.200.82 a je na něm nainstalován Linux penuse 11.1 (jádro 2.6.27.25-0.1). a tomto stroji je nainstalován virtualizační irtualbox verze 3. e irtualboxu jsou nainstalovány dva virtuální stroje s Linux Debian, jeden se stabilní verzí ústředny Asterisk 1.4.21.2 pro reálný provoz přepisovacího centra a druhý s verzí Asterisk 1.6.0.6 pro testování nových funkcionalit Asterisku, zejména začlenění přenosu textu v reálném čase přes protokol a. 10.1.1.2 10.1.1.198 Asterisk 10.1.1.197 est server erver 1 penu11.1, F server irtual BX, Aplikace pro přepis 10.1.1.5 erver 2 147.32.20.82 10.1.1.1 obr. 4 Zapojení sítě ecribe íť FL /
Architektura systému a obr. 5 je naznačena architektura systému ecribe. Jádro systému tvořící jeho komunikační část představuje ústředna Asterisk, dalším velmi důležitým blokem je server zajišťující online zobrazování přepsané řeči na webových stránkách, který úzce spolupracuje s webovým serverem Apache. řístup do systému je možný jednak z klasických telefonních přístrojů, mobilních telefonů ale i z telefonů a klientů. ejsnadnější způsob pak tvoří webový telefon, díky kterému je celý systém dostupný pouze z webového rozhraní bez nutnosti jakékoli instalace a konfigurace pro uživatele. DM BX Asterisk eb interface ecribe /D GM/G/DG/UM G B B /UD obr. 5 Architektura systému ecribe M D A ro přenos hlasu v systému Asterisk je v zásadě možné využít dva způsoby DM a o. ro DM vyvinula fy Zapatel elephony pseudo DM kartu Zaptel. oto rozhraní je dodáváno fy Digium pro různé varianty použití (,, 1, 1,, BA, &M...). ro o telefonii podporuje Asterisk řadu protokolů. současné době se nejčastěji rozšířeným protokolem stává protokol, další podporované protokoly jsou AX,.323, MG a of. rámci ecribe jsou využívány protokoly a AX. omocí těchto protokolů je možné uskutečňovat hovory zdarma odkudkoli s přístupem na nternet. ro komunikaci se sítěmi a GM využívá projekt ecribe propojení pomocí soukromého o operátora. dohledné době bude systém zpřístupněn také z klasických pevných sítí připojením přípojkou do pevné telefonní sítě a pomocí GM bran do sítí českých mobilních operátorů. ústředna Asterisk umožňuje tvorbu účastnických přípojek s různým oprávněním. rámci projektu jsou v současné době vyžívány celkem 3 různé kategorie, první z nich tvoří testovací linky umožňující neomezené volání jak na vnitřní linky, tak odchozí volání do sítí a GM. Druhá kategorie určená pro uživatele systému dovoluje neomezené volání uvnitř ústředny a třetí kategorie je určená pro přepisovatele, kterým je umožněn hovor pouze v rámci skupiny přepisovatelů. ústředna Asterisk Základem komunikačního systému projektu ecribe je ústředna Asterisk. Asterisk je open source určený k provozování telefonních služeb jak na úrovni přepínání okruhů (DM) tak v síti s přepínáním paketů. ystém Asterisk lze právem považovat za velmi rozšířené, flexibilní a silné řešení v oblasti telekomunikačního. ystém Asterisk provozujeme na platformě Linux penu 11.1 a plnohodnotně plní veškeré funkce pobočkové ústředny BX. Asterisk je schopný zpracovávat různé druhy protokolů jak ve o telefonii (, MG,.323 a AX) tak v sítích a D. elká výhoda systému spočívá právě v jeho otevřenosti a možnosti přizpůsobení nejrůznějším standardům. tevřenost systému je velmi důležitým požadavkem projektu ecribe, zejména z důvodu pozdějšího snadného propojení se automatického rozpoznávání hlasu. nline zobrazování přepisu Dalším velmi důležitým blokem systému je server a aplikace pro přepis. Zatímco u komunikačního řešení byl použit otevřený a často používaný systém Asterisk, u aplikace pro přepis bylo zapotřebí vyvinout vlastní řešení, které by splňovalo podmínky přepisovatelů na minimální změnu v jejich dosavadní práci. ro přepis využívají přepisovatelé standardně M ord. stupem dat pro online zobrazování textu na webových stránkách je tak dokument M ord, na jehož pozadí běží programový kód, který zajišťuje odesílání textu na server. rojekci přepisu na webových stránkách zajišťují skripty v, které generují automaticky se obnovující dokument, který periodicky přenáší celý text přepisu. ílem online přepisu je poskytnout neslyšícím komunikaci v reálném čase, tzn. přenos a zobrazování textové informace znak po znaku s možností oprav a využití kláves Delete a Backspace. Za takovýchto podmínek není možné využívat standardních instant messengerů.
yvinutá aplikace pro přepis tyto podmínky částečně splňuje, umožňuje především zpětné editování textu, ovšem přenos znak po znaku je díky nativním vlastnostem M ord nemožný, neboť umožňuje odesílat událost max. 1x za vteřinu. Další zpoždění nastává na straně zobrazení dat ze serveru na webovou stránku. elkové zpoždění činí okolo 1,5 vteřiny a text je přenášen v dávkách odpovídající maximálnímu množství textu, které stačí přepisovatel za tuto dobu napsat. Možným řešením přenášení textu znak po znaku je využití protokolu, který se běžně používá pro real time přenosy zvuku a videa. deálním řešením pro uživatele je integrace přenosu real time textu s přenosem zvuku a obrazu do jednoho klienta. akový způsob komunikace se nazývá otal communication a je popsán v doporučení U- F.703. Zavedením bezchybného real time přenosu textu znak po znaku přes se zabývá standard.140 a F F 2793. akovýto způsob přenosu textu se v literatuře označuje jako ext over (o) a je doplňkem k o a ideo over. ext over najde uplatnění kromě komunikace s lidmi se sluchovým postižením také při komunikaci ve velmi hlučných prostorách, diskrétní komunikaci, přenosu přesných informací a jako doplněk k hlasové a video komunikaci. rojekt ecribe se v současné době zabývá implementací o do systému Asterisk s podporou rychlosti psaní cca 30 znaků/vteřinu..140 F4103 UD () obr. 6 Začlenění.140 do vrstvového modelu Kvalita řeči (kodeky, porovnání) ro budoucí připojení automatického rozpoznávače hlasu k systému je kritickým požadavkem kvalita přenášeného hlasu, která by v ideálním případě měla být až 48 kz 16 bit na vzorek. řenášet hlas v takové kvalitě nekomprimovaně sítí je velmi náročné a využití v sítích GM by bylo úplně nemyslitelné. Z tohoto důvodu je třeba hlas kódovat a komprimovat, k čemuž v projektu využíváme běžně dostupné kodeky. rámci připojení k rozpoznávači také zvažujeme vývoj vlastního kodeku přizpůsobeného potřebám rozpoznávače. následujících odstavcích jsou popsány nejběžnější kodeky, které se využívají v rámci o. a použitém kodeku bude záviset, jaká bude kvalita probíhajícího a jaké bude zatížení sítě při probíhajícím. Kvalita se stanovuje pomocí standardizované jednotky M (Mean pinion core), která číselně odpovídá subjektivnímu ohodnocení kvality daného řečového signálu. ožadovanou šířku pásma sítě udává počet kbit za sekundu. Určení kvality M stupnicí se děje buď objektivní metodou (pomocí algoritmu), nebo subjektivně, kdy se statisticky zpracují výsledky ohodnocení kvality. yto výsledky vznikají ohodnocením od jisté množiny osob, které se podílejí na měření kvality. becně je kvalita a její zjišťování velmi obsáhlé téma mimo rámec tohoto článku, podrobnosti zde tedy nebudou popisovány. praxi nabývá hodnota M intervalu od 1 do 4,5, přičemž 4,5 je hodnocení nejlepší. G.711 - Je základní kodek, který se používá i v klasické telefonní síti. Kvalita přenášeného hlasu je totožná s kvalitou hlasu při běžném telefonním, M je přibližně 4.1. ento kodek podporují všechna o koncová zařízení. xistují dva typy G.711. µ-law používaný v everní Americe a v Japonsku a A-law využívaný v vropě a zbytku světa. A- law je jednodušší a nemá takové nároky na výpočetní výkon. G.723.1 - oužívá buď kódování M-MLQ nebo AL. rvní typ kódování vyžaduje šířku pásma 6.3 kbit/s, druhý typ 5.3 kbit/s. Doba trvání jednoho rámce je 30 ms a M skóre je 3.9 při použití kódování MMLQ a 3.65 při použití AL. G.726 - Kodek používá kódování ADM, potřebná šířka pásma je 16, 24, 32 a 40 kbit/s. Kodek může zpracovávat bloky různé délky podle toho, jak velké zpoždění je požadováno. G.729 - oužité kódování je -AL - onjugate tructure Algebraic ode xcited Linear rediction. otřebná šířka pásma je 8 kbit/s, kvalita je podobná jako 32 kbit ADM. ento kodek je nejpoužívanější v telefonii. polu s G.711 je nejčastěji podporován koncovými zařízeními. Můžeme se setkat ještě s G.729a, což je dodatek k G.729. ento kodek snižuje nároky na výpočetní výkon asi o 20%, ale je zhoršena kvalita. GM - Kodek, šířka pásma je 13 kbit/s. GM je rychlejší než metody založené na slovníku (L) ilb - nternet Low Bit ate odec, tento kodek byl vyvinut firmou Global ound,
potřebná šířka pásma je 13.33 kbit/s, délka rámce je 30 ms. Kodek umožňuje elegantní snížení kvality přenášeného signálu v případě zpoždění nebo ztráty paketů. oužitý algoritmus je Block ndependent Linear redictive oding. peex - Audio kodek primárně navržený pro přenos hlasu při velmi nízkém datovém toku od 2-44 kb/s. peex je založen na algoritmu L. ozeznáváme tři varianty kodeku peex v závislosti na šířce přenosového pásma. peex narrow band (tok 15.2 kb/s, vzorkovací frekvence 8 kz), peex wide band (tok 28 kb/s, vzorkovací frekvence 16 kz), peex ultra wide band (tok 36 kb/s, vzorkovací frekvence 32 kz) Kodek tandard řenosová rychlost (kb/s) zorkovací frekvence (kz) M G.711 U- 64 8,00 4,1 3.8- G.723.1 U- 5.6/6.3 8,00 3.9 G.726 U- 16/24/32/40 8,00 3,85 G.728 U- 16 8,00 3,61 G.729 U- 8 8,00 3,92 GM 13 8,00 3,7 peex Freeware 2.15-24.6 (B) 4-44.2 (B) 8, 16, 32 ilb F F 3951 8 13,30 3,85 tab. 1 ejrozšířenější hlasové kodeky Závěr Široce dostupné přepisovací centrum umožní poskytovat službu přepisu mnohem většímu okruhu osob s postižením sluchu. rostřednictvím přepisu na dálku bude možné zajišťovat službu přepisu levněji než při osobní přítomnosti přepisovatele na místě konání akce a bude možné také podstatně zvětšit počet přepisovaných akcí. Díky online přepisu se neslyšícím zpřístupní kulturní, vzdělávací, společenské či jiné akce, kterých by se kvůli komunikační bariéře nemohli zúčastnit. řepis lze využít také při individuálních jednáních neslyšících osob například u soudu nebo na úřadě, kde je neschopnost domluvit se pro neslyšící osoby zvlášť tíživým problémem. tuto chvíli je projekt stále ve vývoji. robíhají první testy. o úspěšném testování budou služby centra dostupné všem neslyšícím v Č a do budoucna i v zahraničí. loužit by k tomu mělo vytvoření Live D systému, po jehož instalaci bude systém připravený ke spuštění i bez složitějších technických znalostí. amozřejmě bude vždy nutné najít partnera pro automatické rozpoznávání řeči, zejména co se týká méně rozšířených národních jazyků, jako je čeština. budoucnu by inovativním prvkem projektu mělo být propojení komunikačního systému se speciálním na rozpoznávání řeči. ychlopísaře by pak mohl nahradit automat. rámci projektu navázalo D centrum úzkou spolupráci se společností ewton echnology, která se rozpoznáváním hlasu velmi intenzívně zabývá. rojekt ecribe je financován adací odafone Č a částečnou podporou grantu MM. Literatura [1] MGGL J., MAD L., M J.: Asterisk : he Future of elephony, eilly Media, nc., 2007 [2] U-:.140: rotocol for multimedia application text conversation, 1998 [3] ellström G: F F 4103: ayload for ext onversation, 2005 [4] orlin : o functionality in Asterisk, 2007, dostupné online z http://liu.divaportal.org/smash/get/diva2:24141/full X01 [5] http://www.emory.edu/bu/et/98/ iptel/