ŘEČOVÉ TECHNOLOGIE v PRAXI Josef Psutka, FAV ZČU v Plzni Obsah: 1. Automatické rozpoznávání řeči počítačem 2. Počítačová syntéza řeči 3. Hlasový dialog člověka s počítačem 1.10 2014 1
Automatické rozpoznávání řeči Úloha: Systém pro diktování textů do počítače Charakteristika: o SW systém pro automatický převod české mluvené řeči do textu o Využívá se pro snížení náročnosti tvorby psaných dokumentů o Uvolnění rukou a zraku pro jiné účely o Pomoc handicapovaným 1.10 2014 2
Vlastnosti: o Přepis v reálném čase bez zpoždění se slovníkem větším než 1 mil. slov o Rozsáhlé výslovnostní slovníky jmen a příjmení, obcí, ulic, firem (dalších 1,5 milionu slov) o Denní aktualizace slovní zásoby o Automatická adaptace na hlas řečníka o Využití moderního HW (paralelizace, GPU) o Hlasové ovládání aplikace o Obory použití - medicína (patologie, histologie, radiologie, chirurgie, ORL, interna, kardiologie, onkologie, psychiatrie ) - právo (soudnictví, advokacie ) - státní správa - soukromá sféra o SW se prodává pod označením MegaWord 1.10 2014 3
1.10 2014 4
Automatické rozpoznávání řeči Úloha: Projekt: Titulkování živých televizních pořadů Eliminace jazykových bariér handicapovaných diváků České televize Charakteristika: Tvorba skrytých titulků živě vysílaných TV pořadů různých žánrů (politika sport, zábava ) Náhrada stenotypistů a rychlopísařů na klávesnici Dva přístupy k řešení úlohy o přímé (automatické) titulkování z doprovodné zvukové stopy TV pořadu o titulkování s využitím tzv. stínového řečníka 1.10 2014 5
Přímé automatické titulkování Zvuková stopa TV pořadu Titulky ASR (realtime LVCSR) Lze využít jen pro specifické typy TV pořadů o vždy mluví pouze jeden řečník o kultivovaný projev řečníka o omezená doména projevu o klidné akustické prostředí 1.10 2014 6
Přímé automatické titulkování přenosy z Parlamentu ČR (Poslanecké sněmovny a Senátu) specifické akustické modely pro poslance a senátory specifický jazykový model a slovník s automatickou aktualizací zpracovaný titulek je automaticky doplněn interpunkcí titulky opatřeno dosud více než 1,5 tisíce přenosových hodin přesnost vytvářených titulků je přes 90% 1.10 2014 7
Titulkování s využitím stínového řečníka Zvuková stopa TV pořadu Titulky ASR (realtime LVCSR) Hodí se pro pořady diskusní (časté střídání řečníků, řečníci mluví najednou), pořady sportovní a zábavní (ruch na pozadí, emotivní řeč) apod. Lze využít pro libovolné žánry pořadů Inspirace u BBC, vyvinuta vlastní (lepší) technologie 4-fázový trénink s využitím patentem chráněného trenažéru Přesnost vytvářených titulků přes 98% 1.10 2014 8
Práce stínového řečníka Poslouchá zvukovou stopu TV pořadu Diktuje do titulkovacího systému Vybírá řeč hlavního řečníka (pokud mluví více řečníků najednou) Koriguje mluvu řečníka Kontroluje a opravuje výsledný text titulků Přidává nová slova do slovníku (je-li to třeba) Indikuje změnu řečníka (změna barvy titulku) Zadává interpunkci Zvládá až 2 hodiny titulkování 1.10 2014 9
Schéma titulkování živých pořadů 1.10 2014 10
Titulkování s využitím stínového řečníka Individuální akustický model pro každého stínového řečníka Specifický jazykový model a slovníky pro každou domény S využitím stínového řečníka titulkovány Diskusní a politické pořady: Otázky Václava Moravce, Hyde Park, Interview 24, Ekonomika 24, Volební debaty Zábavné, estrádní a kratochvilné pořady: Cena TýTý, Cena Thálie, Sportovci roku (atlet, fotbalista. ), Star Dance Sportovní přenosy: hokejová a fotbalová čs.liga, evropská liga, tenis (Davis Cup, Fed Cup); OH v Soči, MS v hokeji a ve fotbale (titulkování dalších typů pořadů se připravuje 1.10 2014 11
Vyhledávání informací v audio(-vizuálních) archivech Rychlé vyhledávání informací v proudu mluvené řeči (on-line anebo archiv záznamů) Hledání klíčových frází (slov) v proudu řeči o o Hledání na úrovni vyslovených a rozpoznaných slov Hledání na úrovni vyslovené posloupnosti fonetických zvuků Hledání topiků, tj. audio segmentů, kde se mluví o daném tématu Využití: call centra, rozsáhlé multimediální archivy, bezpečnostní složky státu 1.10 2014 12
Počítačová syntéza řeči IT technologie, která umožňuje převádět psaný text na mluvenou řeč (angl. TTS systémy Text-to-Speech) Cílem je generovat řeč z libovolného textu ve vysoké kvalitě Není možné uložit všechna slova (věty) do počítače, a pak je jen přehrávat! Konkatenační korpusově orientovaný systém Text Řeč 1.10 2014 13
Řečové technologie 33 v praxi Schéma procesu TTS Dnes D bude zataženo,, v některých oblastech přeháňky,, po 6. hod. očekáváme sněžení.. dnez bude zataženo vňekterích oblastech přeháňki pošesté hoďiňe očekáváme sňežeňí textová analýza, fonetická transkripce, prozodická slova pauza pauza pauza nádech prozodická analýza, intonační a rytmický průběh výběr, spojování a úprava základních řečových jednotek 1.10 2014 14
Počítačová syntéza řeči Využití: Automatické čtení textu pro zrakově handicapované osoby Automatický dabing (čtení titulků) televizních pořadů Automatické hlásiče (nádraží, bezpečnostní složky apod.) Součást hlasových dialogových systémů Ukázky : monohlasový pořad míchání (2orig) (2TTS) 1.10 2014 15
Hlasový dialog člověka s počítačem Hlavním účelem hlasových dialogových systémů (HDS) je vytvořit rozhraní mezi počítačem řízenou aplikací a uživatelem komunikujícím hlasem 1.10 2014 16
Hlasový dialog člověka s počítačem Hlasové dialogové systémy dovolují uživatelům komunikovat prostřednictvím hlasu s počítačovými nebo internetovými aplikacemi, jako jsou databázové a expertní systémy nebo systémy automatického řízení, ovládání a monitorování Využití HDS je efektivní v situacích, kdy o o o o Oči i ruce uživatele jsou plně zaměstnány jinými úkoly Uživatel má potřebu být pohyblivý a jiná vstupně-výstupní zařízení jsou neefektivní Uživatel je vzdálen od systému a může využít pouze hlasové komunikace přes běžné telefonní nebo radiové spoje Uživatel je zdravotně handicapovaná osoba s pohybovými, příp. zrakovými obtížemi Ukázky dialogu: - Informace o odjezdech vlaků zde - Inteligentní asistentka zde - Trenažér pro výuku řídicích letového provozu zde 1.10 2014 17
Děkuji za pozornost 1.10 2014 18
1.10 2014 19