A2M31RAT- Řečové aplikace v telekomunikacích Záznam a zpracování hlasových signálů pro potřeby výzkumu a aplikací hlasových technologií. Textové korpusy Doc. Ing. Petr Pollák, CSc. 17.května2011-15:44
I. část Tvorba řečových databází
Motivace pro tvorbu řečových databází Proč vytvářet řečové databáze? Zdroj charakteristik řečových signálů(řečové databáze) Trénování rozpoznávačů řeči(hmm) Charakteristiky hlasu mluvčího při syntéze Zdroj informací o jazyce(textové databáze) Textové korpusy Jazykové modely Zdroj fonetické informace (slovníky) Testování vyvíjených algoritmů Potlačování řeči v šumu Kódování řečového signálu
Základní kategorie řečových databází Akustické(řečové) DB testovací DB- není součástí systému Potlačování řeči v šumu, kódování řečového signálu trénovací DB- ovlivňuje vlastnosti systému trénování HMM(rozpoznávání řeči či řečníka), trénování neuronových sítí, průměrování charakteristik(syntéza, DTW) Lexikální(textové) DB Lexikony tvorba gramatiky rozpoznávače(seznam známých slov), získání fonetického přepisu promluvy(výslovnostní lexikon) Textové korpusy souvislých textů Zdroje nahrávaných promluv, trénování jazykových modelů, zdroje pro tvorbu lexiconů
Zdroje a dostupnost řečových databází Základní zdroje řečových databází LDC(Linguistic data consortium) http://www.ldc.upenn.edu ELRA(European Language Recources Agency) http://www.elra.info Privátní zdroje Finanční náklady na pořízení řečových databází Číslovky-ELRA,10000EUR CzechSpeechDat-ELRA,16000EUR(6500EUR) databázeřadyspeecon-vícenež60000eur databázeřadyspechdat-car-60000-90000eur LexiconyřadyLC-Star-cca20000EUR ČlenstvívLDC-2000USD/rok NUTNO ČASTO TVOŘIT VLASTNÍ ŘEČOVÉ DATABÁZE
Požadavky na rozsah a obsah řečové DB DB pro trénování rozpoznávačů řeči velký počet mluvčích(5000 Polyphone DB) (pro základní SI rozpoznávač- 200 mluvčích) pokrytí textů k rozpoznávání definice korpusu DB pokrytí variability prostředí DB pro syntézu řeči pokrytí možných vzorků řečových úseků pro syntézu extrakce charakteristik daného mluvčího (obecná syntéza- ne hlášení poskládaná z celých slov) DB pro rozpoznávání resp. identifikaci řečníka pokrytí variability promluvy jednoho mluvčího Nelze vytvořit zcela univerzální DB!!
Pokrytí mluvčích a prostředí v DB pro rozpoznávání Požadavky na zastoupení mluvčích: pohlaví(50%-50%) věk(zastoupení všech věkových kategorií) dialekt(5 regionů: Čechy 2, Morava 3) Typická prostředí využívající hlasové ovládání: telefonní kanál- pro hlasové služby v pevných resp. mobilních telekomunikačních sítích, prostředí automobilu- ovládání různých zařízení v automobilu hlasem bez ztráty koncentrace na řízení je velmi žádaná, kancelář, domácí prostředí, veřejná prostranství- ovládání řady běžných spotřebitelských zařízení, zejména elektronických, Internet- roustoucí zájem s rozšiřující se komunikací v sítích VoIP.
Základní konfigurace nahrávacího zařízení 1 On-line záznam s přímou digitalizací na PC - optimální volba nahrávací zařízení (případ řešení hlasového vstupu ve funkčním systému) -snímanádatasepřímodigitalizujíamohouseukládatdo výsledné struktury - lze použít běžně dostupné přenosné počítače (Pozor, standardní vstupy nemusí zaručovat požadovanou podporu či kvalitu) -NatrhujsoudostupnékartydoPC(notebooků)ipro vícekanálové nahrávání 2 Off-line digitální záznam - kvalitní digitální záznam na standardním audio zařízení (diktafony, mp3-wav recordery) -zvukovýzáznambymělbýtuchovánvplnékvalitě(nes kompresí nahraných dat) - zařízení typu DAT pásky, standardní audio kazeta = historie význam snad jen pro zpracování existujících záznamů(archivů)
Software pro nahrávání řečových signálů 1 Realizace jednotlivých nahrávek - komerčně dostupné produkty: Adobe Audition(původně CoolEdit), SoundForge - volně šiřitelné nástroje WaveSurfer z KTH ve Stockholmu, Praat z University v Amsterdamu, Audacity apod. 2 Nahrávání rozsáhlejších databází - nutný vhodně přizpůsobený nahrávací software - SpeechRecorder volně dostupný produkt skupiny z univerzity vmnichově - obtížné přizpůsobování univerzálních nástrojů, jazykovým zvláštnostem, apod.
Speech Recording Studio- SPEECON
Volba počtu nahrávaných kanálů Pro rozpoznávač řeči lze vystačit s jednokanálovým řečovým signálem. Více kanálů je potřeba v okamžiku zahrnutí algoritmu zvýrazňování řečového signálu snímaného v hlučném prostředí. Vícekanálový sběr se realizuje často i za účelem získání signálů současně z několika různých vstupních kanálů(např. použitím mikrofonů různé kvality). - SpeechDat-Car(pole 3 mikrofonů, close-talk, GSM) - SPEECON(4 různé kanály)
Volba a umístění mikrofonů Výběru vhodných mikrofonů: kvalitní mikrofon vs. cenová dostupnost?? Směrová charakteristika Použití vysoce směrových mikrofonů(zvyšují SNR snímaného signálu, ale problém při pohybu mluvčího) Všesměrové mikrofony v hlučném pozadí snímají příliš mnoho rušivého pozadí Pozice mikrofonů close-talk resp. head-set middle-talk far-talk
Příklad umístění blízkých mikrofonů- SPEECON
Příklad umístění vzdálených mikrofonů- SPEECON
Příklad umístění mikrofonů v automobilu- SPEECON
Nahrávací schéma pro databázi s Lombardovým efektem Lombardův efekt Posun charakteristik produkované řeči vlivem hlučného pozadí: -intenzita - základní tón - posice formantů
Nahrávání DB s Lombardovým effektem
Definice nahrávaného korpusu Základní požadavky = pokrytí dané rozpoznávání úlohy hlasové vytáčení telefonního čísla ovládání různých funkcí v telekomunik. službách ovládání zařízení v automobilu ovládání různých zařízení v domácím prostředí Typické položky v řečových DB číslovky: izolované(0-9), spojené, přirozená čísla povely(aplikačně závislé) jména osob(křestní i příjmení) názvy měst, ulic, firem, atd. datum, čas, peněžní částky hláskovaná písmena foneticky bohaté věty a slova (NEJVÝZNAMĚJŠÍ TRÉNOVACÍ DATA)
Výběr foneticky bohatých vět Algoritmus 1 Shromáždění vstupního textového korpusu (Internet, novinové texty, elektronické knihy) 2 Předzpracování vstupního korpusu (vyčištění textu) 3 Základní výběr foneticky vyváženého korpusu (přednostní výběr řídkých fonémů a následné dovažování) 4 Kontrola foneticky vyváženého korpusu NEZBYTNÝ MANUÁLNÍ ZÁSAH! 5 Finální vyvážení (opakování vyvažovacího algoritmu) 6 Výběr podmnožiny pro jednoho mluvčího (subkorpus by měl být též vyvážený)
Anotace řečových dat- transkripce obsahu promluvy Ortografická transkripce Klasická psaná forma promluvy podle pravidel českého pravopisu šestnáctsettřicetdevět Nutno ručně vytvořit!(zkorigovat rozpoznaný obsah) Ortoepická transkripce Regulerní fonetická forma dané promluvy šestnáctsettřycetdevjet Automaticky generovatelná z ortografické transkripce! Fonetická transkripce Skutečně vyslovená varianta dané promluvy šesnácettřycedevjet Nutno ručně vytvořit!(zkorigovat)
Generování ortoepické transkripce 1 Výslovnostní lexikon - typická součást řečových databází i rozpoznávačů - možné varianty výslovnosti 2 Generování podle pravidel - vhodné pro češtinu(problém pro angličtinu) - ortografická transkripce musí být ve slovní podobě - problém s cizími slovy resp. s nepravidelnou výslovností Rozšířená ortografická transkripce Ortografická transkripce s vyznačenou nepravidelnou výslovností (James/džejms)měl(panický/panycký)strach.
Anotace neřečových událostí Anotace neřečových událostí - přeřeknutí, useknutí promluvy - neřečové události od řečníka - neřečové události reprezentující prostředí Informace o mluvčím a nahrávacích podmínkách Časové značky hranic fonémů(fonetická segmentace) - pro trénování HMM není tato informace nutná - pro trénování ANN jsou hranice elementů nezbytné - velmi pracné nutno automaticky generovat
Anotační software Požadavky na software: - snadná manipulace s labelovacím souborem - přehrávání signálu - další specifické funkce zefektivňující anotační proceduru Příklady: - WWWTranscribe(TU Muenchen) - Transcriber(http://trans.sourceforge.net) - další volně šiřitelné obecnější nástroje(praat, WaveSurfer)
FTP Transcriber(VUT& ČVUT)
Transcriber
XTrans Obrázek převzatý z M. L. Glenn, S. M. Strassel, H. Lee. XTrans: A Speech Annotation and Transcription Tool. In Interspeech 2009, Brighton, UK.
Dostupné české databáze na ČVUT FEL Český SpeechDat- ID databáze: FIXED3CS -telefonnídatabázezpevnésítě,f s =8000Hz,8bitů,a-law - 1052 mluvčích, cca 15 minut od jednoho mluvčího - obsahuje foneticky bohatý materiál i aplikačně orientované položky Dostupnost: ELRA(číslo v katalogu S0094) Číslovky- ID databáze: FIXED2CS -telefonnídatabázezpevnésítě,f s =8000Hz,8bitů,a-law -1227mluvčích,cca5minutodjednohomluvčího - obsahuje aplikačně orientované položky(především základní číslovky) Dostupnost: ELRA(číslo v katalogu S0077) Český SPEECON- ID databáze: ADULT1CS, CHILD1CS - databáze z různých prostředí(kancelář, domov, auto, veřejné prostory), -f s =16000Hz,16bitů,lineárníPCM,4různékanály -590dospělýcha50dětí,cca30minutodjednohomluvčího - obsahuje foneticky bohatý materiál i aplikačně orientované položky pro ovládání různých zařízení Dostupnost: ELRA(číslo v katalogu S0298)
Dostupné české databáze na ČVUT FEL Databáze z automobilu- ID databáze: CAR2ECS - databáze nahrávek z automobilu, -f s =16000Hz,16bitů,lineárníPCM,2kanály -118mluvčích,pouze2minutynamluvčího,cca3,5hodinycelkem - obsahuje číslovky, povely a věty(věty nejsou foneticky vyvážené) Dostupnost: ČVUT(http://noel.feld.cvut.cz/speechlab) Databáze z automobilu- ID databáze: CZKCC - databáze nahrávek z automobilu, -f s =48000Hz,44100Hz,16bitů,lineárníPCM,2kanály -1000mluvčích,cca30minutnamluvčího,cca500hodincelkem - obsahuje číslovky, povely a foneticky vyvážené věty Dostupnost: firemní DB, ČVUT(pro výzkum a výuku)
Dostupné české databáze na ČVUT FEL Databáze řeči s Lombardovým efektem- ID databáze: CLSD05 - databáze nahrávek s vyvolaným Lombardovým efektem (obsahuje paralelní nahrávky neutrální a Lombardovy řeči), -f s =16000Hz,16bitů,lineárníPCM,2kanály - aktuálně 26 mluvčích, cca 60 minut na mluvčího, - obsahuje foneticky bohatý materiál i aplikačně orientované položky Dostupnost: ČVUT(http://noel.feld.cvut.cz/speechlab)
Další dostupné databáze pro češtinu VOA- Voice of America Broadcast News Czech - databáze českých zpráv stanice Hlas Ameriky, -f s =16000Hz,16bitů,lineárníPCM,1kanál -cca30hodinřečicelkem - obsah lze pokládat za foneticky bohatý materiál Dostupnost: LDC(LDC2000S89, LDC2000T53) Czech Broadcast News Speech - databáze českých zpráv z rozhlasu a televize -f s =22050Hz,16bitů,lineárníPCM,1kanál -cca50hodinřečicelkem - obsah lze pokládat za foneticky bohatý materiál Dostupnost: LDC(LDC2004S01, LDC2004T01)
Databáze pro další jazyky TIMIT- TIMIT základní širokopásmová databáze americké angličtiny, NTIMIT je varianta pro řeč v telefonním pásmu, CTIMIT je varianta pro mobilní telekomunikační sítě. WSJ0,WSJ1 -čtenétextyzdeníkuwallstreetjournal. TIDIGITS- Vývoj a testování rozpoznávače s malým slovníkem (modely celých slov) SpeechDat, SPEECON- řada databází se stejnou strukturou a obsahem pro většinu evropských a světových jazyků AURORA- databáze pro srovnávací experimenty parametrizací řeči řečová data + trénovací a testovací skripty + referenční etalon AURORA2-English(TIDIGITS+umělýšum) AURORA 3- German, Finish, Spanish, Italian, Danish (reálné prostředí automobilu) AURORA4-English(WSJ-spojitářeč,umělýšum)