Korpus pro automatické rozpoznání českých slov v anglickém mluveném projevu Ondřej Cífka, Ondřej Bojar Ústav formální a aplikované lingvistiky, MFF UK Korpusová lingvistika Praha, 17. září 2016 1 / 18
Obsah Motivace: Alex Translate, tlumočník pro turisty Překlad mluvené řeči obecně Problémy v našem kontextu a jejich řešení Nedostatek dat v doméně Rozpoznání českých slov anglickým ASR Empirické vyhodnocení 2 / 18
Alex Translate systém pro automatický překlad mluvené angličtiny do češtiny (speech-to-speech translation) zaměření na cestovní ruch (služba pro anglofonní turisty) použit ke sběru dat malý mluvený korpus ukázka: 277 278 178 3 / 18
Překlad mluvené řeči zvukový signál ve zdrojovém jazyce (angličtina) text v cílovém jazyce (čeština) hlavní podúlohy: rozpoznání řeči (ASR) strojový překlad (MT) + popř. syntéza řeči (TTS) Speech recognition (ASR) where is the nearest tram stop Machine translation (MT) kde je nejbližší zastávka tramvaje 4 / 18
Rozpoznání řeči (ASR) 5 / 18
Statistické rozpoznání řeči akustický model (AM): zvukový signál hlásky trénovací data: mluvený korpus výslovnostní lexikon: hlásky slova ručně sestavený nebo generovaný pravidly jazykový model (LM): pravděpodobnosti řetězců slov trénovací data: textový korpus, ideálně specializovaný pro konkrétní úlohu 6 / 18
Problémy potřebujeme korpus specializovaný pro danou doménu (konverzační věty z oblasti cestovního ruchu) nasbíraná data zdaleka nestačí k natrénování modelů použití českých místních názvů v anglické řeči (druh code-switchingu) Does this tram go to Vítězné náměstí? ASR toto zpravidla neřeší chybí data zachycující tento jev 7 / 18
Nahrávky a přepisy hovorů 1 14 minut 35 hovorů 364 promluv použito pro ladění a testování systému could you call my hotel and tell them that i m coming late good morning what s the weather in the city of ústí nad labem are you from prague is this food gluten free 1 http://hdl.handle.net/11234/1-1735 8 / 18
Trénování ASR výběr vět z korpusu Common Crawl výběr hesel z Wikipedie souvisejících s Českem část nahraných hovorů použita k ladění vah jazykového modelu referenční text phrasebook sentences referenční LM vybraný text z Common Crawl interpolovaný LM korpus Common Crawl další korpusy části CzEngu a Wikipedie how do you pronounce that do you have any meatless dishes does this tram go to the prague castle i don t have a boyfriend thank you so much it s surprising what you don t know i love to go out and have a good time he is that person to me you have been busy ladicí text přepisy hovorů could you call my hotel and tell them that i'm coming late good morning what's the weather in the city of ústí nad labem is this food gluten free ASR model výslovnostní lexikon akustický model 9 / 18
Rozpoznání českých slov v anglické řeči vybereme množinu českých slov, která chceme umět rozpoznat (v našem případě názvy ulic a obcí), přidáme je do výslovnostního lexikonu problém: akustický model pro angličtinu používá sadu hlásek, která není vhodná pro češtinu známé přístupy: rozšířit sadu hlásek o specificky české hlásky, např. kombinací s českým akustickým modelem (Stemmer et al., 2001; Modipa Davel, 2010) přepsat česká slova pomocí výslovnostních pravidel pro angličtinu (Modipa Davel, 2010) přepsat českou výslovnost pomocí anglických hlásek (Wang Tong, 2014) 10 / 18
Rozpoznání českých slov přepis hlásek přepis české výslovnosti pomocí anglických hlásek nevýhoda: nelze přesně zachytit specificky české hlásky (ale ty cizinec stejně nemusí vyslovit správně) výhoda: není nutné měnit akustický model souhlásky samohlásky/dvojhlásky Czech ex. English ex. Czech ex. English ex. > ts cár t s tsunami o oko O ought > c ťapka ts cheese au auto au cow > é ďábel dz jeans eu euro æ u ñ ňadra n need ou ouško ou oat r rád ô read rfi řád Z vision r fi křáp S she 11 / 18
Rozpoznání českých slov trénovací korpus věty z anglické Wikipedie obsahující jména českých ulic a obcí 90 031 vět, 2 360 589 slov (134 625 českých) The Technical University of Liberec is a medium-sized institution. In 1946, Baron Georg Beess, the last nobleman from the Beess family to own properties in Hnojník, was expelled from the country and was deprived of his property according to the Beneš decrees affecting the Germans in Czechoslovakia. In May 1975, the 1968 Constitutional Law of Federation was further amended to allow Gustáv Husák to take over the presidency from the ailing Ludvík Svoboda. 12 / 18
Testovací mluvený korpus 1 54 předepsaných vět obsahujících jména míst v Česku, zejména v Praze How can i get from Malostranské náměstí to Anděl? I need to get to Troja, can you drive me there? What is the weather like in Pardubice? přečteno 5 mluvčími studujícími v Praze 256 nahraných vět různé národnosti (Rusko, Sýrie, Írán) různé úrovně znalosti češtiny (žádná až velmi vysoká) odstraněny nahrávky, které se neshodovaly s předlohou 1 http://hdl.handle.net/11234/1-1735, https://drive.google.com/open?id=0b_nnboxzxx0uoxzyqmlzrenustq 13 / 18
Výsledky varianty systému: adaptovaný lexikon: přidány výslovnosti českých slov adaptovaný LM: do jazykového modelu přimíchán výběr z Wikipedie v poměru 1 : 9 testovací korpusy: calls2: nahrávky uživatelů cstest: nahrávky připravených vět s českými jmény Systém % WER % poznaných jmen calls2 cstest cstest baseline 22,0 64,8 0,0 adaptovaný lexikon 21,9 61,9 6,4 adaptovaný lexikon + LM 22,9 58,2 13,5 14 / 18
Další kroky dokončení adaptace jazykového modelu prozkoumání výslovnosti českých slov nerodilými mluvčími 15 / 18
Shrnutí sestaven malý řečový korpus (nerodilí mluvčí v anglické promluvě užívají česká slova) http://hdl.handle.net/11234/1-1679 sestaven textový korpus anglických vět s českými jmény návrh přepisu českých hlásek pomocí anglických pro ASR experimenty dokládají zlepšení rozpoznávání českých slov 16 / 18
277 278 178 17 / 18
Literatura Modipa, T. Davel, M. H. Pronunciation modelling of foreign words for Sepedi ASR. 2010. Stemmer, G. Nöth, E. Niemann, H. Acoustic modeling of foreign words in a German speech recognition system. In INTERSPEECH, s. 2745 2748, 2001. Wang, L. Tong, R. Pronunciation modeling of foreign words for Mandarin ASR by considering the effect of language transfer. In INTERSPEECH, s. 1443 1447, 2014. 18 / 18