Projekt Malach dokončen. Archiv nahrávek zpřístupní knihovna MFF UK

Podobné dokumenty
Indexace audiovizuálních archivů s využitím metod automatického rozpoznávání řeči a obrazu

Archiv vizuální historie Institutu USC Shoah Foundation a možnosti jeho využití

Vzdělávací využití videozáznamů rozhovorů s pamětníky z Archivu vizuální historie Institutu USC Shoah Foundation

Malach: zpracování audiovizuálního archívu svědectví přeživších holocaustu

SEMESTRÁLNÍ PRÁCE Z PŘEDMĚTU KVD/GRPR GRAFICKÉ PROJEKTY

Autoevaluace školy v oblasti podpory strategií učení cizímu jazyku Dotazník pro učitele středních škol

SíťIT: Portál na podporu sociální sítě informatiků v ČR

Mějte na paměti, co znamená přátelství

Milé kolegyně, milí kolegové,

Příběhy našich sousedů

České vysoké učení technické v Praze SGS ČVUT 2015 Číslo grantu: SGS15/097/OHK1/1T/15 Číslo FIS: E000. Závěrečná zpráva

Zpráva pro školu z evaluačního nástroje Strategie učení se cizímu jazyku

Umělá inteligence pro zpracování obrazu a zvuku

PC Phone software pro správu telefonního provozu

Všechny fotografie v této diplomové práci byly zveřejněny s laskavým svolením MŠ Raduška Kadaň a MŠ Šafaříkova Louny.

Zpráva pro školu z evaluačního nástroje. Strategie učení se cizímu jazyku Dotazník pro žáky a učitele základní školy

7 Další. úlohy analýzy řeči i a metody

Jak vyhledávat. Vyhledávače KAPITOLA 3

TESTOVÁNÍ UŽIVATELSKÉHO ROZHRANÍ VIDEO PŘEHRÁVAČE VLC

Úvod do praxe stínového řečníka. Úvod

Chodila jsem po škole s papírem v ruce a ptala se spolužáků na některé otázky ohledně vzdělávání po internetu. Nebylo to vždy jednoduché, protože pár

Řečové technologie pomáhají překonávat bariéry

Opsaná diplomová práce

AMPHORA - NÁSTROJ PRO INDEXOVÁNÍ WEBOVÝCH STRÁNEK.

ČESKÉ VYSOKÉ UČENÍ TECHNICKÉ

Statistické vyhodnocení průzkumu funkční gramotnosti žáků 4. ročníku ZŠ

Jak pracuje internetový vyhledávač

Obsah Jak se vyrovnat s pocity, které jsou s učením spojeny Sedm dovedností, které vybídnou děti ke spolupráci... 44

Jazykové kurzy on-line a pod dohledem tutora

Znalost značky TV Barrandov je vyšší než 50% zaváděcí kampaň přivedla k obrazovce více než 25% populace

DDS a on-line digitální knihovny

DOTAZNÍK PRO URČENÍ UČEBNÍHO STYLU

Seminář ke 2. výročí otevření Centra vizuální historie Malach

Studentská společnost při Obchodní akademii v Tanvaldě. Závěrečná zpráva 2007/2008

VÝSLEDKY VÝZKUMU. indikátor ECI/TIMUR A.1 SPOKOJENOST OBYVATEL S MÍSTNÍM SPOLEČENSTVÍM V PROSTĚJOVĚ

Proč aplikace VFR Communication?

Knihovny.cz - jak se zapojit

Projektové noviny. Vypravily jsme se s pracovníky Projektových Novin zjistit,co se děje dne na projektovém dni ZŠ Masarykova v Kolíně

VÝSLEDKY VÝZKUMU. indikátor ECI/TIMUR A.1 SPOKOJENOST OBYVATEL S MÍSTNÍM SPOLEČENSTVÍM V PROSTĚJOVĚ

Pro malé i obří projekty

Zpráva z evaluačního nástroje Dotazník strategií učení cizímu jazyku

ZPRAVODAJ.

Digitální knihovny některých zemí

Miroslav Adamec, ARAS: JUDr. Jiří Srstka, DILIA:

Informace, knihovny, katalogy... Přednáška kurzu Informační a databázové systémy v rostlinolékařství

Akademické publikování a autorské právo. Lucie Straková Martin Loučka Konference OpenAlt

A. PODKLAD PRO ROZHOVOR S KLÍČOVÝM PRACOVNÍKEM C. SCHÉMA PRO ZÁZNAM INFORMACÍ Z METODICKÝCH POKYNŮ

Soulad studijního programu. Aplikovaná informatika

INFORUM Špalíček digitální knihovna kramářských tisků (spalicek.net)

Halda, o. s. IČ

Publikováno z 2. lékařská fakulta Univerzity Karlovy ( LF2 > Ph.D.? A jak na něj?

Řečové technologie na Katedře kybernetiky FAV ZČU v Plzni. Katedra kybernetiky. Fakulta aplikovaných věd. Západočeská univerzita v Plzni

První studentský seminář CZELTA se konal na Gymnáziu Pardubice

Spouštíme Digisemestr - vzdělávání studentů v oblasti digitálního marketingu

Databáze českých literárních osobností (CLO) jako zpřístupnění sbírky soudobé dokumentace

MŮJ HLAS MOJE PRÁCE. PhDr. Daniela RÁZKOVÁ. K Dolům 73/65, Praha 4 (Polovina nebe, o.p.s.), polovina.nebe@ .cz

Zahraniční zdroje šedé literatury 3. PhDr. Martina Machátová Moravská zemská knihovna v Brně Tel.:

Základní informace: vysoce komfortnímu prostředí je možné se systémem CP Recorder efektivně pracovat prakticky okamžitě po krátké zaškolení.

Semestrální práce: Rozpoznání hláskované řeči a převedení na text

Z HISTORIE SPOLEČNOSTI

Gramatika. Přítomný čas prostý a průběhový. Minulý čas prostý pravidelných i nepravidelných sloves. Počitatelná a nepočitatelná podstatná jména

Ukázka fiktivního portfolia jako inspirace pro studenty a studentky projektu Změňte to

Efektivita kampaně Vaše dítě, vaše televize, vaše zodpovědnost. Připraveno pro: RRTV

Experimentální systém pro WEB IR

2. Korpusový portál a volně dostupné nástroje

Příloha A - Dotazník průběhu procesu vyhledávání informací

Základy. realistické kresby. Kreslení pravou mozkovou hemisférou. Jana Petrásková

Správa veřejného statku města Plzně. Ověření průjezdu Klatovskou třídou v různých režimech řízení SSZ. úsek koncepce a dopravního inženýrství

Mgr. Petr Čadek, Mgr. Karel Šulc, Bc. Lukáš Javůrek, Hana Solarová

Příklad č. 1. Příklady pochybení vzniklých při studiu doktorských studijních programů na FPR

Elektronická technická dokumentace Bc. Lukáš Procházka

Zase zlomky. Předpoklady: = = = = = = = = 1+ +

INFORMAČNÍ ZDROJE A VYHLEDÁVÁNÍ NA PORTÁLU KNIHOVNY.CZ. Ing. Petr Žabička, PhDr. Iva Zadražilová Moravská zemská knihovna v Brně

Vzdělávací oblast: Jazyk a jazyková komunikace Anglický jazyk (časová dotace 3 hodiny týdně) Ročník: 6. Poznámky:

Hledáte si i během trvání rekvalifikace práci?

Rešerše....hledáme dokumenty a informace. Martin Krčál

Zápis ze 77. jednání výzkumné rady Technologické agentury ČR

MŮJ ZAČÁTEČNÍ BOJ S NÁVŠTĚVNOSTÍ

Metodika poradenství. Vypracovali: Jiří Šupa Edita Kremláčková

Pedagogická fakulta. Centrum češtiny pro komunikační praxi. Centrum poradenství v oblasti didaktiky českého jazyka

Problematika zaměstnanosti

Jazyky a jazykové technologie v České republice. Tomáš Svoboda Jan Hajič

Mezin{rodní trendy OA"

Soudit i dnes podle zákoníku ze 16. století by šlo velmi dobře

Videotrénink a jeho využití v komunikaci s lidmi s onemocněním demencí v Domově se zvláštním režimem ve Strážnici. Mgr. Miroslava Kouřilová

Semestrální práce A2 z předmětu A7B36TUR. Testování uživatelského rozhrání internetového serveru YouTube.com

Máte to? Summon jako základní vyhledávací nástroj NTK

Zkouška z českého jazyka pro cizince. Úroveň B1 POSLECH S POROZUMĚNÍM

Základní škola Ulice Míru, Rokycany. Mgr. Monika Abrtová. Obsah

Scénář ukázkového testu Přetištěno z knihy Nenuťte uživatele přemýšlet! 2010 Steve Krug

PLÁN ROZVOJE VEŘEJNÝCH PROSTRANSTVÍ V ZADNÍ TŘEBANI Zpracovatelé: ing. Jan Bartoň DiS., RNDr. Petr Mareš Ph.D., ing. arch. Šárka Sodomková, Mgr.

INTRO. Očekávaný přínos pro byznys však u drtivé většiny těchto značek nikdy nepřijde. Na českém Facebooku vydělává pouze 15 % firem.

KORPUSOVÝ WORKSHOP. Václav Cvrček, Lucie Chlumská Univerzita Karlova v Praze VŠE, CO JSTE CHTĚLI VĚDĚT O KORPUSU, A BÁLI JSTE SE ZEPTAT!

Dokumentace k projektu pro vybrané sbírky Židovského muzea v Praze

Velká data v knihovnách Open source tools and their use in Czech libraries

VÝSLEDKY VÝZKUMU. indikátor ECI/TIMUR A.1 SPOKOJENOST OBYVATEL S MÍSTNÍM SPOLEČENSTVÍM V PROSTĚJOVĚ

VÝVOJ VENKOVSKÝCH SÍDEL V 19. A 20. STOLETÍ: TVORBA ANALYTICKÝCH MAPOVÝCH VÝSTUPŮ

Technologie počítačového zpracování řeči

SEZNAM PŘÍLOH. Příloha č. 8: Informovaný souhlas Příloha č. 9: Návrh informační brožury pro příbuzné

Transkript:

Projekt Malach dokončen. Archiv nahrávek zpřístupní knihovna MFF UK Projekt Malach dokončen. Archiv nahrávek zpřístupní knihovna MFF UK Název mezinárodního projektu Malach vznikl zkrácením spojení Multilingual Access to Large Spoken Archives. Slovo malach má ale v hebrejštině i poetičtější význam, a to kraloval či ustanovil za krále. Cílem projektu bylo otestovat možnosti automatické indexace multimediálního archivu videonahrávek pamětníků holokaustu, jednoho z největších digitálních archivů na světě. České nahrávky měl na starosti tým z Ústavu formální a aplikované lingvistiky MFF UK. Projekt Malach nám představili jeho tvůrci prof. RNDr. Jan Hajič, Dr., a Mgr. Pavel Pecina, Ph.D., za fakultní knihovnu hovořila PhDr. Petra Hoffmannová. Malach je mezinárodní projekt. Jak se do něj podařilo zapojit vašemu týmu? JH: Já jsem měl dobré kontakty na univerzitu Johns Hopkins v Baltimoru, kde jsem tři semestry učil. Univerzitu oslovila někdy kolem roku 1999 nadace Survivors of the Shoah Visual History Foundation. Tato nadace byla založena v roce 1993 Stevenem Spielbergem, který chtěl natočit vzpomínky lidí, kteří přežili holokaust. Což se také zrealizovalo. Zjistilo se ale, že ruční indexace nahrávek by trvala desítky let, a zkoušelo se, jestli by to nebylo možné automatizovat. Tak sepsali grant a obrátili se na další instituce jednou z nich byl i jmenovaný Johns Hopkins aby jim s tím pomohly. IBM, které bylo rovněž přizváno, řeklo, že by si vzalo na starosti jen anglické nahrávky, a tak hledali někoho, kdo by jim pomohl s ostatními jazyky. A na Johns Hopkins Univerzity věděli, že my se této oblasti věnujeme, a oslovili nás. My se specializujeme spíše na textovou podobu, a proto byla ještě navázána spolupráce se Západočeskou univerzitou v Plzni, skupinou profesora Josefa Psutky, která se věnuje audiu. Compiled 27.6.2014 1:06:30 by Document Globe 1

Ředitel Ústavu formální a aplikované lingvistiky prof. RNDr. Jan Hajič, Dr. Nahrávání výpovědí 52 000 svědků z 56 zemí ve 32 jazycích trvalo pět let. V roce 1999 byl proces indexace interview téměř dokončen. Jak probíhala práce s materiálem v rámci projektu Malach, a jak se o ni jednotlivé instituce podělily? JH: Firma IBM pracovala nezávisle na nás na anglických nahrávkách, východoevropské jazyky měli na starosti v Johns Hopkins (a tedy i my). Univerzita v Marylandu se podílela na samotném systému vyhledávání, připravovali seznam témat, která sloužila k testování a vyhodnocování. My jsme měli za úkol zajistit rozpoznávání českých nahrávek, později i dalších jazyků. Kolem roku 2005 začala práce na druhé části projektu. Již jsme měli převedenu řeč do textů a v těch jsme potřebovali vyhledávat. Požadavky na vyhledávání nebyly ale standardní, protože v dotazech nefigurovala jen klíčová slova, ale i popis situace v rozsahu zhruba jednoho odstavce. Přijde třeba historik a chce všechny nahrávky, v nichž se mluví o tom, jak lidé přišli do ghetta a obstarávali si tam jídlo, než šli do transportu. A zajímá ho to jen pro lidi z jižní Moravy. V původním návrhu bylo, že slova z tezauru se budou k jednotlivým pasážím přiřazovat ručně, a nejenom klíčová slova, ale i hodnotící shrnutí. Zkusili to u 10 % anglických nahrávek a zjistili se, že by to byla práce na desítky let. PP: Indexace těch pouhých 10 % trvala 4 roky, stálo to 8 milionů dolarů a zpracování jedné hodiny nahrávky trvalo 35 hodin. Compiled 27.6.2014 1:06:30 by Document Globe 2

Mohli jsme konstatovat umíme i v takto obtížných nahrávkách vyhledávat relevantní úseky, říká Mgr. Pavel Pecina, Ph.D. JH: Proto se objevil požadavek na automatizaci celého procesu. Systém byl zjednodušen tak, že jeden člověk poslouchal bez zastavení hodinu nahrávky a při tom ji rovnou označoval slovy z tezauru. Celé to nesmělo trvat déle než hodinu a pět minut. A takto jednoduše byl nakonec označen celý archiv. Co konkrétně bylo úkolem českého týmu? JH: Prvním úkolem bylo převést audio do textové podoby. To dělali tři lidé tady v Praze a celý tým v Plzni. Dále se musel zajistit překlad tezauru z angličtiny do dalších jazyků. A pak proces vlastního vyhledávání. Co šlo využít ze systému připraveného pro angličtinu? JH: Teorii, ta je všude stejná. Systémy, co jsme měli, ale nešly příliš na tuto specifickou oblast použít. PP: Téma holokaustu a 2. světové války má totiž velice speciální slovník, který se liší od toho, co posloucháme v televizi nebo je na internetu. Jde o geografické názvy, jména lidí... JH: Software a zejména slovníky a jazyková data musely vzniknout nově, aby se systém vylepšil a zmenšila se chybovost. Jak konkrétně systém převodu audiostopy do textové podoby funguje? JH: My víme, že jazykový systém jsou poskládané frekvence. Existují základní a přídavné frekvence a my z toho dokážeme přibližně poznat, o jaké písmeno jde. Každý signál se převede do seznamu čísel, která znamenají, jak v tom signálu byly určité frekvence přítomny. To jde dnes docela rychle. Síly frekvencí se pak začnou porovnávat s fonémy, které předem někdo nahrál, a hledá se, čemu se nejvíce blíží. Protože výsledkem jsou jen pravděpodobnosti, čeká se, až těchto fonémů bude celá řada. Pak se použije slovník, který výskyt fonémů omezuje. Například máme slovo, které se přepíše jako l-e-f, s menší pravděpodobností to může být r-e-f nebo c-e-f. Ve slovníku pak systém vyhledává, jaké podobné české slovo existuje, je to ale stále jen s určitou pravděpodobností. Tato slova jsou výsledkem akustického modelování. Tím se zabývali v Plzni. Pak musí přijít na řadu jazykové modelování, které řekne, jaké jsou možnosti řazení slov v češtině a v dané doméně. Na tom už jsme dělali i my. My jsme tedy hledali nejlepší posloupnost těchto slov ze všech možností a snažili se spočítat pravděpodobnost pro celou posloupnost. Protože i ta nejlepší slova mohou tvořit Compiled 27.6.2014 1:06:30 by Document Globe 3

naprostý nesmysl. Mám-li to shrnout, tak jazykový model nám říká, jakou pravděpodobnost mají posloupnosti slov v češtině. S jakými problémy jste se potýkali? JH: My jsme už nějaké jazykové a Plzeňáci akustické modely měli. Ale když jsme je pustili na konkrétní texty, tak jsme zjistili, že to nefunguje dobře. Bylo to tím, že nahrané texty byly naprosto specifické. Jednalo se o spontánní řeč, byla tam nová slova nebo jejich kombinace. Takže v rámci tohoto projektu jsme museli najít správná data pro předělání jazykového modelu, aby lépe vyhovoval našim textům. PP: Já jsem tedy musel s kolegou na internetu vyhledat texty, které by byly těm původním podobné. Tím jsme zdesetinásobili počet původních dat v systému. JH: Chybovost ale byla okolo 35 %, což byl nejlepší výsledek, jakého jsme dosáhli. PP: To je sice každé třetí slovo, ale ještě před tím byl udělán průzkum, že pokud bude počet chyb do 40 %, tak je v takto převedených rozhovorech možno úspěšně vyhledávat. V angličtině dosáhli chybovosti jen o několik procent nižších. Například náš systém rozpoznal větu jako doktor Jařab napsal skupinku a správně tam mělo být neschopenku. Nebo upytlačila jsem bylo vysloveno tak, že my jsme to zaznamenali jako upekla jsem. PH: Nejzajímavější chybou bylo asi slovo hypermangan, které systém rozpoznal jako Hitlerova maminka... PhDr. Petra Hoffmannová v serverovně, která ukrývá všechna zpracovaná data JH: Problémem je, že rozpoznávání normálně probíhá v reálném čase. Pokud by bylo na rozpoznávání více času, byl by výsledek o něco lepší. Ale nikdy ne perfektní. Jak jste naučili systém vyhledávat podle zadaných kritérií? PP: Nejprve v Marylandu vytvořili přes sto témat. Ta vznikla tak, že pozvali na univerzitu studenty, historiky, dokumentaristy, prostě lidi, kterým je tato problematika blízká, a poskytli jim na několik hodin přístup k archivu. Oni Compiled 27.6.2014 1:06:30 by Document Globe 4

pak měli specifikovat témata, která je zajímala. Tato témata byla přeložena do všech používaných jazyků a pak se vyhledávala v nahrávkách. My jsme zkoumali, jak dobře s tím umí systém pracovat a s jakou úspěšností dokáže úseky dokumentu požadované uživateli najít. Proto jsme najali několik studentů, kteří nám ručně v nahrávkách vyhledávali příslušná témata. To trvalo od roku 2006 do září 2007. Studenti pomocí vyhledávacích metod našli úseky, které odpovídají vyhledávaným tématům. My jsme na ta data aplikovali náš vyhledávací systém a porovnávali jsme, jak dobře umí napodobit práci lidí. To jsme vyhodnotili a mohli jsme konstatovat umíme i v takto obtížných nahrávkách vyhledávat relevantní úseky. V čem se vyhledávání liší od toho běžného třeba na internetu? PP: Systém nehledal jen dokument, ale i příslušnou pasáž. Pokud někoho zajímalo téma pochod smrti v Plzni, tak my mu nevyhledáme jen sedm nahrávek, kde je o tom zmínka, ale i konkrétní místo, kde se o tom hovoří. Dalším rozdílem je, že k vyhledávání se nepoužívají jen přepisy textů, ale i automaticky přiřazená klíčová slova tezauru. Existovaly tedy dva druhy informací. My jsme také zjistili, že jednomu tématu mluvčí většinou věnuje dvě až tři minuty. Proto jsme celou výpověď rozdělili do 2,5minutových úseků, které pak systém procházel a hledal, zda obsahují či neobsahují požadované téma. Tím jsme lépe definovali začátek a konec úseku, kde se o tématu hovoří. Systém je tedy hotový. Co bude s projektem dál? PP: Doposud byl projekt ve výzkumné fázi. Nyní přijde na řadu jeho zpřístupnění uživatelům. PH: V září by se měl v naší knihovně otevřít přístupový bod k digitálnímu archivu USC Shoah Foundation (archiv interview shromážděných nadací Survivors of the Shoah se mezitím totiž přestěhoval na Univerzitu Jižní Kalifornie, USC), umožňující prohledávání všech 52 000 interview za použití klíčových slov. A to ve všech 32 jazycích, v nichž jsou nahrávky zaznamenány. Podobná centra jsou zatím ještě v Německu a Maďarsku. JH: Část nahrávek bude uložena v kopii přímo u nás, to budou ty, o něž budou mít lidé největší zájem, a část v Kalifornii, protože nahrávky jsou opravdu rozsáhlé a my bychom tu neměli odpovídající kapacity. I tak bude potřeba vybudovat poměrně rozsáhlý počítačový systém, aby se tam alespoň malá část záznamů vešla. S ukládáním dat máme vůbec veselé historky. V roce 2000 jsme řešili problém, jak do Česka data z Ameriky vlastně dostat. Zjistili jsme, že po internetu to nejde, to by trvalo léta. Nejjednodušší a nejlevnější nakonec bylo nakoupit disky, doletět do Ameriky, nahrát je tam a dovézt zpátky. Nelítalo se tam samozřejmě jen kvůli tomu, ale kopírovalo se to během nějaké porady, které jsme mívali. Jednou jsme měli problém i při kontrole na letišti, protože tašku plnou disků jsme převáželi krátce po 11. září 2001... Komu bude nově zprovozněné centrum zejména sloužit? JH: V Americe se ukázalo, že o přístup k archivu je velký zájem. Zajímá dokumentaristy a filmaře obecně, je ale cenným zdrojem informací a materiálů také pro pedagogy, historiky, psychology, lékaře, právníky a další profese. Pro nás je zajímavé, že budeme mít přístup ke všem datům, což je pro další vývoj automatizovaných systémů důležité. Tolik desítek tisíc nahrávek bychom sami nikdy nesebrali. My je budeme dále používat pro náš jazykový výzkum. Compiled 27.6.2014 1:06:30 by Document Globe 5

Přístupový bod k digitálnímu archivu USC Shoah Foundation bude v nové studovně na ochoze (Lucie Kettnerová) Compiled 27.6.2014 1:06:30 by Document Globe 6