Indexace audiovizuálních archivů s využitím metod automatického rozpoznávání řeči a obrazu

Podobné dokumenty
Malach: zpracování audiovizuálního archívu svědectví přeživších holocaustu

Umělá inteligence pro zpracování obrazu a zvuku

Archiv vizuální historie Institutu USC Shoah Foundation a možnosti jeho využití

Vzdělávací využití videozáznamů rozhovorů s pamětníky z Archivu vizuální historie Institutu USC Shoah Foundation

Vstup České republiky do EU podpořily téměř tři čtvrtiny studentů a tento údaj odpovídá i výsledkům roku minulého.

Projekt Malach dokončen. Archiv nahrávek zpřístupní knihovna MFF UK

Řečové technologie na Katedře kybernetiky FAV ZČU v Plzni. Katedra kybernetiky. Fakulta aplikovaných věd. Západočeská univerzita v Plzni

KTS 250 UVEDENÍ NA TRH

Řečové technologie pomáhají překonávat bariéry

KAMPAŇ NA ZVÝŠENÍ POVĚDOMÍ VŠICHNI MÁME STEJNÉ SNY

GV-VMS. Specifikace: Video kodek MJPEG, H khz / 16-bit, 32 khz / 16-bit

Začínáme s Tovek Tools

NÁVOD PRO VYHLEDÁVÁNÍ V DATABÁZI C.E.E.O.L. (CENTRAL AND EASTERN EUROPEAN ONLINE LIBRARY) / /

MCLAAS INTEGROVANÝ SYSTÉM VYHLEDÁVÁNÍ VE VÍCEJAZYČNÉM AUDIOARCHÍVU uživatelská a instalační příručka

EVOLVEO StrongPhone Accu

Komunikační modul PCS200

Speciální základní škola Rubešova 531, Skuteč IČO: tel: Registrační číslo: CZ.1.07/1.2.29/01.

Toto oznámení na webové stránce TED:

nápis z fotky a proč bychom to měli chtít

Informace k SW pro nahrávání videoúkolů

Digitalizace a vytěžování dat jako služba

Program Sharpdesk Sharpdesk řešení pro správu dokumentů

Videorekordéry. Klávesové zkratky pro SHR-204X. Stiskněte uvedená tlačítka po dobu 5 sekund. Poté uslyšíte zvukový signál.

Informační zabezpečení studia na Zahradnické fakultě MENDELU. Elektronické informační zdroje

PCS260. 3G / 2G / GSM komunikační modul. Instalační a programovací manuál. Eurosat CS spol. s r. o. Rev. 2016/10

DishPointer Pomůcka pro instalaci satelitních antén pro Apple iphone

ZÁKLADY PROGRAMOVÁNÍ. Mgr. Vladislav BEDNÁŘ /14

Vyhledávání na Internetu

SEMESTRÁLNÍ PRÁCE Z PŘEDMĚTU KVD/GRPR GRAFICKÉ PROJEKTY

Návod na použití XRS STICK READER

ISI WEB OF SCIENCE - manuál

Seminář ke 2. výročí otevření Centra vizuální historie Malach

Elektronické inf. zdroje

Vyhledávání na portálu Knihovny.cz

Máte to? Summon jako základní vyhledávací nástroj NTK

Průvodce webovou aplikací NewtonOne

Tematický plán učiva

Návod k využívání interaktivních funkcí

Úvod do praxe stínového řečníka. Úvod

Anténa pro pět satelitů od SeaTel

Obohacování bibliografických záznamů o věcné selekční prvky postup NKČR

Microsoft Dynamics CRM Online. Martin Čejka Solution Sales Professional Business Solution

Windows Live Movie Maker

Tvorba digitálních učebních materiálů (DUM) v souladu s autorským právem

Podporováno Technologickou agenturou České republiky, projekt TE

Popis ového API pro automatické registrace.eu kontaktů a.eu domén

Biologický fotonový holografický komplet AUREOLA S Vám pomůže změřit a analyzovat energii aktuálně měřených objektů.

VYHLEDÁVÁNÍ V NOVÉM PROSTŘEDÍ MEDVIK : ZÁKLADNÍ HLEDÁNÍ. Adéla Jarolímková Národní lékařská knihovna, referát metodiky a vzdělávání

Digital Powerhouse PROMAX, Španělsko

Translation Price List

Full-textové vyhledávání. Július Štroffek Revenue Product Engineer Sun Microsystems

Registrace Vyhledávání Výsledky vyhledávání

IRISPen Air 7. Stručná uživatelská příručka. (ios)

EBSCO. Poklikneme na možnost EBSCOhost Web. Vybereme (poklepeme, zaškrtneme) databázi, s kterou chceme pracovat.

Tvorba digitálních učebních materiálů (DUM) v souladu s autorským právem

OCR systémy. Semestrální práce z předmětu Kartografická polygrafie a reprografie. Jakub Žlábek, Zdeněk Švec. Editor: Věra Peterová. Praha, květen 2010

VYTVOŘENÍ OSOBNÍHO UŽIVATELSKÉHO ÚČTU V COS PIVOT A NASTAVENÍ ZASÍLÁNÍ NOVINEK NA

INSTITUT PRO TESTOVÁNÍ A CERTIFIKACI, a. s. NÁVOD NA PŘÍSTUP K SEZNAMŮM VYSTAVENÝCH DOKUMENTŮ

AMPHORA - NÁSTROJ PRO INDEXOVÁNÍ WEBOVÝCH STRÁNEK.

TESTOVÁNÍ UŽIVATELSKÉHO ROZHRANÍ

Francouzský jazyk. Jazykové prostředky. Tematické okruhy. význam. Pravopis. zájmová činnost. projevu ve známých výrazech Gramatické kategorie na

SK01-KA O1 Analýza potřeb. Shrnutí. tým BCIME

Anglický jazyk. 5. ročník. Poslech s porozuměním

DIGITÁLNÍ VIDEO. pokus o poodhalení jeho neskutečné obludnosti (bez jednosměrné jízdenky do blázince)


Vzdělávací oblast: Jazyk a jazyková komunikace Vyučovací předmět: Anglický jazyk Ročník: 9. Průřezová témata Mezipředmětové vztahy.

Tzv. životní cyklus dokumentů u původce (Tematický blok č. 4) 1. Správa podnikového obsahu 2. Spisová služba

PM-D273T. Uživatelský manuál. pro 2-vodičový systém D2. Hlavní Menu. Dohled... Výběr kamery Interkom Nastavení Zavřít

32 APZ Nabídky. Popis modulu

Učební osnovy pracovní

Příloha č. 3 Anglický jazyk Ročník: 3. Očekávané výstupy z RVP Školní výstupy Učivo Přesahy (průřezová témata)

EOD Elektronické knihy na objednávku. Rostislav Krušinský

Kamera do auta s IR osvětlením a podporou SD karet HQS-205A

Strategic Outsourcing snížení nákladů na IT. Radek Sazama, Business Development Executive

Proč aplikace VFR Communication?

ŘEČOVÉ TECHNOLOGIE v PRAXI

Instalace. Produkt je odzkoušen pro MS SQL server 2008 a Windows XP a Windows 7. Pro jiné verze SQL server a Windows nebyl testován.

Modely Technomate s více výstupy

Outsourcing flexibilni nástroj pro státní správu

Otevřená a propojitelná data ve veřejné správě Národní katalog otevřených dat

Pracovní skupina pro věcné zpracování

SLOHOVÁ VÝCHOVA Mgr. Soňa Bečičková

Interaktivní funkce Selfnet TV

Praktické možnosti online vzdělávání pro knihovníky

Zpráva o zhotoveném plnění

T-Cloud Zakázka. Uživatelská příručka

IRISPen Air 7. Stručná uživatelská příručka. (ios - iphone)

Quo vadis, vyhledávání (na webu)?

Inteligentní řešení kamerového systému

Raiffeisenbank a.s. Hvězdova 1716/2b, Praha 4 BÚ: /5500 IBAN: CZ SWIFT: RZBCCZPP

Vzdělávací oblast Vyučovací předmět Ročník. Anglický jazyk. Jazyk a jazyková komunikace. Výstupy žáka Učivo Průřezová témata, mezipředmětové vztahy

Tato stručná uživatelská příručka vám pomůže začít používat produkt IRISPen TM Executive 7.

Diktovací sw NovaVoice zkušenosti. D.Zoubek KZM FN Motol

Vyhledávání v elektronickém katalogu knihovny Knihovní fond je zpracován v automatizovaném knihovním systému Clavius REKS.

Novinky ve věcném zpracování Seminář paměťových knihoven

DESET LET S THESES.CZ Ing. Jitka Brandejsová

8. Konference o šedé literatuře a repozitářích 21. říjen 2015, Praha

Charakteristika vyučovacího předmětu 1. stupeň

MP600 / 601 / 602 / 603 / 604 / 605 / 606 / 607 / 608 / 609

Transkript:

Indexace audiovizuálních archivů s využitím metod automatického rozpoznávání řeči a obrazu Jan Švec, Pavel Ircing NTIS - Nové technologie pro informační společnost Katedra kybernetiky Fakulta aplikovaných věd Západočeská univerzita v Plzni

Úvod v současné době v zásadě není problém nahrát a uložit (téměř) jakékoliv množství audiovizuálních dat na druhou stranu, takto uložená data jsou jen velmi zřídka vybavena také příslušnými metadaty, tj. informacemi o: probíraných tématech lidech, kteří se v záznamu vyskytují či se o nich hovoří relevantních geografických lokacích ve výsledku je proto velmi obtížné v uvedených rozsáhlých archivech najít jakoukoli relevantní informaci

USC Shoah Foundation Visual History Archive 1993 - Steven Spielberg uvádí do kin film Schindlerův seznam 1994 - Spielberg zakládá nadaci Survivor's of the Shoah Visual History Foundation (VHF), jejímž úkolem je najít přeživší a jiné svědky Holokaustu, nafilmovat jejich svědectví a poté je zpřístupnit širokému okruhu zájemců 1994 1999 terénní pracovníci" nadace nafilmovali cca 52 000 rozhovorů ve 32 jazycích - celkem 116 000 hodin videa (cca 13 let!) 2006 VHF se (jak fyzicky, tak administrativně) přesunula na University of Southern California a stal se z ní USC Shoah Foundation Institute

Počet výpovědí v jednotlivých jazycích 1. English 24,872 2. Russian 7,052 3. Hebrew 6,126 4. French 1,875 5. Polish 1,549 6. Spanish 1,352 7. Dutch 1,077 8. Hungarian 1,038 9. German 686 10. Bulgarian 645 11. Slovak 583 12. Czech 573 13. Portuguese 562 14. Yiddish 527 15. Italian 433 16. Serbian 382 17. Croatian 353 18. Ukrainian 320 19. Greek 301 20. Swedish 266

Snaha o ruční doplnění metadat přibližně 4 000 rozhovorů v angličtině (10 000 hodin - cca 8.5 % archivu) bylo ručně katalogizováno katalogizace zahrnovala rozdělení na tématicky koherentní úseky, které byly popsány: krátkým shrnutím obsahu - 3 věty klíčovými slovy (deskriptory) vybíranými z detailně propracovaného tezauru - cca 3 000 základních konceptů, 30 000 dvojic popisujících místo a čas jmény osob, jichž se úsek týkal

interview time Ilustrace katalogizačního procesu Location-Time Subject Person Berlin-1939 Employment Josef Stein Berlin-1939 Family life Gretchen Stein Anna Stein Dresden-1939 Relocation Transportation-rail Dresden-1939 Schooling Gunter Wendt Maria (tento obrázek zpracoval D. Oard U. of Maryland)

Od ruční katalogizace k automatickému zpracování uvedený katalogizační proces si vyžádal 150 000 hodin práce a stál 8 mil. USD - bylo zřejmé, že takto detailní ruční katalogizace je neproveditelná v roce 2001 byl spuštěn projekt MALACH - sponzorovaný americkou NSF - jehož cílem bylo využít metody automatického rozpoznávání řeči a vyhledávání informací pro zlepšení přístupu do (VHF) archivu prostřednictvím zrychlení a zlevnění katalogizačního procesu původně alternativním, ale nakonec hlavním zaměřením projektu se stala snaha zcela ruční katalogizaci eliminovat klíčovou technologií je tu automatické rozpoznávání řeči = technologie schopná převést mluvenou řeč na (elektronický)text

Vyhledávání v textové reprezentaci Dále se musíme rozhodnout, zda vyhledávat komplexně definovaná témata jednotlivá slova a fráze ( Google styl )

Komplexní specifikace dotazu <top> <num>3014</num> <title>sionismus</title> <desc>rozhovory o sionistických hnutích ve východní Evropě, zejména o hnutí Hashomer Hatzair.</desc> <narr>předmětem našeho zájmu jsou příběhy o sionistických organizacích a názorech jednotlivců na sionismus a rozhodnutích, zda vstoupit do těchto organizací či ne. Vlastní zkušenosti jsou preferovány, máme však zájem i o informace z druhé ruky o postojích či účasti příbuzných a přátel v sionistickém hnutí.</narr> </top>

Vyhledávání v textové reprezentaci komplexně definovaná témata strukturu tématu (zatím) neumíme ve vyhledávání pořádně využít uživatelé nejsou zvyklí takto obšírně téma pro vyhledávání specifikovat vyhledávání jednotlivých slov a frází ( Google styl ) umožňuje: vyhledat pasáže, v nichž řečník vyslovil zadaná klíčová slova, a rovnou tyto pasáže přehrát při hledání víceslovných frází zadat maximální vzdálenost mezi hledanými slovy (v sekundách) zadat některá slova jako volitelná povolit/zakázat morfologii (českou/anglickou)

Obecný princip vyhledávacího systému Činnost systému lze rozdělit na 2 značně odlišné fáze: 1. (off-line) indexace 2. (on-line) vyhledávání

Indexace (zjednodušený pohled) Základními jednotkami indexu jsou slova slova, která se podle rozpoznávacího softwaru v daném časovém okamžiku záznamu s dostatečně vysokou pravděpodobností vyskytují, jsou uložena ve formě tzv. invertovaného indexu klíčem tohoto indexu jsou tedy zmíněná slova hodnotou je odkaz do příslušné sekce videozáznamu

Další archiv a rozšíření indexovací technologie archiv získaný v rámci dokumentační činnosti Ústavu pro studium totalitních režimů (ÚSTR) v tomto případě máme nejen videonahrávky (s rozhovory pořízenými v podobném stylu jako v USC Shoah archivu), ale také naskenované listinné dokumenty základní podmínka indexace stále platí: Máme-li elektronický text, dokážeme vyrobit index tentokrát ale potřebujeme text dostat nikoliv ze zvukového záznamu, ale z obrazu (naskenovaných dokumentů) použijeme technologii optického rozpoznávání znaků (optical character recognition OCR)

Hledání ve zvukové i obrazové stopě máme tedy 2 indexy: jeden ze zvukové stopy videonahrávek jako předtím druhý z naskenovaných dokumentů

Pokračujeme dál rozpoznávání tváří a textu ve video stopě V dalším projektu se nám podařilo přidat ještě: rozpoznávání tváří ve videozáznamu čili abychom použili zavedenou terminologii převod tváře na text (jméno rozpoznané osoby) rozpoznávání textu objevujícího se ve scéně Máme tedy 3 indexy (naskenované dokumenty zde nejsou): řečový obličejový nápisový