Dolování dat z multimediálních databází. Ing. Igor Szöke Speech group ÚPGM, FIT, VUT



Podobné dokumenty
7 Další. úlohy analýzy řeči i a metody

jednotky + Projekty Jan Černocký ÚPGM FIT VUT Brno, cernocky@fit.vutbr.cz FIT VUT Brno

ŘEČOVÉ TECHNOLOGIE v PRAXI


Dolování z textu. Martin Vítek

Technologie počítačového zpracování řeči

Umělá inteligence pro zpracování obrazu a zvuku

Řečové technologie pomáhají překonávat bariéry

ZZD. Získávání znalostí z multimediálních databází. Petr Chmelař

Roman Juránek. Fakulta informačních technologíı. Extrakce obrazových příznaků 1 / 30

SEMESTRÁLNÍ PRÁCE Z PŘEDMĚTU KVD/GRPR GRAFICKÉ PROJEKTY


ROZPOZNÁVÁNÍ AKUSTICKÉHO SIGNÁLU ŘEČI S PODPOROU VIZUÁLNÍ INFORMACE

Speciální struktury číslicových systémů ASN P12

Katedra kybernetiky laboratoř Inteligentní Datové Analýzy (IDA) Katedra počítačů, Computational Intelligence Group

Použití mluvených korpusů ve vývoji systému pro rozpoznávání českých přednášek *

Strojové učení a dolování dat. Vybrané partie dolování dat 2016/17 Jan Šimbera

Analýza a zpracování multimodálních dat

Wichterlovo gymnázium, Ostrava-Poruba, příspěvková organizace. Maturitní otázky z předmětu INFORMATIKA A VÝPOČETNÍ TECHNIKA

Jasové transformace. Karel Horák. Rozvrh přednášky:

NEWTON Technologies a.s. Jaroslava Schmidtová Project manager

Řečové technologie na Katedře kybernetiky FAV ZČU v Plzni. Katedra kybernetiky. Fakulta aplikovaných věd. Západočeská univerzita v Plzni

5.15 INFORMATIKA A VÝPOČETNÍ TECHNIKA

Pokročil. Vyučující: Prof. Ing. Jan Nouza, CSc., ITE

Úvod do praxe stínového řečníka. Úvod

Modelování neřečových událostí pro rozpoznávání řeči v reálných podmínkách

Uživatelská podpora v prostředí WWW

Pavel Cenek, Aleš Horák

METODY DOLOVÁNÍ V DATECH DATOVÉ SKLADY TEREZA HYNČICOVÁ H2IGE1

STANOVENÍ CHARAKTERU SEGMENTU ŘEČI S VYUŽITÍM REÁLNÉHO KEPSTRA

Komunikace člověk počítač v přirozeném jazyce

NEWTON Technologies a.s.

Pokročilé operace s obrazem

J. Tatarinov, P. Pollák. Fakulta elektrotechnická. Abstrakt. otestován a zhodnocen na signálech z databáze CAR2CS. Detektor využívající

Automatizační a měřicí technika (B-AMT)

Whale detection Brainstorming session. Jiří Dutkevič Lenka Kovářová Milan Le

Vývoj moderních technologií při vyhledávání. Patrik Plachý SEFIRA spol. s.r.o.

Automatické rozpoznávání dopravních značek

III. Informační systém & databáze

Ústav automatizace a měřicí techniky.

Normalizace textu. Text to Speech, TTS Konverze textu do mluvené podoby. Pavel Cenek, Aleš Horák. Obsah: Související technologie

Popis objektů. Karel Horák. Rozvrh přednášky:

OBRAZOVÁ ANALÝZA. Speciální technika a měření v oděvní výrobě

Informatika pro 2. stupeň

Identifikátor materiálu: ICT-1-19

PRODUKTY Tovek Server 6

Korpusová lingvistika a počítačové zpracování přirozeného jazyka

BIG DATA. Nové úlohy pro nástroje v oblasti BI. 27. listopadu 2012

Digitální zpracování obrazu počítačové vidění zakotvení

Diktovací sw NovaVoice zkušenosti. D.Zoubek KZM FN Motol

Využití strojového učení k identifikaci protein-ligand aktivních míst

Úvod do praxe stínového řečníka. Automatické rozpoznávání řeči

5. Umělé neuronové sítě. Neuronové sítě

, Brno Připravil: Ing. Jaromír Landa. Postprocessing videa

DISERTAČNÍ PRÁCE OPRAVENÁ VERZE

Efektivní přístup ke znalostem v audio-vizuálních záznamech

ANALÝZA A KLASIFIKACE DAT

Informatika

Základní pojmy. Multimédia. Multimédia a interaktivita

Počítače a grafika. Ing. Radek Poliščuk, Ph.D. Přednáška č.7. z předmětu

SYNTÉZA ŘEČI. Ústav fotoniky a elektroniky, v.v.i. AV ČR, Praha


PRODUKTY. Tovek Tools

Dobývání znalostí z textů text mining

Analýzou dat k efektivnějšímu rozhodování

Moderní systémy pro získávání znalostí z informací a dat

ZÍSKÁVÁNÍ ZNALOSTÍ Z DATABÁZÍ

Tovek Server. Tovek Server nabízí následující základní a servisní funkce: Bezpečnost Statistiky Locale

Klasifikace a rozpoznávání. Extrakce příznaků

Inteligentní analýza obrazu. Ing. Robert Šimčík

Efektivní práce s Excelem (středně pokročilí uživatelé)

VTApi v Technická zpráva - FIT - VG Petr Chmelař, Vojtěch Fröml Tomáš Volf, Jaroslav Zendulka

A2M31RAT- Řečové aplikace v telekomunikacích. Aplikační úlohy rozpoznávání řeči a speciální techniky.

Modernizace a inovace výpočetní kapacity laboratoří ITE pro účely strojového učení. Jiří Málek

Obsah. Kapitola 1. Kapitola 2. Kapitola 3. Úvod 9

Transformace obrazu Josef Pelikán KSVI MFF UK Praha

Termovizní měření. 1 Teoretický úvod. Cíl cvičení: Detekce lidské kůže na snímcích z termovizní i klasické kamery

Jan Černocký ÚPGM FIT VUT Brno, FIT VUT Brno

Experimentální systém pro WEB IR

Vzdělávací obsah vyučovacího předmětu

Podporováno Technologickou agenturou České republiky, projekt TE

ANALÝZA NÁKUPNÍHO KOŠÍKU SEMINÁŘ

Bioinformatika a výpočetní biologie KFC/BIN. I. Přehled

Analýza a zpracování digitálního obrazu

Quo vadis, vyhledávání (na webu)?

Základní škola Fr. Kupky, ul. Fr. Kupky 350, Dobruška

Vyhledávání informací v prostředí webu mírný pokrok v mezích zákona

Aplikace obrazové fúze pro hledání vad

Business Intelligence

Obsah. Úvodem 9 Kapitola 1 Jaký počítač a jaký systém? 11. Kapitola 2 Obrázky a fotografie 21

MULTIMEDIÁLNÍ A HYPERMEDIÁLNÍ SYSTÉMY

VIDEO DATOVÉ FORMÁTY, JEJICH SPECIFIKACE A MOŽNOSTI VYUŽITÍ SMOLOVÁ BÁRA

Informační a komunikační technologie. Informační a komunikační technologie

Algoritmy a struktury neuropočítačů ASN - P11

Videosekvence. vznik, úpravy, konverze formátů, zachytávání videa...

Geografické informační systémy p. 1

Získávání dat z databází 1 DMINA 2010

Obsah. Úvod 9 Komu je kniha určena 11 Konvence použité v knize 11

Semestrální práce: Rozpoznání hláskované řeči a převedení na text

Transkript:

Dolování dat z multimediálních databází Ing. Igor Szöke Speech group ÚPGM, FIT, VUT

Obsah prezentace Co jsou multimediální databáze Možnosti dolování dat v multimediálních databázích Vyhledávání fotografií Indexace televizních zpráv Řečová syntéza Vyhledávání v audio záznamech AMI projekt Dolování dat z multimediálních 2

Úvod multimediální DB Slouží pro ukládání: Audio, video, obraz, text Pracují s nimi: WWW, systémy zpracování řeči (rozpoznání, syntéza), systémy video-on-demand, systémy pro práci s obrazy (fotografie, lékařské snímky), systémy hlasových schránek, indexace televizních zpráv Nároky: velké objemy dat, specializované indexační a vyhledávací algoritmy, poskytování dat v reálném čase bez výpadků Dolování dat z multimediálních 3

Úvod dolování v MM DB Práce s pravděpodobností. Standardní relační (text) DB buď ano nebo ne. Video a zvuk (nekonečně mnoho realizací (binárních) konkrétní informace) míra věrohodnosti, podobnosti (pravděpodobnost). Nutnost použití abstrakce Techniky pro omezování velikosti prostoru (dekorelace, komprimace) Techniky pro výběr reprezentantů (shlukování) Modelování objektů (wavelety, HMM) Trénování modelů Předzpracování (časově náročné) Dolování dat z multimediálních 4

Úvod struktura systému Znalosti Agregace Specializované znalosti Data mining Extrakce Samostatná média Text Zvuk Video Multimediální data Dolování dat z multimediálních 5

Úvod struktura systému Multimediální data: např. video (televizní zprávy). Extrakce: Prostorové rozložení objektů, detekce a identifikace osob, pohyb kamery a detekce záběrů, segmentace hudba-řeč-ticho, identifikace mluvčího, rozpoznání řeči (přepis do textové podoby), detekce titulků. Data mining: Získání specializovaných znalostí z jednotlivých extrahovaných médií. Agregace: Obecná znalost získaná spojením informací ze specializovaných znalostí. Dolování dat z multimediálních 6

Podobnostní vyhledávání Vyhledávání podobností v multimediální databázi Založené na popisu (description-based): Data se indexují pomocí klíčových slov, titulku (popisu), velikosti, času vytvoření, Náročné pro manuální zpracování, nízká kvalita u automatického zpracování. Založené na obsahu (content-based): Data se indexují pomocí histogramu barev, tvaru, textury, objektů, FFT nebo wavelet transformace, Aktuálně nejčastěji používané řešení, lze dosáhnout slušných výsledků. Dolování dat z multimediálních 7

Vyhledávání založené na obsahu Sample-based queries: Podobnost na úrovni bodů (vzorků) nízká abstrakce. Obrázek je podvzorkován na např. 64x64, a bod po bodu porovnáván s ostatními. Feature specification queries: Podobnost na úrovni vlastností (parametrů) vyšší abstrakce. Histogram barev Detekce textur, tvaru, umístění Wavelet (FFT) transformace: možnost granularity, detekce složitých struktur Kombinace různých parametrů: wavelet + histogram + textury + Dolování dat z multimediálních 8

Dolování asociačních pravidel Pokud je alespoň 50% horní části obrazu modrá, pravděpodobně zobrazuje oblohu. Asociace obsahu obrazu a klíčového slova. Pokud obraz obsahuje 2 modré čtverečky, pravděpodobně obsahuje červené kolečko. Asociace mezi objekty v obraze. (mohou být i prostorové) Pokud video obsahuje záběr obličeje člověka na neměnném pozadí, člověk pravděpodobně mluví. Asociace mezi videem a audiem. Dolování dat z multimediálních 9

Rozdíly s transakčními DB Obrazy s podobnými vlastnostmi při určitém rozlišení, mohou mít při vyšším rozlišení vlastnosti rozdílné. Možnost použití postupného zjemňování rozlišení. Rozdílné vnímání počtu objektů. Existence prostorových vztahů mezi objekty. Rozhodování o splnění kritérií (obraz je podobný jinému obrazu) funguje na principu prahování funkce maximum likelihood (viz. příklad detekce klíčových slov). Dolování dat z multimediálních 10

Příklad 1. Fotografie WALRUS systém: WAvLet-based Retrieval of Userspecified Scenes (článek z roku 1999) Standardní jednoduché systémy tvoří vektor příznaků z celého obrázku (histogramy, textury, wavelety). Selhání u obrázků obsahující podobné objekty ale různě umístěné, zmenšené, atd.. Řešení pomocí plujícího okna. Vektor příznaků pro každé plující okénko Shlukování plujících okének regiony Porovnání regionů pro celou DB (R*-tree) Porovnání obrázků podle počtu a podobnosti regionů Dolování dat z multimediálních 11

Příklad 1. WBIIS (starší systém) Dolování dat z multimediálních 12

Příklad 1. WALRUS (novější systém) Dolování dat z multimediálních 13

Příklad 2. Televizní noviny Určení struktury televizních novin (články z roku 2000 a 2002) Rozklad televizních novin na jednotlivá témata a dále na záběry Možnost získání klíčových snímků Popis jednotlivých segmentů Identifikace osob podle obličeje, detekce pohybu kamery, rozpoznávání gest, identifikace komentátora podle řeči, rozpoznání textu v obraze (titulky) Dolování dat z multimediálních 14

Příklad 2. Televizní noviny Video (prostorový obsah): Ekvivalentní k Příkladu 1 (histogramy, wavelets, objekty, ) Video (časový obsah): Pohyb kamery, přibližování, střih, Pohyb objektů v obraze Rozdělení obrazu na segmenty, v každém segmentu se sleduje směr vektorů pohybu Audio: Detekce řečové aktivity (ticho, řeč, hudba, šum), identifikace mluvčího, rozpoznání řeči Text: Rozpoznání textových titulků Dolování dat z multimediálních 15

Příklad 2. Televizní noviny Dolování dat z multimediálních 16

Příklad 3. Řečová syntéza TTS systémy pracující nad daty. Velká databáze řeči, indexování, vyhledávání. Různé stupně složitosti (spojování jednotek, kontextová závislosti, prozodická omezení). Metody prozodické analýzy pracující nad daty (vyhledávání JAK říci dané slovo). Dolování dat z multimediálních 17

Příklad 4. Detekce slov Dolování z audio záznamu Segmentace (ticho, řeč, hudba), segmentace na mluvčí (crosstalk) Identifikace jazyka, identifikace mluvčího, věk, pohlaví, stress, Rozpoznání řeči (LVCSR, fonémový rozpoznávač, detekce klíčových slov) Rozpoznávače mají problémy se slovy, které nejsou ve slovníku (OOV) (málo pravděpodobné slovo může nést hodně informace jména, názvy, ) Proto se používají systémy pro detekci klíčových slov (OOV) Dolování dat z multimediálních 18

Audio information retieval system Audio DB segmentace řeč/ticho/ostatní segmentace řečníků Vyhledávací jádro DB indexů DB modelů Vlastní aplikace KWS LVCSR Odhad pohlaví Ident. řečníka Odhad věku Ident. jazyka Dolování dat z multimediálních 19

KWS system Parametrizace vstupních dat (signálové předzpracování; segmentace; MFCC, PLP, ). Trénování modelů Akustické modely (slovní, fonémové (kontext)). Jazykové modely (n-gramy). Rozpoznávání Řetězce slov (fonémů), Lattice slov (fonémů) Maximum likelihood funkce, prahování, detekce Dolování dat z multimediálních 20

Příklad KWS systému Dolování dat z multimediálních 21

Příklad 5. AMI AMI Augmented Multi-party Interaction Inteligentní správce meetingů Multimodální vstupní rozhraní (vícejazyčné audio a video), smart meeting room Audio vizuální sledování účastníků meetingu Modelování dialogů, interakce člověk-člověk Abstrakce obsahu, strukturování informací, indexování, vyhledávání a sumarizace Záznam a správa záznamů meetingů, přístup k informacím přes síť Dolování dat z multimediálních 22

AMI & MM data mining Rozpoznávání gest a akcí z videa Odvozování emocí a úmyslů z audia a videa Robustní rozpoznávání neformální konverzační řeči Využívání vedlejších textových informací (slides) Tvorba a distribuce anotované vícekanálové multimodální databáze Multimodální analýza, integrace a přístup k informacím Dolování dat z multimediálních 23

AMI sémantický obsah Následující tabulka ukazuje vztah mezi sémantickým obsahem meetingu a výstupu jednotlivých rozpoznávačů Po abstrakci by měl být schopen vytvořit: Souhrn meetingu Index meetingu Odpovědět na otázky: Jaký byl závěr meetingu? Jaká byla nálada na meetingu? Co se stalo? Jaký byl průběh diskuze? Kdo se zůčastnil meetingu? Byl splněn program jednání? Dolování dat z multimediálních 24

AMI sémantický obsah Dolování dat z multimediálních 25

Literatura J. Han and M. Kamber, Data Mining: Concepts and Techniques A. Natsev, R. Rastogi and K. Shim, WALRUS: A similarity Retrieval Algorithm for Image Databases (1999) M. Detyniecki and C. Marsala, Fuzzy Multimedia Mining Applied to Video News (2002) K. Shearer, C. Dorai and S. Venkatesh, Incorporating Domain Knowlage with Video and Voice Data Analysis in News Broadcasts (2000) AMI Annex 1 Description of Work (2003) Dolování dat z multimediálních 26