27.11.2012 Bezpečnostní seminář BIG DATA, Policejní akademie ČR v Praze

Podobné dokumenty
Tomáš Skopal Siret Research Group, KSI MFF UK 3/2012

Ontologie Příklady. Přednáška z předmětu Socioekonomická geografie pro geomatiku (KMA/SGG) Otakar Čerba Západočeská univerzita

Klepnutím lze upravit styl předlohy. nadpisů. nadpisů.

Geometrické indexování a dotazování multimediálních dat

Perception Motivated Hybrid Approach to Tone Mapping

Compression of a Dictionary

GUIDELINES FOR CONNECTION TO FTP SERVER TO TRANSFER PRINTING DATA

Tento materiál byl vytvořen v rámci projektu Operačního programu Vzdělávání pro konkurenceschopnost.

Návrh na zahájení habilitačního řízení Ing. Radima Bači, Ph.D. v oboru Informatika na FEI VŠB-TU Ostrava

Klepnutím lze upravit styl předlohy. Klepnutím lze upravit styl předlohy. nadpisů. nadpisů. Aleš Křupka.

SGM. Smart Grid Management THE FUTURE FOR ENERGY-EFFICIENT SMART GRIDS

ADC Young Creative. Brief MOBIL.CZ

Návrh a implementace algoritmů pro adaptivní řízení průmyslových robotů

Charles University in Prague Faculty of Mathematics and Physics DOCTORAL THESIS

SAP a SUSE - dokonalá symbióza s open source. Martin Zikmund Technical Account Manager

Introduction to MS Dynamics NAV

Metrické indexování vektorových modelů v oblasti information retrieval

IT4Innovations Centre of Excellence

Project Life-Cycle Data Management

USING VIDEO IN PRE-SET AND IN-SET TEACHER TRAINING

The Military Technical Institute

PC/104, PC/104-Plus. 196 ept GmbH I Tel. +49 (0) / I Fax +49 (0) / I I

Litosil - application

Nová éra diskových polí IBM Enterprise diskové pole s nízkým TCO! Simon Podepřel, Storage Sales

CZ.1.07/1.5.00/

Jakub Zavodny (University of Oxford, UK)

Radiova meteoricka detekc nı stanice RMDS01A

PROČ UŽ SE NEOBEJDETE BEZ ANALÝZY DAT

Kdo jsme Čím se zabýváme Nabídka služeb pro veřejnou správu Ověřeno v praxi u tisíce uživatelů v podnikatelské a bankovní sféře Plně využitelné u

Třída: VI. A6 Mgr. Pavla Hamříková VI. B6 RNDr. Karel Pohaněl Schváleno předmětovou komisí dne: Podpis: Šárka Richterková v. r.

Gymnázium, Brno, Slovanské nám. 7 WORKBOOK. Mathematics. Teacher: Student:

Czech Republic. EDUCAnet. Střední odborná škola Pardubice, s.r.o.

Czech Technical University in Prague DOCTORAL THESIS

Střední průmyslová škola strojnická Olomouc, tř.17. listopadu 49

Tabulka 1 Stav členské základny SK Praga Vysočany k roku 2015 Tabulka 2 Výše členských příspěvků v SK Praga Vysočany Tabulka 3 Přehled finanční

Využití hybridní metody vícekriteriálního rozhodování za nejistoty. Michal Koláček, Markéta Matulová

Vliv metody vyšetřování tvaru brusného kotouče na výslednou přesnost obrobku

Aplikace matematiky. Dana Lauerová A note to the theory of periodic solutions of a parabolic equation

Translation Model Interpolation for Domain Adaptation in TectoMT

EXACT DS OFFICE. The best lens for office work

Content management: organizace informací na webových stránkách. Petr Boldiš Studijní a informační centrum Česká zemědělská univerzita v Praze

B1 MORE THAN THE CITY

Bibliometric probes into the world of scientific publishing: Economics first

Database systems. Normal forms

Website review vaznikystrechy.eu

Newstin Real-time Web Content Categorization. Presentation to WebExpo 2008

CITI-SENSE. Výzkumný projekt veřejného monitorování kvality ovzduší a životního prostředí pomocí senzorových technologií

UNIVERSITY OF MUMBAI RESULT OF THE REVALUATION CASES FOR EXAMINATION OF FACULTY OF ENGINEERING 1ST HALF' 2015

VYSOKÁ ŠKOLA HOTELOVÁ V PRAZE 8, SPOL. S R. O.

Dynamic programming. Optimal binary search tree

Friction drives have constant or variable drives (it means variators). Friction drives are used for the transfer of smaller outputs.

SUBSTRUCTURES underground structures

Transportation Problem

Enterprise Content Management IBM Corporation

3D model města pro internetové aplikace. Jakub Dolejší. Ing. Tomáš Dolanský, Ph.D.

Využití LSI a M-stromu při indexování a vyhledávání obrázků

Web 2.0 vs. sémantický web

The Over-Head Cam (OHC) Valve Train Computer Model

Systém pro správu experimentálních dat a metadat. Petr Císař, Antonín Bárta 2014 Ústav komplexních systémů, FROV, JU

Web Information Extraction - extrakce informací z webu

ACOUSTIC EMISSION SIGNAL USED FOR EVALUATION OF FAILURES FROM SCRATCH INDENTATION

Převod prostorových dat katastru nemovitostí do formátu shapefile

Microsoft Office 365. SharePoint Online novinky a administrace

Oxide, oxide, co po tobě zbyde

Cambridge International Examinations Cambridge International General Certificate of Secondary Education

Invitation to ON-ARRIVAL TRAINING COURSE for EVS volunteers

Enabling Intelligent Buildings via Smart Sensor Network & Smart Lighting

Introduction to Navision 4.00 Jaromír Skorkovský, MS., PhD.

VÝSLEDKY VÝZKUMU ÚVOD ZPRÁVY Z VÝZKUMU. Hana Poštulková. 62 // AULA roč. 19, 03-04/2011

Efektivní využití SSD v produktech Dell: SSD za cenu HDD. Ondřej Bajer Storage Systems Engineer

Britské společenství národů. Historie Spojeného království Velké Británie a Severního Irska ročník gymnázia (vyšší stupeň)

TechoLED H A N D B O O K

stany A B C D tents VÝBAVA stanů Husky 2005/Husky 2005 tents ACCESSORIES

Cambridge International Examinations Cambridge International General Certificate of Secondary Education

Dashboard. 1 Feb Feb 2012 Comparing to: Site. 4,776 Visits % Bounce Rate. 00:02:30 Avg. Time on Site.

Vývoj informačních systémů. Architektura, návrh Vzory: Doménová logika

14,35 - Standardizace portálové platformy MEFANET: den zúčtování s projektem OP VK

Návštěvy. Aug 1, Aug 31, This report shows the number of visits to your web site during the selected period.

Progressive loyalty V1.0. Copyright 2017 TALENTHUT

POWERSHELL. Desired State Configuration (DSC) Lukáš Brázda MCT, MCSA, MCSE

Úvod do datového a procesního modelování pomocí CASE Erwin a BPwin

HP-USS: IT tak, jak potřebujete Karel Kotrba ředitel Enterprise Services HP ČR

WORKSHEET 1: LINEAR EQUATION 1

Modelování ve vodním hospodářství II. Modeling in Water Management

SECAR BOHEMIA ROBUST SATELLITE POSITIONING & ITS IN PRACTICE. Lubomír Myslík

Industry Robert BOSCH

Klepnutím lze Introduction upravit styl předlohy. nadpisů.

Jak importovat profily do Cura (Windows a

ANALÝZA PŮSOBENÍ MEDIÁTOROVÝCH AMODERÁTOROVÝCHPROMĚNNÝCH ANALYSISOFMEDIATIONANDMODERATION VARIABLES EFFECTS JanHendl

2 Axiomatic Definition of Object 2. 3 UML Unified Modelling Language Classes in UML Tools for System Design in UML 5

PALÁC ANDĚL Kancelářské prostory k pronájmu / Offices for lease. Radlická 3185/1C, Prague 5

2. Entity, Architecture, Process

Jiří DOSTÁL Univerzita Palackého v Olomouci, Pedagogická fakulta, KTEIV. Interaktivní tabule ve vzdělávání

VY_32_INOVACE_06_Předpřítomný čas_03. Škola: Základní škola Slušovice, okres Zlín, příspěvková organizace

Petr Bednář managing director

SenseLab. z / from CeMaS. Otevřené sledování senzorů, ovládání zařízení, nahrávání a přehrávání ve Vaší laboratoři

Cambridge International Examinations Cambridge International General Certificate of Secondary Education

Social Media a firemní komunikace

Gymnázium a Střední odborná škola, Rokycany, Mládežníků 1115

TERMS & CONDITIONS 2019

Transkript:

RNDr. Jakub Lokoč, Ph.D. Siret Research Group (www.siret.cz) Department of SW Engineering Faculty of Mathematics and Physics Charles University in Prague 1

2.1 billion Internet users worldwide http://royal.pingdom.com statistics for 2011 3.146 billion number of email accounts worldwide 800+ million number of users on Facebook 555 million number of websites (+300 million in 2011) 1 trillion number of video playbacks on YouTube 48 hours amount of video uploaded to YouTube every minute MM data 100 billion Estimated number of photos on Facebook 4.5 million Number of photos uploaded to Flickr each day 2

Storage Scalability Searching Security Accessibility 3

Text-based techniques Advantage scalable retrieval by inverted files Problem missing or misguiding annotations Content-based techniques Advantage no annotation needed, visual similarity Problem slow retrieval for complex similarity models Hybrid techniques Text-based query + content-based reranking/exploration Content-based query + text-based filtering Adapting content-based data for inverted files 4

Document vector model User issues keywords query (google, bing, ) Efficient query evaluation using inverted files Problems Manual annotation only for small data Subjectivity of the annotation Homonyms, etc. Automatic annotation Surrounding text + linguistic methods + ontologies Content-based keyword assignment Still lot of problems to solve 5

Text-based retrieval 6

All objects transformed into a similarity model Objects represented by descriptors (histograms, signatures) Descriptors measured by a distance measure d (Lp, SQFD, EMD) User issues an example object as a query q Feature Similarity extraction evaluation extraction Objects x sorted according to the visual similarity d(q, x) How to solve efficiency problem? Feature query object Hybrid techniques not whole DB is searched in the CB way Distance-based indexes or filter-and-refine methods Distributed architectures needed (storage, throughput, ) 7

Hybrid techniques reranking page 1 8

Hybrid techniques reranking page 2 9

Hybrid techniques exploration J. Lokoč, T. Grošup, T. Skopal Image Exploration using Online Feature Extraction and Reranking ICMR, 2012, Hongkong, China, ACM J. Lokoč, T. Grošup, T. Skopal SIR: The Smart Image Retrieval Engine SISAP, 2012, Toronto, Canada, Springer 10

When a distance measure is a metric, we can employ metric indexes for fast query processing Ball partitioning M-Tree, PM-Tree, LoC Hyperplane partitioning GNAT, M-Index Mapping methods LAESA, Omni family Zezula, P., Amato, G., Dohnal, V., Batko, M. Similarity Search: The Metric Space Approach (Springer, 2006) J. Lokoč, P. Čech, J. Novák, T. Skopal, SISAP, 2012, Toronto, Canada, Springer Cut-region: A Compact Building Block For Hierarchical Metric Indexing D. Novak, M. Batko, P. Zezula, Information systems, 2011, Elsevier Metric Index: An efficient and scalable solution for precise and approximate similarity search 11

Efficiency depends mainly on the distance distribution in the distance space Indicator of data indexability Intrinsic dimensionality idim = mean 2 / (2*variance) High idim = bad indexability ( curse of dimensionality) o 1 p 1 p 2 q o 2 E. Chavez, G. Navarro, R. Baeza-Yates, and J. L. Marroquin Searching in Metric Spaces, ACM Computing Surveys, 2001 12

Relaxing precission Approximate search Distance space transformation Synergistic modeling Distributed computing (brutal force) Peer-to-peer architecture Parallel processing on local nodes 13

Based on various ideas Early termination for good results Reducing query radius When time elapses Accessing % of DB Also distance modifications Zezula, P., Amato, G., Dohnal, V., Batko, M. Similarity Search: The Metric Space Approach (Springer, 2006) However, for fast retrieval, the quality deteriorates rapidly 14

Nonlinear transformations of the distance space Monotonous transformation = same similarity ordering Problems with metric properties If t = x 2 then 2 + 2 4 but 2 2 + 2 2 < 4 2 Approximate search with MAMs T. Skopal, Unified framework for fast exact and approximate search in dissimilarity spaces, ACM Transactions on Database Systems, 2007 T. Skopal, J. Lokoč, NM-tree: Flexible Approximate Similarity Search in Metric and Non-metric Spaces LNCS 5181, Springer, 2008, DEXA, Turin,Italy 15

Design indexable space (not only precission) Join the world of the domain experts and focus also on idim Many factors influence idim Extracted features Sampled points Kvantization Clustering Similarity measure Linear combinations Inner parameters Indexable space Let as remember also the MAP graphs Ch. Beecks, J. Lokoč, T. Seidl, T. Skopal, Indexing the Signature Quadratic Form Distance for Efficient Content-Based Multimedia Retrieval, ACM ICMR 2011, Trento, Italy, ACM J. Lokoč, Ch. Beecks, T. Seidl, T. Skopal, Parameterized Earth Mover s Distance for Efficient Metric Space Indexing, SISAP 2011, Lipari, Italy, ACM 16

Peer-to-peer architecture Chord protocol (efficient routing) M-Chord, M-Index Map objects from U to real domain R Use chord protocol for object distribution Query causes interval queries, results merged D. Novak, P. Zezula, M-Chord: a scalable distributed similarity search structure InfoScale, 2006, ACM D. Novak, M. Batko, P. Zezula, Large-scale similarity data management with distributed Metric Index, Information Processing & Management 17

Synergistic modeling Distance modifications Distributed index Approximate search limit routing Local node index Approximate search in local nodes Parallel processing 18

any questions? 19