Tomáš Skopal Siret Research Group, KSI MFF UK 3/2012

Podobné dokumenty
Bezpečnostní seminář BIG DATA, Policejní akademie ČR v Praze

Geometrické indexování a dotazování multimediálních dat

Litosil - application

Compression of a Dictionary

Návrh a implementace algoritmů pro adaptivní řízení průmyslových robotů

Metrické indexování vektorových modelů v oblasti information retrieval

Tento materiál byl vytvořen v rámci projektu Operačního programu Vzdělávání pro konkurenceschopnost.

Návrh na zahájení habilitačního řízení Ing. Radima Bači, Ph.D. v oboru Informatika na FEI VŠB-TU Ostrava

Charles University in Prague Faculty of Mathematics and Physics DOCTORAL THESIS

Dynamic programming. Optimal binary search tree

Využití hybridní metody vícekriteriálního rozhodování za nejistoty. Michal Koláček, Markéta Matulová

Perception Motivated Hybrid Approach to Tone Mapping

Klepnutím lze upravit styl předlohy. nadpisů. nadpisů.

Introduction to Navision 4.00 Jaromír Skorkovský, MS., PhD.

Některé potíže s klasifikačními modely v praxi. Nikola Kaspříková KMAT FIS VŠE v Praze

Cambridge International Examinations Cambridge International General Certifi cate of Secondary Education

IT4Innovations Centre of Excellence

SAP a SUSE - dokonalá symbióza s open source. Martin Zikmund Technical Account Manager

Úvod do datového a procesního modelování pomocí CASE Erwin a BPwin

MySQL sežere vaše data

SEARCH & BIG DATA [ & ANALYTICS] INFORUM 2015, Pavel Kocourek

Standardní řada lisů Standard range of presses: x x x

Database systems. Normal forms

Třída: VI. A6 Mgr. Pavla Hamříková VI. B6 RNDr. Karel Pohaněl Schváleno předmětovou komisí dne: Podpis: Šárka Richterková v. r.

DATA SHEET. BC516 PNP Darlington transistor. technický list DISCRETE SEMICONDUCTORS Apr 23. Product specification Supersedes data of 1997 Apr 16

The Military Technical Institute

Enabling Intelligent Buildings via Smart Sensor Network & Smart Lighting

BLATNÍKY A BEDNY NA NÁŘADÍ MUDGUARDS AND TOOLBOXES

Systém pro správu experimentálních dat a metadat. Petr Císař, Antonín Bárta 2014 Ústav komplexních systémů, FROV, JU

EXACT DS OFFICE. The best lens for office work

Střední průmyslová škola strojnická Olomouc, tř.17. listopadu 49

CZ.1.07/1.5.00/

The Over-Head Cam (OHC) Valve Train Computer Model

SenseLab. z / from CeMaS. Otevřené sledování senzorů, ovládání zařízení, nahrávání a přehrávání ve Vaší laboratoři

2. Entity, Architecture, Process

Project Life-Cycle Data Management

Enterprise Content Management IBM Corporation

Element design_boris Klimek 2013

Nová éra diskových polí IBM Enterprise diskové pole s nízkým TCO! Simon Podepřel, Storage Sales

Klepnutím lze upravit styl Click to edit Master title style předlohy nadpisů.

Prohledávání dokumentů ve vektorovém modelu

SEZNAM PŘÍLOH. Příloha 1 Dotazník Tartu, Estonsko (anglická verze) Příloha 2 Dotazník Praha, ČR (česká verze)... 91

BOOK LEATHER COLLECTION 2015

Karta předmětu prezenční studium

B1 MORE THAN THE CITY

TECHNICKÁ NORMALIZACE V OBLASTI PROSTOROVÝCH INFORMACÍ

Web 2.0 vs. sémantický web

Škola: Střední škola obchodní, České Budějovice, Husova 9. Inovace a zkvalitnění výuky prostřednictvím ICT

Gymnázium, Brno, Slovanské nám. 7, SCHEME OF WORK Mathematics SCHEME OF WORK. cz

USING VIDEO IN PRE-SET AND IN-SET TEACHER TRAINING

Jakub Zavodny (University of Oxford, UK)

Czech Republic. EDUCAnet. Střední odborná škola Pardubice, s.r.o.


NABÍDKA BUSINESS A MANAŽERSKÉHO PORADENSTVÍ - BMC Consulting Souhrnná www prezentace ( www BMC Offer Summary )

Budování architektury pomocí IAA

Střední průmyslová škola strojnická Olomouc, tř.17. listopadu 49

SGM. Smart Grid Management THE FUTURE FOR ENERGY-EFFICIENT SMART GRIDS

připravili Filip Trojan, Pavel Macek,

Ontologie Příklady. Přednáška z předmětu Socioekonomická geografie pro geomatiku (KMA/SGG) Otakar Čerba Západočeská univerzita

4Ever H A N D B O O K

Metody inventarizace a hodnocení biodiverzity stromové složky

Flexibilní komunikační avionika SESAR 9.44 Honeywell Aerospace Advanced Technology

WORKSHEET 1: LINEAR EQUATION 1

Technická komise ISO/JTC1/SC 27 Technická normalizační komise ÚNMZ TNK 20

Využití LSI a M-stromu při indexování a vyhledávání obrázků

1-AYKY. Instalační kabely s Al jádrem. Standard TP-KK-133/01, PNE Konstrukce. Použití. Vlastnosti. Installation cables with Al conductor

Vliv metody vyšetřování tvaru brusného kotouče na výslednou přesnost obrobku

PC/104, PC/104-Plus. 196 ept GmbH I Tel. +49 (0) / I Fax +49 (0) / I I

Karta předmětu prezenční studium

PRAVIDLA ZPRACOVÁNÍ STANDARDNÍCH ELEKTRONICKÝCH ZAHRANIČNÍCH PLATEBNÍCH PŘÍKAZŮ STANDARD ELECTRONIC FOREIGN PAYMENT ORDERS PROCESSING RULES

System Center Operations Manager

Invitation to ON-ARRIVAL TRAINING COURSE for EVS volunteers

2 Axiomatic Definition of Object 2. 3 UML Unified Modelling Language Classes in UML Tools for System Design in UML 5

Transportation Problem

Servery s Xeon E3-1200v2 Nové servery s procesory IvyBridge Inte Xeon E3-1200v2

GUIDELINES FOR CONNECTION TO FTP SERVER TO TRANSFER PRINTING DATA

Petr Vlk KPCS CZ. WUG Days října 2016

Kancelářský systém ICE

Bioinformatika a výpočetní biologie. KFC/BIN VII. Fylogenetická analýza

CONNECTING GOVERNMENT AND CITIZENS Creating a Single Citizen View Konference ISSS, Jaroslav Novotný Sun Microsystems Czech

PAINTING SCHEMES CATALOGUE 2012

Přehled mezinárodních norem (ISO) Označení mezinárodní normy Názvy mezinárodních norem Rok vydání

Execrices. Mathematics FRDIS

BERGAMO FIRENZE RIMINI. Samozavírače a samozavírací závěsy Floor springs and hinges

ELEKTRONICKÝ MARKETING. Pavel Kotyza, B_EM 2. října 2014

CASTING HAND PRODUCTION USING MOULDS

Pomáháme vám využívat vaše informace VYHLEDÁVACÍ TECHNOLOGIE PRO ON-LINE INFORMAČNÍ ZDROJE SEARCH DRIVEN INNOVATION

Přejděte chytře na SAP HANA

CZ.1.07/1.5.00/

Industry Robert BOSCH

Přivařovací šrouby Zdvihový zážeh - DIN

SUBSTRUCTURES underground structures

Efektivní provoz koncových stanic

Střední průmyslová škola strojnická Olomouc, tř.17. listopadu 49

TechoLED H A N D B O O K

VY_32_INOVACE_06_Předpřítomný čas_03. Škola: Základní škola Slušovice, okres Zlín, příspěvková organizace

Risk management in the rhythm of BLUES. Více času a peněz pro podnikatele

Introduction to MS Dynamics NAV

Jaký programovací jazyk učit jako první a jak ho učit?

Big Data. Josef Šlerka, Ataxo Interactive, SNM FF UK Business & Information Forum 2011, Praha

Transkript:

Tomáš Skopal Siret Research Group, KSI MFF UK 3/2012

the problem of similarity search similarity models early models (vector space) current models (metric space) future models (non metric models) applications data centric (multimedia search engines) service centric ( enterprise applications)

task how to search non structured data based on content? we cannot use traditional approaches (e.g., linear order, SQL) nostní model univerzum deskriptorů (feature extraction) o i U funkce podobnosti/vzdálenosti dvou deskriptorů d(x,y) vyhledávání dotazování (rozsahový dotaz, knn dotaz) explorace databázové řešení rychlost vs. přesnost

task how to search non structured data based on content? we cannot use traditional approaches (e.g., linear order, SQL) similarity model descriptor universe (feature extraction) o i U pair wise similarity/distance function δ(x,y) vyhledávání dotazování (rozsahový dotaz, knn dotaz) explorace tabázové řešení rychlost vs. přesnost o 1 = < > o 2 = < > o 3 = < > o apple = < > δ(o apple, o pear ) o pear = < >

task how to search non structured data based on content? we cannot use traditional approaches (e.g., linear order, SQL) similarity model descriptor universe (feature extraction) o i U pair wise similarity/distance function δ(x,y) retrieval querying (range query, knn query) exploration (and other modern means of retrieval) databázové řešení query q ychlost v answer δ(q,o i ): 0.1 0.3 0.5 0.6 0.8

task how to search non structured data based on content? we cannot use traditional approaches (e.g., linear order, SQL) similarity model descriptor universe (feature extraction) o i U pair wise similarity/distance function δ(x,y) retrieval querying (range query, knn query) exploration (and other modern means of retrieval) database solution efficiency vs. effectiveness (performance vs. quality) assumption: sequential scan is too slow I/O cost but also (mainly) CPU cost of δ(x,y)

similarity modeled in vector space reuse of spatial indexes designed for GIS, CAD/CAM, etc. R tree, X tree, SS tree, Grid file, VA file, inverted index, etc. omezeno na Euklidovské vektorové prostory deskriptory = vektory čísel, podobnost = L 2 metrika tzv. prokletí dimenzionality% nepoužitelné pro vyšší dimenze, cca >10, ení případ původního použití v GIS/CAD)

similarity modeled in vector space reuse of spatial indexes designed for GIS, CAD/CAM, etc. R tree, X tree, SS tree, Grid file, VA file, inverted index, etc. cons similarity modeling limited to L p spaces descriptors = numeric vectors, similarity = L p metric independent dimensions ( smart descriptors, stupid similarity) curse of dimensionality inefficient for high dimensional data, say dim>10, (not the case of original use in GIS/CAD, i.e., 2D, 3D data!)

suitable application in similarity search vector query (originated in Information retrieval) inverted index specific requirements cosine measure/distance sparse vectors (query and data) applications text retrieval (dimensions are terms) bag of words models in multimedia retrieval t 3 (nature) q = (0.1, 0.1, 0.5) d j = (0.6, 0.1, 0.4) t 1 (mountain) t 2 (forest)

bag of words in image retrieval 1. extract features (from many images) 3. learn visual vocabulary credit: Fei Fei Li at al., 2005 2. quantize/cluster features 4. represent images by histograms (vectors)

more general than vector models any metric space black box descriptor and black box distance function δ the distance must be a metric (axioms) lowerbounding using pivots (triangle inequality) kletí dimenze do jisté míry potlačeno zobecněný problém vnitřní dimenze x query p r main memory/perzistentní, sériové/paralelní/distribuované, q mnoho metrických indexů navrženo statické/dynam pokusy o rozšíře pro reálné probí metrické axiomy omezují modelování podobnosti

more general than vector models any metric space black box descriptor and black box distance function δ the distance must be a metric (axioms) lowerbounding using pivots (triangle inequality) curse of dimensionality reduced to some extent generalized problem of intrinsic dimensionality (dist. distrib. matters) mnoho metrických indexů navrženo \main memory/perzistentní, sériové/paralelní/distribuované, statické/dynamické, atd. pokusy o rozšíření SQL o podobnostní predikáty + implementace o reálné problémy stále nestačí metrické axiomy 0omezují modelování 1/2 podobnosti 1

more general than vector models any metric space black box descriptor and black box distance function δ the distance must be a metric (axioms) lowerbounding using pivots (triangle inequality) curse of dimensionality reduced to some extent generalized problem of intrinsic dimensionality (dist. distrib. matters) many metric indexes proposed main memory/persistent, serial/parallel/distributed, static/dynamic, etc. attempts extending SQL by similarity predicates + implementations for real problems often still not sufficient metric axioms limit the modeling capabilities

suitable application image feature signatures + SQFD překlepový slovník užívající editační vzdálenostδ edit ( rbanka, banka ) = 1 δ edit ( rbanka, branka ) = 2 M. Kruliš, T. Skopal. J. Lokoč, Ch. Beecks. Combining CPU and GPU Architectures for Fast Similarity Search, Distributed and Parallel Databases, Springer, 2012 M. aplikace Kruliš, J. Lokoč, Ch. Beecks, T. Skopal, T. Seidl. Processing Signature Quadratic Form Distance indexování on Many Core sekvencí GPU Architecture, proteinů ACM pomocí CIKM 2011, editační Glasgow, vzdálenosti UK Ch. Beecks, J. Lokoč, T. Seidl, T. Skopal. Indexing the Signature Quadratic Form Distance for Efficient edit. Content Based vzdálenost příliš Multimedia jednoduchá, Retrieval, nemodeluje ACM ICMR biologickou 2011, Trento, skutečnost Italy potřeba rozšíření o skórovací matice, penalizaci mezer, příp. lokální zarovnávání např. Smith Waterman

suitable application image feature signatures + SQFD mistyping vocabulary using edit distance δ edit ( bank, bar ) = 2 δ edit ( tank, bank ) = 1 bad application indexing of protein sequences using edit distance edit distance too simple for biologic applications extension needed like scoring matrices, gap penalties, local alignment e.g., Smith Waterman

absence of some metric axiom = non metric function similarity parameterization inclusion of user preferences/context at query time non metric similarities by design robust behavior (ignoring noisy parts) local behavior (favoring similarity) comfort of black box approach (domain experts outside CS) T. Skopal, B. Bustos. On Nonmetric Similarity Search Problems in Complex Domains, ACM Computing Surveys, 43(4):34:1 34:50, 2011 B. Bustos, T. Skopal. Nonmetric Similarity Search Problems in Very Large Collections, ICDE 2011, Hannover, Germany, IEEE

need to allow explicit preferences/user profile at query time dynamic function δ(x, y, other parameters) i.e., the same descriptors x,y lead to different similarity values (so it is not even afunction, not yet metric distance)

possible solution multi metric approach, linear combination of metrics query time weighting multi metric indexes (adaptation of metric ones, e.g., M 3 tree) storage of distance components, i.e., final aggregation with weights at query time B. Bustos, S. Kreft, T. Skopal. Adapting Metric Indexes for Searching in Multi Metric Spaces, Multimedia Tools and Applications, Springer, 2012 B. Bustos, T. Skopal. Dynamic Similarity Search in Multi Metric Spaces, ACM MIR 2006, Santa Barbara, CA, USA

arguments against metric axioms in theory (psychology, cognitive sciences)

and practically...

general indexing of non metric distances TriGen algorithm modification of semimetric distance δ to (partially) fulfill triangle inequality (T error) the lower T error, the more precise but slower search, and vice versa M strom (index podporující různé přesnosti v čase dotazu) výhoda univerzální nemetrický index nevýhoda může vést k velké vnitřní dimenzi

general indexing of non metric distances TriGen algorithm modification of semimetric distance δ to (partially) fulfill triangle inequality (T error) the lower T error, the more precise but slower search, and vice versa NM tree (index+trigen, multiple precisions at query time) výhoda univerzální nemetrický index nevýhoda může vést k velké vnitřní dimenzi

general indexing of non metric distances TriGen algorithm modification of semimetric distance δ to (partially) fulfill triangle inequality (T error) the lower T error, the more precise but slower search, and vice versa NM tree (index+trigen, multiple precisions at query time) pros universal non metric index cons might lead to large intrinsic dimensionality T. Skopal, J. Lokoč. NM tree: Flexible Approximate Similarity Search in Metric and Non metric Spaces, DEXA 2008, Turin, Italy, LNCS 5181, Springer T. Skopal. Unified Framework for Fast Exact and Approximate Search in Dissimilarity Spaces, ACM Transactions on Database Systems, 32(4):1 47, 2007 T. Skopal. On Fast Non Metric Similarity Search by Metric Access Methods, EDBT 2006, Munich, Germany, LNCS 3896, Springer

applications for non metric similarity search in bioinformatics mass spectra interpretation (protein identification) protein identification based on (3D) structure RNA identification based on (3D) structure J. Novák, T. Skopal, D. Hoksza, J. Lokoč. Non metric Similarity Search of Tandem Mass Spectra Including Posttranslational Modifications, Journal of Discrete Algorithms, Elsevier, 2012 J. Galgonek, D. Hoksza, T. Skopal. SProt: sphere based protein structure similarity algorithm, Proteome Science, 9(Suppl 1):S20, 2011 D. Hoksza, D.Svozil. SETTER RNA SEcondary structure based TERtiary Structure Similarity Algorithm, ISBRA 2011, Changsha, China, Springer

similarity search as exposed technology querying mechanism is the main functionality the user must cooperate (e.g., formulate a query, or browse/explore) today mostly desktop applications data is the final product is this the killer application for similarity search?...depends

similarity search as hidden technology querying mechanism and even the data type hidden to the user data is just means of search service is the final product much wider applicability of similarity search? e.g., e commerce, audiovisual wikipedia, etc.

Google Goggles mobile version of Google combination of OCR and pattern matching (similaritybased) techniques and content based image retrieval Android, ios (iphone, ipad) nowadays provides identification of:

augmented reality very near future