Automatizovaný návrh pravidel pro integraci dat a sémantický web Zdeňka Linková, Martin Řimnáč Ústav informatiky AV ČR, v.v.i. Znalosti 008 Bratislava 1.-15.0. 008
1 Motivace Integrace dat pomocí pohledů Automatická integrace dat Formalismus pro datový zdroj Využití měr Závěr
Integrace dat Motivace Integrace dat pomocí pohledů Automatická integrace dat Formalismus pro datový zdroj Web jako studnice dat mnoho zdrojů(stále progresivně rostoucí) (částečně) redundantní popis Integrace dat umožňuje data z lokálních zdrojů prezentovat pomocí jednoho zdroje matrializovaně virtuálně- pomocí pohledů Mediační systémy
Integrace dat pomocí pohledů Integrace dat pomocí pohledů Automatická integrace dat Formalismus pro datový zdroj Úlohy v procesu integrace dat: schema matching schema mapping: LAV(Local As View) GAV(Global As View) GLAV(Global Local As View) zpracování dotazů: query rewriting
Automatická integrace dat Integrace dat pomocí pohledů Automatická integrace dat Formalismus pro datový zdroj 1 Manuální návrh integrace dat návrh pravidel- človek na základě své intrepretace schématů prácesmnohadaty možnost omylu, důvěryhodnost třetích stran (Semi)automatický návrh pravidel na základě dat návrh kandidátů jako(ohodnocené) doporučení pro návrháře jako nejlepší možný odhad ohodnocení kandidátů- kosinové fuzzy míry lexikální analýza strukturální analýza...
Formalismus- datový zdroj Integrace dat pomocí pohledů Automatická integrace dat Formalismus pro datový zdroj Formalismus binárních matic 1 Matice úložiště { 1 pokudei e Φ=[φ ij ], φ ij = j I 0 jinak Matice funkčních závislostí { 1 pokudai A Ω=[ω ij ], ω ij = j F 0 jinak Vztah(transformace) Ω= T Φ Φ =Φ Ω T pomocí matice aktivních domén atributů { 1 pokudei =(A =[δ ij ], δ ij = j,v ) E 0 jinak
Příklad Motivace Integrace dat pomocí pohledů Automatická integrace dat Formalismus pro datový zdroj Φ= Ω= 1 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 1 0 0 0 0 1 0 0 1 0 0 0 0 1 1 0 1 0 0 1 1 0 1 0 1 0 0 0 1 0 1 0 1 1 0 0 1 1 0 1 1 1 Město Stát Měna Město, Praha Město, Košice Město, Bratislava Stát, ČR Stát, Slovensko Měna, CZK Měna, SSK y=φ x
Virtuální globální matice úložiště Centralizovaně Φ S = Γ Sl Φ Sl Γ T S l S l S Γ Sl..mediátorelementůmeziΦ Sl aφ S
Virtuální globální matice úložiště Centralizovaně Φ S = S l S Γ Sl Φ Sl Γ T S l Γ Sl..mediátorelementůmeziΦ Sl aφ S Decentralizovaně Φ S = 6 4 Φ 1 Ψ 1 Ψ 1 S Ψ 1 Φ Ψ S.... Ψ S 1 Φ S 7 5 Ψ ij..mediátorelementůmeziφ Si aφ Sj
Virtuální globální matice úložiště Centralizovaně Φ S = S l S Γ Sl Φ Sl Γ T S l Γ Sl..mediátorelementůmeziΦ Sl aφ S Decentralizovaně Φ S = 6 4 Φ 1 Ψ 1 Ψ 1 S Ψ 1 Φ Ψ S.... Ψ S 1 Φ S 7 5 Ψ ij..mediátorelementůmeziφ Si aφ Sj Ψ ij =Γ T S i Γ Sj
na úrovni elementů 1 Binární Ψ kl =[ψ kl ij];ψ kl ij = { 1 pokudei zs l odpovídáe j zs k 0 jinak
na úrovni elementů 1 Binární Ψ kl =[ψ kl ij];ψ kl ij = Vážené Ψ kl =[ψij kl ];ψkl ij = { 1 pokudei zs l odpovídáe j zs k 0 jinak µ E (e i,e j ) pokude i zs l odpovídáe j zs k sjistotou µ E (e i,e j ) 0 jinak
na úrovni elementů 1 Binární Ψ kl =[ψ kl ij];ψ kl ij = Vážené Ψ kl =[ψij kl ];ψkl ij = { 1 pokudei zs l odpovídáe j zs k 0 jinak µ E (e i,e j ) pokude i zs l odpovídáe j zs k sjistotou µ E (e i,e j ) 0 jinak Triviální návrh mapování { Ψ kl=[ψij]; ψij kl 1 pokudei =(A = I,v) e j =(A J,v) 0 jinak
na úrovni atributů 1 Binární Π kl =[π kl ij];π kl ij = { 1 pokudai zs l odpovídáa j zs k 0 jinak
na úrovni atributů 1 Binární Π kl =[π kl ij];π kl ij = { 1 pokudai zs l odpovídáa j zs k 0 jinak Vážené Π kl =[πij];π kl ij kl = µ A (e i,e j ) pokuda i zs l odpovídáa j zs k sjistotou µ A (e i,e j ) 0 jinak
na úrovni atributů 1 Binární Π kl =[π kl ij];π kl ij = { 1 pokudai zs l odpovídáa j zs k 0 jinak Vážené Π kl =[πij];π kl ij kl = atributů versus elementů µ A (e i,e j ) pokuda i zs l odpovídáa j zs k sjistotou µ A (e i,e j ) 0 jinak Ψ kl =Ψ kl S l Π kl T S k Π kl = T S l Ψ kl Sk
Cosinové míry- Předpoklad: podobné atributy budou mít podobné(aktivní) domény Cosinová míra: π ij = DS k α (A i) D S l α (A j) D S k α(a i ) D S l α(a j )
Cosinové míry- Předpoklad: podobné atributy budou mít podobné(aktivní) domény Cosinová míra: π ij = DS k α (A i) D S l α (A j) D S k α(a i ) D S l α(a j ) Symetrie ekvivalence Π kl =Π T lk
Výběr kadidátů Motivace Φ 1 = 6 4 1 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 1 0 0 0 0 1 0 0 1 0 0 0 0 1 1 0 1 0 0 1 1 0 1 0 1 0 0 0 1 0 1 0 1 7 5 město, Praha město, Košice město, Bratislava stát, ČR stát, Slovensko měna, CZK měna, SSK Mediátor: ˆΠ 1 = 0 1 0 0 0 Φ = 6 4 1 0 1 0 0 1 0 1 1 0 1 0 0 1 0 1 7 5 země, Česká republika země, Slovensko hlavní město, Praha hlavní město, Bratislava preference pravidel s maximální podporou A i A j µ A (A i,a j ) hlavní město město 1 země stát
Cosinové míry- Cosinová míra: π ij = DS k α(a i ) D S l α(a j ) D S k α(a i )
Cosinové míry- Cosinová míra: π ij = DS k α(a i ) D S l α(a j ) D S k α(a i ) není symetrické
Cosinové míry- Cosinová míra: π ij = DS k α(a i ) D S l α(a j ) D S k α(a i ) není symetrické vyjma kombinací pravidel vedoucích na cykly: A j A k A i :A i,a i A l,a k A k
Cosinové míry- Cosinová míra: π ij = DS k α(a i ) D S l α(a j ) D S k α(a i ) není symetrické vyjma kombinací pravidel vedoucích na cykly: A j A k A i :A i,a i A l,a k A k Pro kombinaci ekvivalence a hierarchie- preference σij = πij kl πji lk σij = πij kl (1 πji lk )
Výběr kadidátů Motivace Φ 1 = 6 4 Φ = 6 4 1 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 1 0 0 0 0 1 0 0 1 0 0 0 0 1 1 0 1 0 0 1 1 0 1 0 1 0 0 0 1 0 1 0 1 1 0 1 0 0 1 0 1 1 0 1 0 0 1 0 1 7 5 7 5 město, Praha město, Košice město, Bratislava stát, ČR stát, Slovensko měna, CZK měna, SSK země, Česká republika země, Slovensko hlavní město, Praha hlavní město, Bratislava Hierarchie: preference pravidel s maximální podporou Π 1 = 0 1 0 0 0 Π 1 = [ 0 1 z :hlavníměsto z 1 :město z :hlavníměsto z 1 :město 9 z :stát z 1 :země 1 4 z :stát z 1 :země 1 4 z 1 :země z :stát 1 4 z 1 :město z :hlavníměsto 1 9 0 0 0 ]
Využití měr Závěr Použití měr- dotaz- ekvivalence Dotaz na Prahu 1 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 1 0 0 1 0 0 0 0 0 0 0 0 1 1 0 1 0 0 0 1 0 0 Φ S = 1 1 0 1 0 1 0 0 0 0 0 0 0 1 0 1 0 1 0 0 0 0 0 0 0 0 0 0 0 1 0 1 0 0 0 0 0 1 6 0 0 0 1 0 1 4 7 0 0 0 0 0 0 1 0 1 0 5 0 0 0 0 0 0 0 1 0 1 x 0 = [1 0 0 0 0 0 0 0 0 1 0] x 1 = [1 0 0 1 0 1 0 1 0 1 0] z 1 :město,z :hlavníměsto Praha 1+1= z 1 :stát,z :země 1 ČR 1 1 Česká Republika 1 z 1 :měna 1 CZK 1 město, Praha město, Košice město, Bratislava stát, ČR stát, Slovensko měna, CZK měna, SSK země, Česká Republika země, Slovensko hlavní město, Praha hlavní město, Bratislava
Využití měr Závěr Použití měr- dotaz- ekvivalence Dotaz na hlavní město Praha 1 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 1 0 0 1 0 0 0 0 0 0 0 0 1 1 0 1 0 0 0 1 0 0 Φ S = 1 1 0 1 0 1 0 0 0 0 0 0 0 1 0 1 0 1 0 0 0 0 0 0 0 0 0 0 0 1 0 1 0 0 0 0 0 1 6 0 0 0 1 0 1 4 7 0 0 0 0 0 0 1 0 1 0 5 0 0 0 0 0 0 0 1 0 1 x 0 = [0 0 0 0 0 0 0 0 0 1 0] x 1 = [ 0 0 0 0 0 0 1 0 1 0] x = [ 0 0 0 0 1 0 1 0] z 1 :město,z :hlavníměsto Praha 1+0.66=1.66 z 1 :stát,z :země 1 ČR 0.66 1 Česká Republika 1 z 1 :měna 1 CZK 0.66 město, Praha město, Košice město, Bratislava stát, ČR stát, Slovensko měna, CZK měna, SSK země = Česká Republika země = Slovensko hlavní město = Praha hlavní město = Bratislava
Využití měr Závěr Použití měr- dotaz- ekvivalence Dotaz na město Košice 1 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 1 0 0 1 0 0 0 0 0 0 0 0 1 1 0 1 0 0 0 1 0 0 Φ S = 1 1 0 1 0 1 0 0 0 0 0 0 0 1 0 1 0 1 0 0 0 0 0 0 0 0 0 0 0 1 0 1 0 0 0 0 0 1 6 0 0 0 1 0 1 4 7 0 0 0 0 0 0 1 0 1 0 5 0 0 0 0 0 0 0 1 0 1 x 0 = [0 1 0 0 0 0 0 0 0 0 0] x 1 = [0 1 0 0 1 0 1 0 1 0 0] x = [0 1 0 0 1 0 1 0 1 0 1 ] z 1 :město,z :hlavníměsto 1 Košice 1 1 Bratislava 0. z 1 :stát,z :země 1 Slovensko 1. z 1 :měna 1 SKK 1 město, Praha město, Košice město, Bratislava stát, ČR stát, Slovensko měna, CZK měna, SSK země = Česká Republika země = Slovensko hlavní město = Praha hlavní město = Bratislava
Použití měr- dotaz- Hierarchie Využití měr Závěr Dotaz na město Košice 1 0 0 0 0 0 0 0 0 1 0 0 1 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 1 1 0 0 1 0 0 0 0 0 0 0 0 1 1 0 1 0 0 0 1 0 0 Φ S = 1 0 0 1 0 1 0 0 0 0 0 0 1 1 0 1 0 1 0 0 0 0 0 0 0 0 0 0 0 1 0 1 0 6 0 0 0 0 1 4 0 0 0 1 0 1 7 5 0 0 0 0 0 0 0 1 0 1 0 0 0 0 0 0 0 0 0 1 0 1 x 0 = [0 1 0 0 0 0 0 0 0 0 0] x 1 = [0 1 0 0 1 0 1 0 1 0 0] x = [0 1 0 0 1 0 1 0 1 0 1 ] z 1 :město Košice 1 z :hlavníměsto Bratislava 0.50 z 1 :stát,z :země 1 Slovensko 1.50 z 1 :měna 1 SKK 1 město, Praha město, Košice město, Bratislava stát, ČR stát, Slovensko měna, CZK měna, SSK země, Česká Republika země, Slovensko hlavní město, Praha hlavní město, Bratislava
Reálná data Motivace Využití měr Závěr
Využití měr Závěr Závěr Možnost(semi)automatického návrhu integračních pravidel Využití měr při návrhu ověření navržených pravidel na datech při dotazování 1 rozhodnutí při nekonzistenci(preference) ochrana lokálního zdroje před ostatními(reputace) Pravidla vhodnost uvažovat hierarchii- nutnost dalších testů polynomiální složitost jednoznačné přiřazení při disjunktnosti globálních domén atributů