Centralizované a decentralizované hodnocení kvality webových zdrojů Martin Řimnáč, Roman Špánek Ústav informatiky AV ČR, v.v.i. Datakon 15.-19.10. 2011, Mikulov
1 Motivace Běžné přístupy Anotace na webu 2 3 4
Motivace Běžné přístupy Anotace na webu poskytuje zdroj relevantní data, kterým mohu věřit? hodnocení- přirozené subjektivní chování člověka člověk: důvěra v okolí člověka, doménoví proradci,... data(web): přímé nebo nepřímé míry centralizované nebo decentralizovaná správa
Běžné přístupy na webu Běžné přístupy Anotace na webu nepřímé míry návštěvnost stránky proklik na stránku Page Rank(Google) nic neříkají o presentovaných datech centralizovaná správa vlastní správa nad proindexovanou doménou dokumentů modifikace algoritmů pro vyčíslení měr
Běžné přístupy na webu Běžné přístupy Anotace na webu nepřímé míry návštěvnost stránky proklik na stránku Page Rank(Google) nic neříkají o presentovaných datech centralizovaná správa vlastní správa nad proindexovanou doménou dokumentů modifikace algoritmů pro vyčíslení měr Strojová nezpracovatelnost dat prezentovaných na webu vynucuje použití nepřímých měr.
Anotovaná data na webu Běžné přístupy Anotace na webu anotace dat- moderní rozšíření webových stránek (mikroformáty) RDFa,HTML5,... umožňuje hodnit data webových stránek přímo při použití obecných identifikátorů- lze data agregovat přes zdroje autonomie zdrojů, avšak jejich spolupráce(včetně verifikace) správa 1 centralizovaná- index nad doménou dokumentů, typicky vyžadující kopii(části) dat 2 decentralizovaná- každý zdroj udržuje metadata o svém okolí
Návrh měr pro hodnocení Vstup:extrahovanéRDFtrojice (s,p,o)odzdrojeavčaset s,p R,o R L,R..resource, L..literal ParametryhodnotícídvěmnožinyT 1,T 2 : statické α..sdílení:průniktrojicmezit 1aT 2 δ..nekonzistence s 1 =s 2 p 1 =p 2 o 1 o 2 o 1,o 2 Lpřineexistenciprvkuvdruhémnožině dynamické-časovéokno (t τ,τ > β..potvrzení-průniktrojict 1,kterébylyvT 2dříve t 1 >t 2 :1potvrzujenovádataz2-zdrojrychlejireagujícínazměny γ..validace-průniktrojict 1,kterébylyvT 2později t 1 <t 2 :schopnostpotvrzovat(ověřovat)datarychlejšíchzdrojů
Návrh měr pro hodnocení Vstup:extrahovanéRDFtrojice (s,p,o)odzdrojeavčaset s,p R,o R L,R..resource, L..literal ParametryhodnotícídvěmnožinyT 1,T 2 : statické α..sdílení:průniktrojicmezit 1aT 2 δ..nekonzistence s 1 =s 2 p 1 =p 2 o 1 o 2 o 1,o 2 Lpřineexistenciprvkuvdruhémnožině dynamické-časovéokno (t τ,τ > β..potvrzení-průniktrojict 1,kterébylyvT 2dříve t 1 >t 2 :1potvrzujenovádataz2-zdrojrychlejireagujícínazměny γ..validace-průniktrojict 1,kterébylyvT 2později t 1 <t 2 :schopnostpotvrzovat(ověřovat)datarychlejšíchzdrojů Přístup: centralizovaný: T 1..trojicehodnocenéhozdroje,T 2..trojicevšechzdrojů decentralizovaný: T 1..trojicehodnocenéhozdroje,T 2..trojicehodnotícíhozdroje
- Online výsledky tenisových zápasů Vstup: 5 zdrojů Výstup: 1 centralizovaný přístup 2 decentralizovaný přístup 3 agregace decentralizovaného přístupu
- sdílení α Sdílení Počet trojic
- potvrzování β- validace γ Potvrzování Validace
- reputace Potvrzování ρ = α 1+β 2 1+γ 2
- reputace Potvrzování ρ = α 1+β 2 1+γ 2 Útok 1 zdroj vytvoří kopii sama sebe 2 získá zdroj, který potvrdí jeho data 3 zvýšení parametru sdílení, potvrzení
u centralizované správy- každý zdroj optimalizuje k vyšší ρ výběr trojic, aktualizace pouze části dat podvodné jednání decentralizovaná správa zdroj nebude poškozovat sám sebe možnost detekce transitivních vazeb Proč spolupracovat s pomalejším zdrojem kopírujícím cizí data? důraz na autonomii zdroje
- sdílení α livescore.com yahoo.com
- potvrzování β livescore.com yahoo.com
Decentralizovanáspráva-tokdat β γ livescore.com yahoo.com
snaha z decentralizováno přístupu získat centralizovaný v praxi komplikována nutností zdrojů veřejně ohodnotit své okolí
Agregace- sdílení α Motivace agregace centralizovaná správa
Agregace- reputace ρ Motivace agregace centralizovaná správa
Motivace 1 ideální pro uživatele bez preference zdroje náchylnost k útokům, přeoptimalizovanosti 2 ideální pro zdroje, úzká kooperace ideální pro uživatele preferující konkrétní zdroj není důvod útočit 3 dává pouze přibližné výsledky