Centralizované a decentralizované hodnocení kvality webových zdrojů



Podobné dokumenty
Automatizovaný návrh pravidel pro integraci dat a sémantický web

Jiří Picek, Pavel Richter VÝVOJ NÁSTROJŮ PRO HODNOCENÍ MNOŽSTVÍ A JAKOSTI VOD HEIS VÚV

MBI a jeho komunita Řízení informatiky v soukromém a veřejném sektoru

MBI - technologická realizace modelu

Jako příklady typicky ch hrozeb pro IT lze uvést: Útok

Využití nástrojů z projektu Česká digitální knihovna při digitalizaci a zpřístupnění digitálních dokumentů

J. Feit 1, L. Hejtmánek 3, L. Matyska 3, V. Ulman 3, M. Ježová 1, M. Moulis 1, V. Feitová

Část IV - Bezpečnost 21. Kapitola 19 Bezpečnostní model ASP.NET 23

Prevence podvodného a korupčního jednání v podmínkách ROP Moravskoslezsko

Výměnný formát XML DTM DMVS

Používá paměťová média pro přenos dat mezi počítači, vyjmenuje nejpoužívanější paměťová média.

CZ.1.07/1.5.00/ Zefektivnění výuky prostřednictvím ICT technologií III/2 - Inovace a zkvalitnění výuky prostřednictvím ICT

SíťIT: Portál na podporu sociální sítě informatiků v ČR

Distribuované algoritmy - přehled. Přednášky z Distribuovaných systémů Ing. Jiří Ledvina, CSc.

Digitalizace a digitální knihovny v České republice

Věra Knoblochová Stálé zastoupení ČR při EU

Kč / 1 rok zobrazení. Personální agentury.cz Staňte se součástí nejnavštěvovanějšího katalogu personálních agentur na českém internetu.

FRAUNHOFEROVA SPOLEČNOST

KONFERENCE ISSS 2010

SEM, SEO a PPC? Kouzelné formulky?

Moderní metody automatizace a hodnocení marketingových kampaní

Modely a sémantika. Petr Šaloun VŠB-Technická univerzita Ostrava FEI, katedra informatiky

InternetovéTechnologie

Přístupy k efektivnímu využití modelu MBI

Rekapitulace Jakostního modelu povodí Jihlavy, jeho aktualizace a rozšíření pod VD Dalešice Ing. Roman Hanák

Design systému. Komponentová versus procesní architektura

Dalibor Kačmář

Identifikátor materiálu: ICT-2-05

Výuka IVT na 1. stupni

Prodej sportovních potřeb

Data Science projekty v telekomunikační společnosti

Výměnný formát XML DTM DMVS PK

KRAJSKÝ ÚŘAD JIHOMORAVSKÉHO KRAJE Odbor životního prostředí Žerotínovo náměstí 3/5, Brno

DIGITALIZAČNÍ PROJEKTY KRAJE VYSOČINA. Únor 2015

Co je nového v aplikaci PaperPort 12?

Digitalizace. Co je to digitalizace Proč digitalizovat a přínosy digitalizace Popis procesu digitalizace Příklady digitalizačních projektů

/ 1 rok zobrazení. Personální agentury.cz Staňte se součástí nejnavštěvovanějšího katalogu personálních agentur na českém internetu.

Systém detekce a pokročilé analýzy KBU napříč státní správou

Zásady používání souborů cookie pro panely a průzkumu

Geoinformační infrastruktura a INSPIRE. Adresy v EU. Mgr. Karel Lux, vedoucí oddělení koncepce informatiky Nemoforum

Standard výměnného formátu XML Digitální technické mapy

Prezentace uvádí výčet poštovních programů, základní postupy při jejich využívání.

Činnost MEFANET přináší pro všechny zapojené partnery následující možnosti:

Přehled systému Microsoft SQL Server. Komu je kniha určena Struktura knihy Nejvhodnější výchozí bod pro čtení knihy Konvence a struktura knihy

2014 Dostupný z Licence Creative Commons Uveďte autora-zachovejte licenci 4.0 Mezinárodní

SOFISTIKOVANÉ NÁSTROJE PRO JEDNODUCHOU TVORBU PROFESIONÁLNÍCH WEBOVÝCH PREZENTACÍ

KOMPONENTY APLIKACE TreeINFO. Petr Štos ECM Business Consultant

PRODUKTY Tovek Server 6

Microsoft Sync Framework. Jiří Činčura blog.cincura.net

Střední průmyslová škola elektrotechnická Praha 10, V Úžlabině 320

Inovace výuky prostřednictvím ICT v SPŠ Zlín, CZ.1.07/1.5.00/ Vzdělávání v informačních a komunikačních technologií

Česká digitální knihovna agregace digitálního obsahu českých knihoven

Personal Branding. Michal Blažek, CC Professional Toastmasters,

Zabezpečení citlivých dat informačních systémů státní správy. Ing. Michal Vackář Mgr. Boleslav Bobčík

Seznam vybraných návrhů projektů k řešení a poskytnutí účelové podpory

Bakalářky. Cyril Brom

Tovek Server. Tovek Server nabízí následující základní a servisní funkce: Bezpečnost Statistiky Locale

Databázové aplikace pro internetové prostředí PHP úvod, základní princip, vkládání skriptu, komentáře, výpis na obrazovku

Václav Bartoš, Martin Žádník. Schůze partnerů SABU

Bakalářky. Cyril Brom

Dynamické rozvrhování

Koncepce katalogizace otevřených dat

vasedomena.cz SEO ANALÝZA WEBOVÝCH STRÁNEK (9. SRPNA 2017)

Č. Téma Anotace 1 Spektrometrie neutronů pomocí Bonnerových sfér

InternetovéTechnologie

ICT plán leden 2014 prosinec 2015

Základy Informační koncepce ČR. Pavel Hrabě a kolektiv OHA Říjen 2017

Operační systémy. Jednoduché stránkování. Virtuální paměť. Příklad: jednoduché stránkování. Virtuální paměť se stránkování. Memory Management Unit

Regionální klinický informační systém IKIS

Střední odborná škola a Střední odborné učiliště, Hořovice

VYSOKÁ ŠKOLA BÁŇSKÁ TECHNICKÁ UNIVERZITA OSTRAVA FAKULTA STROJNÍ DATABÁZOVÉ SYSTÉMY ARCHITEKTURA DATABÁZOVÝCH SYSTÉMŮ. Ing. Lukáš OTTE, Ph.D.

Přednáška ze zahajovacího bloku konference

PŘÍPADOVÁ STUDIE. ČEVAK Inovativní web vodárenské společnosti

InternetovéTechnologie

O porovnání. Autoři. Vznik a interpretace porovnání

X. mezinárodní konference o katastru nemovitostí, Karlovy Vary hotel Thermal

Aktuality z elektronické identifikace. Jaromír Talíř

Windows Server 2003 Active Directory

O porovnání. Autoři. Vznik a interpretace porovnání

Přednáška. Správa paměti II. Katedra počítačových systémů FIT, České vysoké učení technické v Praze Jan Trdlička, 2012

Psychometrie on-line

Informace o možnosti vstupu do GNSS Centre of Excellence

Web 2.0 vs. sémantický web

B Organizace databáze na fyzické úrovni u serveru Oracle

International Scientific Practical Conference «Information Innovative Technologies» Drazí kolegové!

Výuka IVT na 1. stupni

Prezentace ČESKÁ CHEMIE.CZ

PROVÁZÁNÍ ECM/DMS DO INFORMAČNÍCH SYSTÉMŮ STÁTNÍ A VEŘEJNÉ SPRÁVY

Zpřístupnění kulturního dědictví v digitální podobě v ČR prostřednictvím knihoven

Analýza specifik využívání elektronických interaktivních učebních materiálů ve všeobecném chemickém vzdělávání

STÁTNÍ POKLADNA. Integrovaný informační systém Státní pokladny (IISSP)

Inventarizace opuštěných úložných míst těžebních odpadů v ČR. Vít Štrupl

JAK A PROČ PREZENTOVAT EDUKAČNÍ PROGRAMY MUZEÍ A GALERIÍ ŠKOLÁM PROSTŘEDNICTVÍM MUZEOEDU

WTFbots. prezentace strategie. Nikola Beneš Tomáš Kyjovský Jan Vykopal

6 Objektově-orientovaný vývoj programového vybavení

WinCC/Event Notifier. WinCC V7.0 SP3 Option WinCC/Event Notifier. Informační stupně. Výrobní ředitel. Vedoucí závodu.

Odhalování a vyšetřování kybernetické kriminality

Zásady realizace participativního rozpočtu pro rok 2016

Systémy digitálního vodotisku. Digital Watermarking Systems

Výzva k podání nabídky a zadávací dokumentace

Transkript:

Centralizované a decentralizované hodnocení kvality webových zdrojů Martin Řimnáč, Roman Špánek Ústav informatiky AV ČR, v.v.i. Datakon 15.-19.10. 2011, Mikulov

1 Motivace Běžné přístupy Anotace na webu 2 3 4

Motivace Běžné přístupy Anotace na webu poskytuje zdroj relevantní data, kterým mohu věřit? hodnocení- přirozené subjektivní chování člověka člověk: důvěra v okolí člověka, doménoví proradci,... data(web): přímé nebo nepřímé míry centralizované nebo decentralizovaná správa

Běžné přístupy na webu Běžné přístupy Anotace na webu nepřímé míry návštěvnost stránky proklik na stránku Page Rank(Google) nic neříkají o presentovaných datech centralizovaná správa vlastní správa nad proindexovanou doménou dokumentů modifikace algoritmů pro vyčíslení měr

Běžné přístupy na webu Běžné přístupy Anotace na webu nepřímé míry návštěvnost stránky proklik na stránku Page Rank(Google) nic neříkají o presentovaných datech centralizovaná správa vlastní správa nad proindexovanou doménou dokumentů modifikace algoritmů pro vyčíslení měr Strojová nezpracovatelnost dat prezentovaných na webu vynucuje použití nepřímých měr.

Anotovaná data na webu Běžné přístupy Anotace na webu anotace dat- moderní rozšíření webových stránek (mikroformáty) RDFa,HTML5,... umožňuje hodnit data webových stránek přímo při použití obecných identifikátorů- lze data agregovat přes zdroje autonomie zdrojů, avšak jejich spolupráce(včetně verifikace) správa 1 centralizovaná- index nad doménou dokumentů, typicky vyžadující kopii(části) dat 2 decentralizovaná- každý zdroj udržuje metadata o svém okolí

Návrh měr pro hodnocení Vstup:extrahovanéRDFtrojice (s,p,o)odzdrojeavčaset s,p R,o R L,R..resource, L..literal ParametryhodnotícídvěmnožinyT 1,T 2 : statické α..sdílení:průniktrojicmezit 1aT 2 δ..nekonzistence s 1 =s 2 p 1 =p 2 o 1 o 2 o 1,o 2 Lpřineexistenciprvkuvdruhémnožině dynamické-časovéokno (t τ,τ > β..potvrzení-průniktrojict 1,kterébylyvT 2dříve t 1 >t 2 :1potvrzujenovádataz2-zdrojrychlejireagujícínazměny γ..validace-průniktrojict 1,kterébylyvT 2později t 1 <t 2 :schopnostpotvrzovat(ověřovat)datarychlejšíchzdrojů

Návrh měr pro hodnocení Vstup:extrahovanéRDFtrojice (s,p,o)odzdrojeavčaset s,p R,o R L,R..resource, L..literal ParametryhodnotícídvěmnožinyT 1,T 2 : statické α..sdílení:průniktrojicmezit 1aT 2 δ..nekonzistence s 1 =s 2 p 1 =p 2 o 1 o 2 o 1,o 2 Lpřineexistenciprvkuvdruhémnožině dynamické-časovéokno (t τ,τ > β..potvrzení-průniktrojict 1,kterébylyvT 2dříve t 1 >t 2 :1potvrzujenovádataz2-zdrojrychlejireagujícínazměny γ..validace-průniktrojict 1,kterébylyvT 2později t 1 <t 2 :schopnostpotvrzovat(ověřovat)datarychlejšíchzdrojů Přístup: centralizovaný: T 1..trojicehodnocenéhozdroje,T 2..trojicevšechzdrojů decentralizovaný: T 1..trojicehodnocenéhozdroje,T 2..trojicehodnotícíhozdroje

- Online výsledky tenisových zápasů Vstup: 5 zdrojů Výstup: 1 centralizovaný přístup 2 decentralizovaný přístup 3 agregace decentralizovaného přístupu

- sdílení α Sdílení Počet trojic

- potvrzování β- validace γ Potvrzování Validace

- reputace Potvrzování ρ = α 1+β 2 1+γ 2

- reputace Potvrzování ρ = α 1+β 2 1+γ 2 Útok 1 zdroj vytvoří kopii sama sebe 2 získá zdroj, který potvrdí jeho data 3 zvýšení parametru sdílení, potvrzení

u centralizované správy- každý zdroj optimalizuje k vyšší ρ výběr trojic, aktualizace pouze části dat podvodné jednání decentralizovaná správa zdroj nebude poškozovat sám sebe možnost detekce transitivních vazeb Proč spolupracovat s pomalejším zdrojem kopírujícím cizí data? důraz na autonomii zdroje

- sdílení α livescore.com yahoo.com

- potvrzování β livescore.com yahoo.com

Decentralizovanáspráva-tokdat β γ livescore.com yahoo.com

snaha z decentralizováno přístupu získat centralizovaný v praxi komplikována nutností zdrojů veřejně ohodnotit své okolí

Agregace- sdílení α Motivace agregace centralizovaná správa

Agregace- reputace ρ Motivace agregace centralizovaná správa

Motivace 1 ideální pro uživatele bez preference zdroje náchylnost k útokům, přeoptimalizovanosti 2 ideální pro zdroje, úzká kooperace ideální pro uživatele preferující konkrétní zdroj není důvod útočit 3 dává pouze přibližné výsledky