Václav Nádraský 3/2010

Podobné dokumenty
Řešení problému vážené splnitelnosti booleovské formule pokročilou iterativní metodou

Modely vyhledávání informací 4 podle technologie. 1) Booleovský model. George Boole Aplikace booleovské logiky

Experimentální systém pro WEB IR

Datové struktury 2: Rozptylovací tabulky

InternetovéTechnologie

Paměti cache. Cache může být realizována softwarově nebo hardwarově.

Best-Effort Top-k Query Processing Under Budgetary Constraints. Jakub Čermák

InternetovéTechnologie

Profilování vzorků heroinu s využitím vícerozměrné statistické analýzy

InternetovéTechnologie

Relační DB struktury sloužící k optimalizaci dotazů - indexy, clustery, indexem organizované tabulky

ČVUT FEL X36PAA - Problémy a algoritmy. 4. úloha - Experimentální hodnocení algoritmů pro řešení problému batohu

Reranking založený na metadatech

You created this PDF from an application that is not licensed to print to novapdf printer (

Uživatelské preference v prostředí webových obchodů. Ladislav Peška, MFF UK

Seznámení se se zvolenou pokročilou iterativní metodou na problému batohu

Pravděpodobnost a statistika

SOLVER UŽIVATELSKÁ PŘÍRUČKA. Kamil Šamaj, František Vižďa Univerzita obrany, Brno, 2008 Výzkumný záměr MO0 FVT

Vektorové podprostory, lineární nezávislost, báze, dimenze a souřadnice

Vyhledávání podle klíčových slov v relačních databázích. Dotazovací jazyky I ZS 2010/11 Karel Poledna

Úvod do zpracování signálů

Sítě SFN Systém pro analýzu a vizualizaci pokrytí a rušení vysílacích sítí

11. Tabu prohledávání

ALG 14. Vícedimenzionální data. Řazení vícedimenzionálních dat. Experimentální porovnání řadících algoritmů na vícedimenzionálních datech

Zadání a řešení testu z matematiky a zpráva o výsledcích přijímacího řízení do magisterského navazujícího studia od jara 2016

Časová a prostorová složitost algoritmů

Efektivní hledání nejkratších cest v sítích hromadné přepravy osob

Náhodné signály. Honza Černocký, ÚPGM

REÁLNÁ FUNKCE JEDNÉ PROMĚNNÉ

jednoduchá heuristika asymetrické okolí stavový prostor, kde nelze zabloudit připustit zhoršují cí tahy Pokročilé heuristiky

Seminář z umělé inteligence. Otakar Trunda

8.2 Používání a tvorba databází

Aplikace pro srovna ní cen povinne ho ruc ení

SEARCH ENGINE OPTIMIZATION

Hlavní rysy produktu MapInfo Professional

Používání sociálních médií v municipalitách České republiky. Ing. Libuše Svobodová, Ph.D. Ing. Jaroslava Dittrichová, Ph.D.

Vývoj moderních technologií při vyhledávání. Patrik Plachý SEFIRA spol. s.r.o.

Výukový materiál Hardware je zaměřený především na výuku principů práce hardwaru a dále uvádí konkrétní příklady použití.

PB161 Programování v jazyce C++ Přednáška 9

Zadání a řešení testu z matematiky a zpráva o výsledcích přijímacího řízení do magisterského navazujícího studia od podzimu 2015

Zadání a řešení testu z matematiky a zpráva o výsledcích přijímacího řízení do magisterského navazujícího studia od podzimu 2014

DIPLOMOVÁ PRÁCE OPTIMALIZACE MECHANICKÝCH

III/2 Inovace a zkvalitnění výuky prostřednictvím ICT

metoda Regula Falsi 23. října 2012

Ing. Igor Kopetschke TUL, NTI

GIS Geografické informační systémy

Spokojenost se životem

B) výchovné a vzdělávací strategie jsou totožné se strategiemi vyučovacího předmětu Matematika.

Matematická logika. Miroslav Kolařík

Rozšíření ksh vůči sh při práci s proměnnými

Funkce a základní pojmy popisující jejich chování

VYSOKONAPĚŤOVÉ ZKUŠEBNICTVÍ. #2 Nejistoty měření

Manuál k programu RIZIKA

Základní pojmy teorie množin Vektorové prostory

Přednáška 13 Redukce dimenzionality

Nástroje pro správu bibliografických citací

Úvod do teorie informace

Základní informace: vysoce komfortnímu prostředí je možné se systémem CP Recorder efektivně pracovat prakticky okamžitě po krátké zaškolení.

Časová složitost / Time complexity

PRINCIPY ZABEZPEČENÍ KVALITY


Healtcheck. databáze ORCL běžící na serveru db.tomas-solar.com pro

Algoritmy I, složitost

JOHNSON CONTROLS PARTS CENTER. Výhody originálních dílů Sabroe od Johnson Controls

Princip funkce počítače

Středoškolská technika SCI-Lab

Hodnocení životního prostředí. Přístupy, prostředky, postupy

Rosenblattův perceptron

Požadavky k písemné přijímací zkoušce z matematiky do navazujícího magisterského studia pro neučitelské obory

Binární vyhledávací stromy pokročilé partie

Plánování experimentu

VYSVĚTLENÍ / ZMĚNA ZADÁVACÍ DOKUMENTACE Č. 5

JOHNSON CONTROLS PARTS CENTER. Výhody originálních dílů Sabroe od Johnson Controls

Insolvenční řízení - očekávání, realita, budoucnost. Reorganizace vs. sanační konkurz"

Teorie informace a kódování (KMI/TIK) Reed-Mullerovy kódy

Nasazení EIS JASU CS v rezortu Ministerstva zdravotnictví ČR vč. všech podřízených OSS

Neuronové časové řady (ANN-TS)

Maturitní otázky z předmětu MATEMATIKA

Vyhledávání a georeferencování map

Text Mining: SAS Enterprise Miner versus Teragram. Petr Berka, Tomáš Kliegr VŠE Praha

Regulační diagramy (RD)

PRODUKTY. Tovek Tools

Správné vytvoření a otevření textového souboru pro čtení a zápis představuje

Komplexní čísla, Kombinatorika, pravděpodobnost a statistika, Posloupnosti a řady

Projekt č. TA

Quo vadis, vyhledávání (na webu)?

BALISTICKÝ MĚŘICÍ SYSTÉM

Algoritmizace prostorových úloh

Petr Křemen. Katedra kybernetiky, FEL ČVUT. Petr Křemen (Katedra kybernetiky, FEL ČVUT) Sémantické sítě a rámce 1 / 112

Primo Central. Martin Vojnar MULTIDATA Praha s.r.o.

DOCUMENT MANAGEMENT TOOLKIT

7. Geografické informační systémy.

12 - Frekvenční metody

REGRESNÍ ANALÝZA V PROSTŘEDÍ MATLAB

Informační a znalostní systémy jako podpora rozhodování

ALGORITMY A DATOVÉ STRUKTURY

Oborová brána TECH tech.jib.cz

Základy algoritmizace. Pattern matching

PHP framework Nette. Kapitola Úvod. 1.2 Architektura Nette

A. Poznámka k lineárním aproximacím kryptografické hašovací funkce BLUE MIDNIGHT WISH

Transkript:

Václav Nádraský 3/2010

1. Úvod 2. Model sociální sítě 3. Ohodnocovací model v sociálních sítí 4. Zpracování dotazu 5. Dosažené výsledky u implementací v reálných sítích 6. Závěrečné zhodnocení

Sociální sítě se staly velmi populárními Mnoho uživatelů, mnoho dat Nové způsoby propojení publikovaných informací Vztahy mezi uživateli Použití tagů (nebo jiné, uživatelsky specifické, formy definice skóre) Facebook, del.icio.us, Flickr, LibraryThing, MySpace, LinkedIn, YouTube

SS (sociální sítě) nabízí nové způsoby vyhledávání Výsledek dotazu závisí na iniciátorovi dotazu Více důvěřuji doporučení svých přátel Příbuznost tagů Wisdom of the crowd (Explicitní, Implicitní) Velké množství možností v dotazování Vyžaduje efektivní a škálovatelné metody Běžné způsoby dotazování Neefektivní (DataMining data rychle narůstají) Neberou v potaz vztahy mezi uživateli (Web search) Nový inkrementální top-k algoritmus (založený na threshold algoritmu) s dvourozměrnou expanzí Sociální expanze Sémantická expanze

Různé zaměření různých SS Všechny jsou ale založené na podobném principu Formálnější definice SS Uživatelé se musí registrovat Produkují obsahové informace = dokumenty Přidávají k dokumentům tagy, popř. hodnocení Uživatelé si definují svůj vlastní seznam přátel Velikost seznamu ~ reputace uživatele v dané síti

SS lze chápat jako graf

Friendship(User1, User2, FriendshipStrength) Určuje existenci uživatele 2 na seznamu přátel uživatele 1 Lze definovat i sílu vztahu Tranzitivní uzávěr TagSimilarity(Tag1, Tag2, TagSim) Různá slova, stejný význam Synonyma, hyponyma Linkage(Document1, Document2, Weight) Odkazy mezi dokumenty GPS souřadnice pro místo pořízení fotografie

DocContent(Document, Tag, ContentScore) Určuje přiřazení tagu k dokumentu Pomocí ContentScore lze určit i jak dobře tag dokument vystihuje Tagging(User, Tag, TagScore) Zdali uživatel použil (a jak intenzivně) daný tag Určuje témata, o které se uživatel zajímá Rating(User, Document, RatingScore) Typicky hodnocení dokumentu uživatelem V jistých případech lze chápat i jako autorství

Dotaz Q(u, q1 qn) u je iniciátor dotazu q1 qn je seznam hledaných tagů pro zjednodušení bez vah relevantní výsledek dotazu seřazen podle příslušného skóre výsledek závisí na iniciátorovi (oproti standardnímu IR dotazu) Ohodnocovací model je rozšířen o relativní důležitost uživatelů vůči iniciátorovi relativní důležitost použitého tagu vůči uživateli (volitelně) podobnost tagů

F u (u ) Funkce udávající důležitost uživatele relativně k iniciátorovi F u ( u) 0 uživatele nezajímají jeho dokumenty U F u u u ( ) 1 lze nahlédnout jako na pravděpodobnost Několik možných interpretací Syntaktický pohled velikost průniku společných tagů Sociální pohled vzdálenost v grafu mezi uživateli Globální pohled Globální důležitost uživatele (PageRank)

F u (u ) Kombinace syntaktického a sociálního pohledu Podobnost přímo spojených uživatelů Podobnost nepřímo spojených uživatelů Finální podobnost konstantní podobnost (závisí na α) je pro uživatele bez konexí

sf u ( d, t ) Nahrazuje klasickou frekvenci tf Odráží podobnost uživatelů, kteří použili tag na dokument, který může být předmětem zájmu iniciátora kolikrát uživatel použil tag t na dokumentu d pro dnešní sociální sítě je to typicky binární hodnota 1 (použil) nebo 0 (nepoužil) Po dosazení globální část (nezávisí na iniciátorovi)

s u ( d, t ) skóre dokumentu d vzhledem k tagu t ohodnocovací funkce (zjednodušená BM25) k 1 je definovatelný koeficient (tunable coefficient in BM25) idf(t) je inverzní frekvence tagu v dokumentech df(t) je počet dokumentů, které byly označeny tagem t na rozdíl od originální formule BM25 se nebereme v potaz délka dokumentů

s * u ( d, t) Uživatelé nepoužívají unifikované tagy Je třeba sjednocovat významově stejné tagy Ne vždy je to dobrá volba ověřeno experimentálně Zvolena opatrná expanze careful expansion expandují se jen ti nejlepší Podobnost tagů: Skóre dokumentu d vzhledem k tagu t (včetně expanze)

* s ( d, q,, q u 1 n ) Součet všech dílčích skóre pro všechny tagy v dotazu

Based on threshold algorithm over impactorder inverted lists Nelze však předpočítávat skóre pro každý tag nebo uživatele (skóre je závislé na iniciátorovi) Nová verze algoritmu ContextMerge Využívá indexy, které jsou již z principu dostupné Seznam dokumentů otagovaných konkrétním uživatelem Počet dokumentů, na které byl použit konkrétní tag Skóre počítá průběžně inkrementálně Pro dokumenty udržuje horní a dolní hranici skóre Lze tedy vykonávání ukončit dříve

Je využíváno několika indexů lze je předzpracovat v čase tvoření indexů DOCS(t) obsahuje seznam dokumentů pro daný tag spolu s globální frekvencí tagu TF(d,t) USERDOCS(u,t) obsahuje pro daného uživatele u a tag t množinu dokumentů spolu s tf u (d,t) FRIENDS(u) obsahuje seznam přátel uživatele u spolu s P u (u ) SIMTAGS(t) obsahuje seznam tagů podobných tagu t spolu s tsim(t,t )

Během zpracování se sekvenčně čtou indexy USERDOCS a DOCS V jedné iteraci hlavní smyčky se načte celkem batchsize nových dokumentů (prokládaně z indexů USERDOCS a DOCS), které mají nejlepší očekávané skóre (vyhodnocuje funkce ChooseNextList) udržuje se hodnota high[i] a highf[i] poslední přečtená hodnota z indexu DOCS a FRIENDS Během zpracování se udržuje seznam zatím nejlepších kandidátů na top-k Každý kandidát obsahuje následující informace: - hodnota přečtená z indexu DOCS (pro každý tag q) - množina indexů již přečtených DOCS - kolikrát byl d j v uživatelském seznamu pro q i - dolní hranice finálního skóre - horní hranice finálního skóre

Experimentální implementace nad reálnými sítěmi del.icio.us 12389 uživatelů, 175754 záložek 2781096 tagů, 152306 přátel Flickr 52347 uživatelů, 10000000 obrázků 29111183 tagů, 1293777 přátel (ve smyslu okomentování obrázků) LibraryThing 9986 uživatelů, 6453605 knížek 14295693 tagů, 17317 přátel

Co jsou relevantní výsledky? Velmi závislé na iniciátorovi Nelze jednoduše definovat 2 nezávislé metody vyhodnocení user-specific ground truth uživatelská studie

Dokumenty, které byly označeny všemi tagy v dotazu iniciátorem nebo jeho přímými přáteli Uživatel pravděpodobně tyto dokumenty viděl a souhlasil s použitými tagy Dotazy náhodně vybrány z dvojice tagů se střední hodnotou frekvence použití Iniciátor náhodně vybrán z uživatelů, kteří tyto tagy použili, a má alespoň jednoho přítele Nelze použít u Flickeru Téměř žádný průnik použitých tagů

5 reálných uživatelů na LibraryThing každý použil tag na alespoň 20 knížek každý navázal nějaká přátelství Uživatelé navrhli 28 dotazů vztahujících se k jejich knížkám Po vyhodnocení dotazů iniciátor manuálně doplnil výsledek dotazu o informaci vysoce relevantní, relevantní, úplně mimo (očima iniciátora)

Jako hodnocení pro určité hodnoty α spočítána Přesnost NDCG (Normalized Discounted Cumulative Gain) Uživatelská studie User-specific ground truth Sémantický pohled zdá se důležitější než sociální Pokud není zahrnuta sociální komponenta vůbec, efektivita výsledku naopak klesne

Jazyk Java DB server Oracle 10b Server Windows 4xOperton 16GB RAM Porovnáváno se základním algoritmem join-then-sort Horní graf bez expanze tagů Více než 50% úspora času Dolní graf včetně expanze tagů 3-5 násobná úspora času

Nové možnosti ohodnocování dokumentů relevantnější výsledky Upravený top-k algoritmus ContextMerge Velmi efektivní Menší počet přístupů na disk Několikanásobně rychlejší Světlá budoucnost Zdroj informací Efficient Top-k Querying over Social-Tagging Networks R. Schenkel, T. Crecelius, M. Kacimi, S. Michel, T. Neumann, J. X. Parreira, G. Weikum SIGIR 08, 07/2008, Singapore http://lsirpeople.epfl.ch/smichel/publications/sigir2008.pdf