Dobývání znalostí z webu web mining Web Mining is is the application of data mining techniques to discover patterns from the Web (Wikipedia) Tři oblasti: Web content mining (web jako kolekce dokumentů) analogie s text mining Web structure mining (web jako graf) Web usage mining (web jako dálnice na které probíhá provoz) P. Berka, 2011 1/13
Obsah webu (web content mining) Cílem získat znalosti na základě webovských stránek chápaných jako dokumenty (tedy jako text mining): vyhledávání a metavyhledávání (tj. hledání stránek relevantních k dotazu uživatele), kategorizace dokumentů (shlukování stránek podle obsahu) nebo filtrování (tj. rozpoznání stránek relevantních k uživatelově profilu), dobývání znalostí skrytých ve stránkách (extrakce informací nebo zodpovídání dotazů). 1. vyhledávání P. Berka, 2011 2/13
2. metavyhledávání simultánní přístup k více (klasickým) vyhledávacím strojům: přístup k vyhledávacím systémům neznámým pro uživatele jednotný interface následné zpracování nalezených odkazů All-in-one: seznam vyhledávačů P. Berka, 2011 3/13
MetaCrawler: použití více (všech známých) vyhledávačů SavvySearch: použití více (některých) vyhledávačů P. Berka, 2011 4/13
HuskySearch: shlukování nalezených dokumentů AskJeeves: báze přímých odpovědí P. Berka, 2011 5/13
3. extrakce informací named entity recognition comparison shopping - podpora nakupování na Internetu (hledání cenově nejvýhodnější nabídky v on-line katalozích) Netbot Jango P. Berka, 2011 6/13
Struktura webu (web structure mining) web jako graf, kde uzly jsou dokumenty (stránky) a hrany jsou vazby (odkazy) mezi stránkami. HITS (Kleinberg, 1998) hubs (rozcestníky) a authorities (autority) a(p) := q h(q) p h(p) := p a(q) rekurzivní algoritmus počítající obě hodnoty (pouze) pro stránky získané jako výsledek konkrétního vyhledávání (systém Clever). q Nalezením rozcestníků a autorit můžeme redukovat část webu pokrývající dané téma do podoby bipartitního grafu. P. Berka, 2011 7/13
PageRank (Brin, Page, 1998) webové stránky bodovány, hodnocení každé stránky je dáno hodnocením stránek, které na tuto stránku odkazují PR ( A) (1 d) d PR( Ti ) C( T ) i... PR( Tn ) C( T ) n kde: A je stránka, pro kterou se počítá PageRank T i jsou stránky odkazující na stránku A C(T i ) je počet odkazů na stránce T i d je tlumící faktor rekurzivní algoritmus počítající hodnotu pro všechny webové stránky (Google) Webové komunity P. Berka, 2011 8/13
Využívání webu (web usage mining) Web jako prostor, ve kterém uživatelé prohlížejí jednotlivé stránky 1. analýza web server logů (časová data, sekvence navštívených stránek) remotehost rfc931 Auth user [date] "request" status bytes bacuslab.pr.mcs.net - - [01/Jan/1997:12:57:45-0600] "GET /~bacuslab/ HTTP/1.0" 304 0 bacuslab.pr.mcs.net - - [01/Jan/1997:12:57:49-0600] "GET /~bacuslab/bulleta.gif HTTP/1.0" 304 0 bacuslab.pr.mcs.net - - [01/Jan/1997:12:57:50-0600] "GET /~bacuslab/email4.gif HTTP/1.0" 304 0 151.99.190.27 - - [01/Jan/1997:13:06:51-0600] "GET /~bacuslab HTTP/1.0" 301-4 151.99.190.27 - - [01/Jan/1997:13:06:52-0600] "GET /~bacuslab/ HTTP/1.0" 200 1779 151.99.190.27 - - [01/Jan/1997:13:06:54-0600] "GET /~bacuslab/bli_logo.jpg HTTP/1.0" 200 8210 151.99.190.27 - - [01/Jan/1997:13:06:54-0600] "GET /~bacuslab/bulleta.gif HTTP/1.0" 200 1151 151.99.190.27 - - [01/Jan/1997:13:06:54-0600] "GET /~bacuslab/email4.gif HTTP/1.0" 200 3218 Předzpracování nalezení clickstreamů, sekvencí stánek navštívených jedním uživatelem během jedné seance např. Discovery Challenge ECML/PKDD 2005 unix time ;IP address ; session ID ; page request; referee 1074589200;193.179.144.2 ;1993441e8a0a4d7a;/dp/?id=124 ;www.google.cz; 1074589201;194.213.35.234;3995b2c0599f1782;/dp/?id=182 ; 1074589202;194.138.39.56 ;2fd3213f2edaf82b;/ ;www.seznam.cz; 1074589233;193.179.144.2 ;1993441e8a0a4d7a;/dp/?id=148 ;/dp/?id=124; 1074589245;193.179.144.2 ;1993441e8a0a4d7a;/sb/ ;/dp/?id=148; 1074589248;194.138.39.56 ;2fd3213f2edaf82b;/contacts/ ; /; 1074589290;193.179.144.2 ;1993441e8a0a4d7a;/sb/ ;/sb/; clickstream pro typ stránky: dp,dp,dp,sb,sb clickstream pro produkt: 124,182,148 segmentace nabízených produktů P. Berka, 2011 9/13
asociace mezi navštívenými stránkami lidé používající fulltextové vyhledávání se méně dívají na detaily zboží P. Berka, 2011 10/13
predikce následující stránky - lze na základě pozorované sekvence A 1 A 2 A n-1 určit následující stránku A n? markovský model P( A A pravidla dp, sb -> sb (0.93) podobnost mezi sekvencemi n 1 2... An ) P( Ai Ai k 1... Ai 1) i 1 segmentace návštěvníků P. Berka, 2011 11/13
2. analýza nákupního košíku internetových obchodů 3. recommender systems systémy, které doporučují (co koupit, jaké stránky navštívit apod.) na základě chování podobné skupiny návštěvníků collaborative filtering amazon P. Berka, 2011 12/13
MovieLens last.fm P. Berka, 2011 13/13