Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2011, Cvičení 13 1/10 Vytěžování znalostí z dat Pavel Kordík, Jan Motl Department of Computer Systems Faculty of Information Technology Czech Technical University in Prague Cvičení 13: Asociační pravidla, zadání úlohy BI-VZD, 09/2011 MI-POA Evropský sociální fond Praha & EU: Investujeme do vaší budoucnosti
Analýza vztahů v datech Výsledkem jsou pravidla Přesná Častá Asociační pravidla Prozkoumejte nástroj Lisp Miner Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2011, Cvičení 13 2/10
Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2011, Cvičení 13 3/10 Úloha Zpracujte data z přiložených souborů Vytěžte pravidla Udělejte report, který přinesete na zkoušku
Popis dat Archiv obsahuje následující data: clicks.csv LocalID-interní identifikátor události PageID-identifikátor zobrazené stránky VisitID-identifikátor session PageName-relativní urinavštívené stránky CatName, CatID- typ stránky(navigace), obecnější granularita ExtCat,ExtCatID- typ stránky (Obsah), konkrétnější granularita TopicName, TopicID-téma stránky (VHT = vysokohorská turistika) TimeOnPage-čas na stránce v sekundách. Na poslední stránce v session se předpokládá 30s. Údaj je zaokrouhlen na půlminutové bloky. PageScore-váha stránky odvozená od času na stránce o a pořadí stránky v clickstreamut podle heuristiky (ln(o)+1)*t SequenceNumber- pořadí stránky v clickstreamu Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2011, Cvičení 13 4/10
Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2011, Cvičení 13 5/10 visitors.csv VisitID-identifikátor session Referrer-anonymizované označení odkazující domény Den -den započetí návštěvy Hodina -hodina započetí návštěvy Delka_sekundy-délka návštěvy v sekundách (součet hodnot TimeOnPagev řádcích se stejným VistiIDv clicks.csv) Delka_pocetstranek-počet navštívených stránek během návštěvy (počet řádků se stejným VistiIDv clicks.csv)
Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2011, Cvičení 13 6/10 search_engine_map.csv Referrer-anonymizované označení odkazující domény Typ_Odkazovace-typ odkazující domény
Předzpracování dat Navrhněte vhodnou reprezentaci dat pro následné dolování asociačních pravidel a shlukovou analýzu (clustering). Vytvořte dva soubory, kde každý řádek bude reprezentovat jedno sezení (session) a sloupce budou obsahovat data vhodná pro daný typ úlohy. V případě váhové funkce zvolte mezi binární, agregovaným časem, nebo agregovaným PageScore. Odstraňte příliš krátké návštěvy (Delka_pocetstranek 2). Navrhněte a použijte další metody na pročištění dat. Identifikujte měkké konverze: zobrazení stránky se slevami (n_sleva.asp) a s informacemi o přihlášení (jak_se_prihlasit.htm), pojištění (n_pojistenick.asp) a informacemi o CK (n_kdojsme.asp). Identifikujte tvrdé konverze: zobrazení stránky n_prihlaska.asp, n_katalog.asp (předpokládejte, že stránka se zobrazuje po úspěšně odeslané přihlášce / žádosti o katalog). Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2011, Cvičení 13 7/10
Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2011, Cvičení 13 8/10 Dolování dat Pokuste se v datech nalézt zajímavá asociační pravidla, která se vztahují ke konverzi (konsekvent). Pokuste se v datech nalézt shluky návštěvníků s podobným profilem (shlukujte především podle atributu TopicName).
Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2011, Cvičení 13 9/10 Hint K předzpracování dat můžete použít nástroj Pentaho PDI (dříve Kettle) Konkrétně nástroj Spoon K dolování dat můžete použít Lisp Miner
Výstupy Na zkoušku přineste Report obsahující: Výsledný výstup dolování asociačních pravidel Výsledný výstup shlukové analýzy Zhodnocení výsledků Interpretaci nejzajímavějších vydolovaných asociačních pravidel Popis jednotlivých nalezených shluků Zároveň report nahrajte do svého projektového adresáře na EDUXu Přiložte soubor s předzpracovanými daty pro dolování asociačních pravidel Přiložte soubor s předzpracovanými daty pro shlukovou analýzu Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2011, Cvičení 13 10/10