Vytěžování znalostí z dat

Podobné dokumenty
Vytěžování znalostí z dat

Vytěžování znalostí z dat

Vytěžování znalostí z dat

Vytěžování znalostí z dat

Vytěžování znalostí z dat

Předzpracování dat. Pavel Kordík. Department of Computer Systems Faculty of Information Technology Czech Technical University in Prague

Vytěžování znalostí z dat

Vytěžování znalostí z dat

Předzpracování dat. Pavel Kordík. Department of Computer Systems Faculty of Information Technology Czech Technical University in Prague

Vytěžování znalostí z dat

Vytěžování znalostí z dat

Vytěžování znalostí z dat

Vytěžování znalostí z dat

Dolování asociačních pravidel

Vytěžování znalostí z dat

Cvičení 1,2 Osnova studie strategie ICT

Zadání semestrální práce IKTZ 2 letní semestr 2009/2010

Soubory. Hung Hoang Dieu. Department of Mathematics Faculty of Nuclear Sciences and Physical Engineering Czech Technical University in Prague 1 / 7

Analytické procedury v systému LISp-Miner

Self Organizing Map. Michael Anděl. Praha & EU: Investujeme do vaší budoucnosti. 1 / 10 Slef Organizing Map

Návod na obsluhu softwaru Amobile Sale objednávkový a prodejní software pro PDA a tablety s OS Android.

Normal mission real time system

Vytěžování znalostí z dat

Předzpracování dat. Pavel Kordík. Department of Computer Systems Faculty of Information Technology Czech Technical University in Prague

Zveme Vás na přednášku na téma: Termín a místo konání: Zveme Vás na přednášku na téma: Termín a místo konání: Zveme Vás na přednášku na téma:

Na zde uvedené zboží, zakoupené na adrese Vám nabízíme individuální slevy.

Správa barev pro digitální fotografii

Fakulta chemicko-technologická Faculty of Chemical Technology

Využití Oborové brány TECH

Základy vytěžování dat

Pokyny pro řešení příkladů z předmětu Mechanika v dopravě pro obor. Pozemní doprava AR 2006/2007

Další příklady. Katedra softwarového inženýrství. Katedra teoretické informatiky, Fakulta informačních technologii, ČVUT v Praze. Karel Müller, 2011

Testování a spolehlivost. 4. Laboratoř Spolehlivostní modely 1

Modul Ankety verze 1.11 pro redakční systém Marwel 2.8 a 2.7

Téma 3: Správa uživatelského přístupu a zabezpečení I. Téma 3: Správa uživatelského přístupu a zabezpečení I

Téma 5-řešení s obrázky

Microsoft PowerPoint 2007

Datové struktury. Zuzana Majdišová

Textmining a Redukce dimenzionality

Office Arena 2017 Krajské kolo

Datové struktury 2: Rozptylovací tabulky

DOBÝVÁNÍ ZNALOSTÍ Z DATABÁZÍ

Téma 4 - řešení s obrázky

Téma 3 - řešení s obrázky

Cvičení č. 3. Sdílené prostředky a synchronizace Program Banka. 4 body

Distribuované systémy a výpočty

Zadání soutěžních úloh

VPass Client Uživatelská příručka

Martin Flusser. Faculty of Nuclear Sciences and Physical Engineering Czech Technical University in Prague. October 23, 2016

Motivace - inovace - zkušenost a vzdělávání

3. úloha - problém batohu metodami branch & bound, dynamické programování, heuristika s testem

Mission ctitical real time system

ČVUT FEL X36PAA - Problémy a algoritmy. 4. úloha - Experimentální hodnocení algoritmů pro řešení problému batohu

Informatika a výpočetní technika 1. Ing. Ladislav Nagy Technická univerzita v Liberci FT / KOD / 2011

Gymnázium Vysoké Mýto nám. Vaňorného 163, Vysoké Mýto

ZÁKLADNÍ INFORMACE O STUDIU na vysoké škole CEVRO Institut

Vytěžování znalostí z dat

Segmentace bankovních zákazníků algoritmem k- means

PaintManager pro Selemix Spectro Module. Školení

Urbano 8.1 pr ehled novinek

Paralelní a distribuované výpočty (B4B36PDV)

RELATIONAL DATA ANALYSIS

Pravidla používání webového rezervačního systému bezpečnostních školení Letiště Praha, a. s. - jednotlivec

Použitý operační systém. Použitý textový procesor

Tvorba aplikací v Oracle Application Express

Evidence přítomnosti dětí a pečovatelek. Uživatelský manuál

Střední odborná škola stavební Karlovy Vary Sabinovo náměstí 16, Karlovy Vary Autor: Ing. Hana Šmídová Název materiálu:

Př ihlaš ova ní do IS etešty př eš JIP

Vědecký tutoriál, část I. A Tutorial. Vilém Vychodil (Univerzita Palackého v Olomouci)

Předzpracování dat. Cvičení 2: Import a příprava dat v Matlabu MI-PDD, 09/2011. Pavel Kordík MI-POA

Pokyny pro řešení příkladů z předmětu Mechanika v dopravě pro obor. Dopravní prostředky. ak. rok. 2006/07

Návod k používání eshopu Iveco

Základy programování (IZP)

LOGICKÉ OBVODY X36LOB

Dolování z textu. Martin Vítek

ORGANIZAČNÍ ŘÁD ČVUT FD

DOCHÁZKA. Webový prohlížeč docházky. Osoby

Objektové modelování BI-OMO 6. cvičení

INFORMATIKA vyšší úroveň obtížnosti

Klasifikace webových stránek na základě vizuální podoby a odkazů mezi dokumenty

Úvod do dobývání. znalostí z databází

ORGANIZAČNÍ ŘÁD ČVUT FD

Základní popis Toolboxu MPSV nástroje

téma: Parametrické a křížové dotazy v MS Access

Návrh Designu: Radek Mařík

KIV/ZIS - cvičení. je dobré chodit na cvičení, lépe se pak vypracovávají semestrálky. první 2 týdny podle kapacity 1/37

Cvičná bakalářská zkouška, 1. varianta

2. cvičení z ZI1 - Excel

Národní šetření výsledků žáků v počátečním vzdělávání

CERTIFIKOVANÉ TESTOVÁNÍ (CT) Výběrové šetření výsledků žáků 2014

Objektové modelování BI-OMO 4. cvičení

Martin Flusser. Faculty of Nuclear Sciences and Physical Engineering Czech Technical University in Prague. November 16, 2017

Martin Flusser. Faculty of Nuclear Sciences and Physical Engineering Czech Technical University in Prague. October 17, 2016

Teorie informace a kódování (KMI/TIK) Reed-Mullerovy kódy

ANALÝZA NÁKUPNÍHO KOŠÍKU SEMINÁŘ

Získávání dat z databází 1 DMINA 2010

Návod pro vložení nabídky účastníkem do eaukční síně v prostředí eaukčního sw PROebiz

Dobývání znalostí z textů text mining

a) b) c) Radek Mařík

Transkript:

Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2011, Cvičení 13 1/10 Vytěžování znalostí z dat Pavel Kordík, Jan Motl Department of Computer Systems Faculty of Information Technology Czech Technical University in Prague Cvičení 13: Asociační pravidla, zadání úlohy BI-VZD, 09/2011 MI-POA Evropský sociální fond Praha & EU: Investujeme do vaší budoucnosti

Analýza vztahů v datech Výsledkem jsou pravidla Přesná Častá Asociační pravidla Prozkoumejte nástroj Lisp Miner Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2011, Cvičení 13 2/10

Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2011, Cvičení 13 3/10 Úloha Zpracujte data z přiložených souborů Vytěžte pravidla Udělejte report, který přinesete na zkoušku

Popis dat Archiv obsahuje následující data: clicks.csv LocalID-interní identifikátor události PageID-identifikátor zobrazené stránky VisitID-identifikátor session PageName-relativní urinavštívené stránky CatName, CatID- typ stránky(navigace), obecnější granularita ExtCat,ExtCatID- typ stránky (Obsah), konkrétnější granularita TopicName, TopicID-téma stránky (VHT = vysokohorská turistika) TimeOnPage-čas na stránce v sekundách. Na poslední stránce v session se předpokládá 30s. Údaj je zaokrouhlen na půlminutové bloky. PageScore-váha stránky odvozená od času na stránce o a pořadí stránky v clickstreamut podle heuristiky (ln(o)+1)*t SequenceNumber- pořadí stránky v clickstreamu Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2011, Cvičení 13 4/10

Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2011, Cvičení 13 5/10 visitors.csv VisitID-identifikátor session Referrer-anonymizované označení odkazující domény Den -den započetí návštěvy Hodina -hodina započetí návštěvy Delka_sekundy-délka návštěvy v sekundách (součet hodnot TimeOnPagev řádcích se stejným VistiIDv clicks.csv) Delka_pocetstranek-počet navštívených stránek během návštěvy (počet řádků se stejným VistiIDv clicks.csv)

Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2011, Cvičení 13 6/10 search_engine_map.csv Referrer-anonymizované označení odkazující domény Typ_Odkazovace-typ odkazující domény

Předzpracování dat Navrhněte vhodnou reprezentaci dat pro následné dolování asociačních pravidel a shlukovou analýzu (clustering). Vytvořte dva soubory, kde každý řádek bude reprezentovat jedno sezení (session) a sloupce budou obsahovat data vhodná pro daný typ úlohy. V případě váhové funkce zvolte mezi binární, agregovaným časem, nebo agregovaným PageScore. Odstraňte příliš krátké návštěvy (Delka_pocetstranek 2). Navrhněte a použijte další metody na pročištění dat. Identifikujte měkké konverze: zobrazení stránky se slevami (n_sleva.asp) a s informacemi o přihlášení (jak_se_prihlasit.htm), pojištění (n_pojistenick.asp) a informacemi o CK (n_kdojsme.asp). Identifikujte tvrdé konverze: zobrazení stránky n_prihlaska.asp, n_katalog.asp (předpokládejte, že stránka se zobrazuje po úspěšně odeslané přihlášce / žádosti o katalog). Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2011, Cvičení 13 7/10

Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2011, Cvičení 13 8/10 Dolování dat Pokuste se v datech nalézt zajímavá asociační pravidla, která se vztahují ke konverzi (konsekvent). Pokuste se v datech nalézt shluky návštěvníků s podobným profilem (shlukujte především podle atributu TopicName).

Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2011, Cvičení 13 9/10 Hint K předzpracování dat můžete použít nástroj Pentaho PDI (dříve Kettle) Konkrétně nástroj Spoon K dolování dat můžete použít Lisp Miner

Výstupy Na zkoušku přineste Report obsahující: Výsledný výstup dolování asociačních pravidel Výsledný výstup shlukové analýzy Zhodnocení výsledků Interpretaci nejzajímavějších vydolovaných asociačních pravidel Popis jednotlivých nalezených shluků Zároveň report nahrajte do svého projektového adresáře na EDUXu Přiložte soubor s předzpracovanými daty pro dolování asociačních pravidel Přiložte soubor s předzpracovanými daty pro shlukovou analýzu Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2011, Cvičení 13 10/10