POROZUMĚNÍ 4iz260 Úvod do DZD Úvod do dobývání DOMÉNOVÉ OBLASTI znalostí z databází VYUŽITÍ VÝSLEDKŮ POROZUMĚNÍ DATŮM DATA VYHODNO- CENÍ VÝSLEDKŮ MODELOVÁNÍ (ANALYTICKÉ PROCEDURY) PŘÍPRAVA DAT Ukázka slidů M. Šimůnek
Fáze DZD podle CRISP-DM POROZUMĚNÍ DOMÉNOVÉ OBLASTI VYUŽITÍ VÝSLEDKŮ POROZUMĚNÍ DATŮM DATA VYHODNO- CENÍ VÝSLEDKŮ PŘÍPRAVA DAT MODELOVÁNÍ (ANALYTICKÉ PROCEDURY) 4iz260 ukázka slidů 2
Hegelovská spirála 4iz260 POROZUMĚNÍ DOMÉNOVÉ OBLASTI VYUŽITÍ VÝSLEDKŮ POROZUMĚNÍ DATŮM DATA VYHODNO- CENÍ VÝSLEDKŮ PŘÍPRAVA DAT MODELOVÁNÍ (ANALYTICKÉ PROCEDURY) 4iz260 ukázka slidů 3
Pracnost a důležitost fází VYUŽITÍ VÝSLEDKŮ POROZUMĚNÍ DOMÉNOVÉ OBLASTI POROZUMĚNÍ DATŮM DISKUZE S MAJITELEM DAT CÍLE, SMYSL A CENA ANALÝZY, BUDOVÁNÍ DŮVĚRY (25 %) DATA VYHODNO- CENÍ VÝSLEDKŮ MODELOVÁNÍ (ANALYTICKÉ PROCEDURY) PŘÍPRAVA DAT DŮVĚRA VE VÝSLEDKY? PODSTOUPÍ RIZIKO UVEDENÍ DO PRAXE? (25 %) DATA PROBLÉMY SE ZÍSKÁNÍM DAT A JEJICH POPISU (5 %) CO VÝSLEDKY ZNAMENAJÍ? JAK POUŽÍT? (20 %) ČIŠTĚNÍ A PŘEDZPRA- COVÁNÍ DAT (20 %) 4iz260 ukázka slidů 4 MODE- LOVÁNÍ (5 %)
Princip GUHA procedury Analyzovaná data Jednoduchá definice potenciálně zajímavých vztahů Generování a verifikace jednotlivých vztahů Všechny prosté vztahy (pravdivé v datech a nevyplývající z jednodušších) 4iz260 ukázka slidů 5
Data Výuková data Hotel http://lispminer.vse.cz/files/data/hotelplusexterni.1000.txt Libovolným způsobem zjistěte nějakou základní charakteristiku dat nějakou vypočtenou charakteristiku něco zajímavého v datech Časový limit: 10 minut 4iz260 ukázka slidů 6
Základní obrazovka LM Workspace Titulek s názvem metabáze Číslo verze Záložky aktuálně otevřených oken Strom s názvy aktuálně otevřených záložek, členěný dle fází DZD Pracovní plocha s aktuálně vybraným oknem 4iz260 ukázka slidů 7
Údaje o sloupci 4iz260 ukázka slidů 8 Datový typ Statistické hodnoty min, max, průměr Graf hodnot pouze pro číselné hodnoty možné proložení trendu (polynom n-tého řádu) Výčet hodnot a jejich četnost zobrazení i jako graf možné proložení trendu (polynom n-tého řádu)
Scatter (XY) Plot Bodový graf hodnot ve dvou (numerických) sloupcích DB tabulky např. měsíc (osa X), teplota (osa Y) Možné omezit pouze na záznamy s danou kategorií vybraného předzpracovaného atributu DenTydne= Pátek 4iz260 ukázka slidů 9
Analýza hlavních komponent Technika redukce dimenzí mnoharozměrných (numerických) dat Principal Component Analysis (PCA) PCA se snaží nalézt takové zobrazení (natočení) mraku dat, aby byly nejlépe vidět odlišnosti a případné shluky při redukci na dvě hlavní komponenty možné zobrazit jako 2D graf 4iz260 ukázka slidů 10
Interpretace jedné varianty shlukování (PCA), shluky Zobrazení XY grafu s výsledky PCA viz Interactive analysis Výrazné odlišení třetího shluku Setosa (zeleně, úplně dole) První dva shluky mají k sobě relativně blízko 4iz260 ukázka slidů 11
Zobrazení hypotézy (stromu) Možnosti procházení jako u interaktivní analýzy Zobrazení detailu uzlu Další záložky text a data Převod stromu na rozhodovací pravidla 4iz260 ukázka slidů 12
Rozdělení věku v celých datech: CF Contingency analysis Rozdělení věku hostů s nástupem v pátek větší rozdíly v zastoupení jednotlivých věkových skupin výrazněji převažuje věková skupina 55 až 65 let 4iz260 ukázka slidů 13
KL Contingency analysis (2) Celková cena versus počet nocí na celých datech pouze pro Počet osob= 1 Přibližně funkční závislost 4iz260 ukázka slidů 14
Booleovské atributy Logický výraz můžeme rozhodnout o platnosti či neplatnosti v daných datech Základní booleovský atribut A(α), kde A je více-kategoriální atribut a α je libovolná neprázdná podmnožina jeho kategorií Město( Praha), Město( Praha, Brno), Národnost( CZ, SK) nabývá hodnoty TRUE (platí) pro daný řádek matice, když hodnota patří do jedné z uvedených kategorií Odvozený booleovský atribut odvozený ze základních booleovských atributů pomocí logických spojek (konjunkce), (disjunkce) a (negace) Měsíc( únor..květen) Národnost( CZ, SK ) [Věk( 20;50 ) Typ_Návštěvy( služební )] Den( Po, St) 4iz260 ukázka slidů 15
Koeficienty cyklická sekvence Jako sekvence, ale i přes konec Počet variant počet_kategorií Cyklické sekvence délky 1 Den(Po ) Den(Út ) Den(St ) Den(Čt ) Den(Pá ) Den(So ) Den(Ne ) Cyklické sekvence délky 2 Den(Po,Út ) Den(Út,St ) Den(St,Čt ) Den(Čt,Pá ) Den(Pá,So ) Den(So,Ne ) Den(Po,Ne ) Cyklické sekvence délky 3 Den(Po,Út,St ) Den(Út,St,Čt ) Den(St,Čt,Pá ) Den(Čt,Pá,So ) Den(Pá,So,Ne ) Den(Po,So,Ne ) Den(Po,Út,Ne ) 4iz260 ukázka slidů 16
Asociační pravidlo příklad (1) PočetNocí( 7) Měsíc( květen) 0.94, 47 Národnost( AT) Je-li délka pobytu týden (sedm dní) a zároveňjde o pobytu začínajícív květnupotomv 94 % případůje host rakouskénárodnosti. Pobytůsplňujících předpoklad i závěr je celkem 47. předpokladtyp vztahu sílavztahua zastoupenívztahu závěr Typ vztahu dán 4ft-kvantifikátorem kvantifikátor Fundovaná implikace (FUI) implikační kvantifikátor Síla a zastoupení vztahu vypočteno ze čtyřpolní tabulky 4iz260 ukázka slidů 17
Čtyřpolní tabulka četností (1) a: počet záznamů splňujících jak ϕ (antecedent), tak ψ (sukcedent) b: počet záznamů splňujících ϕ a nesplňujících ψ Μ PočetNocí( 7) Měsíc( květen) (PočetNocí( 7) Měsíc( květen)) Národnost( AT) 47 94 Národnost( AT) 3 854 c: počet záznamů nesplňujících ϕ a splňujících ψ d: počet záznamů nesplňujících ϕ ani ψ a/(a+b) = 47/(47+3) = 47/50 = 0,94 U fundované implikace na hodnotách c a d nezáleží! 4iz260 ukázka slidů 18
Interpretace výsledků Ukázka Věk( 25;35)) Typ( rekreace) Cena( <7500) 71,4 %, 25 Den( Ne,Po,Út) pro hosty mezi 25 a 35 lety na rekreaci v ceně do 7,5 tisíce platí, že přijedou v neděli, v pondělí nebo v úterý takových hostů je 25 z celkového počtu 35 z této podmnožiny. Takže platnost pravidla v analyzovaných datech je 71,4 %. Posteriorní pravděpodobnost (obecná platnost) se dá očekávat v rozmezí 70,3 % ± 22.2 p.b. (3 směrodatná odchylka 7,4 p.b.). Rozpětí je značné zejména kvůli nízkému počtu takových případů v analyzovaných datech Majiteli hotelu doporučujeme XXX a pro případ opakování této analýzy v budoucnu navrhujeme rozšířit velikost analyzovaných dat 4iz260 ukázka slidů 19