Předzpracování dat Pavel Kordík Department of Computer Systems Faculty of Information Technology Czech Technical University in Prague Cvičení 1: Visualizace MI-PDD, 09/2011 MI-POA Evropský sociální fond Praha & EU: Investujeme do vaší budoucnosti Pavel Kordík(ČVUT FIT) Předzpracování dat MI-PDD, 2012, Cvičení 1 1/21
Data Ze stránek cvičení stáhni soubor iris.arff Stáhni Rapid-minera nainstaluj do svého adresáře Prohlédni si obsah souboru iris.arff @RELATION iris @ATTRIBUTE sepallength REAL @ATTRIBUTE sepalwidth REAL @ATTRIBUTE petallength REAL @ATTRIBUTE petalwidth REAL @ATTRIBUTE class {Iris-setosa,Iris-versicolor,Iris-virginica} @DATA 5.1,3.5,1.4,0.2,Iris-setosa 4.9,3.0,1.4,0.2,Iris-setosa Pavel Kordík(ČVUT FIT) Předzpracování dat MI-PDD, 2012, Cvičení 1 2/21
Načti data do Rapid-mineru I Pavel Kordík(ČVUT FIT) Předzpracování dat MI-PDD, 2012, Cvičení 1 3/21
Načti data do Rapid-mineru II Zadej cestu k souboru iris.arff Učení s učitelem: výstup Výstupní atribut je class Pavel Kordík(ČVUT FIT) Předzpracování dat MI-PDD, 2012, Cvičení 1 4/21
Načti data do Rapid-mineru III Spusť proces (nahrání souboru) Přepni na Data View Vstupy, třídy, vektory Pavel Kordík(ČVUT FIT) Předzpracování dat MI-PDD, 2012, Cvičení 1 5/21
Iris data Petal Sepal Iris virginica Iris versicolor Kytka č.131 Iris setosa Pavel Kordík(ČVUT FIT) Předzpracování dat MI-PDD, 2012, Cvičení 1 6/21
Vizualizace data v Rapid-Mineru Přepni do Plot View, vyber typ grafu Pavel Kordík(ČVUT FIT) Předzpracování dat MI-PDD, 2012, Cvičení 1 7/21
Dimenzionalita dat V minulém grafu jsme vybrali petalwidth, petallength a sepalwidth jako souřadnice 3D grafu, třídu zakódovali barvou Co ale se vstupem sepallength? Za jakých předpokladů ho můžeme ignorovat? 4D graf? Co když bude ještě více vstupů? Jak zobrazit mnohadimenzionální data? Pavel Kordík(ČVUT FIT) Předzpracování dat MI-PDD, 2012, Cvičení 1 8/21
Paralelní souřadnice Sepal Length 5.1 sepal sepal petal petal length width length width 5.1 3.5 1.4 0.2 Pavel Kordík(ČVUT FIT) Předzpracování dat MI-PDD, 2012, Cvičení 1 9/21
Paralelní souřadnice: 2D Sepal Length Sepal Width 3.5 5.1 sepal sepal petal petal length width length width 5.1 3.5 1.4 0.2 Pavel Kordík(ČVUT FIT) Předzpracování dat MI-PDD, 2012, Cvičení 1 10/21
Parallelní souřadnice: 4D Sepal Length Sepal Width Petal length Petal Width 3.5 5.1 1.4 0.2 sepal sepal petal petal length width length width 5.1 3.5 1.4 0.2 Pavel Kordík(ČVUT FIT) Předzpracování dat MI-PDD, 2012, Cvičení 1 11/21
Paralelní souřadnice Iris data Lze barvit nejen třídy, ale i vybrané skupiny (ne v tomto software) Pavel Kordík(ČVUT FIT) Předzpracování dat MI-PDD, 2012, Cvičení 1 12/21
RadViz plot (Starplot) Jiné řešení souřadnice do hvězdy, počítáme pozici dat Pavel Kordík(ČVUT FIT) Předzpracování dat MI-PDD, 2012, Cvičení 1 13/21
Matice 2D řezů nd prostorem (Scatterplot matrix) Pavel Kordík(ČVUT FIT) Předzpracování dat MI-PDD, 2012, Cvičení 1 14/21
Statistiky na Iris datech Histogram (četnosti výskytu hodnot) Pavel Kordík(ČVUT FIT) Předzpracování dat MI-PDD, 2012, Cvičení 1 15/21
Krabicový graf (Box plot) Medián, rozptyl, ustřelené hodnoty, B D F D M F H B H Pavel Kordík(ČVUT FIT) Předzpracování dat MI-PDD, 2012, Cvičení 1 16/21
Korelace Zpět do režimu I návrhu experimentu Pavel Kordík(ČVUT FIT) Předzpracování dat MI-PDD, 2012, Cvičení 1 17/21
Korelace II Stisknutím RUN se na nahraná data aplikuje operátor počítající korelaci Výsledná matice korelace atributů Co to znamená? Pavel Kordík(ČVUT FIT) Předzpracování dat MI-PDD, 2012, Cvičení 1 18/21
Výsledky analýzy Iris dat Co jsme se dozvěděli o Iris datech? Třída Setoza je jednoduše rozpoznatelná Versicolor a Virginica se částečně překrývají, kytky na hranici jsou obtížně klasifikovatelné Petallength a petalwidth jsou pro rozlišení tříd dalece významnější než sepal atributy Poznáme třídu Setoza jen pomocí sepallength? Pavel Kordík(ČVUT FIT) Předzpracování dat MI-PDD, 2012, Cvičení 1 19/21
Samostatná práce Ze stránek cvičení stáhni soubor ecoli_dataset.zip Načti data do software Rapid-miner(například pomocí operátoru ExampleSource wizard) Použij techniky vizualizace dat a statistiky Poznamenej si výsledky Jaké (nové, netriviální) znalosti se podařilo o datech získat? Pavel Kordík(ČVUT FIT) Předzpracování dat MI-PDD, 2012, Cvičení 1 20/21
Ecoli data scatterplot matrix Co tohle znamená? Pavel Kordík(ČVUT FIT) Předzpracování dat MI-PDD, 2012, Cvičení 1 21/21