Předzpracování dat. Pavel Kordík. Department of Computer Systems Faculty of Information Technology Czech Technical University in Prague

Podobné dokumenty
Vytěžování znalostí z dat

Předzpracování dat. Pavel Kordík. Department of Computer Systems Faculty of Information Technology Czech Technical University in Prague

Vytěžování znalostí z dat

Vytěžování znalostí z dat

Vytěžování znalostí z dat

Vytěžování znalostí z dat

Získávání znalostí z dat

Vytěžování znalostí z dat

Vytěžování znalostí z dat

Vytěžování znalostí z dat

x T 1 matici & S 1 kovarianční matici &

Vytěžování znalostí z dat

Předzpracování dat. Lenka Vysloužilová

Vytěžování znalostí z dat

Přednáška 13 Redukce dimenzionality

Vytěžování znalostí z dat

Vyhodnocování biologických dat pomocí statistických metod Eva Gelnarová

UNIVERZITA PARDUBICE

Mnohorozměrná statistika

Vytěžování znalostí z dat

Úvod do RapidMineru. Praha & EU: Investujeme do vaší budoucnosti. 1 / 23 Úvod do RapidMineru

Pokročilé metody geostatistiky v R-projektu

Vybrané partie z biostatistiky

Ing. Petr Hájek, Ph.D. Podpora přednášky kurzu Aplikace umělé inteligence

Metoda Monte Carlo a její aplikace v problematice oceňování technologií. Manuál k programu

Vytěžování znalostí z dat

Normal mission real time system

Další příklady. Katedra softwarového inženýrství. Katedra teoretické informatiky, Fakulta informačních technologii, ČVUT v Praze. Karel Müller, 2011

Vizualizace jako nástroj studia chování modelů přírodních systémů

Předzpracování dat. Cvičení 2: Import a příprava dat v Matlabu MI-PDD, 09/2011. Pavel Kordík MI-POA

Diskriminační analýza DA

Pokročilé neparametrické metody. Klára Kubošová

Nejčastější chyby v explorační analýze

NEPARAMETRICKÉ TESTY

Tabulka 1. Výběr z datové tabulky

Mission ctitical real time system

NG C Implementace plně rekurentní

Předzpracování dat. Pavel Kordík. Department of Computer Systems Faculty of Information Technology Czech Technical University in Prague

Analytické procedury v systému LISp-Miner

Cvičení 1,2 Osnova studie strategie ICT

Self Organizing Map. Michael Anděl. Praha & EU: Investujeme do vaší budoucnosti. 1 / 10 Slef Organizing Map

Základní popisné statistiky a grafy

Minimální hodnota. Tabulka 11

Free and open source v geoinformatice. Příloha 3 - Praktické cvičení R Studio

Statistika, Biostatistika pro kombinované studium Letní semestr 2011/2012. Tutoriál č. 4: Exploratorní analýza. Jan Kracík

Vytěžování znalostí z dat

Fakulta chemicko-technologická Faculty of Chemical Technology


KORELACE. Komentované řešení pomocí programu Statistica

Aplikovaná statistika v R

Základní popisné statistiky a grafy

GEOGRAFICKÉ INFORMAČNÍ SYSTÉMY CVIČENÍ 9

Matematika pro geometrickou morfometrii

Statistika. cílem je zjednodušit nějaká data tak, abychom se v nich lépe vyznali důsledkem je ztráta informací!

Počítačová analýza vícerozměrných dat v oborech přírodních, technických a společenských věd

Pracovní text a úkoly ke cvičením MF002

Vytěžování znalostí z dat

PRÁCE SE STATISTICKÝM SOFTWARE STATISTICA

Martin Flusser. Faculty of Nuclear Sciences and Physical Engineering Czech Technical University in Prague. October 23, 2016

Základy pravděpodobnosti a statistiky. Popisná statistika

Vizualizace dat pro extrakci znalostí

Popisná statistika. Statistika pro sociology

mezi studenty. Dále bychom rádi posoudili, zda dobrý výsledek v prvním testu bývá doprovázen dobrým výsledkem i v druhém testu.

Asociační i jiná. Pravidla. (Ch )

- transpozice (odlišuje se od překlopení pro komplexní čísla) - překlopení matice pole podle hlavní diagonály, např.: A.' ans =

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz

SOFTWARE PRO ANALÝZU LABORATORNÍCH MĚŘENÍ Z FYZIKY

Ing. Jan Buriánek. Katedra softwarového inženýrství Fakulta informačních technologií České vysoké učení technické v Praze Jan Buriánek, 2010

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Statistika. Diskrétní data. Spojitá data. Charakteristiky polohy. Charakteristiky variability

Evaluation of the Inner Detector with Muon Tracks

Návrh a vyhodnocení experimentu

POPISNÁ STATISTIKA Komentované řešení pomocí programu Statistica

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

nastavení real-time PCR cykléru icycler iq5 Multi-Color Real-Time PCR Detection System

Miroslav Čepek

3.4 Určení vnitřní struktury analýzou vícerozměrných dat

Dobývání a vizualizace znalostí. Olga Štěpánková et al.

Histogram. 11. února Zadání

Statistika. Program R. popisná (deskriptivní) statistika popis konkrétních dat. induktivní (konfirmatorní) statistika. popisná statistika

Vícerozměrné statistické metody

BAKALÁŘSKÁ PRÁCE. Konvertor datových formátů ve FCA a veřejných repozitářích Jan Strnad

Chybějící atributy a postupy pro jejich náhradu

Návrh a vyhodnocení experimentu

Textové popisky. Typ dat

Algoritmy a struktury neuropočítačů ASN - P10. Aplikace UNS v biomedicíně

ANALÝZA DAT V R 3. POPISNÉ STATISTIKY, NÁHODNÁ VELIČINA. Mgr. Markéta Pavlíková Katedra pravděpodobnosti a matematické statistiky MFF UK

ČESKÉ VYSOKÉ UČENÍ TECHNICKÉ V PRAZE FAKULTA ELEKTROTECHNICKÁ. Deliverable A2 do předmětu A4B39TUR

UNIVERZITA PARDUBICE Fakulta elektrotechniky a informatiky Katedra softwarových technologií

Datové struktury. Zuzana Majdišová

Tématické okruhy pro státní závěrečné zkoušky. bakalářské studium. studijní obor "Management jakosti"

Tématické okruhy pro státní závěrečné zkoušky. bakalářské studium. studijní obor "Management jakosti"

Analýza dat pomocí systému Weka, Rapid miner a Enterprise miner

Dolování asociačních pravidel

PV021 Vícevrstvá neuronová síť pro rozeznávání mikroteček. Matúš Goljer, Maroš Kucbel, Michal Novotný, Karel Štěpka 2011

Použití technik UI v algoritmickém obchodování III

Martin Flusser. Faculty of Nuclear Sciences and Physical Engineering Czech Technical University in Prague. October 17, 2016

Uživatelská příručka. Software DataPlot nástroj pro vizualizaci csv dat

Přednáška 5. Výběrová šetření, Exploratorní analýza

Vědecký tutoriál, část I. A Tutorial. Vilém Vychodil (Univerzita Palackého v Olomouci)

Transkript:

Předzpracování dat Pavel Kordík Department of Computer Systems Faculty of Information Technology Czech Technical University in Prague Cvičení 1: Visualizace MI-PDD, 09/2011 MI-POA Evropský sociální fond Praha & EU: Investujeme do vaší budoucnosti Pavel Kordík(ČVUT FIT) Předzpracování dat MI-PDD, 2012, Cvičení 1 1/21

Data Ze stránek cvičení stáhni soubor iris.arff Stáhni Rapid-minera nainstaluj do svého adresáře Prohlédni si obsah souboru iris.arff @RELATION iris @ATTRIBUTE sepallength REAL @ATTRIBUTE sepalwidth REAL @ATTRIBUTE petallength REAL @ATTRIBUTE petalwidth REAL @ATTRIBUTE class {Iris-setosa,Iris-versicolor,Iris-virginica} @DATA 5.1,3.5,1.4,0.2,Iris-setosa 4.9,3.0,1.4,0.2,Iris-setosa Pavel Kordík(ČVUT FIT) Předzpracování dat MI-PDD, 2012, Cvičení 1 2/21

Načti data do Rapid-mineru I Pavel Kordík(ČVUT FIT) Předzpracování dat MI-PDD, 2012, Cvičení 1 3/21

Načti data do Rapid-mineru II Zadej cestu k souboru iris.arff Učení s učitelem: výstup Výstupní atribut je class Pavel Kordík(ČVUT FIT) Předzpracování dat MI-PDD, 2012, Cvičení 1 4/21

Načti data do Rapid-mineru III Spusť proces (nahrání souboru) Přepni na Data View Vstupy, třídy, vektory Pavel Kordík(ČVUT FIT) Předzpracování dat MI-PDD, 2012, Cvičení 1 5/21

Iris data Petal Sepal Iris virginica Iris versicolor Kytka č.131 Iris setosa Pavel Kordík(ČVUT FIT) Předzpracování dat MI-PDD, 2012, Cvičení 1 6/21

Vizualizace data v Rapid-Mineru Přepni do Plot View, vyber typ grafu Pavel Kordík(ČVUT FIT) Předzpracování dat MI-PDD, 2012, Cvičení 1 7/21

Dimenzionalita dat V minulém grafu jsme vybrali petalwidth, petallength a sepalwidth jako souřadnice 3D grafu, třídu zakódovali barvou Co ale se vstupem sepallength? Za jakých předpokladů ho můžeme ignorovat? 4D graf? Co když bude ještě více vstupů? Jak zobrazit mnohadimenzionální data? Pavel Kordík(ČVUT FIT) Předzpracování dat MI-PDD, 2012, Cvičení 1 8/21

Paralelní souřadnice Sepal Length 5.1 sepal sepal petal petal length width length width 5.1 3.5 1.4 0.2 Pavel Kordík(ČVUT FIT) Předzpracování dat MI-PDD, 2012, Cvičení 1 9/21

Paralelní souřadnice: 2D Sepal Length Sepal Width 3.5 5.1 sepal sepal petal petal length width length width 5.1 3.5 1.4 0.2 Pavel Kordík(ČVUT FIT) Předzpracování dat MI-PDD, 2012, Cvičení 1 10/21

Parallelní souřadnice: 4D Sepal Length Sepal Width Petal length Petal Width 3.5 5.1 1.4 0.2 sepal sepal petal petal length width length width 5.1 3.5 1.4 0.2 Pavel Kordík(ČVUT FIT) Předzpracování dat MI-PDD, 2012, Cvičení 1 11/21

Paralelní souřadnice Iris data Lze barvit nejen třídy, ale i vybrané skupiny (ne v tomto software) Pavel Kordík(ČVUT FIT) Předzpracování dat MI-PDD, 2012, Cvičení 1 12/21

RadViz plot (Starplot) Jiné řešení souřadnice do hvězdy, počítáme pozici dat Pavel Kordík(ČVUT FIT) Předzpracování dat MI-PDD, 2012, Cvičení 1 13/21

Matice 2D řezů nd prostorem (Scatterplot matrix) Pavel Kordík(ČVUT FIT) Předzpracování dat MI-PDD, 2012, Cvičení 1 14/21

Statistiky na Iris datech Histogram (četnosti výskytu hodnot) Pavel Kordík(ČVUT FIT) Předzpracování dat MI-PDD, 2012, Cvičení 1 15/21

Krabicový graf (Box plot) Medián, rozptyl, ustřelené hodnoty, B D F D M F H B H Pavel Kordík(ČVUT FIT) Předzpracování dat MI-PDD, 2012, Cvičení 1 16/21

Korelace Zpět do režimu I návrhu experimentu Pavel Kordík(ČVUT FIT) Předzpracování dat MI-PDD, 2012, Cvičení 1 17/21

Korelace II Stisknutím RUN se na nahraná data aplikuje operátor počítající korelaci Výsledná matice korelace atributů Co to znamená? Pavel Kordík(ČVUT FIT) Předzpracování dat MI-PDD, 2012, Cvičení 1 18/21

Výsledky analýzy Iris dat Co jsme se dozvěděli o Iris datech? Třída Setoza je jednoduše rozpoznatelná Versicolor a Virginica se částečně překrývají, kytky na hranici jsou obtížně klasifikovatelné Petallength a petalwidth jsou pro rozlišení tříd dalece významnější než sepal atributy Poznáme třídu Setoza jen pomocí sepallength? Pavel Kordík(ČVUT FIT) Předzpracování dat MI-PDD, 2012, Cvičení 1 19/21

Samostatná práce Ze stránek cvičení stáhni soubor ecoli_dataset.zip Načti data do software Rapid-miner(například pomocí operátoru ExampleSource wizard) Použij techniky vizualizace dat a statistiky Poznamenej si výsledky Jaké (nové, netriviální) znalosti se podařilo o datech získat? Pavel Kordík(ČVUT FIT) Předzpracování dat MI-PDD, 2012, Cvičení 1 20/21

Ecoli data scatterplot matrix Co tohle znamená? Pavel Kordík(ČVUT FIT) Předzpracování dat MI-PDD, 2012, Cvičení 1 21/21