Exploratorní analýza (EDA) 1
Exploratorní analýza Popisuje hlavní charakteristiky dat, často pomocí vizualizačních metod. John Tukey: Exploratory data analysis (1977). Je třeba pochopit data: najít chyby v datech identifikovat odlehlá pozorování najít vzory v datech najít porušení statistických předpokladů, testování hypotéz a především proto, že pokud to neuděláme, budeme mít velké problémy později. 2
Exploratorní analýza = explorační, průzkumová analýza dat jednorozměrná x mnohorozměrná numerická x grafická spojité x kategoriální proměnné 3
Exploratorní analýza - jednorozměrná míry polohy míry rozptýlení (variability) charakteristiky tvaru a symetrie boxploty odhad rozdělení ověření normality (příp. shody s jiným rozdělením) odhalení odlehlých pozorování 4
EDA míry polohy aritmetický (výběrový) průměr medián modus kvantily více definic 1. (dolní) kvartil: Q1 = x 0.25 3. (horní) kvartil: Q3 = x 0.75 Robustní odhady: useknutý průměr, windsorizovaný průměr, L-odhady, R-odhady 5
EDA různé definice kvantilů 6
EDA míry variability rozptyl směrodatná odchylka variační koeficient rozpětí R = max - min mezikvartilové rozpětí IQR = Q3 Q1 Robustní odhady: Median absolute deviation (MAD) 7
EDA charakteristiky tvaru Šikmost (skewness) - měří zešikmení rozdělení (symetrické 0, pravý chvost > 0, levý chvost < 0) Špičatost (kurtosis) měří špičatost rozdělení (koncentrace kolem středu a na chvostech > 0, ploché rozdělení < 0). 8
EDA šikmost 9
EDA špičatost 10
EDA boxplot Pohodlný způsob, jak graficky znázornit 5 čísel Vždy 1. a 3. kvartil a medián, více voleb pro whiskers: - minimum a maximum - 1,5 násobek IQR - směrodatná odchylka - 9. a 91. percentil - 2. a 98. percentil Odhalení odlehlých pozorování 11
EDA histogram Grafické znázornění distribuce dat. Odhad hustoty spojité náhodné veličiny. Volba šířky intervalu h, resp. jejich počtu M? Sturgesovo pravidlo: Volba počátku? Zobecněním jsou jádrové odhady. 12
EDA ověření shody teoretického a empirického rozdělení Probability plots: P-P plot, Q-Q plot. Q-Q plot porovnává empirické a teoretické kvantily daného rozdělení. normal probability plot. P-P plot porovnává empirické a teoretické distribuční funkce. 13
normal probability plot, normal Q-Q plot 14
Exploratorní analýza - mnohorozměrná míry polohy a variability, tvaru a symetrie odhalení závislostí scatterploty grafické znázornění PCA, FA, MDS boxploty odhad rozdělení odhalení odlehlých pozorování 15
EDA korelační matice, korelogram 16
EDA Korelační diagram (scatterplot) 17
EDA Scatterplot matrix 18
EDA Scatterplot matrix 19
EDA zobrazení mnohorozměrných dat Metody redukce dimenze lze využít i k zobrazení mnohorozměrných dat. Přibližné zobrazení dat pomocí biplotů. Na rozdíl od scatterplotu, který popisuje závislost dvou proměnných, se do výsledného grafu promítají všechny závislosti. 20
EDA Chernoff-Flury Faces Chernoff and Flury (1973) zobrazení mnohorozměrných dat v rovině pomocí obličejů. Hodnoty každé proměnné transformovány do (0,1). Každé proměnné přiřadit jednu charakteristiku: barva vlasů, velikost očí, nosu, uší, symetrie, výraz, atd. Každé pozorování znázornit pomocí obličeje. Podobné obličeje odpovídají podobným pozorováním. Pochybné obličeje odpovídají odlehlým pozorováním. 21
Chernoff-Flury Faces - příklad Švýcarské bankovky 100 pravých a 100 falešných 22
Chernoff-Flury Faces - příklad 23
EDA mnohorozměrné boxploty 24
EDA bagplot Dvourozměrný boxplot. Peter Rousseuw (1999). Založen na konceptu Tukeyho poloprostorové hloubky. 3 komponenty: - bag (obsahuje 50 procent pozorování) - fence (odděluje inliers od outliers) - loop (oblast mezi bag a fence) 25
EDA bagplot 26
EDA mnohorozměrný histogram 27
EDA jádrové odhady 28
EDA kategoriální veličiny předchozí metody vhodné pro spojité veličiny některé jsou vhodné i pro kategoriální data, jiné nikoliv jednorozměrná analýza: tabulka četností, relativních četností, kumulativních četností 29
Míry heterogenity pro kategoriální veličiny Analogie rozptylu pro nominální data. Nulová heterogenita: p i = 1 pro nějaké i. Maximální heterogenita: p i = 1/k pro všechna i. Indexy heterogenity: Giniho index: Entropie: 30
EDA mnohorozměrné kategoriální veličiny Míra závislosti pro ordinální data. Umíme je porovnávat => můžeme určit jejich pořadí. Určíme korelační koeficient těchto pořadí. Spearmanův korelační koeficient. Kendallovo tau. Analýza kontingenčních tabulek. 31
Vizualizace dat 32
Vizualizace historie William Playfair, 1786: první publikovaná prezentační grafika Florence Nightingale, 1858: důvody úmrtí v průběhu Krymské války (1853-1856) Dr. John Snow, 1845: epidemie cholery v Londýně Harry Beck, 1931: schéma Londýnského metra 33
Vizualizace investigativní analýza http://www.i2inc.com/ Law Enforcement Government Commercial» Counterterrorism» Narcotics investigations» Organized crime» Intelligence analysis» Fraud» Missing persons» Major investigations» Counterfeiting» Immigration control» Major event security» Money laundering» Gang investigations» Criminal prosecutions» National security» Military intelligence» Embassy security» Postal inspection and fraud» Prison investigations» Park and wildlife services» Antitrust investigations» Tax fraud investigations» Customs investigations» Forensic accounting» Money laundering» Insider trading violations» Corporate security» Anti-pirating investigations» Entertainment copyright violations» Competitive intelligence» Civil lawsuits» Fraud:» Credit card» Insurance» Retail» Health care» Commercial» Telephone 34
Vizualizace investigativní analýza Osobní kontakty, pojistné podvody Praní špinavých peněz, kriminální gangy 35
Vizualizace risk management 36
Vizualizace ekonomie 37
Meteo-vizualizace 38
Kartogram Obce s počtem 500 a více obyvatel s vysokorychlostním připojením k internetu, podle okresů (%), k 31.12.2006 39
Kartodiagram 40
Grafy další typy 41
Měřítko grafu Která přímka roste strměji? 42
Měřítko grafu Pohled tvůrce grafu: Zvýraznění trendu pozitivní výsledky. Potlačení trendu negativní výsledky. Pohled uživatele grafu: Grafy bez uvedeného měřítka jsou silně podezřelé. Nepodléhat podsouvané informaci o růstu/poklesu. 43
Odstrašující příklady vizualizace Zdroj: http://www.datavis.ca/gallery/ 44
Odstrašující příklady vizualizace Zdroj: http://www.datavis.ca/gallery/ 45
Odstrašující příklady vizualizace 46
Odstrašující příklady vizualizace 47
Odstrašující příklady vizualizace 48
Oprávněné použití koláčového grafu 49
Vizualizace literatura a odkazy Na prvním místě se obvykle citují knihy prof. Tufteho, např. Tufte E.R. (1983) The Visual Display of Quantitative Information, Graphic Press, Chesire, Conn. Weby o vizualizaci, např. http://www.datavis.ca/gallery/ - galerie s poučným výkladem a příklady i nezdařených či lživých grafů http://www.agocg.ac.uk/ - John Lansdown (1992) Aspects of Design in Computer Graphics: Some Notes http://www.agocg.ac.uk/train/hitch/hitch.htm Jiné weby, např. stránky různých vizualizačních programů a organizací http://www.cybergeography.org/atlas/atlas.html nebo http://miner3d.com/products/gallery.html 50