Exploratorní analýza (EDA)

Save this PDF as:
 WORD  PNG  TXT  JPG

Rozměr: px
Začít zobrazení ze stránky:

Download "Exploratorní analýza (EDA)"

Transkript

1 Exploratorní analýza (EDA) 1

2 Exploratorní analýza Popisuje hlavní charakteristiky dat, často pomocí vizualizačních metod. John Tukey: Exploratory data analysis (1977). Je třeba pochopit data: najít chyby v datech identifikovat odlehlá pozorování najít vzory v datech najít porušení statistických předpokladů, testování hypotéz a především proto, že pokud to neuděláme, budeme mít velké problémy později. 2

3 Exploratorní analýza = explorační, průzkumová analýza dat jednorozměrná x mnohorozměrná numerická x grafická spojité x kategoriální proměnné 3

4 Exploratorní analýza - jednorozměrná míry polohy míry rozptýlení (variability) charakteristiky tvaru a symetrie boxploty odhad rozdělení ověření normality (příp. shody s jiným rozdělením) odhalení odlehlých pozorování 4

5 EDA míry polohy aritmetický (výběrový) průměr medián modus kvantily více definic 1. (dolní) kvartil: Q1 = x (horní) kvartil: Q3 = x 0.75 Robustní odhady: useknutý průměr, windsorizovaný průměr, L-odhady, R-odhady 5

6 EDA různé definice kvantilů 6

7 EDA míry variability rozptyl směrodatná odchylka variační koeficient rozpětí R = max - min mezikvartilové rozpětí IQR = Q3 Q1 Robustní odhady: Median absolute deviation (MAD) 7

8 EDA charakteristiky tvaru Šikmost (skewness) - měří zešikmení rozdělení (symetrické 0, pravý chvost > 0, levý chvost < 0) Špičatost (kurtosis) měří špičatost rozdělení (koncentrace kolem středu a na chvostech > 0, ploché rozdělení < 0). 8

9 EDA šikmost 9

10 EDA špičatost 10

11 EDA boxplot Pohodlný způsob, jak graficky znázornit 5 čísel Vždy 1. a 3. kvartil a medián, více voleb pro whiskers: - minimum a maximum - 1,5 násobek IQR - směrodatná odchylka - 9. a 91. percentil - 2. a 98. percentil Odhalení odlehlých pozorování 11

12 EDA histogram Grafické znázornění distribuce dat. Odhad hustoty spojité náhodné veličiny. Volba šířky intervalu h, resp. jejich počtu M? Sturgesovo pravidlo: Volba počátku? Zobecněním jsou jádrové odhady. 12

13 EDA ověření shody teoretického a empirického rozdělení Probability plots: P-P plot, Q-Q plot. Q-Q plot porovnává empirické a teoretické kvantily daného rozdělení. normal probability plot. P-P plot porovnává empirické a teoretické distribuční funkce. 13

14 normal probability plot, normal Q-Q plot 14

15 Exploratorní analýza - mnohorozměrná míry polohy a variability, tvaru a symetrie odhalení závislostí scatterploty grafické znázornění PCA, FA, MDS boxploty odhad rozdělení odhalení odlehlých pozorování 15

16 EDA korelační matice, korelogram 16

17 EDA Korelační diagram (scatterplot) 17

18 EDA Scatterplot matrix 18

19 EDA Scatterplot matrix 19

20 EDA zobrazení mnohorozměrných dat Metody redukce dimenze lze využít i k zobrazení mnohorozměrných dat. Přibližné zobrazení dat pomocí biplotů. Na rozdíl od scatterplotu, který popisuje závislost dvou proměnných, se do výsledného grafu promítají všechny závislosti. 20

21 EDA Chernoff-Flury Faces Chernoff and Flury (1973) zobrazení mnohorozměrných dat v rovině pomocí obličejů. Hodnoty každé proměnné transformovány do (0,1). Každé proměnné přiřadit jednu charakteristiku: barva vlasů, velikost očí, nosu, uší, symetrie, výraz, atd. Každé pozorování znázornit pomocí obličeje. Podobné obličeje odpovídají podobným pozorováním. Pochybné obličeje odpovídají odlehlým pozorováním. 21

22 Chernoff-Flury Faces - příklad Švýcarské bankovky 100 pravých a 100 falešných 22

23 Chernoff-Flury Faces - příklad 23

24 EDA mnohorozměrné boxploty 24

25 EDA bagplot Dvourozměrný boxplot. Peter Rousseuw (1999). Založen na konceptu Tukeyho poloprostorové hloubky. 3 komponenty: - bag (obsahuje 50 procent pozorování) - fence (odděluje inliers od outliers) - loop (oblast mezi bag a fence) 25

26 EDA bagplot 26

27 EDA mnohorozměrný histogram 27

28 EDA jádrové odhady 28

29 EDA kategoriální veličiny předchozí metody vhodné pro spojité veličiny některé jsou vhodné i pro kategoriální data, jiné nikoliv jednorozměrná analýza: tabulka četností, relativních četností, kumulativních četností 29

30 Míry heterogenity pro kategoriální veličiny Analogie rozptylu pro nominální data. Nulová heterogenita: p i = 1 pro nějaké i. Maximální heterogenita: p i = 1/k pro všechna i. Indexy heterogenity: Giniho index: Entropie: 30

31 EDA mnohorozměrné kategoriální veličiny Míra závislosti pro ordinální data. Umíme je porovnávat => můžeme určit jejich pořadí. Určíme korelační koeficient těchto pořadí. Spearmanův korelační koeficient. Kendallovo tau. Analýza kontingenčních tabulek. 31

32 Vizualizace dat 32

33 Vizualizace historie William Playfair, 1786: první publikovaná prezentační grafika Florence Nightingale, 1858: důvody úmrtí v průběhu Krymské války ( ) Dr. John Snow, 1845: epidemie cholery v Londýně Harry Beck, 1931: schéma Londýnského metra 33

34 Vizualizace investigativní analýza Law Enforcement Government Commercial» Counterterrorism» Narcotics investigations» Organized crime» Intelligence analysis» Fraud» Missing persons» Major investigations» Counterfeiting» Immigration control» Major event security» Money laundering» Gang investigations» Criminal prosecutions» National security» Military intelligence» Embassy security» Postal inspection and fraud» Prison investigations» Park and wildlife services» Antitrust investigations» Tax fraud investigations» Customs investigations» Forensic accounting» Money laundering» Insider trading violations» Corporate security» Anti-pirating investigations» Entertainment copyright violations» Competitive intelligence» Civil lawsuits» Fraud:» Credit card» Insurance» Retail» Health care» Commercial» Telephone 34

35 Vizualizace investigativní analýza Osobní kontakty, pojistné podvody Praní špinavých peněz, kriminální gangy 35

36 Vizualizace risk management 36

37 Vizualizace ekonomie 37

38 Meteo-vizualizace 38

39 Kartogram Obce s počtem 500 a více obyvatel s vysokorychlostním připojením k internetu, podle okresů (%), k

40 Kartodiagram 40

41 Grafy další typy 41

42 Měřítko grafu Která přímka roste strměji? 42

43 Měřítko grafu Pohled tvůrce grafu: Zvýraznění trendu pozitivní výsledky. Potlačení trendu negativní výsledky. Pohled uživatele grafu: Grafy bez uvedeného měřítka jsou silně podezřelé. Nepodléhat podsouvané informaci o růstu/poklesu. 43

44 Odstrašující příklady vizualizace Zdroj: 44

45 Odstrašující příklady vizualizace Zdroj: 45

46 Odstrašující příklady vizualizace 46

47 Odstrašující příklady vizualizace 47

48 Odstrašující příklady vizualizace 48

49 Oprávněné použití koláčového grafu 49

50 Vizualizace literatura a odkazy Na prvním místě se obvykle citují knihy prof. Tufteho, např. Tufte E.R. (1983) The Visual Display of Quantitative Information, Graphic Press, Chesire, Conn. Weby o vizualizaci, např. - galerie s poučným výkladem a příklady i nezdařených či lživých grafů - John Lansdown (1992) Aspects of Design in Computer Graphics: Some Notes Jiné weby, např. stránky různých vizualizačních programů a organizací nebo 50