Exploratorní analýza (EDA)

Podobné dokumenty
Statistika. Diskrétní data. Spojitá data. Charakteristiky polohy. Charakteristiky variability

Matematika III. 27. listopadu Vysoká škola báňská - Technická univerzita Ostrava. Matematika III

Statistika, Biostatistika pro kombinované studium Letní semestr 2011/2012. Tutoriál č. 4: Exploratorní analýza. Jan Kracík

Metodologie pro ISK II

PRŮZKUMOVÁ ANALÝZA JEDNOROZMĚRNÝCH DAT Exploratory Data Analysis (EDA)


Číselné charakteristiky

veličin, deskriptivní statistika Ing. Michael Rost, Ph.D.

UNIVERZITA OBRANY Fakulta ekonomiky a managementu. Aplikace STAT1. Výsledek řešení projektu PRO HORR2011 a PRO GRAM

Zápočtová práce STATISTIKA I

Statistika pro geografy

Popisná statistika. úvod rozdělení hodnot míry centrální tendence míry variability míry šikmosti a špičatosti grafy

Náhodná proměnná. Náhodná proměnná může mít rozdělení diskrétní (x 1. , x 2. ; x 2. spojité (<x 1

Nejčastější chyby v explorační analýze

Průzkumová analýza dat

Základy popisné statistiky. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Mnohorozměrná statistická data

Mnohorozměrná statistická data

Obsah. Statistika Zpracování informací ze statistického šetření Charakteristiky úrovně, variability a koncentrace kvantitativního znaku

Zpracování náhodného výběru. Ing. Michal Dorda, Ph.D.

Analýza dat na PC I.

Praktická statistika. Petr Ponížil Eva Kutálková

Statistické metody. Martin Schindler KAP, tel , budova G. naposledy upraveno: 9.

UNIVERZITA PARDUBICE Fakulta chemicko-technologická Katedra analytické chemie Nám. Čs. Legií 565, Pardubice

Popisná statistika. Statistika pro sociology

Zpracování náhodného výběru. Ing. Michal Dorda, Ph.D.

Charakteristika datového souboru

Statistika. cílem je zjednodušit nějaká data tak, abychom se v nich lépe vyznali důsledkem je ztráta informací!

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Popisná statistika. úvod rozdělení hodnot míry centrální tendence míry variability míry šikmosti a špičatosti grafy

Statistická analýza jednorozměrných dat

Popisná statistika. Jaroslav MAREK. Univerzita Palackého

Základy pravděpodobnosti a statistiky. Popisná statistika

VŠB Technická univerzita Ostrava Fakulta elektrotechniky a informatiky SMAD

Statistika s Excelem aneb Máme data. A co dál? Martina Litschmannová Katedra aplikované matematiky, FEI, VŠB-TU Ostrava

Univerzita Pardubice Fakulta chemicko-technologická Katedra analytické chemie STATISTICKÉ ZPRACOVÁNÍ EXPERIMENTÁLNÍCH DAT

VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ. FAKULTA STROJNÍHO INŽENÝRSTVÍ Ústav materiálového inženýrství - odbor slévárenství

TEST Z TEORIE EXPLORAČNÍ ANALÝZA DAT

Úloha E301 Čistota vody v řece testem BSK 5 ( Statistická analýza jednorozměrných dat )

Stručný úvod do vybraných zredukovaných základů statistické analýzy dat

UNIVERZITA PARDUBICE CHEMICKO-TECHNOLOGICKÁ FAKULTA KATEDRA ANALYTICKÉ CHEMIE

Kvantily a písmenové hodnoty E E E E-02

Předpoklad o normalitě rozdělení je zamítnut, protože hodnota testovacího kritéria χ exp je vyšší než tabulkový 2

Grafický a číselný popis rozložení dat 3.1 Způsoby zobrazení dat Metody zobrazení kvalitativních a ordinálních dat Metody zobrazení kvan

Třídění statistických dat

Aplikovaná statistika v R

Informační technologie a statistika 1

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz

Statistika jako obor. Statistika. Popisná statistika. Matematická statistika TEORIE K MV2

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Úvodem Dříve les než stromy 3 Operace s maticemi

POPISNÁ STATISTIKA Komentované řešení pomocí programu Statistica

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Zaokrouhlování: Směrodatná odchylka se zaokrouhluje nahoru na stanovený počet platných cifer. Míry

TECHNICKÁ UNIVERZITA V LIBERCI SEMESTRÁLNÍ PRÁCE

Kontingenční tabulky v Excelu. Představení programu Statistica

VŠB Technická univerzita Ostrava Fakulta elektrotechniky a informatiky

LEKCE 02a UNIVARIAČNÍ ANALÝZA KATEGORIZOVANÝCH DAT

ANALÝZA DAT V R 3. POPISNÉ STATISTIKY, NÁHODNÁ VELIČINA. Mgr. Markéta Pavlíková Katedra pravděpodobnosti a matematické statistiky MFF UK

přesné jako tabulky, ale rychle a lépe mohou poskytnou názornou představu o důležitých tendencích a souvislostech.

Základní analýza dat. Úvod

, Brno Hanuš Vavrčík Základy statistiky ve vědě

5 Vícerozměrná data - kontingenční tabulky, testy nezávislosti, regresní analýza

Statistická analýza. jednorozměrných dat

Matematika III. 29. října Vysoká škola báňská - Technická univerzita Ostrava. Matematika III

VŠB Technická univerzita Ostrava BIOSTATISTIKA

Úloha č. 2 - Kvantil a typická hodnota. (bodově tříděná data): (intervalově tříděná data): Zadání úlohy: Zadání úlohy:

2. Základní typy dat Spojitá a kategoriální data Základní popisné statistiky Frekvenční tabulky Grafický popis dat

TECHNICKÁ UNIVERZITA V LIBERCI EKONOMICKÁ FAKULTA

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Porovnání dvou výběrů

Náhodná veličina a rozdělení pravděpodobnosti

Číselné charakteristiky a jejich výpočet

S E M E S T R Á L N Í

UNIVERZITA PARDUBICE

STATISTIKA A INFORMATIKA - bc studium OZW, 1.roč. (zkušební otázky)

Jevy a náhodná veličina

Statistická analýza jednorozměrných dat

Pracovní adresář. Nápověda. Instalování a načtení nového balíčku. Importování datového souboru. Práce s datovým souborem

S E M E S T R Á L N Í

Popisná statistika. Komentované řešení pomocí MS Excel

ZÁKLADNÍ STATISTICKÉ CHARAKTERISTIKY

Základy popisné statistiky

Jak nelhat se statistikou? Martina Litschmannová Katedra aplikované matematiky, FEI, VŠB-TU Ostrava

JAK MODELOVAT VÝSLEDKY NÁH. POKUSŮ? Martina Litschmannová

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Charakterizace rozdělení

Tabulka 1. Výběr z datové tabulky

Metodologie pro Informační studia a knihovnictví 2

Pokročilé metody geostatistiky v R-projektu

STATISTIKA. Inovace předmětu. Obsah. 1. Inovace předmětu STATISTIKA Sylabus pro předmět STATISTIKA Pomůcky... 7

Tématické okruhy pro státní závěrečné zkoušky. bakalářské studium. studijní obor "Management jakosti"

Návrhy dalších možností statistického zpracování aktualizovaných dat

Tématické okruhy pro státní závěrečné zkoušky. bakalářské studium. studijní obor "Management jakosti"

MATEMATICKÁ STATISTIKA. Katedra matematiky a didaktiky matematiky Technická univerzita v Liberci

mezi studenty. Dále bychom rádi posoudili, zda dobrý výsledek v prvním testu bývá doprovázen dobrým výsledkem i v druhém testu.

Základy popisné statistiky

Transkript:

Exploratorní analýza (EDA) 1

Exploratorní analýza Popisuje hlavní charakteristiky dat, často pomocí vizualizačních metod. John Tukey: Exploratory data analysis (1977). Je třeba pochopit data: najít chyby v datech identifikovat odlehlá pozorování najít vzory v datech najít porušení statistických předpokladů, testování hypotéz a především proto, že pokud to neuděláme, budeme mít velké problémy později. 2

Exploratorní analýza = explorační, průzkumová analýza dat jednorozměrná x mnohorozměrná numerická x grafická spojité x kategoriální proměnné 3

Exploratorní analýza - jednorozměrná míry polohy míry rozptýlení (variability) charakteristiky tvaru a symetrie boxploty odhad rozdělení ověření normality (příp. shody s jiným rozdělením) odhalení odlehlých pozorování 4

EDA míry polohy aritmetický (výběrový) průměr medián modus kvantily více definic 1. (dolní) kvartil: Q1 = x 0.25 3. (horní) kvartil: Q3 = x 0.75 Robustní odhady: useknutý průměr, windsorizovaný průměr, L-odhady, R-odhady 5

EDA různé definice kvantilů 6

EDA míry variability rozptyl směrodatná odchylka variační koeficient rozpětí R = max - min mezikvartilové rozpětí IQR = Q3 Q1 Robustní odhady: Median absolute deviation (MAD) 7

EDA charakteristiky tvaru Šikmost (skewness) - měří zešikmení rozdělení (symetrické 0, pravý chvost > 0, levý chvost < 0) Špičatost (kurtosis) měří špičatost rozdělení (koncentrace kolem středu a na chvostech > 0, ploché rozdělení < 0). 8

EDA šikmost 9

EDA špičatost 10

EDA boxplot Pohodlný způsob, jak graficky znázornit 5 čísel Vždy 1. a 3. kvartil a medián, více voleb pro whiskers: - minimum a maximum - 1,5 násobek IQR - směrodatná odchylka - 9. a 91. percentil - 2. a 98. percentil Odhalení odlehlých pozorování 11

EDA histogram Grafické znázornění distribuce dat. Odhad hustoty spojité náhodné veličiny. Volba šířky intervalu h, resp. jejich počtu M? Sturgesovo pravidlo: Volba počátku? Zobecněním jsou jádrové odhady. 12

EDA ověření shody teoretického a empirického rozdělení Probability plots: P-P plot, Q-Q plot. Q-Q plot porovnává empirické a teoretické kvantily daného rozdělení. normal probability plot. P-P plot porovnává empirické a teoretické distribuční funkce. 13

normal probability plot, normal Q-Q plot 14

Exploratorní analýza - mnohorozměrná míry polohy a variability, tvaru a symetrie odhalení závislostí scatterploty grafické znázornění PCA, FA, MDS boxploty odhad rozdělení odhalení odlehlých pozorování 15

EDA korelační matice, korelogram 16

EDA Korelační diagram (scatterplot) 17

EDA Scatterplot matrix 18

EDA Scatterplot matrix 19

EDA zobrazení mnohorozměrných dat Metody redukce dimenze lze využít i k zobrazení mnohorozměrných dat. Přibližné zobrazení dat pomocí biplotů. Na rozdíl od scatterplotu, který popisuje závislost dvou proměnných, se do výsledného grafu promítají všechny závislosti. 20

EDA Chernoff-Flury Faces Chernoff and Flury (1973) zobrazení mnohorozměrných dat v rovině pomocí obličejů. Hodnoty každé proměnné transformovány do (0,1). Každé proměnné přiřadit jednu charakteristiku: barva vlasů, velikost očí, nosu, uší, symetrie, výraz, atd. Každé pozorování znázornit pomocí obličeje. Podobné obličeje odpovídají podobným pozorováním. Pochybné obličeje odpovídají odlehlým pozorováním. 21

Chernoff-Flury Faces - příklad Švýcarské bankovky 100 pravých a 100 falešných 22

Chernoff-Flury Faces - příklad 23

EDA mnohorozměrné boxploty 24

EDA bagplot Dvourozměrný boxplot. Peter Rousseuw (1999). Založen na konceptu Tukeyho poloprostorové hloubky. 3 komponenty: - bag (obsahuje 50 procent pozorování) - fence (odděluje inliers od outliers) - loop (oblast mezi bag a fence) 25

EDA bagplot 26

EDA mnohorozměrný histogram 27

EDA jádrové odhady 28

EDA kategoriální veličiny předchozí metody vhodné pro spojité veličiny některé jsou vhodné i pro kategoriální data, jiné nikoliv jednorozměrná analýza: tabulka četností, relativních četností, kumulativních četností 29

Míry heterogenity pro kategoriální veličiny Analogie rozptylu pro nominální data. Nulová heterogenita: p i = 1 pro nějaké i. Maximální heterogenita: p i = 1/k pro všechna i. Indexy heterogenity: Giniho index: Entropie: 30

EDA mnohorozměrné kategoriální veličiny Míra závislosti pro ordinální data. Umíme je porovnávat => můžeme určit jejich pořadí. Určíme korelační koeficient těchto pořadí. Spearmanův korelační koeficient. Kendallovo tau. Analýza kontingenčních tabulek. 31

Vizualizace dat 32

Vizualizace historie William Playfair, 1786: první publikovaná prezentační grafika Florence Nightingale, 1858: důvody úmrtí v průběhu Krymské války (1853-1856) Dr. John Snow, 1845: epidemie cholery v Londýně Harry Beck, 1931: schéma Londýnského metra 33

Vizualizace investigativní analýza http://www.i2inc.com/ Law Enforcement Government Commercial» Counterterrorism» Narcotics investigations» Organized crime» Intelligence analysis» Fraud» Missing persons» Major investigations» Counterfeiting» Immigration control» Major event security» Money laundering» Gang investigations» Criminal prosecutions» National security» Military intelligence» Embassy security» Postal inspection and fraud» Prison investigations» Park and wildlife services» Antitrust investigations» Tax fraud investigations» Customs investigations» Forensic accounting» Money laundering» Insider trading violations» Corporate security» Anti-pirating investigations» Entertainment copyright violations» Competitive intelligence» Civil lawsuits» Fraud:» Credit card» Insurance» Retail» Health care» Commercial» Telephone 34

Vizualizace investigativní analýza Osobní kontakty, pojistné podvody Praní špinavých peněz, kriminální gangy 35

Vizualizace risk management 36

Vizualizace ekonomie 37

Meteo-vizualizace 38

Kartogram Obce s počtem 500 a více obyvatel s vysokorychlostním připojením k internetu, podle okresů (%), k 31.12.2006 39

Kartodiagram 40

Grafy další typy 41

Měřítko grafu Která přímka roste strměji? 42

Měřítko grafu Pohled tvůrce grafu: Zvýraznění trendu pozitivní výsledky. Potlačení trendu negativní výsledky. Pohled uživatele grafu: Grafy bez uvedeného měřítka jsou silně podezřelé. Nepodléhat podsouvané informaci o růstu/poklesu. 43

Odstrašující příklady vizualizace Zdroj: http://www.datavis.ca/gallery/ 44

Odstrašující příklady vizualizace Zdroj: http://www.datavis.ca/gallery/ 45

Odstrašující příklady vizualizace 46

Odstrašující příklady vizualizace 47

Odstrašující příklady vizualizace 48

Oprávněné použití koláčového grafu 49

Vizualizace literatura a odkazy Na prvním místě se obvykle citují knihy prof. Tufteho, např. Tufte E.R. (1983) The Visual Display of Quantitative Information, Graphic Press, Chesire, Conn. Weby o vizualizaci, např. http://www.datavis.ca/gallery/ - galerie s poučným výkladem a příklady i nezdařených či lživých grafů http://www.agocg.ac.uk/ - John Lansdown (1992) Aspects of Design in Computer Graphics: Some Notes http://www.agocg.ac.uk/train/hitch/hitch.htm Jiné weby, např. stránky různých vizualizačních programů a organizací http://www.cybergeography.org/atlas/atlas.html nebo http://miner3d.com/products/gallery.html 50