Statistika, Biostatistika pro kombinované studium Letní semestr 2011/2012 Tutoriál č. 4: Exploratorní analýza Jan Kracík jan.kracik@vsb.cz
Statistika věda o získávání znalostí z empirických dat empirická data (získaná měřením, pozorováním) představují primární zdroj informace o zkoumaném jevu lze rozlišit statistiku matematickou a popisnou
Matematická statistika teoretická disciplína, opírá se o aparát teorie pravděpodobnosti (data jako realizace náhodných veličin) návrh metod pro získávání a analýzu dat odhady parametrů rozdělení testy hypotéz plánování experimentů predikce...
Popisná statistika stručná charakteristika základních vlastností datového souboru využívá: číselné charakteristiky tabulky grafy
Základní pojmy Populace množina sledovaných prvků (např. všichni státní zaměstnanci v ČR) Statistické jednotky - prvky populace Statistické znaky, proměnné, veličiny sledované kvantitativní údaje (např. výše příjmu) Statistické zjišťování proces získávání dat šetření (vyčerpávající / výběrové) pokus
Výběrové šetření výběr by měl být reprezentativní odrážet vlastnosti celé populace náhodný výběr každá statistická jednotka má stejnou šanci dostat se do výběru prostý, systematický, skupinový, nenáhodný výběr anketa (samovýběr, rozhodnutí respondenta), nelze definovat populaci záměrný výběr
Typy proměnných proměnná kvalitativní (kategoriální, slovní) kvantitativní (číselná) nominální (nelze uspořádat, např. barva) ordinální (lze uspořádat, např. míra spokojenosti) diskrétní (např. počet dětí ) spojitá (např. tlak) Od typu proměnné se odvíjí způsob zpracování dat a prezentace výsledků.
EDA pro kategoriální nominální veličinu Způsoby prezentace: tabulka rozdělení četnosti pro malý počet hodnot, číselná charakteristika modus (nejčastější hodnota) graf sloupcový, koláčový
Tabulka rozdělení četnosti Tabulka rozdělení četnosti varianta absolutní četnosti relativní četnosti A n 1 n 1 / n B n 2 n 2 / n C n 3 n 3 / n D n 4 n 4 / n celkem n 1 +n 2 +n 3 +n 4 = n 1
Grafické znázornění Sloupcový graf pozor na vhodnou volbu výchozí hodnoty (zpravidla 0) názvy, popisky atd. stručné ale srozumitelné 400 350 300 250 200 150 Chrome Safari IE Firefox Ostatní 100 50 0 Počet návštěv webu dle prohlížečů
Grafické znázornění Výsečový (koláčový) graf vždy uvádět i absolutní četnosti 185, 21% 42, 5% názvy, popisky atd. stručné ale srozumitelné 89, 10% 356, 40% Chrome Safari IE Firefox Ostatní pouze pro menší počet hodnot 212, 24%
EDA pro kategoriální ordinální veličinu Způsoby prezentace: tabulka rozdělení četnosti hodnoty seřazeny modus (nejčastější hodnota) graf sloupcový, koláčový
Tabulka rozdělení četnosti Tabulka rozdělení četnosti varianta absolutní četnosti relativní četnosti kumulativní četnosti kumul. rel. četnosti A n 1 n 1 / n = p 1 n 1 p 1 B n 2 n 2 / n = p 2 n 1 +n 2 p 1 +p 2 C n 3 n 3 / n = p 3 n 1 +n 2 +n 3 p 1 +p 2 +p 3 D n 4 n 4 / n = p 4 n 1 +n 2 +n 3 +n 4 p 1 +p 2 +p 3 +p 4 celkem n 1 +n 2 +n 3 +n 4 = n 1 Varianty A, B, C, jsou seřazeny (podle velikosti apod.).
EDA pro numerické veličiny Číselné charakteristiky: míry polohy míry variability
Míry polohy aritmetický průměr harmonický průměr (např. pro rychlosti) geometrický průměr (např. tempo změny) citlivé na odlehlá pozorování
Míry polohy výběrový p-kvantil Rozděluje seřazená data na části, jejichž velikosti jsou v poměru p : 1-p. Kvartily dolní kvartil medián horní kvartil Decily,,... Percentily,,...
Stanovení výběrového kvantilu Data uspořádáme podle velikosti od nejmenší hodnoty po největší p-kvantil (100p% kvantil) je hodnota s pořadím np+0.5, kde n je počet dat. Pokud np+0.5 není celé číslo, určíme p-kvantil jako průměr předchozího a následujícího prvku.
Příklad: 0.4-kvantil Ceny benzínu v Kč 36.70 37.20 38.40 36.60 37.50 36.80 Ceny benzínu v Kč 1. 36.60 2. 36.70 3. 36.80 4. 37.20 5. 37.50 6. 38.40 0.4 * 6 = 2.4, 0.4-kvantil je průměrem 2. a 3. hodnoty (36.70 Kč + 36.80 Kč)/2 = 36.75 Kč
Míry variability výběrový rozptyl Rozměr rozptylu odpovídá druhé mocnině rozměru proměnné
Míry variability výběrová směrodatná odchylka Pravidlo 3 sigma pro normální rozdělení platí:
Odlehlá pozorování pozorování, která se výrazně liší od ostatních mohou (ale nemusí!) nežádoucím způsobem ovlivňovat vypovídací hodnotu charakteristik vždy je potřeba dobře zvážit čím je odlehlé pozorování způsobeno
Odlehlá pozorování (outliers) pozorování, která se výrazně liší od ostatních mohou (ale nemusí!) nežádoucím způsobem ovlivňovat vypovídací hodnotu charakteristik vždy je potřeba dobře zvážit čím je odlehlé pozorování způsobeno jde-li o zřejmou chybu (překlep, technická závada,...), můžeme pozorování vyloučit v jiných případech bychom se vyloučením mohli připravit o cennou informaci
Identifikace odlehlých pozorování Metoda vnitřních hradeb jestliže pro platí pak je odlehlým pozorováním interkvartilové rozpětí: IQR =
Identifikace odlehlých pozorování Z-souřadnice je-li z > 3, pak je odlehlým pozorováním Automatické metody pro identifikaci odlehlých pozorování pouze vybírají podezřelé hodnoty! Vždy je ale nutné individuální posouzení.
Grafické znázornění numerické proměnné Histogram zobrazuje (relativní) četnosti výskytu pozorování v předem zvolených intervalech stejné délky Box plot (krabicový graf) znázorňuje meze vnitřních hradeb, kvartily, odlelá pozorování