Stručný úvod do vybraných zredukovaných základů statistické analýzy dat Statistika nuda je, má však cenné údaje. Neklesejme na mysli, ona nám to vyčíslí. Z pohádky Princové jsou na draka
Populace (základní soubor) a výběr Popis: řecká písmena Popis: latinská písmena náhodný výběr záměrný výběr selektivní výběr ZNAKY (vlastnosti) kvalitativní kvantitativní diskrétní spojité
Typy měření veličin nominální ordinální intervalové poměrové
Deskriptivní metody statistické analýzy dat Statistik je ten, kdo s hlavou v rozpálené troubě a s nohama v nádobě s ledem na dotaz, jak se cítí, odpoví: "V průměru se cítím dobře."
Utřídění dat Děláme v datech pořádek. Nejjednodušším postupem je sestavení frekvenční tabulky.
frequency Utřídění dat Lepším způsobem je grafické vyjádření dat buď pomocí tzv. histogramu četností 100 Histogram for znamka 80 60 40 20 0 0 1 2 3 4 5 6 znamka
frequency Utřídění dat nebo polygonu četností. 100 Polygon for znamka 80 60 40 20 0 1 2 3 4 5 znamka
Utřídění dat Četnost výskytu určité hodnoty (určitého jevu) může být absolutní a b s o lu t n í č e t n o s t Histogram for znamka 100 80 60 40 20 0 0 1 2 3 4 5 6 znamka
nebo relativní Utřídění dat re la t iv n í č e t n o s t (% ) Histogram for znamka 50 40 30 20 10 0 0 1 2 3 4 5 6 znamka
nebo kumulativní. Utřídění dat re la t iv n í k u m u la t iv n í č e t n o s t (% ) 100 Histogram for znamka 80 60 40 20 0 0 1 2 3 4 5 6 znamka
Utřídění dat Aneb co jsou kvantily, kvartily, decily a percentily 25% kvantil 50% kvantil 75% kvantil 1. kvartil 2. kvartil 3. kvartil dolní kvartil prostřední kvartil horní kvartil (inter)kvartilové rozpětí 142 146 147 152 154 155 158 159 162 163 164 164 164 165 165 168 173 173 175 178 180 183 189 25% menších či rovných hodnot 50% menších či rovných hodnot 75% menších či rovných hodnot
Utřídění dat Aneb co jsou kvantily, kvartily, decily a percentily
Charakteristiky polohy dat (středové hodnoty) modus medián aritmetický průměr
37 35 35 39 38 37 39 39 38 40 40 40 43 41 41 41 40 44 42 45 45 45 46 47 Modus je nejčastěji se vyskytující hodnota v souboru dat 35 je 2x 42 je 1x 37 je 2x 43 je 1x 38 je 2x 44 je 1x 39 je 3x 45 je 3x 40 je 4x 46 je 1x 41 je 3x 47 je 1x Modus = 40
Modus Je hodnotou spíše provizorní, není příliš spolehlivý a neumožňuje další statistické zpracování.
Data 6 10 7 8 9 12 16 7 9 15 8 6 16 7 11 15 9 15 8 14 12 Uspořádání 6 6 7 7 7 8 8 8 9 9 9 10 11 12 12 14 15 15 15 16 16 Medián je prostřední hodnota z výběru dat uspořádaných od nejmenší hodnoty po největší. 5 8 9 10 12 14 } 9,5 V případě sudého počtu hodnot ve výběru dat je medián aritmetickým průměrem dvou sousedních prostředních hodnot.
Medián Medián je středním kvartilem, pátým decilem, padesátým percentilem a 50%-ním kvantilem (x 0,5 ). Velikost mediánu nepodléhá vlivu odlehlých a extrémních hodnot. Výpočet mediánu je možný i tehdy, jestliže o některých prvcích souboru máme jen neúplné informace. Výpočet mediánu lze krom dat intervalových a poměrových použít i pro data ordinální. Používá se jako středová hodnota při použití robustních statistických metod.
Aritmetický průměr je nejvyužívanější střední hodnotou. Vypočítá se podle vztahu: x = x i /N kde x je aritmetický průměr, N je celková četnost všech hodnot a x i je součet všech hodnot.
74 78 80 84 85 81 83 83 82 89 88 86 90 90 91 93 89 93 95 93 96 95 95 106 Aritmetický průměr Box-and-Whisker Plot 74 76 78 80 82 84 86 88 90 92 94 96 98 100 102 104 106 108 width aritmetický průměr = 88,3 medián = 89,0
74 78 80 84 85 81 83 83 82 89 88 86 90 90 91 93 89 93 95 93 96 95 120 130 Aritmetický průměr je velmi citlivý k odlehlým a extrémním hodnotám Box-and-Whisker Plot 72 76 80 84 88 92 96 10 0 10 4 10 8 11 2 11 6 12 0 12 4 12 8 13 2 width aritmetický průměr = 90,3 medián = 89,0
Charakteristiky rozptýlení (variability) dat variační rozpětí interkvartilové rozpětí rozptyl (variance) směrodatná (standardní) odchylka variační koeficient standardní chyba
Charakteristiky rozptýlení (variability) dat A - malá variabilita dat B - velká variabilita dat
Variační a interkvartilové rozpětí variační rozpětí R = x max - x min interkvartilové rozpětí R q = x 0,75 x 0,25
Variační rozpětí Variační rozpětí je hrubou mírou rozptýlenosti dat. Tato hodnota je značně závislá na náhodných vlivech, silně je ovlivňována odlehlými a extrémními a hodnotami. variační rozpětí
Rozptyl s 2 je průměr čtverců odchylek od průměru. Když však počítáme výběrový rozptyl, nedělíme většinou součet čtverců odchylek výrazem n, ale n-1, protože tím docílíme lepšího odhadu celkového rozptylu populace. Dělitel n-1 se nazývá počet stupňů volnosti rozptylu. Rozptyl - - - - - - - - - - - 54,2 54,2 54,2 54,2 54,2 54,2 54,2 54,2 54,2 54,2 54,2 Aritemtický průměr = 54,2 kg Rozptyl = 63,36 kg 2 = = = = = = = = = = =
Směrodatná odchylka Směrodatná odchylka (s) je v praxi nejpoužívanější mírou rozptylu hodnot. Při výpočtu této hodnoty jsou větší odchylky od středu zohledňovány více než malé. Vypočítá se jako druhá odmocnina rozptylu.
Variační koeficient Variační koeficient (v) je mírou relativního rozptýlení dat. v = s x o. 100% Vypočítá se jako podíl směrodatné odchylky a aritmetického průměru násobený stem. Udává se v procentech.
74 78 80 84 85 81 83 83 82 89 88 86 90 90 91 93 89 93 95 93 96 95 95 106 Standardní chyba Vztahuje se obvykle k aritmetickému průměru jako středové hodnotě. Dolní mez spolehlivosti 86,85-1,44 88,29 89,73 + 1,44 Interval spolehlivosti: 88,29 + 1,44 Horní mez spolehlivosti
74 78 80 84 85 81 83 83 82 89 88 86 90 90 91 93 89 93 95 93 96 95 93 95 106 Deskriptivní statistické údaje MS Excel Statgraphics for Windows
Rozdělení dat Závisí na typu měřené veličiny. Rozeznáváme: Diskrétní náhodnou veličinu (může nabývat pouze určitých hodnot, např. krevní skupiny) Spojitou náhodnou veličinu (může nabývat všech hodnot v určitém intervalu, např. tělesná výška)
Příklady spojitých rozdělení symetrické jednovrcholové dvouvrcholové pravostranně asymetrické levostranně asymetrické
Normální rozdělení Je podle svého objevitele nazýváno také Gaussovo rozdělení. Data v normálním rozdělení jsou symetrická a unimodální (jednovrcholová)
Pro normální rozdělení platí, že aritmetický průměr = medián = modus ve vzdálenosti menší než jedna směrodatná odchylka od průměru leží 68,27% hodnot. ve vzdálenosti 1,96 směrodatné odchylky od průměru leží 95% všech hodnot. 99% hodnot leží ve vzdálenosti menší než 3 směrodatné odchylky od průměru.
enzyme density Testy normality rozdělení dat většinou pouze součástí specializovaného statistického software. Chí-kvadrát test dobré shody Shapiro-Wilksův test Z-skóre pro šikmost Z-skóre pro špičatost (X 0,001) 18 15 12 9 6 3 0 120 100 80 60 Density Trace for enzyme 0 20 40 60 80 100 120 enzyme Normal Probability Plot for enzyme 40 20 0 0,1 1 5 20 50 80 95 99 99,9 percentage
Induktivní metody statistické analýzy dat Stupňování slova lež : 1. stupeň: prostá lež 2. stupeň: odporná lež 3. stupeň: statistika
Testování hypotéz Statistické testy obvykle vycházejí ze dvou hypotéz, nulové a alternativní. Nulová hypotéza H 0 předpokládá, že rozdíl mezi porovnávanými charakteristikami jednotlivých proměnných je nulový. Tzv. alternativní hypotéza, H 1 (případně H A ) je pak kladena proti hypotéze nulové a vymezuje určitý vztah mezi proměnnými.
Formulace alternativní hypotézy Dvoustranná hypotéza: parametr 1 parametr 2
Formulace alternativní hypotézy Jednostranná hypotéza: parametr 1 > parametr 2 Jednostranná hypotéza: parametr 1 < parametr 2
Chyba I. a II. druhu Testování hypotéz se provádí na určité předem stanovené hladině významnosti α (většinou 0,05 nebo 0,01). Chyba 1. druhu vzniká v případě zamítnutí platné nulové hypotézy. Chyba 2. druhu vzniká nezamítnutím neplatné nulové hypotézy.
Parametrické metody testování hypotéz Podmínkou jejich použití je normální rozdělení dat. Je možné je používat pouze u dat z intervalových a poměrových měření. Pracují s aritmetickým průměrem jako středovou hodnotou a směrodatnou odchylkou jako hodnotou míry variability dat.
F-test pro analýzu rozptylů mezi dvěma nezávislými výběry F - test pro porovnání rozptylů je důležitý jako pomůcka pro rozhodování, jakým způsobem má být hodnocena významnost rozdílu středních hodnot dvou nezávislých souborů. Soubory dat se stejnými rozptyly označujeme jako homoskedastické, s různými rozptyly jako heteroskedastické.
Obsah kofeinu v nápoji 161,28 159,60 155,54 151,20 140,28 139,30 136,36 129,08 127,40 122,92 119,42 118,72 117,04 105,98 103,60 103,04 97,86 95,62 94,78 88,06 87,64 83,86 79,52 78,40 75,04 74,34 70,84 67,62 64,96 61,60 černá káva 189,42 184,52 155,82 147,42 139,02 135,80 132,72 129,78 125,72 122,22 121,94 121,10 116,34 114,80 108,08 99,82 99,12 92,82 86,24 78,26 čaj Provedení F-testu Statgraphics for Windows H 0 : s 1 = s 2 H A : s 1 s 2 Nezamítáme nulovou hypotézu. Data v obou souborech jsou homoskedastická. MS Excel
t-test pro analýzu aritmetických průměrů dvou nezávislých výběrů t-test nebo také Studentův test jde určen pro srovnání dvou výběrových průměrů a zodpovězení otázky, zda se od sebe statisticky významně liší, či zda je rozdíl mezi nimi pouze náhodný. U t-testu rozlišujeme 2 verze v závislosti na tom, zda se v obou souborech statisticky výrazně odlišují rozptyly (viz F test), hovoříme potom o t-testu pro shodné rozptyly a o t-testu pro rozdílné rozptyly.
Obsah kofeinu v nápoji 161,28 159,60 155,54 151,20 140,28 139,30 136,36 129,08 127,40 122,92 119,42 118,72 117,04 105,98 103,60 103,04 97,86 95,62 94,78 88,06 87,64 83,86 79,52 78,40 75,04 74,34 70,84 67,62 64,96 61,60 černá káva 189,42 184,52 155,82 147,42 139,02 135,80 132,72 129,78 125,72 122,22 121,94 121,10 116,34 114,80 108,08 99,82 99,12 92,82 86,24 78,26 čaj Provedení t-testu Hypotéza: Černá káva obsahuje více kofeinu než čaj. H 0 : x o 1 = x o 2 Statgraphics for Windows
Obsah kofeinu v nápoji Provedení t-testu Hypotéza: Černá káva obsahuje více kofeinu než čaj. H 0 : x o 1 = x o 2 Statgraphics for Windows MS Excel Box-and-Whisker Plot 60 70 80 90 10 0 11 0 12 0 13 0 14 0 15 0 16 0 17 0 18 0 19 0 20 0
Párový t-test Párový t-test se používá k porovnávání aritmetických průměrů u dvou souborů dat pocházejících z téhož výběru. Např. zjišťujeme TK u souboru hypertoniků před léčbou a u těch samých hypertoniků po léčbě. Data je třeba uspořádat do dvojic, párů.
ANOVA test (analýza rozptylu) ANOVA je test zaměřený na vzájemné porovnávání tří a více nezávislých výběrů. Je založena na předpokladu, že každý z výběrů pochází z populace s normálním rozdělením se stejnou směrodatnou odchylkou. Zajímá nás, zda střední hodnoty (aritmetické průměry) skupin jsou všechny shodné, nebo zda se navzájem liší.
ANOVA test ANOVA test rozhodne o shodě či odlišnosti středových hodnot, neřeší však, který z průměrů je významně odlišnější od ostatních. Je třeba provést analýzu dalšími metodami. MS Excel
Mnohonásobné komparace Fischerův LSD test Statgraphics for Windows Bohužel není součástí MS Excel.
Neparametrické (robustní) metody testování hypotéz Nezávisí na typu rozdělení dat v souborech. Používají se u malých výběrů, pro data pocházející z ordinálních měření a pro data, která nemají normální rozdělení. Pracují s mediánem jako středovou hodnotou.
Mann-Whitneyův (Wilcoxonův) test 109 546 214 844 1818 602 140 87 179 794 744 643 108 199 101 91 107 105 1547 479 529 1296 Délka remise u pacientů s endogenní a neurotickou depresí (W-test)
Mann-Whitneyův (Wilcoxonův) test 109 546 214 844 1818 602 140 87 179 794 744 643 108 199 101 91 107 105 1547 479 529 1296 (W-test) Délka remise u pacientů s endogenní a neurotickou depresí Statgraphics for Windows
proportion Test Kolmogorov-Smirnov Zjišťuje pravděpodobnost, s jakou dva nezávislé výběry pocházejí z téhož rozdělení. 109 546 214 844 1818 602 140 87 179 794 744 643 108 199 101 91 107 105 1547 479 529 1296 1 0,8 0,6 Quantile Plot Variable s Col_1 Col_2 0,4 Statgraphics for Windows 0,2 0 0 0,4 0,8 1,2 1,6 2 (X 1000)
Kruskal-Wallisův test Je neparametrický test sloužící k porovnání mediánů tří a více nezávislých výběrů dat, u nichž nelze předpokládat normální rozdělení. Je jakousi neparametrickou obdobou ANOVA testu.
Kruskal-Wallisův test 109 546 324 214 844 112 1818 602 801 140 87 147 179 794 586 744 643 325 108 199 59 101 91 503 107 105 412 1547 479 132 529 1296 289 Statgraphics for Windows
Analýza kategoriálních dat Kategoriální data jsou data nominální, ordinální, diskrétní a spojitá sloučená do skupin. Ke zjištění, zda mezi dvěma znaky existuje prokazatelný významný vztah se používá test χ 2 (Chí-kvadrát).
χ 2 test a kontingenční tabulka Př. Účinek streptomycinu na léčbu plicní tuberkulózy
χ 2 test a kontingenční tabulka Př. Účinek streptomycinu na léčbu plicní tuberkulózy výpočet očekávaných četností
Korelační analýza Využívá se pro studium vztahů mezi dvěma nebo více kvantitativními veličinami, měřenými současně na každém jedinci sledovaného souboru. Korelační analýza však neřeší otázku která z proměnných ovlivňuje kterou. Mírou těsnosti vztahu mezi dvěma proměnnými je korelační koeficient. Teoreticky může nabývat hodnot v intervalu < 1;1>.
Korelační analýza Přibližná interpretace hodnot korelačního koeficientu
Korelační analýza Pearsonův korelační koeficient parametrická analýza Spearmanův korelační koeficient neparametrická analýza
Korelační analýza MS Excel Statgraphics for Windows
Regresní analýza Slouží ke zkoumání vztahu mezi dvěma spojitými veličinami. Jedna z nich se nazývá nezávisle proměnná (x) a řídí druhou závisle proměnnou (y). Regresní analýza predikuje vztah mezi oběma veličinami v závislosti na vhodném regresním modelu, který vychází z grafického rozložení dat.
Hodiny Máme analyzovat data o počtu pracovních hodin za měsíc spojených s provozováním anesteziologické služby v závislosti na velikosti spádové populace nemocnice. Regresní analýza (X 1000) 4 Plot of Hodiny vs Oblast 3 2 1 0 0 100 200 300 400 Oblast
Hodiny Regresní analýza (X 1000) 4 Plot of Fitted Model 3 2 1 0 0 100 200 300 400 Oblast Statgraphics for Windows
Zdroj dalších informací http://ucebnice.euromise.cz/ index.php?conn=0§io n=biostat1
Děkuji vám za pozornost