Průzkumová analýza dat
Proč zkoumat data? Základ průzkumové analýzy dat položil John Tukey ve svém díle Exploratory Data Analysis (odtud zkratka EDA). Často se stává, že data, se kterými pracujeme, se v některých aspektech chovají zvláštně. Problém tohoto chování spočívá v tom, že jejich vlastnosti a chování nesouhlasí s požadovanými předpoklady pro jejich zpracování standardními statistickými metodami. Cílem EDA je vyhledání a identifikace nestandardního chování statistických dat a ověření předpokladů potřebných pro zpracování těchto dat.
Vlastnosti dat zkoumaných v rámci EDA Identifikace odlehlých pozorování. Ověření normality rozdělení. Posouzení šikmosti rozdělení. Ověření nezávislosti prvků ve výběru. Ověření homoskedasticity dat. Ověření podmínky minimálního rozsahu výběru.
Identifikace odlehlých pozorování Existuje značná nejednotnost v názvosloví někdy se pojem odlehlé pozorování ztotožňuje s pojmem vybočující pozorování či extrémní pozorování, jindy se tyto pojmy definují různým způsobem. Předpokládejme, že odlehlým, vybočujícím či extrémním pozorováním je hodnota, která je oproti ostatním hodnotám souboru extrémně nízká či extrémně vysoká.
Důvody vzniku odlehlých pozorování 1. Hodnoty korektně získané a správné, které vznikly jako důsledek mimořádného chování sledované veličiny (př. zvýšená koncentrace oxidu síry v ovzduší apod.). 2. Hodnoty, které jsou důsledkem chyb, ke kterým došlo v průběhu zjišťování dat, jejich zaznamenávání či zadávání do elektronické podoby (př. porucha měřícího přístroje, překlep při zadávání dat do elektronické podoby atd.).
Práce s odlehlými hodnotami Hodnoty, které jsou správně naměřené, by měly být v souboru ponechány, popř. je možné s nimi pracovat odděleně. Pokud budou v souboru ponechány, je potřeba zpracovat data pomocí robustních metod. Hodnoty, které jsou chybné, je doporučeno ze souboru ostatních hodnot vyloučit.
Způsoby detekce odlehlých pozorování Grafické znázornění (Krabicový graf, kvantilkvantilový graf, graf symetrie apod.) spíše slouží k upozornění, na které hodnoty si dát pozor, které hodnoty by mohly být skutečně odlehlé. Testy odlehlých hodnot (Grubbsův, Dixonův a další) lze pomocí nich prokázat s určitou pravděpodobností výskyt odlehlých hodnot v souboru.
Grafické znázornění odlehlých hodnot Graf odlehlých hodnot (diagram rozptýlení)
Grafické znázornění odlehlých hodnot Outlier Plot (Graf odlehlých hodnot) Zobrazuje hodnoty všech dat společně s horizontálními přímkami na úrovni výběrového průměru plus/mínus 1, 2, 3 a 4 směrodatné odchylky. Body, nacházející se mimo pole 3 směrodatných odchylek, se považují za podezřelé, a měly by být posouzeny z pohledu jejich možné odlehlosti.
Grafické znázornění odlehlých hodnot Krabicový graf
Grafické znázornění odlehlých hodnot
Grafické znázornění odlehlých hodnot Kvantil-kvantilový graf
Grafické znázornění odlehlých hodnot Kvantil-kvantilový graf (Q-Q graf) Zobrazuje hodnoty od nejmenší po největší takovým způsobem, aby bylo možné posoudit, zda tyto hodnoty pocházejí z normálního rozdělení či nikoli. Je založen na porovnání kvantilů empirického rozdělení a zvoleného teoretického rozdělení. Je konstruován tak, že pokud empirické rozdělení plně odpovídá teoretickému, pak je grafem přímka.
Testy odlehlých hodnot
Testy odlehlých hodnot Grubbsův test Vypočítáme testové kritérium pro první, resp. poslední hodnotu neklesající řady: T =, resp. T =, kde x je aritmetický průměr, x je první hodnota neklesající řady, x je poslední hodnota neklesající řady, s je směrodatná odchylka. Kritický obor je vymezen nerovností: T > T., resp. T > T.
Testy odlehlých hodnot Grubbsův test
Testy odlehlých hodnot
Testy odlehlých hodnot Dixonův test Vypočítáme testové kritérium pro první, příp. poslední hodnotu řady: Q =, příp. Q =, kde R je variační rozpětí souboru, tj. R = x x. Kritický obor je vymezen nerovností: Q > Q., příp. Q > Q.
Testy odlehlých hodnot Dixonův test Tabulky s kritickými hodnotami Dixonova testu pro α = 0,05:
Kvantilové a robustní míry úrovně a variability Kvantilové a robustní míry je možné použít k charakterizování vlastností souboru, ve kterém se vyskytují odlehlé hodnoty, neboť jsou vůči nim méně citlivé než třeba momentové míry. Patří sem: Modus Obecně je definován jako nejčastěji se vyskytující varianta znaku. Pro spojitou náhodnou veličinu je definován jako lokální maximum hustoty pravděpodobnosti, pro nespojitou náhodnou veličinu jako hodnota, ve které má pravděpodobnostní funkce své maximum. Modus je vždy robustní, není citlivý na odlehlé hodnoty.
Kvantily Kvantilové a robustní míry úrovně a variability Výklad viz Popisné charakteristiky. Medián Hodnota, která rozděluje uspořádaný soubor na dvě stejné četné části. Je věrohodným odhadem polohy Laplaceova (oboustranného exponenciálního) rozdělení a má pro toto rozdělení minimální rozptyl D =. Patří mezi robustní kvantilové charakteristiky.
Kvantilové a robustní míry úrovně a variability Kvartilové rozpětí (interkvartilové či mezikvartilové rozpětí) Definováno jako rozdíl mezi horním a dolním kvartilem, tj. R = x x Pomocí R lze odhadnou směrodatnou odchylku σ podle vztahu: s = 0,7413 R.
Kvantilové a robustní míry úrovně Uřezaný průměr x (θ) a variability Využívá lineární kombinace pořádkových statistik. Parametr θ určuje procento oddělených ( uřezaných ) pořádkových statistik na každém konci, nejnižších a nejvyšších. Za optimální se považuje hodnota θ = 10, tj. desetiprocentní uřezaný průměr. V případě, kdy se očekává větší počet odlehlých hodnot, je možné jít až na hodnotu θ = 25.
Kvantilové a robustní míry úrovně a variability Uřezaný průměr je definován jako: x θ = x ( ), kde M = int( ).
Ověřování normality Mnoho statistických metod a procedur vyžaduje, aby byl splněn předpoklad normality dat, tj. že výběr pochází z normálního rozdělení. Existuje mnoho jevů, o kterých lze na základě věcného rozboru a zkušenosti usoudit, že jsou normálně rozdělené. Pokud je ovšem zřejmé, že data z normálního rozdělení nepocházejí, pak je třeba: a) využít neparametrické metody; b) transformovat data tak, aby byla normální či se normalitě dost přibližovala.
Testy normality Patří mezi neparametrické testy, a konkrétněji mezi testy o tvaru rozdělení. Nulová hypotéza předpokládá, že výběr pochází z normálního rozdělení. Parametry rozdělení mohou být nulovou hypotézou také specifikované. Vzniklo mnoho testů, pomocí kterých lze normalitu dat testovat např. chí-kvadrát test dobré shody, Kolmogorovův-Smirnovův test, Shapirův-Wilkův test, test Andersonův-Darlingův, Filibenův, D Agostinův a další.
Kolmogorovův-Smirnovův test pro jeden výběr Předpoklad: Pracujeme s náhodným výběrem, který pochází z některého hypotetického rozdělení (obecně), které je nulovou hypotézou úplně specifikované. Je vhodný i pro výběry malého rozsahu, tj. 3 n < 50. Výhoda: Vychází z původních napozorovaných hodnot a nikoli z údajů roztříděných do skupin. Nedochází tak ke ztrátě informace, která je ve výběru obsažena. H : F x = F x H : non H F x empirická (skutečná) distribuční funkce veličiny X F x teoretická (hypotetická) distribuční funkce veličiny X
Kolmogorovův-Smirnovův test pro jeden výběr Empirickou distribuční funkci určíme z hodnot upořádaných podle velikosti x x x. Empirická distribuční funkce je definována tvarem: = 0 pro x < x F x = pro x x < x, i = 1, 2,, n 1 = 1 pro x x
Kolmogorovův-Smirnovův test pro jeden výběr Testovým kritériem je maximální absolutní rozdíl teoretické distribuční funkce F x a empirické distribuční funkce F x : D = max F x D = max D, D,, D, F (x ) Vymezení kritického oboru: W D ; D D ; Kritické hodnoty K-S testu jsou tabelovány pro různá n a α. Pro velké soubory (n > 50) je možné je přibližně vypočítat podle: d n = ( ) ln( ).
Shapirův-Wilkův test Je jedním z nejsilnějších testů normality. Lze použít i pro malé výběry, tj. 3 n < 50. Nulová hypotéza předpokládá, že výběr pochází z normálního rozdělení s libovolnými parametry μ a σ. Testové kritérium pro rozsahy výběru mezi 3 a 50 je: SW =
Shapirův-Wilkův test Výpočet SW vyžaduje znalost koeficientů a, které byly odvozeny speciálně pro potřeby tohoto testu. Bývají tabelovány. Nulová hypotéza se zamítá, pokud je vypočítaná hodnota SW menší než kritická hodnota Shapirova- Wilkova testu pro dané n a α.
Ověření nezávislosti prvků ve výběru Důležitým předpokladem kvalitních měření je vzájemná nezávislost zjištěných výsledků. Možné důvody vzniku závislosti měření: 1) Nesprávný (nenáhodný) výběr vzorků k měření. 2) Porušení konstantnosti podmínek měření. 3) Měřící zařízení je nestabilní nebo došlo k jeho změně. 4) Opomenutí činitelů, které mají vliv na výsledek měření, např. teplota, nečistota chemických látek, objem vzorků apod.
Ověření nezávislosti prvků ve výběru Pokud se uvedené důvody mění v čase, projeví se vznikem časové závislosti mezi prvky výběru, které jsou uspořádány z hlediska času. Pro posouzení časové závislosti prvků ve výběrovém souboru, je možné použít test významnosti koeficientu autokorelace prvního řádu, Durbin-Watsonův test autokorelace, Znaménkový test a další.
Test významnosti koeficientu autokorelace prvního řádu Nulová hypotéza předpokládá, že koeficient autokorelace ρ se rovná nule, tj. hodnoty po sobě jdoucí v časové řadě nejsou závislé. H : ρ = 0 H : ρ 0 Testovým kritériem je statistika t, která se při platnosti nulové hypotézy řídí Studentovým rozdělením t s (n+1) stupni volnosti. t =
Test významnosti koeficientu autokorelace prvního řádu Pomocné výpočty: T = poměr. 1, kde T značí von Neumannův T = Pro kritický obor platí: t > t n + 1
Ověření homoskedasticity dat Homoskedasticitou dat rozumíme skutečnost, kdy rozptyly v jednotlivých skupinách, do kterých je soubor roztříděn, jsou shodné. Předpoklad homoskedasticity je častou podmínkou vyžadovanou při použití některých statistických metod. Existuje mnoho testů homoskedasticity: Bartlettův, Leveneův, Cochranův, Hartleyho a další.
Bartlettův test Lze použít jak pro soubory, které mají stejný počet pozorování u všech k skupin, tak i pro soubory, které nemají stejný počet pozorování ve všech k skupinách, je tedy použitelný univerzálně. Nulová hypotéza předpokládá, že rozptyly ve všech skupinách, do kterých je soubor roztříděn, jsou shodné. Alternativní hypotéza tvrdí, že alespoň 2 z těchto rozptylů jsou různé, tj. H : σ = σ = = σ H : non H
Bartlettův test Testovým kritériem je statistika B, která se v případě platnosti nulové hypotézy řídí přibližně rozdělením χ s n-1 stupni volnosti: B = n k ln s n 1 ln s. Při výpočtu B používáme následující vztahy: s = y je průměr i-té skupiny. y y, i = 1, 2,, k s = y y
Bartlettův test C = 1 + Bartlettův test je dosti citlivý na porušení předpokladu normality rozdělení. Tento problém může nastat zejména u souborů malého rozsahu. Namísto tohoto test lze použít Leveneův test, který na porušení předpokladu normality tak citlivý není.
Leveneův test homogenity Původní data nahradíme hodnotami náhodných veličin, pro které obecně platí: z = y y, i = 1, 2,, k, j = 1, 2,, n. K výpočtu hodnoty testového kritéria použijeme tyto pomocné výpočty: z = z z = z S = z z S = n z z
Leveneův test homogenity Testovým kritériem je statistika F, kterou vypočítáme podle: F = / / ~F k 1, n k. Kritický obor: W F ; F F k 1, n k Pro vybrané případy je možné použít i modifikace Leveneova testu. Např. pokud bude soubor nějakým způsobem sešikmený, lze místo skupinových průměrů využít skupinových mediánů při výpočtech.