PRŮZKUMOVÁ ANALÝZA JEDNOROZMĚRNÝCH DAT Exploratory Data Analysis (EDA)

Podobné dokumenty
Statistická analýza jednorozměrných dat

UNIVERZITA PARDUBICE CHEMICKO-TECHNOLOGICKÁ FAKULTA KATEDRA ANALYTICKÉ CHEMIE

Porovnání dvou reaktorů

Statistická analýza jednorozměrných dat

Statistická analýza. jednorozměrných dat

S E M E S T R Á L N Í

Nejlepší odhady polohy a rozptýlení chemických dat

Modul Základní statistika

Úloha E301 Čistota vody v řece testem BSK 5 ( Statistická analýza jednorozměrných dat )

Kvantily a písmenové hodnoty E E E E-02

Předpoklad o normalitě rozdělení je zamítnut, protože hodnota testovacího kritéria χ exp je vyšší než tabulkový 2

UNIVERZITA PARDUBICE Fakulta chemicko-technologická Katedra analytické chemie Nám. Čs. Legií 565, Pardubice

Exploratorní analýza dat

S E M E S T R Á L N Í

UNIVERZITA PARDUBICE

Porovnání dvou výběrů

Univerzita Pardubice Fakulta chemicko-technologická Katedra analytické chemie STATISTICKÉ ZPRACOVÁNÍ EXPERIMENTÁLNÍCH DAT

Průzkumová analýza dat

UNIVERZITA OBRANY Fakulta ekonomiky a managementu. Aplikace STAT1. Výsledek řešení projektu PRO HORR2011 a PRO GRAM

PRŮZKUMOVÁ ANALÝZA DAT (EDA)

STATISTICKÁ ANALÝZA JEDNOROZMĚRNÝCH DAT. Semestrální práce UNIVERZITA PARDUBICE. Fakulta chemicko-technologická Katedra analytické chemie

VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ. FAKULTA STROJNÍHO INŽENÝRSTVÍ Ústav materiálového inženýrství - odbor slévárenství

Statistická analýza jednorozměrných dat

Statistická analýza jednorozměrných dat

Praktická statistika. Petr Ponížil Eva Kutálková

Analýza dat na PC I.

IDENTIFIKACE BIMODALITY V DATECH

Statistika, Biostatistika pro kombinované studium Letní semestr 2011/2012. Tutoriál č. 4: Exploratorní analýza. Jan Kracík

Náhodná proměnná. Náhodná proměnná může mít rozdělení diskrétní (x 1. , x 2. ; x 2. spojité (<x 1

VŠB Technická univerzita Ostrava Fakulta elektrotechniky a informatiky

Matematika III. 27. listopadu Vysoká škola báňská - Technická univerzita Ostrava. Matematika III

Statistická analýza jednorozměrných dat

VŠB Technická univerzita Ostrava Fakulta elektrotechniky a informatiky SMAD

Číselné charakteristiky

Charakterizace rozdělení

Vybraná rozdělení náhodné veličiny

P13: Statistické postupy vyhodnocování únavových zkoušek, aplikace normálního, Weibullova rozdělení, apod.

Zaokrouhlování: Směrodatná odchylka se zaokrouhluje nahoru na stanovený počet platných cifer. Míry

Statistika. Diskrétní data. Spojitá data. Charakteristiky polohy. Charakteristiky variability

Popisná statistika. Jaroslav MAREK. Univerzita Palackého

UNIVERZITA PARDUBICE Fakulta chemicko-technologická Katedra analytické chemie. Nám. Čs. Legií 565, Pardubice. Semestrální práce ANOVA 2015

Statistika pro geografy

E(X) = np D(X) = np(1 p) 1 2p np(1 p) (n + 1)p 1 ˆx (n + 1)p. A 3 (X) =

Zápočtová práce STATISTIKA I

LINEÁRNÍ REGRESE Komentované řešení pomocí programu Statistica

VŠB Technická univerzita Ostrava BIOSTATISTIKA

Určete zákon rozložení náhodné veličiny, která značí součet ok při hodu a) jednou kostkou, b) dvěma kostkami, c) třemi kostkami.

8. Normální rozdělení

Univerzita Pardubice Fakulta chemicko-technologická Katedra analytické chemie ANOVA. Semestrální práce

Metodologie pro ISK II

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Lineární regrese. Komentované řešení pomocí MS Excel

Grafické metody analýzy ekonomických časových řad

Národní informační středisko pro podporu kvality

KGG/STG Statistika pro geografy

UNIVERZITA PARDUBICE

Simulace. Simulace dat. Parametry

Zpracování náhodného výběru. Ing. Michal Dorda, Ph.D.

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

StatSoft Jak se pozná normalita pomocí grafů?

KALIBRACE. Definice kalibrace: mezinárodní metrologický slovník (VIM 3)

Referenční hodnoty v praxi

Charakteristika datového souboru

Statistické metody - nástroj poznání a rozhodování anebo zdroj omylů a lží

Pravděpodobnost v závislosti na proměnné x je zde modelován pomocí logistického modelu. exp x. x x x. log 1

JEDNOVÝBĚROVÉ TESTY. Komentované řešení pomocí programu Statistica

I. D i s k r é t n í r o z d ě l e n í

Statistická analýza jednorozměrných dat

ZÁKLADNÍ STATISTICKÉ CHARAKTERISTIKY

3.4 Určení vnitřní struktury analýzou vícerozměrných dat

p(x) = P (X = x), x R,

Národníinformačnístředisko pro podporu jakosti

X = x, y = h(x) Y = y. hodnotám x a jedné hodnotě y. Dostaneme tabulku hodnot pravděpodobnostní

Nejčastější chyby v explorační analýze

Základy pravděpodobnosti a statistiky. Popisná statistika

TEST Z TEORIE EXPLORAČNÍ ANALÝZA DAT

Zpracování náhodného výběru. Ing. Michal Dorda, Ph.D.

veličin, deskriptivní statistika Ing. Michael Rost, Ph.D.

Příloha podrobný výklad vybraných pojmů

pravděpodobnosti, popisné statistiky


Kalibrace a limity její přesnosti

Co je to statistika? Úvod statistické myšlení. Základy statistického hodnocení výsledků zkoušek. Petr Misák

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr.

UNIVERZITA PARDUBICE Fakulta chemicko-technologická Katedra analytické chemie

LICENČNÍ STUDIUM GALILEO SEMESTRÁLNÍ PRÁCE

Úvodem Dříve les než stromy 3 Operace s maticemi

Popisná statistika kvantitativní veličiny

PRAVDĚPODOBNOST A STATISTIKA

Regresní a korelační analýza

KGG/STG Statistika pro geografy

Stručný úvod do testování statistických hypotéz

POLYNOMICKÁ REGRESE. Jedná se o regresní model, který je lineární v parametrech, ale popisuje nelineární závislost mezi proměnnými.

Regresní a korelační analýza

Regulační diagramy (RD)

Transkript:

PRŮZKUMOVÁ ANALÝZA JEDNOROZMĚRNÝCH DAT Exploratory Data Analysis (EDA) Reprezentativní náhodný výběr: 1. Prvky výběru x i jsou vzájemně nezávislé. 2. Výběr je homogenní, tj. všechna x i jsou ze stejného rozdělení. 3. Předpokládá se, že jde o normální rozdělení. 4. Všechny x i mají stejnou P, že budou zařazeny do výběru. CÍL EDA: nalezení zvláštností statistického chování dat (odchylek od předpokládaného rozdělení). OBECNÝ POSTUP (vždy dodržujeme!): 1. diagnostické grafy EDA. 2. ověření základních předpokladů (ZP) o výběru statistickými testy. Jsou-li ZP splněny (4.), nejsou-li splněny (3.) 3. transformace dat. 4. vyčíslení parametrů polohy, rozptýlení a tvaru. Pořádková statistika vzestupně setříděné prvky výběru. Pořadová pravděpodobnost je definována jako P i = i/(n+1), i 1/ 3 v EDA se používá: P i =. n + 1/ 3 Grafy identifikace statistických zvláštností dat DIAGRAM ROZPTÝLENÍ (osa x: hodnoty x i, osa y: nemá význam) o Zobrazuje všechna data ve skutečném měřítku na ose x o jednorozměrná projekce kvantilového grafu do osy x, o ukazuje lokální koncentrace dat a indikuje OB, o modifikace rozmítnutý diagram rozptýlení. ACH/CHEX1 DAVID MILDE - 1 -

KVANTILOVÝ GRAF (osa x: pořadová pravděpodobnost P i, osa y: pořádková statistika x i ) o zobrazuje kvantily dat proložené kvantilovou funkcí normálního rozdělení, o přehledné znázornění dat, tvar rozdělení symetrii, o ukazuje lokální koncentrace dat a OB, o zelená křivka (průměr a s 2 ), červená křivka (M a mediánová odchylka) podle toho, která z křivek lépe prokládá data, je vhodné použít buď průměr nebo medián! KRABICOVÝ GRAF (osa x: úměrná hodnotám x i, osa y: interval) o znázornění mediánu (robustního odhadu polohy), o posouzení symetrie v okolí kvartilů a u konců rozdělení, o identifikaci OB, o modifikace vrubový krabicový graf. Vnitřní hradby: B H = F H + 1,5R F B D = F D 1,5R F, kde R F = F H F D, pro data z normálního rozdělení B H B D 4,2 ACH/CHEX1 DAVID MILDE - 2 -

(Robustní) interval spolehlivosti M: L 1,2 1,5 RF = M ± n ODCHYLKY V ŠIKMOSTI (+ je aritmetický průměr) g 1 > 0 g 1 < 0 ODCHYLKY VE ŠPIČATOSTI (+ je aritmetický průměr) g 2 < 3 g 2 > 3 GRAF SYMETRIE citlivý indikátor symetrie rozdělení. V ideálním případě leží body na horizontální přímce, která představuje M. Přerušované meze = IS mediánu M. Pro asymetrické rozdělení vykazují body výrazný trend rostoucí pro g1 < 0 a klesající pro g1 > 0, překračující přerušované meze. GRAF ŠPIČATOSTI má podobný význam jako předchozí graf. Pro výrazně nenormální špičatost dat vykazují body v grafu výrazný trend. ACH/CHEX1 DAVID MILDE - 3 -

KRUHOVÝ GRAF slouží k vizuálnímu posouzení normality na základě kombinace šikmosti a špičatosti. (Zelený kruh (elipsa) je optimální tvar pro normální rozdělení, černý představuje data. Pro normální data se obě křivky téměř kryjí.) GRAF ROZPTÝLENÍ S KVANTILY (osa x: P i, osa y: pořádková statistika x i ) o body grafu jsou významově i vizuálně shodné s kvantilovým grafem, o pro symetrické rozdělení má křivka (kvantilová funkce) sigmoidální tvar, o vzájemná poloha obdelníků (F, E, D) odpovídá symetrii, resp. asymetrii, o body mimo obdelník D jsou OB. ACH/CHEX1 DAVID MILDE - 4 -

GRAF HUSTOTY PRAVDĚPODOBNOSTI (osa x: proměnná x, osa y: (jádrový) odhad hustoty pravděpodobnosti f(x)) o umožňuje identifikovat odchylky v g 1, g 2, nehomogenitu dat a OB, o v případě normality jsou si zelená křivka normálního rozdělení a červená křivka experimentálních dat blízké. g 1 > 0 g 1 < 0 pro g 1 = 0 platí x ~ x = = 0, 5 xm HISTOGRAM (osa x: proměnná x, osa y: hustota pravděpodobnosti y) o posouzení symetrie a špičatosti rozdělení, o identifikace odlehlých bodů a lokálních koncentrací dat. KVANTIL-KVANTILOVÝ GRAF (osa x: kvantilová funkce teoretického rozdělení, osa y: pořádková statistika) o nejpoužívanější diagnostický graf pro porovnání experimentálních dat s teoretickým rozdělením, o pokud je teoretické rozdělení shodné s experimentálními daty, budou body v grafu ležet na přímce, o porovnání s normálním rozdělením RANKITOVÝ GRAF. RANKITOVÝ GRAF (osa x: kvantilová funkce normálního rozdělení, osa y: pořádková statistika) o umožňuje identifikovat odchylky v g 1 a g 2, o nalezení OB body na koncích vzdálené od přímky, o VÝHODA GRAFU možnost vizuálního posouzení zda jsou odchylky od normálního rozdělení způsobeny jen několika body, nebo všemi daty. ACH/CHEX1 DAVID MILDE - 5 -

PRAVDĚPODOBNOSTNÍ GRAF (osa x: P i, osa y: standardizovaná distribuční funkce) o porovnává data s normálním (modrá křivka), Laplaceovým (zelená křivka) a rovnoměrným (červená křivka). Která křivka leží nejblíže černé přímce, to rozdělení odpovídá datům. P-P graf je citlivý na odchylky od teoretického rozdělení ve střední části, Q-Q graf v oblasti konců. ACH/CHEX1 DAVID MILDE - 6 -