Průzkumová analýza dat
|
|
- Miloslava Machová
- před 9 lety
- Počet zobrazení:
Transkript
1 Průzkumová analýza dat
2 Proč zkoumat data? Základ průzkumové analýzy dat položil John Tukey ve svém díle Exploratory Data Analysis (odtud zkratka EDA). Často se stává, že data, se kterými pracujeme, se v některých aspektech chovají zvláštně. Problém tohoto chování spočívá v tom, že jejich vlastnosti a chování nesouhlasí s požadovanými předpoklady pro jejich zpracování standardními statistickými metodami. Cílem EDA je vyhledání a identifikace nestandardního chování statistických dat a ověření předpokladů potřebných pro zpracování těchto dat.
3 Vlastnosti dat zkoumaných v rámci EDA Identifikace odlehlých pozorování. Ověření normality rozdělení. Posouzení šikmosti rozdělení. Ověření nezávislosti prvků ve výběru. Ověření homoskedasticity dat. Ověření podmínky minimálního rozsahu výběru.
4 Identifikace odlehlých pozorování Existuje značná nejednotnost v názvosloví někdy se pojem odlehlé pozorování ztotožňuje s pojmem vybočující pozorování či extrémní pozorování, jindy se tyto pojmy definují různým způsobem. Předpokládejme, že odlehlým, vybočujícím či extrémním pozorováním je hodnota, která je oproti ostatním hodnotám souboru extrémně nízká či extrémně vysoká.
5 Důvody vzniku odlehlých pozorování 1. Hodnoty korektně získané a správné, které vznikly jako důsledek mimořádného chování sledované veličiny (př. zvýšená koncentrace oxidu síry v ovzduší apod.). 2. Hodnoty, které jsou důsledkem chyb, ke kterým došlo v průběhu zjišťování dat, jejich zaznamenávání či zadávání do elektronické podoby (př. porucha měřícího přístroje, překlep při zadávání dat do elektronické podoby atd.).
6 Práce s odlehlými hodnotami Hodnoty, které jsou správně naměřené, by měly být v souboru ponechány, popř. je možné s nimi pracovat odděleně. Pokud budou v souboru ponechány, je potřeba zpracovat data pomocí robustních metod. Hodnoty, které jsou chybné, je doporučeno ze souboru ostatních hodnot vyloučit.
7 Způsoby detekce odlehlých pozorování Grafické znázornění (Krabicový graf, kvantilkvantilový graf, graf symetrie apod.) spíše slouží k upozornění, na které hodnoty si dát pozor, které hodnoty by mohly být skutečně odlehlé. Testy odlehlých hodnot (Grubbsův, Dixonův a další) lze pomocí nich prokázat s určitou pravděpodobností výskyt odlehlých hodnot v souboru.
8 Grafické znázornění odlehlých hodnot Graf odlehlých hodnot (diagram rozptýlení)
9 Grafické znázornění odlehlých hodnot Outlier Plot (Graf odlehlých hodnot) Zobrazuje hodnoty všech dat společně s horizontálními přímkami na úrovni výběrového průměru plus/mínus 1, 2, 3 a 4 směrodatné odchylky. Body, nacházející se mimo pole 3 směrodatných odchylek, se považují za podezřelé, a měly by být posouzeny z pohledu jejich možné odlehlosti.
10 Grafické znázornění odlehlých hodnot Krabicový graf
11 Grafické znázornění odlehlých hodnot
12 Grafické znázornění odlehlých hodnot Kvantil-kvantilový graf
13 Grafické znázornění odlehlých hodnot Kvantil-kvantilový graf (Q-Q graf) Zobrazuje hodnoty od nejmenší po největší takovým způsobem, aby bylo možné posoudit, zda tyto hodnoty pocházejí z normálního rozdělení či nikoli. Je založen na porovnání kvantilů empirického rozdělení a zvoleného teoretického rozdělení. Je konstruován tak, že pokud empirické rozdělení plně odpovídá teoretickému, pak je grafem přímka.
14 Testy odlehlých hodnot
15 Testy odlehlých hodnot Grubbsův test Vypočítáme testové kritérium pro první, resp. poslední hodnotu neklesající řady: T =, resp. T =, kde x je aritmetický průměr, x je první hodnota neklesající řady, x je poslední hodnota neklesající řady, s je směrodatná odchylka. Kritický obor je vymezen nerovností: T > T., resp. T > T.
16 Testy odlehlých hodnot Grubbsův test
17 Testy odlehlých hodnot
18 Testy odlehlých hodnot Dixonův test Vypočítáme testové kritérium pro první, příp. poslední hodnotu řady: Q =, příp. Q =, kde R je variační rozpětí souboru, tj. R = x x. Kritický obor je vymezen nerovností: Q > Q., příp. Q > Q.
19 Testy odlehlých hodnot Dixonův test Tabulky s kritickými hodnotami Dixonova testu pro α = 0,05:
20 Kvantilové a robustní míry úrovně a variability Kvantilové a robustní míry je možné použít k charakterizování vlastností souboru, ve kterém se vyskytují odlehlé hodnoty, neboť jsou vůči nim méně citlivé než třeba momentové míry. Patří sem: Modus Obecně je definován jako nejčastěji se vyskytující varianta znaku. Pro spojitou náhodnou veličinu je definován jako lokální maximum hustoty pravděpodobnosti, pro nespojitou náhodnou veličinu jako hodnota, ve které má pravděpodobnostní funkce své maximum. Modus je vždy robustní, není citlivý na odlehlé hodnoty.
21 Kvantily Kvantilové a robustní míry úrovně a variability Výklad viz Popisné charakteristiky. Medián Hodnota, která rozděluje uspořádaný soubor na dvě stejné četné části. Je věrohodným odhadem polohy Laplaceova (oboustranného exponenciálního) rozdělení a má pro toto rozdělení minimální rozptyl D =. Patří mezi robustní kvantilové charakteristiky.
22 Kvantilové a robustní míry úrovně a variability Kvartilové rozpětí (interkvartilové či mezikvartilové rozpětí) Definováno jako rozdíl mezi horním a dolním kvartilem, tj. R = x x Pomocí R lze odhadnou směrodatnou odchylku σ podle vztahu: s = 0,7413 R.
23 Kvantilové a robustní míry úrovně Uřezaný průměr x (θ) a variability Využívá lineární kombinace pořádkových statistik. Parametr θ určuje procento oddělených ( uřezaných ) pořádkových statistik na každém konci, nejnižších a nejvyšších. Za optimální se považuje hodnota θ = 10, tj. desetiprocentní uřezaný průměr. V případě, kdy se očekává větší počet odlehlých hodnot, je možné jít až na hodnotu θ = 25.
24 Kvantilové a robustní míry úrovně a variability Uřezaný průměr je definován jako: x θ = x ( ), kde M = int( ).
25 Ověřování normality Mnoho statistických metod a procedur vyžaduje, aby byl splněn předpoklad normality dat, tj. že výběr pochází z normálního rozdělení. Existuje mnoho jevů, o kterých lze na základě věcného rozboru a zkušenosti usoudit, že jsou normálně rozdělené. Pokud je ovšem zřejmé, že data z normálního rozdělení nepocházejí, pak je třeba: a) využít neparametrické metody; b) transformovat data tak, aby byla normální či se normalitě dost přibližovala.
26 Testy normality Patří mezi neparametrické testy, a konkrétněji mezi testy o tvaru rozdělení. Nulová hypotéza předpokládá, že výběr pochází z normálního rozdělení. Parametry rozdělení mohou být nulovou hypotézou také specifikované. Vzniklo mnoho testů, pomocí kterých lze normalitu dat testovat např. chí-kvadrát test dobré shody, Kolmogorovův-Smirnovův test, Shapirův-Wilkův test, test Andersonův-Darlingův, Filibenův, D Agostinův a další.
27 Kolmogorovův-Smirnovův test pro jeden výběr Předpoklad: Pracujeme s náhodným výběrem, který pochází z některého hypotetického rozdělení (obecně), které je nulovou hypotézou úplně specifikované. Je vhodný i pro výběry malého rozsahu, tj. 3 n < 50. Výhoda: Vychází z původních napozorovaných hodnot a nikoli z údajů roztříděných do skupin. Nedochází tak ke ztrátě informace, která je ve výběru obsažena. H : F x = F x H : non H F x empirická (skutečná) distribuční funkce veličiny X F x teoretická (hypotetická) distribuční funkce veličiny X
28 Kolmogorovův-Smirnovův test pro jeden výběr Empirickou distribuční funkci určíme z hodnot upořádaných podle velikosti x x x. Empirická distribuční funkce je definována tvarem: = 0 pro x < x F x = pro x x < x, i = 1, 2,, n 1 = 1 pro x x
29 Kolmogorovův-Smirnovův test pro jeden výběr Testovým kritériem je maximální absolutní rozdíl teoretické distribuční funkce F x a empirické distribuční funkce F x : D = max F x D = max D, D,, D, F (x ) Vymezení kritického oboru: W D ; D D ; Kritické hodnoty K-S testu jsou tabelovány pro různá n a α. Pro velké soubory (n > 50) je možné je přibližně vypočítat podle: d n = ( ) ln( ).
30 Shapirův-Wilkův test Je jedním z nejsilnějších testů normality. Lze použít i pro malé výběry, tj. 3 n < 50. Nulová hypotéza předpokládá, že výběr pochází z normálního rozdělení s libovolnými parametry μ a σ. Testové kritérium pro rozsahy výběru mezi 3 a 50 je: SW =
31 Shapirův-Wilkův test Výpočet SW vyžaduje znalost koeficientů a, které byly odvozeny speciálně pro potřeby tohoto testu. Bývají tabelovány. Nulová hypotéza se zamítá, pokud je vypočítaná hodnota SW menší než kritická hodnota Shapirova- Wilkova testu pro dané n a α.
32 Ověření nezávislosti prvků ve výběru Důležitým předpokladem kvalitních měření je vzájemná nezávislost zjištěných výsledků. Možné důvody vzniku závislosti měření: 1) Nesprávný (nenáhodný) výběr vzorků k měření. 2) Porušení konstantnosti podmínek měření. 3) Měřící zařízení je nestabilní nebo došlo k jeho změně. 4) Opomenutí činitelů, které mají vliv na výsledek měření, např. teplota, nečistota chemických látek, objem vzorků apod.
33 Ověření nezávislosti prvků ve výběru Pokud se uvedené důvody mění v čase, projeví se vznikem časové závislosti mezi prvky výběru, které jsou uspořádány z hlediska času. Pro posouzení časové závislosti prvků ve výběrovém souboru, je možné použít test významnosti koeficientu autokorelace prvního řádu, Durbin-Watsonův test autokorelace, Znaménkový test a další.
34 Test významnosti koeficientu autokorelace prvního řádu Nulová hypotéza předpokládá, že koeficient autokorelace ρ se rovná nule, tj. hodnoty po sobě jdoucí v časové řadě nejsou závislé. H : ρ = 0 H : ρ 0 Testovým kritériem je statistika t, která se při platnosti nulové hypotézy řídí Studentovým rozdělením t s (n+1) stupni volnosti. t =
35 Test významnosti koeficientu autokorelace prvního řádu Pomocné výpočty: T = poměr. 1, kde T značí von Neumannův T = Pro kritický obor platí: t > t n + 1
36 Ověření homoskedasticity dat Homoskedasticitou dat rozumíme skutečnost, kdy rozptyly v jednotlivých skupinách, do kterých je soubor roztříděn, jsou shodné. Předpoklad homoskedasticity je častou podmínkou vyžadovanou při použití některých statistických metod. Existuje mnoho testů homoskedasticity: Bartlettův, Leveneův, Cochranův, Hartleyho a další.
37 Bartlettův test Lze použít jak pro soubory, které mají stejný počet pozorování u všech k skupin, tak i pro soubory, které nemají stejný počet pozorování ve všech k skupinách, je tedy použitelný univerzálně. Nulová hypotéza předpokládá, že rozptyly ve všech skupinách, do kterých je soubor roztříděn, jsou shodné. Alternativní hypotéza tvrdí, že alespoň 2 z těchto rozptylů jsou různé, tj. H : σ = σ = = σ H : non H
38 Bartlettův test Testovým kritériem je statistika B, která se v případě platnosti nulové hypotézy řídí přibližně rozdělením χ s n-1 stupni volnosti: B = n k ln s n 1 ln s. Při výpočtu B používáme následující vztahy: s = y je průměr i-té skupiny. y y, i = 1, 2,, k s = y y
39 Bartlettův test C = 1 + Bartlettův test je dosti citlivý na porušení předpokladu normality rozdělení. Tento problém může nastat zejména u souborů malého rozsahu. Namísto tohoto test lze použít Leveneův test, který na porušení předpokladu normality tak citlivý není.
40 Leveneův test homogenity Původní data nahradíme hodnotami náhodných veličin, pro které obecně platí: z = y y, i = 1, 2,, k, j = 1, 2,, n. K výpočtu hodnoty testového kritéria použijeme tyto pomocné výpočty: z = z z = z S = z z S = n z z
41 Leveneův test homogenity Testovým kritériem je statistika F, kterou vypočítáme podle: F = / / ~F k 1, n k. Kritický obor: W F ; F F k 1, n k Pro vybrané případy je možné použít i modifikace Leveneova testu. Např. pokud bude soubor nějakým způsobem sešikmený, lze místo skupinových průměrů využít skupinových mediánů při výpočtech.
UNIVERZITA OBRANY Fakulta ekonomiky a managementu. Aplikace STAT1. Výsledek řešení projektu PRO HORR2011 a PRO GRAM2011 3. 11.
UNIVERZITA OBRANY Fakulta ekonomiky a managementu Aplikace STAT1 Výsledek řešení projektu PRO HORR2011 a PRO GRAM2011 Jiří Neubauer, Marek Sedlačík, Oldřich Kříž 3. 11. 2012 Popis a návod k použití aplikace
PRŮZKUMOVÁ ANALÝZA JEDNOROZMĚRNÝCH DAT Exploratory Data Analysis (EDA)
PRŮZKUMOVÁ ANALÝZA JEDNOROZMĚRNÝCH DAT Exploratory Data Analysis (EDA) Reprezentativní náhodný výběr: 1. Prvky výběru x i jsou vzájemně nezávislé. 2. Výběr je homogenní, tj. všechna x i jsou ze stejného
Statistika, Biostatistika pro kombinované studium Letní semestr 2011/2012. Tutoriál č. 4: Exploratorní analýza. Jan Kracík
Statistika, Biostatistika pro kombinované studium Letní semestr 2011/2012 Tutoriál č. 4: Exploratorní analýza Jan Kracík jan.kracik@vsb.cz Statistika věda o získávání znalostí z empirických dat empirická
Statistická analýza jednorozměrných dat
Statistická analýza jednorozměrných dat Prof. RNDr. Milan Meloun, DrSc. Univerzita Pardubice, Pardubice 31.ledna 2011 Tato prezentace je spolufinancována Evropským sociálním fondem a státním rozpočtem
Předpoklad o normalitě rozdělení je zamítnut, protože hodnota testovacího kritéria χ exp je vyšší než tabulkový 2
Na úloze ukážeme postup analýzy velkého výběru s odlehlými prvky pro určení typu rozdělení koncentrace kyseliny močové u 50 dárců krve. Jaká je míra polohy a rozptýlení uvedeného výběru? Z grafických diagnostik
Zápočtová práce STATISTIKA I
Zápočtová práce STATISTIKA I Obsah: - úvodní stránka - charakteristika dat (původ dat, důvod zpracování,...) - výpis naměřených hodnot (v tabulce) - zpracování dat (buď bodové nebo intervalové, podle charakteru
VŠB Technická univerzita Ostrava Fakulta elektrotechniky a informatiky SMAD
VŠB Technická univerzita Ostrava Fakulta elektrotechniky a informatiky JMÉNO STUDENTKY/STUDENTA: OSOBNÍ ČÍSLO: JMÉNO CVIČÍCÍ/CVIČÍCÍHO: SMAD Cvičení Ostrava, AR 2016/2017 Popis datového souboru Pro dlouhodobý
VŠB Technická univerzita Ostrava Fakulta elektrotechniky a informatiky
VŠB Technická univerzita Ostrava Fakulta elektrotechniky a informatiky PRAVDĚPODOBNOST A STATISTIKA Zadání 1 JMÉNO STUDENTKY/STUDENTA: OSOBNÍ ČÍSLO: JMÉNO CVIČÍCÍ/CVIČÍCÍHO: DATUM ODEVZDÁNÍ DOMÁCÍ ÚKOL
S E M E S T R Á L N Í
Univerzita Pardubice Fakulta chemicko-technologická Katedra analytické chemie S E M E S T R Á L N Í P R Á C E Licenční studium Statistické zpracování dat při managementu jakosti Předmět ANOVA analýza rozptylu
Testování statistických hypotéz
Testování statistických hypotéz Na základě náhodného výběru, který je reprezentativním vzorkem základního souboru (který přesně neznáme, k němuž se ale daná statistická hypotéza váže), potřebujeme ověřit,
Úloha E301 Čistota vody v řece testem BSK 5 ( Statistická analýza jednorozměrných dat )
Úloha E301 Čistota vody v řece testem BSK 5 ( Statistická analýza jednorozměrných dat ) Zadání : Čistota vody v řece byla denně sledována v průběhu 10 dní dle biologické spotřeby kyslíku BSK 5. Jsou v
UNIVERZITA PARDUBICE Fakulta chemicko-technologická Katedra analytické chemie Nám. Čs. Legií 565, Pardubice
UNIVERZITA PARDUBICE Fakulta chemicko-technologická Katedra analytické chemie Nám. Čs. Legií 565, 532 10 Pardubice 10. licenční studium chemometrie STATISTICKÉ ZPRACOVÁNÍ DAT Semestrální práce STATISTICKÁ
Charakteristika datového souboru
Zápočtová práce z předmětu Statistika Vypracoval: 10. 11. 2014 Charakteristika datového souboru Zadání: Při kontrole dodržování hygienických norem v kuchyni se prováděl odběr vzduchu a pomocí filtru Pallflex
Neparametrické metody
Neparametrické metody Dosud jsme se zabývali statistickými metodami, které zahrnovaly předpoklady o rozdělení dat. Zpravidla jsme předpokládali normální rozdělení. Např. Grubbsův test odlehlých hodnot
Statistická analýza. jednorozměrných dat
Univerzita Pardubice Fakulta chemicko technologická Katedra analytické chemie icenční studium chemometrie Statistické zpracování dat Statistická analýza jednorozměrných dat Zdravotní ústav se sídlem v
VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ. FAKULTA STROJNÍHO INŽENÝRSTVÍ Ústav materiálového inženýrství - odbor slévárenství
1 PŘÍLOHA KE KAPITOLE 11 2 Seznam příloh ke kapitole 11 Podkapitola 11.2. Přilité tyče: Graf 1 Graf 2 Graf 3 Graf 4 Graf 5 Graf 6 Graf 7 Graf 8 Graf 9 Graf 1 Graf 11 Rychlost šíření ultrazvuku vs. pořadí
Univerzita Pardubice Fakulta chemicko-technologická Katedra analytické chemie STATISTICKÉ ZPRACOVÁNÍ EXPERIMENTÁLNÍCH DAT
Univerzita Pardubice Fakulta chemicko-technologická Katedra analytické chemie STATISTICKÉ ZPRACOVÁNÍ EXPERIMENTÁLNÍCH DAT STATISTICKÁ ANALÝZA JEDNOROZMĚRNÝCH DAT Seminární práce 1 Brno, 2002 Ing. Pavel
UNIVERZITA PARDUBICE CHEMICKO-TECHNOLOGICKÁ FAKULTA KATEDRA ANALYTICKÉ CHEMIE
UNIVERZITA PARDUBICE CHEMICKO-TECHNOLOGICKÁ FAKULTA KATEDRA ANALYTICKÉ CHEMIE STATISTICKÁ ANALÝZA JEDNOROZMĚRNÝCH DAT V OSTRAVĚ 20.3.2006 MAREK MOČKOŘ PŘÍKLAD Č.1 : ANALÝZA VELKÝCH VÝBĚRŮ Zadání: Pro kontrolu
VŠB Technická univerzita Ostrava BIOSTATISTIKA
VŠB Technická univerzita Ostrava Fakulta elektrotechniky a informatiky JMÉNO STUDENTKY/STUDENTA: OSOBNÍ ČÍSLO: JMÉNO CVIČÍCÍ/CVIČÍCÍHO: BIOSTATISTIKA Domácí úkoly Zadání 5 DATUM ODEVZDÁNÍ DOMÁCÍ ÚKOL 1:
Kvantily a písmenové hodnoty E E E E-02
Na úloze ukážeme postup průzkumové analýzy dat. Při výrobě calciferolu se provádí kontrola meziproduktu 3,5 DNB esteru calciferolu metodou HPLC. Sleduje se také obsah přítomného ergosterinu jako nečistoty,
Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.
Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz Pravděpodobnost a matematická statistika 2010 1.týden (20.09.-24.09. ) Data, typy dat, variabilita, frekvenční analýza
Národníinformačnístředisko pro podporu jakosti
Národníinformačnístředisko pro podporu jakosti OVĚŘOVÁNÍ PŘEDPOKLADU NORMALITY Doc. Ing. Eva Jarošová, CSc. Ing. Jan Král Používané metody statistické testy: Chí-kvadrát test dobré shody Kolmogorov -Smirnov
TECHNICKÁ UNIVERZITA V LIBERCI SEMESTRÁLNÍ PRÁCE
TECHNICKÁ UNIVERZITA V LIBERCI Ekonomická fakulta Studentská 2 461 17 Liberec 1 SEMESTRÁLNÍ PRÁCE STATISTICKÝ ROZBOR DAT Z DOTAZNÍKOVÝCH ŠETŘENÍ Gabriela Dlasková, Veronika Bukovinská Sára Kroupová, Dagmar
NÁHODNÁ ČÍSLA. F(x) = 1 pro x 1. Náhodná čísla lze generovat některým z následujících generátorů náhodných čísel:
NÁHODNÁ ČÍSLA TYPY GENERÁTORŮ, LINEÁRNÍ KONGRUENČNÍ GENERÁTORY, TESTY NÁHODNOSTI, VYUŽITÍ HODNOT NÁHODNÝCH VELIČIN V SIMULACI CO JE TO NÁHODNÉ ČÍSLO? Náhodné číslo definujeme jako nezávislé hodnoty z rovnoměrného
Statistická analýza jednorozměrných dat
Statistická analýza jednorozměrných dat Prof. RNDr. Milan Meloun, DrSc. Univerzita Pardubice, Pardubice 31.ledna 2011 Tato prezentace je spolufinancována Evropským sociálním fondem a státním rozpočtem
676 + 4 + 100 + 196 + 0 + 484 + 196 + 324 + 64 + 324 = = 2368
Příklad 1 Je třeba prověřit, zda lze na 5% hladině významnosti pokládat za prokázanou hypotézu, že střední doba výroby výlisku je 30 sekund. Přitom 10 náhodně vybraných výlisků bylo vyráběno celkem 540
TECHNICKÁ UNIVERZITA V LIBERCI. Ekonomická fakulta. Semestrální práce. Statistický rozbor dat z dotazníkového šetření školní zadání
TECHNICKÁ UNIVERZITA V LIBERCI Ekonomická fakulta Semestrální práce Statistický rozbor dat z dotazníkového šetření školní zadání Skupina: 51 Vypracovaly: Pavlína Horná, Nikola Loumová, Petra Mikešová,
PRAVDĚPODOBNOST A STATISTIKA
PRAVDĚPODOBNOST A STATISTIKA Definice lineárního normálního regresního modelu Lineární normální regresní model Y β ε Matice n,k je matice realizací. Předpoklad: n > k, h() k - tj. matice je plné hodnosti
UNIVERZITA PARDUBICE
UNIVERZITA PARDUBICE Fakulta chemicko-technologická Katedra analytické chemie Vedoucí studia a odborný garant: Prof. RNDr. Milan Meloun, DrSc. Vyučující: Prof. RNDr. Milan Meloun, DrSc. Autor práce: ANDRII
STATISTIKA A INFORMATIKA - bc studium OZW, 1.roč. (zkušební otázky)
STATISTIKA A INFORMATIKA - bc studium OZW, 1.roč. (zkušební otázky) 1) Význam a využití statistiky v biologických vědách a veterinárním lékařství ) Rozdělení znaků (veličin) ve statistice 3) Základní a
JEDNOVÝBĚROVÉ TESTY. Komentované řešení pomocí programu Statistica
JEDNOVÝBĚROVÉ TESTY Komentované řešení pomocí programu Statistica Vstupní data Data umístěná v excelovském souboru překopírujeme do tabulky ve Statistice a pojmenujeme proměnné, viz prezentace k tématu
PRŮZKUMOVÁ ANALÝZA DAT (EDA)
PRŮZKUMOVÁ ANALÝZA DAT (EDA) 1 Vytvořeno s podporou projektu Průřezová inovace studijních programů Lesnické a dřevařské fakulty MENDELU v Brně (LDF) s ohledem na discipliny společného základu (reg. č.
Statistická analýza jednorozměrných dat
Statistická analýza jednorozměrných dat Prof. RNDr. Milan Meloun, DrSc. Univerzita Pardubice, Pardubice 31.ledna 2011 Tato prezentace je spolufinancována Evropským sociálním fondem a státním rozpočtem
4ST201 STATISTIKA CVIČENÍ Č. 7
4ST201 STATISTIKA CVIČENÍ Č. 7 testování hypotéz parametrické testy test hypotézy o střední hodnotě test hypotézy o relativní četnosti test o shodě středních hodnot testování hypotéz v MS Excel neparametrické
Matematika III. 27. listopadu Vysoká škola báňská - Technická univerzita Ostrava. Matematika III
Vysoká škola báňská - Technická univerzita Ostrava 27. listopadu 2017 Typy statistických znaků (proměnných) Typy proměnných: Kvalitativní proměnná (kategoriální, slovní,... ) Kvantitativní proměnná (numerická,
S E M E S T R Á L N Í
Univerzita Pardubice Fakulta chemicko-technologická Katedra analytické chemie S E M E S T R Á L N Í P R Á C E Licenční studium Statistické zpracování dat při managementu jakosti Předmět Statistická analýza
Přednáška 9. Testy dobré shody. Grafická analýza pro ověření shody empirického a teoretického rozdělení
Přednáška 9 Testy dobré shody Grafická analýza pro ověření shody empirického a teoretického rozdělení χ 2 test dobré shody ověření, zda jsou relativní četnosti jednotlivých variant rovny číslům π 01 ;
Statistika pro geografy
Statistika pro geografy 2. Popisná statistika Mgr. David Fiedor 23. února 2015 Osnova 1 2 3 Pojmy - Bodové rozdělení četností Absolutní četnost Absolutní četností hodnoty x j znaku x rozumíme počet statistických
Jednofaktorová analýza rozptylu
Jednofaktorová analýza rozptylu David Hampel Ústav statistiky a operačního výzkumu, Mendelova univerzita v Brně Kurz pokročilých statistických metod Global Change Research Centre AS CR, 5 7 8 2015 Tato
1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.
Testy hypotéz na základě více než 2 výběrů 1 1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004. Testy hypotéz na základě více než 2 výběrů Na analýzu rozptylu lze pohlížet v podstatě
Vzorová prezentace do předmětu Statistika
Vzorová prezentace do předmětu Statistika Popis situace: U 3 náhodně vybraných osob byly zjišťovány hodnoty těchto proměnných: SEX - muž, žena PUVOD Skandinávie, Středomoří, 3 západní Evropa IQ hodnota
MATEMATICKÁ STATISTIKA. Katedra matematiky a didaktiky matematiky Technická univerzita v Liberci
MATEMATICKÁ STATISTIKA Dana Černá http://www.fp.tul.cz/kmd/ Katedra matematiky a didaktiky matematiky Technická univerzita v Liberci Matematická statistika Matematická statistika se zabývá matematickým
veličin, deskriptivní statistika Ing. Michael Rost, Ph.D.
Vybraná rozdělení spojitých náhodných veličin, deskriptivní statistika Ing. Michael Rost, Ph.D. Třídění Základním zpracováním dat je jejich třídění. Jde o uspořádání získaných dat, kde volba třídícího
VYBRANÉ DVOUVÝBĚROVÉ TESTY. Martina Litschmannová
VYBRANÉ DVOUVÝBĚROVÉ TESTY Martina Litschmannová Obsah přednášky Vybrané dvouvýběrové testy par. hypotéz test o shodě rozptylů (F-test), testy o shodě středních hodnot (t-test, Aspinové-Welchův test),
Statistická analýza jednorozměrných dat
Univerzita Pardubice Fakulta chemicko-technologická, Katedra analytické chemie Licenční studium GALILEO Interaktivní statistická analýza dat Semestrální práce z předmětu Statistická analýza jednorozměrných
Návrhy dalších možností statistického zpracování aktualizovaných dat
Návrhy dalších možností statistického zpracování aktualizovaných dat Při zjišťování disparit ve fyzické dostupnosti bydlení navrhuji použití těchto statistických metod: Bag plot; Krabicové grafy a jejich
STATISTICKÉ CHARAKTERISTIKY
STATISTICKÉ CHARAKTERISTIKY 1 Vytvořeno s podporou projektu Průřezová inovace studijních programů Lesnické a dřevařské fakulty MENDELU v Brně (LDF) s ohledem na discipliny společného základu (reg. č. CZ.1.07/2.2.00/28.0021)
Testování hypotéz testy o tvaru rozdělení. Jiří Neubauer. Katedra ekonometrie, FVL, UO Brno kancelář 69a, tel
Katedra ekonometrie, FVL, UO Brno kancelář 69a, tel. 973 442029 email:jiri.neubauer@unob.cz Statistickou hypotézou se rozumí určité tvrzení o parametrech rozdělení zkoumané náhodné veličiny (µ, σ 2, π,
PRAVDĚPODOBNOST A STATISTIKA
PRAVDĚPODOBNOST A STATISTIKA Definice lineárního normálního regresního modelu Lineární normální regresní model Y Xβ ε Předpoklady: Matice X X n,k je matice realizací. Předpoklad: n > k, h(x) k - tj. matice
Porovnání dvou výběrů
Porovnání dvou výběrů Menu: QCExpert Porovnání dvou výběrů Tento modul je určen pro podrobnou analýzu dvou datových souborů (výběrů). Modul poskytuje dva postupy analýzy: porovnání dvou nezávislých výběrů
Pravděpodobnost a matematická statistika
Pravděpodobnost a matematická statistika Příklady k přijímacím zkouškám na doktorské studium 1 Popisná statistika Určete aritmetický průměr dat, zadaných tabulkou hodnot x i a četností n i x i 1 2 3 n
Testy statistických hypotéz
Testy statistických hypotéz Statistická hypotéza je jakýkoliv předpoklad o rozdělení pravděpodobnosti jedné nebo několika náhodných veličin. Na základě náhodného výběru, který je reprezentativním vzorkem
TECHNICKÁ UNIVERZITA V LIBERCI
TECHNICKÁ UNIVERZITA V LIBERCI Ekonomická fakulta Semestrální práce Statistický rozbor dat z dotazníkového šetření Počet stran: 10 Datum odevzdání: 13. 5. 2016 Pavel Kubát Obsah Úvod... 3 1 Charakterizujte
Testování hypotéz. 1 Jednovýběrové testy. 90/2 odhad času
Testování hypotéz 1 Jednovýběrové testy 90/ odhad času V podmínkách naprostého odloučení má voák prokázat schopnost orientace v čase. Úkolem voáka e provést odhad časového intervalu 1 hodiny bez hodinek
Stručný úvod do testování statistických hypotéz
Stručný úvod do testování statistických hypotéz 1. Formulujeme hypotézu (předpokládáme, že pozorovaný jev je pouze náhodný). 2. Zvolíme hladinu významnosti testu a, tj. riziko, s nímž jsme ochotni se smířit.
Zpracování náhodného výběru. Ing. Michal Dorda, Ph.D.
Zpracování náhodného výběru popisná statistika Ing. Michal Dorda, Ph.D. Základní pojmy Úkolem statistiky je na základě vlastností výběrového souboru usuzovat o vlastnostech celé populace. Populace(základní
Problematika analýzy rozptylu. Ing. Michael Rost, Ph.D.
Problematika analýzy rozptylu Ing. Michael Rost, Ph.D. Úvod do problému Již umíte testovat shodu dvou středních hodnot prostřednictvím t-testů. Otázka: Jaké předpoklady musí být splněny, abyste mohli použít
Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.
Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz Pravděpodobnost a matematická statistika 2010 1.týden (20.09.-24.09. ) Data, typy dat, variabilita, frekvenční analýza
Číselné charakteristiky
. Číselné charakteristiky statistických dat Průměrný statistik se během svého života ožení s 1,75 ženami, které se ho snaží vytáhnout večer do společnosti,5 x týdně, ale pouze s 50% úspěchem. W. F. Miksch
ZÁKLADNÍ STATISTICKÉ CHARAKTERISTIKY
zhanel@fsps.muni.cz ZÁKLADNÍ STATISTICKÉ CHARAKTERISTIKY METODY DESKRIPTIVNÍ STATISTIKY 1. URČENÍ TYPU ŠKÁLY (nominální, ordinální, metrické) a) nominální + ordinální neparametrické stat. metody b) metrické
RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr.
Analýza dat pro Neurovědy RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr. Jaro 2014 Institut biostatistiky Janoušová, a analýz Dušek: Analýza dat pro neurovědy Blok 3 Jak a kdy použít parametrické a
Jiří Neubauer. Katedra ekonometrie, FVL, UO Brno kancelář 69a, tel
Katedra ekonometrie, FVL, UO Brno kancelář 69a, tel. 973 442029 email:jiri.neubauer@unob.cz Výsledky některých náhodných pokusů jsou přímo vyjádřeny číselně (např. při hodu kostkou padne 6). Náhodnou veličinou
Popisná statistika. Jaroslav MAREK. Univerzita Palackého
Popisná statistika Jaroslav MAREK Univerzita Palackého Přírodovědecká fakulta Katedra matematické analýzy a aplikací matematiky Tomkova 40, 779 00 Olomouc Hejčín tel. 585634606 marek@inf.upol.cz pondělí
Tématické okruhy pro státní závěrečné zkoušky. bakalářské studium. studijní obor "Management jakosti"
Tématické okruhy pro státní závěrečné zkoušky bakalářské studium studijní obor "Management jakosti" školní rok 2010/2011 Management jakosti A 1. Pojem jakosti a význam managementu jakosti v současném období.
You created this PDF from an application that is not licensed to print to novapdf printer (http://www.novapdf.com)
Testování statistických hypotéz Testování statistických hypotéz Princip: Ověřování určitého předpokladu zjišťujeme, zda zkoumaný výběr pochází ze základního souboru, který má určité rozdělení zjišťujeme,
Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz
Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz Pravděpodobnost a matematická
Simulace. Simulace dat. Parametry
Simulace Simulace dat Menu: QCExpert Simulace Simulace dat Tento modul je určen pro generování pseudonáhodných dat s danými statistickými vlastnostmi. Nabízí čtyři typy rozdělení: normální, logaritmicko-normální,
VŠB Technická univerzita Ostrava
VŠB Technická univerzita Ostrava Fakulta elektrotechniky a informatiky JMÉNO STUDENTKY/STUDENTA: OSOBNÍ ČÍSLO: JMÉNO CVIČÍCÍ/CVIČÍCÍHO: PRAVDĚPODOBNOST A STATISTIKA Domácí úkoly Zadání 21 DATUM ODEVZDÁNÍ
Neparametrické testy
Neparametrické testy Dosud jsme se zabývali statistickými metodami, které zahrnovaly předpoklady o rozdělení dat. Zpravidla jsme předpokládali normální (Gaussovo) rozdělení. Například: Grubbsův test odlehlých
Náhodná proměnná. Náhodná proměnná může mít rozdělení diskrétní (x 1. , x 2. ; x 2. spojité (<x 1
Náhodná proměnná Náhodná proměnná může mít rozdělení diskrétní (x 1, x 2,,x n ) spojité () Poznámky: 1. Fyzikální veličiny jsou zpravidla spojité, ale změřené hodnoty jsou diskrétní. 2. Pokud
Praktická statistika. Petr Ponížil Eva Kutálková
Praktická statistika Petr Ponížil Eva Kutálková Zápis výsledků měření Předpokládejme, že známe hodnotu napětí U = 238,9 V i její chybu 3,3 V. Hodnotu veličiny zapíšeme na tolik míst, aby až poslední bylo
Dva případy chybného rozhodnutí při testování: a) Testační statistika padne mimo obor přijetí nulové H hypotézy O, tj.
Uvedeme obecný postup statistického testování:. Formulace nulové H 0a alternativní hpotéz H A.. Volba hladin významnosti α.. Volba testační statistik např... Určení kritického oboru testové charakteristik.
Regresní analýza. Eva Jarošová
Regresní analýza Eva Jarošová 1 Obsah 1. Regresní přímka 2. Možnosti zlepšení modelu 3. Testy v regresním modelu 4. Regresní diagnostika 5. Speciální využití Lineární model 2 1. Regresní přímka 3 nosnost
MATEMATICKO STATISTICKÉ PARAMETRY ANALYTICKÝCH VÝSLEDKŮ
MATEMATICKO STATISTICKÉ PARAMETRY ANALYTICKÝCH VÝSLEDKŮ Má-li analytický výsledek objektivně vypovídat o chemickém složení vzorku, musí splňovat určitá kriteria: Mezinárodní metrologický slovník (VIM 3),
DVOUVÝBĚROVÉ A PÁROVÉ TESTY Komentované řešení pomocí programu Statistica
DVOUVÝBĚROVÉ A PÁROVÉ TESTY Komentované řešení pomocí programu Statistica Úloha A) koncentrace glukózy v krvi V této části posoudíme pomocí párového testu, zda nový lék prokazatelně snižuje koncentraci
Normální (Gaussovo) rozdělení
Normální (Gaussovo) rozdělení Normální (Gaussovo) rozdělení popisuje vlastnosti náhodné spojité veličiny, která vzniká složením různých náhodných vlivů, které jsou navzájem nezávislé, kterých je velký
Tématické okruhy pro státní závěrečné zkoušky. bakalářské studium. studijní obor "Management jakosti"
Tématické okruhy pro státní závěrečné zkoušky bakalářské studium studijní obor "Management jakosti" školní rok 2009/2010 Management jakosti A 1. Pojem jakosti a význam managementu jakosti v současném období.
VŠB Technická univerzita Ostrava BIOSTATISTIKA
VŠB Technická univerzita Ostrava Fakulta elektrotechniky a informatiky JMÉNO STUDENTKY/STUDENTA: OSOBNÍ ČÍSLO: JMÉNO CVIČÍCÍ/CVIČÍCÍHO: BIOSTATISTIKA Zadání 11 DATUM ODEVZDÁNÍ DOMÁCÍ ÚKOL 1: DOMÁCÍ ÚKOL
POPISNÁ STATISTIKA Komentované řešení pomocí programu Statistica
POPISNÁ STATISTIKA Komentované řešení pomocí programu Statistica Program Statistica I Statistica je velmi podobná Excelu. Na základní úrovni je to klikací program určený ke statistickému zpracování dat.
Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.
Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz Pravděpodobnost a matematická statistika 2010 1.týden (20.09.-24.09. ) Data, typy dat, variabilita, frekvenční analýza
Popisná statistika. Komentované řešení pomocí MS Excel
Popisná statistika Komentované řešení pomocí MS Excel Vstupní data Máme k dispozici data o počtech bodů z 1. a 2. zápočtového testu z Matematiky I v zimním semestru 2015/2016 a to za všech 762 studentů,
Charakterizace rozdělení
Charakterizace rozdělení Momenty f(x) f(x) f(x) μ >μ 1 σ 1 σ >σ 1 g 1 g σ μ 1 μ x μ x x N K MK = x f( x) dx 1 M K = x N CK = ( x M ) f( x) dx ( xi M 1 C = 1 K 1) N i= 1 K i K N i= 1 K μ = E ( X ) = xf
Základy popisné statistiky. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
Základy popisné statistiky Anotace Realitu můžeme popisovat různými typy dat, každý z nich se specifickými vlastnostmi, výhodami, nevýhodami a vlastní sadou využitelných statistických metod -od binárních
STATISTICKÁ ANALÝZA JEDNOROZMĚRNÝCH DAT. Semestrální práce UNIVERZITA PARDUBICE. Fakulta chemicko-technologická Katedra analytické chemie
UNIVERZITA PARDUBICE Fakulta chemicko-technologická Katedra analytické chemie STATISTICKÁ ANALÝZA JEDNOROZMĚRNÝCH DAT Semestrální práce Licenční studium Galileo Interaktivní statistická analýza dat Brno
KORELACE. Komentované řešení pomocí programu Statistica
KORELACE Komentované řešení pomocí programu Statistica Vstupní data I Data umístěná v excelovském souboru překopírujeme do tabulky ve Statistice a pojmenujeme proměnné, viz prezentace k tématu Popisná
Statistické metody v ekonomii. Ing. Michael Rost, Ph.D.
Statistické metody v ekonomii Ing. Michael Rost, Ph.D. Jihočeská univerzita v Českých Budějovicích Proč neparametrické testy? Pokud provádíte formální analýzu či testování hypotéz (zejména provádíte-li
y = 0, ,19716x.
Grafické ověřování a testování vybraných modelů 1 Grafické ověřování empirického rozdělení Při grafické analýze empirického rozdělení vycházíme z empirické distribuční funkce F n (x) příslušné k náhodnému
Číselné charakteristiky a jejich výpočet
Katedra ekonometrie, FVL, UO Brno kancelář 69a, tel. 973 442029 email:jiri.neubauer@unob.cz charakteristiky polohy charakteristiky variability charakteristiky koncetrace charakteristiky polohy charakteristiky
Jednofaktorová analýza rozptylu
I I.I Jednofaktorová analýza rozptylu Úvod Jednofaktorová analýza rozptylu (ANOVA) se využívá při porovnání několika středních hodnot. Často se využívá ve vědeckých a lékařských experimentech, při kterých
Pravděpodobnost a aplikovaná statistika
Pravděpodobnost a aplikovaná statistika MGR. JANA SEKNIČKOVÁ, PH.D. 8. KAPITOLA STATISTICKÉ TESTOVÁNÍ HYPOTÉZ 22.11.2016 Opakování: CLV příklad 1 Zadání: Před volbami je v populaci státu 52 % příznivců
Univerzita Pardubice Fakulta chemicko-technologická Katedra analytické chemie ANOVA. Semestrální práce
Univerzita Pardubice Fakulta chemicko-technologická Katedra analytické chemie ANOVA Semestrální práce Licenční studium GALILEO Interaktivní statistická analýza dat Brno, 2015 Doc. Mgr. Jan Muselík, Ph.D.
Určujeme neznámé hodnoty parametru základního souboru. Pomocí výběrové charakteristiky vypočtené z náhodného výběru.
1 Statistické odhady Určujeme neznámé hodnoty parametru základního souboru. Pomocí výběrové charakteristiky vypočtené z náhodného výběru. Odhad lze provést jako: Bodový odhad o Jedna číselná hodnota Intervalový
Rozhodnutí / Skutečnost platí neplatí Nezamítáme správně chyba 2. druhu Zamítáme chyba 1. druhu správně
Testování hypotéz Nechť,, je náhodný výběr z nějakého rozdělení s neznámými parametry. Máme dvě navzájem si odporující hypotézy o parametrech daného rozdělení: Nulová hypotéza parametry (případně jediný
Normální (Gaussovo) rozdělení
Normální (Gaussovo) rozdělení f x = 1 2 exp x 2 2 2 f(x) je funkce hustoty pravděpodobnosti, symetrická vůči poloze maxima x = μ μ střední hodnota σ směrodatná odchylka (tzv. pološířka křivky mezi inflexními
marek.pomp@vsb.cz http://homel.vsb.cz/~pom68
Statistika B (151-0303) Marek Pomp ZS 2014 marek.pomp@vsb.cz http://homel.vsb.cz/~pom68 Cvičení: Pavlína Kuráňová & Marek Pomp Podmínky pro úspěšné ukončení zápočet 45 bodů, min. 23 bodů, dvě zápočtové
Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.
Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz Pravděpodobnost a matematická statistika 010 1.týden (0.09.-4.09. ) Data, typy dat, variabilita, frekvenční analýza