Testy dobré shody TESTY DOBRÉ SHODY (angl. goodness-of-fit tests), : veličiny X, Y jsou nezávislé nij eij

Rozměr: px
Začít zobrazení ze stránky:

Download "Testy dobré shody TESTY DOBRÉ SHODY (angl. goodness-of-fit tests), : veličiny X, Y jsou nezávislé nij eij"

Transkript

1 Testy dobré shody Máme dvě veličiny a předpokládáme, že jsou nezávislé (platí nulová hypotéza nezávislosti). Často chceme naopak prokázat jejich závislost. K tomu slouží: TESTY DOBRÉ SHODY (angl. goodness-of-fit tests), které ověřují, zda reálné četnosti získané statistickým šetřením se statisticky významně odlišují od očekávaných četností, které vypočteme na základě platnosti nulové hypotézy. Mějme náhodné veličiny X a Y uspořádané do kontingenční tabulky. Nulovou hypotézu H 0 : veličiny X, Y jsou nezávislé zamítneme, když se pozorované četnosti n ij budou významně lišit od očekávaných četností e ij.

2 Testovým kritériem je statistika, která má asymptoticky (tj. pro dostatečně velké četnosti) rozdělení χ 2 s (r - 1)(s - 1) stupni volnosti. r s ( nij eij ) 2 χ = e i= 1 j= 1 Stupeň volnosti - je počet řádků (sloupců) tabulky, do kterých je možno vložit libovolnou hodnotu a přitom dodržet stanovený řádkový (sloupcový) součet. Dostatečně velké četnosti jsou takové, kdy všechny očekávané četnosti jsou větší než 1 (>1) a naprostá většina očekávaných četností (alespoň 80%) je > 5. ij 2

3 2 Je-li testovací statistika větší než "kritická" hodnota rozdělení χ pro zvolenou hladinu významnosti, zamítáme nulovou hypotézu o shodě empirického a teoretického rozložení. Riziko, že hypotézu zamítneme neoprávněně, se rovná zvolené hladině významnosti α. V opačném případě přijímáme hypotézu o shodě. PŘÍKLAD: Chceme ověřit, zda hrací kostka je fair, tzn. že všech 6 možných výsledků má stejnou pravděpodobnost. Házíme tedy opakovaně kostkou a zaznamenáme četnosti dosažených výsledků: kód Suma počet hodů Testujeme nulovou hypotézu, že pravděpodobnosti p i = 1/6. Teoretické četnosti e i, které bychom očekávali za platnosti nulové hypotézy ze 120 hodů, vypočtem tedy jako e i = n p i = 120 (1/6) = 20.

4 Nulovou hypotézu zamítneme, když se pozorované četnosti n i budou významně lišit od očekávaných četností e i. k 2 ( ni ei ) Testovým kritériem je statistika X = e kde k je počet možných výsledků. V našem příkladu s hrací kostkou k = 6 Znamená to, že H 0 zamítneme, pokud testová statistika je větší než kritická hodnota rozdělení χ 2 pro zvolenou hladinou významnosti α. Řešení najdete v souboru 6c_hazeni_kostkou.xls (Hodnota testové statistiky je 7,7, kritická hodnota 11,07 - testová statistika neleží v kritickém oboru a nulovou hypotézu nemůžeme zamítnout). i= 1 i

5 Na základě našeho experimentu jsme prokázali, že kostka je fair, tj. že pro ni platí zákonitosti binomického rozdělení a výsledky hodů byly ovlivněny pouze náhodou. Rozdělení χ 2 má ještě jednu zvláštnost: kromě krajně vysoké pravděpodobnosti obsahuje i krajně nízké pravděpodobnosti. Představme si, že bychom při 120 hodech kostkou hodili přesně 20x jedničku, 20x dvojku, 20x trojku, 20x čtyřku, 20x pětku a 20x šestku. Na první pohled vidíme, že by se jednalo o velmi zvláštní náhodu.

6 Vypočtená statistika odchylek by byla 0,0. Počet stupňů volnosti je 5. Podíváme-li se do tabulek distribuční funkce χ 2 na hodnotu funkce pro pravděpodobnost 0,01, najdeme kritickou hodnotu statistiky 0,55 (nebo v programu funkci CHISQ.INV(0,01;5) = 0,554. Vidíme, že naše "vypočtená statistika = 0" nestačí na kritickou hodnotu a že požadovaný výsledek se hodí až příliš dobře, takže nebyl dán prostor náhodě a vzbuzuje to podezření, že se neuplatnilo binomické rozdělení a "hody byly zmanipulovány". Najdete v souboru 6c_hazeni_kostkou.xls na listu Hrací kostka-opačný test

7 Testy dobré shody pro spojité veličiny Pro spojité veličiny a spojitá rozdělení je test dobré shody podobný, jen postup o trochu pracnější. Testujeme shodu rozdělení našich pozorovaných hodnot s nějakým spojitým teoretickým rozdělením, známe tedy distribuční funkci F(x) tohoto rozdělení. Potřebujeme zjistit empirické četnosti n i a očekávané četnosti e i, tzn. předtím musíme obor hodnot empirických dat rozdělit na intervaly, v nich zjistit četnosti, spočítat očekávané četnosti a vyhodnotit testové kriterium k 2 ( ni ei ) X = e Současně potřebujeme, aby očekávané četnosti byly větší než 5. (Zjednodušeně - viz dále) V příkladech používáme tuto symboliku: označíme-li očekávané četnosti jako O i a skutečně pozorované četnosti jako P i, k 2 ( Pi Oi ) pak výpočet testovací statistiky T zapíšeme: T = O i= 1 i= 1 i i

8 OBECNÁ KONTINGENČNÍ TABULKA - sdružené rozdělení dvou diskrétních veličin Máme-li dvě nominální veličiny X, Y, kde X může nabývat hodnot x 1,x 2,..., x r a veličina Y může nabývat hodnot y 1, y 2,..., y s, pak rozdělení četností pozorovaných hodnot můžeme vyjádřit kontingenční tabulkou: Proměnná X v řádcích Proměnná Y - ve sloupcích y 1 y 2 y 3 y s Celkem x 1 n 11 n 12 n 13 n 1s n 1. x 2 n 21 n 22 n 23.. n 2. x 3 n 31 n 32 n 3.. n 3. X r n r1.... n rs n r. Celkem n.1 n.2 n.3 n.s n..

9 Hodnoty n ij jsou absolutní četnosti, tzn. počty sledovaných objektů, kdy veličina X má hodnotu x i a současně veličina Y má hodnotu y j. Četnosti v posledním řádku a v posledním sloupci se nazývají marginální a jsou definovány jako řádkové (sloupcové) součty. Obvyklou úlohou statistické analýzy je rozhodnout, zda náhodné veličiny X a Y jsou nezávislé či mezi nimi existuje nějaký vtah a také nějakou vhodnou charakteristikou případnou závislost kvantifikovat. Test nezávislosti dvou nominálních náhodných veličin X, Y je založen na tom, že můžeme odhadnout četnosti, které bychom pozorovali, kdyby opravdu veličiny X, Y nezávislé byly. Jsou-li X, Y nezávislé, pak pravděpodobnost jevu, že současně nastane jev X = x i a Y = y j lze vyjádřit jako součin P ( X = xi ) ( Y = yj) = P( X = xi ) P( Y = yj) kde i = 1, 2,,r, j = 1, 2,,s

10 Očekávané četnosti vypočteme z marginálních řádkových a sloupcových četností tak, že očekávanou četnost pro i-tý řádek a j-tý sloupec vypočteme jako součin (n i.. n.j ) dělený počtem všech pozorování n Nulovou hypotézu H 0, že veličiny X, Y jsou nezávislé, zamítneme, když se pozorované četnosti n ij budou významně lišit od očekávaných četností e ij. ni. n. j 2 r s 2 ( n r s ij ) ( n Testovým kritériem je statistika ij eij ) 2 n.. χ = = n i= j= eij i= j= i n j n která má asymptoticky (tj. pro dostatečně velké četnosti) rozdělení χ 2 s (r - 1)(s - 1) stupni volnosti. n i. n n... j..

11 Při užití tohoto testu je nutno posoudit, zda je splněna podmínka, že četnosti v tabulce jsou dostatečně velké. Obvykle se pro užití tohoto testu požaduje podmínka, aby všechny očekávané četnosti e ij > 1 a naprostá většina (alespoň 80%) očekávaných četností byla e ij > 5. Kritickým oborem proto tento test nezávislosti je : X Є [ χ 2 (r-1)(s-1) (α) ; + ) Zamítneme-li hypotézu o nezávislosti veličin X a Y, pak nás obvykle zajímá, které pozorované četnosti (která políčka kontingenční tabulky) se od četností očekávaných při nezávislosti veličin významně odchylují. Říkáme, že vyhledáváme zdroje závislosti. Jedna z nejjednodušších metod posouzení těchto zdrojů závislosti je posouzení příspěvků jednotlivých políček tabulky k hodnotě testové statistiky r s 2 ( nij eij ) 2 χ = e i= 1 j= 1 ij

12 Velikost tohoto příspěvku je významná, když rozdíl pozorované a očekávané četnosti nelze považovat za náhodný, tj. tehdy, když pro obvykle užívanou hodnotu α = 0,05 je χ 2 = 3,84 (viz tabulky χ 2 rozdělení pro F(x) = 0,95). Pohodlnější je užít tzv. standardizovaná residua nij eij, která mají přibližně normované normální rozdělení, eij tzn. významná jsou políčka s absolutní hodnotou standardizovaných residuí větší než 2. Užijeme-li standardizovaná residua, podle jejich znaménka vidíme, zda pozorovaná četnost je větší či menší než očekávaná. Příklad: Máme posoudit, zda veličiny Lokalita a Odruda (data BI97) jsou nezávislé. Jinými slovy, zda zastoupeni obou odrůd ve všech čtyřech lokalitách můžeme považovat za shodné. Nulová hypotéza H 0 : Lokalita a Odruda jsou nezávislé veličiny. Výpočet provedeme s pomocí programu NCSS.

13 Cross Tabulation Report Counts Section lokal odruda Total Total Expected Counts Assuming Independence Section lokal odruda Total 1 14,8 14, , ,2 5,9 8 6,8 27 Total Chi-Square Contribution Section lokal odruda Total 1 1,83 0,09 0,21 0,30 2,42 2 4,36 0,21 0,50 0,71 5,78 Total 6,19 0,29 0,71 1,01 8,20 Chi-Square Statistics Section Chi-Square 8,2002 Degrees of Freedom 3 Probability Level 0,04205 Reject Ho WARNING: At less one cell had a value less than 5 V řádku Chi-Square vidíme, že hodnota testové statistiky je 8,20, odpovídající p = 0,042, tedy je menší než hladina významnosti a = 0,05. Hypotézu o nezávislosti veličin Lokalita a Odruda můžeme zamítnout, k čemuž nás ostatně nabádá i vysvětlující text ve výstupu, Reject Ho.

14 Všechny očekávané četnosti jsou větší než 5, jak vidíme v části Expected Counts Assuming Independence Section. Podíváme-li se na zdroje závislosti (Chi-Square Contribution Section), vidíme, že pouze v jednom políčku (odruda = 2, lokalita = 1) je hodnota příspěvku políčka větší než 3,84. Celkově můžeme shrnout, že hypotézu o nezávislosti veličin Lokalita a Odruda jsme sice zamítli na hladině významnosti a = 0,05, ale jen s odřenýma ušima (hodnota p = 0,042 je jen o málo menší, než hladina významnosti) a navíc pouze jedno políčko tabulky přispívá významně k celkové hodnotě testové statistiky, takže zjištěnou závislost veličin Lokalita a Odruda můžeme přičítat jen malé četnosti odrůdy 2 v lokalitě 1.

15 Standardizované příspěvky políček odruda Total 1 1,35-0,29-0,46-0,55 0,05 2-2,09 0,45 0,71 0,84-0,08 Total - 0,74 0,16 0,25 0,30-0,03 Pokud příspěvky políček standardizujeme (viz vzorec pro výpočet standardizovaných reziduí), můžeme najít stejné políčko (odrůda 2 v prvním sloupci), kde je příspěvek políčka výrazně vyšší zde znamená odchylku více než 2σ, protože porovnáváme se standardizovaným normálním rozdělením. Jelikož víme, že test je asymptotický, tedy pouze přibližný, je nutno se závěrem, že sledované veličiny nejsou nezávislé, zacházet velmi opatrně.

16 KONTINGENČNÍ TABULKA 2 x 2 Kontingenční tabulky často používáme v EPIDEMIOLOGII. Velmi často používáme právě tabulku 2 x 2 k zjištění, zda - výskyt vybrané diagnózy závisí na uvažované expozici - léčba nebo změna životního stylu má vliv na zdraví jedince - osvětové programy ovlivnily zdraví populace Náhodná veličina Y - např. onemocnění Náhodná veličina X - obvykle expozice ANO NE Celkem ANO a b a + b NE c d c + d Celkem a + c b + d a + b + c + d = n

17 K popisu četností v této tzv. čtyřpolní tabulce používáme pouze 4 hodnoty, proto je i pro zápis zjednodušeného výpočtu označujeme a, b, c, d χ 2 test nezávislosti v tabulce 2 x 2 Vzorec pro výpočet statistiky chí-kvadrát se zjednoduší na tvar: 2 2 ( ad bc) χ = n ( a + b)( a + c)( b + d)( c + d) Na příkladu testování vrozené vady kyčlí u dívek a chlapců (viz "6d_vady_kycli.xls") vidíme, že pro velké počty pozorovaných (a očekávaných) hodnot vychází CHITEST stejně jako výpočet podle zjednodušeného vzorce.

18 Pro malé pozorované (očekávané) četnosti můžeme test nezávislosti zpřesnit tzv. Yatesovou korekcí. Yatesova korekce 2 χ n 2 ( ad bc ) = 2 ( a + b)( a + c)( b + d)( c + d) n Tato veličina má opět rozdělení chí-kvadrát s jedním stupněm volnosti

19 Fischerův exaktní test Oba předchozí testy byly pouze přibližné a pro malé četnosti nejsou vhodné. V případě, že nejméně jedna očekávaná četnost je < 5 používáme Fischerův exaktní faktoriálový test. Spočívá v tom, že sestrojíme všechny možné tabulky, které mají stejné marginální četnosti jako původní tabulka a vybereme z nich ty, které jsou "vzdálenější" od hypotézy nezávislosti než původní tabulka, tj. jsou méně pravděpodobnější, pokud skutečně platí hypotéza nezávislosti. Sečteme-li pravděpodobnosti těchto tabulek, získáme tak součet P, který je hodnotou Fischerova testu. V praxi se tento přesný test používá opravdu pro malé četnosti, protože s rostoucím n roste dramaticky i počet možných tabulek. Pokud i nejmenší hodnota ve čtyřpolní tabulce je dostatečně velká (> 5), zmíněné testy chí-kvadrát nebo Yatesova korekce jsou pro tyto četnosti dostatečně blízké přesnému testu.

20 Princip Fisherova exaktního testu si ukážeme na příkladu této tabulky: Sportuje ano ne Suma ano ne Suma ano ne Suma ano ne Suma Kouří ano ano ano ano ne ne ne ne Suma Suma Suma Suma V první tabulce jsou naměřené četnosti u 32 studentů právnické fakulty a chceme zjistit, zda spolu souvisí sport a kouření u studentů. Četnosti jsou pro test chí-kvadrát malé - nelze jej použít. Vypočteme proto pravděpodobnost pro všechny tabulky podle vzorce: ( a + b)!( c + d)!( a + c)!( b + d)! p i = n! a! b! c! d!, kde n je celková četnost v tabulce a a,b,c,d je označení políček zleva doprava a dolů. Výsledná pravděpodobnost se určí jako součet pravděpodobností ve všech tabulkách, tj. p p = i

21 V našem příkladu je to p = 0, , , , = 0,041 Vypočtený výsledek nám sděluje, že první tabulka a tabulky ještě méně příznivé pro platnost hypotézy H 0 mohou nastat s pravděpodobností 0,041, tj. 4,1 %. Na hladině významnosti α = 0,05 tedy zamítáme nulovou hypotézu a přijímáme alternativní hypotézu, že sportování a kouření u studentů spolu souvisí.

22 MÍRY VZTAHU DVOU ALTERNATIVNÍCH VELIČIN Předchozí teorie testovala jen závislost nebo nezávislost dvou diskrétních veličin. Neříkala však nic o míře závislosti. Uvažujme opět čtyřpolní tabulku. a Vzorcem a + b vypočteme pravděpodobnost onemocnění u skupiny exponovaných, vzorcem c c + d u neexponovaných. Náhodná veličina Y - např. onemocnění Náhodná veličina X - obvykle expozice ANO NE Celkem ANO a b a + b NE c d c + d Celkem a + c b + d a + b + c + d

23 RELATIVNÍ RIZIKO Relativní riziko RR je podíl pravděpodobnosti onemocnění u exponovaných a neexponovaných: RR = a a + b c c + d = a ( c + d) c ( a + b) Pokud platí model nezávislosti, je očekávaná četnost v prvním políčku ( a + b)( a + c) O11 = a + b + c + d, analogicky vypočteme očekávané četnosti v ostatních polích a dosadíme je do vzorce pro relativní riziko. Dostaneme RR=1. Pokud nemoc nezávisí na expozici, RR -> 1. Pokud je onemocnění u exponovaných osob častější než u neexponovaných, je RR > 1. Opačně RR < 1 by znamenalo, že onemocnění nastalo častěji u osob neexponovaných.

24 KŘÍŽOVÝ POMĚR, PODÍL ŠANCÍ, SÁZKOVÝ POMĚR - anglicky ODDS RATIO Tato charakteristika (častěji používaná v anglosaských zemích) není založena na pojmu pravděpodobnosti, ale na pojmu ŠANCE NA ONEMOCNĚNÍ. Termín je převzat z oblasti sázek, kde se nepoužívá termín pravděpodobnost výhry, ale ŠANCE NA VÝHRU, tj. poměr mezi "výhrou" a "prohrou". Vypočteme podíl nemocných a zdravých a c u exponovaných osob i neexponovaných osob. Křížový poměr je b d Křížový poměr, podobně jako relativní riziko, je roven jedné, pokud jsou sledované veličiny nezávislé. a OR = b = c d ad bc

25 Jinak se ale hodnoty RR a OR liší: OR nabývá v případě kladné závislosti (vzniku onemocnění na expozici) vyšší hodnoty než než RR. V případě, že onemocnění nastalo častěji u osob neexponovaných, je OR nižší než RR (obě hodnoty jsou menší než jedna).

26 HYPOTÉZA SYMETRIE Mc Nemar Zatím jsme se zabývali hypotézou nezávislosti, ale v praxi nás zajímají i jiné hypotézy. Chceme například porovnat efekt léčby. Vlastně chceme pomocí tabulky četností provést obdobu "párového" testu, přestože nemáme jednotlivé páry hodnot, ale pouze počty naměřených hodnot. Na rozdíl od hypotézy nezávislosti zde naopak víme, že veličiny jsou závislé, protože jsme měřili na stejných datech. Představme si, že zjišťujeme, zda u dětí vybraného okresu závisí výskyt infektů horních cest dýchacích na věku. Výskyt onemocnění byl zjišťován v šesti měsících a ve třech letech věku.

27 Použití testu nezávislosti chí-kvadrát by bylo zcela chybné. U dětí, které byly zdravé v 6 měsících je zřejmě vyšší pravděpodobnost, že budou zdravé i ve 3 letech a naopak. Příslušné pozorované hodnoty jsou v tabulce: Onemocnění v 3. roce věku Onemocnění v 6. měsíci věku ANO NE Celkem ANO NE Celkem Nás spíše zajímá, zda jsou stejné pravděpodobnosti že děti, které byly zdravé v 6 měsících, jsou nemocné ve 3 letech a že děti, které byly nemocné v 6 měsících, jsou zdravé ve 3 letech. Porovnáváme tedy políčka b a c v kontingenční tabulce.

28 Hypotéza vlastně ověřuje, zda je tabulka symetrická kolem hlavní úhlopříčky - platí-li p 12 = p 21. Takováto hypotéza je odlišná od hypotézy nezávislosti. Navíc nás v podstatě nezajímají hodnoty v polích a, d (p 11 a p 22 ), zajímají nás pouze případy, kdy došlo ke změně v jednom nebo druhém směru. 2 ( b c) K tomuto testu používáme tzv. Mc Nemarův test symetrie: M = b + c, kde M má rozložení chí-kvadrát s jedním stupněm volnosti viz 6e_symetrie_mcnemar.xls. Pokud test vyjde statisticky významný, znamená to, že tabulka není symetrická podle hlavní osy významně převažují děti, kterých je více (které nebyly nemocné ve 3 měsících, ale byly nemocné ve 3 letech).

29 Na podobném principu jako Yatesova korekce je založena přesnější varianta Mc 1 2 ( b c ) Nemarova testu: M = 2 b + c, kde M má opět rozložení chí-kvadrát s jedním stupněm volnosti. Testujeme vlastně hypotézu, zda pravděpodobnosti π 1, jejíž odhad je a π 2, jejíž odhad je c p2 = b + c, se rovnají. p 1 = b b + c Protože π 1 +π 2 = 1, testujeme hypotézu, že π 1 = 0,5 O Mc Nemarově testu se často hovoří jako o testu pro "párová" data.

Biostatistika a matematické metody epidemiologie - stručné studijní texty

Biostatistika a matematické metody epidemiologie - stručné studijní texty Biostatistika a matematické metody epidemiologie - stručné studijní texty Bohumír Procházka, SZÚ Praha 1 Co můžeme sledovat Pro charakteristiku nebo vlastnost, kterou chceme sledovat zvolíme termín jev.

Více

STATISTICKÉ TESTY VÝZNAMNOSTI

STATISTICKÉ TESTY VÝZNAMNOSTI STATISTICKÉ TESTY VÝZNAMNOSTI jsou statistické postupy, pomocí nichž ověřujeme, zda mezi proměnnými existuje vztah (závislost, rozdíl). Pokud je výsledek šetření statisticky významný (signifikantní), znamená

Více

Při statistickém zkoumání se snažíme udělat nějaký závěr ohledně vlastností celého statistického souboru

Při statistickém zkoumání se snažíme udělat nějaký závěr ohledně vlastností celého statistického souboru 0.1 Základy statistického zpracování dat 1 0.1 Základy statistického zpracování dat Statistika se zabývá shromažďováním, tříděním a popisem velkých souborů dat. Někdy se pod pojmem statistika myslí přímo

Více

KVANTITATIVNÍ METODY V PEDAGOGICKÉM VÝZKUMU

KVANTITATIVNÍ METODY V PEDAGOGICKÉM VÝZKUMU KVANTITATIVNÍ METODY V PEDAGOGICKÉM VÝZKUMU RADEK KRPEC CZ.1.07/2.2.00/29.0006 OSTRAVA, ČERVEN 2013 Studijní opora je jedním z výstupu projektu ESF OP VK. Číslo Prioritní osy: 7.2 Oblast podpory: 7.2.2

Více

VYSOKÁ ŠKOLA POLYTECHNICKÁ JIHLAVA. Katedra matematiky STATISTICA ÚVOD DO ZPRACOVÁNÍ DAT. Jana Borůvková, Petra Horáčková, Miroslav Hanáček

VYSOKÁ ŠKOLA POLYTECHNICKÁ JIHLAVA. Katedra matematiky STATISTICA ÚVOD DO ZPRACOVÁNÍ DAT. Jana Borůvková, Petra Horáčková, Miroslav Hanáček VYSOKÁ ŠKOLA POLYTECHNICKÁ JIHLAVA Katedra matematiky STATISTICA ÚVOD DO ZPRACOVÁNÍ DAT Jana Borůvková, Petra Horáčková, Miroslav Hanáček 2013 Jana Borůvková, Petra Horáčková, Miroslav Hanáček STATISTICA

Více

VYSOKÁ ŠKOLA POLYTECHNICKÁ JIHLAVA

VYSOKÁ ŠKOLA POLYTECHNICKÁ JIHLAVA VYSOKÁ ŠKOLA POLYTECHNICKÁ JIHLAVA Katedra matematiky STATISTIKA V SPSS Jana Borůvková, Petra Horáčková, Miroslav Hanáček 2014 Jana Borůvková, Petra Horáčková, Miroslav Hanáček STATISTIKA V SPSS 1. vydání

Více

Malé statistické repetitorium Verze s řešením

Malé statistické repetitorium Verze s řešením Verze s řešením Příklad : Rozdělení náhodné veličiny základní charakteristiky Rozdělení diskrétní náhodné veličiny X je dáno následující tabulkou x 0 4 5 P(X = x) 005 05 05 0 a) Nakreslete graf distribuční

Více

Základy biostatistiky s využitím Excelu

Základy biostatistiky s využitím Excelu Základy biostatistiky s využitím Excelu Karel Hrach Tento projekt je součástí IPRM Ústí n. L. Centrum. Tato publikace vznikla v rámci projektu Posilování kompetencí vysokoškolských pracovníků pro rozvoj

Více

Základy pravděpodobnosti poznámky. Jana Klicnarová

Základy pravděpodobnosti poznámky. Jana Klicnarová Základy pravděpodobnosti poznámky Jana Klicnarová 1 V této části připomeneme základní pojmy a vztahy pro práci s náhodou. 0.1 Náhodné jevy Uvažujme situace, které mohou a nemusí nastat a o kterých v nějakém

Více

SPECIMEN. Základy zpracování dat. Michal Otyepka, Pavel Banáš, Eva Otyepková verze 16.2.2007. tento text byl vysázen systémem L A TEX2 ε

SPECIMEN. Základy zpracování dat. Michal Otyepka, Pavel Banáš, Eva Otyepková verze 16.2.2007. tento text byl vysázen systémem L A TEX2 ε Základy zpracování dat Michal Otyepka, Pavel Banáš, Eva Otyepková verze 16.2.2007 tento text byl vysázen systémem L A TEX2 ε ii Skripta vznikla pro potřeby kurzu Základy zpracování dat určeného studentům

Více

Průzkumová analýza jednorozměrných dat (Teorie)

Průzkumová analýza jednorozměrných dat (Teorie) Míra nezaměstnanosti *%+ 211 Průzkumová analýza jednorozměrných dat (Teorie) Míra nezaměstnanosti *%+ (okres Opava, červen 21) Rozsah 77 Průměr 11,5 Minimum 5,5 Dolní kvartil 8,4 5 1 15 2 Medián 9,9 Horní

Více

META-ANALÝZA Z POHLEDU STATISTIKA. Medicína založená na důkazu - Modul 3B

META-ANALÝZA Z POHLEDU STATISTIKA. Medicína založená na důkazu - Modul 3B META-ANALÝZA Z POHLEDU STATISTIKA Medicína založená na důkazu - Modul 3B OBSAH: Úvodní definice... 2 Ověření homogenity pomocí Q statistiky... 3 Testování homogenity studií pomocí I 2 indexu... 6 Výpočet

Více

PŘÍPRAVA VÝZKUMNÉ STUDIE Z POHLEDU STATISTIKA A STATISTICKÉ VYHODNOCENÍ VÝSLEDKU

PŘÍPRAVA VÝZKUMNÉ STUDIE Z POHLEDU STATISTIKA A STATISTICKÉ VYHODNOCENÍ VÝSLEDKU PŘÍPRAVA VÝZKUMNÉ STUDIE Z POHLEDU STATISTIKA A STATISTICKÉ VYHODNOCENÍ VÝSLEDKU Ladislav Pecen I Blaise Pascal se zabýval statistikou a pravděpodobností. Blaise Pascal, Louvre. Příprava výzkumné studie

Více

5 Vícerozměrná data - kontingenční tabulky, testy nezávislosti, regresní analýza

5 Vícerozměrná data - kontingenční tabulky, testy nezávislosti, regresní analýza 5 Vícerozměrná data - kontingenční tabulky, testy nezávislosti, regresní analýza 5.1 Vícerozměrná data a vícerozměrná rozdělení Při zpracování vícerozměrných dat se hledají souvislosti mezi dvěma, případně

Více

Úvod do statistiky (interaktivní učební text) - Řešené příklady. Martina Litschmannová

Úvod do statistiky (interaktivní učební text) - Řešené příklady. Martina Litschmannová Vysoká škola báňská Technická univerzita Ostrava Západočeská univerzita v Plzni Úvod do statistiky (interaktivní učební text) - Řešené příklady Martina Litschmannová 1. strana ze 159 1 Explorační analýza

Více

1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.

1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004. Testování hypotéz na základě jednoho a dvou výběrů 1 1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/004. Testování hypotéz Pokud nás zajímá zda platí, či neplatí tvrzení o určitém parametru,

Více

Univerzita Karlova v Praze Matematicko-fyzikální fakulta BAKALÁŘSKÁ PRÁCE. Michal Rychnovský Postupná výstavba modelů ohodnocení kreditního rizika

Univerzita Karlova v Praze Matematicko-fyzikální fakulta BAKALÁŘSKÁ PRÁCE. Michal Rychnovský Postupná výstavba modelů ohodnocení kreditního rizika Univerzita Karlova v Praze Matematicko-fyzikální fakulta BAKALÁŘSKÁ PRÁCE Michal Rychnovský Postupná výstavba modelů ohodnocení kreditního rizika Katedra pravděpodobnosti a matematické statistiky Vedoucí

Více

Pravděpodobnost, statistika a operační výzkum

Pravděpodobnost, statistika a operační výzkum Pravděpodobnost, statistika a operační výzkum RNDr. Břetislav Fajmon, Ph.D. Mgr. Jan Koláček, Ph.D. ÚSTAV MATEMATIKY Pravděpodobnost, statistika a operační výzkum 1 Obsah I Statistické metody 7 1 Odhad

Více

MATEMATICKÉ METODY VYHODNOCOVÁNÍ EXPERIMENTŮ

MATEMATICKÉ METODY VYHODNOCOVÁNÍ EXPERIMENTŮ MATEMATICKÉ METODY VYHODNOCOVÁNÍ EXPERIMENTŮ Miroslav Pokorný Moravská vysoká škola Olomouc, o. p. s. Olomouc 2010 Projekt Aplikovatelný systém dalšího vzdělávání ve VaV (dále jen APSYS) OP VK č. CZ.1.07/2.3.00/09.0134

Více

Masarykova univerzita Ekonomicko správní fakulta. Statistika II

Masarykova univerzita Ekonomicko správní fakulta. Statistika II Masarykova univerzita Ekonomicko správní fakulta Statistika II distanční studijní opora Marie Budíková Brno 2006 Tento projekt byl realizován za finanční podpory Evropské unie v rámci programu SOCRATES

Více

Pravděpodobnost a matematická statistika

Pravděpodobnost a matematická statistika Pravděpodobnost a matematická statistika Mirko Navara Centrum strojového vnímání katedra kybernetiky FEL ČVUT Karlovo náměstí, budova G, místnost 104a http://cmp.felk.cvut.cz/ navara/mvt http://cmp.felk.cvut.cz/

Více

1 Náhodný výběr a normální rozdělení 1.1 Teoretická a statistická pravděpodobnost

1 Náhodný výběr a normální rozdělení 1.1 Teoretická a statistická pravděpodobnost 1 Náhodný výběr a normální rozdělení 1.1 Teoretická a statistická pravděpodobnost Ve světě kolem nás eistují děje, jejichž výsledek nelze předem jednoznačně určit. Například nemůžete předem určit, kolik

Více

Statistické zpracování dotazníků v SPSS. Michal Čihák

Statistické zpracování dotazníků v SPSS. Michal Čihák Statistické zpracování dotazníků v SPSS Michal Čihák Autor: RNDr. Michal Čihák, Ph. D. Název: Statistické zpracování dotazníků v SPSS Rok a místo vydání: 2014, Hradec Králové Vydání: první Recenzoval:

Více

Vysoká škola ekonomická v Praze. Fakulta financí a účetnictví

Vysoká škola ekonomická v Praze. Fakulta financí a účetnictví Vysoká škola ekonomická v Praze Fakulta financí a účetnictví Katedra bankovnictví a pojišťovnictví Diplomová práce Srovnání logistické regrese a rozhodovacích stromů při tvorbě skóringových modelů Ladislav

Více

Normální (Gaussovo) rozdělení

Normální (Gaussovo) rozdělení Normální (Gaussovo) rozdělení Normální (Gaussovo) rozdělení popisuje vlastnosti náhodné spojité veličiny, která vzniká složením různých náhodných vlivů, které jsou navzájem nezávislé, kterých je velký

Více

PRAVDĚPODOBNOST A STATISTIKA aneb Krátký průvodce skripty [1] a [2]

PRAVDĚPODOBNOST A STATISTIKA aneb Krátký průvodce skripty [1] a [2] PRAVDĚPODOBNOST A STATISTIKA aneb Krátký průvodce skripty [1] a [2] Použitá literatura: [1]: J.Reif, Z.Kobeda: Úvod do pravděpodobnosti a spolehlivosti, ZČU Plzeň, 2004 (2. vyd.) [2]: J.Reif: Metody matematické

Více

Nesprávná užívání statistické významnosti a jejich možná řešení*

Nesprávná užívání statistické významnosti a jejich možná řešení* Nesprávná užívání statistické významnosti a jejich možná řešení* Petr Soukup** Institut sociologických studií Fakulta sociálních věd, Univerzita Karlova v Praze Improper Use of Statistical Significance

Více

Počítačové cvičení. předmětu M6130 Výpočetní statistika. Marie Budíková

Počítačové cvičení. předmětu M6130 Výpočetní statistika. Marie Budíková Počítačové cvičení předmětu M6130 Výpočetní statistika Marie Budíková 013 Poděkování Tento učební text vznikl za přispění Evropského sociálního fondu a státního rozpočtu ČR prostřednictvím Operačního programu

Více

BAKALÁŘSKÁ PRÁCE. Statistická analýza dojivosti v programu SAS

BAKALÁŘSKÁ PRÁCE. Statistická analýza dojivosti v programu SAS UNIVERZITA PALACKÉHO V OLOMOUCI PŘÍRODOVĚDECKÁ FAKULTA KATEDRA MATEMATICKÉ ANALÝZY A APLIKACÍ MATEMATIKY BAKALÁŘSKÁ PRÁCE Statistická analýza dojivosti v programu SAS Vedoucí diplomové práce: Mgr. Jaroslav

Více

Návod na statistický software PSPP část 2. Kontingenční tabulky

Návod na statistický software PSPP část 2. Kontingenční tabulky Návod na statistický software PSPP část 2. Kontingenční tabulky Jiří Šafr FHS UK poslední revize 31. srpna 2010 Logika kontingenčních tabulek... 2 Postup vytváření kontingenčních tabulek v PSPP (SPSS)....

Více