Testy dobré shody TESTY DOBRÉ SHODY (angl. goodness-of-fit tests), : veličiny X, Y jsou nezávislé nij eij

Rozměr: px
Začít zobrazení ze stránky:

Download "Testy dobré shody TESTY DOBRÉ SHODY (angl. goodness-of-fit tests), : veličiny X, Y jsou nezávislé nij eij"

Transkript

1 Testy dobré shody Máme dvě veličiny a předpokládáme, že jsou nezávislé (platí nulová hypotéza nezávislosti). Často chceme naopak prokázat jejich závislost. K tomu slouží: TESTY DOBRÉ SHODY (angl. goodness-of-fit tests), které ověřují, zda reálné četnosti získané statistickým šetřením se statisticky významně odlišují od očekávaných četností, které vypočteme na základě platnosti nulové hypotézy. Mějme náhodné veličiny X a Y uspořádané do kontingenční tabulky. Nulovou hypotézu H 0 : veličiny X, Y jsou nezávislé zamítneme, když se pozorované četnosti n ij budou významně lišit od očekávaných četností e ij.

2 Testovým kritériem je statistika, která má asymptoticky (tj. pro dostatečně velké četnosti) rozdělení χ 2 s (r - 1)(s - 1) stupni volnosti. r s ( nij eij ) 2 χ = e i= 1 j= 1 Stupeň volnosti - je počet řádků (sloupců) tabulky, do kterých je možno vložit libovolnou hodnotu a přitom dodržet stanovený řádkový (sloupcový) součet. Dostatečně velké četnosti jsou takové, kdy všechny očekávané četnosti jsou větší než 1 (>1) a naprostá většina očekávaných četností (alespoň 80%) je > 5. ij 2

3 2 Je-li testovací statistika větší než "kritická" hodnota rozdělení χ pro zvolenou hladinu významnosti, zamítáme nulovou hypotézu o shodě empirického a teoretického rozložení. Riziko, že hypotézu zamítneme neoprávněně, se rovná zvolené hladině významnosti α. V opačném případě přijímáme hypotézu o shodě. PŘÍKLAD: Chceme ověřit, zda hrací kostka je fair, tzn. že všech 6 možných výsledků má stejnou pravděpodobnost. Házíme tedy opakovaně kostkou a zaznamenáme četnosti dosažených výsledků: kód Suma počet hodů Testujeme nulovou hypotézu, že pravděpodobnosti p i = 1/6. Teoretické četnosti e i, které bychom očekávali za platnosti nulové hypotézy ze 120 hodů, vypočtem tedy jako e i = n p i = 120 (1/6) = 20.

4 Nulovou hypotézu zamítneme, když se pozorované četnosti n i budou významně lišit od očekávaných četností e i. k 2 ( ni ei ) Testovým kritériem je statistika X = e kde k je počet možných výsledků. V našem příkladu s hrací kostkou k = 6 Znamená to, že H 0 zamítneme, pokud testová statistika je větší než kritická hodnota rozdělení χ 2 pro zvolenou hladinou významnosti α. Řešení najdete v souboru 6c_hazeni_kostkou.xls (Hodnota testové statistiky je 7,7, kritická hodnota 11,07 - testová statistika neleží v kritickém oboru a nulovou hypotézu nemůžeme zamítnout). i= 1 i

5 Na základě našeho experimentu jsme prokázali, že kostka je fair, tj. že pro ni platí zákonitosti binomického rozdělení a výsledky hodů byly ovlivněny pouze náhodou. Rozdělení χ 2 má ještě jednu zvláštnost: kromě krajně vysoké pravděpodobnosti obsahuje i krajně nízké pravděpodobnosti. Představme si, že bychom při 120 hodech kostkou hodili přesně 20x jedničku, 20x dvojku, 20x trojku, 20x čtyřku, 20x pětku a 20x šestku. Na první pohled vidíme, že by se jednalo o velmi zvláštní náhodu.

6 Vypočtená statistika odchylek by byla 0,0. Počet stupňů volnosti je 5. Podíváme-li se do tabulek distribuční funkce χ 2 na hodnotu funkce pro pravděpodobnost 0,01, najdeme kritickou hodnotu statistiky 0,55 (nebo v programu funkci CHISQ.INV(0,01;5) = 0,554. Vidíme, že naše "vypočtená statistika = 0" nestačí na kritickou hodnotu a že požadovaný výsledek se hodí až příliš dobře, takže nebyl dán prostor náhodě a vzbuzuje to podezření, že se neuplatnilo binomické rozdělení a "hody byly zmanipulovány". Najdete v souboru 6c_hazeni_kostkou.xls na listu Hrací kostka-opačný test

7 Testy dobré shody pro spojité veličiny Pro spojité veličiny a spojitá rozdělení je test dobré shody podobný, jen postup o trochu pracnější. Testujeme shodu rozdělení našich pozorovaných hodnot s nějakým spojitým teoretickým rozdělením, známe tedy distribuční funkci F(x) tohoto rozdělení. Potřebujeme zjistit empirické četnosti n i a očekávané četnosti e i, tzn. předtím musíme obor hodnot empirických dat rozdělit na intervaly, v nich zjistit četnosti, spočítat očekávané četnosti a vyhodnotit testové kriterium k 2 ( ni ei ) X = e Současně potřebujeme, aby očekávané četnosti byly větší než 5. (Zjednodušeně - viz dále) V příkladech používáme tuto symboliku: označíme-li očekávané četnosti jako O i a skutečně pozorované četnosti jako P i, k 2 ( Pi Oi ) pak výpočet testovací statistiky T zapíšeme: T = O i= 1 i= 1 i i

8 OBECNÁ KONTINGENČNÍ TABULKA - sdružené rozdělení dvou diskrétních veličin Máme-li dvě nominální veličiny X, Y, kde X může nabývat hodnot x 1,x 2,..., x r a veličina Y může nabývat hodnot y 1, y 2,..., y s, pak rozdělení četností pozorovaných hodnot můžeme vyjádřit kontingenční tabulkou: Proměnná X v řádcích Proměnná Y - ve sloupcích y 1 y 2 y 3 y s Celkem x 1 n 11 n 12 n 13 n 1s n 1. x 2 n 21 n 22 n 23.. n 2. x 3 n 31 n 32 n 3.. n 3. X r n r1.... n rs n r. Celkem n.1 n.2 n.3 n.s n..

9 Hodnoty n ij jsou absolutní četnosti, tzn. počty sledovaných objektů, kdy veličina X má hodnotu x i a současně veličina Y má hodnotu y j. Četnosti v posledním řádku a v posledním sloupci se nazývají marginální a jsou definovány jako řádkové (sloupcové) součty. Obvyklou úlohou statistické analýzy je rozhodnout, zda náhodné veličiny X a Y jsou nezávislé či mezi nimi existuje nějaký vtah a také nějakou vhodnou charakteristikou případnou závislost kvantifikovat. Test nezávislosti dvou nominálních náhodných veličin X, Y je založen na tom, že můžeme odhadnout četnosti, které bychom pozorovali, kdyby opravdu veličiny X, Y nezávislé byly. Jsou-li X, Y nezávislé, pak pravděpodobnost jevu, že současně nastane jev X = x i a Y = y j lze vyjádřit jako součin P ( X = xi ) ( Y = yj) = P( X = xi ) P( Y = yj) kde i = 1, 2,,r, j = 1, 2,,s

10 Očekávané četnosti vypočteme z marginálních řádkových a sloupcových četností tak, že očekávanou četnost pro i-tý řádek a j-tý sloupec vypočteme jako součin (n i.. n.j ) dělený počtem všech pozorování n Nulovou hypotézu H 0, že veličiny X, Y jsou nezávislé, zamítneme, když se pozorované četnosti n ij budou významně lišit od očekávaných četností e ij. ni. n. j 2 r s 2 ( n r s ij ) ( n Testovým kritériem je statistika ij eij ) 2 n.. χ = = n i= j= eij i= j= i n j n která má asymptoticky (tj. pro dostatečně velké četnosti) rozdělení χ 2 s (r - 1)(s - 1) stupni volnosti. n i. n n... j..

11 Při užití tohoto testu je nutno posoudit, zda je splněna podmínka, že četnosti v tabulce jsou dostatečně velké. Obvykle se pro užití tohoto testu požaduje podmínka, aby všechny očekávané četnosti e ij > 1 a naprostá většina (alespoň 80%) očekávaných četností byla e ij > 5. Kritickým oborem proto tento test nezávislosti je : X Є [ χ 2 (r-1)(s-1) (α) ; + ) Zamítneme-li hypotézu o nezávislosti veličin X a Y, pak nás obvykle zajímá, které pozorované četnosti (která políčka kontingenční tabulky) se od četností očekávaných při nezávislosti veličin významně odchylují. Říkáme, že vyhledáváme zdroje závislosti. Jedna z nejjednodušších metod posouzení těchto zdrojů závislosti je posouzení příspěvků jednotlivých políček tabulky k hodnotě testové statistiky r s 2 ( nij eij ) 2 χ = e i= 1 j= 1 ij

12 Velikost tohoto příspěvku je významná, když rozdíl pozorované a očekávané četnosti nelze považovat za náhodný, tj. tehdy, když pro obvykle užívanou hodnotu α = 0,05 je χ 2 = 3,84 (viz tabulky χ 2 rozdělení pro F(x) = 0,95). Pohodlnější je užít tzv. standardizovaná residua nij eij, která mají přibližně normované normální rozdělení, eij tzn. významná jsou políčka s absolutní hodnotou standardizovaných residuí větší než 2. Užijeme-li standardizovaná residua, podle jejich znaménka vidíme, zda pozorovaná četnost je větší či menší než očekávaná. Příklad: Máme posoudit, zda veličiny Lokalita a Odruda (data BI97) jsou nezávislé. Jinými slovy, zda zastoupeni obou odrůd ve všech čtyřech lokalitách můžeme považovat za shodné. Nulová hypotéza H 0 : Lokalita a Odruda jsou nezávislé veličiny. Výpočet provedeme s pomocí programu NCSS.

13 Cross Tabulation Report Counts Section lokal odruda Total Total Expected Counts Assuming Independence Section lokal odruda Total 1 14,8 14, , ,2 5,9 8 6,8 27 Total Chi-Square Contribution Section lokal odruda Total 1 1,83 0,09 0,21 0,30 2,42 2 4,36 0,21 0,50 0,71 5,78 Total 6,19 0,29 0,71 1,01 8,20 Chi-Square Statistics Section Chi-Square 8,2002 Degrees of Freedom 3 Probability Level 0,04205 Reject Ho WARNING: At less one cell had a value less than 5 V řádku Chi-Square vidíme, že hodnota testové statistiky je 8,20, odpovídající p = 0,042, tedy je menší než hladina významnosti a = 0,05. Hypotézu o nezávislosti veličin Lokalita a Odruda můžeme zamítnout, k čemuž nás ostatně nabádá i vysvětlující text ve výstupu, Reject Ho.

14 Všechny očekávané četnosti jsou větší než 5, jak vidíme v části Expected Counts Assuming Independence Section. Podíváme-li se na zdroje závislosti (Chi-Square Contribution Section), vidíme, že pouze v jednom políčku (odruda = 2, lokalita = 1) je hodnota příspěvku políčka větší než 3,84. Celkově můžeme shrnout, že hypotézu o nezávislosti veličin Lokalita a Odruda jsme sice zamítli na hladině významnosti a = 0,05, ale jen s odřenýma ušima (hodnota p = 0,042 je jen o málo menší, než hladina významnosti) a navíc pouze jedno políčko tabulky přispívá významně k celkové hodnotě testové statistiky, takže zjištěnou závislost veličin Lokalita a Odruda můžeme přičítat jen malé četnosti odrůdy 2 v lokalitě 1.

15 Standardizované příspěvky políček odruda Total 1 1,35-0,29-0,46-0,55 0,05 2-2,09 0,45 0,71 0,84-0,08 Total - 0,74 0,16 0,25 0,30-0,03 Pokud příspěvky políček standardizujeme (viz vzorec pro výpočet standardizovaných reziduí), můžeme najít stejné políčko (odrůda 2 v prvním sloupci), kde je příspěvek políčka výrazně vyšší zde znamená odchylku více než 2σ, protože porovnáváme se standardizovaným normálním rozdělením. Jelikož víme, že test je asymptotický, tedy pouze přibližný, je nutno se závěrem, že sledované veličiny nejsou nezávislé, zacházet velmi opatrně.

16 KONTINGENČNÍ TABULKA 2 x 2 Kontingenční tabulky často používáme v EPIDEMIOLOGII. Velmi často používáme právě tabulku 2 x 2 k zjištění, zda - výskyt vybrané diagnózy závisí na uvažované expozici - léčba nebo změna životního stylu má vliv na zdraví jedince - osvětové programy ovlivnily zdraví populace Náhodná veličina Y - např. onemocnění Náhodná veličina X - obvykle expozice ANO NE Celkem ANO a b a + b NE c d c + d Celkem a + c b + d a + b + c + d = n

17 K popisu četností v této tzv. čtyřpolní tabulce používáme pouze 4 hodnoty, proto je i pro zápis zjednodušeného výpočtu označujeme a, b, c, d χ 2 test nezávislosti v tabulce 2 x 2 Vzorec pro výpočet statistiky chí-kvadrát se zjednoduší na tvar: 2 2 ( ad bc) χ = n ( a + b)( a + c)( b + d)( c + d) Na příkladu testování vrozené vady kyčlí u dívek a chlapců (viz "6d_vady_kycli.xls") vidíme, že pro velké počty pozorovaných (a očekávaných) hodnot vychází CHITEST stejně jako výpočet podle zjednodušeného vzorce.

18 Pro malé pozorované (očekávané) četnosti můžeme test nezávislosti zpřesnit tzv. Yatesovou korekcí. Yatesova korekce 2 χ n 2 ( ad bc ) = 2 ( a + b)( a + c)( b + d)( c + d) n Tato veličina má opět rozdělení chí-kvadrát s jedním stupněm volnosti

19 Fischerův exaktní test Oba předchozí testy byly pouze přibližné a pro malé četnosti nejsou vhodné. V případě, že nejméně jedna očekávaná četnost je < 5 používáme Fischerův exaktní faktoriálový test. Spočívá v tom, že sestrojíme všechny možné tabulky, které mají stejné marginální četnosti jako původní tabulka a vybereme z nich ty, které jsou "vzdálenější" od hypotézy nezávislosti než původní tabulka, tj. jsou méně pravděpodobnější, pokud skutečně platí hypotéza nezávislosti. Sečteme-li pravděpodobnosti těchto tabulek, získáme tak součet P, který je hodnotou Fischerova testu. V praxi se tento přesný test používá opravdu pro malé četnosti, protože s rostoucím n roste dramaticky i počet možných tabulek. Pokud i nejmenší hodnota ve čtyřpolní tabulce je dostatečně velká (> 5), zmíněné testy chí-kvadrát nebo Yatesova korekce jsou pro tyto četnosti dostatečně blízké přesnému testu.

20 Princip Fisherova exaktního testu si ukážeme na příkladu této tabulky: Sportuje ano ne Suma ano ne Suma ano ne Suma ano ne Suma Kouří ano ano ano ano ne ne ne ne Suma Suma Suma Suma V první tabulce jsou naměřené četnosti u 32 studentů právnické fakulty a chceme zjistit, zda spolu souvisí sport a kouření u studentů. Četnosti jsou pro test chí-kvadrát malé - nelze jej použít. Vypočteme proto pravděpodobnost pro všechny tabulky podle vzorce: ( a + b)!( c + d)!( a + c)!( b + d)! p i = n! a! b! c! d!, kde n je celková četnost v tabulce a a,b,c,d je označení políček zleva doprava a dolů. Výsledná pravděpodobnost se určí jako součet pravděpodobností ve všech tabulkách, tj. p p = i

21 V našem příkladu je to p = 0, , , , = 0,041 Vypočtený výsledek nám sděluje, že první tabulka a tabulky ještě méně příznivé pro platnost hypotézy H 0 mohou nastat s pravděpodobností 0,041, tj. 4,1 %. Na hladině významnosti α = 0,05 tedy zamítáme nulovou hypotézu a přijímáme alternativní hypotézu, že sportování a kouření u studentů spolu souvisí.

22 MÍRY VZTAHU DVOU ALTERNATIVNÍCH VELIČIN Předchozí teorie testovala jen závislost nebo nezávislost dvou diskrétních veličin. Neříkala však nic o míře závislosti. Uvažujme opět čtyřpolní tabulku. a Vzorcem a + b vypočteme pravděpodobnost onemocnění u skupiny exponovaných, vzorcem c c + d u neexponovaných. Náhodná veličina Y - např. onemocnění Náhodná veličina X - obvykle expozice ANO NE Celkem ANO a b a + b NE c d c + d Celkem a + c b + d a + b + c + d

23 RELATIVNÍ RIZIKO Relativní riziko RR je podíl pravděpodobnosti onemocnění u exponovaných a neexponovaných: RR = a a + b c c + d = a ( c + d) c ( a + b) Pokud platí model nezávislosti, je očekávaná četnost v prvním políčku ( a + b)( a + c) O11 = a + b + c + d, analogicky vypočteme očekávané četnosti v ostatních polích a dosadíme je do vzorce pro relativní riziko. Dostaneme RR=1. Pokud nemoc nezávisí na expozici, RR -> 1. Pokud je onemocnění u exponovaných osob častější než u neexponovaných, je RR > 1. Opačně RR < 1 by znamenalo, že onemocnění nastalo častěji u osob neexponovaných.

24 KŘÍŽOVÝ POMĚR, PODÍL ŠANCÍ, SÁZKOVÝ POMĚR - anglicky ODDS RATIO Tato charakteristika (častěji používaná v anglosaských zemích) není založena na pojmu pravděpodobnosti, ale na pojmu ŠANCE NA ONEMOCNĚNÍ. Termín je převzat z oblasti sázek, kde se nepoužívá termín pravděpodobnost výhry, ale ŠANCE NA VÝHRU, tj. poměr mezi "výhrou" a "prohrou". Vypočteme podíl nemocných a zdravých a c u exponovaných osob i neexponovaných osob. Křížový poměr je b d Křížový poměr, podobně jako relativní riziko, je roven jedné, pokud jsou sledované veličiny nezávislé. a OR = b = c d ad bc

25 Jinak se ale hodnoty RR a OR liší: OR nabývá v případě kladné závislosti (vzniku onemocnění na expozici) vyšší hodnoty než než RR. V případě, že onemocnění nastalo častěji u osob neexponovaných, je OR nižší než RR (obě hodnoty jsou menší než jedna).

26 HYPOTÉZA SYMETRIE Mc Nemar Zatím jsme se zabývali hypotézou nezávislosti, ale v praxi nás zajímají i jiné hypotézy. Chceme například porovnat efekt léčby. Vlastně chceme pomocí tabulky četností provést obdobu "párového" testu, přestože nemáme jednotlivé páry hodnot, ale pouze počty naměřených hodnot. Na rozdíl od hypotézy nezávislosti zde naopak víme, že veličiny jsou závislé, protože jsme měřili na stejných datech. Představme si, že zjišťujeme, zda u dětí vybraného okresu závisí výskyt infektů horních cest dýchacích na věku. Výskyt onemocnění byl zjišťován v šesti měsících a ve třech letech věku.

27 Použití testu nezávislosti chí-kvadrát by bylo zcela chybné. U dětí, které byly zdravé v 6 měsících je zřejmě vyšší pravděpodobnost, že budou zdravé i ve 3 letech a naopak. Příslušné pozorované hodnoty jsou v tabulce: Onemocnění v 3. roce věku Onemocnění v 6. měsíci věku ANO NE Celkem ANO NE Celkem Nás spíše zajímá, zda jsou stejné pravděpodobnosti že děti, které byly zdravé v 6 měsících, jsou nemocné ve 3 letech a že děti, které byly nemocné v 6 měsících, jsou zdravé ve 3 letech. Porovnáváme tedy políčka b a c v kontingenční tabulce.

28 Hypotéza vlastně ověřuje, zda je tabulka symetrická kolem hlavní úhlopříčky - platí-li p 12 = p 21. Takováto hypotéza je odlišná od hypotézy nezávislosti. Navíc nás v podstatě nezajímají hodnoty v polích a, d (p 11 a p 22 ), zajímají nás pouze případy, kdy došlo ke změně v jednom nebo druhém směru. 2 ( b c) K tomuto testu používáme tzv. Mc Nemarův test symetrie: M = b + c, kde M má rozložení chí-kvadrát s jedním stupněm volnosti viz 6e_symetrie_mcnemar.xls. Pokud test vyjde statisticky významný, znamená to, že tabulka není symetrická podle hlavní osy významně převažují děti, kterých je více (které nebyly nemocné ve 3 měsících, ale byly nemocné ve 3 letech).

29 Na podobném principu jako Yatesova korekce je založena přesnější varianta Mc 1 2 ( b c ) Nemarova testu: M = 2 b + c, kde M má opět rozložení chí-kvadrát s jedním stupněm volnosti. Testujeme vlastně hypotézu, zda pravděpodobnosti π 1, jejíž odhad je a π 2, jejíž odhad je c p2 = b + c, se rovnají. p 1 = b b + c Protože π 1 +π 2 = 1, testujeme hypotézu, že π 1 = 0,5 O Mc Nemarově testu se často hovoří jako o testu pro "párová" data.

Test dobré shody v KONTINGENČNÍCH TABULKÁCH

Test dobré shody v KONTINGENČNÍCH TABULKÁCH Test dobré shody v KONTINGENČNÍCH TABULKÁCH Opakování: Mějme náhodné veličiny X a Y uspořádané do kontingenční tabulky. Řekli jsme, že nulovou hypotézu H 0 : veličiny X, Y jsou nezávislé zamítneme, když

Více

Jana Vránová, 3. lékařská fakulta UK

Jana Vránová, 3. lékařská fakulta UK Jana Vránová, 3. lékařská fakulta UK Vznikají při zkoumání vztahů kvalitativních resp. diskrétních znaků Jedná se o analogii s korelační analýzou spojitých znaků Přitom předpokládáme, že každý prvek populace

Více

You created this PDF from an application that is not licensed to print to novapdf printer (http://www.novapdf.com)

You created this PDF from an application that is not licensed to print to novapdf printer (http://www.novapdf.com) Testování statistických hypotéz Testování statistických hypotéz Princip: Ověřování určitého předpokladu zjišťujeme, zda zkoumaný výběr pochází ze základního souboru, který má určité rozdělení zjišťujeme,

Více

676 + 4 + 100 + 196 + 0 + 484 + 196 + 324 + 64 + 324 = = 2368

676 + 4 + 100 + 196 + 0 + 484 + 196 + 324 + 64 + 324 = = 2368 Příklad 1 Je třeba prověřit, zda lze na 5% hladině významnosti pokládat za prokázanou hypotézu, že střední doba výroby výlisku je 30 sekund. Přitom 10 náhodně vybraných výlisků bylo vyráběno celkem 540

Více

Základy biostatistiky II. Veřejné zdravotnictví 3.LF UK - II

Základy biostatistiky II. Veřejné zdravotnictví 3.LF UK - II Základy biostatistiky II Veřejné zdravotnictví 3.LF UK - II Teoretické rozložení-matematické modely rozložení Naměřená data Výběrové rozložení Teoretické rozložení 1 e 2 x 2 Teoretické rozložení-matematické

Více

PSY117/454 Statistická analýza dat v psychologii Přednáška 10

PSY117/454 Statistická analýza dat v psychologii Přednáška 10 PSY117/454 Statistická analýza dat v psychologii Přednáška 10 TESTY PRO NOMINÁLNÍ A ORDINÁLNÍ PROMĚNNÉ NEPARAMETRICKÉ METODY... a to mělo, jak sám vidíte, nedozírné následky. Smrť Analýza četností hodnot

Více

Analýza dat z dotazníkových šetření

Analýza dat z dotazníkových šetření Analýza dat z dotazníkových šetření Cvičení 6. Rozsah výběru Př. Určete minimální rozsah výběru pro proměnnou věk v souboru dovolena, jestliže 95% interval spolehlivost průměru proměnné nemá být širší

Více

2 ) 4, Φ 1 (1 0,005)

2 ) 4, Φ 1 (1 0,005) Příklad 1 Ze zásilky velkého rozsahu byl náhodně vybrán soubor obsahující 1000 kusů. V tomto souboru bylo zjištěno 26 kusů nekvalitních. Rozhodněte, zda je možné s 99% jistotou tvrdit, že zásilka obsahuje

Více

5 Vícerozměrná data - kontingenční tabulky, testy nezávislosti, regresní analýza

5 Vícerozměrná data - kontingenční tabulky, testy nezávislosti, regresní analýza 5 Vícerozměrná data - kontingenční tabulky, testy nezávislosti, regresní analýza 5.1 Vícerozměrná data a vícerozměrná rozdělení Při zpracování vícerozměrných dat se hledají souvislosti mezi dvěma, případně

Více

Rozhodnutí / Skutečnost platí neplatí Nezamítáme správně chyba 2. druhu Zamítáme chyba 1. druhu správně

Rozhodnutí / Skutečnost platí neplatí Nezamítáme správně chyba 2. druhu Zamítáme chyba 1. druhu správně Testování hypotéz Nechť,, je náhodný výběr z nějakého rozdělení s neznámými parametry. Máme dvě navzájem si odporující hypotézy o parametrech daného rozdělení: Nulová hypotéza parametry (případně jediný

Více

Přednáška X. Testování hypotéz o kvantitativních proměnných

Přednáška X. Testování hypotéz o kvantitativních proměnných Přednáška X. Testování hypotéz o kvantitativních proměnných Testování hypotéz o podílech Kontingenční tabulka, čtyřpolní tabulka Testy nezávislosti, Fisherůvexaktní test, McNemarůvtest Testy dobré shody

Více

Statistické metody v ekonomii. Ing. Michael Rost, Ph.D.

Statistické metody v ekonomii. Ing. Michael Rost, Ph.D. Statistické metody v ekonomii Ing. Michael Rost, Ph.D. Jihočeská univerzita v Českých Budějovicích Test χ 2 v kontingenční tabulce typu 2 2 Jde vlastně o speciální případ χ 2 testu pro čtyřpolní tabulku.

Více

Název testu Předpoklady testu Testová statistika Nulové rozdělení. ( ) (p počet odhadovaných parametrů)

Název testu Předpoklady testu Testová statistika Nulové rozdělení. ( ) (p počet odhadovaných parametrů) VYBRANÉ TESTY NEPARAMETRICKÝCH HYPOTÉZ TESTY DOBRÉ SHODY Název testu Předpoklady testu Testová statistika Nulové rozdělení test dobré shody Očekávané četnosti, alespoň 80% očekávaných četností >5 ( ) (p

Více

4ST201 STATISTIKA CVIČENÍ Č. 7

4ST201 STATISTIKA CVIČENÍ Č. 7 4ST201 STATISTIKA CVIČENÍ Č. 7 testování hypotéz parametrické testy test hypotézy o střední hodnotě test hypotézy o relativní četnosti test o shodě středních hodnot testování hypotéz v MS Excel neparametrické

Více

Epidemiologické ukazatele. lních dat. analýza kategoriáln. Prof. RNDr. Jana Zvárová, DrSc. Záznam epidemiologických dat. a I E

Epidemiologické ukazatele. lních dat. analýza kategoriáln. Prof. RNDr. Jana Zvárová, DrSc. Záznam epidemiologických dat. a I E Testování statistických hypotéz z a analýza kategoriáln lních dat Prof. RNDr. Jana Zvárová, DrSc. Epidemiologické ukazatele Rizikový faktor Populace Přítomen Nepřítomen Celkem Nemocní a b a+b Kontroly

Více

analýza kategoriáln lních dat Prof. RNDr. Jana Zvárová, DrSc. Záznam epidemiologických dat Epidemiologické ukazatele

analýza kategoriáln lních dat Prof. RNDr. Jana Zvárová, DrSc. Záznam epidemiologických dat Epidemiologické ukazatele Testování statistických hypotéz z a analýza kategoriáln lních dat Prof. RNDr. Jana Zvárová, DrSc. 1 Záznam epidemiologických dat Rizikový faktor Populace Přítomen Nepřítomen Celkem Nemocní a b a+b Kontroly

Více

Lékařská biofyzika, výpočetní technika I. Biostatistika Josef Tvrdík (doc. Ing. CSc.)

Lékařská biofyzika, výpočetní technika I. Biostatistika Josef Tvrdík (doc. Ing. CSc.) Lékařská biofyzika, výpočetní technika I Biostatistika Josef Tvrdík (doc. Ing. CSc.) Přírodovědecká fakulta, katedra informatiky josef.tvrdik@osu.cz konzultace úterý 14.10 až 15.40 hod. http://www1.osu.cz/~tvrdik

Více

Příklad 1. Korelační pole. Řešení 1 ŘEŠENÉ PŘÍKLADY Z MV2 ČÁST 13

Příklad 1. Korelační pole. Řešení 1 ŘEŠENÉ PŘÍKLADY Z MV2 ČÁST 13 Příklad 1 Máme k dispozici výsledky prvního a druhého testu deseti sportovců. Na hladině významnosti 0,05 prověřte, zda jsou výsledky testů kladně korelované. 1.test : 7, 8, 10, 4, 14, 9, 6, 2, 13, 5 2.test

Více

Příklad 1. Řešení 1 ŘEŠENÉ PŘÍKLADY Z MV2 ČÁST 11

Příklad 1. Řešení 1 ŘEŠENÉ PŘÍKLADY Z MV2 ČÁST 11 Příklad 1 Vyhláška Ministerstva zdravotnictví předpokládala, že doba dojezdu k pacientovi od nahlášení požadavku nepřekročí 17 minut. Hodnoty deseti náhodně vybraných dob příjezdu sanitky k nemocnému byly:

Více

Jednofaktorová analýza rozptylu

Jednofaktorová analýza rozptylu I I.I Jednofaktorová analýza rozptylu Úvod Jednofaktorová analýza rozptylu (ANOVA) se využívá při porovnání několika středních hodnot. Často se využívá ve vědeckých a lékařských experimentech, při kterých

Více

Úvod do analýzy rozptylu

Úvod do analýzy rozptylu Úvod do analýzy rozptylu Párovým t-testem se podařilo prokázat, že úprava režimu stravování a fyzické aktivity ve vybrané škole měla vliv na zlepšené hodnoty HDLcholesterolu u školáků. Pro otestování jsme

Více

NÁHODNÁ ČÍSLA. F(x) = 1 pro x 1. Náhodná čísla lze generovat některým z následujících generátorů náhodných čísel:

NÁHODNÁ ČÍSLA. F(x) = 1 pro x 1. Náhodná čísla lze generovat některým z následujících generátorů náhodných čísel: NÁHODNÁ ČÍSLA TYPY GENERÁTORŮ, LINEÁRNÍ KONGRUENČNÍ GENERÁTORY, TESTY NÁHODNOSTI, VYUŽITÍ HODNOT NÁHODNÝCH VELIČIN V SIMULACI CO JE TO NÁHODNÉ ČÍSLO? Náhodné číslo definujeme jako nezávislé hodnoty z rovnoměrného

Více

Statistické metody uţívané při ověřování platnosti hypotéz

Statistické metody uţívané při ověřování platnosti hypotéz Statistické metody uţívané při ověřování platnosti hypotéz Hypotéza Domněnka, předpoklad Nejčastěji o rozdělení, středních hodnotách, závislostech, Hypotézy ve vědeckém výzkumu pracovní, věcné hypotézy

Více

Testování hypotéz. Testování hypotéz o rozdílu průměrů t-test pro nezávislé výběry t-test pro závislé výběry

Testování hypotéz. Testování hypotéz o rozdílu průměrů t-test pro nezávislé výběry t-test pro závislé výběry Testování hypotéz Testování hypotéz o rozdílu průměrů t-test pro nezávislé výběry t-test pro závislé výběry Testování hypotéz Obecný postup 1. Určení statistické hypotézy 2. Určení hladiny chyby 3. Výpočet

Více

Testování statistických hypotéz

Testování statistických hypotéz Testování statistických hypotéz Na základě náhodného výběru, který je reprezentativním vzorkem základního souboru (který přesně neznáme, k němuž se ale daná statistická hypotéza váže), potřebujeme ověřit,

Více

Testování hypotéz testy o tvaru rozdělení. Jiří Neubauer. Katedra ekonometrie, FVL, UO Brno kancelář 69a, tel

Testování hypotéz testy o tvaru rozdělení. Jiří Neubauer. Katedra ekonometrie, FVL, UO Brno kancelář 69a, tel Katedra ekonometrie, FVL, UO Brno kancelář 69a, tel. 973 442029 email:jiri.neubauer@unob.cz Statistickou hypotézou se rozumí určité tvrzení o parametrech rozdělení zkoumané náhodné veličiny (µ, σ 2, π,

Více

STATISTICKÉ TESTY VÝZNAMNOSTI

STATISTICKÉ TESTY VÝZNAMNOSTI STATISTICKÉ TESTY VÝZNAMNOSTI jsou statistické postupy, pomocí nichž ověřujeme, zda mezi proměnnými existuje vztah (závislost, rozdíl). Pokud je výsledek šetření statisticky významný (signifikantní), znamená

Více

STATISTICA Téma 6. Testy na základě jednoho a dvou výběrů

STATISTICA Téma 6. Testy na základě jednoho a dvou výběrů STATISTICA Téma 6. Testy na základě jednoho a dvou výběrů 1) Test na velikost rozptylu Test na velikost rozptylu STATISTICA nemá. 2) Test na velikost střední hodnoty V menu Statistika zvolíme nabídku Základní

Více

Jednofaktorová analýza rozptylu

Jednofaktorová analýza rozptylu Jednofaktorová analýza rozptylu David Hampel Ústav statistiky a operačního výzkumu, Mendelova univerzita v Brně Kurz pokročilých statistických metod Global Change Research Centre AS CR, 5 7 8 2015 Tato

Více

Testování hypotéz. 1 Jednovýběrové testy. 90/2 odhad času

Testování hypotéz. 1 Jednovýběrové testy. 90/2 odhad času Testování hypotéz 1 Jednovýběrové testy 90/ odhad času V podmínkách naprostého odloučení má voák prokázat schopnost orientace v čase. Úkolem voáka e provést odhad časového intervalu 1 hodiny bez hodinek

Více

7. Rozdělení pravděpodobnosti ve statistice

7. Rozdělení pravděpodobnosti ve statistice 7. Rozdělení pravděpodobnosti ve statistice Statistika nuda je, má však cenné údaje, neklesejte na mysli, ona nám to vyčíslí Jednou z úloh statistiky je odhad (výpočet) hodnot statistického znaku x i,

Více

Problematika analýzy rozptylu. Ing. Michael Rost, Ph.D.

Problematika analýzy rozptylu. Ing. Michael Rost, Ph.D. Problematika analýzy rozptylu Ing. Michael Rost, Ph.D. Úvod do problému Již umíte testovat shodu dvou středních hodnot prostřednictvím t-testů. Otázka: Jaké předpoklady musí být splněny, abyste mohli použít

Více

Úkol 1.: Testování nezávislosti nominálních veličin V roce 1950 zkoumali Yule a Kendall barvu očí a vlasů u 6800 mužů.

Úkol 1.: Testování nezávislosti nominálních veličin V roce 1950 zkoumali Yule a Kendall barvu očí a vlasů u 6800 mužů. Téma 10: Analýza závislosti dvou nominálních veličin Úkol 1.: Testování nezávislosti nominálních veličin V roce 1950 zkoumali Yule a Kendall barvu očí a vlasů u 6800 mužů. barva očí barva vlasů světlá

Více

TESTOVÁNÍ HYPOTÉZ STATISTICKÁ HYPOTÉZA Statistické testy Testovací kritérium = B B > B < B B - B - B < 0 - B > 0 oboustranný test = B > B

TESTOVÁNÍ HYPOTÉZ STATISTICKÁ HYPOTÉZA Statistické testy Testovací kritérium = B B > B < B B - B - B < 0 - B > 0 oboustranný test = B > B TESTOVÁNÍ HYPOTÉZ Od statistického šetření neočekáváme pouze elementární informace o velikosti některých statistických ukazatelů. Používáme je i k ověřování našich očekávání o výsledcích nějakého procesu,

Více

6. Testování statistických hypotéz. KGG/STG Zimní semestr 6. Testování statistických hypotéz

6. Testování statistických hypotéz. KGG/STG Zimní semestr 6. Testování statistických hypotéz 6. Testování statistických Testování statistických Princip: Ověř ěřování určit itého předpokladu p zjišťujeme, zda zkoumaný výběr r pochází ze základnz kladního souboru, který mám určit ité rozdělen lení

Více

ADDS cvičení 7. Pavlína Kuráňová

ADDS cvičení 7. Pavlína Kuráňová ADDS cvičení 7 Pavlína Kuráňová Analyzujte závislost věku obyvatel na místě kde nejčastěji tráví dovolenou. (dotazník dovolená, sloupce Jaký je Váš věk a Kde nejčastěji trávíte dovolenou) Analyzujte závislost

Více

Stav Svobodný Rozvedený Vdovec. Svobodná 37 10 6. Rozvedená 8 12 8. Vdova 5 8 6

Stav Svobodný Rozvedený Vdovec. Svobodná 37 10 6. Rozvedená 8 12 8. Vdova 5 8 6 1. Příklad Byly sledovány rodinné stavy nevěst a ženichů při uzavírání sňatků a byla vytvořena následující tabulka četností. Stav Svobodný Rozvedený Vdovec Svobodná 37 10 6 Rozvedená 8 12 8 Vdova 5 8 6

Více

15. T e s t o v á n í h y p o t é z

15. T e s t o v á n í h y p o t é z 15. T e s t o v á n í h y p o t é z Na základě hodnot náhodného výběru činíme rozhodnutí o platnosti hypotézy o hodnotách parametrů rozdělení nebo o jeho vlastnostech. Rozeznáváme dva základní typy testů:

Více

UNIVERZITA OBRANY Fakulta ekonomiky a managementu. Aplikace STAT1. Výsledek řešení projektu PRO HORR2011 a PRO GRAM2011 3. 11.

UNIVERZITA OBRANY Fakulta ekonomiky a managementu. Aplikace STAT1. Výsledek řešení projektu PRO HORR2011 a PRO GRAM2011 3. 11. UNIVERZITA OBRANY Fakulta ekonomiky a managementu Aplikace STAT1 Výsledek řešení projektu PRO HORR2011 a PRO GRAM2011 Jiří Neubauer, Marek Sedlačík, Oldřich Kříž 3. 11. 2012 Popis a návod k použití aplikace

Více

Testování hypotéz o parametrech regresního modelu

Testování hypotéz o parametrech regresního modelu Statistika II Katedra ekonometrie FVL UO Brno kancelář 69a, tel. 973 442029 email:jiri.neubauer@unob.cz Lineární regresní model kde Y = Xβ + e, y 1 e 1 β y 2 Y =., e = e 2 x 11 x 1 1k., X =....... β 2,

Více

Kontrola: Sečteme-li sloupec,,četnost výskytu musí nám vyjít hodnota rozsahu souboru (našich 20 žáků)

Kontrola: Sečteme-li sloupec,,četnost výskytu musí nám vyjít hodnota rozsahu souboru (našich 20 žáků) Základní výpočty pro MPPZ Teorie Aritmetický průměr = součet hodnot znaku zjištěných u všech jednotek souboru, dělený počtem všech jednotek souboru Modus = hodnota souboru s nejvyšší četností Medián =

Více

Ranní úvahy o statistice

Ranní úvahy o statistice Ranní úvahy o statistice Neúplný návod ke čtení statistických výsledků Dušan Merta květen 2016 Co nás čeká 1 Základní pojmy 2 Testování hypotéz 3 Confidence interval 4 Odds ratio 2 / 26 Základní pojmy

Více

Jana Vránová, 3.lékařská fakulta UK, Praha. Hypotézy o populacích

Jana Vránová, 3.lékařská fakulta UK, Praha. Hypotézy o populacích Jana Vránová, 3.lékařská fakulta UK, Praha Hypotézy o populacích Příklad IQ test: Předpokládejme, že z nějakého důvodu ministerstvo školství věří, že studenti absolventi středních škol v Hradci Králové

Více

RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr.

RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr. Analýza dat pro Neurovědy RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr. Jaro 014 Institut biostatistiky Janoušová, a analýz Dušek: Analýza dat pro neurovědy Blok 5 Jak analyzovat kategoriální a binární

Více

Testování statistických hypotéz. Ing. Michal Dorda, Ph.D.

Testování statistických hypotéz. Ing. Michal Dorda, Ph.D. Testování statistických hypotéz Ing. Michal Dorda, Ph.D. Testování normality Př. : Při simulaci provozu na křižovatce byla získána data o mezerách mezi přijíždějícími vozidly v [s]. Otestujte na hladině

Více

KGG/STG Statistika pro geografy

KGG/STG Statistika pro geografy KGG/STG Statistika pro geografy 4. Teoretická rozdělení Mgr. David Fiedor 9. března 2015 Osnova Úvod 1 Úvod 2 3 4 5 Vybraná rozdělení náhodných proměnných normální rozdělení normované normální rozdělení

Více

Testování hypotéz. Analýza dat z dotazníkových šetření. Kuranova Pavlina

Testování hypotéz. Analýza dat z dotazníkových šetření. Kuranova Pavlina Testování hypotéz Analýza dat z dotazníkových šetření Kuranova Pavlina Statistická hypotéza Možné cíle výzkumu Srovnání účinnosti různých metod Srovnání výsledků různých skupin Tzn. prokázání rozdílů mezi

Více

TESTOVÁNÍ STATISTICKÝCH HYPOTÉZ ZÁKLADNÍ POJMY

TESTOVÁNÍ STATISTICKÝCH HYPOTÉZ ZÁKLADNÍ POJMY TESTOVÁNÍ STATISTICKÝCH HYPOTÉZ ZÁKLADNÍ POJMY Statistická hypotéza je určitá domněnka (předpoklad) o vlastnostech ZÁKLADNÍHO SOUBORU. Test statistické hypotézy je pravidlo (kritérium), které na základě

Více

Cvičení ze statistiky - 9. Filip Děchtěrenko

Cvičení ze statistiky - 9. Filip Děchtěrenko Cvičení ze statistiky - 9 Filip Děchtěrenko Minule bylo.. Dobrali jsme normální rozdělení Tyhle termíny by měly být známé: Inferenční statistika Konfidenční intervaly Z-test Postup při testování hypotéz

Více

Jednovýběrový Wilcoxonův test a jeho asymptotická varianta (neparametrická obdoba jednovýběrového t-testu)

Jednovýběrový Wilcoxonův test a jeho asymptotická varianta (neparametrická obdoba jednovýběrového t-testu) Jednovýběrový Wilcoxonův test a jeho asymptotická varianta (neparametrická obdoba jednovýběrového t-testu) Frank Wilcoxon (1892 1965): Americký statistik a chemik Nechť X 1,..., X n je náhodný výběr ze

Více

Vybraná rozdělení náhodné veličiny

Vybraná rozdělení náhodné veličiny 3.3 Vybraná rozdělení náhodné veličiny 0,16 0,14 0,12 0,1 0,08 0,06 0,04 0,02 0 Rozdělení Z 3 4 5 6 7 8 9 10 11 12 13 14 15 Život je umění vytvářet uspokojivé závěry na základě nedostatečných předpokladů.

Více

Přednáška XI. Asociace ve čtyřpolní tabulce a základy korelační analýzy

Přednáška XI. Asociace ve čtyřpolní tabulce a základy korelační analýzy Přednáška XI. Asociace ve čtyřpolní tabulce a základy korelační analýzy Relativní riziko a poměr šancí Princip korelace dvou náhodných veličin Korelační koeficienty Pearsonůva Spearmanův Korelace a kauzalita

Více

Náhodné veličiny jsou nekorelované, neexistuje mezi nimi korelační vztah. Když jsou X; Y nekorelované, nemusí být nezávislé.

Náhodné veličiny jsou nekorelované, neexistuje mezi nimi korelační vztah. Když jsou X; Y nekorelované, nemusí být nezávislé. 1. Korelační analýza V životě většinou nesledujeme pouze jeden statistický znak. Sledujeme více statistických znaků zároveň. Kromě vlastností statistických znaků nás zajímá také jejich těsnost (velikost,

Více

KGG/STG Statistika pro geografy

KGG/STG Statistika pro geografy KGG/STG Statistika pro geografy 9. Korelační analýza Mgr. David Fiedor 20. dubna 2015 Analýza závislostí v řadě geografických disciplín studujeme jevy, u kterých vyšetřujeme nikoliv pouze jednu vlastnost

Více

Z mých cvičení dostalo jedničku 6 studentů, dvojku 8 studentů, trojku 16 studentů a čtyřku nebo omluveno 10 studentů.

Z mých cvičení dostalo jedničku 6 studentů, dvojku 8 studentů, trojku 16 studentů a čtyřku nebo omluveno 10 studentů. Neparametricke testy (motto: Hypotézy jsou lešením, které se staví před budovu a pak se strhává, je-li budova postavena. Jsou nutné pro vědeckou práci, avšak skutečný vědec nepokládá hypotézy za předmětnou

Více

JEDNOVÝBĚROVÉ TESTY. Komentované řešení pomocí programu Statistica

JEDNOVÝBĚROVÉ TESTY. Komentované řešení pomocí programu Statistica JEDNOVÝBĚROVÉ TESTY Komentované řešení pomocí programu Statistica Vstupní data Data umístěná v excelovském souboru překopírujeme do tabulky ve Statistice a pojmenujeme proměnné, viz prezentace k tématu

Více

LIMITNÍ VĚTY DALŠÍ SPOJITÁ ROZDĚLENÍ PR. 8. cvičení

LIMITNÍ VĚTY DALŠÍ SPOJITÁ ROZDĚLENÍ PR. 8. cvičení LIMITNÍ VĚTY DALŠÍ SPOJITÁ ROZDĚLENÍ PR. 8. cvičení Způsoby statistického šetření Vyčerpávající šetření prošetření všech jednotek statistického souboru (populace) Výběrové šetření ze základního souboru

Více

Informační a znalostní systémy

Informační a znalostní systémy Informační a znalostní systémy Teorie pravděpodobnosti není v podstatě nic jiného než vyjádření obecného povědomí počítáním. P. S. de Laplace Pravděpodobnost a relativní četnost Pokusy, výsledky nejsou

Více

Tomáš Karel LS 2012/2013

Tomáš Karel LS 2012/2013 Tomáš Karel LS 2012/2013 Doplňkový materiál ke cvičení z předmětu 4ST201. Na případné faktické chyby v této presentaci mě prosím upozorněte. Děkuji. Tyto slidy berte pouze jako doplňkový materiál není

Více

Intervalové odhady. Interval spolehlivosti pro střední hodnotu v N(µ, σ 2 ) Interpretace intervalu spolehlivosti. Interval spolehlivosti ilustrace

Intervalové odhady. Interval spolehlivosti pro střední hodnotu v N(µ, σ 2 ) Interpretace intervalu spolehlivosti. Interval spolehlivosti ilustrace Intervalové odhady Interval spolehlivosti pro střední hodnotu v Nµ, σ 2 ) Situace: X 1,..., X n náhodný výběr z Nµ, σ 2 ), kde σ 2 > 0 známe měli jsme: bodové odhady odhadem charakteristiky je číslo) nevyjadřuje

Více

ROZDĚLENÍ NÁHODNÝCH VELIČIN

ROZDĚLENÍ NÁHODNÝCH VELIČIN ROZDĚLENÍ NÁHODNÝCH VELIČIN 1 Vytvořeno s podporou projektu Průřezová inovace studijních programů Lesnické a dřevařské fakulty MENDELU v Brně (LDF) s ohledem na discipliny společného základu (reg. č. CZ.1.07/2.2.00/28.0021)

Více

Téma 22. Ondřej Nývlt

Téma 22. Ondřej Nývlt Téma 22 Ondřej Nývlt nyvlto1@fel.cvut.cz Náhodná veličina a náhodný vektor. Distribuční funkce, hustota a pravděpodobnostní funkce náhodné veličiny. Střední hodnota a rozptyl náhodné veličiny. Sdružené

Více

Střední hodnota a rozptyl náhodné. kvantilu. Ing. Michael Rost, Ph.D.

Střední hodnota a rozptyl náhodné. kvantilu. Ing. Michael Rost, Ph.D. Střední hodnota a rozptyl náhodné veličiny, vybraná rozdělení diskrétních a spojitých náhodných veličin, pojem kvantilu Ing. Michael Rost, Ph.D. Príklad Předpokládejme že máme náhodnou veličinu X která

Více

Poznámky k předmětu Aplikovaná statistika, 11. téma

Poznámky k předmětu Aplikovaná statistika, 11. téma Poznámky k předmětu Aplikovaná statistika, 11. téma Testy založené na χ 2 rozdělení V přehledu významných rozdělení jsme si uvedli, že Poissonovým rozdělením se modeluje počet událostí, které nastanou

Více

1. Přednáška. Ing. Miroslav Šulai, MBA

1. Přednáška. Ing. Miroslav Šulai, MBA N_OFI_2 1. Přednáška Počet pravděpodobnosti Statistický aparát používaný ve financích Ing. Miroslav Šulai, MBA 1 Počet pravděpodobnosti -náhodné veličiny 2 Počet pravděpodobnosti -náhodné veličiny 3 Jevy

Více

II. Statistické metody vyhodnocení kvantitativních dat Gejza Dohnal

II. Statistické metody vyhodnocení kvantitativních dat Gejza Dohnal Základy navrhování průmyslových experimentů DOE II. Statistické metody vyhodnocení kvantitativních dat Gejza Dohnal! Testování statistických hypotéz kvalitativní odezva kvantitativní chí-kvadrát test homogenity,

Více

jevu, čas vyjmutí ze sledování byl T j, T j < X j a T j je náhodná veličina.

jevu, čas vyjmutí ze sledování byl T j, T j < X j a T j je náhodná veličina. Parametrické metody odhadů z neúplných výběrů 2 1 Metoda maximální věrohodnosti pro cenzorované výběry 11 Náhodné cenzorování Při sledování složitých reálných systémů často nemáme možnost uspořádat experiment

Více

Katedra matematické analýzy a aplikací matematiky, Přírodovědecká fakulta, UP v Olomouci

Katedra matematické analýzy a aplikací matematiky, Přírodovědecká fakulta, UP v Olomouci Zpracování dat v edukačních vědách - Testování hypotéz Kamila Fačevicová Katedra matematické analýzy a aplikací matematiky, Přírodovědecká fakulta, UP v Olomouci Obsah seminářů 5.11. Úvod do matematické

Více

Motivace. Náhodný pokus, náhodný n jev. Pravděpodobnostn. podobnostní charakteristiky diagnostických testů, Bayesův vzorec

Motivace. Náhodný pokus, náhodný n jev. Pravděpodobnostn. podobnostní charakteristiky diagnostických testů, Bayesův vzorec Pravděpodobnostn podobnostní charakteristiky diagnostických testů, Bayesův vzorec Prof.RND.Jana Zvárov rová,, DrSc. Motivace V medicíně má mnoho problémů pravěpodobnostní charakter prognóza diagnoza účinnost

Více

Analýza rozptylu. Podle počtu analyzovaných faktorů rozlišujeme jednofaktorovou, dvoufaktorovou a vícefaktorovou analýzu rozptylu.

Analýza rozptylu. Podle počtu analyzovaných faktorů rozlišujeme jednofaktorovou, dvoufaktorovou a vícefaktorovou analýzu rozptylu. Analýza rozptylu Analýza rozptylu umožňuje ověřit významnost rozdílu mezi výběrovými průměry většího počtu náhodných výběrů, umožňuje posoudit vliv různých faktorů. Podle počtu analyzovaných faktorů rozlišujeme

Více

Kontingenční tabulky, korelační koeficienty

Kontingenční tabulky, korelační koeficienty Statistika II Katedra ekonometrie FVL UO Brno kancelář 69a, tel. 973 442029 email:jiri.neubauer@unob.cz Mějme kategoriální proměnné X a Y. Vytvoříme tzv. kontingenční tabulku. Budeme tedy testovat hypotézu

Více

Pravděpodobnost a aplikovaná statistika

Pravděpodobnost a aplikovaná statistika Pravděpodobnost a aplikovaná statistika MGR. JANA SEKNIČKOVÁ, PH.D. 8. KAPITOLA STATISTICKÉ TESTOVÁNÍ HYPOTÉZ 22.11.2016 Opakování: CLV příklad 1 Zadání: Před volbami je v populaci státu 52 % příznivců

Více

Inferenční statistika - úvod. z-skóry normální rozdělení pravděpodobnost rozdělení výběrových průměrů

Inferenční statistika - úvod. z-skóry normální rozdělení pravděpodobnost rozdělení výběrových průměrů Inferenční statistika - úvod z-skóry normální rozdělení pravděpodobnost rozdělení výběrových průměrů Pravděpodobnost postupy induktivní statistiky vycházejí z teorie pravděpodobnosti pravděpodobnost, že

Více

Národníinformačnístředisko pro podporu jakosti

Národníinformačnístředisko pro podporu jakosti Národníinformačnístředisko pro podporu jakosti OVĚŘOVÁNÍ PŘEDPOKLADU NORMALITY Doc. Ing. Eva Jarošová, CSc. Ing. Jan Král Používané metody statistické testy: Chí-kvadrát test dobré shody Kolmogorov -Smirnov

Více

Přednáška 9. Testy dobré shody. Grafická analýza pro ověření shody empirického a teoretického rozdělení

Přednáška 9. Testy dobré shody. Grafická analýza pro ověření shody empirického a teoretického rozdělení Přednáška 9 Testy dobré shody Grafická analýza pro ověření shody empirického a teoretického rozdělení χ 2 test dobré shody ověření, zda jsou relativní četnosti jednotlivých variant rovny číslům π 01 ;

Více

Aproximace binomického rozdělení normálním

Aproximace binomického rozdělení normálním Aproximace binomického rozdělení normálním Aproximace binomického rozdělení normálním Příklad Sybilla a Kassandra tvrdí, že mají telepatické schopnosti, a chtějí to dokázat následujícím pokusem: V jedné

Více

Určujeme neznámé hodnoty parametru základního souboru. Pomocí výběrové charakteristiky vypočtené z náhodného výběru.

Určujeme neznámé hodnoty parametru základního souboru. Pomocí výběrové charakteristiky vypočtené z náhodného výběru. 1 Statistické odhady Určujeme neznámé hodnoty parametru základního souboru. Pomocí výběrové charakteristiky vypočtené z náhodného výběru. Odhad lze provést jako: Bodový odhad o Jedna číselná hodnota Intervalový

Více

Vysoká škola báňská technická univerzita Ostrava. Fakulta elektrotechniky a informatiky

Vysoká škola báňská technická univerzita Ostrava. Fakulta elektrotechniky a informatiky Vysoká škola báňská technická univerzita Ostrava Fakulta elektrotechniky a informatiky Bankovní účty (semestrální projekt statistika) Tomáš Hejret (hej124) 18.5.2013 Úvod Cílem tohoto projektu, zadaného

Více

8 Střední hodnota a rozptyl

8 Střední hodnota a rozptyl Břetislav Fajmon, UMAT FEKT, VUT Brno Této přednášce odpovídá kapitola 10 ze skript [1]. Také je k dispozici sbírka úloh [2], kde si můžete procvičit příklady z kapitol 2, 3 a 4. K samostatnému procvičení

Více

1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.

1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004. Testování hypotéz na základě jednoho a dvou výběrů 1 1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/004. Testování hypotéz Pokud nás zajímá zda platí, či neplatí tvrzení o určitém parametru,

Více

Testování statistických hypotéz

Testování statistických hypotéz Testování statistických hypotéz 1 Testování statistických hypotéz 1 Statistická hypotéza a její test V praxi jsme nuceni rozhodnout, zda nějaké tvrzeni o parametrech náhodných veličin nebo o veličině samotné

Více

Opakování. Neparametrické testy. Pořadí. Jednovýběrový Wilcoxonův test. t-testy: hypotézy o populačním průměru (střední hodnoty) předpoklad normality

Opakování. Neparametrické testy. Pořadí. Jednovýběrový Wilcoxonův test. t-testy: hypotézy o populačním průměru (střední hodnoty) předpoklad normality Opakování Opakování: Testy o střední hodnotě normálního rozdělení 1 jednovýběrový t-test 2 párový t-test 3 dvouvýběrový t-test jednovýběrový Wilcoxonův test párový Wilcoxonův test dvouvýběrový Wilcoxonův

Více

MATEMATICKO STATISTICKÉ PARAMETRY ANALYTICKÝCH VÝSLEDKŮ

MATEMATICKO STATISTICKÉ PARAMETRY ANALYTICKÝCH VÝSLEDKŮ MATEMATICKO STATISTICKÉ PARAMETRY ANALYTICKÝCH VÝSLEDKŮ Má-li analytický výsledek objektivně vypovídat o chemickém složení vzorku, musí splňovat určitá kriteria: Mezinárodní metrologický slovník (VIM 3),

Více

Pravděpodobnost v závislosti na proměnné x je zde modelován pomocí logistického modelu. exp x. x x x. log 1

Pravděpodobnost v závislosti na proměnné x je zde modelován pomocí logistického modelu. exp x. x x x. log 1 Logistická regrese Menu: QCExpert Regrese Logistická Modul Logistická regrese umožňuje analýzu dat, kdy odezva je binární, nebo frekvenční veličina vyjádřená hodnotami 0 nebo 1, případně poměry v intervalu

Více

NEPARAMETRICKÉ TESTY

NEPARAMETRICKÉ TESTY NEPARAMETRICKÉ TESTY Neparametrický jednovýběrový Jeden výběr jehož medián srovnáváme s nějakou hodnotou Wilcoxonův jednovýběrový test 1) Máme data z družice Hipparcos pro deklinaci (obdoba zeměpisné šířky)

Více

10. N á h o d n ý v e k t o r

10. N á h o d n ý v e k t o r 10. N á h o d n ý v e k t o r 10.1. Definice: Náhodný vektor. Uspořádanou n tici (X 1, X 2,..., X n ) náhodných veličin X i, 1 i n, nazýváme náhodným vektorem. Poznámka: Pro jednoduchost budeme zavádět

Více

Inženýrská statistika pak představuje soubor postupů a aplikací teoretických principů v oblasti inženýrské činnosti.

Inženýrská statistika pak představuje soubor postupů a aplikací teoretických principů v oblasti inženýrské činnosti. Přednáška č. 1 Úvod do statistiky a počtu pravděpodobnosti Statistika Statistika je věda a postup jak rozvíjet lidské znalosti použitím empirických dat. Je založena na matematické statistice, která je

Více

Ing. Michael Rost, Ph.D.

Ing. Michael Rost, Ph.D. Úvod do testování hypotéz, jednovýběrový t-test Ing. Michael Rost, Ph.D. Testovaná hypotéza Pokud nás zajímá zda platí, či neplatí tvrzení o určitém parametru, např. o parametru Θ, pak takovéto tvrzení

Více

Testování statistických hypotéz. Ing. Michal Dorda, Ph.D. 1

Testování statistických hypotéz. Ing. Michal Dorda, Ph.D. 1 Testování statistických hypotéz Ing. Michal Dorda, Ph.D. 1 Úvodní poznámky Statistickou hypotézou rozumíme hypotézu o populaci (základním souboru) např.: Střední hodnota základního souboru je rovna 100.

Více

1. Náhodný vektor (X, Y ) má diskrétní rozdělení s pravděpodobnostní funkcí p, kde. p(x, y) = a(x + y + 1), x, y {0, 1, 2}.

1. Náhodný vektor (X, Y ) má diskrétní rozdělení s pravděpodobnostní funkcí p, kde. p(x, y) = a(x + y + 1), x, y {0, 1, 2}. VIII. Náhodný vektor. Náhodný vektor (X, Y má diskrétní rozdělení s pravděpodobnostní funkcí p, kde p(x, y a(x + y +, x, y {,, }. a Určete číslo a a napište tabulku pravděpodobnostní funkce p. Řešení:

Více

Matematické modelování Náhled do ekonometrie. Lukáš Frýd

Matematické modelování Náhled do ekonometrie. Lukáš Frýd Matematické modelování Náhled do ekonometrie Lukáš Frýd Výnos akcie vs. Výnos celého trhu - CAPM model r it = r ft + β 1. (r mt r ft ) r it r ft = α 0 + β 1. (r mt r ft ) + ε it Ekonomický (finanční model)

Více

Návod na statistický software PSPP část 2. Kontingenční tabulky

Návod na statistický software PSPP část 2. Kontingenční tabulky Návod na statistický software PSPP část 2. Kontingenční tabulky Jiří Šafr FHS UK poslední revize 31. srpna 2010 Logika kontingenčních tabulek... 2 Postup vytváření kontingenčních tabulek v PSPP (SPSS)....

Více

y = 0, ,19716x.

y = 0, ,19716x. Grafické ověřování a testování vybraných modelů 1 Grafické ověřování empirického rozdělení Při grafické analýze empirického rozdělení vycházíme z empirické distribuční funkce F n (x) příslušné k náhodnému

Více

Parametry hledáme tak, aby součet čtverců odchylek byl minimální. Řešením podle teorie je =

Parametry hledáme tak, aby součet čtverců odchylek byl minimální. Řešením podle teorie je = Příklad 1 Metodou nejmenších čtverců nalezněte odhad lineární regresní funkce popisující závislost mezi výnosy pšenice a množstvím použitého hnojiva na základě hodnot výběrového souboru uvedeného v tabulce.

Více

t-test, Studentův párový test Ing. Michael Rost, Ph.D.

t-test, Studentův párový test Ing. Michael Rost, Ph.D. Testování hypotéz: dvouvýběrový t-test, Studentův párový test Ing. Michael Rost, Ph.D. Úvod do problému... Již známe jednovýběrový t-test, při kterém jsme měli k dispozici pouze jeden výběr. Můžeme se

Více

Epidemiologické metody

Epidemiologické metody 6. SEMINÁŘ RIZIKA Epidemiologické metody Posuzování vztahů mezi nemocemi a jejich příčinami a podmínkami vzniku. Důležitou roli zde má statistika poskytuje metody pro měření asociace mezi jevy Pro posouzení

Více

Téma 2: Pravděpodobnostní vyjádření náhodných veličin

Téma 2: Pravděpodobnostní vyjádření náhodných veličin 0.025 0.02 0.015 0.01 0.005 Nominální napětí v pásnici Std Mean 140 160 180 200 220 240 260 Std Téma 2: Pravděpodobnostní vyjádření náhodných veličin Přednáška z předmětu: Pravděpodobnostní posuzování

Více