příklad: předvolební průzkum Statistika (MD360P03Z, MD360P03U) ak. rok 2007/2008 příklad: souvisí plánované těhotenství se vzděláním?

Podobné dokumenty
Mannův-Whitneyův(Wilcoxonův) test pořadová obdoba dvouvýběrového t-testu. Statistika (MD360P03Z, MD360P03U) ak. rok 2007/2008

Základy biostatistiky (MD710P09) ak. rok 2007/2008

Základy biostatistiky (MD710P09) ak. rok 2008/2009

ANALÝZA DAT V R 7. KONTINGENČNÍ TABULKA. Mgr. Markéta Pavlíková Katedra pravděpodobnosti a matematické statistiky MFF UK.

charakteristiky variability Statistika (MD360P03Z, MD360P03U) ak. rok 2007/2008 směrodatná odchylka rozptyl(variance)

KGG/STG Statistika pro geografy

Testy dobré shody Máme dvě veličiny, u kterých bychom chtěli prokázat závislost, TESTY DOBRÉ SHODY (angl. goodness-of-fit tests)

STATISTIKA A INFORMATIKA - bc studium OZW, 1.roč. (zkušební otázky)

PSY117/454 Statistická analýza dat v psychologii Přednáška 10

Mann-Whitney U-test. Znaménkový test. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek

Jana Vránová, 3. lékařská fakulta UK

UNIVERZITA OBRANY Fakulta ekonomiky a managementu. Aplikace STAT1. Výsledek řešení projektu PRO HORR2011 a PRO GRAM

INDUKTIVNÍ STATISTIKA

ANALÝZA DAT V R 5. ZÁKLADNÍ STATISTICKÉ TESTY. Mgr. Markéta Pavlíková Katedra pravděpodobnosti a matematické statistiky MFF UK.

12. cvičení z PST. 20. prosince 2017

Rozhodnutí / Skutečnost platí neplatí Nezamítáme správně chyba 2. druhu Zamítáme chyba 1. druhu správně

4ST201 STATISTIKA CVIČENÍ Č. 7

5 Vícerozměrná data - kontingenční tabulky, testy nezávislosti, regresní analýza

letní semestr 2012 Katedra pravděpodobnosti a matematické statistiky Matematicko-fyzikální fakulta Univerzity Karlovy Matematická statistika

II. Statistické metody vyhodnocení kvantitativních dat Gejza Dohnal

Neparametrické metody

Kontingenční tabulky, korelační koeficienty

Statistické metody uţívané při ověřování platnosti hypotéz

Charakteristika datového souboru

VYBRANÉ DVOUVÝBĚROVÉ TESTY. Martina Litschmannová

Zpracování náhodného vektoru. Ing. Michal Dorda, Ph.D.

Opakování. Neparametrické testy. Pořadí. Jednovýběrový Wilcoxonův test. t-testy: hypotézy o populačním průměru (střední hodnoty) předpoklad normality

Kontingenční tabulky, korelační koeficienty

Základy biostatistiky II. Veřejné zdravotnictví 3.LF UK - II

Tomáš Karel LS 2012/2013

RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr.

11. cvičení z PSI prosince hodnota pozorovaná četnost n i p X (i) = q i (1 q), i N 0.

Kategorická data METODOLOGICKÝ PROSEMINÁŘ II TÝDEN 7 4. DUBNA dubna 2018 Lukáš Hájek, Karel Höfer Metodologický proseminář II 1

Intervalové odhady. Interval spolehlivosti pro střední hodnotu v N(µ, σ 2 ) Interpretace intervalu spolehlivosti. Interval spolehlivosti ilustrace

Jednofaktorová analýza rozptylu

Seminář 6 statistické testy

Cvičení 12: Binární logistická regrese

Příklady na testy hypotéz o parametrech normálního rozdělení

Statistika. Testování hypotéz statistická indukce Neparametrické testy. Roman Biskup

Intervalové odhady. Interval spolehlivosti pro střední hodnotu v N(µ, σ 2 ) Interpretace intervalu spolehlivosti. Interval spolehlivosti ilustrace

TESTOVÁNÍ HYPOTÉZ STATISTICKÁ HYPOTÉZA Statistické testy Testovací kritérium = B B > B < B B - B - B < 0 - B > 0 oboustranný test = B > B

Přednáška XI. Asociace ve čtyřpolní tabulce a základy korelační analýzy

Testování hypotéz o parametrech regresního modelu

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz

Fisherův exaktní test

Úkol 1.: Testování nezávislosti nominálních veličin V roce 1950 zkoumali Yule a Kendall barvu očí a vlasů u 6800 mužů.

Příklad 1. Řešení 1 ŘEŠENÉ PŘÍKLADY Z MV2 ČÁST 11

Testování hypotéz o parametrech regresního modelu

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Mgr. Karla Hrbáčková, Ph.D. Základy kvantitativního výzkumu

10. cvičení z PST. 5. prosince T = (n 1) S2 X. (n 1) s2 x σ 2 q χ 2 (n 1) (1 α 2 ). q χ 2 (n 1) 2. 2 x. (n 1) s. x = 1 6. x i = 457.

Pravděpodobnost a matematická statistika

Katedra matematické analýzy a aplikací matematiky, Přírodovědecká fakulta, UP v Olomouci

Test dobré shody v KONTINGENČNÍCH TABULKÁCH

Vybrané partie z biostatistiky

Seminář 6 statistické testy

Statistické testování hypotéz II

Vysoká škola báňská technická univerzita Ostrava. Fakulta elektrotechniky a informatiky

Cvičení ze statistiky - 9. Filip Děchtěrenko

Neparametrické testy

Statistika, Biostatistika pro kombinované studium. Jan Kracík

Bakalářské studium na MFF UK v Praze Obecná matematika Zaměření: Stochastika. 1 Úvodní poznámky. Verze: 13. června 2013

Příklad 1. Korelační pole. Řešení 1 ŘEŠENÉ PŘÍKLADY Z MV2 ČÁST 13

Cvičení ze statistiky - 8. Filip Děchtěrenko

Analýza dat z dotazníkových šetření

1. Číselné posloupnosti - Definice posloupnosti, základní vlastnosti, operace s posloupnostmi, limita posloupnosti, vlastnosti limit posloupností,

Tomáš Karel LS 2012/2013

MÍRY ZÁVISLOSTI (KORELACE A REGRESE)

Kontingenční tabulky. (Analýza kategoriálních dat)

analýza kategoriáln lních dat Prof. RNDr. Jana Zvárová, DrSc. Záznam epidemiologických dat Epidemiologické ukazatele

SEMESTRÁLNÍ PRÁCE Z PŘEDMĚTU STATISTIKY

Korelační a regresní analýza

Jednovýběrový Wilcoxonův test a jeho asymptotická varianta (neparametrická obdoba jednovýběrového t-testu)

Statistická analýza jednorozměrných dat

Zápočtová práce STATISTIKA I

Analýza rozptylu. Podle počtu analyzovaných faktorů rozlišujeme jednofaktorovou, dvoufaktorovou a vícefaktorovou analýzu rozptylu.

ÚVOD DO TEORIE ODHADU. Martina Litschmannová

IBM SPSS Exact Tests. Přesné analýzy malých datových souborů. Nejdůležitější. IBM SPSS Statistics

15. T e s t o v á n í h y p o t é z

RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr.

Grafický a číselný popis rozložení dat 3.1 Způsoby zobrazení dat Metody zobrazení kvalitativních a ordinálních dat Metody zobrazení kvan

Epidemiologické ukazatele. lních dat. analýza kategoriáln. Prof. RNDr. Jana Zvárová, DrSc. Záznam epidemiologických dat. a I E

= = 2368

Náhodné veličiny jsou nekorelované, neexistuje mezi nimi korelační vztah. Když jsou X; Y nekorelované, nemusí být nezávislé.

Testování statistických hypotéz. Obecný postup

ADDS cvičení 7. Pavlína Kuráňová

Ranní úvahy o statistice

Tématické okruhy pro státní závěrečné zkoušky. bakalářské studium. studijní obor "Management jakosti"

MATEMATICKÁ STATISTIKA. Katedra matematiky a didaktiky matematiky Technická univerzita v Liberci

Stručný úvod do vybraných zredukovaných základů statistické analýzy dat

Přednáška X. Testování hypotéz o kvantitativních proměnných

RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr.

Poznámky k předmětu Aplikovaná statistika, 11. téma

ANALÝZA ZÁVISLOSTI. Martina Litschmannová

Cvičení z biostatistiky 06

VŠB-TU OSTRAVA, FAKULTA ELEKTROTECHNIKY A INFORMATIKY, KATEDRA APLIKOVANÉ MATEMATIKY. Statistika. Vzorce a tabulky

Měření závislosti statistických dat

15. T e s t o v á n í h y p o t é z

Statistika. Teorie odhadu statistická indukce. Roman Biskup. (zapálený) statistik ve výslužbě, aktuálně analytik v praxi ;-) roman.biskup(at) .

Matematická statistika. Testy v. v binomickém. Test pravděpodobnosti. Test homogenity dvou. Neparametrické testy. statistika. Testy v.

Transkript:

Statistika (MD360P03Z, MD360P03U) ak. rok 2007/2008 Karel Zvára karel.zvara@mff.cuni.cz http://www.karlin.mff.cuni.cz/ zvara (naposledy upraveno 17. prosince 2007) 1(249) závislost kvalitativních znaků čtyřpolní tabulka závislost kvalitativní kvantitativní přehledy 232(249) příklad: předvolební průzkum TVXY A B celkem sledoval 11 4 15 nesledoval 6 9 15 celkem 17 13 30 TV XY A B celkem sledoval 73% 27% 100% nesledoval 40% 60% 100% celkem 57% 43% 100% TV XY A B celkem sledoval 65% 31% 50% nesledoval 35% 69% 50% celkem 100% 100% 100% 30 voličů bylo dotázáno, kterézedvoustrandají přednost souvisí odpovědi se sledováním večerních zpráv na dané TV stanici? znamená něco nestejné zastoupení příznivců stran u těch, kteří sledovali? znamenají něco nestejné podíly těch, kteří sledovali mezi příznivci dvou stran? Statistika (MD360P03Z, MD360P03U) ak. rok 2007/2008 závislost kvalitativních znaků čtyřpolní tabulka závislost kvalitativní kvantitativní přehledy 233(249) test nezávislosti kvalitativních znaků vyšetřujeme současně dva znaky v nominálním měřítku u n nezávislých statistických jednotek n ij jepočetjednotek,kdejesoučasněi-táhodnotaprvního znaku a j-tá hodnota druhého znaku celkemjei-táhodnotaprvníhoznakuun i = j n ijjednotek, j-táhodnotadruhéhoznakuun j = i n ijjednotek kdyby byly znaky nezávislé, byl by pro každou hodnotu jednoho znaku poměr mezi četnostmi hodnot druhého znaku podobný,protoočekávanéčetnostijsouo ij = n i n j n (podmíněné psti stejné) výpočet χ 2 ajehohodnocenístejnéjakouhomogenity závislost kvalitativních znaků čtyřpolní tabulka závislost kvalitativní kvantitativní přehledy 234(249) příklad: souvisí těhotenství se vzděláním? základní 20 14 34 střední 16 31 47 VŠ 5 13 18 základní 58,8% 42,1% 100% střední 34,0% 66,0% 100% VŠ 27,8% 72,2% 100% celkem 41,4% 58,6% 100% je souvislost mezi odpověďmi o m těhotenství a vzděláním matek? kdyby byly znaky nezávislé, byly by podmíněné pravděpodobnosti pro jednotlivá vzdělání stejné, tedy jejich odhady by byly podobné test vlastně porovnává procenta u jednotlivých vzdělání chí-kvadrát test porovnává skutečně zjištěné četnosti s tím, jaké četnosti bychom v průměru očekávali, kdyby platila nulová hypotéza

závislost kvalitativních znaků čtyřpolní tabulka závislost kvalitativní kvantitativní přehledy 235(249) příklad: plánovaná těhotenství skutečné četnosti(očekávané četnosti) základní 20(14,08) 14(19,92) 34 střední 16(19,46) 31(27,54) 47 VŠ 5(7,46) 13(10,54) 18 odhad pravděpodobnosti, že má matka základní vzdělání: ˆP(vzdel = zakladni) = 34/99 odhad pravděpodobnosti, že jde o těhotenství: ˆP(tehot=plan)=58/99 jsou-li vzdělání a plánovanost nezávislé, pak P((vzdel = zakladni) (tehot = plan)) =P(vzdel=zakladni) P(tehot=plan) =(34/99). (58/99) očekávaný počet matek se základním vzděláním a plánovaným těhotenstvím(za platnosti nulové hypotézy) odhadneme: 99 (34/99) (58/99)=34 58/99 =19,92. závislost kvalitativních znaků čtyřpolní tabulka závislost kvalitativní kvantitativní přehledy 236(249) příklad: plánovaná těhotenství skutečné četnosti(očekávané četnosti) základní 20(14,08) 14(19,92) 34 střední 16(19,46) 31(27,54) 47 VŠ 5(7,46) 13(10,54) 18 χ 2 (20 14,08)2 (14 19,92)2 (16 19,46)2 = + + + 14,08 19,92 19,46 (5 7,46)2 (13 10,54)2 + + =6,68 7,46 10,54 (31 27,54)2 27,54 závislost kvalitativních znaků čtyřpolní tabulka závislost kvalitativní kvantitativní přehledy 237(249) příklad: souvisí těhotenství se vzděláním? u každé matky zjišťovány dva znaky: dosažené vzdělání, zda těhotenství plánováno vzdělání základní střední VŠ celkem neplánováno 20(14,1) 16(19,5) 5(7,5) 41 plánováno 14(19,9) 31(27,5) 13(10,5) 58 celkem 34 47 18 99 kdyby nebyla závislost, u každého vzdělání by bylo stejné procento plánovaných těhotenství, totiž 58/99=58,6% uzákl.vzděláníx/34=58/99tedyx=34 58/99=19,9 ustředníhovzděláníx/47=58/99tedyx=47 58/99=27,5 uvysokoškolačekx/18=58/99tedyx=18 58/99=10,5 všechny očekávané četnosti jsou dostatečně velké χ 2 =6,68 >5,99=χ 2 2 (0,05), p=3,5% závislost kvalitativních znaků čtyřpolní tabulka závislost kvalitativní kvantitativní přehledy 238(249) příklad: vzdělání snoubenců nevěsta ženich základní střední VŠ celkem základní 24 12 3 39 střední 7 24 3 34 VŠ 3 9 15 27 celkem 34 45 21 100 u 100 náhodně vybraných snoubenců bylo zjištěno vzdělání (základní = základní nebo neúplné střední) lze považovat vzdělání snoubenců za nezávislá? jsou četnosti dost velké? nejmenší očekávané četnost(při nezávislosti): 27 21/100=5,67

závislost kvalitativních znaků čtyřpolní tabulka závislost kvalitativní kvantitativní přehledy 239(249) příklad: vzdělání snoubenců nevěsta ženich základní střední VŠ celkem základní 24(13,2) 12(17,6) 3(8,2) 39 střední 7(11,6) 24(15,3) 3(7,1) 34 VŠ 3(9,2) 9(12,2) 15(5,7) 27 celkem 34 45 21 100 χ 2 =43,2 > χ 2 4 (0,05)=9,5,p<0,1% na5%hladinějsmeprokázalizávislost vzdělání snoubenců nelze považovat za nezávislá četnosti na diagonále jsou větší, než očekáváme za nezávislosti četnosti daleko od diagonály(velký rozdíl ve vzdělání) jsou menší, než očekáváme za nezávislosti závislost kvalitativních znaků čtyřpolní tabulka závislost kvalitativní kvantitativní přehledy 240(249) čtyřpolní tabulka speciální případ kontingenční tabulky a b a+b c d c+d a+c b+d n sílu závislosti lze měřit φ-koeficientem[phi coefficient] (čtyřpolní korelační koeficient) φ= ad bc φje(jakokaždýkorelačníkoeficient)mezi 1a1 11 4 15 pro 6 9 15 vyjde 17 13 30 φ= 11 9 4 6 15 15 17 13 =0,34 závislost kvalitativních znaků čtyřpolní tabulka závislost kvalitativní kvantitativní přehledy 241(249) příklad: předvolební průzkum φ >0znamená,žečetnostinahlavnídiagonále(indexy1,1a 2,2) převládají nad četnostmi na vedlejší diagonále(indexy 1,2 a2,1) strana TVXY A B celkem vnašempříkladu sledoval 11 4 15 nesledoval 6 9 15 celkem 17 13 30 vychází φ=0,34 >0 (tedy kladné), protože je 11 9 > 6 4 závislost kvalitativních znaků čtyřpolní tabulka závislost kvalitativní kvantitativní přehledy 242(249) čtyřpolní tabulka prokazování závislosti chí-kvadrát porovnávající teoretické a očekávané četnosti lze upravit na tvar χ 2 = n(ad bc) 2 =n φ2 nezávislostsenahladině αzamítá,je-li χ 2 χ 2 1 (α) příklad(předvolební průzkum) χ 2 = 30 (11 9 4 6)2 15 15 17 13 =3,39=30 0,34 2 závislost jsme na 5% hladině neprokázali, neboť 3,39 <3,84=χ 2 1 (0,05), p=6,5%

závislost kvalitativních znaků čtyřpolní tabulka závislost kvalitativní kvantitativní přehledy 243(249) malé očekávané četnosti ve čtyřpolní tabulce závislost kvalitativních znaků čtyřpolní tabulka závislost kvalitativní kvantitativní přehledy 244(249) příklad: souvislost délky kojení a plánování těhotenství stálejetřeba,abybylyočekávanéčetnostidostvelké( 5) Yatesova korekce umožní rozhodnutí i při menších četnostech tím, že zmenší čitatele χ 2 Yates = n( ad bc n/2) 2 nezávislostsezamítá,je-liopět χ 2 Yates χ2 1 (α) Fisherův exaktní test počítá přímo p-hodnotu Praha a venkov venkov těhot. neplán. plán. celkem neplán. plán. celkem ve 24. t. nekojí 35 36 71 13 9 22 ve 24. t. kojí 6 22 28 1 6 7 14 15 29 bezohledunamísto: χ 2 =6,43, p=1,1%, χ 2 Yates =5,33, p=2,1%(nejm.četnost41 28/99=11,6) Fisherůvexaktnítest:p=1,3% venkov: χ 2 =4,27, p=3,9%, χ 2 Yates =2,66, p=10,3%(nejm.četnost14 7/29=3,4) Fisherůvexaktnítest:p=8,0% závislost kvalitativních znaků čtyřpolní tabulka závislost kvalitativní kvantitativní přehledy 245(249) Simpsonův paradox dílčí tabulky mohou ukazovat na závislost jiného směru, než jejich součet venkov A B celkem sledoval 34 5 39 nesledoval 28 2 30 celkem 62 7 69 město A B celkem sledoval 4 29 33 nesledoval 6 35 42 celkem 10 64 74 φ venkov = 0,10 φ město = 0,04 celkem A B celkem sledoval 38 34 72 nesledoval 34 37 71 celkem 72 71 143 φ celkem =0,05 po spojení dvou tabulek se záporným φ-koeficientem vyšla tabulka s kladným φ-koeficientem závislost kvalitativních znaků čtyřpolní tabulka závislost kvalitativní kvantitativní přehledy 246(249) závislost mezi nula-jedničkovým a kvantitativním znakem dvanezávislévýběry,např.hošix 1,...,X n0 adívky X n0 +1,...,X n0 +n 1,vždynormálnírozděleníjakopro dvouvýběrový t-test otázka: jak silně souvisí sledovaná vlastnost a pohlaví? označmepohlavíformálněy i =0prochlapceaY i =1pro děvčata korelačníkoeficientr X,Y mezitěmitoveličinamisedázapsat také jako r bis = X 1 X 0 n0 n 1 S n(n 1) S je směrodatná odchylka spočítaná bez ohledu na pohlaví, n=n 0 +n 1 jecelkovýpočetměřenívobouvýběrech r bis bodově-biseriálníkorelačníkoeficient

závislost kvalitativních znaků čtyřpolní tabulka závislost kvalitativní kvantitativní přehledy 247(249) příklad: výška desetiletých závislost kvalitativních znaků čtyřpolní tabulka závislost kvalitativní kvantitativní přehledy 248(249) přehled korelačních koeficientů stejná data jako dvouvýběrový test(data ze str. 170) X0 =139,13, n 0 =15 X1 =140,83, n 1 =12 S 2 =38,18, r bis = S=6,18 140,83 139,13 15 12 6,18 15+12 =0,493 H 0 :nezávislost má-lixnormálnírozdělení,lzepoužítstejnýtest,jakou korelačního koeficientu; je to ekvivalentní dvouvýběrovému t-testu(při stejných populačních rozptylech základním je(momentový) Pearsonův r= n i=1 (x i x)(y i ȳ) n i=1 (x i x) 2 n i=1 (y i ȳ) 2 kdyžmístohodnotx i,y i dosadímejejichpořadír i,q i, dostaneme(pořadový) Spearmanův korelační koeficient r S =1 6 n(n 2 1) n (R i Q i ) 2 je-li jedna z veličin nula-jedničková, vyjde bodově-biseriální korelačníkoeficientr bis jsou-li obě veličiny nula-jedničkové, dostaneme φ-koeficient (čtyřpolní korelační koeficient) i=1 závislost kvalitativních znaků čtyřpolní tabulka závislost kvalitativní kvantitativní přehledy 249(249) přehled testů o populačních mírách polohy rozdělení normální spojité populační parametr (o čem je hypotéza) populační průměr populační medián jeden výběr jednovýběrový t-test znaménkový Wilcoxon výběr dvojic párový t-test znaménkový Wilcoxon dva nezávislé výběry dvouvýběrový Mann-Whitney t-test