{ } ( 2) Příklad: Test nezávislosti kategoriálních znaků



Podobné dokumenty
Příklad: Test nezávislosti kategoriálních znaků

INDUKTIVNÍ STATISTIKA

Tomáš Karel LS 2012/2013

(motto: An unsophisticated forecaster uses statistics as a drunken man uses lamp-posts - for support rather than for illumination.

Tomáš Karel LS 2012/2013

TECHNICKÁ UNIVERZITA V LIBERCI EKONOMICKÁ FAKULTA

TECHNICKÁ UNIVERZITA V LIBERCI

Statistika (KMI/PSTAT)

Kontingenční tabulky, korelační koeficienty

Stav Svobodný Rozvedený Vdovec. Svobodná Rozvedená Vdova 5 8 6

Kontingenční tabulky, korelační koeficienty

STATISTIKA A INFORMATIKA - bc studium OZW, 1.roč. (zkušební otázky)

Regresní a korelační analýza

Korelační a regresní analýza

4ST201 STATISTIKA CVIČENÍ Č. 10

Zpracování náhodného vektoru. Ing. Michal Dorda, Ph.D.

Regresní a korelační analýza

Měření závislosti statistických dat

TECHNICKÁ UNIVERZITA V LIBERCI

5 Vícerozměrná data - kontingenční tabulky, testy nezávislosti, regresní analýza

TECHNICKÁ UNIVERZITA V LIBERCI SEMESTRÁLNÍ PRÁCE

Sever Jih Západ Plechovka Točené Sever Jih Západ Součty Plechovka Točené Součty

KGG/STG Statistika pro geografy

Korelace. Komentované řešení pomocí MS Excel

TECHNICKÁ UNIVERZITA V LIBERCI. Statistický rozbor dat z dotazníkového šetření

Testování hypotéz a měření asociace mezi proměnnými

ADDS cvičení 7. Pavlína Kuráňová

Statistická analýza jednorozměrných dat

Testování hypotéz o parametrech regresního modelu

Testování hypotéz o parametrech regresního modelu

Název testu Předpoklady testu Testová statistika Nulové rozdělení. ( ) (p počet odhadovaných parametrů)

Statistické metody uţívané při ověřování platnosti hypotéz

6. Lineární regresní modely

Regresní analýza 1. Regresní analýza

Statgraphics v. 5.0 STATISTICKÁ INDUKCE PRO JEDNOROZMĚRNÁ DATA. Martina Litschmannová 1. Typ proměnné. Požadovaný typ analýzy

1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.

KORELACE. Komentované řešení pomocí programu Statistica

ADDS cviceni. Pavlina Kuranova

Příklad 1. Korelační pole. Řešení 1 ŘEŠENÉ PŘÍKLADY Z MV2 ČÁST 13

4EK211 Základy ekonometrie

Testování hypotéz. Analýza dat z dotazníkových šetření. Kuranova Pavlina

Regresní analýza. Eva Jarošová

Cvičící Kuba Kubina Kubinčák Body u závěrečného testu

Základy biostatistiky II. Veřejné zdravotnictví 3.LF UK - II

Aplikovaná statistika v R - cvičení 2

Z mých cvičení dostalo jedničku 6 studentů, dvojku 8 studentů, trojku 16 studentů a čtyřku nebo omluveno 10 studentů.

TECHNICKÁ UNIVERZITA V LIBERCI Ekonomická fakulta

Statistika. Regresní a korelační analýza Úvod do problému. Roman Biskup

TECHNICKÁ UNIVERZITA V LIBERCI

Korelační a regresní analýza. 1. Pearsonův korelační koeficient 2. jednoduchá regresní analýza 3. vícenásobná regresní analýza

Pearsonův korelační koeficient

UNIVERZITA OBRANY Fakulta ekonomiky a managementu. Aplikace STAT1. Výsledek řešení projektu PRO HORR2011 a PRO GRAM

Jana Vránová, 3. lékařská fakulta UK

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz

MĚŘENÍ STATISTICKÝCH ZÁVISLOSTÍ

, Brno Hanuš Vavrčík Základy statistiky ve vědě

JEDNOVÝBĚROVÉ TESTY. Komentované řešení pomocí programu Statistica

Analýza dat z dotazníkových šetření

MÍRY ZÁVISLOSTI (KORELACE A REGRESE)

4EK211 Základy ekonometrie

Aplikovaná statistika v R - cvičení 3

4ST201 STATISTIKA CVIČENÍ Č. 7

Technická univerzita v Liberci

Regrese. používáme tehdy, jestliže je vysvětlující proměnná kontinuální pokud je kategoriální, jde o ANOVA

Karta předmětu prezenční studium

= = 2368

Náhodný vektor. Náhodný vektor. Hustota náhodného vektoru. Hustota náhodného vektoru. Náhodný vektor je dvojice náhodných veličin (X, Y ) T = ( X

LINEÁRNÍ REGRESE Komentované řešení pomocí programu Statistica

PSY117/454 Statistická analýza dat v psychologii Přednáška 10

Analýza rozptylu. Přednáška STATISTIKA II - EKONOMETRIE. Jiří Neubauer

LINEÁRNÍ REGRESE. Lineární regresní model

Pokud data zadáme přes "Commands" okno: SDF1$X1<-c(1:15) //vytvoření řady čísel od 1 do 15 SDF1$Y1<-c(1.5,3,4.5,5,6,8,9,11,13,14,15,16,18.

Vzorová prezentace do předmětu Statistika

Intervaly spolehlivosti

PSY117/454 Statistická analýza dat v psychologii. Zobrazení dvojrozměrných dat Bodový graf - Scatterplot Korelační koeficient

Plánování experimentu

PSY117/454 Statistická analýza dat v psychologii Přednáška 5 ZOBRAZENÍ DVOUROZMĚRNÝCH DAT KORELAČNÍ KOEFICIENT. Všichni žijeme v matrixu.

SOFTWARE STAT1 A R. Literatura 4. kontrolní skupině (viz obr. 4). Proto budeme testovat shodu středních hodnot µ 1 = µ 2 proti alternativní

Pravděpodobnost a matematická statistika

Program Statistica Base 9. Mgr. Karla Hrbáčková, Ph.D.

Obsah Úvod Kapitola 1 Než začneme Kapitola 2 Práce s hromadnými daty před analýzou

Parametry hledáme tak, aby součet čtverců odchylek byl minimální. Řešením podle teorie je =

RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr.

You created this PDF from an application that is not licensed to print to novapdf printer (

Zpracování studie týkající se průzkumu vlastností statistických proměnných a vztahů mezi nimi.

Regresní a korelační analýza

Náhodný vektor. Náhodný vektor. Hustota náhodného vektoru. Hustota náhodného vektoru. Náhodný vektor je dvojice náhodných veličin (X, Y ) T = ( X

Cvičení ze statistiky - 9. Filip Děchtěrenko

SEMESTRÁLNÍ PRÁCE. Leptání plasmou. Ing. Pavel Bouchalík

4EK211 Základy ekonometrie

Testování hypotéz. 1 Jednovýběrové testy. 90/2 odhad času

Regresní a korelační analýza

Test dobré shody v KONTINGENČNÍCH TABULKÁCH

Kategorická data METODOLOGICKÝ PROSEMINÁŘ II TÝDEN 7 4. DUBNA dubna 2018 Lukáš Hájek, Karel Höfer Metodologický proseminář II 1

Analýza rozptylu. Statistika II. Jiří Neubauer. Katedra ekonometrie FVL UO Brno kancelář 69a, tel

You created this PDF from an application that is not licensed to print to novapdf printer (

Jednostranné intervaly spolehlivosti

TECHNICKÁ UNIVERZITA V LIBERCI

AKM CVIČENÍ. Opakování maticové algebry. Mějme matice A, B regulární, potom : ( AB) = B A

Transkript:

Příklad: Test nezávislosti kategoriálních znaků Určete na hladině významnosti 5 % na základě dat zjištěných v rámci dotazníkového šetření ve Šluknově, zda existuje závislost mezi pohlavím respondenta a jeho názorem na odstěhování se ze Šluknova. Případně změřte sílu závislosti vhodnou charakteristikou. Zjištěné údaje jsou uspořádané v následující tabulce. Pohlaví Názor na odstěhování ano dosud ne ne Součet muž 115 37 199 351 žena 1 41 54 415 Součet 35 78 453 766 Použeme test nezávislosti kategoriálních znaků, neboť obě proměnné, uspořádané v kontingenční tabulce, jsou slovní (kategoriální). 1) H : pohlaví respondenta a názor na odstěhování na sobě nezávisí H 1 : non H ) G = r s ( n n ) i= 1 j= 1 n n... teoretické četnosti; [( r 1)( s 1) ] χ, G, n h n... empirické četnosti; r... počet řádků kontingenční tabulky; s... počet sloupců kontingenční tabulky; h... menší z čísel (r-1) a (s-1). { } 3) W G; G > χ,95 ( ) W { G; G > 5,991}, h... min (r 1), (s 1) Výpočet parametru rozdělení χ : (r 1) (s 1) = (-1) (3-1) = 1 = 4) Aby bylo možné vypočítat hodnotu G, je třeba určit teoretické četnosti pro každé políčko kontingenční tabulky. To lze podle: ni n j n = n n1 n 1 351 35 př. n 11 = = = 17, 68 n 766 n1 n 351 78 n 1 = = = 35,74 atd. n 766 Teoretické četnosti n obsahuje následující tabulka: Pohlaví Názor na odstěhování ano dosud ne ne Součet muž 17,68 35,74 7,58 351 žena 17,3 4,6 45,4 415 Součet 35 78 453 766

Nyní mohu spočítat hodnotu testového kritéria G: 115 17,68 37 35,74 199 7,58 G = 17,68 35,74 7,58 = 1,653 ( ) ( ) ( ) ( 1 17,3) ( 41 4,6) ( 54 45,4) 5) G W nezamítáme H, nepřímáme H 1. 17,3 4,6 Na hladině významnosti 5 % nezamítáme předpoklad o nezávislosti pohlaví a názoru respondenta na odstěhování se ze Šluknova. Poznámka: Pokud by byla testem závislost prokázána, mohli bychom její sílu změřit např. pomocí Cramérova koeficientu kontingence C C. Procedura v SGP: Describe Categorical Data Contingency Tables!!! Pokud budeme příklad řešit přes SGP, není potřeba stanovovat kritický obor. Stačí uvést formulaci hypotéz, hodnotu testového kritéria, P-Value, porovnání P-Value s α, závěr testu (zamítáme x nezamítáme H ; přímáme x nepřímáme H 1 ) a slovní odpověď. 45,4 Příklad: Korelační analýza V rámci dotazníkového šetření ve Šluknově bylo zjištěno hodnocení možností sportovního a kulturního vyžití. Posuďte na hladině významnosti 5 %, zda jsou tato hodnocení korelovaná. Případně změřte sílu lineární závislosti vhodnou charakteristikou. Zjištěná data jsou uspořádána v následující tabulce. Sportovní Kulturní vyžití (y j ) vyžití (x i ) 1 3 4 n i. 1 1 1 1 5 3 1 3 6 4 4 6 5 1 1 n.j 4 4 1 Data jsou číselná, uspořádána v korelační tabulce, úkolem je posoudit, zda je mezi proměnnými lineární závislost použeme proto test hypotézy o nulové hodnotě korelačního koeficientu, protože korelační koeficient měří sílu lineární závislosti. Alternativní postup: Vystihnout závislost x a y pomocí sdružených regresních přímek; jejich vhodnost ověřit pomocí individuálních t-testů a celkového F-testu a následně vypočítat hodnotu koeficientu korelace a tu interpretovat.

1) H : Mezi hodnocením kulturního a sportovního vyžití není lineární závislost. (NEBO H : ρ yx =, tj. hodnota koeficientu korelace v základním souboru je nulová, což znamená, že neexistuje mezi x a y lineární závislost) H 1 : non H ) r t = yx n 1 r yx t t 3) W t; t t ( n ) t t ( n ) W W α α 1 { t;,5 ( 18) t t, 975 ( 18) } { t; t,11 t,11} 4) r yx =,58,58 18 t = 1,58 =,638 5) t W zamítáme H, přímáme H 1. Na hladině významnosti 5 % jsme prokázali, že mezi oběma hodnoceními existuje lineární závislost (korelace). Sílu lineární závislosti měříme pomocí koeficientu korelace tato charakteristika nás informuje nejen o síle lineární závislosti, ale zároveň i o směru této závislosti. r yx =,58 Lineární závislost mezi oběma hodnoceními je středně silná a přímá. To, že je závislost přímá, znamená, že jdou obě hodnocení stejným směrem, tj. čím vyšší je hodnocení sportovního vyžití, tím vyšší je hodnocení kulturního vyžití a naopak. Procedura v SGP: Describe Multivariate Methods Multiple-Variable Analysis (Correlations)!!! Pokud budeme příklad řešit přes SGP, není potřeba stanovovat kritický obor. Stačí uvést formulaci hypotéz, P-Value, porovnání P-Value s α, závěr testu (zamítáme x nezamítáme H ; přímáme x nepřímáme H 1 ) a slovní odpověď. DOPORUČUJI TENTO PŘÍKLAD ŘEŠIT V SGP ruční výpočet r yx je dost časově náročný.

Příklad: Regresní analýza Vystihněte závislost hodnocení úrovně a dostupnosti zdravotnictví na vzdělání respondenta pomocí vhodné regresní funkce a změřte sílu závislosti vhodnou charakteristikou. Uvažujte α =,5. Vzdělání (x i ) Hodnocení úrovně a dostupnosti zdravotnictví (y j ) 1 3 4 5 n i. bez vzdělání () 3 1 1 7 ZŠ (1) 3 54 4 34 18 SŠ bez M () 58 85 58 43 64 SŠ s M (3) 7 39 66 69 48 9 VOŠ (4) 1 6 8 8 7 3 VŠ (5) 8 1 6 6 VŠ postgrad. (6) 3 5 n.j 51 139 4 187 14 741 Můžeme si načrtnout bodový diagram, abychom alespoň zhruba tušili, jaká funkce by mohla být vhodná. Plot of Hodnoceni_zdrav vs Vzdelani 5 4 Hodnoceni_zdrav 3 1 1 3 4 5 6 Vzdelani Z tohoto bodového diagramu moc nepoznáme, můžeme tedy vypočítat určité statistické charakteristiky, které slouží pro posouzení vhodnosti dané regresní funkce (v SGP Relate Simple Regression procedura Comparison of Alternative Models ).

Comparison of Alternative Models Model Correlation R-Squared Reciprocal-Y -,159,53% Logarithmic-Y square root-x,153,34% Exponential,1445,9% Double square root,139 1,94% Reciprocal-Y squared-x -,1364 1,86% Square root-y,1334 1,78% Logarithmic-Y squared-x,157 1,58% Square root-x,148 1,56% Linear,114 1,47% Square root-y squared-x,117 1,37% Squared-X,173 1,15% Squared-Y,99,98% Squared-Y square root-x,988,98% Double squared,886,79% Reciprocal-Y square root-x <no fit> Vidíme, že žádný z modelů nevykazuje příliš vysokou hodnotu indexu determinace (R- Squared). Pro jednoduchost vyberme přímku (Linear). Rovnice regresní přímky, která popisuje závislost hodnocení zdravotnictví na vzdělání: Y =,999, 135x Nyní je třeba ověřit vhodnost parametrů regresní přímky pomocí individuálních t-testů a následně pomocí celkového F-testu otestovat vhodnost celé funkce. t-testy: (budou prováděny na základě výsledků z SGP) H : β = test parametru β : H1 : β t = 9,531 P-Value =, P-Value < α, tj. zamítáme H, přímáme H 1. Na hladině významnosti 5 % jsme prokázali, že parametr β je statisticky významný (je tedy přínosem pro danou funkci). H : β1 = test parametru β 1 : H1 : β1 t = 3,35 P-Value =,9 P-Value < α, tj. zamítáme H, přímáme H 1. Na hladině významnosti 5 % jsme prokázali, že parametr β 1 je statisticky významný (je tedy přínosem pro danou funkci). Celkový F-test: H : β = c, β1 = (H : přímka není vhodný model pro popis závislosti hodnocení zdravotnictví na vzdělání) H 1 : non H F = 11,5

P-Value =,9 P-Value < α, tj. zamítáme H, přímáme H 1. Na hladině významnosti 5 % jsme prokázali, že přímka je vhodná k vystižení závislosti hodnocení zdravotnictví na vzdělání. Sílu závislosti změříme pomocí indexu determinace: I =,15. Index determinace poukazuje na velmi slabou závislost (Jen 1,5 % z celkové variability závisle proměněné y je možné vysvětlit pomocí zvolené regresní přímky.). Poznámka: Nízká hodnota indexu determinace nemusí značit jen slabou závislost, může to též znamenat, že nebyla vybrána dobrá regresní funkce. To vidíme i v tomto případě, kdy sice oba t-testy i celkový F-test vyšly významné, ale pokud přímka dokáže popsat jen 1,5 % z celkové variability závisle proměnné, je to opravdu hodně málo a funkce není moc kvalitní. Pravdou je, že regresní funkce jsou vhodné zejména pro spojité numerické proměnné. Naše proměnné tuto podmínku nesplňují. V praxi bychom zřejmě volili jinou metodu pro popis závislosti y na x, např. analýzu rozptylu (takový příklad stihli jsme na přednášce).