Kontingenční tabulky, korelační koeficienty

Podobné dokumenty
Kontingenční tabulky, korelační koeficienty

Mnohorozměrná statistická data

Mnohorozměrná statistická data

5 Vícerozměrná data - kontingenční tabulky, testy nezávislosti, regresní analýza

KGG/STG Statistika pro geografy

Testování hypotéz o parametrech regresního modelu

Testování hypotéz o parametrech regresního modelu

Testování hypotéz testy o tvaru rozdělení. Jiří Neubauer. Katedra ekonometrie, FVL, UO Brno kancelář 69a, tel

Zpracování náhodného vektoru. Ing. Michal Dorda, Ph.D.

Regresní a korelační analýza

Statistika II. Jiří Neubauer

Tomáš Karel LS 2012/2013

Příklad 1. Korelační pole. Řešení 1 ŘEŠENÉ PŘÍKLADY Z MV2 ČÁST 13

6. Lineární regresní modely

Bodové a intervalové odhady parametrů v regresním modelu

MÍRY ZÁVISLOSTI (KORELACE A REGRESE)

INDUKTIVNÍ STATISTIKA

Statistická analýza jednorozměrných dat

Regresní a korelační analýza

Regresní analýza. Ekonometrie. Jiří Neubauer. Katedra ekonometrie FVL UO Brno kancelář 69a, tel

Regresní a korelační analýza

Měření závislosti statistických dat

KGG/STG Statistika pro geografy

Regresní a korelační analýza

odpovídá jedna a jen jedna hodnota jiných

Tomáš Karel LS 2012/2013

Náhodné veličiny jsou nekorelované, neexistuje mezi nimi korelační vztah. Když jsou X; Y nekorelované, nemusí být nezávislé.

Jana Vránová, 3. lékařská fakulta UK

Statistika. Regresní a korelační analýza Úvod do problému. Roman Biskup

Název testu Předpoklady testu Testová statistika Nulové rozdělení. ( ) (p počet odhadovaných parametrů)

Výběrové charakteristiky a jejich rozdělení

12. cvičení z PST. 20. prosince 2017

Korelační a regresní analýza

You created this PDF from an application that is not licensed to print to novapdf printer (

11. cvičení z PSI prosince hodnota pozorovaná četnost n i p X (i) = q i (1 q), i N 0.

{ } ( 2) Příklad: Test nezávislosti kategoriálních znaků

1.1 Úvod Data Statistická analýza dotazníkových dat 8. Literatura 10

Příklad: Test nezávislosti kategoriálních znaků

PRAVDĚPODOBNOST A STATISTIKA

PRAVDĚPODOBNOST A STATISTIKA. Testování hypotéz o rozdělení

Regresní a korelační analýza

MĚŘENÍ STATISTICKÝCH ZÁVISLOSTÍ

Regresní analýza 1. Regresní analýza

15. T e s t o v á n í h y p o t é z

Poznámky k předmětu Aplikovaná statistika, 4. téma

Poznámky k předmětu Aplikovaná statistika, 4. téma

PRAVDĚPODOBNOST A STATISTIKA

TESTOVÁNÍ HYPOTÉZ STATISTICKÁ HYPOTÉZA Statistické testy Testovací kritérium = B B > B < B B - B - B < 0 - B > 0 oboustranný test = B > B

Regresní a korelační analýza

Test dobré shody v KONTINGENČNÍCH TABULKÁCH

Časové řady, typy trendových funkcí a odhady trendů

Časové řady, typy trendových funkcí a odhady trendů

Pravděpodobnost a matematická statistika

Statistika (KMI/PSTAT)

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Přednáška X. Testování hypotéz o kvantitativních proměnných

5. T e s t o v á n í h y p o t é z

UNIVERZITA OBRANY Fakulta ekonomiky a managementu. Aplikace STAT1. Výsledek řešení projektu PRO HORR2011 a PRO GRAM

V praxi pracujeme s daty nominálními (nabývají pouze dvou hodnot), kategoriálními (nabývají více

Pojmy z kombinatoriky, pravděpodobnosti, znalosti z kapitoly náhodná veličina, znalost parciálních derivací, dvojného integrálu.

Aplikovaná statistika v R - cvičení 2

Příklady na testy hypotéz o parametrech normálního rozdělení

Testování statistických hypotéz

MATEMATICKÁ STATISTIKA. Katedra matematiky a didaktiky matematiky Technická univerzita v Liberci

Tomáš Karel LS 2012/2013

Přednáška XI. Asociace ve čtyřpolní tabulce a základy korelační analýzy

Analýza rozptylu. Ekonometrie. Jiří Neubauer. Katedra kvantitativních metod FVL UO Brno kancelář 69a, tel

Analýza dat z dotazníkových šetření

Mann-Whitney U-test. Znaménkový test. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek

KONTINGENČNÍ TABULKY Komentované řešení pomocí programu Statistica

V praxi pracujeme s daty nominálními (nabývají pouze dvou hodnot), kategoriálními (nabývají více

Plánování experimentu

PRAVDĚPODOBNOST A STATISTIKA. Neparametrické testy hypotéz čast 1

Testování hypotéz a měření asociace mezi proměnnými

Grafický a číselný popis rozložení dat 3.1 Způsoby zobrazení dat Metody zobrazení kvalitativních a ordinálních dat Metody zobrazení kvan

STATISTICKÁ VAZBA. 1.1 Statistická vazba Charakteristiky statistické vazby dvou náhodných veličin Literatura 9

ANALÝZA DAT V R 7. KONTINGENČNÍ TABULKA. Mgr. Markéta Pavlíková Katedra pravděpodobnosti a matematické statistiky MFF UK.

Neparametrické metody

4EK211 Základy ekonometrie

Úkol 1.: Testování nezávislosti nominálních veličin V roce 1950 zkoumali Yule a Kendall barvu očí a vlasů u 6800 mužů.

Poznámky k předmětu Aplikovaná statistika, 11. téma

Testování statistických hypotéz

Korelace. Komentované řešení pomocí MS Excel

Testy dobré shody Máme dvě veličiny, u kterých bychom chtěli prokázat závislost, TESTY DOBRÉ SHODY (angl. goodness-of-fit tests)

Cvičení ze statistiky - 3. Filip Děchtěrenko

Testy. Pavel Provinský. 19. listopadu 2013

LINEÁRNÍ REGRESE. Lineární regresní model

12. cvičení z PSI prosince (Test střední hodnoty dvou normálních rozdělení se stejným neznámým rozptylem)

Cvičení 12: Binární logistická regrese

ANALÝZA ZÁVISLOSTI. Martina Litschmannová

4EK211 Základy ekonometrie

Porovnání dvou výběrů

Normální (Gaussovo) rozdělení

12. prosince n pro n = n = 30 = S X

y = 0, ,19716x.

Katedra matematické analýzy a aplikací matematiky, Přírodovědecká fakulta, UP v Olomouci

PSY117/454 Statistická analýza dat v psychologii Přednáška 10

Cvičící Kuba Kubina Kubinčák Body u závěrečného testu

RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr.

Transkript:

Statistika II Katedra ekonometrie FVL UO Brno kancelář 69a, tel 973 442029 email:jirineubauer@unobcz

Budeme předpokládat, že X a Y jsou kvalitativní náhodné veličiny, obor hodnot X obsahuje r hodnot (kategorií, které budou kódovány čísly 1, 2,, r) a podobně obor hodnot Y obsahuje s hodnot (kategorií, které budou kódovány čísly 1, 2,, s) Sdružená pravděpodobnostní funkce náhodných veličin X a Y je popsána vztahem p(j, k) = P(X = j, Y = k), j = 1, 2, r, k = 1, 2,, s Odpovídající marginální pravděpodobnostní funkce náhodné veličiny X je dána vztahem s p X (j) = P(X = j) = p(j, k), j = 1, 2,, r k=1 a pravděpodobnostní funkce náhodné veličiny Y vztahem p Y (k) = P(Y = k) = r p(j, k), k = 1, 2,, s Hodnoty pravděpodobnostní funkce lze uspořádat do tabulky j=1

X \Y 1 k s 1 p(1, 1) p(1, k) p(1, s) p X (1) j p(j, 1) p(j, k) p(j, s) p X (j) r p(r, 1) p(r, k) p(r, s) p X (r) py (1) p Y (k) p Y (s) 1 X \Y 1 k s 1 n 11 n 1k n 1s n 1 j n j1 n jk n js n j r n r1 n rk n rs n r n1 n k n s n Tabulka: Tabulka pravděpodobnostní funkce p(j, k) a kontingenční tabulka pro hodnoty náhodného výběru z diskrétního rozdělení

Pro nezávislé znaky X a Y platí p(j, k) = p X (j) p Y (k) Odhad p X (j) lze určit jako p X (j) = n j, podobně odhad p n Y (k) je dán p Y (k) = n k, potom odhad p(j, k) je roven p(j, k) = p n X (j) p Y (k) Četnosti, které lze očekávat v kontingenční tabulce při nezávislosti proměnných X a Y, jsou tvaru o jk = n p(j, k) = n p X (j) p Y (k) = n nj n nk n = nj n k n a nazveme je očekávané četnosti Jsou-li veličiny X a Y nezávislé, lze předpokládat, že empirické četnosti n jk budou blízké očekávaným četnostem o jk (1)

K testování nezávislosti náhodných veličin X a Y lze použít statistiku χ 2 = r s (n jk o jk ) 2 j=1 k=1 o jk, (2) která má asymptoticky χ 2 rozdělení s ν = (r 1)(s 1) stupni volnosti Hypotézu nezávislosti proměnných X a Y pak zamítáme na hladině významnosti α, když χ 2 χ 2 1 α(ν), kde χ 2 1 α(ν) je 100(1 α)% kvantil Pearsonova χ 2 rozdělení s ν stupni volnosti Test lze použít při dostatečném obsazení všech buněk tabulky, tj pokud všechny očekávané četnosti jsou dosti velké, obvykle se předpokládá, že o jk 5 Při nesplnění této podmínky se doporučuje spojování sousedních obměn u jedné nebo druhé veličiny (sloučíme celé řádky nebo sloupce a při opakovaném testu s nimi zacházíme jako s jedinou třídou)

Příklad Při sociologickém průzkumu odpovídalo 100 náhodně vybraných osob na určitou otázku Výsledky jsou v následující tabulce Rozhodněte, zda odpověď závisí na pohlaví dotazovaných Pohlaví Rozhodně Spíše Spíše Rozhodně Nevím ano ano ne ne Celkem Muž 2 20 10 15 8 55 Žena 4 15 15 8 3 45 Celkem 6 35 25 23 11 100 k j 1 2 3 4 5 celkem 1 3,30 19,25 13,75 12,65 6,05 55,00 2 2,70 15,75 11,25 10,35 4,95 45,00 celkem 6,00 35,00 25,00 23,00 11,00 100,00 Tabulka: Tabulka teoretických četností

Příklad Alespoň 80 % těchto teoretických četností by mělo být větší než 5, což v našem případě není splněné (3 hodnoty z 10 jsou menší než 5) Proto je vhodné provést sloučení některých sloupců či řádků, slučování je však třeba provádět rozumně, zejména s ohledem na věcný význam spojovaných obměn Pokud slučování není možné (např u nás by to byly muži a ženy, nebo rozhodně ano a rozhodně ne), potom v krajním případě ponecháme původní sloupcové i řádkové obměny, ale s vědomím, že takovýto prohřešek snižuje sílu testu My sloučíme první dva sloupce v původní kontingenční tabulce, které odpovídají pozitivní reakci na danou otázku, a přepočteme příslušné teoretické četnosti

Příklad Pohlaví Pozitivní Spíše Rozhodně Nevím reakce ne ne Celkem Muž 22 10 15 8 55 Žena 19 15 8 3 45 Celkem 41 25 23 11 100 k j 1 2 3 4 celkem 1 22,55 13,75 12,65 6,05 55,00 2 18,45 11,25 10,35 4,95 45,00 celkem 41,00 25,00 23,00 11,00 100,00 Tabulka: Tabulka teoretických četností

Příklad k j 1 2 3 4 celkem 1 0,013 1,023 0,437 0,629 2,101 2 0,016 1,250 0,534 0,768 2,568 celkem 0,03 2,273 0,97 1,397 4,669 Tabulka: Výpočet testové statistiky Hodnota testové statistiky je tedy χ 2 = r s (n jk o jk ) 2 = 4,66, o jk j=1 k=1 hladinu významnosti použijeme α = 0,05, stupně volnosti jsou ν = (r 1)(s 1) = 3 1 = 3 Kritický obor je tvořen hodnotami většími než χ 2 1 α(3) = 7,815 Hodnota testového kritéria nepatří do kritického oboru, tedy se s 95% pravděpodobností neprokázalo, že odpověď na danou otázku závisí na pohlaví

v R Test nezávislosti v kontingenční tabulce lze v programu R spočítat pomocí funkce chisqtest

Těsnost závislosti dvou nominálních znaků měříme pomocí tzv koeficientů kontingence Pro hodnocení intenzity závislosti mezi oběma ordinálními resp nominálními proměnnými existují speciální charakteristiky: Pearsonův koeficient Cramerův koeficient χ K 1 = 2 n + χ, 2 χ K 2 = 2 n min(r 1, s 1), Čuprovův koeficient χ K 3 = 2 n (r 1)(s 1) Poznámka: 0 nezávislost, 1 závislost

Spearmanův korelační koeficient Kendallův korelační koeficient Spearmanův korelační koeficient V případě dvourozměrného souboru kvalitativních údajů, které jsou po složkách ordinálního typu, je možno zjistit stupeň závislosti těchto dvou znaků K měření takovýchto závislostí se používá Spearmanův korelační koeficient Hodnotám x i, y i přiřadíme pořadí p i, q i (pořadí jednotlivých hodnot při uspořádaní podle velikosti) Spearmanův koeficient (koeficient pořadové korelace) je potom definován vztahem ρ = 1 6 n i=1 (pi qi)2 n(n 2 1)

Spearmanův korelační koeficient Kendallův korelační koeficient Spearmanův korelační koeficient Pro náhodný výběr šesti států USA byly zjištěny spotřeby cigaret na hlavu a roční míra úmrtnosti na 100 000 lidí následkem rakoviny plic Určete, zda existuje významná korelace mezi těmito znaky Spotřeba cigaret Úmrtnost Stát USA x i p i y i q i (p i q i ) 2 Delaware 3400 6 24 5 1 Indiana 2600 4 21 4 0 Iowa 2200 2 17 1 1 Montana 2400 3 19 2 1 New Yersy 2900 5 26 6 1 Washington 2100 1 20 3 4 Suma kvadrátů v posledním sloupci je 8, 6 8 ρ = 1 6 (6 2 1) = 0,77143 Pozn Kritická hodnota pro α = 0,05 je 0,829 (p-hodnota je 0,1028), korelace tedy nebyla prokázána

Spearmanův korelační koeficient Kendallův korelační koeficient Kendallův korelační koeficient Mějme dvourozměrný datový soubor Řekneme, že dvojice (x i, y i) a (x j, y j) jsou ve shodě (concordant), pokud platí, že x i > x j a zároveň y i > y j nebo x i < x j a zároveň y i < y j Řekneme, že nejsou ve shodě (discordant), pokud x i < x j a zároveň y i > y j nebo x i > x j a zároveň y i < y j V případě, že x i = x j nebo y i = y j nemluvíme ani o shodě, ani o neshodě Označme počet dvoji ve shodě n c a počet dvojic, které ve shodě nejsou n d Kendallův korelační koeficient je definován vztahem τ = nc n d 1 n(n 1) 2 Pro data z předchozího příkladu máme n c = 12, n d = 3, n = 6 τ = 1 2 12 3 = 0,6 6 (6 1) Pozn Kritická hodnota pro α = 0,05 je 0,8 (p-hodnota je 0,1361), korelace tedy nebyla prokázána

Pearsonův korelační koeficient Koeficient mnohonásobné korelace Pearsonův korelační koeficient Mějme dvourozměrný datový soubor x 1 y 1, označme x a y průměry znaků a s x, s y směrodatné odchylky znaků X, Y Koeficient korelace (Pearsonův) definujeme vztahem x n y n r xy = sxy s xs y, kde s xy = 1 n n 1 i=1 (xi x)(yi y) je výběrová kovariance znaků X a Y, 1 s x = n n 1 i=1 (xi x)2 je výběrová směrodatná odchylka znaku X a 1 s y = n n 1 i=1 (yi y)2 je výběrová směrodatná odchylka znaku Y

Pearsonův korelační koeficient Koeficient mnohonásobné korelace Pearsonův korelační koeficient Lze jej vyjádřit ve tvaru r xy = = n i=1 (xi x)(yi y) n i=1 (xi x)2 = n i=1 (yi y)2 n n i=1 xiyi n n i=1 xi i=1 yi n n i=1 x i 2 ( n ) 2 i=1 xi n n i=1 y i 2 ( n ) 2 i=1 yi

Pearsonův korelační koeficient Koeficient mnohonásobné korelace Pearsonův korelační koeficient Koeficient determinace je pro závislost popsanou regresní přímkou zvláštním případem indexu determinace, tedy platí r 2 yx = S T SY Tato míra těsnosti závislosti má zcela stejné vlastnosti jako i 2 yx Výběrový koeficient determinace r 2 yx lze použít jako odhad teoretického koeficientu determinace ρ 2 v základním souboru Úpravou získáme nestranný odhad ρ 2 r 2 kor = 1 (1 r 2 ) n 1 n 2

Pearsonův korelační koeficient Koeficient mnohonásobné korelace Test významnosti korelačního koeficientu Testové kritérium je statistika Kritický obor je dán t = H : ρ = 0 A : ρ 0 r 1 r 2 n 2 t(n 2) W α : t t 1 α/2 (n 2) Pokud hodnota testového kritéria padne do kritického oboru, podařila se prokázat lineární závislost mezi sledovanými proměnnými

Pearsonův korelační koeficient Koeficient mnohonásobné korelace Koeficient mnohonásobné korelace Koeficient mnohonásobné korelace vyjadřuje sílu závislosti jedné proměnné na dvou a více jiných proměnných Mějme k proměnných X 1, X 2, X k, jejich korelační matice je rovna 1 r 12 r 13 r 1k r 12 1 r 23 r 2k R = r 1k 1 r 2k 1 Koeficient mnohonásobné korelace popisující závislost X 1 na X 2, X k se určí ze vztahu R 1,23k = 1 det(r) det(r, 11) kde R 11 vznikne z R vynechání 1 řádku a 1 sloupce

Pearsonův korelační koeficient Koeficient mnohonásobné korelace Koeficient mnohonásobné korelace Koeficient mnohonásobné korelace vyjadřuje společné působení nezávisle proměnných X 1, X 2, X k na závisle proměnnou Y a určuje spolehlivost regresního odhadu Výběrový koeficient mnohonásobné korelace pro případ regrese se dvěma nezávisle proměnnými (Y i = β 0 + β 1x i + β 2z i + ɛ i) je roven r y,xz = ryx 2 + ryz 2 + 2r yxr yzr xz, 1 rxz 2 kde r yx je výběrový korelační koeficient mezi hodnotami y i a x i, r yz je výběrový korelační koeficient mezi y i a z i a r yx je výběrový korelační koeficient mezi x i a z i Jeho druhou mocninou je index determinace