INDUKTIVNÍ STATISTIKA

Podobné dokumenty
MÍRY ZÁVISLOSTI (KORELACE A REGRESE)

KGG/STG Statistika pro geografy

Tomáš Karel LS 2012/2013

STATISTIKA A INFORMATIKA - bc studium OZW, 1.roč. (zkušební otázky)

Základy biostatistiky II. Veřejné zdravotnictví 3.LF UK - II

Tomáš Karel LS 2012/2013

{ } ( 2) Příklad: Test nezávislosti kategoriálních znaků

Regresní a korelační analýza

Regresní a korelační analýza

Testování hypotéz o parametrech regresního modelu

Korelační a regresní analýza

Regresní a korelační analýza

Měření závislosti statistických dat

Testování hypotéz o parametrech regresního modelu

You created this PDF from an application that is not licensed to print to novapdf printer (

Regresní a korelační analýza

Cvičící Kuba Kubina Kubinčák Body u závěrečného testu

Název testu Předpoklady testu Testová statistika Nulové rozdělení. ( ) (p počet odhadovaných parametrů)

MĚŘENÍ STATISTICKÝCH ZÁVISLOSTÍ

Příklad 1. Korelační pole. Řešení 1 ŘEŠENÉ PŘÍKLADY Z MV2 ČÁST 13

1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.

Sever Jih Západ Plechovka Točené Sever Jih Západ Součty Plechovka Točené Součty

=10 =80 - =

Kontingenční tabulky, korelační koeficienty

Náhodné veličiny jsou nekorelované, neexistuje mezi nimi korelační vztah. Když jsou X; Y nekorelované, nemusí být nezávislé.

Regrese. 28. listopadu Pokud chceme daty proložit vhodnou regresní křivku, musíme obvykle splnit tři úkoly:

5 Vícerozměrná data - kontingenční tabulky, testy nezávislosti, regresní analýza

Regresní a korelační analýza

You created this PDF from an application that is not licensed to print to novapdf printer (

Statistika (KMI/PSTAT)

Kontingenční tabulky, korelační koeficienty

Statistická analýza jednorozměrných dat

TESTOVÁNÍ HYPOTÉZ STATISTICKÁ HYPOTÉZA Statistické testy Testovací kritérium = B B > B < B B - B - B < 0 - B > 0 oboustranný test = B > B

Technická univerzita v Liberci

LINEÁRNÍ REGRESE. Lineární regresní model

Přednáška XI. Asociace ve čtyřpolní tabulce a základy korelační analýzy

6. Lineární regresní modely

Neparametrické metody

Korelační a regresní analýza. 1. Pearsonův korelační koeficient 2. jednoduchá regresní analýza 3. vícenásobná regresní analýza

PRAVDĚPODOBNOST A STATISTIKA. Testování hypotéz o rozdělení

odpovídá jedna a jen jedna hodnota jiných

VYBRANÉ DVOUVÝBĚROVÉ TESTY. Martina Litschmannová

4ST201 STATISTIKA CVIČENÍ Č. 10

UNIVERZITA OBRANY Fakulta ekonomiky a managementu. Aplikace STAT1. Výsledek řešení projektu PRO HORR2011 a PRO GRAM

Testy. Pavel Provinský. 19. listopadu 2013

Zpracování náhodného vektoru. Ing. Michal Dorda, Ph.D.

JEDNOVÝBĚROVÉ TESTY. Komentované řešení pomocí programu Statistica

Stav Svobodný Rozvedený Vdovec. Svobodná Rozvedená Vdova 5 8 6

PRAVDĚPODOBNOST A STATISTIKA

(motto: An unsophisticated forecaster uses statistics as a drunken man uses lamp-posts - for support rather than for illumination.

RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr.

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz

Cvičení ze statistiky - 9. Filip Děchtěrenko

ANALÝZA DAT V R 3. POPISNÉ STATISTIKY, NÁHODNÁ VELIČINA. Mgr. Markéta Pavlíková Katedra pravděpodobnosti a matematické statistiky MFF UK

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Statistické metody uţívané při ověřování platnosti hypotéz

Inovace bakalářského studijního oboru Aplikovaná chemie

PSY117/454 Statistická analýza dat v psychologii přednáška 8. Statistické usuzování, odhady

Mgr. Karla Hrbáčková, Ph.D. Základy kvantitativního výzkumu

Cvičení ze statistiky - 8. Filip Děchtěrenko

Z mých cvičení dostalo jedničku 6 studentů, dvojku 8 studentů, trojku 16 studentů a čtyřku nebo omluveno 10 studentů.

Statistika. Regresní a korelační analýza Úvod do problému. Roman Biskup

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Pravděpodobnost a matematická statistika

Regresní analýza 1. Regresní analýza

4ST201 STATISTIKA CVIČENÍ Č. 7

TECHNICKÁ UNIVERZITA V LIBERCI

Téma 9: Vícenásobná regrese

Příklad: Test nezávislosti kategoriálních znaků

Cvičení 12: Binární logistická regrese

Pearsonův korelační koeficient

Aplikovaná statistika v R - cvičení 2

Regrese. používáme tehdy, jestliže je vysvětlující proměnná kontinuální pokud je kategoriální, jde o ANOVA

Korelace. Komentované řešení pomocí MS Excel

Pravděpodobnost v závislosti na proměnné x je zde modelován pomocí logistického modelu. exp x. x x x. log 1

Tomáš Karel LS 2012/2013

Grafický a číselný popis rozložení dat 3.1 Způsoby zobrazení dat Metody zobrazení kvalitativních a ordinálních dat Metody zobrazení kvan

12. cvičení z PST. 20. prosince 2017

PRAVDĚPODOBNOST A STATISTIKA

Mann-Whitney U-test. Znaménkový test. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek

Plánování experimentu

Testy dobré shody Máme dvě veličiny, u kterých bychom chtěli prokázat závislost, TESTY DOBRÉ SHODY (angl. goodness-of-fit tests)

PSY117/454 Statistická analýza dat v psychologii. Zobrazení dvojrozměrných dat Bodový graf - Scatterplot Korelační koeficient

11. cvičení z PSI prosince hodnota pozorovaná četnost n i p X (i) = q i (1 q), i N 0.

4EK211 Základy ekonometrie

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Regresní analýza. Eva Jarošová

V praxi pracujeme s daty nominálními (nabývají pouze dvou hodnot), kategoriálními (nabývají více

Testování statistických hypotéz

TECHNICKÁ UNIVERZITA V LIBERCI Ekonomická fakulta

Normální (Gaussovo) rozdělení

Testování hypotéz. 1. vymezení základních pojmů 2. testování hypotéz o rozdílu průměrů 3. jednovýběrový t-test

Obsah Úvod Kapitola 1 Než začneme Kapitola 2 Práce s hromadnými daty před analýzou

KORELACE. Komentované řešení pomocí programu Statistica

Statistické metody - nástroj poznání a rozhodování anebo zdroj omylů a lží

Ilustrační příklad odhadu LRM v SW Gretl

Lineární regrese. Komentované řešení pomocí MS Excel

LINEÁRNÍ REGRESE Komentované řešení pomocí programu Statistica

Parametry hledáme tak, aby součet čtverců odchylek byl minimální. Řešením podle teorie je =

Transkript:

10. SEMINÁŘ INDUKTIVNÍ STATISTIKA 3. HODNOCENÍ ZÁVISLOSTÍ

HODNOCENÍ ZÁVISLOSTÍ KVALITATIVNÍ VELIČINY - Vychází se z kombinační (kontingenční) tabulky, která je výsledkem třídění druhého stupně KVANTITATIVNÍ VELIČINY - Východiskem pro korelační a regresní analýzu je bodový graf. K měření stupně (síly) závislosti se používají různé míry (ukazatele) závislosti. Jejich použití je vázáno na splnění určitých podmínek.

Okresy JmK Počet dětí s nízkou por. hmotností (do 2500g) na 100 ŽN (nezávis. prom. X) KÚ (závis. prom. Y) Blansko 4,10 7,70 Brno město 6,20 9,69 Brno venkov 5,00 9,33 Břeclav 4,40 6,40 Hodonín 4,20 7,77 Jihlava 4,60 8,98 Kroměříž 5,30 6,27 Prostějov 5,50 11,22 Třebíč 4,80 6,88 Uherské Hradiště 4,70 8,92 Vyškov 5,20 9,09 Zlín 5,10 7,92 Znojmo 5,70 7,64 Žďár nad Sázavou 4,60 6,39

BODOVÝ GRAF Body jsou dány dvojicí hodnot pro každou statistickou jednotku Osa x: nezávisle proměnná Osa y: závisle proměnná Zakreslenými body prokládáme čáru (přímku, křivku) Typ závislosti (funkce) Směr závislosti (přímá, nepřímá) Těsnost závislosti (rozptyl bodů)

BODOVÝ GRAF y y y y x y x y x y x y x y x x x x

HODNOCENÍ ZÁVISLOSTI KVANTITATIVNÍCH VELIČIN LINEÁRNÍ ZÁVISLOST Nejužívanější mírou korelace je PEARSONŮV KORELAČNÍ KOEFICIENT NELINEÁRNÍ ZÁVISLOST Např. SPEARMANŮV KOEFICIENT POŘADOVÉ KORELACE

KÚ Bodový graf 12 11 10 9 8 7 6 4 4.5 5 5.5 6 6.5 ŽN s nízkou porodní hmotností

LINEÁRNÍ ZÁVISLOST Nejužívanější mírou korelace je PEARSONŮV KORELAČNÍ KOEFICIENT Označuje se r pro výběrový soubor (výběrová charakteristika) ρ pro základní soubor (parametr) Podmínka pro použití: - lineární závislost (odhadujeme z bodového grafu) - dvojrozměrné normální rozdělení

LINEÁRNÍ ZÁVISLOST r(ρ) nabývá hodnot od - 1 do 1 Z tohoto intervalu mají hodnoty -1, 0 a 1 zvláštní význam: r(ρ) = -1 funkční nepřímá závislost r(ρ) = 0 neexistuje lineární závislost r(ρ) = 1 přímá funkční závislost Hodnocení r: Čím více se hodnota r(ρ) blíží ± 1, tím je větší těsnost vztahu. Pearsonův koeficient korelace je nejlepší mírou korelace, proto tam, kde je to možné, transformujeme nelineární vztah na lineární.

LINEÁRNÍ ZÁVISLOST Z údajů o výběrovém souboru vypočítáme VÝBĚROVÝ KORELAČNÍ KOEFICIENT r. r je výběrová charakteristika a proto je zatížena náhodnou chybou SE: r je nejlepším bodovým odhadem neznámého parametru ρ Pozor při intervalovém odhadu pokud ρ 0 nemá r normální rozdělení, je třeba provést logaritmickou transformaci

TEST HYPOTÉZY O NULOVÉM KORELAČNÍM KOEFICIENTU Jde o zjištění statistické významnosti r H 0 - veličiny jsou nezávislé, tj. r(ρ) = 0 H A - veličiny jsou závislé, tj. r(ρ) 0 Statistická hypotéza zjišťuje, zda se r významně liší od nuly k tomu lze využít: a) pro n 50: kritické hodnoty Pearsonova r Absolutní hodnota r se porovná s kritickými hodnotami Pearsonova korelačního koeficientu: - je-li, pak nezamítáme H 0 - je-li, pak zamítáme H 0 b) pro n > 50: u-test

Příklad: TEST HYPOTÉZY O NULOVÉM KORELAČNÍM KOEFICIENTU Zhodnoťte významnost korelace mezi podílem dětí s nízkou porodní hmotností a kojeneckou úmrtností a) v souboru 14 okresů, když r = 0,429 a b) v souboru 72 okresů ČR, když r = 0,471. a) Kritické hodnoty Pearsonova korelačního koeficientu b) u-test,, kritické hodnoty normálního rozdělení

KOEFICIENT DETERMINACE V případě stat. významné závislosti můžeme počítat tzv. KOEFICIENT DETERMINACE: r 2 Nabývá hodnot od 0 do 1; vyjádříme-li ho v %, udává, kolik % variability závislé veličiny Y lze vysvětlit změnami v nezávislé veličině X. Vypočítejte, z kolika % jsou rozdíly v KÚ mezi okresy ČR způsobeny rozdíly v podílu dětí s nízkou por. hmotností.

REGRESNÍ ANALÝZA Zjistíme-li statisticky významnou lineární závislost, je někdy užitečné vyjádřit ji pomocí regresní přímky ve tvaru: y = a + bx y x a b hodnota závislé veličiny hodnota nezávislé veličiny regresní koeficient, udává posun po ose y regresní koeficient, úhel přímky s osou x Přímka se používá k PREDIKCI jedné veličiny pomocí druhé, tzn. zjišťujeme jaká bude hodnota y, pro určenou hodnotu x.

REGRESNÍ ANALÝZA Příklad: V souboru 76 okresů ČR byla zjištěna závislost mezi podílem dětí s nízkou porodní hmotností (X) a kojeneckou úmrtností (Y), kterou lze vyjádřit rovnicí: y = 4,139 + 0,942x. Vypočítejte, jaká by byla kojenecká úmrtnost v okrese, kde na 100 živě narozených připadá 7 dětí s nízkou porodní hmotností. Rovnice regresní přímky vypočítaná z dat o výběrovém souboru se chová jako náhodná veličina a je zatížená náhodnou výběrovou chybou SE. Pro odhad regresní přímky slouží tzv. PÁS SPOLEHLIVOSTI (CI pro každý bod přímky).

NELINEÁRNÍ ZÁVISLOST SPEARMANŮV KOEFICIENT POŘADOVÉ KORELACE Nejprve seřadíme všechny hodnoty veličiny X dle velikosti a označíme je pořadovými čísly. Pak seřadíme všechny hodnoty veličiny Y dle velikosti a označíme je pořadovými čísly. Pro každou dvojici hodnot x, y stanovíme jejich rozdíl d. Spearmanův koeficient pořadové korelace vypočítáme ze vztahu:

Okresy JmK Por. hmotnost do 2500g na 100 ŽN Pořadí Podle PH KÚ Pořadí Podle KÚ Rozdíl pořadí Blansko 4,10 1 7,70 6-5 Brno město 6,20 14 9,69 13 1 Brno venkov 5,00 8 9,33 12-4 Břeclav 4,40 3 6,40 3 0 Hodonín 4,20 2 7,77 7-5 Jihlava 4,60 4,5 8,98 10-5,5 Kroměříž 5,30 11 6,27 1 10 Prostějov 5,50 12 11,22 14-2 Třebíč 4,80 7 6,88 4 3 Uherské Hradiště 4,70 6 8,92 9-3 Vyškov 5,20 10 9,09 11-1 Zlín 5,10 9 7,92 8 1 Znojmo 5,70 13 7,64 5 8 Žďár nad Sázavou 4,60 4,5 6,39 2 2,5

NELINEÁRNÍ ZÁVISLOST r s nabývá hodnot od -1 do 1, opět platí, že když: r s = 0, jde o nezávislost r s = 1, jde o přímou funkční závislost r s = -1, jde o nepřímou funkční závislost Hodnocení r s : Čím více se hodnota r s (ρ s ) blíží ± 1, tím je větší těsnost vztahu. TEST VÝZNAMNOSTI Absolutní hodnota r s se porovná s kritickými hodnotami Spearmanova koeficientu pořadové korelace: - je-li, pak nezamítáme H 0 - je-li, pak zamítáme H 0

HODNOCENÍ ZÁVISLOSTI KVALITATIVNÍCH ZNAKŮ Východiskem je kontingenční tabulka: KUŘÁCTVÍ VZDĚLÁNÍ ZŠ SŠ VŠ CELKEM Nekuřák 269 74 46 389 Kuřák 410 94 31 535 CELKEM 679 168 77 924 Je založeno na srovnání empirických a teoretických četností. Empirická četnost (E) rozdělení lidí podle kuřáctví a vzdělání jak bylo skutečně zjištěno ve výběrovém souboru. Teoretická četnost (T) jaké by bylo rozdělení lidí ve výběrovém souboru podle kuřáctví a vzdělání, kdyby šlo o jevy nezávislé.

TEST HYPOTÉZY O NEZÁVISLOSTI 1. STANOVENÍ HYPOTÉZ - H 0 mezi empirickými a teoretickými četnostmi není rozdíl - H A - mezi empirickými a teoretickými četnostmi je rozdíl 2. HLADINA VÝZNAMNOSTI α = 5% nebo α = 1% 3. VÝBĚR TESTU - chí-kvadrát test ( 2 )

TEST HYPOTÉZY O NEZÁVISLOSTI 4. PODMÍNKY PRO POUŽITÍ TESTU Všechny teoretické četnosti musí být větší než 5. 5. VÝPOČET TESTOVACÍ CHARAKTERISTIKY CHÍ - KVADRÁT a) Pro každé políčko tabulky vypočítáme teoretickou četnost. b) Pro každé políčko tabulky vypočítáme rozdíl mezi empirickou (E) a teoretickou četností (T) podle vzorečku: c) Součet vypočítaných rozdílů je hodnota chí-kvadrátu:

TEST HYPOTÉZY O NEZÁVISLOSTI

ZÁVISLOST KVALITATIVNÍCH ZNAKŮ Vyhodnoťte statistickou významnost závislosti mezi kouřením a vzděláním na 5% hladině významnosti. KUŘÁCTVÍ VZDĚLÁNÍ ZŠ SŠ VŠ CELKEM Nekuřák 269 74 46 389 Kuřák 410 94 31 535 CELKEM 679 168 77 924 Pro každé políčko tabulky této šestipolní vypočítejte teoretickou četnost Pro každé políčko vypočítejte rozdíl mezi empirickou a teoretickou četností: Proveďte součet dílčích výpočtů pro jednotlivá políčka: Srovnejte hodnotu 2 s příslušnými kritickými hodnotami v tabulce.