TESTOVÁNÍ NEPARAMETRICKÝCH HYPOTÉZ. 11. cvičení



Podobné dokumenty
Asymptoty grafu funkce

Numerická integrace. 6. listopadu 2012

Statistika ČESKÉ VYSOKÉ UČENÍ TECHNICKÉ V PRAZE FAKULTA DOPRAVNÍ. Jiří Volf, Adam Kratochvíl, Kateřina Žáková. Semestrální práce - 0 -

ANOVA ANALÝZA ROZPTYLU. 12. cvičení

B Kvantitativní test. Semestrální práce TUR. Novotný Michal

Skupina Testování obsahuje následující moduly: Síla a rozsah výběru, Testy a Kontingenční tabulka.

Aplikovaná statistika 2007 program přednášek pro 2. ročník denního studia

Výrazy lze též zavést v nečíselných oborech, pak konstanty označuji jeden určitý prvek a obor proměnné není množina čísel.

Posouzení únosnosti svaru se provádí podle zásad pružnosti a pevnosti v nebezpečném průřezu.

Příloha CD: Testování hypotéz 1

Digitální učební materiál

MODEL MOSTU. Ing.Jiřina Strnadová. Evropský sociální fond Praha a EU Investujeme do vaší budoucnosti. Předmět:Fyzika

Grafické řešení soustav lineárních rovnic a nerovnic

(k 1)x k + 1. pro k 1 a x = 0 pro k = 1.

Gymnázium, Praha 10, Voděradská 2 Projekt OBZORY

JAK OPTIMÁLN VYUŽÍT STATISTIKY P I ZPRACOVÁNÍ DAT

6 TESTY HYPOTÉZ NEPARAMETRICKÉ TESTY

Jan Březina. Technical University of Liberec. 17. března 2015

Testování statistických hypotéz. Ing. Michal Dorda, Ph.D. 1

5. cvičení 4ST201_řešení

Rostislav Horčík. 13. října 2006

1 Měření kapacity kondenzátorů

Univerzita Tomáše Bati ve Zlíně

SEMESTRÁ LNÍ PRÁ CE. Licenč ní studium STATISTICKÉZPRACOVÁ NÍ DAT PŘ I KONTROLE A Ř ÍZENÍ JAKOSTI

2.6.4 Lineární lomené funkce s absolutní hodnotou

Střední průmyslová škola a Vyšší odborná škola technická Brno, Sokolská 1. Podpora digitalizace a využití ICT na SPŠ CZ.1.07/1.5.00/34.

Definice z = f(x,y) vázané podmínkou g(x,y) = 0 jsou z geometrického hlediska lokálními extrémy prostorové křivky k, Obr Obr. 6.2.

III/2 Inovace a zkvalitnění výuky prostřednictvím ICT

Digitální učební materiál

2.8.8 Kvadratické nerovnice s parametrem

Pokusy s kolem na hřídeli (experimenty s výpočty)

Škola: Střední škola obchodní, České Budějovice, Husova 9 Projekt MŠMT ČR: EU PENÍZE ŠKOLÁM

I. Objemové tíhy, vlastní tíha a užitná zatížení pozemních staveb

V praxi pracujeme s daty nominálními (nabývají pouze dvou hodnot), kategoriálními (nabývají více

1309 testových otázek BOZP

2.1. Pojem funkce a její vlastnosti. Reálná funkce f jedné reálné proměnné x je taková

ČESKÉ VYSOKÉ UČENÍ TECHNICKÉ V PRAZE FAKULTA ELEKTROTECHNICKÁ BAKALÁŘSKÁ PRÁCE. Jakub Klíma

PRAVIDLA PROVOZOVÁNÍ LOKÁLNÍ DISTRIBUČNÍ SOUSTAVY. Forum Liberec s.r.o.

Business Contact Manager Správa kontaktů pro tisk štítků

POKUS O STATISTICKOU PŘEDPOVĚD ZNEČIŠTĚNÍ OVZDUŠÍ. Josef Keder. ČHMÚ ÚOČO, Observatoř Tušimice, keder@chmi.cz

ESII-2.1 Elektroměry

Střední průmyslová škola strojnická Olomouc, tř.17. listopadu 49

Pro získání zápočtu je nutno mimo docházky (max. 3 absence) získat ze dvou napsaných písemek dohromady alespoň dva příklady.

3.5.8 Otočení. Předpoklady: 3506

ZATÍŽENÍ SNĚHEM A VĚTREM

ČESKÁ ZEMĚDĚLSKÁ UNIVERZITA V PRAZE

Univerzita Tomáše Bati ve Zlíně

Regresní analýza. Statistika II. Jiří Neubauer. Katedra ekonometrie FEM UO Brno kancelář 69a, tel

Elektrické. MP - Ampérmetr A U I R. Naměřená hodnota proudu 5 A znamená, že měřená veličina je 5 x větší než jednotka - A

a m1 a m2 a mn zobrazení. Operaci násobení u matic budeme definovat jiným způsobem.

AMU1 Monitorování bezpečného života letounu (RYCHLÝ PŘEHLED)

Hřídelové čepy. Podle tvaru, funkce a použití rozeznáváme hřídelové čepy: a) válcové b) kuželové c) prstencové d) kulové e) patní

Funkce Vypracovala: Mgr. Zuzana Kopečková

Obsah CZ.NIC, z. s. p. o. CZ.NIC je správcem domény.cz a provozovatelem služby mojeid.

jednotky hmotnosti pracovní list Základní škola Zaječí, okres Břeclav Školní 402, , příspěvková organizace

1 3Statistika I (KMI/PSTAT)

Jednofázový alternátor

Moderní technologie ve studiu aplikované fyziky CZ.1.07/2.2.00/ Reálná čísla

UŽITÍ DERIVACÍ, PRŮBĚH FUNKCE

STP097 STATISTIKA CVIČENÍ EMPIRICKÁ DISTRIBUČNÍ FUNKCE, JEDNOVÝBĚROVÉ TESTY

Zvyšování kvality výuky technických oborů

1.3 Druhy a metody měření

Název materiálu: Počasí a podnebí - opakování

Rovnice s neznámou pod odmocninou I

Základní ustanovení. změněno s účinností od poznámka vyhláškou č. 289/2013 Sb a) mezi přepravní soustavou a

pracovní list studenta

Sekvenční obvody. S R Q(t+1) 0 0? Q(t)

Je statisticky dokázáno. Martina Litschmannová Katedra aplikované matematiky, FEI, VŠB-TU Ostrava

Základy počítačové grafiky

11 Soustavy rovnic a nerovnic, Determinanty a Matice

Investice a akvizice

Závislost hladiny intenzity zvuku na počtu zdrojů zvuku, na vzdálenosti od zdroje zvuku

Velikost pracovní síly

Fyzika 7/EU (28) Variace č.: 1

Možnosti využití archivu historických povodní v operativní hydrologii na p íkladu povodí Otavy

SMĚŠOVACÍ KALORIMETR -tepelně izolovaná nádoba s míchačkou a teploměrem, která je naplněná kapalinou

Vzdělávací obor: Prvouka

ZÁKLADNÍ PRINCIPY ÚČTOVÁNÍ DPH

269/2015 Sb. VYHLÁŠKA

JIŠTĚNÍ OBVODŮ POJISTKY 2

GEOMETRIE NÁPRAV. Kontrolní a seřizovací podmínky. Výšky vozidla v referenční poloze

6. T e s t o v á n í h y p o t é z

Poměry a úměrnosti I

Polosuchá vápenná metoda odsíření spalin - hmotová bilance

VŠB - Technická univerzita Ostrava Fakulta elektrotechniky a informatiky Katedra informatiky. Statistika 1. Semestrální práce

4 DVOJMATICOVÉ HRY. Strategie Stiskni páku Sed u koryta. Stiskni páku (8, 2) (5, 3) Sed u koryta (10, 2) (0, 0)

Goniometrie trigonometrie

PŘIJÍMACÍ ŘÍZENÍ PRO ŠKOLNÍ ROK 2016/2017

SITEMAP / STRUKTURA. VÝVOJ ONLINE PREZENTACE / ETAPA I. CLIENT / DHL Global Forwarding THEQ ALL GOOD THINGS

Obsahuje barevné palety PANTONE v prostoru CMYK: FASHION + HOME COLOR GUIDE barev NEW COLORS barev

Národní informační středisko pro podporu kvality Tůmová

METODY ASTROFYZIKÁLNÍHO VÝZKUMU. B. Úhel, pod kterým pozorujeme z hvězdy kolmo na směr paprsků poloměr dráhy Země kolem Slunce,

Fyzikální praktikum 3 - úloha 7

MECHANICKÁ PRÁCE A ENERGIE

Elasticita a její aplikace

Zvyšování kvality výuky technických oborů

MODELOVÁNÍ CENOVÉ ELASTICITY POPTÁVKY PO VJEZDU NA AUTOBUSOVÉ NÁDRAŽÍ MODELLING OF PRICE DEMAND ELASTICITY FOR ENTRY TO BUS TERMINAL

Druhá mocnina. Druhá odmocnina Druhá odmocnina. Předpoklady: V této hodině jsou kalkulačky zakázány.

SYSTÉM PODLAHOVÉHO TOPENÍ PROFI THERM 2000

7. Silně zakřivený prut

Transkript:

TESTOVÁNÍ NEPARAMETRICKÝCH HYPOTÉZ 11. cvičení

Neparametrické hypotézy Hypotézy o vlastnostech populace (typ rozdělení, závislost proměnných )

Testy dobré shody Testují shodu mezi výběrovým (empirickým) a teoretickým rozdělením. Χ 2 test dobré shody - ověřuje, jestli se pozorované (angl. observed ) absolutní četnosti O i jednotlivých variant náhodné veličiny shodují s očekávanými (angl. expected ) absolutními četnostmi E i, tj. četnostmi, které bychom očekávali v případě platnosti nulové hypotézy. Kolmogorovův Smirnovův test pro jeden výběr - ověřuje hypotézu, zda pořízený výběr pochází z rozdělení se spojitou distribuční funkcí F(x).

Χ 2 test dobré shody 0. Předpoklady testu: n i π0, > 5, i = 1, 2,..., k Očekávané četnosti musí být větší než 5 (alespoň 80% očekávaných četností musí být větších než 5, zbylých 20% nesmí být menší než 2)

Χ 2 test dobré shody 1. Volba nulové hypotézy: a) H 0 : Výběr pochází z populace, v níž jsou relativní četnosti jednotlivých variant rovny číslům, populace musí být roztříditelná podle nějakého znaku do k skupin. b) H 0 : Výběr pochází z rozdělení určitého typu, jehož parametry jsou dány (úplně specifikovaný model). c) H 0 : Výběr pochází z rozdělení určitého typu, přičemž neověřujeme informace o parametrech rozdělení, parametry modelu odhadujeme (neúplně specifikovaný model). Alternativní hypotézu volíme ve tvaru: H A : neplatí H 0 (H 0 )

Χ 2 test dobré shody 2. Výpočet pozorované hodnoty testové statistiky: T ( X ) = G = k i = 1 ( n n π ) i n π 0, i 0, i 2 χ 2 k h 1 n k h n i π 0,i n π 0,i rozsah výběru počet variant počet odhadovaných parametrů modelu pozorované četnosti jednotlivých variant očekávané relativní četnosti jednotlivých variant očekávané absolutní četnosti jednotlivých variant

Χ 2 test dobré shody 3. Výpočet p-value: p value = 1 F0( xobs) 4. Formulace závěru vztaženého ke konkrétnímu příkladu. Podívejte se na flash animaci Testy dobré shody řešený příklad na stránkách MI21 za a), b) i c) http://mi21.vsb.cz/flash-animace/testy-dobre-shody-reseny-priklad

Kolmogorovův-Smirnovův test Používá se pro ověření hypotézy, zda pořízený výběr pochází z rozdělení se spojitou distribuční funkcí F(x). F(x) musí být úplně specifikovaná. Výhody oproti Χ 2 testu dobré shody: větší síla testu nemá omezující podmínky (lze použít při výběrech malého rozsahu) vychází z jednotlivých pozorování a nikoliv z údajů setříděných do skupin

Kolmogorovův-Smirnovův test 1. Formulace nulové a alternativní hypotézy: H 0 : Náhodný výběr pochází z rozdělení se spojitou distribuční funkcí F 0 (x). H A : Náhodný výběr nepochází z rozdělení se spojitou distribuční funkcí F 0 (x). 2. Výběrový soubor X 1,X 2,, X n uspořádáme vzestupně podle velikosti X (1) X (2) X (n) Empirická distribuční funkce je pak dána vztahem: F 0, x < X( 1) x) = i / n, X( i ) < x < X( i + ), i = 1,..., n 1, x X( n) n( 1 1

Kolmogorovův-Smirnovův test 3. Testová statistika: T D * i * * * ( X ) = D = sup F ( x) F ( x) = max( D, D, K D ) n x i 1 i = max F0 i 0 n n n 0 1 2, ( x ), F ( x ) pro i = 1,2, K, n Stanovení Dn i n 1,20 1,00 0,80 Fn(x), Fo(x) 0,60 0,40 D n 0,20 0,00 16 17 18 19 20 21 22 23-0,20 x

Kolmogorovův-Smirnovův test 4. Rozhodnutí: Nulovou hypotézu zamítáme, pokud pozorovaná hodnota testové statistiky D n překročí kritickou hodnotu D n(α). Malé n => speciální tabulky kritických hodnot D n(α). Velké n => aproximace kritických hodnot D n(α) podle vztahu: 1 2 D n ( α ) ln 2n α Podívejte se na flash animaci Kolmogorovův-Smirnovův test řešenýpříklad na stránkách MI21 http://mi21.vsb.cz/flash-animace/kolmogorovuv-smirnovuv-testreseny-priklad

Vazby mezi znaky U statistických jednotek zkoumáme většinou více znaků najednou: spotřeba, objem motoru, hmotnost a zrychlení automobilů, školní prospěch a pocit deprese u dětí, apod. Mezi jednotlivými znaky hledáme závislosti: spotřebou automobilu a jeho hmotností pocitem deprese u dětí a školním prospěchem. Typy závislosti: Jednostranná závislost Oboustranná závislost

Jednostranná závislost V případě, kdy znak X působí na znak Y, ale znak Y nepůsobí zpětně na znak X. X vztah mezi typem absolvované střední školy a (bodovým) výsledkem přijímací zkoušky z matematiky vztah mezi výškou a váhou Y Metody analýzy jednostranné závislosti

Oboustranná závislost Ve vztahu nelze jednoznačně určit příčinu a důsledek Znak X působí na znak Y a znak Y působí zpětně na znak X X Y vztah mezi výdaji domácností na oblečení a na potraviny Výběr vhodné metody při zjištění závislostí závisí na typu analyzovaných veličin Metody analýzy oboustranné závislosti

Testy v kontingenční tabulce Testuje závislost dvou kategoriálních proměnných Kontingenční tabulka: Dvourozměrná tabulka četností, z jejichž hodnot můžeme usoudit na závislost či nezávislost mezi dvěma kategoriálními proměnnými

Grafické výstupy pro analýzu závislosti dvou kategoriálních proměnných Shlukový sloupcový graf

Grafické výstupy pro analýzu závislosti dvou kategoriálních proměnných Kumulativní sloupcový graf (excel)

Grafické výstupy pro analýzu závislosti dvou kategoriálních proměnných Mozaikový graf (Statgraphics)

Grafické výstupy pro analýzu závislosti dvou kategoriálních proměnných 100% skládaný pruhový graf Všechny grafy se používají k explorační analýze závislosti

χ 2 -test nezávislosti v kontingenční tabulce Základní pojmy: Pozorované (empirické) četnosti O ij (Observed frequency) zjištěné sdružené četnosti Očekávané (teoretické) četnosti E ij (Expected frequency) sdružené četnosti očekávané za předpokladu nezávislosti proměnných (aneb platí-li H 0 ) n n n n i. j i... j Eij = n ij = n = n n n Odchylky, rezidua (Deviation) rozdíly mezi očekávanými a pozorovanými četnostmi = E ij -O ij

χ 2 -test nezávislosti v kontingenční tabulce 0. Předpoklady testu: Žádná očekávaná četnost nesmí klesnout pod 2 Alespoň 80% četností musí být větších než 5 1. Nulová a alternativní hypotéza: H 0 : Proměnné v kontingenční tabulce jsou nezávislé. H A : Proměnné v kontingenční tabulce jsou závislé. 2. Výpočet pozorované hodnoty testové statistiky: Pearsonova statistika chí-kvadrát 2 m n ( Oij Eij ) 2 T(X) = K = χ( m 1)( n 1) E i = 1 j = 1 m počet řádků kont. tabulky, n počet sloupců kont. tabulky ij

χ 2 -test nezávislosti v kontingenční tabulce V ideálním případě nezávislosti: i, j : O ij =E ij proto O ij -E ij =0 i=1,, m; j=1,, n 3. Výpočet p-value: p value = 1 F0( xobs) 4. Závěr Podívejte se na flash animaci Analýza závislosti dvou kategoriálních veličin na stránkách MI21 http://mi21.vsb.cz/flash-animace/analyza-zavislosti-dvoukategorialnich-velicin

Yatesova korekce Lze provést v případě, kdy nejsou splněny předpoklady chíkvadrát testu nezávislosti (extrémně nízké očekávané četnosti). Snižuje pravděpodobnost chyby I. druhu, tím však snižuje sílu testu. Testová statistika (Pearsonova statistika chí-kvadrát): T(X) 2 m n ( Oij Eij 0, 5) 2 = K = χ m 1 n i = 1 j = 1 ( )( 1) m, n počet řádků (sloupců) kont. tabulky E ij Výpočet p-value: p value = 1 F0( xobs)

Síla vztahu Chí-kvadrát test nezávislosti nevypovídá nic o síle vztahu, pouze zamítá, resp. nezamítá nulovou hypotézu o nezávislosti znaku X a Y. Pro zjištění síly vztahu používáme koeficienty: koeficient kontingence pro čtvercové kontingenční tabulky K CC = K + n korigovaný koeficient kontingence pro obdélníkové k. tab. CC CC cor = min( r; s) 1 CCmax = CC max, kde min( r; s) Cramerův koeficient V = K n(min( r; s) 1) Čím jsou koeficienty blíže 1, tím je závislost mezi znaky X a Y těsnější.

McNemarův test Pouze pro čtyřpolní tabulky (2 sloupce a 2 řádky). Test shody rozdělení pro závislé alternativní proměnné se stejnými kódy. Nulová a alternativní hypotéza: H 0 : Procenta úspěšností jsou u obou veličin stejná. H A : Procenta úspěšností nejsou u obou veličin stejná. Testové kritérium: Předpoklad testu: 2 ( n12 n21) 2 ( 1) ( n + n ) T( X) = χ 12 21 ( n + n ) 12 21 2 4 Výpočet p-value: p value = 1 F0( xobs)

Test

Vyberte správný výraz: a) Kolmogorovův-Smirnovův test ve své základní podobě (lze, nelze) použít pro testování normality. b) Použijeme-li χ 2 test dobré shody pro ověření toho, zda je klasická šestistěnná hrací kostka férová, pak má v případě platnosti nulové hypotézy testová statistika rozdělení s (4; 5; 6) stupni volnosti.

Vyberte správný výraz: a) Kolmogorovův-Smirnovův test ve své základní podobě (lze, nelze) použít pro testování normality. b) Použijeme-li χ 2 test dobré shody pro ověření toho, zda je klasická šestistěnná hrací kostka férová, pak má v případě platnosti nulové hypotézy testová statistika rozdělení s (4; 5; 6) stupni volnosti.

Vyberte správný výraz: c) Pro úplně specifikovaný test dobré shody se spojitým rozdělením je vhodnější použít (χ 2 test dobré shody, Kolmogorovův-Smirnovův test). d) Chceme-li pro ověření shody mezi teoretickým a empirickým rozdělením použít test dobré shody, musí být všechny (pozorované, očekávané) četnosti jednotlivých variant, resp. třídících intervalů, větší než 5.

Vyberte správný výraz: c) Pro úplně specifikovaný test dobré shody se spojitým rozdělením je vhodnější použít (χ 2 test dobré shody, Kolmogorovův-Smirnovův test). d) Chceme-li pro ověření shody mezi teoretickým a empirickým rozdělením použít test dobré shody, musí být všechny (pozorované, očekávané) četnosti jednotlivých variant, resp. třídících intervalů, větší než 5.

Vyberte správný výraz: e) Čím členitější je mozaikový graf, tím (slabší, silnější) závislost mezi veličinami v kontingenční tabulce pozorujeme. f) Analyzujeme-li závislost v kontingenční tabulce, která má 4 řádky a 5 sloupců, pak χ 2 test nezávislosti můžeme použít, pokud alespoň (4; 10; 16; 20) očekávaných četností je větších než 5 a ostatní nejsou menší než (0; 1; 2). g) Koeficient kontingence (se vyskytuje v intervalu (0;1); může nabývat hodnot větších než 1).

Vyberte správný výraz: e) Čím členitější je mozaikový graf, tím (slabší, silnější) závislost mezi veličinami v kontingenční tabulce pozorujeme. f) Analyzujeme-li závislost v kontingenční tabulce, která má 4 řádky a 5 sloupců, pak χ 2 test nezávislosti můžeme použít, pokud alespoň (4; 10; 16; 20) očekávaných četností je větších než 5 a ostatní nejsou menší než (0; 1; 2). g) Koeficient kontingence (se vyskytuje v intervalu (0;1); může nabývat hodnot větších než 1).

Vyberte správný výraz: h) (Kontingenční, Asociační) tabulka je speciálním případem (kontingenční, asociační) tabulky. i) Je-li odhad relativního rizika RR=1,2, pak (mezi znaky v asociační tabulce existuje závislost, mezi znaky v asociační tabulce neexistuje závislost, o závislosti znaků v asociační tabulce musí rozhodnout test). j) Kvalita 50 různých výukových materiálů byla dvěma odborníky hodnocena na stupnici od 1 do 5. Vhodnou mírou závislosti mezi hodnocením jednotlivých odborníků je (Pearsonův, Spearmanův) korelační koeficient.

Vyberte správný výraz: h) (Kontingenční, Asociační) tabulka je speciálním případem (kontingenční, asociační) tabulky. i) Je-li odhad relativního rizika RR=1,2, pak (mezi znaky v asociační tabulce existuje závislost, mezi znaky v asociační tabulce neexistuje závislost, o závislosti znaků v asociační tabulce musí rozhodnout test). j) Kvalita 50 různých výukových materiálů byla dvěma odborníky hodnocena na stupnici od 1 do 5. Vhodnou mírou závislosti mezi hodnocením jednotlivých odborníků je (Pearsonův, Spearmanův) korelační koeficient.