4ST201 STATISTIKA CVIČENÍ Č. 8



Podobné dokumenty
Cvičící Kuba Kubina Kubinčák Body u závěrečného testu

Analýza rozptylu. Přednáška STATISTIKA II - EKONOMETRIE. Jiří Neubauer

Analýza rozptylu. Statistika II. Jiří Neubauer. Katedra ekonometrie FVL UO Brno kancelář 69a, tel

V praxi pracujeme s daty nominálními (nabývají pouze dvou hodnot), kategoriálními (nabývají více

Sever Jih Západ Plechovka Točené Sever Jih Západ Součty Plechovka Točené Součty

Tomáš Karel LS 2012/2013

Regresní a korelační analýza

KGG/STG Statistika pro geografy

Stav Svobodný Rozvedený Vdovec. Svobodná Rozvedená Vdova 5 8 6

Příloha č. 3. Kombinační třídění

4ST201 STATISTIKA CVIČENÍ Č. 7

Příloha CD: Testování hypotéz 1

VÍCEROZMĚRNÝ STATISTICKÝ SOUBOR

Parametry hledáme tak, aby součet čtverců odchylek byl minimální. Řešením podle teorie je =

NEPARAMETRICKÉ TESTY

4EK211 Základy ekonometrie

Kontingenční tabulky, korelační koeficienty

Příklad 1. Korelační pole. Řešení 1 ŘEŠENÉ PŘÍKLADY Z MV2 ČÁST 13

Problematika analýzy rozptylu. Ing. Michael Rost, Ph.D.

SEMESTRÁLNÍ PRÁCE. Leptání plasmou. Ing. Pavel Bouchalík

Poznámky k předmětu Aplikovaná statistika, 9.téma

Za hranice nejistoty(2)

6. Lineární regresní modely

Kontingenční tabulky, korelační koeficienty

Tomáš Karel LS 2012/2013

Z mých cvičení dostalo jedničku 6 studentů, dvojku 8 studentů, trojku 16 studentů a čtyřku nebo omluveno 10 studentů.

Plánování experimentu

Regresní a korelační analýza

a) Základní informace o souboru Statistika: Základní statistika a tabulky: Popisné statistiky: Detaily

6. T e s t o v á n í h y p o t é z

Analýza rozptylu. Podle počtu analyzovaných faktorů rozlišujeme jednofaktorovou, dvoufaktorovou a vícefaktorovou analýzu rozptylu.

Korelační a regresní analýza

Korelační a regresní analýza. 1. Pearsonův korelační koeficient 2. jednoduchá regresní analýza 3. vícenásobná regresní analýza

Analýza rozptylu. Ekonometrie. Jiří Neubauer. Katedra kvantitativních metod FVL UO Brno kancelář 69a, tel

MÍRY ZÁVISLOSTI (KORELACE A REGRESE)

Regresní a korelační analýza

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Matematická statistika

Úloha č. 2 - Kvantil a typická hodnota. (bodově tříděná data): (intervalově tříděná data): Zadání úlohy: Zadání úlohy:

Regresní a korelační analýza

Zpracování studie týkající se průzkumu vlastností statistických proměnných a vztahů mezi nimi.


Univerzita Pardubice Fakulta Ekonomicko- správní. Testy hypotéz s využitím programu MS EXCEL. Tomáš Borůvka

Náhodné veličiny jsou nekorelované, neexistuje mezi nimi korelační vztah. Když jsou X; Y nekorelované, nemusí být nezávislé.

Úvod do analýzy rozptylu

Simulace systému hromadné obsluhy Nejčastější chyby v semestrálních pracích

Univerzita Pardubice Fakulta chemicko technologická Katedra analytické chemie Licenční studium Management systému jakosti

VŠB Technická univerzita Ostrava BIOSTATISTIKA

Příklady ze Statistiky

Hledání závislostí technologických a nákladových charakteristik při tavení oceli na elektrických obloukových pecích

Statistika (KMI/PSTAT)

12. TESTOVÁNÍ STATISTICKÝCH HYPOTÉZ

Regresní a korelační analýza

MSI LS 2006/2007 Ing. Pavla Hošková, Ph.D., 2. test

Měření závislosti statistických dat

Regresní analýza 1. Regresní analýza

Regresní a korelační analýza

Mann-Whitney U-test. Znaménkový test. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek

VŠB Technická univerzita Ostrava

Testování hypotéz a měření asociace mezi proměnnými

Cvičení 12: Binární logistická regrese

{ } ( 2) Příklad: Test nezávislosti kategoriálních znaků

Semestrální projekt. do předmětu Statistika. Vypracoval: Adam Mlejnek Oponenti: Patrik Novotný Jakub Nováček Click here to buy 2

1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.

Přírodopis v očích žáků II. stupně základních škol

4ST201 STATISTIKA CVIČENÍ Č. 10

Statistická analýza jednorozměrných dat

Poměrní ukazatelé. Centrum pro virtuální a moderní metody a formy vzdělávání na Obchodní akademii T. G. Masaryka, Kostelec nad Orlicí

Příklad 81b. Předpokládejme, že výška chlapců ve věku 9,5 až 10 roků má normální rozdělení N(mi;sig2)

Literatura učebnice z minulého semestru Jarošová, Pecáková sbírka příkladů pro statistiku B (2000 a novější)

(motto: An unsophisticated forecaster uses statistics as a drunken man uses lamp-posts - for support rather than for illumination.

, Brno Hanuš Vavrčík Základy statistiky ve vědě

Jana Vránová, 3. lékařská fakulta UK

Zápočtová práce STATISTIKA I

Zpracování náhodného vektoru. Ing. Michal Dorda, Ph.D.

Test dobré shody v KONTINGENČNÍCH TABULKÁCH

Testování hypotéz o parametrech regresního modelu

You created this PDF from an application that is not licensed to print to novapdf printer (

Jednofaktorová analýza rozptylu

Korelace. Komentované řešení pomocí MS Excel

Testování hypotéz o parametrech regresního modelu

Jednofaktorová analýza rozptylu

Vliv vzdělanostní úrovně na kriminalitu obyvatelstva

12. cvičení z PST. 20. prosince 2017

Některé zákony rozdělení pravděpodobnosti. 1. Binomické rozdělení

Analýza rozptylu. ANOVA cvičení

SEMESTRÁ LNÍ PRÁ CE. Licenč ní studium STATISTICKÉZPRACOVÁ NÍ DAT PŘ I KONTROLE A Ř ÍZENÍ JAKOSTI


"Competitivness in the EU Challenge for the V4 countries" Nitra, May 17-18, 2006

Statgraphics v. 5.0 STATISTICKÁ INDUKCE PRO JEDNOROZMĚRNÁ DATA. Martina Litschmannová 1. Typ proměnné. Požadovaný typ analýzy

Organizační pokyny k přednášce. Matematická statistika. Přehled témat. Co je statistika?

1. Příklad U automobilu byla měřena spotřeba benzínu v závislosti na rychlosti:

Heritabilita. Heritabilita = dědivost Podíl aditivního rozptylu na celkovém fenotypovém rozptylu Výpočet heritability

Z mých cvičení dostalo jedničku 6 studentů, dvojku 8 studentů, trojku 16 studentů a čtyřku nebo omluveno 10 studentů.

You created this PDF from an application that is not licensed to print to novapdf printer (

Využití statistických metod v medicíně (teorie informace pro aplikace VaV, vícerozměrné metody, atd.)

Statistické testování hypotéz II

LINEÁRNÍ REGRESE. Lineární regresní model

UKAZATELÉ VARIABILITY

Transkript:

4ST201 STATISTIKA CVIČENÍ Č. 8 analýza závislostí kontingenční tabulky test závislosti v kontingenční tabulce analýza rozptylu regresní analýza lineární regrese Analýza závislostí Budeme ověřovat existenci závislosti dvou kategoriálních proměnných kontingenční tabulky o např. závislost oblíbeného deníku a oblíbené televizní stanice, závislost průběhu choroby na tom, zda byl pacient očkován číselné proměnné na kategoriální proměnné analýza rozptylu o např. závislost příjmu na dosaženém vzdělání, závislost spotřeby auta na typu použitého benzinu číselné proměnné na jedné nebo více jiných číselných proměnných regresní analýza o např. závislost zisku firmy na počtu zaměstnanců, výši investic, objemu produkce, dvou číselných proměnných korelační analýzy o např. závislost výše pojistného na výši příjmu, závislost měsíčních výdajů domácnosti na počtu členů domácnosti Závislost 2 kategoriálních proměnných - kontingenční tabulky Hodnoty proměnné Y X/Y Y1 Y2 Yj Ys ni. Hodnoty proměnné X X1 n11 n12 n1j n1s n1. X2 n21 n22 n2j n2s n2. Xi n31 n32 n3j n3s n3. Xr nr1 nr2 nrj nrs nr. n.j n.1 n.2 n.j n.s n okrajové četnosti vyjadřují četnosti jednotlivých hodnot proměnných X a Y sdružené četnosti vyjadřují četnosti kombinací jednotlivých hodnot proměnných X a Y 1

Co testujeme? Test test k ověření nezávislosti v kontingenční tabulce je speciální případ chí-kvadrát testu dobré shody a porovnává výběrové (pozorované) četnosti s teoretickými četnostmi, které bychom očekávali v případě nezávislosti sledovaných proměnných kontingenční (kombinační) tabulka vzniká tříděním jednotek souboru podle variant dvou kategoriálních znaků nulová hypotéza říká, že sledované proměnné jsou nezávislé, alternativní hypotéza nulovou popírá a říká, že sledované proměnné jsou závislé : =.. : 1 1 testovým kritériem je veličina G, která má v případě nezávislosti a při dostatečně velkém počtu pozorování přibližně chí-kvadrát rozdělení s ν = (r-1)(s-1) stupni volnosti, kde r je počet variant prvního znaku (počet řádků) a s je počet variant druhého znaku (počet sloupců) =, kde =.. tabulka obsahovala v případě nezávislosti sledovaných znaků Testové kritérium má při platnosti nulové hypotézy rozdělení Kritický obor jsou teoretické četnosti, které by kontingenční 1 1 =< 1 1; pro posouzení intenzity závislosti proměnných v kontingenční tabulce se používají různé charakteristiky, nejpoužívanější jsou Pearsonův koeficient kontingence a Cramérův koeficient kontingence, které jsou založené na hodnotě testového kritéria chí-kvadrát =/+ = Pearsonův koeficient kontingence =/ 1 = Cramérův koeficient kontingence, kde =; Asociační tabulka kontingenční tabulce o rozměru 2 řádky x 2 sloupce se říká asociační tabulka v případě asociační tabulky lze hodnotu testového kritéria vypočítat pomocí vzorce =, kritický obor má pak tvar... = 1;. těsnost závislosti v asociační tabulce lze měřit pomocí tzv. koeficientu asociace = 11 22 12 21 1. 2..1.2, který nabývá hodnot <-1;1> 2

Př. 8.1 U 93 pacientů trpících chorobou bylo zjišťováno, zda byli očkováni a jaký průběh choroba má. Závisí průběh choroby na tom, zda pacient byl očkován? Uvažujte α = 0,05. Vypočtěte ručně. Průběh choroby Lehký Těžký Pacient očkován ANO 33 9 NE 15 36 Př. 8.2 Byla zjišťována souvislost mezi hladinou alkoholu v krvi (nízká, střední, vysoká) a rychlostí reakce (dobrá, špatná) u 100 náhodně vybraných lidí. Existuje souvislost? Pokud ano, jaká je intenzita závislosti? Testuje na hladině významnosti α = 0,05. Vypočtěte v MS Excel pomocí funkce CHITEST, pokud znáte teoretické četnosti. Rychlost reakce Hladina alkoholu Dobrá Špatná Celkem Nízká Střední Vysoká Empirické 53 12 Teoretické 39 26 Empirické 5 15 Teoretické 12 8 Empirické 2 13 Teoretické 9 6 65 20 15 Celkem 60 40 100 3

Závislost číselné proměnné na kategoriální - Analýza rozptylu (ANOVA) Co testujeme? ověření existence vlivu kategoriálního faktoru (nezávisle proměnné) na hodnoty číselného znaku (závisle proměnné) tj. ověření závislosti jedné číselné proměnné na jedné kategoriální proměnné (faktoru) faktor nabývá malého počtu (k) obměn a hodnoty závisle proměnné můžeme roztřídit do k skupin podle tohoto faktoru Př. Máme k dispozici údaje z filmové databáze www.csfd.cz o průměrném hodnocení kvality 15 filmů uživateli webu. Filmy mají na škále 0-100 hodnocení 87, 87, 84, 81, 62, 64, 70, 74, 67, 58, 79, 83, 91, 84 a 88. Filmy je možné roztřídit dle žánru do 3 skupin akční, komedie a drama. Zajímá nás, zda faktor žánr má vliv na to, jak jsou filmy hodnoceny. ověření závislosti spočívá v porovnání výběrových průměrů uvnitř jednotlivých skupin (tj. jde o určité rozšíření testu o shodě středních hodnot) rozdílnost mezi skupinovými průměry (charakterizovaná pomocí meziskupinové variability) je srovnávána s kolísáním hodnot uvnitř skupin (charakterizovaným vnitroskupinovou variabilitou) ŽÁNR HODNOCENÍ PRŮMĚRNÉ HODNOCENÍ Komedie 87 87 84 74 81 82,6 Akční 62 64 70 58 67 64,2 Drama 83 91 84 79 88 85,0 PRŮMĚRNÉ HODNOCENÍ ZA VŠECHNY FILMY = 77,3 meziskupinová variabilita vyjádřena jako meziskupinový součet čtverců (součet druhých mocnin odchylek skupinových průměrů od celkového průměru sledované závislé veličiny) vyjadřuje, jak moc se od sebe liší jednotlivé skupiny. = vnitroskupinová variabilita vyjádřena jako vnitroskupinový součet čtverců (součet druhých mocnin odchylek jednotlivých hodnot uvnitř skupin od příslušných skupinových průměrů) vyjadřuje, jak moc se liší hodnoty uvnitř skupin. = celková variabilita závisle proměnné vyjádřena jako celkový součet čtverců vyjadřuje, jak moc různé jsou hodnoty závisle proměnné a platí, =. +. = 4

Test nulová hypotéza o nezávislosti formulována jako hypotéza o rovnosti středních hodnot : μ =μ = =μ : => nezávislost závisle proměnné na faktoru => závislost závisle proměnné faktoru testové kritérium F vychází z toho, že čím větší podíl na celkové variabilitě má variabilita meziskupinová oproti vnitroskupinové, tím spíše má sledovaný faktor vliv na rozdílnost hodnot závisle proměnné =./ 1. / Při platnosti nulové hypotézy má testové kritérium rozdělení 1,, kde k je počet variant faktoru a n je počet pozorování. Kritický obor = 1, ; míru těsnosti závislosti závisle proměnné na třídícím faktoru lze měřit pomocí tzv. poměru determinace, který je konstruován jak podíl meziskupinové variability na celkové variabilitě závisle proměnné nabývá hodnot o 0 do 1, přičemž závislost je tím těsnější, čím je hodnota poměru determinace blíže 1 =. statistický software často dává výstup analýzy rozptylu v následujícím formátu: Zdroj Součet čtverců Stupně volnosti Průměrný Hodnota F Hodnota P variability (SS) (Rozdíl) čtverec (MS) (F) Faktor (Mezi výběry). 1. / 1. / 1. / Reziduální (Všechny výběry).. / Celkem 1 ANALÝZA ROZPTYLU V MS EXCEL o o V modulu ANALÝZA DAT nabídka Anova: jeden faktor Jsou-li data ve formátu, kdy proměnné jsou v řádcích a pozorování ve sloupcích, pak volbu Sdružit nastavit na Řádky o Jsou-li data ve formátu, kdy proměnné jsou ve sloupcích a pozorování v řádcích, pak volbu Sdružit nastavit na Sloupce 5

Př. 8.3 U 12 studentů jsme sledovali počet dosažených bodů na závěrečném testu (od 0 do 60). Vždy 4 z těchto studentů chodili k jednomu ze 3 cvičících panu Kubovi, panu Kubinovi, nebo panu Kubinčákovi. Má osoba cvičícího vliv na počet dosažených bodů u závěrečného testu? Jaká je těsnost závislosti? Využijte výstup z MS Excel. Zkuste v modulu Analýza dat výstup vytvořit (sdružit sloupce). Zadání Cvičící Kuba Kubina Kubinčák Body u závěrečného testu 53 42 39 47 48 46 55 48 39 50 50 43 Výstup z MS Excel ANOVA Zdroj variability SS Rozdíl MS F Hodnota P F krit Mezi výběry 2 181,17 90,58 7,58 0,0117 4,256 Všechny výběry 9 107,5 11,94 Celkem 11 288,67 Př. 8.4 Pomocí experimentu byla testována spotřeba při použití 3 druhů benzinu, s každým druhem bylo provedeno 5 pokusů. Doplňte tabulku ANOVA a rozhodněte na hladině významnosti 0,05, zda spotřeba závisí na druhu benzinu. Změřte těsnost závislosti. Zdroj variability SS Rozdíl MS F Mezi výběry Všechny výběry 0,080280 Celkem 0,250773 Př. 8.5. Existuje závislost hodnocení filmu na serveru www.csfd.cz na jeho žánru? Testujte na 5% hladině významnosti a posuďte těsnost testované závislosti. Vypočtěte v MS Excel pomocí modulu Analýza dat (sdružit řádky). ŽÁNR HODNOCENÍ Komedie 87 87 84 74 81 Akční 62 64 70 58 67 Drama 83 91 84 79 88 6