V praxi pracujeme s daty nominálními (nabývají pouze dvou hodnot), kategoriálními (nabývají více



Podobné dokumenty
V praxi pracujeme s daty nominálními (nabývají pouze dvou hodnot), kategoriálními (nabývají více

5 Vícerozměrná data - kontingenční tabulky, testy nezávislosti, regresní analýza

Regresní a korelační analýza

Statistika. Regresní a korelační analýza Úvod do problému. Roman Biskup

Kontingenční tabulky, korelační koeficienty

Kontingenční tabulky, korelační koeficienty

MĚŘENÍ STATISTICKÝCH ZÁVISLOSTÍ

Regresní a korelační analýza

11. cvičení z PSI prosince hodnota pozorovaná četnost n i p X (i) = q i (1 q), i N 0.

Statistika (KMI/PSTAT)

Měření závislosti statistických dat

Tomáš Karel LS 2012/2013

INDUKTIVNÍ STATISTIKA

MÍRY ZÁVISLOSTI (KORELACE A REGRESE)

12. cvičení z PST. 20. prosince 2017

Statistická analýza jednorozměrných dat

KGG/STG Statistika pro geografy

Testování hypotéz o parametrech regresního modelu

Regresní analýza 1. Regresní analýza

Testování hypotéz o parametrech regresního modelu

1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.

PRAVDĚPODOBNOST A STATISTIKA

Náhodné veličiny jsou nekorelované, neexistuje mezi nimi korelační vztah. Když jsou X; Y nekorelované, nemusí být nezávislé.

Zpracování náhodného vektoru. Ing. Michal Dorda, Ph.D.

Poznámky k předmětu Aplikovaná statistika, 11. téma

Tomáš Karel LS 2012/2013

Regresní analýza. Ekonometrie. Jiří Neubauer. Katedra ekonometrie FVL UO Brno kancelář 69a, tel

Regresní a korelační analýza

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz

PRAVDĚPODOBNOST A STATISTIKA

Jana Vránová, 3. lékařská fakulta UK

Regresní a korelační analýza

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr.

Příklad 1. Korelační pole. Řešení 1 ŘEŠENÉ PŘÍKLADY Z MV2 ČÁST 13

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

PRAVDĚPODOBNOST A STATISTIKA

Regresní a korelační analýza

Cvičení ze statistiky - 3. Filip Děchtěrenko

Regresní a korelační analýza

6. Lineární regresní modely

Náhodný vektor. Náhodný vektor. Hustota náhodného vektoru. Hustota náhodného vektoru. Náhodný vektor je dvojice náhodných veličin (X, Y ) T = ( X

Úvodem Dříve les než stromy 3 Operace s maticemi

Korelační a regresní analýza

Pravděpodobnost a aplikovaná statistika

Parametry hledáme tak, aby součet čtverců odchylek byl minimální. Řešením podle teorie je =

odpovídá jedna a jen jedna hodnota jiných

PRAVDĚPODOBNOST A STATISTIKA. Neparametrické testy hypotéz čast 1

PRAVDĚPODOBNOST A STATISTIKA

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Mnohorozměrná statistická data

Příklad 1. Řešení 1 ŘEŠENÉ PŘÍKLADY Z MV2 ČÁST 11

Náhodný vektor. Náhodný vektor. Hustota náhodného vektoru. Hustota náhodného vektoru. Náhodný vektor je dvojice náhodných veličin (X, Y ) T = ( X

= = 2368

1. Číselné posloupnosti - Definice posloupnosti, základní vlastnosti, operace s posloupnostmi, limita posloupnosti, vlastnosti limit posloupností,

You created this PDF from an application that is not licensed to print to novapdf printer (

LINEÁRNÍ REGRESE. Lineární regresní model

ANALÝZA DAT V R 7. KONTINGENČNÍ TABULKA. Mgr. Markéta Pavlíková Katedra pravděpodobnosti a matematické statistiky MFF UK.

2 ) 4, Φ 1 (1 0,005)

Sever Jih Západ Plechovka Točené Sever Jih Západ Součty Plechovka Točené Součty

{ } ( 2) Příklad: Test nezávislosti kategoriálních znaků

Testy dobré shody Máme dvě veličiny, u kterých bychom chtěli prokázat závislost, TESTY DOBRÉ SHODY (angl. goodness-of-fit tests)

Cvičení 12: Binární logistická regrese

II. Statistické metody vyhodnocení kvantitativních dat Gejza Dohnal

PRAVDĚPODOBNOST A STATISTIKA. Testování hypotéz o rozdělení

ANALÝZA DAT V R 3. POPISNÉ STATISTIKY, NÁHODNÁ VELIČINA. Mgr. Markéta Pavlíková Katedra pravděpodobnosti a matematické statistiky MFF UK

TESTOVÁNÍ HYPOTÉZ STATISTICKÁ HYPOTÉZA Statistické testy Testovací kritérium = B B > B < B B - B - B < 0 - B > 0 oboustranný test = B > B

Cvičící Kuba Kubina Kubinčák Body u závěrečného testu

Náhodný vektor a jeho charakteristiky

2 Zpracování naměřených dat. 2.1 Gaussův zákon chyb. 2.2 Náhodná veličina a její rozdělení

Technická univerzita v Liberci

Obsah Úvod Kapitola 1 Než začneme Kapitola 2 Práce s hromadnými daty před analýzou

Základy biostatistiky II. Veřejné zdravotnictví 3.LF UK - II

AVDAT Klasický lineární model, metoda nejmenších

Test dobré shody v KONTINGENČNÍCH TABULKÁCH

Přednáška X. Testování hypotéz o kvantitativních proměnných

letní semestr Katedra pravděpodobnosti a matematické statistiky Matematicko-fyzikální fakulta Univerzity Karlovy Matematická statistika vektory

Informační technologie a statistika 1

Testování statistických hypotéz

JEDNOVÝBĚROVÉ TESTY. Komentované řešení pomocí programu Statistica

Mnohorozměrná statistická data

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

4EK211 Základy ekonometrie

Grafický a číselný popis rozložení dat 3.1 Způsoby zobrazení dat Metody zobrazení kvalitativních a ordinálních dat Metody zobrazení kvan

Název testu Předpoklady testu Testová statistika Nulové rozdělení. ( ) (p počet odhadovaných parametrů)

Testování hypotéz testy o tvaru rozdělení. Jiří Neubauer. Katedra ekonometrie, FVL, UO Brno kancelář 69a, tel

4EK211 Základy ekonometrie

Aplikovaná statistika v R - cvičení 2

4ST201 STATISTIKA CVIČENÍ Č. 7

You created this PDF from an application that is not licensed to print to novapdf printer (

Statgraphics v. 5.0 STATISTICKÁ INDUKCE PRO JEDNOROZMĚRNÁ DATA. Martina Litschmannová 1. Typ proměnné. Požadovaný typ analýzy

SEMESTRÁLNÍ PRÁCE. Leptání plasmou. Ing. Pavel Bouchalík

Statistické metody - nástroj poznání a rozhodování anebo zdroj omylů a lží

UNIVERZITA OBRANY Fakulta ekonomiky a managementu. Aplikace STAT1. Výsledek řešení projektu PRO HORR2011 a PRO GRAM

Matematické modelování Náhled do ekonometrie. Lukáš Frýd

STATISTIKA A INFORMATIKA - bc studium OZW, 1.roč. (zkušební otázky)

4EK211 Základy ekonometrie

Transkript:

10 Vícerozměrná data - kontingenční tabulky, testy nezávislosti, regresní analýza 10.1 Vícerozměrná data a vícerozměrná rozdělení Při zpracování vícerozměrných dat, hledáme souvislosti mezi dvěma, případně více náhodnými veličinami. V praxi pracujeme s daty nominálními (nabývají pouze dvou hodnot), kategoriálními (nabývají více hodnot bez uspořádání), ordinálními (nabývají více hodnot s uspořádáním) a kardinálními (nabývají více hodnot s uspořádáním a lze měřit rozdíly mezi hodnotami). Pro různé typy dat je třeba používat různé matematické postupy vhodné pro zjišt ování souvislostí a závislostí. Úkolem statistiky je stanovit sílu a druh sledovaných závislostí. Sílu závislosti vyjadřujeme podle různých měr statistických závislostí. Statistická závislost však nevypovídá přímo o kauzalitě. Vysoký stupeň závislosti může ale nemusí odrážet příčinný vztah mezi sledovanými statistickými veličinami. Příčinné souvislosti čistě empirickými prostředky neodhalíme. Ke statistickým výsledkům je třeba přidat odborné znalosti, praktické zkušenosti a účelně kombinovat deduktivní a induktivní způsob uvažování. Existují i jednoznačné funkční závislosti mezi náhodnými veličinami, ty však obvykle nejsou hlavním cílem našeho statistického šetření (např. závislosti založené na fyzikálních zákonech - dodávané teplo zvyšuje energii). Druh statistické závislosti odhadujeme obvykle na základě grafické reprezentace dat. V případě závislosti dvou náhodných proměnných je vyjádřením druhu závislosti křivka, které se nejvíce hodí k napozorovaným hodnotám. Podle typu křivky pak mluvíme o závislosti lineární, logaritmické, exponenciální a podobně. Typ Nominální Ordinální Kardinální proměnné Nominální kontingenční tabulky kontingenční tabulky, probitová, logitová regrese, 2x2, nezávislost, homogenita loglineární modely kontingenční tab- výběru, ulky, kontingenční koefi- symetrie, rezidua, cienty grafická reprezentace, znaménková schémata, míry asociace Ordinální Spearmanův korelační analýza rozptylu koeficient, Kendallovo τ Kardinální korelace, korelační koeficienty, regresní analýza 10.2 Kontingenční tabulky Kontingenční tabulka se užívá k přehledné vizualizaci vzájemného vztahu dvou statistických znaků. V praxi vzniká kontingenční tabulka tak, že se na statistických jednotkách sledují dva znaky. Řádky kontingenční tabulky odpovídají možným hodnotám prvního znaku, sloupce pak možným hodnotám druhého znaku. V příslušné buňce kontingenční tabulky je pak zařazen počet případů, kdy zároveň měl první znak hodnotu odpovídající příslušnému řádku a druhý znak hodnotu odpovídající příslušnému sloupci. 1

Je možné, aby jeden řádek či sloupec odpovídal více možným hodnotám znaku. To se děje v případě, kdy znak nabývá některých hodnot příliš zřídka, takže je vhodné spojit více možných hodnot. Součty (mezisoučty) všech hodnot v každém řádku, resp. sloupci nesou informaci o počtu výskytů jevů, při nichž nabyl první (resp. druhý znak) příslušné hodnoty bez ohledu na hodnotu druhého (resp. prvního) znaku. Kromě prostého popisu četností kombinací hodnot dvou znaků nabízí kontingenční tabulka možnost testovat, zda mezi oběma znaky existuje nějaký vztah. K tomu lze užít např. test dobré shody. Znaky užité k zobrazení v kontingenční tabulce pak musí představovat diskrétní hodnoty (je možné tedy využít kvalitativní, diskrétně kvantitativní či spojitě kvantitativní znaky, v posledním případě však pouze s rozdělením jednotlivých znaků do skupin tzv. skupinové třídění). Teoretickým základem kontingenčních tabulek jsou matice pravděpodobností pro dvourozměrné náhodné vektory. Kontingenční tabulka 1... c Σ 1 n 11... n 1c n 1 2 n 21... n 2c n 2............... r n r1... n rc n r Σ n 1 n 2 n c n Matice pravděpodobností 1... c Σ 1 p 11... p 1c p 1 2 p 21... p 2c p 2............... r p r1... p rc p r Σ p 1 p 2 p c 1 Necht náhodný vektor X = (X 1, X 2 ) má diskrétní rozdělení, přičemž veličina X 1 nabývá hodnot i = 1, 2,..., r a veličina X 2 nabývá hodnot j = 1, 2,..., s. Označme p ij = P (X 1 = i, X 2 = j) ; p i = j p ij ; p j = i p ij. Předpokládejme, že se uskutečnil náhodný výběr rozsahu n z tohoto rozdělení. Necht n ij je počet těch případů, kdy se ve výběru vyskytla dvojice (i, j). Náhodné veličiny n ij mají pak sdružené multinomické rozdělení s parametrem n a s pravděpodobnostmi p ij. Matice (p ij ),2,...,r;j=1,2,...,s se nazývá matice pravděpodobností a matice (n ij ),2,...,r;j=1,2,...,s tvoří základ kontingenční tabulky. Označme n i = n ij ; j n j = n ij. i Číslům p i a p j se říká marginální pravděpodobnosti a hodnotám n i a n j marginální četnosti. Namísto dvou znaků lze sledovat obecně libovolné množství znaků. Kontingenční tabulka se pak tvoří pomocí stejného principu (v každém políčku je počet výskytů kombinací určitých hodnot jednotlivých 2

znaků), avšak není již možné ji tak snadno znázornit. Ve vícerozměrné tabulce lze testovat mnohem víc typů závislostí mezi jednotlivými znaky, testování je však technicky mnohem komplikovanější než u dvojrozměrné tabulky................................................................................................... V programu Excel máme možnost vytvořit kontingenční tabulku pomocí příkazu COUNTIFS(oblast1;podminka1;obl.................................................................................................. 10.2.1 Testy nezávislosti Nejčastější úlohou při analýze kontingenčních tabulek, je problém testování nezávislosti. Vzhledem k tomu, že dvě veličiny X, Y jsou nezávislé právě tehdy, když platí p ij = p i p j pro všechna i, j, formulujeme nulovou hypotézy testu nezávislosti v kontingenční tabulce ve tvaru H 0 : p ij = p i p j, i = 1, 2,..., r, j = 1, 2,..., s Testovací kritérium má tvar χ 2 = r ( s nij n in j j=1 a při platnosti nulové hypotézy ma asymptoticky rozdělení χ 2, jehož počet stupňů volnosti je roven ν = rs (r + s 2) = (r 1)(s 1). Pokud hodnota testovacího kritéria χ 2 χ 2 (r 1)(s 1)(α). zamítáme hypotézu o nezávislosti veličin X a Y. Ke shodě s limitním rozdělením se požaduje, aby teoretické četnosti n in j byly větší než 5. Není-li n tato podmínka splněna, je nutno sloučit některé sloupce, případně řádky v kontingenční tabulce. Analogicky postupu pro test nezávislosti v kontingenční lze postupovat v případě testování homogenity multinomického rozdělení. Tento přístup uplatníme v okamžiku, kdy marginální řádkové četnosti jsou pevně stanoveny a i t řádek v kontingenční tabulce má multinomické rozdělení s parametry n i, q i1, q i2,..., q is, kde q i1, q i2,... jsou nějaké pravděpodobnosti splňující podmínku q i1 +q i2 + +q is = 1. Hypotéza homogenity pak říká, že pravděpodobnosti q i1, q i2,... nezávisí na řádkovém indexu i. Testovací kritérium a kritické hodnoty jsou pro tento test identické s veličinami pro test nezávislosti. 10.3 Korelační koeficienty Korelační koeficienty se nejčastěji používají k měření síly (těsnosti) závislosti dvou číselných proměnných. Pearsonův korelační koeficient r xy je definován vztahem Spearmanův korelační koeficient rs měří závislost dvou pořadí. 10.4 Regresní analýza Regrese je snad nejčastěji používaná statistická metoda. Regrese se zabývá problémem vysvětlení změn jedné náhodné veličiny (vysvětlovaná, závislá, endogenní proměnná, regresand) na jedné nebo více jiných veličinách (regresory, vysvětlující proměnné, exogenní proměnné). V případě, že závislost je popsána lineárními vztahy, mluvíme o lineárním regresním modelu. Pokud modelujeme chování n i n j n n ) 2 3

vysvětlované proměnné pomocí jedné vysvětlující proměnné, mluvíme o jednoduché regresi, v opačném případě se jedná o regresi vícenásobnou. Označme X nezávisle proměnné a Y závislou proměnnou. Regresní funkcí se pak rozumí µ(x) = E (Y X = x). Regresní funkce tedy udává, jaká je střední hodnota náhodné veličiny Y při dané hodnotě x. 10.4.1 Jednorozměrný lineární regresní model y = β 0 + β 1 x + ε Předpokládejme, že máme k dispozici x i, i = 1, 2,..., n pevných (nenáhodných) hodnot proměnné X. Předpokládejme, že platí y i = f(x i, β 0, β 1,..., β k ) + ε i kde β 0, β 1..., β k jsou neznámé parametry modelu; ε i jsou náhodné veličiny, který modelují nesystematické chyby měření; y i jsou realizace náhodné veličiny Y s podmínkami X = x i. Cílem regresní analýzy je odhadnout parametry β 0, β 1..., β k tak, aby f(x i, β 0, β 1,..., β k ) co nejvíce odpovídala k empiricky naměřeným hodnotám y i. Funkce y i = f(x i, β 0, β 1,..., β k ) se nazývá teoretická regresní funkce závislosti proměnné y na x, její grafické vyjádření se nazývá teoretická regresní křivka. Regresní funkce, v níž jsou nahrazeny neznámé parametry β jejich odhady β (resp. b) se nazývá empirická regresní funkce a její grafické obraz je empirická regresní křivka. Pro hodnoty x i můžeme na základě empirické regresní křivky určit hodnotu ŷ i = f(x i, β 0, β 1,..., β k ), tyto hodnoty nazýváme vyrovnanými hodnotami y i a rozdíl mezi y i ŷ i nazýváme rezidua (značíme e i ). Regresní funkce se nazývá lineární, je-li lineární funkcí neznámých parametrů, tj. pokud y i = β 0 + β 1 ϕ 1 (x) + β 2 ϕ 2 (x) + + β k ϕ k (x) kde ϕ 1 (x), ϕ 2 (x),..., ϕ k (x) jsou funkce proměnné x. Příkladem lineárních regresních modelů jsou přímková regrese tvaru y i = β 0 + β 1 x i + ε i kvadratická regrese tvaru y i = β 0 + β 1 x i + β 2 x 2 i + ε i polynomická regrese tvaru y i = β 0 + β 1 x i + β 2 x 2 i + + β k x k i + ε i hyperbolická regrese tvaru y i = β 0 + β 1 1 x i + ε i 4

10.4.2 Metoda nejmenších čtverců Princip metody nejmenších čtverců je založen na jednoduchém volbě optimalizačního kritéria, kdy minimalizuji kvadrát odchylek naměřených y i a vyrovnaných hodnot ŷ i. Y (x i, y i ) (x i, ŷ i ) X Označme funkci Q(β 0, β 1, β 2,..., β k ) = (y i f(x i, β 0, β 1, β 2,..., β k )) 2. Při metodě nejmenších čtverců (MNČ, LSQ) hledáme hodnoty b 0, b 1, b 2,..., b k, ve kterých je funkce Q minimální, tj. b 0, b 1,..., b k = argmin Q (β 0, β 1,..., β k ). β 0,β 1,...,β k V případě lineární regresní funkce má kriteriální funkce Q tvar Q(β 0, β 1,..., β k ) = (y i β 0 β 1 ϕ 1 (x i )... β k ϕ k (x i )) 2 a tato funkce nabývá svého minima v bodech, kdy derivace je rovna nule, tj. při hledání minima řešíme soustavu k + 1 lineárních rovnic tvaru Q β j = 0 pro j = 0, 1, 2,..., k βj =b j Soustava normálních rovnic má tedy tvar b 0 n +b 1 ϕ 1 (x i ) + + b k b 0 ϕ 1 (x i ) +b 1 ϕ 1 (x i )ϕ 1 (x i ) + + b k... ϕ k (x i ) = y i ϕ 1 (x i )ϕ k (x i ) = ϕ 1 (x i )y i b 0 ϕ k (x i ) +b 1 ϕ k (x i )ϕ 1 (x i ) + + b k ϕ k (x i )ϕ k (x i ) = ϕ k (x i )y i 5

10.4.3 Přímková regrese Uvažujme tento základní jednoduchý model Y i = β 0 + β 1 x i + ε i. Derivace funkce Q(β 0, β 1 ) (y i β 0 β 1 x i ) 2 mají tvar b 0 n +b 1 b 0 x i +b 1 a řešením výše uvedených soustav dostáváme x i = (x i ) 2 = y i x i y i b 0 = y i b 1 = (x i ) 2 n x i ( n n (x i ) 2 n n n x i y i n ) 2 x i x i y i ( n n (x i ) 2 n x i y i ) 2. x i 10.4.4 Vícerozměrný lineární regresní model y = β 0 + β 1 x 1 + β 2 x 2 + + β k x k + ε a jeho maticový zápis Pro vícerozměrný lineární model je vhodné použít maticový zápis modelu y 1 x (0)1 x (1)1... x (k)1 β 0 y 2. = x (0)2 x (1)2... x (k)2 β 2....... + ɛ 2. y n x (0)n x (1)n... x (k)n β k ɛ 1 ɛ n y = (y 1, y 2,..., y n ) T je vektor naměřených hodnot vysvětlované proměnné je matice typu n (k + 1) naměřených hodnot vysvětlujících proměn- X = [ x (i)j ]j=1,...,n; i=0,...,k ných β = (β 0, β 2,..., β k ) T je vektor hledaných k + 1 neznámých parametrů ɛ = (ɛ 1, ɛ 2,..., ɛ n ) T je vektor náhodné složky Stejně jako v jednorozměrném případě musíme specifikovat předpoklady řešení modelu pomocí metody nejmenších čtverců E (ɛ) = 0 6

E ( ɛɛ T ) = σ 2 I n X je nestochastická matice, takže E ( X T ɛ ) = 0 X má plnou hodnost k + 1 = p Za výše uvedených předpokladů pak neznámé parametry modelu β 0, β 1,..., β k, σ 2 odhadneme následovně b = ( X T X ) 1 X T y ( e T e ) s 2 = n p = (y Xb)T (y Xb) n p 10.4.5 Kvalita regresní funkce a intenzita závislosti Jedním z důležitých kroků v regresní analýze je tzv. regresní diagnostika. Ta slouží k hodnocení kvality regresní funkce a k ověřování splnění předpokladů použité metody nejmenších čtverců. V rámci metody nejmenších čtverců pracujeme s následujícími součty čtverců, resp. rozptyly, které v sobě zahrnují variabilitu empirických hodnot, odhadnutých teoretických hodnot a residuí. celkový součet čtverců S 2 T = (y i y) 2 rozptyl empirických (skutečně zjištěných) hodnot s 2 y = vysvětlený součet čtverců S 2 V = (ŷ i y) 2 rozptyl vyrovnaných (teoretických) hodnot s 2 ŷ = residuální součet čtverců RSS = e T e = e 2 = S2 V n 1 rozptyl skutečně zjištěných hodnot kolem regresní čáry, residuální rozptyl s 2 R = RSS n p, kde p = k + 1 Při použití metody nejmenších čtverců platí S 2 T = S 2 V + RSS. Při přímkové regresi (k = 1) platí s 2 y = s 2 ŷ + s 2 R Graficky jsou jednotlivé odchylky znázorněny na obrázku S2 T n 1 (y i ŷ i ) 2 7

Y ŷ y ŷ y y i ŷ y i y x 10.4.6 Koeficient (index) determinace pro vícenásobnou regresi s absolutním členem Ze vztahu jednotlivých součtů čtverců je odvozen koeficient R 2. Tento koeficient vyjadřuje z kolika procent se nám podařilo vysvětlit veličinu y pomocí veličin x 1, x 2,.... R 2 = S2 V S 2 T = 1 RSS S 2 T Pro koeficient determinace platí následující vlastnosti R 2 0; 1 = 1 (n p) s2 R (n 1) s 2 y pokud x a y jsou deterministicky závislé, pak y i = ŷ i a s 2 R = 0, s 2 y = s 2 ŷ, tedy R 2 = 1 pokud x a y jsou nezávislé, pak s 2 V = 0, s 2 y = s 2 R, tedy R 2 = 0 koeficient (index) korelace R = R 2 pro přímkovou regresi platí ŷ i = y + b 1 (x i x), kde b 1 = s xy, pak s 2 x 1 (ŷ R 2 = s2 n 1 i y) 2 1 b 1 (x n 1 i x) 2 ŷ = = = s2 xy s 2 x = s2 xy s 2 y s 2 y s 2 y s 2 x s 2 x s 2 y s 2 x s 2 y tedy koeficient korelace R = r x y odpovídá výběrovému korelačnímu koeficientu náhodného vektoru (x, y) X.................................................................................................. Regresní analýza v Excelu 8

funkce LINREGRESE (DATA-Y;DATA-X1-DATA-X2-...-DATA-XN;B;STAT), kde DATA-Y je závislá proměnná DATA-X1;DATA-X2;... ;DATA-XN jsou nezávislé proměnné, B =PRAVDA - parametr β 0 se odhaduje, NEPRAVDA - parametr β 0 se neodhaduje (rovnice prochází nulou), STAT=PRAVDA - počítají se doplňující charakteristiky modelu (SE i ;R 2 ;SE y ;F;df;ss(reg);ss(resid)) funkce LINTREND (DATA-Y;DATA-X;DATA-X-NOVA;B), kde DATA-Y je závislá proměnná, DATA- X jsou nezávislé proměnné, DATA-X-NOVA je nezávislá proměnná, nová ( například pokračování data-x) B =PRAVDA - parametr β 0 se odhaduje, NEPRAVDA - parametr β 0 se neodhaduje funkce FORECAST (X;DATA-Y;DATA-X) pro odhad y(x) na základě znalostí DATA-X a DATA-Y funkce INTERCEPT (DATA-Y;DATA-X) pro odhad β 0 na základě znalostí DATA-X a DATA-Y funkce SLOPE (DATA-Y;DATA-X) pro odhad parametru beta 1 lineární regrese funkce STEYX (DATA-Y;DATA-X) pro standardní chybu odhadu y funkce LOGLINREGRESE (DATA-Y;DATA-X1-DATA-X2-...-DATA-XN;B;STAT) pro logaritmický regresní model z grafu : vytvořit XY graf a přidat spojnici trendu pomocí NÁSTROJE=>ANALÝZA DAT=>REGRESE Další vícerozměrné metody a grafy lze v Excelu naprogramovat..................................................................................................................................................................................................... Zpracování vícerozměrných statistických dat v MATLABu Grafické zpracování a základní deskriptivní statistiky boxplot vícerozměrný histogram hist3 plotmatrix gscatter gplotmatrix souhrnné statistiky [means,sem,counts,name]=grpstats(data,data(:,2)) korelace a kovariance corr, corrcoef, cov Regresní analýza maticově b = ( X T X ) 1 X T y, atd funkce [b,bint,r,rint,stats] = regress(y,x,alpha) regresní diagnostika a grafy - rcoplot robusní odhady - robustfit 9

Lze využít též další nástroje pro vícerozměrnou analýzu -ANOVA, MANOVA, shluková analýza - cluster analysis, metoda hlavních komponent, faktorová analýza atd................................................................................................... Upravený koeficient determinace (adjusted R 2 ) definice R 2 a = 1 s2 R s 2 T pro běžné situace platí R 2 a R 2 pro přímkovou regresi (resp. pro regresi se dvěma neznámými koeficienty) platí R 2 = R 2 a pro hodnoty R 2 < 10.5 Příklady k n 1 vyjde hodnota R2 a < 0 1. Chceme testovat, zda hrací kostka je korektní. Provedli jsme 600x hod kostkou a získali jsme následující četnosti: Číslo 1 2 3 4 5 6 n i 122 61 98 115 79 125 Pokud je kostka korektní, měly by se očekávané četnosti řídit diskrétním rovnoměrným rozdělením. Budeme tedy testovat shodu získaných hodnot s diskrétním rovnoměrným rozdělením na hladině významnosti 5%. Řešení: H 0 : Kostka je korektní H 1 : Kostka není korektní Budeme se řídit postupem uvedeným v první části tohoto cvičení: Obor hodnot je již rozdělen na 6 nepřekrývajících se tříd, tedy k = 6. Počty prvků n i jsou uvedeny již v zadání. Není potřeba odhadovat parametry, tj. m = 0. Spočteme očekávané hodnoty v jednotlivých třídách o i = np i = 600 1 6 1, 2,..., 6 V žádné třídě není o i < 5, nebudeme tedy žádné třídy slučovat. Vypočteme hodnotu testovací statistiky: = 100 pro i = χ 2 = k (n i o i ) 2 = χ 2 = o i 6 (n i 100) 2 100 = 33 10

Kritický obor je dán χ 2 -rozdělením s ν = k 1 = 5 stupni volnosti: W = (χ 2 0.95(5), + ) = (11.1, + ) Jelikož χ 2 W, tak hypotézu o tom, že kostka je korektní zamítáme (na hladině významnosti α = 5%. 2. Po provedení 60 pokusů s diskrétní náhodnou veličinou X, která může nabývat hodnot 0 až 4 (tj. v každém z pokusů nastane bud 0, 1, 2, 3 nebo 4krát sledovaný jev) jsou získány následující četnosti. Hodnota 0 1 2 3 4 n i 3 12 21 20 4 Tedy například hodnota 12 znamená, že při 12 pokusech z 60 nabyla náhodná veličina X hodnoty 1. Otestujte na hladině významnosti α = 2.5%, zda se náhodná veličina X řídí binomickým rozdělením. Řešení: H 0 : Náhodná veličina se řídí binomickým rozdělením H 1 : Náhodná veličina se neřídí binomickým rozdělením Budeme se řídit postupem uvedeným v první části tohoto cvičení: Obor hodnot je již rozdělen na 5 nepřekrývajících se tříd, tedy k = 5. Počty prvků n i jsou uvedeny již v zadání. Ze zadání víme, že parametr n binomického rozdělení je 4, ten tedy odhadovat nemusíme. Je ale potřeba odhadnout parametr p binomického rozdělení. Ten lze odhadnout přes střední hodnotu. U binomického rozdělení víme, že E(X) = np. n známe, střední hodnotu lze odhadnout pomocí průměru a pak již jen vyjádříme neznámý parametr p: Dosadíme: A odtud: x = 3 0 + 12 1 + 21 2 + 20 3 + 4 4 60 2.1667 = 4 ˆp ˆp = 0.5417 = 2.1667 Předpokládáme, že náhodná veličina se řídí rozdělením Bi(4, 0.5417). Odhadovali jsme jeden parametr, takže m = 1. Spočteme očekávané pravděpodobnosti p i a následně očekávané hodnoty v jednotlivých třídách o i = np i pro i = 0, 1,..., 4: Hodnota 0 1 2 3 4 p i 0.0441 0.2086 0.3698 0.2914 0.0861 o i 2.65 12.51 22.19 17.48 5.17 11

V první třídě je o i < 5, sloučíme tedy tuto třídu se sousední. V poslední třídě je sice n i < 5, ale očekávaná hodnota splňuje podmínku a slučovat tedy nebudeme. Po sloučení obdržíme: Hodnota 0 a 1 2 3 4 n i 15 21 20 4 o i 15.16 22.19 17.48 5.17 Stejným způsobem musí být sloučeny i naměřené hodnoty. Vypočteme hodnotu testovací statistiky: χ 2 = k (n i o i ) 2 = 0.6936 o i Kritický obor je dán χ 2 -rozdělením s ν = k 1 m = 2 stupni volnosti: W = (χ 2 0.975(2), + ) = (7.38, + ) Jelikož χ 2 W, tak hypotézu o tom, že náhodná veličina se řídí rozdělením Bi(4, 0.5417) (na hladině významnosti α = 2.5%) nezamítáme. 3. Z průzkumu provedeného u 1 000 osob, který měl zjistit efektivnost očkování proti chřipce, byly získány tyto výsledky: Bez očkování Jedno očkování Dvě očkování Celkem Chřipka 24 9 13 46 Bez chřipky 289 100 565 954 Celkem 313 109 578 1 000 Na hladině významnosti α = 5% testujte, zda má očkování vliv na výskyt chřipky. Řešení: H 0 : Očkování vliv nemá (veličiny jsou nezávislé) H 1 : Očkování vliv má (mezi veličinami existuje závislost) Použijeme tedy test nezávislosti: Hodnoty n, n i. a n.j jsou uvedeny již v tabulce. Pomocí těchto hodnot vypočteme očekávané hodnoty: Např.: o 12 = n 1.n.2 = n Celá tabulka s očekávanými hodnotami: o ij = n i.n.j n 46 109 1000 = 5.014 Bez očkování Jedno očkování Dvě očkování Chřipka 14.40 5.01 26.59 Bez chřipky 298.60 103.99 551.41 12

Ve všech kategoriích platí o ij 5. Testovací statistika: Obor kritických hodnot W : χ 2 = 2 3 (n ij o ij ) 2 = 17.32 o ij j=1 W = (χ 2 0.95(1 2), + ) = (5.99; + ) Protože χ 2 W, tak hypotézu o nezávislosti (na hladině významnosti α = 5%) zamítáme a očkování má tedy vliv. 4. Chceme otestovat vliv nové technologie. Máme k dispozici následující výsledky: I. jakost II. jakost III. jakost Zmetek Celkem Stará technologie 503 105 33 7 648 Nová technologie 553 95 35 3 686 Celkem 1 056 200 68 10 1334 Na hladině významnosti α = 5% testujte, zda má nová technologie vliv na výrobu. Řešení: H 0 : Technologie nemá vliv (veličiny jsou nezávislé) H 1 : Technologie má vliv (mezi veličinami existuje závislost) Použijeme tedy test nezávislosti v dvourozměrné kontingenční tabulce: Hodnoty n, n i. a n.j jsou uvedeny již v tabulce. Pomocí těchto hodnot vypočteme očekávané hodnoty: I. jakost II. jakost III. jakost Zmetek Stará technologie 512.96 97.15 33.03 4.86 Nová technologie 543.03 102.85 34.97 5.14 Jelikož o 14 < 5, tak musíme sloučit poslední dva sloupce (řádky slučovat nemůžeme, musí platit I, J 2). Máme tedy: I. jakost II. jakost III. jakost + Zmetek Stará technologie 512.96 97.15 37.89 Nová technologie 543.03 102.85 40.11 Stejným způsobem musí být sloučeny i naměřené hodnoty. Testovací statistika: 2 3 χ 2 (n ij o ij ) 2 = = 1.84 o ij j=1 13

Obor kritických hodnot W : W = (χ 2 0.95(1 2), + ) = (5.99; + ) Protože χ 2 W, tak hypotézu o nezávislosti (na hladině významnosti α = 5%) nezamítáme a nová technologie tedy nemá vliv. 5. U 5 lidí byla zjišt ována váha (ozn. X) a výška (ozn. Y ). Výsledky jsou následující: Výška 170 183 192 164 196 Váha 70 72 88 60 82 Předpokládáme, že dvourozměrná náhodná veličina (X, Y ) má dvourozměrné normální rozdělení. Otestujte na hladině významnosti α = 10%, zda jsou X a Y nezávislé. Řešení: Jelikož se jedná o dvourozměrné normální rozdělení, tak stačí testovat nulovost korelačního koeficientu. Testujeme tedy: H 0 : ρ = 0 H 1 : ρ 0 Musíme vypočítat průměry, výběrové rozptyly, hodnotu výběrové kovariance a následně výběrové korelace: S XY = 1 n 1 r XY = S 2 x = S 2 y = x = 1 n ȳ = 1 n x i = 181 y i = 74.4 (x i x) 2 = 190 (y i ȳ) 2 = 118.8 x i y i n n 1 xȳ = 1 4 67884 5 181 74.4 = 138 4 S XY S2 (X) S 2 (Y ) = 138 = 0.9185 190 118.8 Testovací statistika má tvar: r 0.9185 T = n 2 = 5 2 = 4.0242 1 r 2 1 0.9185 2 Obor kritických hodnot pro test na hladině významnosti α = 10% je: W = (, 2.353) (2.353, + ) Hypotézu o nezávislosti lze zamítnout na hladině významnosti α = 10%, protože T W. Přijmeme tedy alternativní hypotézu, že veličiny jsou závislé. 14

6. Pro následující data odhadněte koeficienty regresní přímky y = β 0 +β 1 x, vypočtěte přes soustavu normálních rovnic. x -5-3 -1 1 3 5 y -2-1 1 2 2 3 1 7. Pro následující data odhadněte koeficienty regresní funkce y = β 0 +β 1, vypočtěte přes soustavu x normálních rovnic. x 0.5 1 2 3 4 y 5.0 3.3 1.7 1.6 1.3 15

8. Pro data z předchozího příkladu odhadněte koeficienty regresní funkce y = β 0 + β 1 x + β 2 x 2 16

9. Pro předchozí příklady spočtěte S 2 V, S 2 T, SSE a R 2. Získané výsledky interpretujte. 17