V praxi pracujeme s daty nominálními (nabývají pouze dvou hodnot), kategoriálními (nabývají více



Podobné dokumenty
V praxi pracujeme s daty nominálními (nabývají pouze dvou hodnot), kategoriálními (nabývají více

5 Vícerozměrná data - kontingenční tabulky, testy nezávislosti, regresní analýza

Regresní a korelační analýza

VÍCEROZMĚRNÝ STATISTICKÝ SOUBOR

6. T e s t o v á n í h y p o t é z

4ST201 STATISTIKA CVIČENÍ Č. 8

KGG/STG Statistika pro geografy

Měření závislosti statistických dat

Dynamické metody pro predikci rizika

Regresní a korelační analýza

Pořízení licencí statistického SW

AVDAT Klasický lineární model, metoda nejmenších

Zpracování studie týkající se průzkumu vlastností statistických proměnných a vztahů mezi nimi.

Regresní analýza. Statistika II. Jiří Neubauer. Katedra ekonometrie FEM UO Brno kancelář 69a, tel

Literatura učebnice z minulého semestru Jarošová, Pecáková sbírka příkladů pro statistiku B (2000 a novější)

Kontingenční tabulky, korelační koeficienty

Regresní a korelační analýza

Statistika. Regresní a korelační analýza Úvod do problému. Roman Biskup

Kontingenční tabulky, korelační koeficienty

Statistická analýza jednorozměrných dat

6. Lineární regresní modely

AVDAT Geometrie metody nejmenších čtverců

Jazyk matematiky Matematická logika Množinové operace Zobrazení Rozšířená číslená osa

UNIVERSITA PALACKÉHO V OLOMOUCI PŘÍRODOVĚDECKÁ FAKULTA. KATEDRA MATEMATICKÉ ANALÝZY A APLIKACÍ MATEMATIKY školní rok 2009/2010 BAKALÁŘSKÁ PRÁCE

1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.

PRAVDĚPODOBNOST A STATISTIKA

Analýza rozptylu. Statistika II. Jiří Neubauer. Katedra ekonometrie FVL UO Brno kancelář 69a, tel

Pro bodový odhad při základním krigování by soustava rovnic v maticovém tvaru vypadala následovně:

5. Maticová algebra, typy matic, inverzní matice, determinant.

MÍRY ZÁVISLOSTI (KORELACE A REGRESE)

Analýza rozptylu. Přednáška STATISTIKA II - EKONOMETRIE. Jiří Neubauer

STATISTICA Téma 8. Regresní a korelační analýza, regrese prostá

PRAVDĚPODOBNOST A STATISTIKA

Biostatistika a matematické metody epidemiologie- stručné studijní texty

odpovídá jedna a jen jedna hodnota jiných

4EK211 Základy ekonometrie

1. Pravděpodobnost a statistika (MP leden 2010)

Západočeská univerzita v Plzni Fakulta aplikovaných věd Katedra matematiky. Bakalářská práce. Výsledky vstupních testů z matematiky a úspěšnost studia

Testování hypotéz o parametrech regresního modelu

Regresní analýza. Ekonometrie. Jiří Neubauer. Katedra ekonometrie FVL UO Brno kancelář 69a, tel

PRAVDĚPODOBNOST A STATISTIKA

Testování hypotéz o parametrech regresního modelu

Tomáš Karel LS 2012/2013

Katedra aplikované matematiky FEI VŠB Technická univerzita Ostrava

Univerzita Pardubice Fakulta chemicko technologická Katedra analytické chemie Licenční studium Management systému jakosti

Tomáš Karel LS 2012/2013

Skalár- veličina určená jedním číselným údajem čas, hmotnost (porovnej životní úroveň, hospodaření firmy, naše poloha podle GPS )

Součin matice A a čísla α definujeme jako matici αa = (d ij ) typu m n, kde d ij = αa ij pro libovolné indexy i, j.

Poznámky k předmětu Aplikovaná statistika, 9.téma

(Auto)korelační funkce Statistické vyhodnocování exp. dat M. Čada ~ cada

INDUKTIVNÍ STATISTIKA

SEMESTRÁLNÍ PRÁCE. Leptání plasmou. Ing. Pavel Bouchalík

1. Číselné posloupnosti - Definice posloupnosti, základní vlastnosti, operace s posloupnostmi, limita posloupnosti, vlastnosti limit posloupností,

2 Spojité modely rozhodování

(n, m) (n, p) (p, m) (n, m)

4EK211 Základy ekonometrie

Cvičení ze statistiky - 3. Filip Děchtěrenko

Základy matematické statistiky

1. Alternativní rozdělení A(p) (Bernoulli) je diskrétní rozdělení, kdy. p(0) = P (X = 0) = 1 p, p(1) = P (X = 1) = p, 0 < p < 1.

Funkce zadané implicitně

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Mnohorozměrná statistická data

Několik poznámek na téma lineární algebry pro studenty fyzikální chemie

skladbu obou směsí ( v tunách komponenty na 1 tunu směsi):

ANALÝZA DAT V R 3. POPISNÉ STATISTIKY, NÁHODNÁ VELIČINA. Mgr. Markéta Pavlíková Katedra pravděpodobnosti a matematické statistiky MFF UK

MULTIFAKTOROVÁ ANALÝZA DOPRAVNÍ NEHODOVOSTI

+ ω y = 0 pohybová rovnice tlumených kmitů. r dr dt. B m. k m. Tlumené kmity

Jana Vránová, 3. lékařská fakulta UK

Zpracování a vyhodnocování analytických dat

Statistika (KMI/PSTAT)

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Skalární součin je nástroj, jak měřit velikost vektorů a úhly mezi vektory v reálných a komplexních vektorových prostorech.

Některé zákony rozdělení pravděpodobnosti. 1. Binomické rozdělení

a) Základní informace o souboru Statistika: Základní statistika a tabulky: Popisné statistiky: Detaily

Pravděpodobnost a aplikovaná statistika

Lineární Regrese Hašovací Funkce

Náhodný vektor. Náhodný vektor. Hustota náhodného vektoru. Hustota náhodného vektoru. Náhodný vektor je dvojice náhodných veličin (X, Y ) T = ( X

FAKULTA STAVEBNÍ VUT V BRNĚ PŘIJÍMACÍ ŘÍZENÍ DO MNSP STAVEBNÍ INŽENÝRSTVÍ PRO AKADEMICKÝ ROK

ACTA UNIVERSITATIS AGRICULTURAE ET SILVICULTURAE MENDELIANAE BRUNENSIS SBORNÍK MENDELOVY ZEMĚDĚLSKÉ A LESNICKÉ UNIVERZITY V BRNĚ

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz

FAKULTA ELEKTROTECHNIKY A KOMUNIKAČNÍCH TECHNOLOGIÍ. Matematika 3. RNDr. Břetislav Fajmon, PhD. Autoři textu:

Parametry hledáme tak, aby součet čtverců odchylek byl minimální. Řešením podle teorie je =

Náhodné veličiny jsou nekorelované, neexistuje mezi nimi korelační vztah. Když jsou X; Y nekorelované, nemusí být nezávislé.

LINEÁRNÍ REGRESE. Lineární regresní model

Mária Sadloňová. Fajn MATIKA. 150 řešených příkladů (vzorek)

Učební texty k státní bakalářské zkoušce Matematika Matice. študenti MFF 15. augusta 2008

Statgraphics v. 5.0 STATISTICKÁ INDUKCE PRO JEDNOROZMĚRNÁ DATA. Martina Litschmannová 1. Typ proměnné. Požadovaný typ analýzy

y n+1 = g(x n, y n ),

Mnohorozměrná statistická data

3. Matice a determinanty

Příklad 2: Určení cihlářských surovin na základě chemické silikátové analýzy

Regresní a korelační analýza

Korelace. Komentované řešení pomocí MS Excel

na magisterský studijní obor Učitelství matematiky pro střední školy

Příklad 1. Korelační pole. Řešení 1 ŘEŠENÉ PŘÍKLADY Z MV2 ČÁST 13

KGG/STG Statistika pro geografy

Zpracování náhodného vektoru. Ing. Michal Dorda, Ph.D.

Transkript:

9 Vícerozměrná data a jejich zpracování 9.1 Vícerozměrná data a vícerozměrná rozdělení Při zpracování vícerozměrných dat, hledáme souvislosti mezi dvěmi, případně více náhodnými veličinami. V praxi pracujeme s daty nominálními (nabývají pouze dvou hodnot), kategoriálními (nabývají více hodnot bez uspořádání), ordinálními (nabývají více hodnot s uspořádáním) a kardinálními (nabývají více hodnot s uspořádáním a lze měřit rozdíly mezi hodnotami). Pro různé typy dat je třeba používat různé matematické postupy vhodné pro zjišt ování souvislostí a závislostí. Úkolem statistiky je stanovit sílu a druh sledovaných závislostí. Sílu závislosti vyjadřujeme podle různých měr statistických závislostí. Statistická závislost však nevypovídá přímo o kauzalitě. Vysoký stupeň závislosti může ale nemusí odrážet příčinný vztah mezi sledovanými statistickými veličinami. Příčinné souvislosti čistě empirickými prostředky neodhalíme. Ke statistickým výsledkům je třeba přidat odborné znalosti, praktické zkušenosti a účelně kombinovat deduktivní a induktivní způsob uvažování. Existují i jednoznačné funkční závislosti mezi náhodnými veličinami, ty však obvykle nejsou hlavním cílem našeho statistického šetření (např. závislosti založené na fyzikálních zákonech - dodávané teplo zvyšuje energii). Druh statistické závislosti odhadujeme obvykle na základě grafické reprezentace dat. V případě závislosti dvou náhodných proměnných je vyjádřením druhu závislosti křivka, které se nejvíce hodí k napozorovaným hodnotám. Podle typu křivky pak mluvíme o závislosti lineární, logaritmické, exponenciální a podobně. Typ proměnné Nominální Ordinální Kardinální Nominální kontingenční tabulky kontingenční tabulky, loglineární probitová, logitová re- 2x2, nezávislost, homogenita modely grese, kontingenční ta- výběru, symetrie, bulky, kontingenční koeficienty rezidua, grafická reprezentace, znaménková schémata, míry asociace Ordinální Spearmanův korelační analýza rozptylu koeficient, Kendallovo τ Kardinální korelace, korelační koeficienty, regresní analýza 9.2 Kontingenční tabulky Kontingenční tabulka se užívá k přehledné vizualizaci vzájemného vztahu dvou statistických znaků. V praxi vzniká kontingenční tabulka tak, že se na statistických jednotkách sledují dva znaky. Řádky kontingenční tabulky odpovídají možným hodnotám prvního znaku, sloupce pak možným hodnotám druhého znaku. V příslušné buňce kontingenční tabulky je pak zařazen počet případů, kdy zároveň měl první znak hodnotu odpovídající příslušnému řádku a druhý znak hodnotu odpovídající příslušnému sloupci. 1

Je možné, aby jeden řádek či sloupec odpovídal více možným hodnotám znaku. To se děje v případě, kdy znak nabývá některých hodnot příliš zřídka, takže je vhodné spojit více možných hodnot. Součty (mezisoučty) všech hodnot v každém řádku, resp. sloupci nesou informaci o počtu výskytů jevů, při nichž nabyl první (resp. druhý znak) příslušné hodnoty bez ohledu na hodnotu druhého (resp. prvního) znaku. Kromě prostého popisu četností kombinací hodnot dvou znaků nabízí kontingenční tabulka možnost testovat, zda mezi oběma znaky existuje nějaký vztah. K tomu lze užít např. test dobré shody. Znaky užité k zobrazení v kontingenční tabulce pak musí představovat diskrétní hodnoty (je možné tedy využít kvalitativní, diskrétně kvantitativní či spojitě kvantitativní znaky, v posledním případě však pouze s rozdělením jednotlivých znaků do skupin tzv. skupinové třídění). Teoretickým základem kontingenčních tabulek jsou matice pravděpodobností pro dvourozměrné náhodné vektory. Kontingenční tabulka 1... c Σ 1 n 11... n 1c n 1 2 n 21... n 2c n 2............... r n r1... n rc n r Σ n 1 n 2 n c n Matice pravděpodobností 1... c Σ 1 p 11... p 1c p 1 2 p 21... p 2c p 2............... r p r1... p rc p r Σ p 1 p 2 p c 1 Necht náhodný vektor X = (X 1, X 2 ) má diskrétní rozdělení, přičemž veličina X 1 nabývá hodnot i = 1, 2,..., r a veličina X 2 nabývá hodnot j = 1, 2,..., s. Označme p ij = P (X 1 = i, X 2 = j) ; p i = j p ij ; p j = i p ij. Předpokládejme, že se uskutečnil náhodný výběr rozsahu n z tohoto rozdělení. Necht n ij je počet těch případů, kdy se ve výběru vyskytla dvojice (i, j). Náhodné veličiny n ij mají pak sdružené multinomické rozdělení s parametrem n a s pravděpodobnostmi p ij. Matice (p ij ),2,...,r;j=1,2,...,s se nazývá matice pravděpodobností a matice (n ij ),2,...,r;j=1,2,...,s tvoří základ kontingenční tabulky. Označme n i = n ij ; n j = n ij. j i Číslům p i a p j se říká marginální pravděpodobnosti a hodnotám n i a n j marginální četnosti. 2

Namísto dvou znaků lze sledovat obecně libovolné množství znaků. Kontingenční tabulka se pak tvoří pomocí stejného principu (v každém políčku je počet výskytů kombinací určitých hodnot jednotlivých znaků), avšak není již možné ji tak snadno znázornit. Ve vícerozměrné tabulce lze testovat mnohem víc typů závislostí mezi jednotlivými znaky, testování je však technicky mnohem komplikovanější než u dvojrozměrné tabulky................................................................................................ V programu Excel máme možnost vytvořit kontingenční tabulku pomocí příkazu.................................................................................................. 9.2.1 Testy nezávislosti Nejčastejší úlohou při analýze kontingenčních tabulek, je problém testování nezávislosti. Vzhledem k tomu, že dvě veličiny X, Y jsou nezávislé právě tehdy, když platí p ij = p i p j pro všechna i, j, formulujeme nulovou hypotézy testu nezávislosti v kontingenční tabulce ve tvaru H 0 : p ij = p i p j, i = 1, 2,..., r, j = 1, 2,..., s Testovací kritérium má tvar χ 2 = r ( s nij n in j j=1 a při platnosti nulové hypotézy ma asymptoticky rozdělení χ 2, jehož počet stupňů volnosti je roven ν = rs (r + s 2) = (r 1)(s 1). Pokud hodnota testovacího kritéria χ 2 χ 2 (r 1)(s 1)(α). zamítáme hypotézu o nezávislosti veličin X a Y. Ke shodě s limitním rozdělením se požaduje, aby teoretické četnosti n in j byly větší než n 5. Není-li tato podmínka splněna, je nutno sloučit některé sloupce, případně řádky v kontingenční tabulce. Analogicky postupu pro test nezávislosti v kontingenční lze postupovat v případě testování homogenity multinomického rozdělení. Tento přístup uplatníme v okamžiku, kdy marginální řádkové četnosti jsou pevně stanoveny a i t řádek v kontingenční tabulce má multinomické rozdělení s parametry n i, q i1, q i2,..., q is, kde q i1, q i2,... jsou nějaké pravděpodobnosti splňující podmínku q i1 +q i2 + +q is = 1. Hypotéza homogenity pak říká, že pravděpodobnosti q i1, q i2,... nezávisí na řádkovém indexu i. Testovací kritérium a kritické hodnoty jsou pro tento test identické s veličinami pro test nezávislosti. 9.3 Čtyřpolní tabulky n i n j n je-li r = s = 2 dostáváme čtyřpolní kontingenční tabulku následujícího tvaru n 11 n 12 n 1 n 21 n 22 n 2 n 1 n 2 n n ) 2 3

Testovací kritérium pro test nezávislosti a test homogenity v této čtyřpolní tabulce má tvar χ 2 = n (n 11n 22 n 12 n 21 ) 2 n 1 n 2 n 1 n 2 a pro ověření platnosti nulové hypotézy ji porovnáváme s kritickou hodnotou χ 2 ν=1(α) chi kvadrát rozdělení se stupni volnosti 1. Jiný pohled na čtyřpolní kontingenční tabulku je založen na poměru šancí. Označme s 1 = n 11 n 12 šanci mezi Y = y 1 a Y = y 2 při platnosti X = x 1 a s 2 = n 21 n 22 šanci mezi Y = y 1 a Y = y 2 při platnosti X = x 2, pak poměr těchto šancí s 1 s 2 označíme b a platí b = n 11n 22 n 12 n 21. Protože n ij n je odhadem pravděpodobnosti p ij je poměr šancí b odhadem teoretického poměru šancí β = p 11p 22 p 12 p 21. Ve čtyřpolní tabulce je β = 1 právě tehdy, když p ij = p i p j a závislost znaků X a Y bude tím větší, čím více se bude vzdálen od 1. Dříve se pro poměr šancí b resp. teoretický poměr šancí β používal též termín interakce, dnes je tento termín používán v logaritmicko-lineárních modelech v jiném významu. Nesymetrie hodnot β kolem bodu jedna vedla zřejmě k tomu, že se téměř výhradně používá logaritmická transformace hodnot b a β, která se obvykle označuje d = ln b δ = ln β. Pro testy používáme veličinu která má při platnosti nezávislosti asymptoticky normované normální rozdělení N(0; 1). Tato vlastnost nám umožňuje testovat též jednostranné alternativní hypotézy typu δ < 0, resp. δ > 0. 9.3.1 Fisherův faktoriálový test 9.3.2 McNemarův test 9.4 Čtvercová kontingenční tabulka 9.4.1 Testy symetrie 9.4.2 Testy homogenity marginálních pravděpodobností 9.5 Kontingenční koeficienty Kontingenční koeficienty měří sílu (těsnost, intenzitu) závislosti dvou ordinálních proměnných. Nejužívanější kontingenční koeficienty jsou založeny na porovnání sdružených četností n ij s hypotetickými 4

(očekávanými) sdruženými četnostmi o ij = p ij n, odrážejícími představu o nezávislosti obou proměnných. Analogicky jako v kontingenčních tabulkách, pokud jsou rozdíly skutečných a očekávaných sdružených četností relativně malé, naznačují slabou závislost obou proměnných. Z relativně velkých rozdílů lze naopak usuzovat na závislost silnou. K měření síly závislosti se nejčastěji užívají Cramérův kontingenční koeficient a Pearsonův kontingenční koeficient. 9.6 Korelační koeficienty Korelační koeficienty se nejčastěji používají k měření síly (těsnosti) závislosti dvou číselných proměnných. Pearsonův korelační koeficient r xy je definovám vztahem Spearmanův korelační koeficient rs měří závislost dvou pořadí. 9.7 Regresní analýza Regrese je snad nečastěji používaná statistická metoda. Regrese se zabývá problémem vysvětlení změn jedné náhodné veličiny (vysvětlovaná, závislá, endogenní proměnná, regresand) na jedné nebo více jiných veličinách (regresory, vysvětlující proměnné, exogenní proměnné). V případě, že závislost je popsána lineárními vztahy, mluvíme o lineárním regresním modelu. Pokud modelujeme chování vysvětlovené proměnné pomocí jedné vysvětlující proměnné, mluvíme o jednoduché regresi, v opačném případě se jedná o regresi vícenásobnou. Označme X nezávisle proměnné a Y závislou proměnnou. Regresní funkcí se pak rozumí µ(x) = E (Y X = x). Regresní funkce tedy udává, jaká je střední hodnota náhodné veličiny Y při dané hodnotě x. 9.7.1 Jednorozměrný lineární regresní model y = β 0 + β 1 x + ε Předpokládejme, že máme k dispozici x i, i = 1, 2,..., n pevných (nenáhodných) hodnot proměnné X. Předpokládejme, že platí y i = f(x i, β 0, β 1,..., β k ) + ε i kde β 0, β 1..., β k jsou neznámé parametry modelu; ε i jsou náhodné veličiny, který modelují nesystematické chyby měření; y i jsou realizace náhodné veličiny Y s podmínkami X = x i. Cílem regresní analýzy je odhadnout parametry β 0, β 1..., β k tak, aby f(x i, β 0, β 1,..., β k ) co nejvíce odpovídala k empiricky naměřeným hodnotám y i. Funkce y i = f(x i, β 0, β 1,..., β k ) se nazývá teoretická regresní funkce závislosti proměnné y na x, její grafické vyjádření se nazývá teoretická regresní křivka. Regresní funkce, v níž jsou nahrazeny neznámé parametry β jejich odhady β (resp. b) se nazývá empirická regresní funkce a její grafické obraz je empirická regresní křivka. 5

Pro hodnoty x i můžeme na základě empirické regresní křivky určit hodnotu ŷ i = f(x i, β 0, β 1,..., β k ), tyto hodnoty nazýváme vyrovnanými hodnotami y i a rozdíl mezi y i ŷ i nazýváme rezidua (značíme e i ). Regresní funkce se nazývá lineární, je-li lineární funkcí neznámých parametrů, tj. pokud y i = β 0 + β 1 ϕ 1 (x) + β 2 ϕ 2 (x) + + β k ϕ k (x) kde ϕ 1 (x), ϕ 2 (x),..., ϕ k (x) jsou funkce proměnné x. Příkladem lineárních regresních modelů jsou přímková regrese tvaru y i = β 0 + β 1 x i + ε i kvadratická regrese tvaru y i = β 0 + β 1 x i + β 2 x 2 i + ε i polynomická regrese tvaru y i = β 0 + β 1 x i + β 2 x 2 i + + β k x k i + ε i hyperbolická regrese tvaru y i = β 0 + β 1 1 x i + ε i 9.7.2 Metoda nejmenších čtverců Princip metody nejmenších čtverců je založen na jednoduchém volbě optimalizačního kritéria, kdy minimalizuji kvadrát odchylek naměřených y i a vyrovnaných hodnot ŷ i. Y (x i, y i ) (x i, ŷ i ) Označme funkci Q(β 0, β 1, β 2,..., β k ) = X (y i f(x i, β 0, β 1, β 2,..., β k )) 2. Při metodě nejmenších čtverců (MNČ, LSQ) hledáme hodnoty b 0, b 1, b 2,..., b k, ve kterých je funkce Q minimální, tj. b 0, b 1,..., b k = argmin Q (β 0, β 1,..., β k ). β 0,β 1,...,β k V případě lineární regresní funkce má kriteriální funkce Q tvar Q(β 0, β 1,..., β k ) = (y i β 0 β 1 ϕ 1 (x i ) β k ϕ k (x i )) 2 6

a tato funkce nabývá svého minima v bodech, kdy derivace je rovna nule, tj. při hledání minima řešíme soustavu k + 1 lineárních rovnic tvaru Q β j = 0 pro j = 0, 1, 2,..., k βj =b j Soustava normálních rovnic má tedy tvar b 0 n +b 1 ϕ 1 (x i ) + + b k b 0 ϕ 1 (x i ) +b 1 ϕ 1 (x i )ϕ 1 (x i ) + + b k... ϕ k (x i ) = y i ϕ 1 (x i )ϕ k (x i ) = ϕ 1 (x i )y i b 0 ϕ k (x i ) +b 1 ϕ k (x i )ϕ 1 (x i ) + + b k ϕ k (x i )ϕ k (x i ) = ϕ k (x i )y i 9.7.3 Přímková regrese Uvažujme tento základní jednoduchý model Y i = β 0 + β 1 x i + ε i. Derivace funkce Q(β 0, β 1 ) (y i β 0 β 1 x i ) 2 mají tvar b 0 n +b 1 b 0 x i +b 1 a řešením výše uvedených soustav dostáváme x i = (x i ) 2 = y i x i y i b 0 = y i b 1 = (x i ) 2 n x i ( n n (x i ) 2 n n n x i y i n ) 2 x i x i y i ( n n (x i ) 2 n x i y i ) 2. x i Nyní uvedeme několik vlastností empirické regresní přímky odhadnuté metodou nejmenších čtverců. 1. Jestliže chápeme pevně naměřené hodnoty x i jako realizace náhodné veličiny X, lze koeficient b 1 vyjádřit jako podíl výběrové kovariance s x y a výběrového rozptylu nezávisle proměnné s 2 x 7

b 1 = s x y s 2 x = x i y i n (x i ) 2 n x i y i n n 2 x i n kde s xy = 1 n s 2 x = 1 n (x i x) (y i y) = 1 n (x i x) 2 = 1 n x i y i x y = xy x y (x i ) 2 (x) 2 2. Koeficient b 0 lze vyjádřit jako b 0 = (y b 1 x) 3. Pro empirickou regresní přímku platí ŷ = b 0 + b 1 x = (y b 1 x) + b 1 x = y + b 1 (x x) ŷ = y + s xy (x x) x 2 x tj. empirická regresní přímka prochází bodem [x; y] 4. Předpokládejme, že pro všechna i platí x i x pak i b 1 = (x i x) (y i y) (x i x) 2 (y i y) j (x j x) 2 = i j (x j x) 2 (x i x) = i w i tgα i kde váha w i je (x i x) 2 j (x j x) 2 ; úhel α i je úhel, který s vodorovnou osou svírá přímka spojující body (x i, y i ) a (x, y) Tedy koeficient směrnice regresní přímky je vážený průměrem směrnic přímek, které prochází bodem (x i, y i ) a težištem bodů (x, y). 5. Sdružení regresní přímky jsou přímky tvaru y i = b 0 + b 1 x i a x i = a 0 + a 1 y i, tyto regresní přímky se protínají v bodě [x; y] a jejich směrnice sdružených regresních přímek má stejné znaménko 8

Y x = a 0 + a 1 y ŷ = b 0 + b 1 x X Odhady parametrů regresní přímky a sdružené regresní přímky získáme podle předcházejících vztahů b 1 = s xy s 2 x b 0 = y b 1 x a 1 = s xy s 2 y a 0 = x a 1 y Úhel, který svírají sdružené regresní přímky pokud X a Y jsou lineárně nezávislé, pak s xy = 0 regresní přímky mají tvar ŷ = y a x = x a svírají úhel α = π 2 pokud X a Y jsou deterministicky lineárně závislé (Y = AX + B), pak s 2 y = A 2 s 2 x, s xy = As 2 x regresní přímky mají tvar ŷ = y + A (x x) a x = x + 1 (y y) A a svírají úhel α = 0, tj. přímky splývají pokud X a Y jsou stochasticky lineárně závislé, pak regresní přímky svírají úhel α takový, že tg(α) = b 1 a 1 1 a 1 b 1 9.7.4 Vícerozměrný lineární regresní model y = β 0 + β 1 x 1 + β 2 x 2 + + β k x k + ε a jeho maticový zápis Pro vícerozměrný lineární model je vhodné použít maticový zápis modelu y 1 x (0)1 x (1)1... x (k)1 β 0 y 2. = x (0)2 x (1)2... x (k)2 β 2....... + ɛ 2. y n x (0)n x (1)n... x (k)n β k ɛ 1 ɛ n 9

y = (y 1, y 2,..., y n ) T je vektor naměřených hodnot vysvětlované proměnné je matice typu n (k + 1) naměřených hodnot vysvětlujících proměn- X = [ x (i)j ]j=1,...,n; i=0,...,k ných β = (β 0, β 2,..., β k ) T je vektor hledaných k + 1 neznámých parametrů ɛ = (ɛ 1, ɛ 2,..., ɛ n ) T je vektor náhodné složky Stejně jako v jednorozměrném případě musíme specifikovat předpoklady řešení modelu pomocí metody nejmenších čtverců E (ɛ) = 0 E ( ɛɛ T ) = σ 2 I n X je nestochastická matice, takže E ( X T ɛ ) = 0 X má plnou hodnost k + 1 = p Za výše uvedených předpokladů pak neznámé parametry modelu β 0, β 1,..., β k, σ 2 následovně odhadneme b = ( X T X ) 1 X T y ( e T e ) s 2 = n p = (y Xb)T (y Xb) n p 9.7.5 Kvalita regresní funkce a intenzita závislosti Jedním z důležitých kroků v regresní analýze je tzv. regresní diagnostika. Ta slouží k hodnocení kvality regresní funkce a k ověřování splnění předpokladů použité metody nejmenších čtverců. V rámci metody nejmenších čtverců pracujeme s následujícími součty čtverců, resp. rozptyly, které v sobě zahrnují variabilitu empirických hodnot, odhadnutých teoretických hodnot a residuí. celkový součet čtverců S 2 T = (y i y) 2 rozptyl empirických (skutečně zjištěných) hodnot s 2 y = vysvětlený součet čtverců S 2 V = (ŷ i y) 2 rozptyl vyrovnaných (teoretických) hodnot s 2 ŷ = S2 V n 1 S2 T n 1 10

residuální součet čtverců RSS = e T e = e 2 = rozptyl skutečně zjištěných hodnot kolem regresní čáry, residuální rozptyl s 2 R = RSS n p, kde p = k + 1 (y i ŷ i ) 2 Při použití metody nejmenších čtverců platí ST 2 = SV 2 + RSS. Při přímkové regresi (k = 1) platí s 2 y = s 2 ŷ + s 2 R Graficky jsou jednotlivé odchylky znázorněny na obrázku Y ŷ y ŷ y y i ŷ y i y x 9.7.6 Koeficient (index) determinace pro vícenásobnou regresi s absolutním členem Ze vztahu jednotlivých součtů čtverců je odvozen koeficient R 2. Tento koeficient vyjadřuje z kolika procent se nám podařilo vysvětlit veličinu y pomocí veličin x 1, x 2,.... R 2 = S2 V S 2 T = 1 RSS S 2 T Pro koeficient determinace platí následující vlastnosti R 2 0; 1 = 1 (n p) s2 R (n 1) s 2 y pokud x a y jsou deterministicky závislé, pak y i = ŷ i a s 2 R = 0, s 2 y = s 2 ŷ, tedy R 2 = 1 pokud x a y jsou nezávislé, pak s 2 V = 0, s 2 y = s 2 R, tedy R 2 = 0 koeficient (index) korelace R = R 2 X 11

pro přímkovou regresi platí ŷ i = y + b 1 (x i x), kde b 1 = s xy, pak s 2 x 1 (ŷ R 2 = s2 n 1 i y) 2 1 b 1 (x n 1 i x) 2 ŷ = = = s2 xy s 2 x = s2 xy s 2 y s 2 y s 2 y s 2 x s 2 x s 2 y s 2 x s 2 y tedy koeficient korelace R = r x y odpovídá výběrovému korelačnímu koeficientu náhodného vektoru (x, y)............................................................................................... Regresní analýza v Excelu funkce LINREGRESE (DATA-Y;DATA-X1-DATA-X2-...-DATA-XN;B;STAT), kde DATA-Y je závislá proměnná DATA-X1;DATA-X2;... ;DATA-XN jsou nezávislé proměnné, B =PRAVDA - parametr β 0 se odhaduje, NEPRAVDA - parametr β 0 se neodhaduje (rovnice prochází nulou), STAT=PRAVDA - počítají se doplňující charakteristiky modelu (SE i;r 2 ;SE y;f;df;ss(reg);ss(resid)) funkce LINTREND (DATA-Y;DATA-X;DATA-X-NOVA;B), kde DATA-Y je závislá proměnná, DATA- X jsou nezávislé proměnné, DATA-X-NOVA je nezávislá proměnná, nová ( například pokračování data-x) B =PRAVDA - parametr β 0 se odhaduje, NEPRAVDA - parametr β 0 se neodhaduje funkce FORECAST (X;DATA-Y;DATA-X) pro odhad y(x) na základě znalostí DATA-X a DATA-Y funkce INTERCEPT (DATA-Y;DATA-X) pro odhad β 0 na základě znalostí DATA-X a DATA-Y funkce SLOPE (DATA-Y;DATA-X) pro odhad parametru beta 1 lineární regrese funkce STEYX (DATA-Y;DATA-X) pro standardní chybu odhadu y funkce LOGLINREGRESE (DATA-Y;DATA-X1-DATA-X2-...-DATA-XN;B;STAT) pro logaritmický regresní model z grafu : vytvořit XY graf a přidat spojnici trendu pomocí NÁSTROJE=>ANALÝZA DAT=>REGRESE Další vícerozměrné metody a grafy lze v Excelu naprogramovat................................................................................................... 12

............................................................................................... Zpracování vícerozměrných statistických dat v MATLABu Grafické zpracování a základní deskriptivní statistiky boxplot vícerozměrný histogram hist3 plotmatrix gscatter gplotmatrix souhrnné statistiky [means,sem,counts,name]=grpstats(data,data(:,2)) korelace a kovariance corr, corrcoef, cov Regresní analýza maticově b = ( X T X ) 1 X T y, atd funkce [b,bint,r,rint,stats] = regress(y,x,alpha) regresní diagnostika a grafy - rcoplot robusní odhady - robustfit Lze využít též další nástroje pro vícerozměrnou analýzu -ANOVA, MANOVA, shluková analýza - cluster analysis, metoda hlavních komponent, faktorová analýza atd................................................................................................... 13