Metody matematické statistiky (NMAI 061)

Podobné dokumenty
ANALÝZA VZTAHU DVOU SPOJITÝCH VELIČIN

Minikurz aplikované statistiky. Minikurz aplikované statistiky p.1

3 VYBRANÉ MODELY NÁHODNÝCH VELIČIN. 3.1 Náhodná veličina

REGRESNÍ ANALÝZA. 13. cvičení

Intervalové odhady. Interval spolehlivosti pro střední hodnotu v N(µ, σ 2 ) Interpretace intervalu spolehlivosti. Interval spolehlivosti ilustrace

Intervalové odhady. Interval spolehlivosti pro střední hodnotu v N(µ, σ 2 ) Interpretace intervalu spolehlivosti. Interval spolehlivosti ilustrace

Čísla přiřazená elementárním jevům tvoří obor hodnot M proměnné, kterou nazýváme náhodná veličina (označujeme X, Y, Z,...)

n = 2 Sdružená distribuční funkce (joint d.f.) n. vektoru F (x, y) = P (X x, Y y)

ina ina Diskrétn tní náhodná veličina může nabývat pouze spočetně mnoha hodnot (počet aut v náhodně vybraná domácnost, výsledek hodu kostkou)

AVDAT Náhodný vektor, mnohorozměrné rozdělení

Určujeme neznámé hodnoty parametru základního souboru. Pomocí výběrové charakteristiky vypočtené z náhodného výběru.

Statistika II. Jiří Neubauer

9. cvičení 4ST201. Obsah: Jednoduchá lineární regrese Vícenásobná lineární regrese Korelační analýza. Jednoduchá lineární regrese

Pravděpodobnost a statistika, Biostatistika pro kombinované studium. Jan Kracík

Neparametrické metody

Základy teorie odhadu parametrů bodový odhad

ANALÝZA ROZPTYLU (Analysis of Variance ANOVA)

Výběrové charakteristiky a jejich rozdělení

Monte Carlo metody Josef Pelikán CGG MFF UK Praha.

Regresní a korelační analýza

ANOVA. Analýza rozptylu při jednoduchém třídění. Jana Vránová, 3.lékařská fakulta UK, Praha

Charakterizace rozdělení

6. Demonstrační simulační projekt generátory vstupních proudů simulačního modelu

10. cvičení z PST. 5. prosince T = (n 1) S2 X. (n 1) s2 x σ 2 q χ 2 (n 1) (1 α 2 ). q χ 2 (n 1) 2. 2 x. (n 1) s. x = 1 6. x i = 457.

15. T e s t o v á n í h y p o t é z

Testování statistických hypotéz

Aproximace binomického rozdělení normálním

Téma 22. Ondřej Nývlt

Pravděpodobnost a aplikovaná statistika

Normální (Gaussovo) rozdělení

VĚROHODNOST VÝSLEDKŮ PŘI UŽITÍ EXPLORATORNÍ ANALÝZY DAT

15. T e s t o v á n í h y p o t é z

5. T e s t o v á n í h y p o t é z

Jiří Neubauer. Katedra ekonometrie, FVL, UO Brno kancelář 69a, tel

MATEMATICKÁ STATISTIKA. Katedra matematiky a didaktiky matematiky Technická univerzita v Liberci

Matematika I A ukázkový test 1 pro 2018/2019

ASYMPTOTICKÉ VLASTNOSTI ODHADŮ S MINIMÁLNÍ KOLMOGOROVSKOU VZDÁLENOSTÍ

PRAVDĚPODOBNOST A STATISTIKA

Teoretické modely diskrétních náhodných veličin

I. D i s k r é t n í r o z d ě l e n í

Úvod do teorie odhadu. Ing. Michael Rost, Ph.D.

p(x) = P (X = x), x R,

Cvičení ze statistiky - 8. Filip Děchtěrenko

Definice 7.1 Nechť je dán pravděpodobnostní prostor (Ω, A, P). Zobrazení. nebo ekvivalentně

Pravděpodobnost a statistika, Biostatistika pro kombinované studium. Tutoriál č. 5: Bodové a intervalové odhady, testování hypotéz.

Dobývání znalostí. Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze

4EK211 Základy ekonometrie

Odhad parametrů N(µ, σ 2 )

4EK211 Základy ekonometrie

Numerická matematika 1. t = D u. x 2 (1) tato rovnice určuje chování funkce u(t, x), která závisí na dvou proměnných. První

Pravděpodobnost a aplikovaná statistika

X = x, y = h(x) Y = y. hodnotám x a jedné hodnotě y. Dostaneme tabulku hodnot pravděpodobnostní

Mgr. Rudolf Blažek, Ph.D. prof. RNDr. Roman Kotecký Dr.Sc.

NMAI059 Pravděpodobnost a statistika

Maticová exponenciála a jiné maticové funkce

9. T r a n s f o r m a c e n á h o d n é v e l i č i n y

12. cvičení z PST. 20. prosince 2017

z Matematické statistiky 1 1 Konvergence posloupnosti náhodných veličin

Univerzita Karlova v Praze Matematicko-fyzikální fakulta. Úvod do teorie pořádkových statistik. Katedra pravděpodobnosti a matematické statistiky

Odhad parametrů N(µ, σ 2 )

Normální (Gaussovo) rozdělení

Teoretické modely diskrétních náhodných veličin

Matematika III 10. týden Číselné charakteristiky střední hodnota, rozptyl, kovariance, korelace

Testování statistických hypotéz

Pojmy z kombinatoriky, pravděpodobnosti, znalosti z kapitoly náhodná veličina, znalost parciálních derivací, dvojného integrálu.

AVDAT Klasický lineární model, metoda nejmenších

6. ZÁKLADY STATIST. ODHADOVÁNÍ. Θ parametrický prostor. Dva základní způsoby odhadu neznámého vektoru parametrů bodový a intervalový.

ÚVOD DO TEORIE ODHADU. Martina Litschmannová

Jiří Militky Škály měření Nepřímá měření Teorie měření Kalibrace

Téma 5: Parametrická rozdělení pravděpodobnosti spojité náhodné veličiny

letní semestr Katedra pravděpodobnosti a matematické statistiky Matematicko-fyzikální fakulta Univerzity Karlovy Matematická statistika vektory

Testování hypotéz. 1. vymezení základních pojmů 2. testování hypotéz o rozdílu průměrů 3. jednovýběrový t-test

MODELOVÁNÍ A SIMULACE

7. Analýza rozptylu jednoduchého třídění

Náhodná veličina Číselné charakteristiky diskrétních náhodných veličin Spojitá náhodná veličina. Pravděpodobnost

Katedra matematické analýzy a aplikací matematiky, Přírodovědecká fakulta, UP v Olomouci

4EK211 Základy ekonometrie

TESTOVÁNÍ STATISTICKÝCH HYPOTÉZ ZÁKLADNÍ POJMY

= = 2368

Jednostranné intervaly spolehlivosti

Matematické modelování Náhled do ekonometrie. Lukáš Frýd

NMSA202 PRAVDĚPODOBNOST A MATEMATICKÁ STATISTIKA POZNÁMKY O ZKOUŠCE

3 Bodové odhady a jejich vlastnosti

1 Klasická pravděpodobnost. Bayesův vzorec. Poslední změna (oprava): 11. května 2018 ( 6 4)( 43 2 ) ( 49 6 ) 3. = (a) 1 1 2! + 1 3!

prof. RNDr. Roman Kotecký DrSc., Dr. Rudolf Blažek, PhD Pravděpodobnost a statistika Katedra teoretické informatiky Fakulta informačních technologií

Statistika, Biostatistika pro kombinované studium. Jan Kracík

PRAVDĚPODOBNOST A STATISTIKA

2 TESTOVÁNÍ HYPOTÉZ. RYCHLÝ NÁHLED KAPITOLY Neříkej: Objevil jsem pravdu! ale raději: Objevil jsem jednu z pravd! Chalil Gibran

Rozhodnutí / Skutečnost platí neplatí Nezamítáme správně chyba 2. druhu Zamítáme chyba 1. druhu správně

VYBOČUJÍCÍ HODNOTY VE VÍCEROZMĚRNÝCH DATECH

Poznámky k předmětu Aplikovaná statistika, 4. téma

Matematika III. 4. října Vysoká škola báňská - Technická univerzita Ostrava. Matematika III

Náhodné vektory a matice

Poznámky k předmětu Aplikovaná statistika, 4. téma

1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.

Stručný úvod do testování statistických hypotéz

letní semestr 2012 Katedra pravděpodobnosti a matematické statistiky Matematicko-fyzikální fakulta Univerzity Karlovy Matematická statistika t-test

Pravděpodobnost a matematická statistika

Ing. Michael Rost, Ph.D.

12. prosince n pro n = n = 30 = S X

Transkript:

Plán přednášky Metody matematcké statstky (NMAI 061) Zdeněk Hlávka Opakování: rozdělení náhodné velčny. Normální rozdělení, centrální lmtní věta. Odhady, testování hypotéz (t-test). Regresní analýza. Mnohorozměrné metody. Unverzta Karlova v Praze Matematcko-fyzkální fakulta Katedra pravděpodobnost a matematcké statstky www.karln.mff.cun.cz/ hlavka Doporučená lteratura: Jří Anděl. Matematcká statstka, SNTL/Alfa, Praha, 1985. Jří Anděl. Statstcké metody, Matfyzpress, Praha, 1998. Lenka Komárková, Arnošt Komárek, Vladslav Bína. Základy analýzy dat a statstckého úsudku, s příklady v R, Skrptum VŠE FM, Jndřchův Hradec, 2006. Karel Zvára. Regrese, Matfyzpress, Praha, 2008. Doporučený software: R (www.r-project.org) Zdeněk Hlávka (KPMS) NMAI 061 1 / 231 Zdeněk Hlávka (KPMS) NMAI 061 2 / 231 Týden 1 Týden 1 Náhodná velčna Týden 1 Opakování: prostor náhodných jevů, náhodná velčna, rozdělení, základní typy rozdělení (dsk., spoj.), dstrbuční funkce, hustota, číselné charakterstky (střední hodnota, rozptyl, momenty, kvantly), standardní normální rozdělení. Pravděpodobnostní prostor Ω prostor elementárních jevů (všechny možné výsledky), ω elementární jevy, A σ-algebra (vhodný systém podmnožn Ω), P pravděpodobnostní míra (Ω, A, P)... pravděpodobnostní prostor (R, B)... reálná čísla s borelovskou σ-algebrou Náhodná velčna je měřtelné zobrazení (Ω, A, P) (R, B). Příklady: hod mncí, hod kostkou, počasí, čas mez událostm, doba výpočtu, quncunx... Zdeněk Hlávka (KPMS) NMAI 061 3 / 231 Zdeněk Hlávka (KPMS) NMAI 061 4 / 231

Týden 1 Náhodná velčna Týden 1 Náhodná velčna Nezávslost Náhodné jevy A, B Ω nazýváme nezávslé, pokud P(A B) = P(A & B) = P(A)P(B). Dstrbuční funkce Dstrbuční funkce náhodné velčny X je F (x) = P(X x), x R Jestlže jsou jevy A, B nezávslé a P(A) > 0, P(B) > 0, pak podmíněná pravděpodobnost P(A B) = a podobně P(B A) = P(B). P(A B) P(B) = P(A)P(B) P(B) = P(A) Náhodné velčny X a Y jsou nezávslé pokud jevy {X a} a {Y b} jsou nezávslé pro všechna a a b, tj. pokud F (a, b) = P({X a} {Y b}) = P({X a})p({y b}) = F X (a)f Y (b). Dstrbuční funkce udává na prostoru (R, B) pravděpodobnostní míru, které se říká rozdělení náhodné velčny X. Z defnce dstrbuční funkce je zřejmé, že 0 F (x) 1 a pro x 1 < x 2 je F (x 1 ) F (x 2 ) (dstrbuční funkce je neklesající). Lze odvodt lm x F (x) = 0 a lm x F (x) = 1. Pomocí dstrbuční funkce můžeme snadno spočítat pravděpodobnost, že náhodná velčna padne do lbovolného ntervalu: P(X (a, b ) = P(X b) P(X a) = F (b) F (a). Zdeněk Hlávka (KPMS) NMAI 061 5 / 231 Zdeněk Hlávka (KPMS) NMAI 061 6 / 231 Týden 1 Náhodná velčna Týden 1 Náhodná velčna Model náhodných dějů Pravděpodobnostní rozdělení se často používají jako pops náhodných dějů, např.: dskrétní (F je skokovtá funkce) alternatvní (Bernoull), bnomcké, Possonovo, spojtá (tj. exstuje hustota f tak, že F (x) = x 0 f (u)du) exponencální, Laplace, Cauchy, Webull, Pareto, Erlang,... normální (Gaussovo) Příklad: Quncunx: bnomcké rozdělení umožňuje jednoduchý výpočet pravděpodobností a předpovědních ntervalů (předpovídání). R: pbnom dbnom rbnom qbnom Pozděj uvdíme, že bnomcké rozdělení lze pomocí centrální lmtní věty dobře aproxmovat normálním rozdělením. Zdeněk Hlávka (KPMS) NMAI 061 7 / 231 Zdeněk Hlávka (KPMS) NMAI 061 8 / 231

Týden 1 Náhodná velčna Týden 1 Náhodná velčna Hustota Rozdělení spojté náhodné velčny se nejčastěj určuje hustotou. Náhodná velčna X s dstrbuční funkcí F (x) má hustotu f (x), pokud F (x) = x f (t)dt. Hustota jednoznačně (a názorně) určuje rozdělení spojté náhodné velčny. Anglcky: densty, probablty densty functon, pdf. Základní vlastnost hustoty plynou z vlastností pravděpodobnost. Pro a < b máme: P(X (a, b ) = P(X (, b ) P(X (, a ) = P(X b) P(X a) = F (b) F (a) = = b a f (t)dt. b f (t)dt Hustota je zřejmě vždy nezáporná a + f (x)dx = 1. a f (t)dt Zdeněk Hlávka (KPMS) NMAI 061 9 / 231 Zdeněk Hlávka (KPMS) NMAI 061 10 / 231 Týden 1 Standardní normální rozdělení N(0, 1) Týden 1 Standardní normální rozdělení N(0, 1) Příklad: Víme, že n.v. X má standardní normální rozdělení N(0, 1), pokud má hustotu: f (x) = 1 exp{ x 2 /2}. 2π Dstrbuční funkce: F (x) = x f (t)dt = Jednoduše můžeme spočítat např.: P(X ( 1, 1)) = P(X (0, 2)) = 1 1 2 0 x 1 2π exp{ t 2 /2}dt. f (x)dx = F (1) F ( 1) = 2F (1) 1, f (x)dx = F (2) F (0) = F (2) 0.5. dnorm(x) 0.0 0.1 0.2 0.3 0.4 3 2 1 0 1 2 3 x Zdeněk Hlávka (KPMS) NMAI 061 11 / 231 Zdeněk Hlávka (KPMS) NMAI 061 12 / 231

Týden 1 Momenty Týden 1 Momenty Charakterstky rozdělení náhodné velčny Rozdělení náhodné velčny je kompletně popsané dstrbuční funkcí (případně hustotou nebo pravděpodobnostní funkcí). Zjednodušeně se rozdělení náhodných velčn popsuje pomocí vhodných měr polohy (například střední hodnota, medán, kvantly) a pomocí vhodných měr varablty (například rozptyl, směrodatná odchylka, mezkvartlové rozpětí). Důležté jsou zejména: momenty (střední hodnota, rozptyl a podobně), kvantly (například medán). Mějme náhodnou velčnu X s dstrbuční funkcí F (x), pak střední hodnota (expectaton) n.v. X je: xf (x)dx pro spojté X, EX = + xdf (x) = + =1 x P(X = x ) pro dskrétní X. Střední hodnota transformované náhodné velčny g(x ) je: EX = + g(x)df (x) =... Například rozptyl (varance) spojté n.v. X s hustotou f (x) je: Var(X ) = E{(X EX ) 2 } = + (x EX ) 2 f (x)dx. Zdeněk Hlávka (KPMS) NMAI 061 13 / 231 Zdeněk Hlávka (KPMS) NMAI 061 14 / 231 Týden 1 Momenty Týden 1 Momenty Obecně zavádíme k-tý moment náhodné velčny X : EX k = a k-tý centrální moment n.v. X : µ k = E(X EX ) k = + + x k df (x) (x EX ) k df (x). Rozptyl je tedy druhý centrální moment (Var(X ) = σ 2 = µ 2 ). Směrodatná odchylka (standard devaton) je s.d. = Var(X ). Škmost (skewness) se defnuje jako µ 3 /σ 3 (míra nesymetre ). Špčatost (kurtoss) se defnuje jako µ 4 /σ 4. Příklad: Pro X N(0, 1), tj. standardní normální rozdělení máme: EX = xf (x)dx = x 1 exp{ x 2 /2}dx =... 2π Var X = Střední hodnota je míra polohy. (x EX ) 2 1 2π exp{ x 2 /2}dx =... Rozptyl (nebo směrodatná odchylka) je míra rozptýlenost (nebo měřítka). Škmost je míra nesymetre rozdělení náhodné velčny. Zdeněk Hlávka (KPMS) NMAI 061 15 / 231 Zdeněk Hlávka (KPMS) NMAI 061 16 / 231

Týden 1 Momenty Pravdla pro počítání se středním hodnotam Máme náhodné velčny X a Y a konstanty a a b. Pak Ea = a, EaX = axdf (x) = a xdf (x) = aex, E(a + bx ) = a + bex, E(X + Y ) = EX + EY. Pravdla pro počítání s rozptylem Var(a) = 0, Var(aX ) = a 2 Var(X ), Var(b + X ) = Var(X ), Var(X + Y ) = Var(X ) + 2E(X EX )(Y EY ) + Var(y). (Pravdla lze snadno ověřt pomocí defnce střední hodnoty.) Zdeněk Hlávka (KPMS) NMAI 061 17 / 231 Týden 1 Kvantly Víme, že P(X (a, b)) = F (b) F (a). Pokud bychom chtěl najít nterval (a, b) takový, že P(X (a, b)) = 0.95, můžeme zvolt a a b například tak, aby F (b) = 0.975 a F (a) = 0.025. Př předpovídání tedy potřebujeme vědět, ve kterých bodech nabývá dstrbuční funkce jstých hodnot. Pro náhodnou velčnu X s d.f. F (x) a pro α (0, 1), je x α tzv. α-kvantl rozdělení n.v. X, pokud F (x α ) = P(X x α ) = α. Příklad: Má-l X rozdělení N(0, 1), pak P(X 1.645). = 0.05. Hodnota 1.645 je tedy 0.05-kvantl rozdělení N(0, 1). Příklad: Má-l X rozdělení N(0, 1), pak P(X 1.96). = 0.975. Hodnota 1.96 je tedy 0.975-kvantl rozdělení N(0, 1). Zdeněk Hlávka (KPMS) NMAI 061 18 / 231 Týden 1 Kvantly Týden 1 Kvantly 95% forecast nterval 95% forecast nterval dnorm(x) 0.0 0.1 0.2 0.3 0.4 dnorm(x) 0.0 0.1 0.2 0.3 0.4 3 2 1 0 1 2 3 x 3 2 1 0 1 2 3 x Zdeněk Hlávka (KPMS) NMAI 061 19 / 231 Zdeněk Hlávka (KPMS) NMAI 061 20 / 231

Týden 1 Kvantly Týden 1 Kvantly dnorm(x) 0.0 0.1 0.2 0.3 0.4 95% forecast nterval 3 2 1 0 1 2 3 x Důležtost normálního rozdělení plyne zejména z tzv. centrální lmtní věty: Věta: Nechť {X 1, X 2,... } je posloupnost..d. (nezávslých a stejně rozdělených) náhodných velčn s EX = µ a Var(X ) = σ 2 < +. Pak pro n náhodná velčna n(x n µ)/σ konverguje (v dstrbuc) k normálnímu rozdělení N(0, 1): n {( 1 n n =1 ) } X µ D N(0, σ 2 ). Konvergence v dstrbuc k F = konvergence dstrbučních funkcí (v bodech spojtost F ) Nezávslost náhodných velčn X 1 a X 2 = hodnoty náhodné velčny X 1 neovlvňují rozdělení (dstrbuční funkc) X 2 = sdružená dstrbuční funkce je součn jednotlvých (margnálních) dstrbučních funkcí Zdeněk Hlávka (KPMS) NMAI 061 21 / 231 Zdeněk Hlávka (KPMS) NMAI 061 22 / 231 Týden 2 Týden 2 Týden 2 Kvantl Téma: kvantly, normální rozdělení, centrální lmtní věta a její použtí, náhodný výběr, bodový odhad, nestrannost, konzstence, příklad: konstrukce konfdenčního ntervalu pro střední hodnotu. α kvantl náhodné velčny X je číslo x α, které splňuje: P(X x α ) = α. Některé kvantly nemusí být defnovány jednoznačně a pro dskrétní náhodné velčny nemusí některé kvantly exstovat. Obecněj (a jednoznačně) lze α-kvantl defnovat např. x α = nf{x : P(X x α ) α}. Zdeněk Hlávka (KPMS) NMAI 061 23 / 231 Zdeněk Hlávka (KPMS) NMAI 061 24 / 231

Týden 2 Týden 2 Normální rozdělení Kvantlová funkce obecně: F dstrbuční funkce F 1 je kvantlová funkce (pokud exstuje) Např. medán (50% kvantl), horní a dolní kvartl (25% a 75% kvantl), decly, percently, atd. qnorm(x) 2 1 0 1 2 quantle functon N(0,1) Příklad: Nechť náhodná velčna X má standardní normální rozdělení. Z pravdel pro počítání středních hodnot víme, že E(µ + σx ) = µ a Var(µ + σx ) = σ 2. Jaké rozdělení ale má náhodná velčna µ + σx = Y? Předpokládejme, že σ > 0. Podle věty o hustotě transformované náhodné velčny (Anděl MS, Věta 3/46): Nechť X má spojtou dstrbuční funkc F (x). Předpokládejme, že F (x) = f (x) exstuje všude s výjmkou nanejvýš konečně mnoha bodů. Budž t(x) ryze monotónní funkce, která má všude dervac. Označme τ nverzní funkc k t. Pak náhodná velčna Y = t(x ) má hustotu g(y) = f {τ(y)} τ (y). máme X = (Y µ)/σ = τ(y ) a tedy g(y) = 1 2π exp{(y µ) 2 /(2σ 2 )}/σ. 0.0 0.2 0.4 0.6 0.8 1.0 x α kvantl rozdělení N(0,1) budeme označovat u α (v R: qnorm()). Zdeněk Hlávka (KPMS) NMAI 061 25 / 231 Zdeněk Hlávka (KPMS) NMAI 061 26 / 231 Týden 2 Normální rozdělení Týden 2 Normální rozdělení Normální rozdělení N(µ, σ 2 ) Řekneme, že náhodná velčna Y má rozdělení N(µ, σ 2 ), pokud má hustotu: φ(y) = 1 exp{(y µ) 2 /(2σ 2 )}. 2πσ Význam parametrů (protože Y = µ + σx, kde X N(0, 1)): µ = EY, tj. střední hodnota, σ 2 = Var(Y ), tj. rozptyl. Příklad: Tvar normálního rozdělení: curve(dnorm(x)) Příklad: Pravdlo σ, 2σ, 3σ,... P(Y (µ σ, µ + σ)) = = pnorm(1)-pnorm(-1) = 1-2*pnorm(-1) Pro α-kvantl y α n.v. Y N(µ, σ 2 ) platí, že: α = P(Y y α ) = P(µ + σx y α ) = P(X (y α µ)/σ) a proto (y α µ)/σ = u α a tedy y α = µ + σu α (proto jsou v tabulkách uvedeny pouze kvantly N(0,1)). Zdeněk Hlávka (KPMS) NMAI 061 27 / 231 Zdeněk Hlávka (KPMS) NMAI 061 28 / 231

Týden 2 Normální rozdělení Týden 2 Normální rozdělení Důležtost normálního rozdělení plyne zejména z tzv. centrální lmtní věty: Věta: Nechť {X 1, X 2,... } je posloupnost..d. (nezávslých a stejně rozdělených) náhodných velčn s EX = µ a Var(X ) = σ 2 < +. Pak pro n náhodná velčna n(x n µ)/σ konverguje (v dstrbuc) k normálnímu rozdělení N(0, 1): n {( 1 n n =1 ) } X µ D N(0, σ 2 ). Konvergence v dstrbuc k F = konvergence dstrbučních funkcí (v bodech spojtost F ) Nezávslost náhodných velčn X 1 a X 2 = hodnoty náhodné velčny X 1 neovlvňují rozdělení (dstrbuční funkc) X 2 = sdružená dstrbuční funkce je součn jednotlvých (margnálních) dstrbučních funkcí Zdeněk Hlávka (KPMS) NMAI 061 29 / 231 S nezávslým velčnam X 1 a X 2 se dobře počítá: E(X 1 X 2 ) = E(X 1 )E(X 2 ) Cov(X 1, X 2 ) = 0 Var(X 1 + X 2 ) = Var X 1 + 2 Cov(X 1, X 2 ) + Var X 2 = Var X 1 + Var X 2 Var(X 1 X 2 ) = Var X 1 2 Cov(X 1, X 2 ) + Var X 2 = Var X 1 + Var X 2 Velčny X 1,..., X n jsou navzájem nezávslé, pokud je nezávslá každá jejch podmnožna (je to něco jného než po dvou nezávslé): E(X 1 X 2... X n ) = E(X 1 )E(X 2 )... E(X n ) ( ) Var X = Var(X ) Zdeněk Hlávka (KPMS) NMAI 061 30 / 231 Týden 2 Normální rozdělení Týden 2 Odhad parametru a jeho vlastnost Odhad CLV dobře aproxmuje chování průměru nebo součtu nezávslých náhodných velčn (je to praktcky totéž, protože se to lší jenom známou konstantou). Příklad: Quncunx: konečná poloha kulčky. Kvantly normálního rozdělení můžeme použít pro pravděpodobnostní předpověď. Cílem je odhadnout potřebné parametry (například střední hodnotu) na základě získaných pozorování. Defnce: Řekneme, že náhodné velčny X 1,..., X n tvoří náhodný výběr, pokud X jsou navzájem nezávslé a mají stejné rozdělení. Defnce: Nechť X 1,..., X n je náhodný výběr z rozdělení s dstrbuční funkcí F θ (x), kde θ je odhadovaný parametr. Odhadem nazveme lbovolnou funkc T (X 1,..., X n ) (důležté je, že funkce T (.) nezávsí na neznámém parametru θ). Odhady se snažíme zvolt tak, aby měly dobré vlastnost. Zdeněk Hlávka (KPMS) NMAI 061 31 / 231 Zdeněk Hlávka (KPMS) NMAI 061 32 / 231

Týden 2 Odhad parametru a jeho vlastnost Týden 2 Odhad parametru a jeho vlastnost Teoretcké vlastnost odhadů Rozdělení průměru Žádoucí vlastnost odhadu: konzstence nestrannost Míry kvalty odhadu: vychýlení (bas) rozptyl MSE Příklad: Mějme náhodný výběr o rozsahu n z normálního rozdělení. Jaké je rozdělení výběrového průměru? Jednoduše lze spočítat střední hodnotu rozptyl výběrového průměru. Pozděj s ukážeme, že lneární transformace zachovává normaltu a výběrový průměr má tedy normální rozdělení N(µ, σ 2 /n). Zdeněk Hlávka (KPMS) NMAI 061 33 / 231 Zdeněk Hlávka (KPMS) NMAI 061 34 / 231 Týden 2 Odhad parametru a jeho vlastnost Týden 2 Odhad parametru a jeho vlastnost Jednoduchý konfdenční nterval Příklad: Mějme náhodný výběr o rozsahu n z nějakého jného rozdělení. Jaké je rozdělení výběrového průměru? Pokud má zadané rozdělení střední hodnotu (EX ), pak je střední hodnota výběrového průměru rovná této střední hodnotě. Rozdělení výběrového průměru závsí na rozdělení náhodné velčny (X ). Pro rostoucí počet pozorování se rozdělení výběrového průměru rychle blíží rozdělení normálnímu podle CLV. Navíc exstují výpočetně náročné metody (bootstrap, subsamplng), které nám umožní aproxmovat rozdělení výběrového průměru bez předpokladu znalost rozdělení X. Příklad: konfdenční nterval pro střední hodnotu, pokud známe rozptyl. Quncunx: 1 Spočítáme teoretcký rozptyl měřené náhodné velčny. 2 Díky CLV získáme přblžné normální rozdělení průměru. 3 Pomocí kvantlů standardního normálního rozdělení a jednoduchých algebrackých úprav odvodíme konfdenční nteval (náhodný nterval, který s danou pravděpodobností překryje neznámou střední hodnotu). Zdeněk Hlávka (KPMS) NMAI 061 35 / 231 Zdeněk Hlávka (KPMS) NMAI 061 36 / 231

Týden 3 Týden 3 Rozdělení odvozená od normálního Týden 3 χ 2 -rozdělení Téma: rozdělení odvozená od normálního, výběrové charakterstky. vlastnost průměru a výběrového rozptylu, výběr z normálního rozdělení a jeho vlastnost. konfdenční ntervaly (jednostranné oboustranné) pro parametry normálního rozdělení. Nechť jsou X 1, X 2,... a Y 1, Y 2... nezávslé posloupnost d N(0, 1) n.v. χ 2 -rozdělení o n stupních volnost je rozdělení náhodné velčny Značíme S χ 2 n. S = n =1 X 2 Víme, že ES = n a Var S = 2n (vz např. Wkpeda) Kvantly budeme značt χ 2 n;1 α Zdeněk Hlávka (KPMS) NMAI 061 37 / 231 Zdeněk Hlávka (KPMS) NMAI 061 38 / 231 Týden 3 Rozdělení odvozená od normálního Týden 3 Náhodný výběr t-rozdělení a F-rozdělení Častý úkol ve statstce je něco zjstt o parametrech nějakého rozdělení. t-rozdělení o n stupních volnost: rozdělení podílu normálního a odmocnny χ 2 rozdělení (T = X / S/n), kvantly budeme značt t n;1 α. Důležté je nezaměňovat kvantly a krtcké hodnoty!! F-rozdělení o n a m stupních volnost: rozdělení podílu dvou nezávslých náhodných velčn s χ 2 -rozdělením, kvantly budeme značt F n,m;1 α Takové zjšťování bývá ve statstce založeno na opakovaných pozorováních nějaké náhodné velčny. V nejjednodušší stuac můžeme předpokládat, že tato opakovaná pozorování jsou získána pomocí náhodného výběru. Defnce: Řekneme, že náhodné velčny X 1,..., X n tvoří náhodný výběr, pokud X jsou navzájem nezávslé a mají stejné rozdělení. Naměřeným hodnotám x 1,..., x n budeme říkat realzace náhodného výběru. Příklad: quncunx, hod mncí (stuace před a po) Zdeněk Hlávka (KPMS) NMAI 061 39 / 231 Zdeněk Hlávka (KPMS) NMAI 061 40 / 231

Týden 3 Charakterstky náhodného výběru Týden 3 Charakterstky náhodného výběru Mějme náhodný výběr X 1,..., X n. Základní výběrové charakterstky jsou: míry polohy (průměr, medán) míry měřítka (výběrový rozptyl, směrodatná odchylka, rozpětí, mezkvartlové rozpětí) výběrové kvantly (medán, kvartly, mnmum, maxmum) výběrové momenty a centrální momenty (průměr, rozptyl, škmost, špčatost) Pomocí metod teore pravděpodobnost je možné odvodt teoretcké vlastnost (pravděpodobnostní rozdělení) výběrových charakterstk, na které se díváme jako na náhodné velčny. Příklad: 1/ Střední hodnota výběrového průměru a výběrového rozptylu. 2/ Rozptyl výběrového průměru. 3/ Rozdělení výběrového průměru (bez předpokladu normalty): Nechť X 1,..., X n je náhodný výběr splňující předpoklady centrální lmtní věty. Pak rozdělení náhodné velčny n(x n µ) konverguje v dstrbuc k N(0, σ 2 ) a rozdělení výběrového průměru lze aproxmovat pomocí rozdělení N(µ, σ 2 /n). To někdy bývá matoucí, proto je potřeba důsledně rozlšovat náhodné velčny (např. průměr X n ) a jejch realzace (naměřený a vypočtený průměr x n ). Zdeněk Hlávka (KPMS) NMAI 061 41 / 231 Zdeněk Hlávka (KPMS) NMAI 061 42 / 231 Týden 3 Rozdělení průměru a rozptylu za předpokladu normalty Týden 3 Intervaly spolehlvost Rozdělení výběrového průměru a rozptylu za předpokladu normalty. Věta: Nechť X 1,..., X n je náhodný výběr z N(µ, σ 2 ). Pak platí: X n N(µ, σ 2 /n), (n 1)S 2 /σ 2 má rozdělení χ 2 n 1, je-l n > 1 a σ2 > 0, je-l n > 1, jsou velčny X n a S 2 nezávslé. Důkaz: vz Anděl: Matematcká statstka, věta 18, strana 82, SNTL, 1985. Příklad: Nezávslost X + Y a X Y za předpokladu normalty. Příklad: Z věty lze např. jednoduše spočítat rozptyl výběrového rozptylu za předpokladu normalty. Intervalový odhad Mějme náhodný výběr X 1,..., X n z rozdělení s dstrbuční funkcí F θ (x), θ Θ. Intervalový odhad je založen na dvou odhadech T 1 (X 1,..., X n ) a T 2 (X 1,..., X n ) (funkce, které neobsahují θ) a které splňují P{T 1 (X 1,..., X n ) < θ < T 2 (X 1,..., X n )} = 1 α, kde 1 α je spolehlvost (nejčastěj 0.95). Horní odhad (jednostranný): P{θ < T h (X 1,..., X n )} = 1 α. Dolní odhad: P{T d (X 1,..., X n ) < θ} = 1 α. Zdeněk Hlávka (KPMS) NMAI 061 43 / 231 Zdeněk Hlávka (KPMS) NMAI 061 44 / 231

Týden 3 Intervaly spolehlvost Týden 3 Intervaly spolehlvost Konstrukce ntervalového odhadu Konfdenční nterval pro střední hodnotu normálního rozdělení Máme odhad T (X 1,..., X n ) a ze znalost rozdělení nějaké jeho funkce h(t, θ) najdeme c 1 a c 2 tak, aby P(c 1 < h(t, θ) < c 2 ) = 1 α a jednoduchým algebrackým úpravam získáme c 1 a c 2 tak, aby P( c 1 < θ < c 2 ) = 1 α. Příklad: střední hodnota a rozptyl normálního rozdělení. Použtím t-rozdělení získáme oboustranný konfdenční nterval: (X n ± t n 1;1 α/2 S n / n) Jednostranné ntervaly: (, X n + t n 1;1 α S n / n) (X n t n 1;1 α S n / n, ) Zdeněk Hlávka (KPMS) NMAI 061 45 / 231 Zdeněk Hlávka (KPMS) NMAI 061 46 / 231 Týden 3 Intervaly spolehlvost Týden 3 Intervaly spolehlvost Bez předpokladu normalty (pro rozdělení s konečným rozptylem), lze použít přblžný nterval založený na CLV: (X n ± u 1 α/2 S n / n). Podobné ntervaly (přesné nebo asymptotcké - se σ a kvantly normálního rozdělení) vychází pokud je rozptyl známý (taková stuace je ale v prax spíše neobvyklá). Příklad: Interval spolehlvost pro rozptyl: horní odhad, oboustranný nterval (problém volby vhodného kvantlu). Oboustranný konfdenční nterval pro rozptyl normálního rozdělení: ( ) (n 1)Sn 2 χ 2, (n 1)S n 2 n 1;1 α/2 χ 2 n 1;α/2 Horní odhad (obdobně): (n 1)S 2 n/χ 2 n 1;α. Zdeněk Hlávka (KPMS) NMAI 061 47 / 231 Zdeněk Hlávka (KPMS) NMAI 061 48 / 231

Týden 4 Týden 4 Konstrukce odhadu Týden 4 Téma: odhadování, momentová metoda a delta metoda, metoda maxmální věrohodnost (dskrétní spojtá rozdělení), vlastnost maxmálně věrohodného odhadu. Stuace: máme náhodný výběr z rozdělení s dstrbuční funkcí F θ (x) a chceme odhadnout (vektorový) parametr θ = (θ 1,..., θ p ). Nejobvyklejší metody konstrukce odhadu: momentová metoda (odhad se konstruuje pomocí srovnání teoretckých a výběrových momentů), metoda maxmální věrohodnost. Zdeněk Hlávka (KPMS) NMAI 061 49 / 231 Zdeněk Hlávka (KPMS) NMAI 061 50 / 231 Týden 4 Momentová metoda Týden 4 Momentová metoda Momentová metoda Delta metoda v jednorozměrném případě Prncp metody: za odhad se zvolí taková hodnota parametru θ, která vede ke shodě prvních p teoretckých a výběrových momentů (buď centrálních nebo necentrálních). Teoretcké momenty m j (θ) závsí na θ, výběrové momenty n /n jsou funkce náhodného výběru. =1 X j Odhad ˆθ získáme řešením soustavy rovnc m (ˆθ) = X j /n. Příklad: Odhad parametru exponencálního rozdělení s hustotou λe λx pro x > 0. Asymptotcké rozdělení ˆθ lze často spočítat použtím CLV a delta-metody. Pokud posloupnost náhodných velčn X n splňuje pak n[xn θ] n[g(xn ) g(θ)] D N(0, σ 2 ), D N (0, σ 2 [g (θ)] 2 ) pro každou funkc g(.), která má dervac g (θ) 0. Příklad: Asymptotcké rozdělení odhadu ˆλ parametru λ exponencálního rozdělení. Zdeněk Hlávka (KPMS) NMAI 061 51 / 231 Zdeněk Hlávka (KPMS) NMAI 061 52 / 231

Týden 4 Momentová metoda Týden 4 Metoda maxmální věrohodnost Delta metoda ve vícerozměrném případě Pro nformac (mnohorozměrné normální rozdělení bude pozděj): Pomocí mnohorozměrné centrální lmtní věty můžeme získat: n (ˆξ ξ) D N (0, Σ), kde Σ je poztvně defntní varanční matce. Pak nám delta metoda dává asymptotcké rozdělení věktoru ˆθ = h( ˆξ): ( ) ) D n h(ˆξ) h(ξ) N (0, h(β) T Σ h(β). Metoda maxmální věrohodnost Prncp metody: odhad je nejpravděpodobnější hodnota parametru, tj. hodnota parametru, která maxmalzuje sdruženou hustotu (nebo pravděpodobnost) pozorovaného náhodného výběru. Věrohodnostní funkce: L(θ; X 1,..., X n ) = f θ (X ) (pro dskrétní n.v. použjeme pravděpodobnostní funkcí místo hustoty) Maxmálně věrohodný odhad ˆθ takový, že L(ˆθ; X 1,..., X n ) L(θ; X 1,..., X n ), θ Θ. Př hledání maxmálně věrohodného odhadu se většnou lépe pracuje s logartmckou věrohodnostní funkcí. Zdeněk Hlávka (KPMS) NMAI 061 53 / 231 Zdeněk Hlávka (KPMS) NMAI 061 54 / 231 Týden 4 Metoda maxmální věrohodnost Týden 4 Metoda maxmální věrohodnost Logartmcká věrohodnostní funkce: l(θ; X 1,..., X n ) = log L(θ; X 1,..., X n ) = log f θ (X ) Obvyklý postup: spočítáme dervac logartmcké věrohodnostní funkce a položíme j rovnou nule. Vyřešením této soustavy rovnc získáme maxmálně věrohodné odhady jednotlvých parametrů. Příklad: Odhad střední hodnoty exponencálního rozdělení. Příklad: Odhad střední hodnoty a rozptylu normálního rozdělení. Příklad: Odhad střední hodnoty Possonova rozdělení (dskrétní rozdělení). Asymptotcké rozdělení ML odhadu Věta: Za jstých předpokladů má maxmálně věrohodný odhad ˆθ parametru θ asymptotcké rozdělení: kde n 1/2 (ˆθ θ) D N(0, 1/J(θ)), { 2 } log f θ (X ) J(θ) = E θ 2 je Fsherova míra nformace o parametru θ, která je obsažena v náhodné velčně X s hustotou f θ (x). Důkaz a všechny předpoklady: vz například Anděl (1985, věta XV.6.10, str. 268) Pozn.: (J n (θ) = nj(θ) je Fsherova míra nformace o parametru θ, která je obsažena v náhodném výběru X 1,..., X n z rozdělení s hustotou f θ (x)). Zdeněk Hlávka (KPMS) NMAI 061 55 / 231 Zdeněk Hlávka (KPMS) NMAI 061 56 / 231

Týden 4 Metoda maxmální věrohodnost Týden 5 Asymptotcké rozdělení ML odhadu Týden 5 Poznámky k maxmálně věrohodným odhadům: Pokud věrohodnostní matc maxmalzujeme numercky, tak můžeme numercky získat odhad Fsherovy nformace (střední hodnotu odhadneme průměrem a vyjde nám druhá dervace věrohodnostní funkce). Pokud odhadujeme vektorový parametr, pak má maxmálně věrohodný odhad asymptotcky mnohorozměrné normální rozdělení (s nulovou střední hodnotou) a varanční matce je nverze tzv. Fsherovy nformační matce. V prax se jako odhad varanční matce často používá tzv. sandwchový odhad J 1 (θ)v (θ)j 1 (θ), } který má výhodnější vlastnost (V (θ) = Var ). { log fθ (X ) θ Téma: prncp testování hypotéz, nulová a alternatvní hypotéza, chyba prvního a druhého druhu, hladna testu, síla testu (slofunkce), jednovýběrový t-test, p-hodnota. Zdeněk Hlávka (KPMS) NMAI 061 57 / 231 Zdeněk Hlávka (KPMS) NMAI 061 58 / 231 Týden 5 Testování hypotéz Týden 5 Testování hypotéz Testování hypotéz hypotéza = výrok o parametru (nebo typu) rozdělení nulová hypotéza... H 0 alternatvní hypotéza... H 1 Máme X 1,..., X n náhodný výběr z rozdělení, jehož dstrbuční funkce závsí na θ Θ Chceme otestovat H 0 versus H 1 : H 0 : θ = θ 0 H 1 : θ {Θ \ θ 0 } Testovací krtérum (statstka) T (X 1,..., X n ). Nulovou hypotézu (H 0 ) zamítneme ve prospěch alternatvní hypotézy (H 1 ), pokud testová statstka padne do předem určeného krtckého oboru K (tj. T K). Rozhodování přnáší možnost chyby: chyba 1.druhu = H 0 zamítneme když platí = P(T K H 0 ) chyba 2.druhu = H 0 nezamítneme když neplatí= P(T K H 1 ) Hladna testu (významnost) = P(chyba 1.druhu) = α (obvykle 0.05, 0.01,... ) Síla testu = P(T K H 1 ) Obvykle požadujeme, aby chyba 1. druhu nebyla moc velká (P(T K H 0 ) α) a přtom byla síla testu co největší. P-hodnota = hranční hladna testu, na které ještě zamítáne nulovou hypotézu (tj. nulovou hypotézu zamítáme, pokud je p-hodnota α) Zdeněk Hlávka (KPMS) NMAI 061 59 / 231 Zdeněk Hlávka (KPMS) NMAI 061 60 / 231

Týden 5 Odvození testu Týden 5 Jednovýběrový t-test Obvyklý (rozumný) postup př odvozování testu: 1 zvolíme rozumnou testovou statstku T (obvykle: malá za H 0, velká za H 1 ), 2 určíme krtcký obor K tak, aby P(T K H 0 ) = α. Postup př testování: zamítneme H 0, pokud T K. Zamítnutí nulové hypotézy znamená: prokázal jsme, že platí H 1. Nezamítnutí nulové hypotézy znamená: buď H 0 platí nebo nemáme dost pozorování, abychom mohl H 0 vyvrátt (v prax se vyplatí naplánovat experment tak, abychom zajímavý rozdíl prokázal s dostatečně velkou pravděpodobností (sílou)). Jednovýběrový t-test (one-sample t-test) X 1,..., X n náhodný výběr z N(µ, σ 2 ), rozptyl σ 2 neznáme. H 0 : µ = µ 0 H 1 : µ µ 0 (oboustranná alternatva) Víme, že za platnost H 0 má T = n(x n µ 0 )/S rozdělení t n 1. P( T t n 1;1 α/2 H 0 ) = α a krtcký obor je tedy (, t n 1;α/2 ) (t n 1;1 α/2, ). p-hodnota = P( T n 1 > t), kde T n 1 t n 1 a t = n(x n µ 0 )/s je pozorovaná hodnota testové statstky. Zdeněk Hlávka (KPMS) NMAI 061 61 / 231 Zdeněk Hlávka (KPMS) NMAI 061 62 / 231 Týden 5 Jednovýběrový t-test Týden 5 Jednovýběrový t-test Příklad Jednostranný jednovýběrový t-test (one-sded one-sample t-test) Příklad: Opakované vážení vzorku: 15.23 15.21 15.19 15.16 15.26 15.22 15.23 15.26 15.23 15.29 Chceme otestovat, jestl skutečná hmotnost vzorku je µ 0 = 15.2. testová statstka T =... krtcká hodnota (určuje krtcký obor) p-hodnota X 1,..., X n náhodný výběr z N(µ, σ 2 ), rozptyl σ 2 neznáme. H 0 : µ = µ 0 H 1 : µ > µ 0 (jednostranná alternatva) H 0 zamítáme, pokud T t n 1;1 α Porovnání s dvouvýběrovým testem: na jedné straně má jednostranný test větší sílu, ale na druhé straně (pokud vyjde X n < µ 0 ) nulovou hypotézu vůbec zamítnout nemůžeme. Zdeněk Hlávka (KPMS) NMAI 061 63 / 231 Zdeněk Hlávka (KPMS) NMAI 061 64 / 231

Týden 5 Párový t-test Týden 5 Wlcoxonův test Párový t-test (pared t-test) Wlcoxonův test (sgned rank test) X 1,..., X n náhodný výběr Dvojce (páry) pozorování na každém objektu (X, Y ), = 1,..., n. Platí: Var(X Y ) = Var(X ) + Var(Y ) 2 Cov(X, Y ) (čím jsou pozorování v páru závslejší, tím menší je rozptyl jejch rozdílu). H 0 : EX = EY + je totéž jako H 0 : E(X Y ) =. Můžeme tedy použít jednovýběrový t-test na Z = X Y. H 0 : med(x ) = µ 0 H 1 : med(x ) µ 0 Testová statstka je založena pouze na pořadích a není tedy ctlvá na odlehlá pozorování. 1 Z = X µ 0, 2 Z se seřadí podle absolutních hodnot (R - pořadí -tého pozorování), 3 S + = :Z >0 R, S = :Z <0 R Za platnost H 0 by S + a S měly být podobné. Rozdělení S + za předpokladu symetre kolem µ 0 lze snadno vypočítat ( když je výpočetně náročné). Zdeněk Hlávka (KPMS) NMAI 061 65 / 231 Zdeněk Hlávka (KPMS) NMAI 061 66 / 231 Týden 5 Testy o rozptylu Týden 5 Testy o rozptylu Hypotézy o rozptylu Hypotéza shody rozptylů X 1,..., X n náhodný výběr z N(µ, σ 2 ). H 0 : σ 2 = σ0 2 H 1 : σ > σ0 2 (jednostranná alternatva) Nulovou hypotézu zamítneme, pokud bude výběrový rozptyl S 2 moc velký (S 2 > c). Za platnost H 0 víme, že (n 1)S 2 σ 2 0 χ 2 n 1 Krtckou hodnotu c teď snadno spočítáme tak, aby P(S 2 > c H 0 ) = α. X 1,..., X n a Y 1,..., Y m dva nezávslé náhodné výběry z N(µ 1, σ 2 1 ) a N(µ 2, σ 2 2 ). H 0 : σ 2 1 = σ2 2 H 1 : σ 1 σ 2 2 Nulovou hypotézu zamítneme, pokud S1 2/S 2 2 bude daleko od 1 (rozdělení podílu za H 0 umíme snadno spočítat). Krtckou hodnotu spočítáme ze známého rozdělení S1 2/S 2 2 za nulové hypotézy tak, aby P(zamítneme H 0 H 0 platí) = α. P-hodnota =? Příklad: Odvození testu prot oboustranné alternatvě H 1 : σ > σ 2 0. Zdeněk Hlávka (KPMS) NMAI 061 67 / 231 Zdeněk Hlávka (KPMS) NMAI 061 68 / 231

Odvození krtcké hodnoty: (n 1)S 2 1 σ 2 1 Týden 5 χ 2 n 1, Testy o rozptylu (m 1)S 2 2 σ 2 2 χ 2 m 1, kde S 1 a S 2 jsou nezávslé (spočítané z nezávslých náhodných výběrů) S 2 1 σ 2 1 S 2 2 σ 2 2 F n 1,m 1 Za H 0 máme σ 2 1 = σ2 a tedy S 2 1 /S 2 2 F n 1,m 1 Krtcké hodnoty nyní snadno určíme tak, aby α = P ( S 2 1 S 2 2 < c 1 nebo S 2 1 S 2 2 > c 2 H 0 ) Poznámky: Týden 5 Testy o rozptylu Krtcké hodnoty a kvantly jsou uvedeny v tabulkách, ale v každých tabulkách se může používat jné značení (POZOR!) Statstcké programy praktcky vždy uvádí p-hodnotu (pak krtckou hodnotu nepotřebujeme). Statstcká významnost není totéž jako praktcká důležtost (s dostatečně velkým počtem pozorování lze statstcky prokázat naprosto nezajímavý rozdíl). V prax se doporučuje expermenty plánovat tak, aby rozsah výběru byl rozumný (s ohledem na sílu testu) a tak, aby vyhodnocení dat (prmární analýza) bylo co nejjednodušší. Pro dskrétní proměnné se často používá test nezávslost v kontngenční tabulce. V mírně nestandardních stuacích lze často použít test poměrem věrohodností (lkelhood rato test). c 1 = F n 1,m 1;α/2 a c 1 = F n 1,m 1;1 α/2 Zdeněk Hlávka (KPMS) NMAI 061 69 / 231 Zdeněk Hlávka (KPMS) NMAI 061 70 / 231 Týden 6 Týden 6 Hladna a síla jednovýběrového t-testu Týden 6 Síla jednovýběrového t-testu Téma: síla testu (slofunkce), párový a dvouvýběrový t-test, ověřování předpokladů: shoda rozptylů, normalta, nezávslost. prncp použtí pořadových testů (podrobněj na cvčení). Síla testu je pravděpodobnost, že testová statstka překročí krtckou hodnotu (tj. pravděpodobnost zamítnutí nulové hypotézy). Za předpokladu normalty lze sílu jednovýběrového t-testu vypočítat jako funkc skutečné střední hodnoty µ, rozptylu σ 2 a počtu pozorování n. Zdeněk Hlávka (KPMS) NMAI 061 71 / 231 Zdeněk Hlávka (KPMS) NMAI 061 72 / 231

Týden 6 Hladna a síla jednovýběrového t-testu Týden 6 Hladna a síla jednovýběrového t-testu Síla jednostranného jednovýběrového t-testu Síla jednostranného jednovýběrového t-testu Power of one sded one sample t test Power of one sded one sample t test Power 0.0 0.2 0.4 0.6 0.8 1.0 Power 0.0 0.2 0.4 0.6 0.8 1.0 1 0 1 2 3 4 5 µ σ 2 = 1, n = 5 1 0 1 2 3 4 5 µ σ 2 = 1, n = 10 Zdeněk Hlávka (KPMS) NMAI 061 73 / 231 Zdeněk Hlávka (KPMS) NMAI 061 74 / 231 Týden 6 Hladna a síla jednovýběrového t-testu Týden 6 Hladna a síla jednovýběrového t-testu Síla jednostranného jednovýběrového t-testu Síla jednostranného jednovýběrového t-testu Power of one sded one sample t test Power of one sded one sample t test Power 0.0 0.2 0.4 0.6 0.8 1.0 Power 0.0 0.2 0.4 0.6 0.8 1.0 1 0 1 2 3 4 5 µ σ 2 = 10, n = 10, α = 0.05 1 0 1 2 3 4 5 µ σ 2 = 10, n = 10, α = 0.01 Zdeněk Hlávka (KPMS) NMAI 061 75 / 231 Zdeněk Hlávka (KPMS) NMAI 061 76 / 231

Týden 6 Hladna a síla jednovýběrového t-testu Týden 6 Hladna a síla jednovýběrového t-testu Síla jednostranného jednovýběrového t-testu Síla oboustranného jednovýběrového t-testu Power of one sded one sample t test Power of two sded one sample t test Power 0.0 0.2 0.4 0.6 0.8 1.0 Power 0.0 0.2 0.4 0.6 0.8 1.0 4 2 0 2 4 µ σ 2 = 1, n = 5 4 2 0 2 4 µ σ 2 = 1, n = 5 Zdeněk Hlávka (KPMS) NMAI 061 77 / 231 Zdeněk Hlávka (KPMS) NMAI 061 78 / 231 Týden 6 Hladna a síla jednovýběrového t-testu Týden 6 Hladna a síla jednovýběrového t-testu Síla oboustranného jednovýběrového t-testu Síla oboustranného jednovýběrového t-testu Power of two sded one sample t test Power of two sded one sample t test Power 0.0 0.2 0.4 0.6 0.8 1.0 Power 0.0 0.2 0.4 0.6 0.8 1.0 4 2 0 2 4 µ σ 2 = 1, n = 10 4 2 0 2 4 µ σ 2 = 10, n = 10, α = 0.05 Zdeněk Hlávka (KPMS) NMAI 061 79 / 231 Zdeněk Hlávka (KPMS) NMAI 061 80 / 231

Týden 6 Hladna a síla jednovýběrového t-testu Týden 6 Předpoklady: jednovýběrové a párové testy Síla oboustranného jednovýběrového t-testu Předpoklady pro jednovýběrový a párový t-test Power of two sded one sample t test Předpoklady pro jednovýběrový t-test: Power 0.0 0.2 0.4 0.6 0.8 1.0 normalta, nezávslost pozorování. Díky CLV nemívá porušení předpokladu normalty závažný vlv na vlastnost jednovýběrového t-testu (ten v prax selhává pouze v přítomnost velkých odlehlých pozorování). V prax lze vlastnost t-testu (sílu) zlepšt použtím vhodné transformace dat (Box-Cox, logartmus, odmocnna), pak se ale testuje hypotéza o střední hodnotě transformovaných dat (to obvykle vůbec nevadí např. u párového testu). 4 2 0 2 4 µ σ 2 = 10, n = 10, α = 0.01 Předpoklady pro použtí párového testu jsou splněné, pokud rozdíly (Y X ) splňují předpoklady pro použtí jednovýběrového testu. Zdeněk Hlávka (KPMS) NMAI 061 81 / 231 Zdeněk Hlávka (KPMS) NMAI 061 82 / 231 Týden 6 Předpoklady: jednovýběrové a párové testy Týden 6 Předpoklady: jednovýběrové a párové testy Předpoklady pro jednovýběrový a párový pořadový test Plánování expermentu Wlcoxonův test lze použít jako náhradu za t-test pro nenormální data (je to vhodné, pokud hrozí přítomnost velkých odlehlých pozorování). Předpoklady pro jednovýběrový Wlcoxonův test: symetre kolem testované hodnoty, nezávslost pozorování. Př porušení předpokladu symetre nemusí být zcela jasné, jestl nulovou hypotézu nezamítáme spíše kvůl nesymetr dat. Příklad: Chování t-testu a Wlcoxonova testu v přítomnost jedného hodně velkého odlehlého pozorování. V prax se doporučuje experment naplánovat tak, aby: bylo možné výsledky vyhodnott jednoduše (je vhodné zajstt např. nezávslost jednotlvých měření), test měl rozumnou sílu prot rozumným alternatvám (rozumná většnou znamená 80% pravděpodobnost zamítnutí nulové hypotézy př vhodně zvolené praktcky zajímavé alternatvě). Podmínkou ovšem je, abychom přesně věděl, co vlastně chceme zkoumat (testovat)! Zdeněk Hlávka (KPMS) NMAI 061 83 / 231 Zdeněk Hlávka (KPMS) NMAI 061 84 / 231

Týden 6 Dvouvýběrový t-test Týden 6 Dvouvýběrový t-test Dvouvýběrový t-test Máme dva nezávslé náhodné výběry X 1,..., X n a Y 1,..., Y m z N(µ x, σ 2 ) a N(µ y, σ 2 ). H 0 : µ x = µ y + H 1 : µ x µ y + Přrozená testová statstka je založená na rozdílu průměrů vyděleném odhadem směrodatné odchylky (rozdílu průměrů): T = X n Ȳ m S pooled 1 n + 1 m kde Spooled 2 = {(n 1)S X 2 + (m 1)S Y 2 }/(n + m 2). Za platnost H 0 má testová statstka rozdělení t n+m 2. Nulovou hypotézu tedy zamítneme, pokud T > t n+m 2;1 α/2. Zdeněk Hlávka (KPMS) NMAI 061 85 / 231, Dvouvýběrový t-test: jednostranné varanty Levostranná alternatva: H 0 : µ x = µ y + H L : µ x < µ y + Za platnost H 0 má testová statstka rozdělení t n+m 2. Nulovou hypotézu zamítáme, pokud T < t n+m 2;1 α. Pravostranná alternatva: H 0 : µ x = µ y + H L : µ x > µ y + Za platnost H 0 má testová statstka rozdělení t n+m 2. Nulovou hypotézu zamítáme, pokud T > t n+m 2;1 α. Zdeněk Hlávka (KPMS) NMAI 061 86 / 231 Týden 6 Dvouvýběrový t-test Týden 6 Dvouvýběrový t-test Dvouvýběrový t-test: jednostranné varanty Dvouvýběrový vs. párový t-test POZOR: jednostrannou alternatvu s musíme vybrat předem. Pokud s jednostrannou alternatvu zvolíme až podle naměřených hodnot, tak bude mít jednostranný test ve skutečnost dvakrát vyšší pravděpodobnost chyby prvního druhu. POZOR: použtí párového nebo dvouvýběrového testu závsí na způsobu sběru dat. Pokud mají oba výběry stejný rozsah (typcká stuace ve zkouškové písemce v prax), tak žádný program sám správný test nevybere! Chybné použtí dvouvýběrového t-testu (místo párového t-testu) snžuje sílu. Př chybném použtí párového t-testu (místo dvouvýběrového t-testu) můžou vycházet naprosté nesmysly - záleží pak na uspořádání dat v obou výběrech, tj. na tom, jaké hodnoty se od sebe budou odečítat. Zdeněk Hlávka (KPMS) NMAI 061 87 / 231 Zdeněk Hlávka (KPMS) NMAI 061 88 / 231

Týden 6 Dvouvýběrový t-test Týden 6 Dvouvýběrový t-test Příklad: Př zjšťování vlvu kouření na nervovou soustavu se u dvanáct osob měřl počet záchvěvů ruky před vykouřením a po vykouření cgarety. Výsledky měření jsou v následující tabulce: před 44 54 37 62 40 44 49 53 23 69 51 28 po 50 63 52 83 48 43 55 47 25 71 58 37 Zvolte vhodný test a rozhodněte, jestl je mez průměrným počtem záchvěvů před a po vykouření cgarety významný rozdíl na hladně významnost α = 0.01. Příklad: Jak známo, nedoporučuje se rychle za sebou střídat požívání horkého jídla a studeného nápoje, protože jsou přtom zuby vystavovány teplotním šokům, které mohou snžovat odolnost zubní sklovny. Byl proveden experment, ve kterém osm vytržených neplombovaných zubů bylo opakovaně vystavováno teplotním šokům tak, že byly střídavě ponořovány do vařící a ledové vody. Osm jných zubů bylo naopak pomalu vařeno. Nakonec byly všechny zuby drceny v lsu a přtom byla změřena síla, př které každý zub prasknul: pomalu uvařené 27.4 26.2 26.2 29.4 30.1 28.2 27.0 28.4 po teplotním šoku 25.9 26.4 27.0 27.8 26.3 27.6 27.0 25.6 Rozhodněte, jestl teplotní šoky opravdu snžují pevnost zubu a spočítejte 95% konfdenční nterval pro rozdíl středních hodnot síly potřebné k rozdrcení zubu. Zdeněk Hlávka (KPMS) NMAI 061 89 / 231 Zdeněk Hlávka (KPMS) NMAI 061 90 / 231 Týden 6 Dvouvýběrový t-test Týden 6 Dvouvýběrový t-test Předpoklady Předpoklad shody rozptylů Welchův test (default v R): Předpoklady pro dvouvýběrový t-test: shoda rozptylů (test shody rozptylů), normalta (test normalty), nezávslost. kde T = X n Y m S m.dff, S 2 m.dff = S 2 X n + S 2 Y m. Za platnost H 0 ( bez předpokladu shody rozptylů) má testová statstka přblžně t-rozdělení s počtem stupňů volnost: W = (S 2 X /n + S 2 Y /m)2 (S 2 X /n)2 /(n 1) + (S 2 Y /m)2 /(m 1), tj. H 0 zamítáme, pokud T > t W,1 α/2. Zdeněk Hlávka (KPMS) NMAI 061 91 / 231 Zdeněk Hlávka (KPMS) NMAI 061 92 / 231

Týden 6 Dvouvýběrový t-test Týden 6 Dvouvýběrový t-test Předpoklad normalty Předpoklad nezávslost V R je mplementováno mnoho různých testů normalty. V prax se nejčastěj doporučuje test Shapro-Wlkův. POZOR: V případě dvouvýběrového testu se test normalty samozřejmě používá zvlášť na každý výběr (př platnost alternatvy není sloučený výběr normální, an když oba výběry normální jsou). Porušení normalty lze často řešt vhodnou transformací (která opraví seškmení dat): Box-Coxy mocnnné transformace, logartmus. Obvykle přílš nezáleží na tom, jestl testujeme shodnost středních hodnot pro původní a transformovaná data. V přítomnost odlehlých pozorování můžeme použít dvouvýběrový pořadový (Wlcoxonův) test. Nezávslost po sobě jdoucích pozorování se testuje Durbn-Watsonovým testem, ale v prax můžou být data závslá jnak. časové řady, longtudnální data, tj. opakovaná měření na jednotlvých subjektech. Další způsob porušení předpokladů může být například cenzorování nebo závslost na dalších velčnách nebo chybějící pozorování nebo spousta dalších problémů... Zdeněk Hlávka (KPMS) NMAI 061 93 / 231 Zdeněk Hlávka (KPMS) NMAI 061 94 / 231 Týden 6 Dvouvýběrový Wlcoxonův test Týden 6 Dvouvýběrový Wlcoxonův test Dvouvýběrový Wlcoxonův test (rank sum test, Mann-Whtney) X 1,..., X n a Y 1,..., Y m nezávslé náhodné výběry s posunutým dstrbučním funkcem F X (x) a G Y (x) = F X (x + δ). H 0 : δ = δ 0 H 1 : δ δ 0 1 Z 1,..., Z n+m je spojený výběr X δ 0 a Y, 2 seřadíme Z podle velkost, 3 S X je součet pořadí odpovídající výběru X a S Y je součet pořadí odpovídající výběru Y. Za platnost H 0 lze pro dané n a m vypočítat rozdělení S X a S Y. Testová statstka S X (nebo W n,m = S X n(n + 1)/2) je založena pouze na pořadích a není tedy ctlvá na odlehlá pozorování. Zdeněk Hlávka (KPMS) NMAI 061 95 / 231 Poznámky: T-testy lze zobecnt pro vícerozměrná data (Hotellngovo T 2, F-test). Pro jné stuace lze často jednoduše odvodt test poměrem věrohodnost (lkelhood rato test): za jstých předpokladů má za platnost H 0 testová statstka 2 log(l 0 /L 1 ) rozdělení χ 2 r 1 r 0... V prax se často používají testy nezávslost v kontngenční tabulce (budeme mít na konc semestru). Testování hypotéz se hodně používá v lneární regres (t-testy významnost regresních koefcentů, testy podmodelů) - to budeme mít as za měsíc. Vzhledem k tomu, že pravděpodobnost chyby prvního druhu se většnou volí α =5%, tak př provedení většího množství testů nakonec vždy najdeme významnou závslost, která ve skutečnost neexstuje (zde pak pomáhá např. Bonferronho nebo Holmova korekce na mnohonásobné testování). Zdeněk Hlávka (KPMS) NMAI 061 96 / 231

Týden 7 Týden 7 Mnohorozměrná data Týden 7 Mnohorozměrná data Téma: náhodné vektory, pravdla pro počítání s vektory středních hodnot a s varančním matcem, sdružené, margnální a podmíněné rozdělení, kovarance a korelace, grafcké znázornění mnohorozměrných dat. X datová matce (n pozorování p-tce náhodných velčn, tzv. náhodného vektoru) Příklad: Bankovky, kosatce,... x 11... x 1p x 21... x 2p X =..... x n1... x np Grafcké znázornění: grafy v R, ggob. Zdeněk Hlávka (KPMS) NMAI 061 97 / 231 Zdeněk Hlávka (KPMS) NMAI 061 98 / 231 Náhodný vektor X R p Týden 7 Náhodné vektory (Mnohorozměrná) sdružená dstrbuční funkce: F (x) = P(X x) = P(X 1 x 1, X 2 x 2,..., X p x p ) f (x) je sdružená hustota X, t.j., F (x) = x f (u)du b f (u) du = 1, P{X (a, b)} = f (x)dx Ve vícerozměrném prostoru potřebujeme navíc další pojmy: X = (X 1, X 2 ), X 1 R k X 2 R p k margnální hustota X 1 je f X1 (x 1 ) = f (x 1, x 2 )dx 2 podmíněná hustota X 2 (za podmínky X 1 = x 1 ) je f X2 X 1 =x 1 (x 2 ) = f (x 1, x 2 )/f X1 (x 1 ) a Zdeněk Hlávka (KPMS) NMAI 061 99 / 231 Příklad: Týden 7 Náhodné vektory { 1 f (x 1, x 2 ) = 2 x 1 + 3 2 x 2 0 x 1, x 2 1, 0 jnak. f (x 1, x 2 ) je skutečně pravděpodobnostní hustota, protože f (x 1, x 2 ) 0 a f (x 1, x 2 )dx 1 x 2 = 1 [ ] x 2 1 1 + 3 [ ] x 2 1 2 = 1 2 2 0 2 2 0 4 + 3 4 = 1. Margnální hustoty jsou: f X1 (x 1 ) = f (x 1, x 2 )dx 2 = f X2 (x 2 ) = Podmíněné hustoty: f (x 2 x 1 ) = f (x 1, x 2 )dx 1 = 1 2 x 1 + 3 2 x 2 1 2 x 1 + 3 4 1 0 1 0 ( 1 2 x 1 + 3 ) 2 x 2 dx 2 = 1 2 x 1 + 3 4 ; ( 1 2 x 1 + 3 ) 2 x 2 dx 1 = 3 2 x 2 + 1 4 and f (x 1 x 2 ) = 1 2 x 1 + 3 2 x 2 3 2 x 2 + 1 4 Zdeněk Hlávka (KPMS) NMAI 061 100 / 231

Týden 7 Náhodné vektory Týden 7 Momenty Nezávslost Náhodné velčny X 1, X 2 jsou nezávslé tehdy a jen tehdy pokud f (x) = f (x 1, x 2 ) = f X1 (x 1 )f X2 (x 2 ). Totéž jným slovy: všechna podmíněná rozdělení jsou stejná jako rozdělení margnální (f (x 2 x 1 ) = f X2 (x 2 )). POZOR: Dva náhodné vektory mohou mít stejná margnální rozdělení a přtom různá sdružená rozdělení. Příklad: f (x 1, x 2 ) = 1, 0 < x 1, x 2 < 1, f (x 1, x 2 ) = 1 + α(2x 1 1)(2x 2 1), 0 < x 1, x 2 < 1, 1 α 1. 1 0 f X1 (x 1 ) = 1, f X2 (x 2 ) = 1. 1 + α(2x 1 1)(2x 2 1)dx 2 = 1 + α(2x 1 1)[x 2 2 x 2 ] 1 0 = 1. Vektor středních hodnot EX R p je p-rozměrný vektor středních hodnot náhodného vektoru X EX = EX 1. EX p = xf (x)dx = Poznámka: zřejmě x 1 f (x)dx = = x 1 f X1 (x 1 )dx 1. x1 f (x)dx. xp f (x)dx = µ. Vlastnost vektoru středních hodnot plynou z vlastností ntegrálu (nebo z vlastností střední hodnoty náhodné velčny): E (αx + βy ) = αex + βey Zdeněk Hlávka (KPMS) NMAI 061 101 / 231 Zdeněk Hlávka (KPMS) NMAI 061 102 / 231 Týden 7 Momenty Týden 7 Momenty Jsou-l náhodné vektory X a Y nezávslé, pak E(XY ) = xy f (x, y)dxdy = Varanční matce (Σ) xf (x)dx y f (y)dy = EXEY Σ = Var(X ) = E(X µ)(x µ) Budeme říkat, že náhodný vektor X má rozdělení s vektorem středních hodnot EX = µ a s varanční matcí Var(X ) = Σ, t.j., X (µ, Σ) (Ko)varanční matce lneární transformace Kovaranční matce: Cov(X, Y ) = E(X EX )(Y EY ) Varanční (rozptylová) matce: Cov(X, X ) = Var(X ) Vlastnost: Var(a X ) = a Var(X ) a = a a j σ X X,j j Var(AX + b) = A Var(X ) A Cov(X + Y, Z) = Cov(X, Z) + Cov(Y, Z) Var(X + Y ) = Var(X ) + Cov(X, Y ) + Cov(Y, X ) + Var(Y ) Cov(AX, BY ) = A Cov(X, Y ) B. Zdeněk Hlávka (KPMS) NMAI 061 103 / 231 Zdeněk Hlávka (KPMS) NMAI 061 104 / 231

Týden 7 Momenty Týden 7 Momenty Transformace Prvky matce Σ jsou rozptyly a kovarance složek náhodného vektoru X : Σ = (σ X X j ) (rozptyl σ X X j = Cov(X, X j ), kovarance σ X X = Var(X )) Výpočetní vzorec: Σ = E(XX ) µµ Varanční matce je poztvně semdefntní: Σ 0 (rozptyl a Σa lbovolné lneární kombnace a X nemůže být záporný). Hustota transformovaného vektoru se (v případě potřeby) spočítá podobně jako hustota transformované náhodné velčny. X f X, zajímá nás hustota (prosté) trasformace Y = t(x )? Pokud J je jakobán zpětné transformace X = u(y ), t.j., ( ) ( ) x u (y) J = =, y j y j pak hustota Y = t(x ) je: f Y (y) = abs( J )f X {u(y)} Zdeněk Hlávka (KPMS) NMAI 061 105 / 231 Zdeněk Hlávka (KPMS) NMAI 061 106 / 231 Týden 7 Momenty Týden 7 Momenty Mnohorozměrné normální rozdělení Hustota mnohorozměrného normálního rozdělení (za předpokladu plné hodnost Σ) je: { f (x) = 2πΣ 1/2 exp 1 } 2 (x µ) Σ 1 (x µ). X N p (µ, Σ) Vektor středních hodnot EX = µ Varanční matce X je Var{X } = Σ > 0 Příklad: Jaké je margnální rozdělení každé složky náhodného vektoru? Příklad: Čemu odpovídá kvadratcká forma (x µ) T Σ 1 (x µ) ve vzorc pro hustotu? Hustota N p (µ, Σ) je konstantní na elpsodech (x µ) Σ 1 (x µ) = d 2 Pokud X N p (µ, Σ), pak náhodný vektor Y = (X µ) Σ 1 (X µ) má rozdělení χ 2 p (protože tzv. Mahalanobsova transformace Z = Σ 1/2 (X µ) N p (0, I p ) a Y = Z T Z = p j=1 Z j 2). (Pozn.: pokud varanční matc nahradíme odhadem, tak získáme tzv. Hotellngovo rozdělení a mnohorozměrnou verz t-testu.) Zdeněk Hlávka (KPMS) NMAI 061 107 / 231 Zdeněk Hlávka (KPMS) NMAI 061 108 / 231

Týden 7 Momenty Týden 7 Momenty Centrální lmtní věta Mnohorozměrná delta metoda Centrální lmtní věta popsuje asymptotcké rozdělení výběrového průměru. X 1, X 2,..., X n,..d. z rozdělení X (µ, Σ) n(x µ) L N p (0, Σ) for n. CLV lze použít ke konstrukc konfdenčních elpsodů (nepraktcké) nebo k testování. Normální rozdělení hraje ve statstce centrální úlohu. Pokud L n(t µ) N p (0, Σ) a f = (f 1,..., f q ) : R p R q jsou reálné funkce dferencovatelné v µ R p, pak f (t) je asymptotcky normální se stř. hodnotou f (µ) a varanční matcí D ΣD, t.j., kde n{f (t) f (µ)} L N q (0, D ΣD) for n, ( ) fj D = (t) t (p q) je matce parcálních dervací. t=µ Pomocí této věty můžeme také nalézt transformace stablzující rozptyl. Zdeněk Hlávka (KPMS) NMAI 061 109 / 231 Zdeněk Hlávka (KPMS) NMAI 061 110 / 231 Týden 7 Momenty Týden 8 Příklady Týden 8 Mnohorozměrné normální rozdělení: margnální a podmíněná rozdělení, nezávslost, lneární transformace. Standardzace. Mahalanobsova transformace. Příklad: T-test zapsaný pomocí náhodných vektorů (X N n (µ, dag(σ 2 )), X n = 1 n X /n, S 2 =... ). Téma: mnohorozměrná data, standardzace a Mahalanobsova transformace, projekce a lneární kombnace, hlavní komponenty. Zdeněk Hlávka (KPMS) NMAI 061 111 / 231 Zdeněk Hlávka (KPMS) NMAI 061 112 / 231

Týden 8 Mnohorozměrná data Týden 8 Standardzace Mnohorozměrná data Opakování z mnulého týdne: X datová matce (n pozorování p-tce náhodných velčn, tzv. náhodného vektoru) x 11... x 1p x 21... x 2p X =..... x n1... x np Příklad: Grafcké znázornění švýcarských bankovek (6D) na obrazovce počítače. Průměr a výběrová varanční matce: x = x 1. x p S = n 1 X X x x = n 1 X 1 n = n 1 (X X n 1 X 1 n 1 n X ) = n 1 X HX Centrovací matce H = I n n 1 1 n 1 n. D = dag(s Xj X j ), kde X j, j = 1,..., p jsou sloupce matce X Centrovaná data: X C = X n 1 1 n 1 n X = HX Standardzovaná data: X S = X C D 1/2 = HX D 1/2 Korelační matce R = D 1/2 SD 1/2. Zdeněk Hlávka (KPMS) NMAI 061 113 / 231 Zdeněk Hlávka (KPMS) NMAI 061 114 / 231 Lneární transformace: A (q p) matce konstant: Týden 8 Mahalanobsova transformace Y = X A = (y 1,..., y n ) y = Ax S Y = AS X A Standardzací získáme centrovaná data s jednotkovým rozptyly. Mahalanobsova transformace: z = S 1/2 (x x), = 1,..., n, S Z = n 1 Z HZ = I p, Z = 0. Mahalanobsova transformace (spherng) vede na centrovaná data s jednotkovou varanční matcí (tj. nekorelované sloupce). Zdeněk Hlávka (KPMS) NMAI 061 115 / 231 Týden 8 Hlavní komponenty Hlavní komponenty (prncpal components) Př grafckém znázornění mnohorozměrných dat se chceme soustředt na ty nejdůležtější projekce. Nejjednodušší metoda hledání zajímavých projekcí je metoda hlavních komponent. Cíl: nalézt standardzovanou lneární kombnac s maxmálním rozptylem. δ X = p j=1 δ jx j a přtom δ = 1 standardzovaná max {δ: δ =1} Var(δ X ) = max {δ: δ =1} δ Var(X )δ. Řešení pomocí lneární algebry (spektrální rozklad matce): δ = γ 1 = první vlastní vektor Var(X ) Zdeněk Hlávka (KPMS) NMAI 061 116 / 231

Příklad: Týden 8 Hlavní komponenty Dvourozměrné normální rozdělení N(0, Σ), Σ = ( 1 ρ ) ρ 1, ρ > 0. Vlastní čísla varanční matce jsou λ 1 = 1 + ρ a λ 2 = 1 ρ s vlastním vektory γ 1 = 1 ( ) 1, γ 2 = 1 ( ) 1. 2 1 2 1 Příklad: (pokračování) První hlavní komponenta: a druhá hlavní komponenta: Týden 8 Hlavní komponenty Y 1 = 1 2 (X 1 + X 2 ) Y 2 = 1 2 (X 1 X 2 ). Hlavní komponenty tedy jsou or ( Y1 Y 2 Y = Γ (X µ) = 1 ( 1 1 2 1 1 ) = 1 2 ( X1 + X 2 X 1 X 2 ). ) X Rozptyl první hlavní komponenty je: { } 1 Var(Y 1 ) = Var 2 (X 1 + X 2 ) = 1 2 Var(X 1 + X 2 ) = 1 2 {Var(X 1) + Var(X 2 ) + 2 Cov(X 1, X 2 )} = 1 2 (1 + 1 + 2ρ) = 1 + ρ = λ 1. Zdeněk Hlávka (KPMS) NMAI 061 117 / 231 Obdobně: Var(Y 2 ) = λ 2. Zdeněk Hlávka (KPMS) NMAI 061 118 / 231 Týden 8 Hlavní komponenty Týden 8 Hlavní komponenty Vlastnost hlavních komponent Nechť X (µ, Σ) a Y je transformace metodou hlavních komponent, tj. Y = Γ (X µ). (Spektrální rozklad: Σ = ΓΛΓ, kde Γ je ortogonální a Λ dagonální.) Pak platí: EY j = 0 Var(Y j ) = λ j Cov(Y, Y j ) = 0, for j Var(Y 1 ) Var(Y p ) 0 j Var(Y j) = tr(σ) Var(Yj ) = Σ. Interpretace: λ j / tr(σ) se považuje za podíl celkového rozptylu X vysvětlený j-tou hlavní komponentou. Nechť Y = a X je standardzovaná lneární kombnace nekorelovaná s prvním k hlavním komponentam X. Pak Var(Y ) je největší pro a = γ k+1 Kovarance a korelace mez PC a X Cov(X, Y ) = E(XY ) EXEY = E(XY ) = E(XX Γ) µµ Γ = Var(X )Γ = ΣΓ = ΓΛΓ Γ = ΓΛ ρ X Y j = γ j ( λj σ X X ) 1/2 Lze jednoduše spočítat, že ρ2 X Y j = 1 (v grafu bude bod Y j se souřadncem ρ X Y j ležet na povrchu koule), r =1 ρ2 X Y j můžeme nterpretovat jako část varablty X vysvětlenou prvním r HK. Zdeněk Hlávka (KPMS) NMAI 061 119 / 231 Zdeněk Hlávka (KPMS) NMAI 061 120 / 231