Normální rozložení a odvozená rozložení

Podobné dokumenty
8. Normální rozdělení

Střední hodnota a rozptyl náhodné. kvantilu. Ing. Michael Rost, Ph.D.

X = x, y = h(x) Y = y. hodnotám x a jedné hodnotě y. Dostaneme tabulku hodnot pravděpodobnostní

8.1. Definice: Normální (Gaussovo) rozdělení N(µ, σ 2 ) s parametry µ a. ( ) ϕ(x) = 1. označovat písmenem U. Její hustota je pak.

Pravděpodobnost a aplikovaná statistika

Normální (Gaussovo) rozdělení

MATEMATICKÁ STATISTIKA

6.1 Normální (Gaussovo) rozdělení

KGG/STG Statistika pro geografy

Jednofaktorová analýza rozptylu

E(X) = np D(X) = np(1 p) 1 2p np(1 p) (n + 1)p 1 ˆx (n + 1)p. A 3 (X) =

PRAVDĚPODOBNOST A STATISTIKA

Vybraná rozdělení náhodné veličiny

Jiří Neubauer. Katedra ekonometrie, FVL, UO Brno kancelář 69a, tel

15. T e s t o v á n í h y p o t é z

15. T e s t o v á n í h y p o t é z

Výběrové charakteristiky a jejich rozdělení

Náhodný vektor a jeho charakteristiky

Pravděpodobnost a statistika, Biostatistika pro kombinované studium. Jan Kracík

Náhodný vektor. Náhodný vektor. Hustota náhodného vektoru. Hustota náhodného vektoru. Náhodný vektor je dvojice náhodných veličin (X, Y ) T = ( X

Definice spojité náhodné veličiny zjednodušená verze

Testování hypotéz o parametrech regresního modelu

Testování hypotéz o parametrech regresního modelu

Praktická statistika. Petr Ponížil Eva Kutálková

12. cvičení z PST. 20. prosince 2017

Poznámky k předmětu Aplikovaná statistika, 5.téma

LIMITNÍ VĚTY DALŠÍ SPOJITÁ ROZDĚLENÍ PR. 8. cvičení

Regresní analýza 1. Regresní analýza

10. cvičení z PST. 5. prosince T = (n 1) S2 X. (n 1) s2 x σ 2 q χ 2 (n 1) (1 α 2 ). q χ 2 (n 1) 2. 2 x. (n 1) s. x = 1 6. x i = 457.

ÚVOD DO TEORIE ODHADU. Martina Litschmannová

Regresní a korelační analýza

Normální (Gaussovo) rozdělení

MATEMATICKÁ STATISTIKA - XP01MST

7. Analýza rozptylu.

Náhodná veličina a její charakteristiky. Před provedením pokusu jeho výsledek a tedy ani sledovanou hodnotu neznáte. Proto je proměnná, která

Regresní a korelační analýza

Definice 7.1 Nechť je dán pravděpodobnostní prostor (Ω, A, P). Zobrazení. nebo ekvivalentně

4EK211 Základy ekonometrie

5. T e s t o v á n í h y p o t é z

Charakterizace rozdělení

I. D i s k r é t n í r o z d ě l e n í

JAK MODELOVAT VÝSLEDKY NÁH. POKUSŮ? Martina Litschmannová

Matematika III 10. týden Číselné charakteristiky střední hodnota, rozptyl, kovariance, korelace

p(x) = P (X = x), x R,

Statistika II. Jiří Neubauer

Náhodné veličiny jsou nekorelované, neexistuje mezi nimi korelační vztah. Když jsou X; Y nekorelované, nemusí být nezávislé.

P13: Statistické postupy vyhodnocování únavových zkoušek, aplikace normálního, Weibullova rozdělení, apod.

Téma 22. Ondřej Nývlt

9. T r a n s f o r m a c e n á h o d n é v e l i č i n y

VYBRANÉ DVOUVÝBĚROVÉ TESTY. Martina Litschmannová

Odhad parametrů N(µ, σ 2 )

Náhodný vektor. Náhodný vektor. Hustota náhodného vektoru. Hustota náhodného vektoru. Náhodný vektor je dvojice náhodných veličin (X, Y ) T = ( X

1. Náhodný vektor (X, Y ) má diskrétní rozdělení s pravděpodobnostní funkcí p, kde. p(x, y) = a(x + y + 1), x, y {0, 1, 2}.

Základy teorie pravděpodobnosti

PRAVDĚPODOBNOST A STATISTIKA

Statistická analýza jednorozměrných dat

PSY117/454 Statistická analýza dat v psychologii přednáška 8. Statistické usuzování, odhady

Náhodné vektory a matice

Bakalářské studium na MFF UK v Praze Obecná matematika Zaměření: Stochastika. 1 Úvodní poznámky. Verze: 13. června 2013

Charakteristika datového souboru

TESTOVÁNÍ HYPOTÉZ STATISTICKÁ HYPOTÉZA Statistické testy Testovací kritérium = B B > B < B B - B - B < 0 - B > 0 oboustranný test = B > B

ROZDĚLENÍ SPOJITÝCH NÁHODNÝCH VELIČIN

Pravděpodobnostní rozdělení

Pravděpodobnost a aplikovaná statistika

= = 2368

Statistika, Biostatistika pro kombinované studium. Jan Kracík

NÁHODNÝ VEKTOR. 4. cvičení

12. cvičení z PSI prosince (Test střední hodnoty dvou normálních rozdělení se stejným neznámým rozptylem)

AVDAT Náhodný vektor, mnohorozměrné rozdělení

VYBRANÁ ROZDĚLENÍ. SPOJITÉ NÁH. VELIČINY Martina Litschmannová

Regresní a korelační analýza

pravděpodobnosti, popisné statistiky

12. prosince n pro n = n = 30 = S X

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Statistická analýza dat v psychologii. Věci, které můžeme přímo pozorovat, jsou téměř vždy pouze vzorky. Alfred North Whitehead

KGG/STG Statistika pro geografy

Odhad parametrů N(µ, σ 2 )

Rozdělení náhodné veličiny. Distribuční funkce. Vlastnosti distribuční funkce

Testování statistických hypotéz

Regresní a korelační analýza

ROZDĚLENÍ NÁHODNÝCH VELIČIN

Přednáška. Další rozdělení SNP. Limitní věty. Speciální typy rozdělení. Další rozdělení SNP Limitní věty Speciální typy rozdělení

KGG/STG Statistika pro geografy

JAK MODELOVAT VÝSLEDKY

Úvod do teorie odhadu. Ing. Michael Rost, Ph.D.

Základy popisné statistiky

INDUKTIVNÍ STATISTIKA

Mann-Whitney U-test. Znaménkový test. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek

Vícerozměrné statistické metody

VŠB-TU OSTRAVA, FAKULTA ELEKTROTECHNIKY A INFORMATIKY, KATEDRA APLIKOVANÉ MATEMATIKY. Statistika. Vzorce a tabulky

letní semestr 2012 Katedra pravděpodobnosti a matematické statistiky Matematicko-fyzikální fakulta Univerzity Karlovy Matematická statistika

MATEMATICKÁ STATISTIKA. Katedra matematiky a didaktiky matematiky Technická univerzita v Liberci

Vlastnosti odhadů ukazatelů způsobilosti

Vícerozměrná rozdělení

Pravděpodobnost a statistika

Tomáš Karel LS 2012/2013

Transkript:

I Normální rozložení a odvozená rozložení I.I Normální rozložení Data, se kterými pracujeme, pocházejí z různých rozložení. Mohou být vychýlena (doleva popř. doprava, nebo v nich není na první pohled vidět žádná tendence. Často se ale setkáváme s daty, která jsou symetricky rozložená okolo jedné hodnoty. Příkladem je denní procentuální změna ceny ropy na mezinárodních trzích během roku 2015. Nejčastěji se cena změnila velmi málo, zatímco prudké změny byly velmi vzácné. Handout 1 Statistika 2

Podobnou tendenci sleduje spousta náhodných veličin, například výška (hmotnost člověka, IQ, počet bodů získaných v testu, množství srážek... Tento jev nás vede k zavedení tzv. normálního rozdělení, které je charakterizováno dvěma parametry µ a σ. To, že náhodá veličina X pochází z normálního rozdělení, značíme X N(µ, σ 2. Parametr µ je střední hodnota, ve které nabývá hustota normálního rozdělení maxima, parametr σ 2 je rozptyl, charakterizující variabilitu náhodné veličiny X. Čím je σ 2 menší, tím spíše se realizace náhodné veličiny X budou blížit střední hodnotě. Někdy se také normálnímu rozložení říká Gaussovo rozložení a grafu hustoty normálního rozložení gaussova (nebo zvonová křivka (anglicky bell curve. Hustota f(x náhodné veličiny X z normálního rozdělení N(µ, σ 2 je dána vztahem f(x = pro všechna x R. Distribuční funkce F (x má pak tvar F (x = 1 1 (x µ 2 2πσ 2 e 2 σ 2, (1 1 2πσ 2 x Normální rozdělení má několik užitečných vlastností: e 1 (t µ 2 2 σ 2 dt. (2 Pokud X N(µ, σ 2, pak E(X = µ = x = ˆx (tj. střední hodnota, medián i modus jsou rovny µ, z toho také plyne, že je hustota symetrická podle přímky x = µ a rozptyl D(X = σ 2. Směrodatná odchylka je tedy σ. Normální rozdělení zachovává lineární transformaci pokud X N(µ, σ 2, pak pro a, b R platí, že (a + bx N(a + bµ, b 2 σ 2. Pravdivá je dokonce i silnější verze, normální rozdělení dokonce zachovává lineární kombinace... Handout 2 Statistika 2

Pokud X 1, X 2... X n jsou stochasticky nezávislé náhodné veličiny takové, že X i N(µ i, σi 2 pro i = 1, 2,..., n, pak náhodná veličina Y vzniklá lineární kombinací Y = n i=1 (a i+b i X i má zase normální rozdělení Y N( n i=1 (a i + b i µ i, n i=1 b2 i σi 2. Bohužel pro distribuční funkci náhodné veličiny X, která má normální rozdělení N(µ, σ 2 neexistuje explicitní formule bez integrálu, do které by stačilo dosadit hodnoty µ, σ 2 a x, abychom snadno spočítali F (x. Ve skutečnosti lze hodnotu F (x počítat pouze numericky. Nicméně pro tzv. standardizované normální rozdělení jsou hodnoty distribuční funkce i kvantily tabelizované. Vhodnou transformací pak dokážeme spočítat hodnoty distribuční funkce F (x pro libovolné normální rozdělení. Standardizované normální rozdělení se používá tak často, že si vysloužilo vlastní značení. Náhodnou veličinu, která pochází z standardizovaného normálního rozdělení bývá zvykem značit U N(0, 1 a její distribuční funkci Φ(x. Důležité tvrzení Předpokládejme, že X N(µ, σ 2. Pak U = X µ σ veličina, tj. U N(0, 1. je standardizovaná normální náhodná Interpretační poznámka. Pokud chceme z obecné normální náhodné veličiny X vytvořit standardizovanou normální náhodnou veličinu, tak od X odečteme střední hodnotu µ, čímž se nám vrchol hustoty posune do 0 a podělíme směrodatnou odchylkou σ, čímž graf hustoty přeškálujeme (změníme měřítko. V tabulkách se nacházejí hodnoty distribuční funkce Φ(u pro u 0. Pro záporná u se používá přepočtový vztah, Φ( u = 1 Φ(u. Pro α-kvantil standardizovaného normálního rozdělení se používá značení u α. Ty jsou tabelovány pro α 0, 5. Ostatní α-kvantily spočítáme ze vztahu u α = u 1 α. Jak se tato transformace používá v praktických výpočtech ukazuje následující příklad. Motivační příklad. Je známo, že denní počet platících zákazníků, kteří navštíví e-shop je náhodná veličina, která se řídí normálním rozložením se střední hodnotou µ = 1286 a rozptylem σ 2 = 7584. Jaká je pravděpodobnost, že: a v daném dni bude mít e-shop aspoň 1400 platících zákazníků? b v daném dni nakoupí v e-shopu více, než 1200, ale méně, než 1500 zákazníků? Řešení. Označíme X náhodnou veličinu, která udává počet platících zákazníků za jeden den v e-shopu. Podle zadání X N(1286, 7584. V zadání a nás zajímá P (X 1400 = 1 P (X 1400 + P (X = 1400. Víme, že P (X = 1400 = 0, protože X je spojitá náhodná veličina.dále upravíme tak, abychom získali výraz, obsahující distribuční funkci standardizovaného normálního rozdělení. P (X 1400 = 1 P (X 1400 + P (X = 1400 = 1 P (X 1400 = = 1 P ( X µ 1400 µ =... }{{ σ } σ U N(0,1 Handout 3 Statistika 2

Dosadíme známe hodnoty a vyčíslíme. 1400 1286 = 1 P (U =. 1 P (U 1, 31 = 1 Φ(1, 31. 7584 Podle tabulek je Φ(1, 309 = 0.905, a tedy hledaná pravděpodobnost 1 0, 905 = 0, 095 = 9, 5%. V řešení b hledáme P (1200 < X < 1500. Postup je zcela analogický. P (1200 X 1500 = P (X 1500 P (X 1200 = = P ( X µ 1500 µ P ( X µ σ σ σ Dosadíme za µ a σ..... = P (U 2, 46 P (U 0, 99 = Φ(2, 46 Φ( 0, 99 1200 µ σ Tyto hodndoty nalezneme v tabulce, pro Φ( 0, 99 využijeme přepočtový vztah Φ( 0, 99 = 1 Φ(0, 99. Dohromady tedy = Φ(2, 46 (1 Φ(0, 99 = 0, 993 (1 0, 839 = 0, 832 = 83, 2%. Pravděpodobnost, že e-shop navštíví během daného dne 1200 až 1500 zákazníků je 83,2%. Důležité tvrzení: Pravidlo 3σ Mějme normální náhodnou veličinu X se střední hodnotou µ a směradatnou odchylkou σ. Pak platí: P (µ σ X µ + σ 68% P (µ 2σ X µ + 2σ 95% P (µ 2σ X µ + 2σ 99, 7% Interpretační poznámka. Pravidlo 3σ se dá používat k jednoduchému testu normality dat spočítáme výběrový průměr X (odhad střední hodnoty a výběrovou směrodatnou odchylku s. Pokud data pochází z normálního rozdělení, tak musí přibližně platit procentuální zastoupení, jaké udává pravidlo 3σ s tím, že místo teoretických hodnot µ a σ použijeme jejich odhady. Naopak, Pravidlo 3σ nám říká, jak často bude docházet k extrémním hodnotám náhodné veličiny. Motivační příklad. Procentuální denní změna ceny ropy je normálná náhodná veličina X N(0, 2, 5 2. Tedy σ = 2, 5 a pravděpodobnost, že se cena ropy změní přes noc o více, než 5% je podle Pravidla 3σ přibližině 1-0,95=0,05=5%. Pravděpodobnost, že změna ceny ropy bude dokonce větší, než 7,5% je dokonce menší, než 0,3%. Naopak pravděpodobnost, že se cena ropy změní jen málo, tj. max o 2,5%, je 68%. I.II Rozložení pravděpodobnosti odvozená od normálního Zatímco normální rozdělení používáme pro modelování rozličných náhodných veličin, následující trojice rozložení se používá pro testování statistických hypotéz náhodné veličiny, které by se řídily těmito rozděleními se v praxi příliš nevyskytují. Všechna tato rozložení vznikla algebraickými úpravami ze standardizovaného normálního rozložení. Handout 4 Statistika 2

Pearsonovo χ 2 rozložení Jako první uvedeme Pearsonovo rozložení, kterému se také říká χ 2 zejména v anglické literatuře. Nový pojem: Pearsonovo rozložení [chí kvadrát] rozložení, Předpokládejme, že U 1, U 2,..., U n jsou stochasticky nezávislé standardizované normální veličiny, tj. U i N(0, 1 pro i = 1, 2,..., n. Náhodná veličina V = n i=1 U 2 i má pak Pearsonovo rozložení, což značíme V χ 2 (n, parametr n nazýváme stupně volnosti. Protože druhá mocnina reálného čísla je vždy nezáporná, tak i součet druhých mocnin reálných čísel je nezáporný. Z toho plyne, že náhodná veličina, řídící se Pearsonovým rozdělením je nezáporná. Všimněte si, že s rostoucím počet stupňů volnosti n se posouvá poloha maxima hustoty Pearsonova roložení doprava. Užitečná poznámka. Kvantily Pearsonova rozdělení se počítají numericky, nejčastěji používané hodnoty jsou tabelizované. α-kvantil Pearsonova rozložení s n stupni volnosti značíme χ 2 α(n. Pro velká n se používá aproximace χ 2 α(n 1 2 (u α + 2n 1 2, kde u α je α-kvantil standardizovaného normálního rozložení. Handout 5 Statistika 2

Studentovo t-rozložení Dalším důležitým rozložením je Studentovo t-rozložení nebo jen t-rozložení. V názvu píšeme velké S, protože jej objevil matematik William Sealy Gosset, který publikoval pod pseudonymem Student. Nový pojem: Studentovo t-rozložení Předpokládejme, že U a V jsou stochasticky nezávislé náhodné veličiny takové, že U N(0, 1 a V χ 2 (n. Pak náhodná veličina T = U V n má Studentovo t-rozložení s n stupni volnosti, značíme T t(n. Grafem hustoty Studentova t-rozdělení je podobná zvonová křivka, jako u normálního rozdělení. S rostoucí hodnotou parametru n se Studentovo t-rozdělení blíží standardizovanému normálnímu rozdělení. Opět, α-kvantil Studentova t-rozdělení značíme t α (n, tyto kvantily můžeme počítat numericky nebo vyhledat v tabulce, kde jsou uvedeny pro α 0, 5. Ze symetrie hustoty Studentova t-rozdělení vyplývá, že pro α < 0, 5 můžeme využít přepočtový vztah t α (n = t 1 α (n. Handout 6 Statistika 2

Fisher-Snedecorovo rozdělení Poslední rozdělení, které budeme při testování hypotéz potřebovat, je Fisher-Snedecorovo rozdělení, zkráceně F-rozdělení. Nový pojem: Fisher-Snedecorovo rozdělení Máme-li dvě stochasticky nezávislé náhodné veličiny V 1 a V 2, které pocházejí z Pearsonova rozdělení s n 1, resp. n 2 stupni volnosti, tj. V 1 χ 2 (n 1, V 2 χ 2 (n 2, pak náhodná veličina F = V 1 n 1 V 2 = V 1 n 2 n 2 V 2 n 1 má Fisher-Snedecorovo rozdělení. Parametr n 1 nazýváme počet stupňů volnosti čitatele, parametr n 2 počet stupňů volnosti jmenovatele. Značíme F F (n 1, n 2. Náhodná veličina F, která se řídí Fisher-Snedecorovým rozdělením je nezáporná, protože vznikla jako podíl dvou nezáporných náhodných veličin průměrů čtverců ze standardizovaných normálních rozdělení. Pro rostoucí hodnoty n 2 se hustota pravděpodobnosti Fisher-Snedecorova rozdělení blíží hustotě Pearsonova χ 2 rozdělení s n 1 stupni volnosti. Pro α-kvantil Fisher-Snedecorova rozdělení s n 1 stupni volnosti čitatele a n 2 stupni volnosti jmenovatele se používá značení F α (n 1, n 2. Tyto hodnoty jsou pro α 0, 5 tabelované. Pro výpočet α-kvantilů při α < 0, 5 se používá vztah F α (n 1, n 2 = 1 F 1 α (n 2, n 1. Handout 7 Statistika 2

I.III Dvourozměrné normální rozdělení Normální rozložení náhodné veličiny X můžeme zobecnit pro (obecně n-rozměrný náhodný vektor X. Prakticky budeme ale pracovat jen s případem n = 2, a tedy X = ( X 1 X 2. Skutečnost, že náhodný vektor X pochází z dvourozměrného normálního rozdělení s vektorem středních hodnot µ = ( µ 1 ( σ 2 µ 2 a variační maticí Σ = 1 ρσ 1 σ 2 ρσ 1 σ 2 σ, zapisujeme X 2 2 N2 (µ, Σ. V případě, že µ je nulový vektor a Σ diagonální matice, mluvíme o standardizovaném n-rozměrném normálním rozdělením. Vztah, mezi vícerozměrným normálním rozdělením náhodného vektoru X a marginálními rozděleními jeho složek X i shrnuje následující tvrzení. Pro jiná rozložení podobné tvrzení neplatí. Důležité tvrzení: Vztah mezi dvourozměrným normálním rozdělením náhodného vektoru X a marginálními rozděleními jeho složek Mějme náhodný vektor X = ( X 1 X 2 z dvourozměrného normálního rozdělení s vektorem středních hodnot µ = ( ( µ 1 σ 2 µ 2 a variační maticí Σ = 1 ρσ 1 σ 2 ρσ 1 σ 2 σ2 2, tj. X N 2 (µ, Σ. Potom Marginální náhoná veličina X 1 má normální rozdělení se střední hodnotou µ 1 a rozptylem σ 2 1. Marginální náhoná veličina X 2 má normální rozdělení se střední hodnotou µ 2 a rozptylem σ 2 2. Korelace náhodný veličin X 1 a X 2 je ρ. Handout 8 Statistika 2

Rovněž vícerozměrné normální rozložení zachovává linearitu, nicméně si musíme pohlídat rozměry vektorů a matic abychom je mohli násobit. Důležité tvrzení: Lineární transformace dvourozměné normální náhodné veličiny Pokud X N 2 (µ, Σ a máme vektor reálných čísel a = ( a 1 a 2 a čtvercovou matici reálných čísel B = ( b 11 b 12 b 21 b 22, pak transformovaný náhodný vektor Y = a + BX má také dvourozměrné normální rozložení, a sice Y N 2 (a + Bµ, BΣB T Handout 9 Statistika 2