Pravděpodobost a aplikovaá statistika MGR. JANA SEKNIČKOVÁ, PH.D. 6. KAPITOLA CENTRÁLNÍ LIMITNÍ VĚTA 6.11.2017
Opakováí: Čebyševova erovost příklad Pravděpodobost vyrobeí zmetku je 0,5. Odhaděte pravděpodobost, že při vyrobeí 1000 výrobků bude 400-600 zmetků. Řešeí: X počet zmetků v 1000 výrobcích X~Bi ; p ~Bi 1000; 0,5 E X = p = 1000 0,5 = 500, σ 2 X = p 1 p = 1 000 0,5 1 0,5 = 250, σ X = σ 2 X = 250 Pravděpodobost, že počet zmetků bude v rozmezí 400 až 600 lze vyjádřit ve tvaru: P 400 < X < 600) = P( X 500 < 100
Opakováí: Čebyševova erovost příklad Čebyševova erovost: P 400 < X < 600) = P( X 500 < 100 P X E X < ε σ 1 1 ε2, kde σ = var X Vyjádříme-li si povoleou odchylku (ε σ = 100) od středí hodoty (E X = 500) jako ásobek směrodaté odchylky (σ = 250), pak Čebyševovou erovostí zjistíme P X 500 < 100 = P X 500 < 100 250 250 1 1 2 100 = 1 250 10 000 = 1 0,025 = 0,975 250
Přehled témat 1. Pravděpodobost (defiice, využití, výpočet pravděpodobostí áhodých jevů) 2. Podmíěá pravděpodobost 3. Náhodá veličia 4. Statistické charakteristiky 5. Slabý záko velkých čísel 6. Cetrálí limití věta (teorém) 7. Bodový a itervalový odhad 8. Testováí hypotéz 9. Korelace a regrese
6.1 Normálí rozděleí Normálí rozděleí pravděpodobosti (Gaussovo) historie o ěmecký matematik Carl Friedrich Gauss (1777 1855) je považová za objevitele o v roce 1908 aglický statistik Karl Pearso alezl historické spisy, které dokazují, že ormálí rozděleí objevil ve skutečosti o století dříve Abraham de Moivre (1667 1754) objevil záko chyb
6.1 Normálí rozděleí Normálí rozděleí pravděpodobosti defiice Spojitá áhodá veličia X má ormálí rozděleí pravděpodobosti, pokud existují kostaty μ R a σ 2 > 0 tak, že její fukce hustoty f X má tvar f X x = 1 x μ 2 exp σ 2π 2σ 2 pro každé x R. Zkráceě zapisujeme, že X má rozděleí N(μ, σ 2 ). Pokud má X rozděleí N(0,1), pak říkáme, že X má stadardí ormálí rozděleí pravděpodobosti.
6.1 Normálí rozděleí
6.1 Normálí rozděleí středí hodota a rozptyl Mějme spojitou áhodou veličiu X s rozděleím N μ, σ 2. Hustota pravděpodobosti f X x : f X x = 1 x μ 2 exp σ 2π 2σ 2 Středí hodota μ x : μ X = E X = = μ, Rozptyl σ 2 x : σ 2 X = E X 2 E X 2 = = μ 2 + σ 2 μ 2 = σ 2. Normálí rozděleí je dáo svou středí hodotou a rozptylem.
6.1 Normálí rozděleí Mějme spojitou áhodou veličiu X s rozděleím N μ, σ 2. Fukce hustoty: f X x = 1 σ 2π Distribučí fukce: Φ a = P X a = x μ 2 exp 2σ 2 = 1 2π x 2 e 2, a 1 2π e x 2 2 dx. Pozor: Φ eí elemetárí fukce (její hodoty se umericky aproximují) jsou tabelováy
6.1 Normálí rozděleí empirické pravidlo Uvažujme výběr x 1, x 2,, x s výběrovým průměrem x a výběrovou směrodatou odchylkou s. Pokud má histogram tvar zvou pak: cca 68 % dat z výběru se achází v itervalu x s, x + s, cca 95 % dat z výběru se achází v itervalu x 2s, x + 2s, cca 99,7 % dat z výběru se achází v itervalu x 3s, x + 3s.
6.1 Normálí rozděleí empirické pravidlo - důkaz Chceme dokázat: P μ 3σ < X < μ + 3σ = 0,997 Použitím Čebyševovy erovosti: P μ 3σ < X < μ + 3σ = P 3σ < X μ < 3σ = = P X μ < 3σ 1 1 3 2 = 9 1 = 8 9 9 = 0,8889 Toto platí obecě bez ohledu a typ rozděleí. Použitím kvatilů ormálího rozděleí: P μ 3σ < X < μ + 3σ = P 3σ < X μ < 3σ = X μ = P 3 < < 3 = Φ 3 Φ 3 = Φ 3 1 Φ 3 = σ = 2 Φ 3 1 = 2 0,99865 1 = 0,9973
6.2 Normálí rozděleí příklad testu ormality Jarqueův a Beryho test ormality (Jarque-Bera Test, JB test) Autoři: Carlos M. Jarque ad Ail K. Bera Předpoklady: Výběrová data mohou obsahovat chybějící pozorováí (chybějící hodoty) vhodé zejméa pro časové řady Teto test je tím silější, čím více pozorováí (dat) je k dispozici
6.2 Normálí rozděleí příklad testu ormality Jarqueův a Beryho test ormality (Jarque-Bera Test, JB test) Použití: JB test testuje, zda data pochází z ormálího rozděleí Nulová hypotéza: H 0 : x ~ N( ), kde N( ) ozačuje distribučí fukci ormálího rozděleí Alterativí hypotéza: H A : x N( )
6.2 Normálí rozděleí příklad testu ormality Testová statistika: JB testová statistika je spočtea a základě výběrové šikmosti a špičatosti. Je defiováa jako: JB = 6 S2 + K2 4 kde S ozačuje výběrovou šikmost, K výběrovou špičatost a je počet echybějících hodot ve výběru (v datovém souboru).
6.2 Normálí rozděleí příklad testu ormality Testová statistika: JB = 6 S2 + K2 4 JB statistika má asymptoticky (tj. pro ) χ 2 rozděleí o dvou stupích volosti 2 JB~ χ ν=2 (α) Lze ji použít pro testováí ulové hypotézy, že data pochází z ormálího rozděleí.
6.2 Normálí rozděleí příklad testu ormality Testová statistika: JB = 6 S2 + K2 4 ~ χ 2 ν=2(α) Obecě platí zamítací pravidlo: H 0 zamítám, pokud 2 JB > χ ν=2 (α) Jedá se o jedostraý test, a tak vypočteá p-hodota může být srováváa přímo s hladiou výzamosti α. Obecě platí zamítací pravidlo: H 0 zamítám, pokud je vypočteá p-hodota meší ež zvoleá hladia výzamosti α, tedy pokud p < α.
JB test pro vitří teplotu Testovaá proměá: x průměrá vitří teplota Nulová hypotéza: H 0 : x ~ N( ) Alterativí hypotéza: H A : x N( ) Výběrová šikmost: S = g 1 = m 3 (m 2 ) 3 2 i=1 = Výběrová špičatost: K = a 4 = g 2 = m 4 m 2 2 3 = Testová statistika: JB = 6 S2 + K2 4 = 365 6 2 Tabulková hodota: χ ν=2 α = χ 2 2 0,05 = 5,99 i=1 x i X 3 x i X 2 3 2 i=1 i=1 = 0,4994 x i X 4 x i X 2 2 3 = 0,3033 0,4994 2 + 0,30332 4 = 16, 5732 Závěr: Neboť JB statistika je vyšší ež tabulková hodota, platí zamítací pravidlo, a tedy Zamítáme ulovou hypotézu, že průměrá vitří teplota má ormálí rozděleí
JB test pro vekoví teplotu Testovaá proměá: x průměrá vekoví teplota Nulová hypotéza: H 0 : x ~ N( ) Alterativí hypotéza: H A : x N( ) Výběrová šikmost: S = g 1 = m 3 (m 2 ) 3 2 i=1 = Výběrová špičatost: K = a 4 = g 2 = m 4 m 2 2 3 = i=1 x i X 3 x i X 2 3 2 i=1 i=1 = 0,1883 x i X 4 x i X 2 2 3 = 0,2445 Testová statistika: JB = 6 S2 + K2 4 = 365 6 ( 0,1883) 2 + ( 0,2445)2 4 = 3, 0667 2 Tabulková hodota: χ ν=2 α = χ 2 2 0,05 = 5,99 Závěr: Neboť JB statistika je ižší ež tabulková hodota, eplatí zamítací pravidlo, a tedy Nezamítáme ulovou hypotézu, že průměrá vekoví teplota má ormálí rozděleí
3. Úkol zadáí pro statistické testy U každého z ásledujících testů uveďte ázev (včetě autora), předpoklady použití, ulovou hypotézu a alterativí hypotézu, testovou statistiku a typ jejího rozděleí. Dále ukažte použití testu pro testováí kokrétí hypotézy a zadaých datech. Jedovýběrový t-test Dvouvýběrový t-test, včetě Satterthwaitova a Welchova testu Test shody dvou rozptylů pro ormálě rozděleé výběry Zamékový test Párový test pro výběr z ormálího rozděleí a z obecého dvojrozměrého rozděleí Jedovýběrový a dvouvýběrový Wilcoxoův test Studetův t-test pro parametr lieárího regresího modelu Fisherův-Sedecorův F-test pro lieárí regresí model Kruskalův-Wallisův test Aalýza rozptylu jedoduchého tříděí (ANOVA), včetě Bartlettova, Hartleyova a Cochraova testu χ2 test dobré shody při zámých i ezámých parametrech, χ 2 test ormality Jedovýběrový a dvouvýběrový Kolmogorovův-Smirovův test Test ezávislosti, včetě testu v kotigečí tabulce (Pearsoův χ 2 test)
3. Úkol zadáí pro statistické testy Postup: 1. Nastudovat vylosovaý test 2. Zvolit vhodá data 3. Formulovat ulovou a alterativí hypotézu 4. Zaslat mailem a echat si schválit 5. Zpracovat test (do šabloy a webu) 6. Zpracovat data 7. Odeslat práci mailem 8. Připravit prezetaci, včetě detailího postupu ukázky a datech 9. Test odprezetovat
6.3 Cetrálí limití věta (CLV, CLT) (CLV1) Nechť X 1, X 2,, X je posloupost áhodých veliči s koečými druhými momety. Ozačme E(X i ) = μ i, var X i = σ i 2, i = 1,2,. Za velmi obecých podmíek pak platí, že veličiy Y = 1 i=1 X i μ i mají asymptoticky ormálí rozděleí (tj. při ). Každé tvrzeí tohoto typu se azývá cetrálí limití věta (CLV, CLT). Prví z ich zformuloval již Laplace v roce 1812. Důkazy i těch ejjedodušších cetrálích limitích vět jsou začě dlouhé!!!
6.3 Cetrálí limití věta Lideberg a Lévy: (CLV 2) Nechť X 1, X 2,, X je posloupost ezávislých stejě rozděleých áhodých veliči se středí hodotou E(X i ) = μ a s koečým kladým rozptylem var(x i ) = σ 2. Pak Y = 1 má při asymptotické rozděleí N(0, σ 2 ). i=1 X i μ (CLV 3) Nechť X 1, X 2,, X je posloupost ezávislých stejě rozděleých p-rozměrých áhodých vektorů se středí hodotou E(X i ) = μ a variačí maticí V = var(x i ). Pak Y = 1 má při asymptotické rozděleí N(0, V). i=1 X i μ
6.3 Cetrálí limití věta (CLV 4) Nechť X 1, X 2,, X jsou ezávislé stejě rozděleé áhodé veličiy se středí hodotou E(X i ) = μ a rozptylem var(x i ) = σ 2, i = 1,2,,, pro které platí E X i 3 <. Pak součet těchto veliči S = X i má asymptoticky ormálí rozděleí N( μ, σ 2 ) pro a aritmetický průměr i=1 X = 1 i=1 X i má asymptoticky ormálí rozděleí N(μ, σ2 ) pro.
6.3 Cetrálí limití věta (CLV 5) Nechť X je průměr -prvkového áhodého vektoru s rozděleím se středí hodotou μ a rozptylem σ 2 > 0. Pak X μ W = σ má asymptoticky stadardí ormálí rozděleí N(0,1) pro. Poz.: W = X μ σ = X μ σ
6.3 Cetrálí limití věta (CLV 6 přímý důsledek CLV 5) Pokud je počet pozorováí áhodého výběru dost velký, tz. pro, pak: W = X μ σ = 1 i=1 X i μ σ = 1 i=1 X i μ σ = = i=1 X i μ σ má asymptoticky stadardí ormálí rozděleí N 0,1.
6.3 Cetrálí limití věta (http://oliestatbook.com/stat_sim/samp_dist_js/idex.html)
6.3 Cetrálí limití věta
6.3 Cetrálí limití věta příklad 1 Zadáí: Průměrá váha zavazadla cestujícího v turistické třídě a trase Praha Paříž je 20 kg a stadardí odchylka je 7 kg. Pro zavazadlo cestujícího v obchodí třídě je průměrá váha zavazadla 12,5 kg a směrodatá odchylka je 4 kg. Jestliže je v letadle 12 cestujících v obchodí třídě a 50 v turistické třídě, jaká je pravděpodobost, že celková váha všech zavazadel překročí 1 200 kg?
6.3 Cetrálí limití věta příklad 1: řešeí Turistická třída (T) Průměrá váha zavazadla cestujícího v turistické třídě je 20 kg a stadardí odchylka je 7 kg. V letadle je 50 cestujících v turistické třídě. Váha všech zavazadel T = X 1 + X 2 + + X 50 má asymptoticky ormálí rozděleí: středí hodota: μ T = rozptyl: σ T 2 =
6.3 Cetrálí limití věta příklad 1: řešeí Obchodí třída (B) Průměrá váha zavazadla cestujícího v obchodí třídě je 12,5 kg a stadardí odchylka je 4 kg. V letadle je 12 cestujících v obchodí třídě. Váha všech zavazadel B = X 1 + X 2 + + X 12 má asymptoticky ormálí rozděleí: středí hodota: μ B = rozptyl: σ B 2 =
6.3 Cetrálí limití věta příklad 1: řešeí Celková váha všech zavazadel B + T a má přibližě ormálí rozděleí středí hodota: rozptyl: P B + T > 1200 =
6.3 Cetrálí limití věta příklad 1: řešeí P T + B > 1200 = 1 Φ 0,972755
6.3 Cetrálí limití věta příklad 2 Zadáí: V chemickém závodě bylo dlouhodobým sledováím zjištěo, že potřebá doba k objeveí a odstraěí poruchy zařízeí má středí hodotu 40 miut a směrodatou odchylku 30 miut. Jaká je pravděpodobost, že doba potřebá k objeveí a opraveí 100 poruch epřekročí 70 hodi?
6.3 Cetrálí limití věta příklad 2: řešeí X i je doba potřebá k objeveí a odstraěí i-té poruchy Pozor: převod hodi a miuty!
6.4 Cetrálí limití věta aproximace Bi(, p) Aproximace biomického rozděleí ormálím rozděleím Uvažujeme áhodou veličiu X, která má biomické rozděleí Bi(, p). Pravděpodobost, že áhodá veličia X abude ěkteré hodoty z itervalu a, b, kde a a b jsou přirozeá čísla, lze spočítat přesě pomocí biomického rozděleí ásledově: P X a, b = b x=a x px (1 p) x. Pozor: je-li velké, pak výpočet bude velmi áročý!
6.4 Cetrálí limití věta aproximace Bi(, p) Jestliže áhodá veličia X ozačuje počet výskytů určitého jevu A v ezávislých pokusech, lze ji pak vyjádřit pomocí veliči Y 1, Y 2,, Y : X = Y 1 + Y 2 + + Y, kde Y i abývá hodoty 1, jestliže v i-tém pokusu jev A astal, a hodoty 0, jestliže eastal. Platí, že áhodé veličiy Y 1, Y 2,, Y jsou ezávislé, přičemž mají stejé alterativí rozděleí A p se středí hodotou E Y i = p a rozptylem Var Y i = p(1 p). Pokud se použije cetrálí limití věta, pak pro velké má X asymptoticky ormálí rozděleí N p, p 1 p, a tedy P X a, b = Φ b p p(1 p) Φ a p p 1 p.
6.4 Cetrálí limití věta aproximace Bi(, p) P X a, b = Φ b p p(1 p) Φ a p p 1 p Pokud použijeme tzv. opravu a spojitost, která zohledňuje situaci, že X má diskrétí a ikoliv spojité rozděleí, pak dostaeme: P X a, b = Φ b + 0,5 p p(1 p) Φ a 0,5 p p 1 p.