Populace a Šárka Hudecová Katedra pravděpodobnosti a matematické statistiky Matematicko-fyzikální fakulta Univerzity Karlovy letní semestr 2012 1 populace soubor jednotek, o jejichž vlastnostech bychom chtěli vypovídat není možné provést měření na celé populaci všichni občané ČR, všechny molekuly dané látky, všichni desetiletí chlapci apod. rozdělení náhodné veličiny náhodně vybraná část populace, na níž provádíme měření reprezentativní (odráží skutečné vlastnosti populace) náhodný nezávislé náhodné veličiny se stejným rozdělením na základě náhodného u budeme usuzovat o vlastnostech populace 1 Založeno na materiálech doc. Michala Kulicha Definice Posloupnost nezávislých náhodných veličin X1,...,Xn se stejným rozdělením s distribuční funkcí F říkáme náhodný o rozsahu n z rozdělení F. jsou pozorování (měření) číselné charakteristiky, která nás zajímá, měřená na různých subjektech. Budeme se jím zabývat ve statistické části přednášky naučíme se rozpoznávat, z jakého rozdělení pochází a používat toto pro řešení praktických problémů. Lze uvažovat i náhodný z vícerozměrného rozdělení (tj. posloupnost nezávislých stejně rozdělených náhodných vektorů). Zajímá nás výška desetiletých chlapců. Logicky není možné provést měření na všech chlapcích. Výšku desetiletých chlapců považujeme za náhodnou veličinu s nějakým neznámým rozdělením. Jsou-li X1,...,Xn výšky náhodně vybraných chlapců, můžeme je považovat za náhodný z tohoto rozdělení. Hodnoty veličin X1,...,Xn koĺısají kolem jejich společné střední hodnoty µx. Velikost koĺısání popisuje rozptyl σ 2 X. Chtěli bychom odhadnout očekávanou hodnotu µx Asi nejpřirozenější je použít průměr naměřených hodnot. Jaké vlastnosti má takový odhad?
Výběrový průměr Vlastnosti ového průměru Mějme náhodný X1,...,Xn z rozdělení F (tj. veličiny Xi jsou nezávislé stejně rozdělené s d.f. F). Definice Výběrovým průměrem náhodného u X1,...,Xn rozumíme náhodnou veličinu Xn = 1 n Xi. n ový průměr je náhodná veličina (kdybychom získali znovu jiný náhodný, dostali bychom jiné hodnoty Xi a tudíž jiný ový průměr) lze tedy uvažovat jeho rozdělení, střední hodnotu, rozptyl a všechny ostatní charakteristiky Označme µx střední hodnotu a σx 2 rozptyl veličiny Xi (jsou stejné pro všechny veličiny). Věta 1 EXn = EXi = µx. 2 varxn = 1 n varxi = σ2 X n. 3 Pochází-li náhodný z normálního rozdělení N(µX,σX 2 ), pak ový průměr má také normální rozdělení, Xn N(µX, σ2 X n ). pořizujeme-li y opakovaně, průměry koĺısají kolem skutečné střední hodnoty µx variabilita průměru klesá se zvyšujícím se n čím je větší, tím méně ové průměry koĺısají Vlastnosti ového průměru Ilustrace vlastností ového průměru Důkaz: Dokážeme si pouze body 1 a 2. 1 EXn = E 1 n Xi = 1 n EXi = nµx n n n = µx. Obrázek: Hustota ového průměru z normálního rozdělení. n = 1 2.5 n = 5 n = 10 n = 50 2 2.0 varxn = var 1 n Xi = 1 n n n 2var Xi = = 1 n n 2 varxi = nσ2 X n 2 = σ2 X n. (Využili jsme nezávislosti X1,...,Xn.) f() 1.5 1.0 0.5 0.0 2 1 0 1 2
studentů (umělá situace) Zákon velkých čísel 0 400 800 n= 1 40 60 80 120 0 150 300 n= 5 Viděli jsme, že EXn = µx a varxn = σx 2 /n. Je-li n hodně velké, pak je rozptyl Xn hodně malý, tj. hodnoty Xn koĺısají jen velmi málo kolem střední hodnoty µx. Lze tedy očekávat, že pro nekonečně mnoho pozorování by průměr mohl být přímo roven µx. Věta (Slabý zákon velkých čísel) 0 40 80 n= 10 0 5 15 n= 50 Mějme dán (nekonečný) náhodný X1,X2,... z rozdělení se střední hodnotou µx <. Potom platí, že ový průměr Xn spočítaný z prvních n pozorování se s n přibližuje ke střední hodnotě µx ve smyslu lim P[ Xn µx > ε] = 0 pro každé ε > 0. n Význam zákona velkých čísel Centrální limitní věta Spočítáme-li ový průměr z nekonečného náhodného u, dostaneme střední hodnotu µx Spočítáme-li ový průměr z konečného ale velkého náhodného u, nedostaneme přesně střední hodnotu, ale dostaneme číslo, které je střední hodnotě bĺızko. Zákon velkých čísel (ZVČ) ukazuje, že střední hodnota je výsledek, který bychom dostali v průměru při nekonečném množství opakování pokusu proto je ový průměr opravdu dobrý odhad střední hodnoty patří mezi tzv. limitní věty lze jej aplikovat všude, kde se vyskytuje ový průměr nějakých veličin (tj. např. na 1/n n X2 i apod.) pro z normálního rozdělení má Xn opět normální rozdělení v jiných případech bývá obtížné určit rozdělení Xn stačilo by nám znát toto rozdělení alespoň přibližně Věta (Centrální limitní věta) Mějme dán (nekonečný) náhodný X1,X2,... z rozdělení se střední hodnotou µx < a rozptylem σx 2 > 0. Potom má náhodná veličina n(xn µx)/σx přibližně normované normální rozdělení N(0, 1) ve smyslu [ ] n lim P (Xn µx) = Φ() pro každé R, n σx kde Φ je distribuční funkce rozdělení N(0, 1).
Centrální limitní věta (CLV) ový průměr se při velkém rozsahu u chová jako normálně rozdělená náhodná veličina ekvivalentní zápisy tvrzení: Xn µx n N(0,1) σx n(xn µx) N(0,σX 2 ) 1 n (Xi µx) N(0,σ 2 n X ) Xn N(µX, σ2 X n ) n Xi N(nµX,nσX 2 ) Centrální limitní věta (CLV) víme, že Xn má střední hodnotu µx a rozptyl σ 2 X /n veličina Xn µx n je normovaná tak, aby měla nulovou σx střední hodnotu a jednotkový rozptyl víme, že pokud Xi pocházejí z normálního rozdělení, pak Xn je také normální CLV: at Xi pocházejí z jakéhokoli rozdělení ový průměr je při dostatečně velkém počtu pozorování vždy přibližně normální Hustota průměru z Ep(1) n=1 n=5 0.0 0.2 0.4 0.6 0.8 1.0 n=10 n=20 Centrální limitní věta ukazuje, proč je normální rozdělení tak důležité řada věcí, s kterými budeme pracovat, má podle centrální limitní věty přibližně normální rozdělení řada veličin z prae má rozdělení bĺızké normálnímu, nebot je lze vyjádřit nebo představit si jako součty či průměry velkého počtu nezávislých náhodných veličin Pomocí centrální limitní věty je také možné spočítat řadu věcí, které by se jinak počítaly velmi těžce (viz násl. příklady)
pokrač. Pojišt ovna má pojištěno 1000 osob stejného věku. Pravděpodobnost úmrtí v daném roce je u každého pojištěného 0,01. Pojištěnci platí roční pojistné 1200 Kč a v případě úmrtí je oprávněné osobě vyplaceno 80000 Kč. Jaká je pravděpodobnost, že pojišt ovna neutrpí v daném roce ztrátu? Necht Xi je náhodná veličina, která nabývá hodnoty 1, pokud i-tý klient pojišt ovny v daném roce zemře a 0 jinak. Pak X1,...X1000 lze považovat za náhodný z alternativního rozdělení Alt(0.01). µx = 0.01 a σx 2 = 0.01 (1 0.01) = 0.0099 1000 Xi je počet pojistných událostí v daném roce Chceme určit ( 1000 ) ( 1000 ) P(zisk) = P 80000 Xi < 1000 1200 = P Xi < 15. Podle CLV má náhodná veličina normální rozdělení. Proto ( 1000 ) P(zisk) = P Xi < 15 1000 Xi 1000 0.01 1000 0.0099 přibližně ( 1000 ) Xi 10 = P < 15 10 9.9 9.9 ( ). 5 = Φ = 0.94. 9.9 pokrač. Na server má přístup 100 uživatelů. Z dřívějších zkušeností víme, že uživatel má na serveru průměrně 120MB dat, směrodatná odchylka množství dat je 40 MB. Jak velký diskový prostor potřebujeme, aby s pravděpodobností 99% nedošlo k jeho zaplnění? Necht Xi je množství dat i-tého uživatele na serveru. Pak X1,...,X100 lze považovat za náhodný z nějakého rozdělení se střední hodnotou 120 a rozptylem 40 2. Označme jako D velikost disku. Požadujeme ( 100 ) P Xi < D = 0.99. Podle CLV má náhodná veličina rozdělení N(0, 1). Proto ( 100 Xi 100 120 0.99 = P 10 40 ( ). D 12000 = Φ 400 100 Xi 100 120 10 40 přibližně Odtud D = z0.99 400+12000 = 12932 MB. ) < D 12000 400