populace soubor jednotek, o jejichž vlastnostech bychom chtěli vypovídat letní semestr Definice subjektech.

Podobné dokumenty
Výběrové charakteristiky a jejich rozdělení

letní semestr Katedra pravděpodobnosti a matematické statistiky Matematicko-fyzikální fakulta Univerzity Karlovy Matematická statistika vektory

Limitní věty teorie pravděpodobnosti. Jiří Neubauer. Katedra ekonometrie, FVL, UO Brno kancelář 69a, tel

Náhodný vektor. Náhodný vektor. Hustota náhodného vektoru. Hustota náhodného vektoru. Náhodný vektor je dvojice náhodných veličin (X, Y ) T = ( X

PRAVDĚPODOBNOST A STATISTIKA

PRAVDĚPODOBNOST A STATISTIKA

Všechno, co jste chtěli vědět z teorie pravděpodobnosti, z teorie informace a

Cvičení ze statistiky - 7. Filip Děchtěrenko

Téma 22. Ondřej Nývlt

Rozdělení náhodné veličiny. Distribuční funkce. Vlastnosti distribuční funkce

LIMITNÍ VĚTY DALŠÍ SPOJITÁ ROZDĚLENÍ PR. 8. cvičení

Normální (Gaussovo) rozdělení

8.1. Definice: Normální (Gaussovo) rozdělení N(µ, σ 2 ) s parametry µ a. ( ) ϕ(x) = 1. označovat písmenem U. Její hustota je pak.

Pravděpodobnost a aplikovaná statistika

Náhodná veličina Číselné charakteristiky diskrétních náhodných veličin Spojitá náhodná veličina. Pravděpodobnost

Náhodný vektor. Náhodný vektor. Hustota náhodného vektoru. Hustota náhodného vektoru. Náhodný vektor je dvojice náhodných veličin (X, Y ) T = ( X

I. D i s k r é t n í r o z d ě l e n í

ROZDĚLENÍ SPOJITÝCH NÁHODNÝCH VELIČIN

p(x) = P (X = x), x R,

Charakterizace rozdělení

Rozhodnutí / Skutečnost platí neplatí Nezamítáme správně chyba 2. druhu Zamítáme chyba 1. druhu správně

Jiří Neubauer. Katedra ekonometrie, FVL, UO Brno kancelář 69a, tel

ÚVOD DO TEORIE ODHADU. Martina Litschmannová

Základní statistické modely Statistické vyhodnocování exp. dat M. Čada ~ cada

Definice 7.1 Nechť je dán pravděpodobnostní prostor (Ω, A, P). Zobrazení. nebo ekvivalentně

Náhodná veličina a rozdělení pravděpodobnosti

Normální (Gaussovo) rozdělení

X = x, y = h(x) Y = y. hodnotám x a jedné hodnotě y. Dostaneme tabulku hodnot pravděpodobnostní

Intervalové Odhady Parametrů

Mgr. Rudolf Blažek, Ph.D. prof. RNDr. Roman Kotecký Dr.Sc.

Pravděpodobnost a statistika, Biostatistika pro kombinované studium. Tutoriál č. 5: Bodové a intervalové odhady, testování hypotéz.

Testování statistických hypotéz

správně - A, jeden celý příklad správně - B, jinak - C. Pro postup k ústní části zkoušky je potřeba dosáhnout stupně A nebo B.

Diskrétní náhodná veličina. November 12, 2008

KMA/P506 Pravděpodobnost a statistika KMA/P507 Statistika na PC

KGG/STG Statistika pro geografy

NÁHODNÝ VEKTOR. 4. cvičení

8. Normální rozdělení

Chyby měření 210DPSM

MATEMATICKÁ STATISTIKA. Katedra matematiky a didaktiky matematiky Technická univerzita v Liberci

NÁHODNÉ VELIČINY JAK SE NÁHODNÁ ČÍSLA PŘEVEDOU NA HODNOTY NÁHODNÝCH VELIČIN?

Základy teorie odhadu parametrů bodový odhad

MATEMATICKÁ STATISTIKA - XP01MST

Intervalové odhady. Interval spolehlivosti pro střední hodnotu v N(µ, σ 2 ) Interpretace intervalu spolehlivosti. Interval spolehlivosti ilustrace

NMAI059 Pravděpodobnost a statistika

10. cvičení z PST. 5. prosince T = (n 1) S2 X. (n 1) s2 x σ 2 q χ 2 (n 1) (1 α 2 ). q χ 2 (n 1) 2. 2 x. (n 1) s. x = 1 6. x i = 457.

Matematika III 10. týden Číselné charakteristiky střední hodnota, rozptyl, kovariance, korelace

diskriminaci žen letní semestr = výrok, o jehož pravdivosti chceme rozhodnout tvrzení o populaci, o jehož platnosti rozhodujeme

Odhad parametrů N(µ, σ 2 )

4EK211 Základy ekonometrie

z Matematické statistiky 1 1 Konvergence posloupnosti náhodných veličin

Testování statistických hypotéz. Ing. Michal Dorda, Ph.D.

Cvičení ze statistiky - 5. Filip Děchtěrenko

E(X) = np D(X) = np(1 p) 1 2p np(1 p) (n + 1)p 1 ˆx (n + 1)p. A 3 (X) =

AKM CVIČENÍ. Opakování maticové algebry. Mějme matice A, B regulární, potom : ( AB) = B A

Testování hypotéz. Analýza dat z dotazníkových šetření. Kuranova Pavlina

5 Časové řady. Definice 16 Posloupnost náhodných veličin {X t, t T } nazveme slabě stacionární, pokud

Pojmy z kombinatoriky, pravděpodobnosti, znalosti z kapitoly náhodná veličina, znalost parciálních derivací, dvojného integrálu.

Statistika. Teorie odhadu statistická indukce. Roman Biskup. (zapálený) statistik ve výslužbě, aktuálně analytik v praxi ;-) roman.biskup(at) .

Bakalářské studium na MFF UK v Praze Obecná matematika Zaměření: Stochastika. 1 Úvodní poznámky. Verze: 13. června 2013

12. cvičení z PST. 20. prosince 2017

2 Zpracování naměřených dat. 2.1 Gaussův zákon chyb. 2.2 Náhodná veličina a její rozdělení

Náhodná veličina. Michal Fusek. 10. přednáška z ESMAT. Ústav matematiky FEKT VUT, Michal Fusek

Charakterizují kvantitativně vlastnosti předmětů a jevů.

12. prosince n pro n = n = 30 = S X

Pravděpodobnost a statistika

Dobývání znalostí. Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze

JAK MODELOVAT VÝSLEDKY NÁH. POKUSŮ? Martina Litschmannová

prof. RNDr. Roman Kotecký DrSc., Dr. Rudolf Blažek, PhD Pravděpodobnost a statistika Katedra teoretické informatiky Fakulta informačních technologií

Statistická teorie učení

letní semestr Katedra pravděpodobnosti a matematické statistiky Matematicko-fyzikální fakulta Univerzity Karlovy Matematická statistika

Úvod do teorie odhadu. Ing. Michael Rost, Ph.D.

Regresní analýza 1. Regresní analýza

Pravděpodobnost a statistika

Náhodný vektor a jeho charakteristiky

Pravděpodobnost a statistika I KMA/K413

STATISTICKÉ ODHADY Odhady populačních charakteristik

Pravděpodobnost a statistika, Biostatistika pro kombinované studium. Jan Kracík

Cvičení 10. Přednášející: Mgr. Rudolf B. Blažek, Ph.D. prof. RNDr. Roman Kotecký, DrSc.

Statistika II. Jiří Neubauer

PRAVDĚPODOBNOST A STATISTIKA

(Auto)korelační funkce Statistické vyhodnocování exp. dat M. Čada ~ cada

, 4. skupina (16:15-17:45) Jméno: se. Postup je třeba odůvodnit (okomentovat) nebo uvést výpočet. Výsledek bez uvedení jakéhokoliv

Statistika a spolehlivost v lékařství Charakteristiky spolehlivosti prvků I

PRAVDĚPODOBNOST A STATISTIKA

Intervalové odhady. Interval spolehlivosti pro střední hodnotu v N(µ, σ 2 ) Interpretace intervalu spolehlivosti. Interval spolehlivosti ilustrace

PSY117/454 Statistická analýza dat v psychologii přednáška 8. Statistické usuzování, odhady

Náhodné veličiny jsou nekorelované, neexistuje mezi nimi korelační vztah. Když jsou X; Y nekorelované, nemusí být nezávislé.

Úvod do problematiky měření

Základy teorie pravděpodobnosti

Odhad parametrů N(µ, σ 2 )

9. T r a n s f o r m a c e n á h o d n é v e l i č i n y

Poznámky k předmětu Aplikovaná statistika, 4. téma

letní semestr Katedra pravděpodobnosti a matematické statistiky Matematicko-fyzikální fakulta Univerzity Karlovy Matematická statistika

KMA/P506 Pravděpodobnost a statistika KMA/P507 Statistika na PC

Intervalová data a výpočet některých statistik

Značení 1.1 (posloupnost výsledků pokusu). Mějme posloupnost opakovaných (i závislých) pokusů,

Bootstrap - konfidenční intervaly a testy

Pojistná matematika 2 KMA/POM2E

Transkript:

Populace a Šárka Hudecová Katedra pravděpodobnosti a matematické statistiky Matematicko-fyzikální fakulta Univerzity Karlovy letní semestr 2012 1 populace soubor jednotek, o jejichž vlastnostech bychom chtěli vypovídat není možné provést měření na celé populaci všichni občané ČR, všechny molekuly dané látky, všichni desetiletí chlapci apod. rozdělení náhodné veličiny náhodně vybraná část populace, na níž provádíme měření reprezentativní (odráží skutečné vlastnosti populace) náhodný nezávislé náhodné veličiny se stejným rozdělením na základě náhodného u budeme usuzovat o vlastnostech populace 1 Založeno na materiálech doc. Michala Kulicha Definice Posloupnost nezávislých náhodných veličin X1,...,Xn se stejným rozdělením s distribuční funkcí F říkáme náhodný o rozsahu n z rozdělení F. jsou pozorování (měření) číselné charakteristiky, která nás zajímá, měřená na různých subjektech. Budeme se jím zabývat ve statistické části přednášky naučíme se rozpoznávat, z jakého rozdělení pochází a používat toto pro řešení praktických problémů. Lze uvažovat i náhodný z vícerozměrného rozdělení (tj. posloupnost nezávislých stejně rozdělených náhodných vektorů). Zajímá nás výška desetiletých chlapců. Logicky není možné provést měření na všech chlapcích. Výšku desetiletých chlapců považujeme za náhodnou veličinu s nějakým neznámým rozdělením. Jsou-li X1,...,Xn výšky náhodně vybraných chlapců, můžeme je považovat za náhodný z tohoto rozdělení. Hodnoty veličin X1,...,Xn koĺısají kolem jejich společné střední hodnoty µx. Velikost koĺısání popisuje rozptyl σ 2 X. Chtěli bychom odhadnout očekávanou hodnotu µx Asi nejpřirozenější je použít průměr naměřených hodnot. Jaké vlastnosti má takový odhad?

Výběrový průměr Vlastnosti ového průměru Mějme náhodný X1,...,Xn z rozdělení F (tj. veličiny Xi jsou nezávislé stejně rozdělené s d.f. F). Definice Výběrovým průměrem náhodného u X1,...,Xn rozumíme náhodnou veličinu Xn = 1 n Xi. n ový průměr je náhodná veličina (kdybychom získali znovu jiný náhodný, dostali bychom jiné hodnoty Xi a tudíž jiný ový průměr) lze tedy uvažovat jeho rozdělení, střední hodnotu, rozptyl a všechny ostatní charakteristiky Označme µx střední hodnotu a σx 2 rozptyl veličiny Xi (jsou stejné pro všechny veličiny). Věta 1 EXn = EXi = µx. 2 varxn = 1 n varxi = σ2 X n. 3 Pochází-li náhodný z normálního rozdělení N(µX,σX 2 ), pak ový průměr má také normální rozdělení, Xn N(µX, σ2 X n ). pořizujeme-li y opakovaně, průměry koĺısají kolem skutečné střední hodnoty µx variabilita průměru klesá se zvyšujícím se n čím je větší, tím méně ové průměry koĺısají Vlastnosti ového průměru Ilustrace vlastností ového průměru Důkaz: Dokážeme si pouze body 1 a 2. 1 EXn = E 1 n Xi = 1 n EXi = nµx n n n = µx. Obrázek: Hustota ového průměru z normálního rozdělení. n = 1 2.5 n = 5 n = 10 n = 50 2 2.0 varxn = var 1 n Xi = 1 n n n 2var Xi = = 1 n n 2 varxi = nσ2 X n 2 = σ2 X n. (Využili jsme nezávislosti X1,...,Xn.) f() 1.5 1.0 0.5 0.0 2 1 0 1 2

studentů (umělá situace) Zákon velkých čísel 0 400 800 n= 1 40 60 80 120 0 150 300 n= 5 Viděli jsme, že EXn = µx a varxn = σx 2 /n. Je-li n hodně velké, pak je rozptyl Xn hodně malý, tj. hodnoty Xn koĺısají jen velmi málo kolem střední hodnoty µx. Lze tedy očekávat, že pro nekonečně mnoho pozorování by průměr mohl být přímo roven µx. Věta (Slabý zákon velkých čísel) 0 40 80 n= 10 0 5 15 n= 50 Mějme dán (nekonečný) náhodný X1,X2,... z rozdělení se střední hodnotou µx <. Potom platí, že ový průměr Xn spočítaný z prvních n pozorování se s n přibližuje ke střední hodnotě µx ve smyslu lim P[ Xn µx > ε] = 0 pro každé ε > 0. n Význam zákona velkých čísel Centrální limitní věta Spočítáme-li ový průměr z nekonečného náhodného u, dostaneme střední hodnotu µx Spočítáme-li ový průměr z konečného ale velkého náhodného u, nedostaneme přesně střední hodnotu, ale dostaneme číslo, které je střední hodnotě bĺızko. Zákon velkých čísel (ZVČ) ukazuje, že střední hodnota je výsledek, který bychom dostali v průměru při nekonečném množství opakování pokusu proto je ový průměr opravdu dobrý odhad střední hodnoty patří mezi tzv. limitní věty lze jej aplikovat všude, kde se vyskytuje ový průměr nějakých veličin (tj. např. na 1/n n X2 i apod.) pro z normálního rozdělení má Xn opět normální rozdělení v jiných případech bývá obtížné určit rozdělení Xn stačilo by nám znát toto rozdělení alespoň přibližně Věta (Centrální limitní věta) Mějme dán (nekonečný) náhodný X1,X2,... z rozdělení se střední hodnotou µx < a rozptylem σx 2 > 0. Potom má náhodná veličina n(xn µx)/σx přibližně normované normální rozdělení N(0, 1) ve smyslu [ ] n lim P (Xn µx) = Φ() pro každé R, n σx kde Φ je distribuční funkce rozdělení N(0, 1).

Centrální limitní věta (CLV) ový průměr se při velkém rozsahu u chová jako normálně rozdělená náhodná veličina ekvivalentní zápisy tvrzení: Xn µx n N(0,1) σx n(xn µx) N(0,σX 2 ) 1 n (Xi µx) N(0,σ 2 n X ) Xn N(µX, σ2 X n ) n Xi N(nµX,nσX 2 ) Centrální limitní věta (CLV) víme, že Xn má střední hodnotu µx a rozptyl σ 2 X /n veličina Xn µx n je normovaná tak, aby měla nulovou σx střední hodnotu a jednotkový rozptyl víme, že pokud Xi pocházejí z normálního rozdělení, pak Xn je také normální CLV: at Xi pocházejí z jakéhokoli rozdělení ový průměr je při dostatečně velkém počtu pozorování vždy přibližně normální Hustota průměru z Ep(1) n=1 n=5 0.0 0.2 0.4 0.6 0.8 1.0 n=10 n=20 Centrální limitní věta ukazuje, proč je normální rozdělení tak důležité řada věcí, s kterými budeme pracovat, má podle centrální limitní věty přibližně normální rozdělení řada veličin z prae má rozdělení bĺızké normálnímu, nebot je lze vyjádřit nebo představit si jako součty či průměry velkého počtu nezávislých náhodných veličin Pomocí centrální limitní věty je také možné spočítat řadu věcí, které by se jinak počítaly velmi těžce (viz násl. příklady)

pokrač. Pojišt ovna má pojištěno 1000 osob stejného věku. Pravděpodobnost úmrtí v daném roce je u každého pojištěného 0,01. Pojištěnci platí roční pojistné 1200 Kč a v případě úmrtí je oprávněné osobě vyplaceno 80000 Kč. Jaká je pravděpodobnost, že pojišt ovna neutrpí v daném roce ztrátu? Necht Xi je náhodná veličina, která nabývá hodnoty 1, pokud i-tý klient pojišt ovny v daném roce zemře a 0 jinak. Pak X1,...X1000 lze považovat za náhodný z alternativního rozdělení Alt(0.01). µx = 0.01 a σx 2 = 0.01 (1 0.01) = 0.0099 1000 Xi je počet pojistných událostí v daném roce Chceme určit ( 1000 ) ( 1000 ) P(zisk) = P 80000 Xi < 1000 1200 = P Xi < 15. Podle CLV má náhodná veličina normální rozdělení. Proto ( 1000 ) P(zisk) = P Xi < 15 1000 Xi 1000 0.01 1000 0.0099 přibližně ( 1000 ) Xi 10 = P < 15 10 9.9 9.9 ( ). 5 = Φ = 0.94. 9.9 pokrač. Na server má přístup 100 uživatelů. Z dřívějších zkušeností víme, že uživatel má na serveru průměrně 120MB dat, směrodatná odchylka množství dat je 40 MB. Jak velký diskový prostor potřebujeme, aby s pravděpodobností 99% nedošlo k jeho zaplnění? Necht Xi je množství dat i-tého uživatele na serveru. Pak X1,...,X100 lze považovat za náhodný z nějakého rozdělení se střední hodnotou 120 a rozptylem 40 2. Označme jako D velikost disku. Požadujeme ( 100 ) P Xi < D = 0.99. Podle CLV má náhodná veličina rozdělení N(0, 1). Proto ( 100 Xi 100 120 0.99 = P 10 40 ( ). D 12000 = Φ 400 100 Xi 100 120 10 40 přibližně Odtud D = z0.99 400+12000 = 12932 MB. ) < D 12000 400