Cvičení ze statistiky - 7. Filip Děchtěrenko

Podobné dokumenty
Cvičení ze statistiky - 8. Filip Děchtěrenko

Cvičení ze statistiky - 5. Filip Děchtěrenko

Výběrové charakteristiky a jejich rozdělení

Všechno, co jste chtěli vědět z teorie pravděpodobnosti, z teorie informace a

Vybraná rozdělení náhodné veličiny

Limitní věty teorie pravděpodobnosti. Jiří Neubauer. Katedra ekonometrie, FVL, UO Brno kancelář 69a, tel

Úvod do teorie odhadu. Ing. Michael Rost, Ph.D.

LIMITNÍ VĚTY DALŠÍ SPOJITÁ ROZDĚLENÍ PR. 8. cvičení

populace soubor jednotek, o jejichž vlastnostech bychom chtěli vypovídat letní semestr Definice subjektech.

8.1. Definice: Normální (Gaussovo) rozdělení N(µ, σ 2 ) s parametry µ a. ( ) ϕ(x) = 1. označovat písmenem U. Její hustota je pak.

ÚVOD DO TEORIE ODHADU. Martina Litschmannová

X = x, y = h(x) Y = y. hodnotám x a jedné hodnotě y. Dostaneme tabulku hodnot pravděpodobnostní

Přednáška. Další rozdělení SNP. Limitní věty. Speciální typy rozdělení. Další rozdělení SNP Limitní věty Speciální typy rozdělení

Cvičení ze statistiky - 9. Filip Děchtěrenko

8. Normální rozdělení

10. cvičení z PST. 5. prosince T = (n 1) S2 X. (n 1) s2 x σ 2 q χ 2 (n 1) (1 α 2 ). q χ 2 (n 1) 2. 2 x. (n 1) s. x = 1 6. x i = 457.

Pravděpodobnost a statistika, Biostatistika pro kombinované studium. Tutoriál č. 5: Bodové a intervalové odhady, testování hypotéz.

ROZDĚLENÍ SPOJITÝCH NÁHODNÝCH VELIČIN

prof. RNDr. Roman Kotecký DrSc., Dr. Rudolf Blažek, PhD Pravděpodobnost a statistika Katedra teoretické informatiky Fakulta informačních technologií

Charakterizace rozdělení

MATEMATICKÁ STATISTIKA

Intervalové Odhady Parametrů

1. Náhodný vektor (X, Y ) má diskrétní rozdělení s pravděpodobnostní funkcí p, kde. p(x, y) = a(x + y + 1), x, y {0, 1, 2}.

Náhodná veličina Číselné charakteristiky diskrétních náhodných veličin Spojitá náhodná veličina. Pravděpodobnost

Mgr. Rudolf Blažek, Ph.D. prof. RNDr. Roman Kotecký Dr.Sc.

Normální (Gaussovo) rozdělení

MATEMATIKA III V PŘÍKLADECH

Příklad 1. Řešení 1a. Řešení 1b. Řešení 1c ŘEŠENÉ PŘÍKLADY Z MV2 ČÁST 7

Náhodná veličina. Michal Fusek. 10. přednáška z ESMAT. Ústav matematiky FEKT VUT, Michal Fusek

KGG/STG Statistika pro geografy

Inferenční statistika - úvod. z-skóry normální rozdělení pravděpodobnost rozdělení výběrových průměrů

Test z teorie VÝBĚROVÉ CHARAKTERISTIKY A INTERVALOVÉ ODHADY

KGG/STG Statistika pro geografy

Charakterizují kvantitativně vlastnosti předmětů a jevů.

Pravděpodobnost a aplikovaná statistika

12. cvičení z PST. 20. prosince 2017

I. D i s k r é t n í r o z d ě l e n í

Pravděpodobnost a aplikovaná statistika

p(x) = P (X = x), x R,

Odhad parametrů N(µ, σ 2 )

Aproximace binomického rozdělení normálním

Odhad parametrů N(µ, σ 2 )

Jiří Neubauer. Katedra ekonometrie, FVL, UO Brno kancelář 69a, tel

Minikurz aplikované statistiky. Minikurz aplikované statistiky p.1

E(X) = np D(X) = np(1 p) 1 2p np(1 p) (n + 1)p 1 ˆx (n + 1)p. A 3 (X) =

Náhodné (statistické) chyby přímých měření

Náhodná veličina a rozdělení pravděpodobnosti

Lékařská biofyzika, výpočetní technika I. Biostatistika Josef Tvrdík (doc. Ing. CSc.)

Téma 22. Ondřej Nývlt

PSY117/454 Statistická analýza dat v psychologii přednáška 8. Statistické usuzování, odhady

Střední hodnota a rozptyl náhodné. kvantilu. Ing. Michael Rost, Ph.D.

Dobývání znalostí. Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze

Definice 7.1 Nechť je dán pravděpodobnostní prostor (Ω, A, P). Zobrazení. nebo ekvivalentně

Odhady - Sdružené rozdělení pravděpodobnosti

Cvičení 10. Přednášející: Mgr. Rudolf B. Blažek, Ph.D. prof. RNDr. Roman Kotecký, DrSc.

Normální (Gaussovo) rozdělení

1. Přednáška. Ing. Miroslav Šulai, MBA

Praktická statistika. Petr Ponížil Eva Kutálková

STATISTICKÉ ZJIŠŤOVÁNÍ

Tomáš Karel LS 2012/2013

Matematika III 10. týden Číselné charakteristiky střední hodnota, rozptyl, kovariance, korelace

z Matematické statistiky 1 1 Konvergence posloupnosti náhodných veličin

Testování statistických hypotéz. Ing. Michal Dorda, Ph.D.

Cvičení ze statistiky - 3. Filip Děchtěrenko

Statistická analýza dat v psychologii. Věci, které můžeme přímo pozorovat, jsou téměř vždy pouze vzorky. Alfred North Whitehead

správně - A, jeden celý příklad správně - B, jinak - C. Pro postup k ústní části zkoušky je potřeba dosáhnout stupně A nebo B.

Rozdělení náhodné veličiny. Distribuční funkce. Vlastnosti distribuční funkce

Statistika. Teorie odhadu statistická indukce. Roman Biskup. (zapálený) statistik ve výslužbě, aktuálně analytik v praxi ;-) roman.biskup(at) .

NÁHODNÉ VELIČINY JAK SE NÁHODNÁ ČÍSLA PŘEVEDOU NA HODNOTY NÁHODNÝCH VELIČIN?

AVDAT Náhodný vektor, mnohorozměrné rozdělení

NÁHODNÝ VEKTOR. 4. cvičení

ROZDĚLENÍ NÁHODNÝCH VELIČIN

15. T e s t o v á n í h y p o t é z

Test z teorie VÝBĚROVÉ CHARAKTERISTIKY A INTERVALOVÉ ODHADY

Aplikovaná statistika v R - cvičení 2

Intervalové odhady. Interval spolehlivosti pro střední hodnotu v N(µ, σ 2 ) Interpretace intervalu spolehlivosti. Interval spolehlivosti ilustrace

Pravděpodobnostní rozdělení

Nestranný odhad Statistické vyhodnocování exp. dat M. Čada

Intervalové odhady. Interval spolehlivosti pro střední hodnotu v N(µ, σ 2 ) Interpretace intervalu spolehlivosti. Interval spolehlivosti ilustrace

13.1. Úvod Cílem regresní analýzy je popsat závislost hodnot znaku Y na hodnotách

9. T r a n s f o r m a c e n á h o d n é v e l i č i n y

STATISTICKÉ ODHADY Odhady populačních charakteristik

Rozhodnutí / Skutečnost platí neplatí Nezamítáme správně chyba 2. druhu Zamítáme chyba 1. druhu správně

Normální rozložení a odvozená rozložení

MATEMATICKÁ STATISTIKA. Katedra matematiky a didaktiky matematiky Technická univerzita v Liberci

1 Klasická pravděpodobnost. Bayesův vzorec. Poslední změna (oprava): 11. května 2018 ( 6 4)( 43 2 ) ( 49 6 ) 3. = (a) 1 1 2! + 1 3!

Náhodné chyby přímých měření

Pojmy z kombinatoriky, pravděpodobnosti, znalosti z kapitoly náhodná veličina, znalost parciálních derivací, dvojného integrálu.

7. Rozdělení pravděpodobnosti ve statistice

Rovnoměrné rozdělení

KMA/P506 Pravděpodobnost a statistika KMA/P507 Statistika na PC

Statistika a spolehlivost v lékařství Charakteristiky spolehlivosti prvků I

Přednáška. Diskrétní náhodná proměnná. Charakteristiky DNP. Základní rozdělení DNP

2. Základní typy dat Spojitá a kategoriální data Základní popisné statistiky Frekvenční tabulky Grafický popis dat

Diskrétní náhodná veličina. November 12, 2008

Charakteristika datového souboru

Inovace bakalářského studijního oboru Aplikovaná chemie

Diskrétní náhodná veličina

Transkript:

Cvičení ze statistiky - 7 Filip Děchtěrenko

Minule bylo.. Probrali jsme spojité modely Tyhle termíny by měly být známé: Rovnoměrné rozdělení Střední hodnota Mccalova transformace Normální rozdělení

Přehled fint P(Z>z)=1-P(Z z)=1-φ(z) P(Z z)=1-p(z<z)=1-φ(z) Aspoň na jedné straně musí být rovnost P(X<a nebo X>b)=1-P(a X b) dá se to představit na číselné ose φ(-a)=1-φ(a) toto použijeme vždy, když budeme chtít najít zápornou hodnotu v tabulce P(a<Z b)=p(z b)-p(z a)=φ(b)-φ(a) obvykle bývá a záporné, potom P(-a<Z b)=φ(b)-φ(-a)= φ(b)-(1-φ(a))=φ(b)+φ(a)-1 P(-a<Z a)=2φ(a)-1

Součet a průměr jako náhodné veličiny Mějme dva stánky ze zmrzlinou. Náhodné veličiny X 1 a X 2, značí počet lidí, kteří si koupili zmrzlinu u prvního a druhého stánku za jeden den. Může nás zajímat, kolik zmrzliny se prodalo za den celkem, případně kolik zmrzliny se prodalo průměrně. Tedy průměr a součet jsou pro nás náhodné veličiny Jak se ale mají vlastnosti?

Centrální limitní věta Máme-li n nezávislých náhodných výběrů X 1, X 2, X 3,, X n ze stejných výběrů (značí se i.i.d), potom lze jejich součet a průměr aproximovat náhodným rozdělením Protože jsou ze stejného rozdělení, mají všechny stejné EX a var X (EX=EX 1 =EX 2 = =EX n ) 1. Součet X = X i má normální rozdělení X~N(n EX, n VarX) 2. Průměr X = X i n má normální rozdělení Var X X~N(EX, n ) 3. Jsou-li X i z binomického rozdělení, potom Z se dá aproximovat normálním rozdělením (Laplaceho věta)

Rozdělení součtu a průměru Mějme n i.i.d proměnných X i, potom pro součet X a průměr X platí, že jsou z normálního rozdělení Můžeme je tedy transformovat na Z rozdělení a najít v tabulkách Protože X~N μ, σ2 n kde X je průměr jako náhodná veličina EX je střední hodnota náhodné veličiny průměru σ X je směrodatná odchylka náhodné veličiny průměru μ je střední hodnota X i σ je směrodatná odchylka X i Obdobně součet Z = X EX, platí Z = σ X X EX σ X = = X μ σ X nμ ~N 0,1 nσ n~n 0,1

Příklady Výtah s kapacitou pro 6 míst má kapacitu 550 kg. Jaká je pravděpodobnost, že při plném obsazení bude tato hodnota překročena, má-li hmotnost cestujícího střední hodnotu 90 kg a směrodatnou odchylku 10 kg? P(X>550)=1-P( X 90 6 10 6 <550 90 6)=1-P(Z<1)=1-φ(1)=1-0.66=0.34 10 6 Počet bodů v testu je náhodná veličina z rozdělení N(20,25). Určete, jaká je pravděpodobnost, že průměr bodů čtyř lidí je menší než 22. P(X<22)=P( X 20 5 4< 22 20 5 4)=P(Z<0.8)=φ(0.8)=0.788 Kolik lidí potřebuji, aby byla pravděpodobnost, že průměr bodů bude menší než 22 s pstí 99%? 0.99=P(Z< 22 20 5 2.32<0.4 n 33.64<n tedy potřebujeme aspoň 34 lidí n) ->inverzní hledání v tabulkách pro p=0.99

Laplaceova věta Mějme proměnnou X~Bi(n, π), potom platí lim n X nπ nπ 1 π ~N(0,1) Tedy pro dostatečně velká n se nám blíží binomické rozdělení k normálnímu (a můžeme ho aproximovat N(0,1) Podmínka pro korektní použití Laplaceovy věty: nπ(1-π)>9 Je to klasická Z transformace s parametry μ = nπ, σ 2 = nπ 1 π

Příklady Jaká je pravděpodobnost, že z tisíce hodů mincí bude 470 až 530 orlů? X~Bi(1000,0.5) platí 1000 0.5 (1-0.5)=250>9,můžeme aproximovat normálním rozdělením EX=500, var(x)=250 P(470<X<530)= P( 470 500 250 <X 500 250 <530 500)=P(-1.897<Z<1.897)=2 φ(1.897)-1=0.94 250

Korekce na spojitost Máme-li binomické rozdělení, jsou následující hodnoty stejné P(X>29)=P(X 30) Normální rozdělení ale má tyto hodnoty odlišné! Použijeme průměr, tj. P(X 29.5) Obdobně P(29<X)=P(30 X) Použijeme P(29.5 X)

Laplaceova věta pro relativní četnost Laplaceova věta patří i pro relativní četnost (máme X/n namísto X) Tedy E(X/n)=π a var(x/n)= π(1- π)/n (protože var(bx)=b 2 var(x)) Opět musí platit, že nπ(1-π)>9, abychom mohli aproximovat normálním rozdělením

Příklad V populaci má 4% lidí žloutenku. Jaká je pravděpodobnost, že ve výběru 25 osob se bude počet osob se žloutenkou lišit o více než 3% Tedy nás zajímá, jaká je pst, že se výběru vyskytuje více než 7% lidí se žloutenkou nebo méně než 1% lidé se žloutenkou μ=0.04; σ=0.002 Chceme tedy P(p<0.01 nebo p>0.07) Nebo neumíme! Platí: P(p<a nebo p>b)=1-p(a<p<b) tedy (schematicky) P(nebo)=1-P(a současně) P(p<0.01 nebo p>0.07)=1-p(0.01<p<0.07)=1- P( 0.01 0.04 0.002 <Z<0.07 0.04 )=1-P(-0.67<Z<0.67)= 0.002 =1-(2φ(0.67)-1)=2-2 0.75=0.50

Inferenční statistika Popsali jsme si deskriptivní statistiku a několik základních pravděpodobnostních modelů Inferenční statistika nám říká jak na základě vzorku (ten popíšeme pomocí deskriptivní statistiky) můžeme odvozovat parametry pravděpodobnostního modelu, ze kterého pocházejí data Můžeme na základě výběrových charakteristiky určit parametry modelu přesně? Ne -> Mluvíme o odhadech parametrů modelu

Odhady parametrů Můžeme odhadovat jednotlivé charakteristiky modelů, pak mluvíme o bodových odhadech Pro každý parametr máme ještě intervalový odhad (určuje, kde hledaný parametr nachází) Vyberu jednoho člověka (věk 24 let). Výběrový průměr je 24 let. Co můžu říct o průměru celé populace? Průměr celé populace je 24 let s pstí <0.001

Bodové odhady Jednotlivým výběrovým charakteristikám odpovídají parametry pravděpodobnostního modelu Nás budou zajímat tři x je bodovým odhadem EX s je bodovým odhadem σ s 2 je bodovým odhadem varx p je bodovým odhadem π

Intervalové odhady Chceme odhadnout, kde se vyskytuje odhadovaný parametr s danou pstí My budeme hledat intervaly spolehlivosti (konfidenční intervaly, CI) pouze pro π a μ Postup: Stanovme požadovanou pst Typicky se používá 99%,95% a 90% Pro tyto hodnoty najdeme z hodnoty ze vzorečku P(-a<Z a)=2φ(a)-1 Dostaneme z hodnoty 2.576, 1.96 a 1.64 Upravíme (ukázka např. pro μ) A dosadíme Interval zapisujeme jako (D;H) kde D a H jsou dolní a horní mez

Další intervalové odhady Neznáme-li σ, použijeme t-rozdělení (později), případně do vzorečku dosadíme s namísto σ (nepřesné) Pro relativní četnost: Ve vzorečku nahradíme π pomocí p, tedy

Šíře intervalu Někdy nás zajímá, kolik potřebujeme lidí, abychom měli interval s daným rozsahem Šíře klesá s rostoucí velikostí vzorku Šíře roste s rostoucím koeficientem spolehlivosti Šíři CI určíme jako H D, kde H a D jsou horní a dolní mez 2

Příklady 1. Opakovanými měřeními byla zjištěna tloušťka vlákna: 210, 217,209, 216, 216, 215, 220, 214, 213 (10 6 m). Je známo, že měření mají rozdělení N(µ, 25). Nalezněte 95% interval spolehlivosti pro µ. Pro 95% CI je z hodnota 1.96, výběrový průměr je 214.4 a velikost vzorku je 9 CI tedy je (214.4-1.96 5/3; 214.4+1.96 5/3)=(211.1;217.7) 2. Jak by vypadal 95% CI, pokud bychom naměřili ještě 7 vláken 212,215,210,219,218,213 a 214? 3. Jak by vypadal 90% CI a 99% CI? 4. Kolik vláken bychom museli změřit, abychom měli 95% interval o šíři 2? Dosadíme do vzorce H D 2 a dostaneme X + 1.96 5 n X 1.96 5 n < 2 1.96 5 n <1 n>96.04 Potřebujeme tedy alespoň 97 vláken 5. Na dotazník ohledně preference zvířete odpovědělo 25 lidí. 7 z nich preferovalo kočku jako domácího mazlíčka. Určete 95% CI pro preferenci kočky v celém základním souboru p = 7 25 95% CI tedy je (0.28-1.96 0.28(1 0.28) ; 0.28-1.96 0.28(1 0.28) ) = (0.104; 0.456) 25 25 Co je tady za metodologický problém?