Pravděpodobnostní rozdělení

Podobné dokumenty
KGG/STG Statistika pro geografy

Vybraná rozdělení náhodné veličiny

Všechno, co jste chtěli vědět z teorie pravděpodobnosti, z teorie informace a

Náhodná veličina a rozdělení pravděpodobnosti

Výběrové charakteristiky a jejich rozdělení

Náhodné chyby přímých měření

Náhodné (statistické) chyby přímých měření

Pravděpodobnost, náhoda, kostky

Praktická statistika. Petr Ponížil Eva Kutálková

Cvičení ze statistiky - 5. Filip Děchtěrenko

Normální rozložení a odvozená rozložení

VYUŽITÍ PRAVDĚPODOBNOSTNÍ METODY MONTE CARLO V SOUDNÍM INŽENÝRSTVÍ

Fyzikální korespondenční seminář MFF UK

P13: Statistické postupy vyhodnocování únavových zkoušek, aplikace normálního, Weibullova rozdělení, apod.

8 Střední hodnota a rozptyl

Inferenční statistika - úvod. z-skóry normální rozdělení pravděpodobnost rozdělení výběrových průměrů

10. cvičení z PST. 5. prosince T = (n 1) S2 X. (n 1) s2 x σ 2 q χ 2 (n 1) (1 α 2 ). q χ 2 (n 1) 2. 2 x. (n 1) s. x = 1 6. x i = 457.

Pravděpodobnost a matematická statistika

Jevy a náhodná veličina

PRAVDĚPODOBNOST A STATISTIKA

Výpočet pravděpodobností

Chyby měření 210DPSM

Tomáš Karel LS 2012/2013

LIMITNÍ VĚTY DALŠÍ SPOJITÁ ROZDĚLENÍ PR. 8. cvičení

Lékařská biofyzika, výpočetní technika I. Biostatistika Josef Tvrdík (doc. Ing. CSc.)

NÁHODNÉ VELIČINY JAK SE NÁHODNÁ ČÍSLA PŘEVEDOU NA HODNOTY NÁHODNÝCH VELIČIN?

Induktivní statistika. z-skóry pravděpodobnost

Analýza dat na PC I.

Poznámky k předmětu Aplikovaná statistika, 5.téma

X = x, y = h(x) Y = y. hodnotám x a jedné hodnotě y. Dostaneme tabulku hodnot pravděpodobnostní

Střední hodnota a rozptyl náhodné. kvantilu. Ing. Michael Rost, Ph.D.

pravděpodobnosti, popisné statistiky

PRAVDĚPODOBNOST A STATISTIKA

Náhodná veličina a její charakteristiky. Před provedením pokusu jeho výsledek a tedy ani sledovanou hodnotu neznáte. Proto je proměnná, která

E(X) = np D(X) = np(1 p) 1 2p np(1 p) (n + 1)p 1 ˆx (n + 1)p. A 3 (X) =

Pravděpodobnost a aplikovaná statistika

Cvičení ze statistiky - 8. Filip Děchtěrenko

Normální (Gaussovo) rozdělení

Inovace bakalářského studijního oboru Aplikovaná chemie

Základy popisné statistiky

8.1. Definice: Normální (Gaussovo) rozdělení N(µ, σ 2 ) s parametry µ a. ( ) ϕ(x) = 1. označovat písmenem U. Její hustota je pak.

Téma 22. Ondřej Nývlt

Limitní věty teorie pravděpodobnosti. Jiří Neubauer. Katedra ekonometrie, FVL, UO Brno kancelář 69a, tel

NÁHODNÁ VELIČINA. 3. cvičení

STATISTICKÉ ODHADY Odhady populačních charakteristik

2. Základní typy dat Spojitá a kategoriální data Základní popisné statistiky Frekvenční tabulky Grafický popis dat

8. Normální rozdělení

Vzorová písemka č. 1 (rok 2015/2016) - řešení

Přednáška. Diskrétní náhodná proměnná. Charakteristiky DNP. Základní rozdělení DNP

Náhodná veličina Číselné charakteristiky diskrétních náhodných veličin Spojitá náhodná veličina. Pravděpodobnost

Testy. Pavel Provinský. 19. listopadu 2013

Někdy lze výsledek pokusu popsat jediným číslem, které označíme X (nebo jiným velkým písmenem). Hodíme dvěma kostkami jaký padl součet?

Normální (Gaussovo) rozdělení

ROZDĚLENÍ NÁHODNÝCH VELIČIN

Náhodný vektor. Náhodný vektor. Hustota náhodného vektoru. Hustota náhodného vektoru. Náhodný vektor je dvojice náhodných veličin (X, Y ) T = ( X

I. D i s k r é t n í r o z d ě l e n í

Diskrétní náhodná veličina

Úvod do teorie odhadu. Ing. Michael Rost, Ph.D.

Jiří Neubauer. Katedra ekonometrie, FVL, UO Brno kancelář 69a, tel

Rovnoměrné rozdělení

p(x) = P (X = x), x R,

Pravděpodobnost, náhoda, kostky

Základy biostatistiky II. Veřejné zdravotnictví 3.LF UK - II

Diskrétní matematika. DiM /01, zimní semestr 2016/2017

1 Náhodný výběr a normální rozdělení 1.1 Teoretická a statistická pravděpodobnost

pravděpodobnosti Pravděpodobnost je teorií statistiky a statistika je praxí teorie pravděpodobnosti.

UNIVERZITA OBRANY Fakulta ekonomiky a managementu. Aplikace STAT1. Výsledek řešení projektu PRO HORR2011 a PRO GRAM

Diskrétní náhodná veličina. November 12, 2008

Cvičení ze statistiky - 7. Filip Děchtěrenko

1. Přednáška. Ing. Miroslav Šulai, MBA

Charakterizace rozdělení

AKM CVIČENÍ. Opakování maticové algebry. Mějme matice A, B regulární, potom : ( AB) = B A

Matematika III. 4. října Vysoká škola báňská - Technická univerzita Ostrava. Matematika III

Deskriptivní statistické metody II. Míry polohy Míry variability

7. Rozdělení pravděpodobnosti ve statistice

Určete zákon rozložení náhodné veličiny, která značí součet ok při hodu a) jednou kostkou, b) dvěma kostkami, c) třemi kostkami.

Otázky k měření centrální tendence. 1. Je dáno rozložení, ve kterém průměr = medián. Co musí být pravdivé o tvaru tohoto rozložení?

ANALÝZA DAT V R 3. POPISNÉ STATISTIKY, NÁHODNÁ VELIČINA. Mgr. Markéta Pavlíková Katedra pravděpodobnosti a matematické statistiky MFF UK

Rozdělení náhodné veličiny. Distribuční funkce. Vlastnosti distribuční funkce

4EK211 Základy ekonometrie

Pravděpodobnost, náhodná proměnná. Statistické metody a zpracování dat. III. Pravděpodobnost, teoretická rozdělení. Pravděpodobnost, náhodná proměnná

Téma 2: Pravděpodobnostní vyjádření náhodných veličin

Dobývání znalostí. Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze

LEKCE 5 STATISTICKÁ INFERENCE ANEB ZOBECŇOVÁNÍ VÝSLEDKŮ Z VÝBĚROVÉHO NA ZÁKLADNÍ SOUBOR

PRAVDĚPODOBNOST A STATISTIKA. Bayesovské odhady

Pravděpodobnost a statistika, Biostatistika pro kombinované studium. Tutoriál č. 5: Bodové a intervalové odhady, testování hypotéz.

STATISTICKÉ ZJIŠŤOVÁNÍ

Určujeme neznámé hodnoty parametru základního souboru. Pomocí výběrové charakteristiky vypočtené z náhodného výběru.

MATEMATICKÁ STATISTIKA. Katedra matematiky a didaktiky matematiky Technická univerzita v Liberci

Charakterizují kvantitativně vlastnosti předmětů a jevů.

Kategorická data METODOLOGICKÝ PROSEMINÁŘ II TÝDEN 7 4. DUBNA dubna 2018 Lukáš Hájek, Karel Höfer Metodologický proseminář II 1

Náhodná proměnná. Náhodná proměnná může mít rozdělení diskrétní (x 1. , x 2. ; x 2. spojité (<x 1

MATEMATICKÁ STATISTIKA

Pravděpodobnost a statistika

Me neˇ nezˇ minimum ze statistiky Michaela S ˇ edova KPMS MFF UK Principy medicı ny zalozˇene na du kazech a za klady veˇdecke prˇı pravy 1 / 33

ÚSTAV MATEMATIKY A DESKRIPTIVNÍ GEOMETRIE. Matematika 0A4. Cvičení, letní semestr DOMÁCÍ ÚLOHY. Jan Šafařík

NÁHODNÁ ČÍSLA. F(x) = 1 pro x 1. Náhodná čísla lze generovat některým z následujících generátorů náhodných čísel:

Transkript:

Náhodná proměnná Pravděpodobnostní rozdělení Základy logiky a matematiky, ISS FSV UK Martin Štrobl Tento pomocný materiál neobsahuje všechnu látku k danému tématu, pouze se zaměřuje na pochopení důležitých souvislostí a vysvětlení problémových částí teorie. Pro studium využijte i jiné zdroje. V rámci textu předpokládáme nezávislost pokusů. 1 Histogram Představte si, že provádíte průzkum mezi studenty, ktrých se ptáte na výši jejich měsíčních výdajů. Odpovědi ukládáte do tabulky a chtěli byste je nějak vizualizovat. K tomuto účelu nejčastějí slouží histogram - graf četnosti jednotlivých hodnot. V tomto ilustračním příkladě tedy máme nasbírané hodnoty na ose x a osa y vyjadřuje jejich četnost (počet odpovědí s danou hodnotou). Někdy se setkáte se širšími sloupci agregujícími více hodnot. Nejčastější odpovědí tedy bylo 9 tisíc s cca 20 odpověďmi v rámci našeho vzorku respondentů. Četnosti hodnot lze převést na pravděpodobnosti, protože známe počet výskytů konkrétních hodnot z celkové velikosti výběru. 2 Náhodná proměnná S náhodnou proměnnou jste se setkali již v úvodu do pravděpodobnosti. Výsledek náhodného pokusu (např. hodu kostkou) je náhodnou proměnou, kterou můžeme značit P (X = x). Pro hod kostkou tedy může náhodná proměnná X nabývat hodnot (výsledků) od 1 do 6 a pak lze zkoumat jejich pravděpodobnosti, např. P (X = 6). Příklad kostky je ideální, protože víme, že každá strana má stejnou pravděpodobnost (1/6). Nahradímeli ale hrací kostku například kostkou dlažební, začne se vše komplikovat. Předpokládejme, že strany Strana 1 / 7

popíšeme čísly a házíme. Tentokrát ovšem předem neznáme pravděpodobnosti jednotlivých výsledků předem (kostka není pravidelná). Aniž bychom tedy kostkou hodili, nevíme zhola nic o tom, který výsledek je nejpravděpodobnější apod. Nezbývá tedy než házet a házet. Pokud budeme opakovat hod dostatečně dlouho (třeba 100 ) a zapisovat kolikrát padla která strana, můžeme odhadnout pravděpodobnosti jednotlivých výsledků následujícím způsobem: P (X = x) = počet pokusů, kdy padla strana x počet všech hodů celkem (1) Znovu třeba zdůraznit, že se jedná o odhad "pravé" hodnoty pravděpodobnosti, kterou neznáme a většinou ji nelze přesně určit. Tento odhad lze zpřesňovat zvýšením počtu hodů. Značení P (X = x) bohužel nezohledňuje, zda se jedná o odhad, či pravou hodnotu. POZOR! Výše uvedený vzorec (1) si nepleťte s vzorcem pro výpočet pravděpodobnosti, který jsme používali např. pro hrací kostku. Pravděpodobnost pádu šestky jsme počítali jako P (X = 6) = počet výsledků vyhovujících podmínce počet všech možných výsledků = 1 6 Tento postup lze využít pouze, pokud víme, že jsou jednotlivé výsledky stejně pravděpodobné. To víme, protože předpokládáme pravidelnou hrací kostku. 3 Pravděpodobnostní rozdělení Vraťme se ale k naší krásně nepravidelné dlažební kostce a předpokládejme, že nás shůry osvítilo a najednou známe (teoretické) pravděpodobnosti jednotlivých výsledků: x 1 2 3 4 5 6 P(X=x) 0,07 0,03 0,1 0,4 0,2 0,2 Tato tabulka představuje pravděpodobnostní rozdělení hodů dlažební kostky, protože každému výsledku přiřazuje jeho pravděpodobnost. Pravděpodobnostní rozdělení tedy popisuje náhodný jev - jeho výsledky a jejich pravděpodobnosti. Podobnou tabulku by bylo možné sestavit i spočítáním odhadů pravděpodobností, ovšem nebyla by tak přesná a součet pravděpodobností by nebyl přesně 1. Z takto zapsaného rozdělení lze vyčíst užitečné informace o našem náhodném pokusu. Hned vidíme, že nejpravděpodobnější je výsledek 4, zatímco 2 padne pouze 3 ve 100 hodech. Další informace nám poskytnou následující statistické ukazatele (charakteristiky). 3.1 Výběrový průměr Pro výběrový průměr X nepotřebujeme pravděpodobnostní rozdělení. Vychází totiž z opakování náhodného pokusu (empirické házení kostkou stále dokola). Házením vytváříme "výběr" padnutých hodnot, Strana 2 / 7

které si kamsi zapisujeme. Pak prostě spočítáme průměr jako X = n i=1 x i n = x 1 + x 2 +... + x n n Takže jako u klasického průměru sečteme všechny hodnoty a následně vydělíme počtem hodů. Dostaneme průměrný výsledek. 3.2 Střední hodnota Nevýhodou výběrového průměru je, že je závislý na velikosti našeho výběru a může být různě zkreslen. Může se tedy stát, že X vyjde pro různé série hodů vždy rozdílný. Skutečnou hodnotou, kterou se snažíme pomocí našeho výběrového průměru zjistit je střední hodnota (všimněte si analogie s pravděpodobností a odhadem pravděpodobnosti). Jejím nejlepším odhadem je právě aritmetický průměr. Skutečnou střední hodnotu, kterou značíme E(X) nebo µ, lze zjistit pouze pokud známe pravděpodobnostní rozdělení náhodného pokusu. Střední hodnota je totiž charakteristikou popisující rozdělení - vyjadřuje nejčastější hodnotu (výsledek) daného rozdělení. V sociologii se o ní také často mluví jako o tzv. populačním průměru, neboť se vztahuje k populaci, ze které vybíráme výběr, nikoli pouze ke konkrétnímu výběru. Známe-li rozdělení, můžeme střední hodnotu spočítat následovně n µ = E(X) = [x i P (X = x i )] (2) Pro naši oblíbenou dlažební kostky bychom tedy měli: µ = E(X) = 1 0, 07 + 2 0, 03 + 3 0, 1 + 4 0, 4 + 5 0, 2 + 6 0, 2 = 4, 23 i=1 3.3 Rozptyl Rozptyl vyjadřuje velikost odchylek hodnot diskrétní náhodné veličiny X od její střední hodnoty, přičemž bere v úvahu, jak je pravděpodobnost v těchto bodech rozdělena. Takže nám vlastně říká, jesli je většina hodnot nashromážděna blízko kolem střední hodnoty nebo jestli jsou rozptýleny (více vzdáleny). Rozptyl značíme σ 2 a můžeme ho spočítat pro populaci i pro výběr. Počítáme-li pro výběr, značíme rozptyl s 2. Vzorec vypadá následovně: n σ 2 = {[x i E(X)] 2 P (X = x i )} (3) i=1 Pro naši nejoblíbenější dlažební kostku bychom tedy měli: σ 2 = (1 4, 23) 2 0, 07 + (2 4, 23) 2 0, 03 + (3 4, 23) 2 0, 1 +(4 4, 23) 2 0, 4 + (5 4, 23) 2 0, 2 + (6 4, 23) 2 0, 2 = 1.7971 Strana 3 / 7

3.4 Směrodatná odchylka Protože se při výpočtu rozptylu hodnoty umocňují, výsledný rozptyl nám toho moc neřekne. Proto se velmi často raději uvádí směrodatná odchylka σ, pro kterou platí σ = σ 2 (4) Je to prostě jen odmocnina z rozptylu. Opět, pro výběr značíme pouze s. 4 Normální rozdělení Ukázali jsme si, jak se dá odvodit rozdělení pro náhodnou diskrétní veličinu a jak odvodit příslušné charakteristiky. Nyní se zaměříme na situaci, kdy náhodná veličina nabývá spojitých hodnot, tj. může nabýt libovolné hodnoty z nějakého intervalu. Pro velký úspěch opakujete svůj průzkum o výši studentských výdajů, tentokrát ale nebudou odpovědi zaokrouhleny na celé tisíce, bude možno odpovídat libovolnou částkou. Máme tedy spojitou proměnnou. Po nasbírání dat dostanete následující histogram. Nasbíraná data se soustředí především kolem výběrového průměru a směrem od průměru se počty pozorování snižují. Takováto struktura odpovídá normálnímu (Gaussovu) rozdělení. Normální rozdělení je nejčastějším a nejdůležitějším spojitým rozdělením. Mame-li spojitá data koncentrovaná kolem průměru, můžeme na ně normální rozdělení "napasovat" odhadem µ a σ 2 z našeho výběru (pokud je dostatečně velký/vypovídající). Pak můžeme vést křivku hustoty normálního rozdělení (značíme N[µ, σ 2 ]) naším histogramem, jak je ukázáno na obrázku. K čemu nám je přechod z výběrových statistik k teoretickému rozdělení (populace)? Například můžeme spočítat pravděpodobnosti i pro hodnoty, které jsme nenaměřili, ale teoreticky se vyskytují. Především ale budeme schopni provádět testování hypotéz a další statistickou analýzu. Tyto metody se budete učit v následujících semestrech. Strana 4 / 7

4.1 Vlastnosti rozdělení Existuje celá řada dalších rozdělení, která lze na data "napasovat" v závislosti na jejich struktuře a původu (např. Poissonovo, binomické, χ 2, Studentovo rozdělení, atd.). Všechna tato rozdělení jsou určena pomocí hustotní a distribuční funkce a ty mají určité vlastnosti. Na příkladu normálního rozdělení si je ukážeme. Hustotní funkci (hustotu) normálního rozdělení, Gaussovu křivku, jsme si už ukázali na obrázku výše. Její zápis pro N[µ, σ 2 ] je Jak můžete vidět, její hodnota závisí opravdu jen na µ a σ 2. f(x) = 1 σ (x µ) 2 2π e 2σ 2 (5) Distribuční funkce je funkce, která udává pravděpodobnost, že hodnota náhodné proměnné je menší než určitá hodnota. Vzorec pro tuto funkci je F (x) = x f(t)dt (6) To znamená, že platí i F (x) = f(x) (7) Ty vzorečky jsou jen pro nadšence, vztah si raději vysvětlíme graficky. Podívejte se na animaci funkcí na této stránce. Horní graf ukazuje distribuční funkci a dolní hustotu. Hustota slouží k tomu, abychom spočítali P (X < x). Tedy například pravděpodobnost, že náhodně vybraný student má výdaje menší než 5 tisíc (pak x = 5000). Pak se tato pravděpodobnost rovná ploše pod hustotou funkce od po x = 5000. Takže bychom museli zastavit pohybující se x v animaci na 5000 a spočítat plochu. Plochy ale nikdo nepočítá rád, protože se musí integrovat. Proto se rovnou podíváme na distribuční funkci v bodě x a ta nám řekne odpověď. Ukazuje totiž právě onu velikost plochy pod křivkou hustoty! 4.2 Parametry µ a σ 2 Řekli jsme si, že normální rozdělení je udáváno parametry µ a σ 2. Jaký mají tyto parametry vliv na podobu rozložení? Role µ je celkem jasná, určuje polohu/posun rozložení. Rozptyl má vliv na rozptýlenost rozdělení, dvě rozdělení s rozdílným rozptylem vypadají takto: Strana 5 / 7

Zelené rozdělení má větší rozptyl. 4.3 Standardní normální rozdělení Rozdělení se používá k testování hypotéz a aplikují se na něj nejrůznější statistické techniky. Aby byl postup jednodušší a unifikován, často se rozdělení N[µ, σ 2 ] převádí na standardní normální rozdělení N[0, 1], tj. rozdělení kolem nuly s odchylkou 1. Tento postup se používá také, když nechceme počítat hodnoty distribuční funkce, hodnoty pro standardní normální rozdělení totiž najdeme v matematických tabulkách. Distribuční funkci standardního normálního rozdělení značíme Φ(z). Hodnoty transformované do N[0, 1] nazýváme z-skóry. Tato transformace se provádí dle vzorce z i = x i ˆX s (8) Z-skóry se velmi často používají i pro porovnávání hodnot ze dvou různých distribucí. 4.4 Počítání pravděpodobností z normálního rozdělení Mějme X N(0, 1). Pak mohu počítat P (X < x) = Φ(x) P (X > x) = 1 P (X x) = 1 Φ(x) P (x < X < y) = P (X < y) P (X < x) = Φ(y) Φ(x) Příslušné hodnoty Φ(x) lze dohledat v tabulkách. Strana 6 / 7

4.5 Užitečné pravidlo Strana 7 / 7