Náhodná proměnná Pravděpodobnostní rozdělení Základy logiky a matematiky, ISS FSV UK Martin Štrobl Tento pomocný materiál neobsahuje všechnu látku k danému tématu, pouze se zaměřuje na pochopení důležitých souvislostí a vysvětlení problémových částí teorie. Pro studium využijte i jiné zdroje. V rámci textu předpokládáme nezávislost pokusů. 1 Histogram Představte si, že provádíte průzkum mezi studenty, ktrých se ptáte na výši jejich měsíčních výdajů. Odpovědi ukládáte do tabulky a chtěli byste je nějak vizualizovat. K tomuto účelu nejčastějí slouží histogram - graf četnosti jednotlivých hodnot. V tomto ilustračním příkladě tedy máme nasbírané hodnoty na ose x a osa y vyjadřuje jejich četnost (počet odpovědí s danou hodnotou). Někdy se setkáte se širšími sloupci agregujícími více hodnot. Nejčastější odpovědí tedy bylo 9 tisíc s cca 20 odpověďmi v rámci našeho vzorku respondentů. Četnosti hodnot lze převést na pravděpodobnosti, protože známe počet výskytů konkrétních hodnot z celkové velikosti výběru. 2 Náhodná proměnná S náhodnou proměnnou jste se setkali již v úvodu do pravděpodobnosti. Výsledek náhodného pokusu (např. hodu kostkou) je náhodnou proměnou, kterou můžeme značit P (X = x). Pro hod kostkou tedy může náhodná proměnná X nabývat hodnot (výsledků) od 1 do 6 a pak lze zkoumat jejich pravděpodobnosti, např. P (X = 6). Příklad kostky je ideální, protože víme, že každá strana má stejnou pravděpodobnost (1/6). Nahradímeli ale hrací kostku například kostkou dlažební, začne se vše komplikovat. Předpokládejme, že strany Strana 1 / 7
popíšeme čísly a házíme. Tentokrát ovšem předem neznáme pravděpodobnosti jednotlivých výsledků předem (kostka není pravidelná). Aniž bychom tedy kostkou hodili, nevíme zhola nic o tom, který výsledek je nejpravděpodobnější apod. Nezbývá tedy než házet a házet. Pokud budeme opakovat hod dostatečně dlouho (třeba 100 ) a zapisovat kolikrát padla která strana, můžeme odhadnout pravděpodobnosti jednotlivých výsledků následujícím způsobem: P (X = x) = počet pokusů, kdy padla strana x počet všech hodů celkem (1) Znovu třeba zdůraznit, že se jedná o odhad "pravé" hodnoty pravděpodobnosti, kterou neznáme a většinou ji nelze přesně určit. Tento odhad lze zpřesňovat zvýšením počtu hodů. Značení P (X = x) bohužel nezohledňuje, zda se jedná o odhad, či pravou hodnotu. POZOR! Výše uvedený vzorec (1) si nepleťte s vzorcem pro výpočet pravděpodobnosti, který jsme používali např. pro hrací kostku. Pravděpodobnost pádu šestky jsme počítali jako P (X = 6) = počet výsledků vyhovujících podmínce počet všech možných výsledků = 1 6 Tento postup lze využít pouze, pokud víme, že jsou jednotlivé výsledky stejně pravděpodobné. To víme, protože předpokládáme pravidelnou hrací kostku. 3 Pravděpodobnostní rozdělení Vraťme se ale k naší krásně nepravidelné dlažební kostce a předpokládejme, že nás shůry osvítilo a najednou známe (teoretické) pravděpodobnosti jednotlivých výsledků: x 1 2 3 4 5 6 P(X=x) 0,07 0,03 0,1 0,4 0,2 0,2 Tato tabulka představuje pravděpodobnostní rozdělení hodů dlažební kostky, protože každému výsledku přiřazuje jeho pravděpodobnost. Pravděpodobnostní rozdělení tedy popisuje náhodný jev - jeho výsledky a jejich pravděpodobnosti. Podobnou tabulku by bylo možné sestavit i spočítáním odhadů pravděpodobností, ovšem nebyla by tak přesná a součet pravděpodobností by nebyl přesně 1. Z takto zapsaného rozdělení lze vyčíst užitečné informace o našem náhodném pokusu. Hned vidíme, že nejpravděpodobnější je výsledek 4, zatímco 2 padne pouze 3 ve 100 hodech. Další informace nám poskytnou následující statistické ukazatele (charakteristiky). 3.1 Výběrový průměr Pro výběrový průměr X nepotřebujeme pravděpodobnostní rozdělení. Vychází totiž z opakování náhodného pokusu (empirické házení kostkou stále dokola). Házením vytváříme "výběr" padnutých hodnot, Strana 2 / 7
které si kamsi zapisujeme. Pak prostě spočítáme průměr jako X = n i=1 x i n = x 1 + x 2 +... + x n n Takže jako u klasického průměru sečteme všechny hodnoty a následně vydělíme počtem hodů. Dostaneme průměrný výsledek. 3.2 Střední hodnota Nevýhodou výběrového průměru je, že je závislý na velikosti našeho výběru a může být různě zkreslen. Může se tedy stát, že X vyjde pro různé série hodů vždy rozdílný. Skutečnou hodnotou, kterou se snažíme pomocí našeho výběrového průměru zjistit je střední hodnota (všimněte si analogie s pravděpodobností a odhadem pravděpodobnosti). Jejím nejlepším odhadem je právě aritmetický průměr. Skutečnou střední hodnotu, kterou značíme E(X) nebo µ, lze zjistit pouze pokud známe pravděpodobnostní rozdělení náhodného pokusu. Střední hodnota je totiž charakteristikou popisující rozdělení - vyjadřuje nejčastější hodnotu (výsledek) daného rozdělení. V sociologii se o ní také často mluví jako o tzv. populačním průměru, neboť se vztahuje k populaci, ze které vybíráme výběr, nikoli pouze ke konkrétnímu výběru. Známe-li rozdělení, můžeme střední hodnotu spočítat následovně n µ = E(X) = [x i P (X = x i )] (2) Pro naši oblíbenou dlažební kostky bychom tedy měli: µ = E(X) = 1 0, 07 + 2 0, 03 + 3 0, 1 + 4 0, 4 + 5 0, 2 + 6 0, 2 = 4, 23 i=1 3.3 Rozptyl Rozptyl vyjadřuje velikost odchylek hodnot diskrétní náhodné veličiny X od její střední hodnoty, přičemž bere v úvahu, jak je pravděpodobnost v těchto bodech rozdělena. Takže nám vlastně říká, jesli je většina hodnot nashromážděna blízko kolem střední hodnoty nebo jestli jsou rozptýleny (více vzdáleny). Rozptyl značíme σ 2 a můžeme ho spočítat pro populaci i pro výběr. Počítáme-li pro výběr, značíme rozptyl s 2. Vzorec vypadá následovně: n σ 2 = {[x i E(X)] 2 P (X = x i )} (3) i=1 Pro naši nejoblíbenější dlažební kostku bychom tedy měli: σ 2 = (1 4, 23) 2 0, 07 + (2 4, 23) 2 0, 03 + (3 4, 23) 2 0, 1 +(4 4, 23) 2 0, 4 + (5 4, 23) 2 0, 2 + (6 4, 23) 2 0, 2 = 1.7971 Strana 3 / 7
3.4 Směrodatná odchylka Protože se při výpočtu rozptylu hodnoty umocňují, výsledný rozptyl nám toho moc neřekne. Proto se velmi často raději uvádí směrodatná odchylka σ, pro kterou platí σ = σ 2 (4) Je to prostě jen odmocnina z rozptylu. Opět, pro výběr značíme pouze s. 4 Normální rozdělení Ukázali jsme si, jak se dá odvodit rozdělení pro náhodnou diskrétní veličinu a jak odvodit příslušné charakteristiky. Nyní se zaměříme na situaci, kdy náhodná veličina nabývá spojitých hodnot, tj. může nabýt libovolné hodnoty z nějakého intervalu. Pro velký úspěch opakujete svůj průzkum o výši studentských výdajů, tentokrát ale nebudou odpovědi zaokrouhleny na celé tisíce, bude možno odpovídat libovolnou částkou. Máme tedy spojitou proměnnou. Po nasbírání dat dostanete následující histogram. Nasbíraná data se soustředí především kolem výběrového průměru a směrem od průměru se počty pozorování snižují. Takováto struktura odpovídá normálnímu (Gaussovu) rozdělení. Normální rozdělení je nejčastějším a nejdůležitějším spojitým rozdělením. Mame-li spojitá data koncentrovaná kolem průměru, můžeme na ně normální rozdělení "napasovat" odhadem µ a σ 2 z našeho výběru (pokud je dostatečně velký/vypovídající). Pak můžeme vést křivku hustoty normálního rozdělení (značíme N[µ, σ 2 ]) naším histogramem, jak je ukázáno na obrázku. K čemu nám je přechod z výběrových statistik k teoretickému rozdělení (populace)? Například můžeme spočítat pravděpodobnosti i pro hodnoty, které jsme nenaměřili, ale teoreticky se vyskytují. Především ale budeme schopni provádět testování hypotéz a další statistickou analýzu. Tyto metody se budete učit v následujících semestrech. Strana 4 / 7
4.1 Vlastnosti rozdělení Existuje celá řada dalších rozdělení, která lze na data "napasovat" v závislosti na jejich struktuře a původu (např. Poissonovo, binomické, χ 2, Studentovo rozdělení, atd.). Všechna tato rozdělení jsou určena pomocí hustotní a distribuční funkce a ty mají určité vlastnosti. Na příkladu normálního rozdělení si je ukážeme. Hustotní funkci (hustotu) normálního rozdělení, Gaussovu křivku, jsme si už ukázali na obrázku výše. Její zápis pro N[µ, σ 2 ] je Jak můžete vidět, její hodnota závisí opravdu jen na µ a σ 2. f(x) = 1 σ (x µ) 2 2π e 2σ 2 (5) Distribuční funkce je funkce, která udává pravděpodobnost, že hodnota náhodné proměnné je menší než určitá hodnota. Vzorec pro tuto funkci je F (x) = x f(t)dt (6) To znamená, že platí i F (x) = f(x) (7) Ty vzorečky jsou jen pro nadšence, vztah si raději vysvětlíme graficky. Podívejte se na animaci funkcí na této stránce. Horní graf ukazuje distribuční funkci a dolní hustotu. Hustota slouží k tomu, abychom spočítali P (X < x). Tedy například pravděpodobnost, že náhodně vybraný student má výdaje menší než 5 tisíc (pak x = 5000). Pak se tato pravděpodobnost rovná ploše pod hustotou funkce od po x = 5000. Takže bychom museli zastavit pohybující se x v animaci na 5000 a spočítat plochu. Plochy ale nikdo nepočítá rád, protože se musí integrovat. Proto se rovnou podíváme na distribuční funkci v bodě x a ta nám řekne odpověď. Ukazuje totiž právě onu velikost plochy pod křivkou hustoty! 4.2 Parametry µ a σ 2 Řekli jsme si, že normální rozdělení je udáváno parametry µ a σ 2. Jaký mají tyto parametry vliv na podobu rozložení? Role µ je celkem jasná, určuje polohu/posun rozložení. Rozptyl má vliv na rozptýlenost rozdělení, dvě rozdělení s rozdílným rozptylem vypadají takto: Strana 5 / 7
Zelené rozdělení má větší rozptyl. 4.3 Standardní normální rozdělení Rozdělení se používá k testování hypotéz a aplikují se na něj nejrůznější statistické techniky. Aby byl postup jednodušší a unifikován, často se rozdělení N[µ, σ 2 ] převádí na standardní normální rozdělení N[0, 1], tj. rozdělení kolem nuly s odchylkou 1. Tento postup se používá také, když nechceme počítat hodnoty distribuční funkce, hodnoty pro standardní normální rozdělení totiž najdeme v matematických tabulkách. Distribuční funkci standardního normálního rozdělení značíme Φ(z). Hodnoty transformované do N[0, 1] nazýváme z-skóry. Tato transformace se provádí dle vzorce z i = x i ˆX s (8) Z-skóry se velmi často používají i pro porovnávání hodnot ze dvou různých distribucí. 4.4 Počítání pravděpodobností z normálního rozdělení Mějme X N(0, 1). Pak mohu počítat P (X < x) = Φ(x) P (X > x) = 1 P (X x) = 1 Φ(x) P (x < X < y) = P (X < y) P (X < x) = Φ(y) Φ(x) Příslušné hodnoty Φ(x) lze dohledat v tabulkách. Strana 6 / 7
4.5 Užitečné pravidlo Strana 7 / 7