Doplněk k výuce statistiky Mirko Navara http://cmp.felk.cvut.cz/ navara March 8, 006 1 Stručné shrnutí principů teorie pravděpodobnosti Pravděpodobnostní popis používáme pro systémy se stochastickou neurčitostí; v nich se snažíme co nejúplněji popsat jevy, které nastanou či nenastanou v závislosti na okolnostech, které dostatečně neznáme, leč přece podléhají nějakým zákonitostem. Prastarý názor říká, že pravděpodobnost jevu je podíl počtu elementárních výsledků, v nichž jev nastává, a počtu všech možných výsledků. To nám dovoluje říci, že pravděpodobnost, že při hodu kostkou padne sudé číslo, je 3 6 = 0.5. Ovšem pouze pro správnou kostku, u níž všech 6 možných výsledků je stejně pravděpodobných (už zde tento přístup selhává jako definice kruhem. Lze si představit falešnou kostku, u níž např. padá šestka s pravděpodobností 0.5 a ostatní výsledky s pravděpodobností 0.1. U ní pravděpodobnost, že padne sudé číslo, je 0.5 + 0.1 + 0.1 = 0.7. Pro popis takových systémů je potřeba vytvořit vyhovující dostatečně obecný rámec. Proto budeme za pravděpodobnost považovat každé zobrazení P, které jevům přiřazuje čísla z intervalu 0, 1 a splňuje následující podmínky (používáme zde true, resp. f alse k označení jevu jistého, resp. nemožného, značí disjunkci a konjunkci: (P1 P [true] = 1, [ ] (P P A n = P [A n ], pokud se jevy A n, n K, navzájem vylučují. n K n K Jelikož jev nemožný se vylučuje se všemi jevy, dostáváme speciálně P [false] = P [false] + P [false] = 0. Pro pravděpodobnost jevu A opačného k A vychází P [A] + P [A ] = P [true] = 1, tj. P [A ] = 1 P [A]. Jestliže jev A implikuje jev B (tj. kdykoli nastane A, nastane i B, pak B A = B a P [B] = P [(B A A] = P [B A ] + P [A] P [A]. Abychom však mohli pravděpodobnost definovat, musíme nejdříve stanovit její definiční obor, tj. množinu všech jevů, pro jejichž pravděpodobnost je definována. Vyjdeme z množiny Ω všech elementárních jevů, tj. všech možných výsledků pokusu, který chceme popsat. Může to být např. 6 možných výsledků hodu kostkou (případně další výsledky, považujeme-li je za možné, např. že se kostka zastaví na hraně nebo se nenajde. Všechny pozorovatelné jevy lze pak vyjádřit jako množiny elementárních jevů, při nichž jev nastává, tedy jako podmnožiny množiny Ω. Nejjednodušší by se zdálo definovat pravděpodobnost na systému exp Ω všech podmnožin množiny Ω. To zcela vyhovuje, je-li Ω konečná, avšak pro nekonečné množiny to vede k paradoxům. Proto nezbývá, než se omezit na systémy podmnožin, na nichž alespoň lze provádět operace, které v definici pravděpodobnosti potřebujeme. Ještě je nutno specifikovat, jak velká smí být indexová množina K. Platí-li (P pro jevy, platí i pro libovolný konečný počet jevů, ale nemusí platit pro nekonečnou spočetnou množinu jevů, natož pro libovolnou množinu jevů. Vodítkem k tomuto rozhodnutí mohou být úlohy s geometrickými pravděpodobnostmi. Příklad: Náhodně vybereme bod ze čtverce. Předpokládáme rovnoměrné rozdělení. (To lze definovat tak, že pravděpodobnost výskytu v jakémkoli menším čtverci je úměrná jeho obsahu, nezávisí na poloze. Ptáme se na pravděpodobnost, že takto náhodně vybraný bod padne do kruhu vepsaného do původního čtverce. π Očekáváme, že touto pravděpodobností bude poměr obsahů, tj. 4. Tento výsledek nám zajistí z navržených možností pouze ta, při níž požadujeme splnění (P pro spočetné množiny jevů. Kdybychom požadovali (P pro libovolné množiny jevů, žádné rovnoměrné rozdělení bychom nepřipustili. (Celý čtverec lze totiž pokrýt disjunktními jednobodovými množinami, které mají nulovou pravděpodobnost, tedy i pravděpodobnost výskytu v celém čtverci by vyšla nulová, což je spor. Kdybychom naopak požadovali (P pouze pro konečné množiny jevů, bylo by možných odpovědí více, navíc ani není zaručeno, že by pravědpodobnost, že bod padne do kruhu, byla definována (kruh lze totiž disjunktně pokrýt spočetně mnoha čtverci bez hranic, úsečkami a body, ale operace s konečně mnoha argumenty k tomu nestačí. 1
Závěr je, že se musíme smířit s následující definicí pravděpodobnosti: Je dána množina Ω elementárních jevů, dále systém B podmnožin množiny Ω, splňující následující podmínky: 1. Ω B,. A B = A B, 3. ( n N : A n B = A n B. (Takový systém B se nazývá σ-algebra podmnožin množiny Ω. Množinu A B ztotožňujeme s odpovídajícím jevem (který nastává, právě když výsledek popsaný elementárním jevem patří do A. Pravděpodobnost (též pravděpodobnostní míra je zobrazení P : B [0, 1], které splňuje (P1 P (Ω = 1, ( (P P A n = P (A n pro každou posloupnost (A n, navzájem disjunktních množin z B. Trojice (Ω, B, P uvedených vlastností se nazývá pravděpodobnostní prostor. (V celém kursu notace P [. ] značí pravděpodobnost jevu v hranaté závorce, zápis P (. používáme pro pravěpodobnostní míru. Všimněme si, že pro neklesající posloupnost množin (A n (tj. A n A n+1 pro všechna n platí P ( A n = lim n P (A n, neboť množiny B 1 = A 1, B n+1 = A n+1 \ A n, n N, jsou navzájem disjunktní a splňují ( ( P A n = P B n = n P (B n = lim P (B k = lim P (A n. n n 1.1 Rozdílná role teorie pravděpodobnosti a statistiky Připouštíme tedy, že pravděpodobností může být mnoho. V případě kostky to znamená, že jsme připraveni popsat jakoukoli (neregulérní kostku. Teorie pravděpodosti jen říká, jaké závěry z takového popisu vyplývají. Např. za předpokladu známé pravděpodobnosti výsledku jednotlivých hodů kostkou a jejich nezávislosti dává odpověď na otázku, jaké je rozdělení průměru ze 100 hodů nebo pravděpodobnost, že padne 10 sudých čísel po sobě. Neříká nic o tom, jaká je kostka, kterou používáme; parametry rozdělení považuje za známé. Určením těchto parametrů se zabývá statistika. Ta se snaží odpovědět např. na otázky, jaká je pravděpodobnost výsledků konkrétní kostky nebo zda je tato kostka regulérní. K tomu využívá výsledky pokusů, které porovnává s pravděpodobnostním modelem. 1. Minimum o náhodných veličinách a distribučních funkcích Pro korektní zavedení náhodné veličiny potřebujeme zavést nejmenší σ-algebru B(R podmnožin množiny R všech reálných čísel, která obsahuje všechny intervaly. (Je jedno, zda vyjdeme z otevřených či uzavřených intervalů. Tato σ-algebra obsahuje všechna spočetná sjednocení intervalů a ještě další množiny; nazýváme je borelovské množiny a B(R se nazývá Borelova σ-algebra. Tento pojem lze přirozeně zobecnit na podmnožiny R n či C, tj. množiny vektorů či komplexních čísel. Náhodné veličině X odpovídá funkce ξ X : Ω R, která každému elementárnímu jevu přiřazuje číselnou hodnotu. Potřebujeme navíc, aby pro každý interval I R byla definována pravděpodobnost P [X I], že hodnota náhodné veličiny padne do tohoto intervalu. K tomu je nutné, aby množina ξ 1 X (I = {r R ξ X (r I} patřila do σ-algebry B; pak je P [X I] = P (ξ 1 X (I. (Tato vlastnost se z intervalů automaticky rozšíří i na spočetná sjednocení intervalů a na všechny borelovské množiny. Znalost hodnot P [X I] pro všechny intervaly I nám určuje rozdělení náhodné veličiny X, ve skutečnosti pravděpodobnostní míru ω X : B(R [0, 1] definovanou na borelovských množinách vztahem ω X (A = P [X A]. Ta nám poslouží jako univerzální popis reálné náhodné veličiny, neboť již není třeba se dále odvolávat na pravděpodobnostní prostor (Ω, B, P. Úsporněji můžeme rozdělení náhodné veličiny popsat, omezíme-li se na intervaly tvaru (, t, všechny ostatní lze pomocí nich vyjádřit. Rozdělení je tedy plně určeno funkcí F X : R 0, 1, k=1 F X (t = P [X (, t ] = P [X t] = ω X ((, t,
nazývanou distribuční funkce. Z významu vyplývají základní vlastnosti: F X je neklesající, zprava spojitá, lim F X(t = 0, t lim F X (t = 1. t Naopak, každá funkce těchto vlastností je distribuční funkcí nějaké reálné náhodné veličiny. Může mít body nespojitosti, kterých je (kvůli monotonii spočetně mnoho. Budeme potřebovat i vektorové náhodné veličiny. Vektorová náhodná veličina (náhodný vektor X = (X 1,..., X N je vektor náhodných veličin, jehož rozdělení lze popsat sdruženou distribuční funkcí F X1,...,X N : R N 0, 1, F X1,...,X N (t 1,..., t N = P [(X 1 t 1... (X N t N ]. (Opět požadujeme, aby pravděpodobnost na pravé straně byla definována, tj. aby odpovídající množina elementárních jevů patřila do σ-algebry B. Sdružená distribuční funkce nese plnou informaci nejen o rozdělení jednotlivých náhodných veličin X 1,..., X N, ale i o jejich závislosti atd. Máme-li náhodnou veličinu, jejíž hodnoty nejsou číselné, můžeme ji převést na předchozí případ tak, že její hodnoty nahradíme čísly. Pokud možných hodnot je spočetně mnoho, je tento krok bez problémů. Rozlišujeme následující případy (pro jednoduchost pro reálnou náhodnou veličinu X: 1. Distribuční funkce je po částech konstantní, mění hodnotu pouze skokem. To znamená, že existuje spočetná množina hodnot Supp X = {t R P [X = t] > 0}, kterých X nabývá s nenulovou pravděpodobností, a je nulová pravděpodobnost, že by výsledek nepadl to této spočetné množiny, P [ X / Supp X] = 0. Pak hovoříme o diskrétní náhodné veličině. Kromě distribuční funkce ji můžeme popsat pravděpodobnostní funkcí p X : R 0, 1, p X (t = P [X = t] = ω X ({t}.. Distribuční funkce je spojitá, ba dokonce je integrálem nějaké nezáporné funkce f X : R 0, ; tu nazýváme hustota náhodné veličiny. To znamená, že každá hodnota nastává s nulovou pravděpodobností, nicméně pravděpodobnost, že výsledek padne do nějakého intervalu, může být nenulová. Pak hovoříme o (absolutně spojité náhodné veličině. Hustota splňuje F X (t = t f X (u du, (1 čímž není určena jednoznačně (např. ji můžeme předefinovat ve spočetně mnoha bodech. Může me ji obvykle stanovit jako f X (t = df X (t dt, pokud tato derivace existuje. 3. Kromě těchto případů se může stát, že distribuční funkce někde roste spojitě, někde skokem, takže rozdělení má složku diskrétní a složku spojitou. Pak hovoříme o smíšené náhodné veličině. Tento obecný případ se obvykle budeme snažit převést na kombinaci (směs předchozích, jak ukážeme dále. 4. Přehled nebyl vyčerpávající, neboť existují spojité distribuční funkce, které nelze vyjádřit integrálem tvaru (??, tyto případy však ponecháme v galerii matematických kuriozit (ač hlubokých výsledků a nadále se jimi nebudeme zabývat. Poznámka: Distribuční funkci spojité náhodné veličiny lze libovolně přesně aproximovat distribuční funkcí diskrétní náhodné veličiny a naopak, takže kdybychom dobře zvládli jeden z těchto případů, mohli bychom si přibližně poradit se vším. Nevyhneme se potřebě pracovat s následujícím pojmem: 1.3 Směs rozdělení, resp. náhodných veličin Nechť U, V jsou náhodné veličiny s distribučními funkcemi F U, F V, c 0, 1. Pak konvexní kombinace distribučních funkcí F X = cf U + (1 cf V ( je distribuční funkcí nějaké náhodné veličiny X; tu nazveme směs veličin U, V (s koeficientem c, značíme X = Mix c (U, V. Nemusí to být totéž jako náhodná veličina cu + (1 cv. Názorná interpretace: výsledek realizace veličiny X = Mix c (U, V bude s pravděpodobností c určen realizací veličiny U, s pravděpodobností 1 c realizací veličiny V. Tento pojem lze přirozeně zobecnit na směs spočetně mnoha náhodných veličin (přičemž všechny koeficienty musí být nezáporné a jejich součet musí být 1. 3
Jsou-li U, V diskrétní náhodné veličiny, pak X = Mix c (U, V je diskrétní, s pravděpodobnostní funkcí p X = cp U + (1 cp V. Každá diskrétní náhodná veličina je směsí (spočetně mnoha konstantních náhodných veličin. Jsou-li U, V spojité, pak X = Mix c (U, V je spojitá, s hustotou f X = cf U + (1 cf V. Nejdůležitější je však případ, kdy U je diskrétní a V spojitá, pak X = Mix c (U, V je náhodná veličina se smíšeným rozdělením, které není ani diskrétní, ani spojité (s výjimkou triviálních případů c {0, 1}. Rozklad rozdělení na směs diskrétního a spojitého rozdělení je jednoznačný. (Pokud existuje; my zde však ani neuvažujeme rozdělení, pro která by neexistoval. Dostaneme ho z dané distribuční funkce F X následovně: Diskrétní složka bude splňovat: Spojitou složku dostaneme z (??: Supp U = Supp X, c = u Supp X F V = F X cf U 1 c p X (u,. p U (t = p X(t c Střední hodnota náhodné veličiny X (značíme EX nebo µ X je tak názorný a zásadní pojem, že bychom očekávali jednořádkovou definici; tak jednoduché to bohužel není. Definujeme ji zvlášť - pro diskrétní náhodnou veličinu U: EU = t p U (t = t p U (t, t R t Supp U - pro spojitou náhodnou veličinu V : EV = - pro směs náhodných veličin X = Mix c (U, V : t f V (t dt, EX = ceu + (1 cev. Tento vztah není linarita střední hodnoty. Náhodná veličina W = cu + (1 cv má také střední hodnotu EW = ceu + (1 cev, ale je to veličina různá od Mix c (U, V, získaná pomocí aritmetiky náhodných veličin (nikoli distribučních funkcí. Mají-li U, V stejné rozdělení (např. alternativní, resp. spojité rovnoměrné, pak Mix c (U, V má totéž rozdělení, zatímco ceu +(1 cev má jiné rozdělení (zde binomické, resp. trojúhelníkové. Tím máme vyřešen případ směsi diskrétní a spojité náhodné veličiny; názor, že by stačilo poopravit definici integrálu, je správný, ale znalost Lebesgueova Stieltjesova integrálu od vás nepožadujeme. Střední hodnota reálné náhodné veličiny nemusí existovat; příslušný výraz může být nekonečný, nebo i nedefinovaný, pokud není absolutně konvergentní. Střední hodnota vektorové náhodné veličiny X = (X 1,..., X N je vektor příslušných středních hodnot, EX = (EX 1,..., EX N (analogicky pro komplexní náhodnou veličinu počítáme zvlášť střední hodnotu reálné a imaginární části. Pokud náhodná veličina nabývá nečíselných hodnot, pak je sice můžeme nahradit čísly, ale pojmy jako střední hodnota pozbydou význam, i když je lze formálně vypočítat.. 1.4 Operace s náhodnými veličinami Především připoměňme, že náhodná veličina, která nabývá jedinou hodnotu s pravděpodobností 1, je reálná konstanta a jako taková by se měla chovat ke všem operacím s náhodnými veličinami. Její distribuční funkce má jediný jednotkový skok (posunutá Heavisideova funkce. Přičtení konstanty c posune graf distribuční funkce o c ve směru vodorovné osy, F X+c (t + c = F X (t, F X+c (u = F X (u c. Vynásobení kladnou konstantou a roztáhne graf distribuční funkce ve směru vodorovné osy, F ax (at = F X (t, F ax (u = F X ( u a. Vynásobení zápornou konstantou není tak jednoduché, ale stačí říci, že vynásobení 1 odpovídá středová symetrie grafu distribuční funkce kolem bodu ( 0, 1 s nutnou opravou v bodech nespojitosti (spojitost zprava; v bodech spojitosti platí F X ( t = 1 F (t, F X (u = 1 F ( u. Cvičení: Co je výsledkem násobení nulou? 4
Zobrazení neklesající funkcí h dostaneme z definice; je-li funkce h spojitá a rostoucí, pak F h(x (h(t = P [h(x h(t] = F X (t; v bodech, které nejsou hodnotami funkce h, použijeme spojitost distribuční funkce zprava; v libovolném bodě u je F h(x (u = inf{f X (t h(t > u}. Neklesající funkci lze po částech aproximovat po částech lineární neklesající funkcí, tu aplikovat po částech dle dříve uvedených pravidel a získat tak aproximaci výsledku. Zobrazení funkcí h, která je po částech monotonní: Mohli bychom vyjít z definice distribuční funkce. Můžeme také vyjádřit h jako rozdíl dvou neklesajících funkcí, h = h + h. Danou náhodnou veličinu vyjádříme jako směs dvou náhodných veličin, z nichž jedna nabývá pouze hodnot, v nichž je h neklesající, druhá pouze hodnot, v nichž je h nerostoucí. Výsledek dostaneme jako směs dvou náhodných veličin, vzniklých zobrazením funkcí h po složkách, tj. h(mix c (X, Y = Mix c (h(x, h(y. Střední hodnota modifikované náhodné veličiny h(x je - pro X diskrétní: EX = h(t p X (t, - pro X spojitou: EX = t Supp X h(t f X (t dt. Všechny dosavadní triky s distribuční funkcí lze snadno vyjádřit i pro pravděpodobnostní funkce; zato u hustoty pravděpodobnosti musíme být opatrní, věc se komplikuje o násobení/dělení podílem diferenciálů. Je tedy bezpečnější naučit se pracovat s distribučními funkcemi. To platí zvláště pro následující důležitý případ: Pokud na náhodnou veličinu se spojitým rozdělením aplikujeme funkci, která je na nějakém intervalu konstantní, pak se nám může stát, že výsledná náhodná veličina má smíšené rozdělení (v extrémním případě diskrétní. Pak nelze použít žádné ze vzorců pro přepočet hustoty rozdělení apod., ale lze nadále pracovat se směsí rozdělení. Důsledky: Jelikož směs náhodných veličin se zachovává při aplikaci funkce a při výpočtu střední hodnoty, jako speciální důsledek dostáváme, že se zachovává i při výpočtu charakteristické funkce, Ψ X = E exp(iωx (kde i značí imaginární jednotku; je-li X = Mix c (U, V, pak Ψ X = cψ U + (1 cψ V. Podle tohoto vzorce můžeme počítat charakteristickou funkci náhodné veličiny se smíšeným rozdělením, když známe vzorce pro diskrétní: Ψ X (ω = exp(iωt p X (t, pro spojité: Ψ X (ω = t Supp X exp(iωt f X (t dt. Čebyševova nerovnost: Je-li X náhodná veličina se střední hodnotou µ X a rozptylem σ X, pak ε > 0 : P [ X µ X ε] σ X ε. Důkaz: Náhodná veličina X µ X je nezáporná a lze ji vyjádřit jako směs X µ X = Mix c (U, V, kde U nabývá pouze hodnot z ε,, takže EU ε, V nabývá pouze hodnot z 0, ε, c = P [ X µ X ε]. Pro rozptyl veličiny X platí σ X = E X µ X = E(Mix c (U, V = c EU }{{} +(1 c EV }{{} ε 0 cε, přičemž rovnost nastává, právě když U = ε, V = 0. Odtud c = σ X ε, což je Čebyševova nerovnost. Rovnost nastává pro diskrétní rozdělení s pravděpodobnostní funkcí {(µ X ε, c, (µ X, 1 c, (µ X + ε, c }. 5
Ekvivalentní tvary: ε > 0 : P [ X µ X < ε] 1 σ X ε, [ ] X µx δ > 0 : P δ 1 δ. σ X Vybraná témata ze statistiky.1 Volba metody odhadu parametrů Narážíme na následující omezení: Metodu momentů nelze použít na data, která nejsou číselná (svojí podstatou, očíslování možných hodnot nepomůže, neboť není jakýkoli důvod, proč by vypočtené momenty měly mít nějaký význam. Výjimkou jsou některé úlohy, jako hledání diskrétního rozdělení (bez dalších omezení, kdy výsledek metody momentů je nezávislý na zvoleném očíslování, a tedy odůvodněný (nicméně shodný s výsledkem metodou maximální věrohodnosti. Metodu maximální věrohodnosti nemůžeme použít na rozdělení, které je směsí diskrétního a spojitého. Věrohodnost totiž definujeme jinak pro diskrétní, jinak pro spojité rozdělení (není to tatáž veličina a nemáme žádné společné zobecnění. Nevylučuji, že někdo najde způsob, jak tento problém obejít. Jakékoli přijatelné řešení náležitě ocením.. Párový pokus (formulace odlišná od Rogalewiczova skripta Příklad: Máme porovnat ceny benzínu u dvou čerpacích stanic a rozhodnout, zda je rozdíl signifikantní. Model: Předpokládáme, že nezávislé náhodné veličiny X 1,..., X N (ceny u první stanice a Y 1,..., Y N (ceny u druhé stanice mají normální rozdělení N(µ j, σ se stejným a stálým rozptylem σ a proměnnou (leč vždy u obou stejnou střední hodnotou µ j, j = 1,..., N, tj. EX j = EY j = µ j, DX j = DY j = σ. Poznámka: Zde vybočujeme z původní formulace úlohy, podle níž měly všechny veličiny X 1,..., X N, Y 1,..., Y N mít stejné rozdělení. Zde se liší v závislosti na indexu (pořadí ve výběru. Místo nich můžeme uvažovat nezávislé náhodné veličiny U j = X j µ j, V j = Y j µ j s rozdělením N(0, σ, j = 1,..., N. Řešení: Parametry rozdělení jsou σ a µ = (µ 1,..., µ N. Určíme je metodou maximální věrohodnosti: l(µ, σ x, y = j 1 e (x j µ j σ πσ 1 e (y j µ j σ πσ j L(µ, σ x, y = j (x j µ j σ j (y j µ j σ N ln σ N ln π 0 = L(µ, σ x, y µ j = 1 σ ((x j µ j + ( y j µ j Dostáváme odhad µ j = xj+yj, který není ani překvapivý, ani konzistentní (zvýšení počtu pokusů ho nezpřesní, neboť se současně zvyšuje počet odhadovaných parametrů. Po jeho dosazení dostaneme odhad rozptylu (derivujeme podle proměnné σ : L(µ, σ x, y = j (x j y j 4σ N ln σ N ln π 0 = L(µ, σ x, y (σ σ = 1 4N = 1 4(σ (x j y j N σ j (x j y j j kde nezávislé náhodné veličiny j = x j y j mají normální rozdělení N(0, σ. Tento odhad rozptylu je konzistentní a lze jej použít pro testování hypotéz. 6