Přednáška IV. Náhodná veličina, rozdělení pravděpodobnosti a reálná data Náhodná veličina Rozdělení pravděpodobnosti náhodných veličin Normální rozdělení a rozdělení příbuzná Transformace náhodných veličin
Opakování tp dat Jaké znáte tp dat? Uveďte příklad
Opakování popis dat Co chceme u dat popsat? Jak to můžeme udělat?
Opakování který histogram je správný a proč? Chceme pomocí histogramu vkreslit počt zraněných při automobilových haváriích na předměstí Londýna v roce 1985. Data máme zadána jako počt v daných věkových kategoriích.
1. Náhodná veličina
Pojem náhodná veličina Číselné vjádření výsledku náhodného pokusu. Matematick je to funkce, která každému elementárnímu jevu ω z Ω přiřadí hodnotu ω z nějaké množin možných hodnot. : Ω R Náhodná veličina se netýká pouze kvantitativních proměnných. Číselné vjádření výsledku náhodného pokusu může popisovat i pohlaví. Chování náhodné veličin lze popsat pomocí rozdělení pravděpodobnosti: Funkce zadaná analtick Výčet možností a příslušných pravděpodobností
Význam náhodných veličin Množina Ω často není známa může být i nekonečná a nejsme tak schopni ji popsat. Náhodná veličina převádí Ω na čísla, se kterými se pracuje lépe. Neznáme li Ω, nejsme schopni popsat ani, ale jsme schopni ho pozorovat. Základní prostor Ω Pravděpodobnost P Jev A ω 1 Náhodná veličina 0 PA 1 R 0 x R
Pravděpodobnostní chování náhodné veličin Pravděpodobnostní chování náhodné veličin je jednoznačně popsáno tzv. rozdělením pravděpodobnosti náhodné veličin. Rozdělením náhodné veličin definované na prostoru s pravděpodobností P rozumíme předpis, který jednoznačně určuje všechn pravděpodobnosti tpu P pro každou B R. B P B P ω Ω : ω B i i Distribuční funkce Hustota spojité náhodné veličin Pravděpodobnostní funkce diskrétní náhodné veličin
Opět vztah populace vzorek Rozdělení pravděpodobnosti představuje model cílové populace. Pomocí vzorku naměřených pozorování se ptáme, jestli bl model správný snažíme se z dat usuzovat na vlastnosti tohoto rozdělení pravděpodobnosti. Ověření hpotéz na základě dat Hpotéza Experimentální vzorek Model cílové populace
Popis rozdělení pravděpodobnosti Distribuční funkce popisuje rozdělení pravděpodobnosti kumulativním způsobem. Hustota a pravděpodobnostní funkce popisují rozdělení pravděpodobnosti pro jednotlivé bod respektive interval na reálné ose. Distribuční funkce a hustota, respektive pravděpodobnostní funkce, jsou navzájem ekvivalentní, ted známe li jednu nepotřebujeme druhou.
Distribuční funkce Vjadřuje pravděpodobnost, že náhodná veličina nepřekročí dané x na reálné ose. F x P x P ω Ω : ω x i i Vlastnosti distribuční funkce?
Distribuční funkce Vjadřuje pravděpodobnost, že náhodná veličina nepřekročí dané x na reálné ose. F x P x P ω Ω : ω x i i Vlastnosti distribuční funkce: 1. Neklesající 2. Zprava spojitá 3. 4. 5. 0 F x 1 F x 0 pro x F x 1pro x
Distribuční funkce F x 2 Fx P x < 2 1 x F x 1 x1 x2 x x < 2 1 x
Distribuční funkce příklad Uvažujme 5 hodů mincí. Náhodná veličina představuje počet líců. Jak vpadá distribuční funkce?
Distribuční funkce příklad Uvažujme 5 hodů mincí. Náhodná veličina představuje počet líců. Jak vpadá distribuční funkce? {0, 1, 2, 3, 4, 5} P0 1 / 32 P1 5 / 32 P2 10 / 32 P3 10 / 32 P4 5 / 32 P5 1 / 32
Výběrová distribuční funkce Distribuční funkce je teoretická záležitost, která definuje pravděpodobnostní model pro náhodnou veličinu. Často neznáme její přesné vjádření. Výběrová distribuční funkce je charakteristika pozorovaných dat. Je odhadem teoretické distribuční funkce je li vzorek reprezentativní. Vjádření: F x n # xi n x 1 n n i 1 I x i x
Výběrová distribuční funkce příklad Výška studentů 2. ročníku Matematické biologie
Spojité a diskrétní náhodné veličin Náhodné veličin dělíme dle podstat na: Spojité mohou nabývat všech hodnot v daném intervalu. Diskrétní mohou nabývat nejvýše spočetně mnoha hodnot. Spojitou náhodnou veličinu s distribuční funkcí Fx charakterizuje tzv. hustota pravděpodobnosti, což je funkce taková, že platí: x f F x x dt Diskrétní náhodnou veličinu s distribuční funkcí Fx charakterizuje tzv. pravděpodobnostní funkce, což je funkce taková, že platí: t x F x p t P t t x
Fx a fx a px Spojitá náhodná veličina P 0 < 2 P 0 < 2 Diskrétní náhodná veličina P 3
Spojité a diskrétní náhodné veličin příklad Spojité náhodné veličin: Medicína: výška, váha, krevní tlak, glkémie, čas do sledované události, Biologie: biomasa na m 2, listová plocha, ph, koncentrace látek ve vodě, ovzduší, Diskrétní náhodné veličin: Medicína: počet krvácivých epizod, počet hospitalizací, počet dní po operaci do odeznění bolesti, Biologie: počet zvířat na jednotku plochu, objem, počet kolonií na misku,
Kvantilová funkce Inverzní funkce k distribuční funkci, výsledkem není pravděpodobnost, ale číslo na reálné ose, které odpovídá určité pravděpodobnosti. Distribuční funkce F x P x Kvantilová funkce x p F 1 P x F 1 p P Spojitá náhodná veličina x
2. Charakteristik náhodných veličin
Co chceme u dat popsat? Kvalitativní data četnosti absolutní i relativní jednotlivých kategorií. Kvantitativní data těžiště a rozsah pozorovaných hodnot.
Charakteristik náhodných veličin Distribuční funkce, hustota a pravděpodobnostní funkce popisují chování náhodné veličin sice kompletně, ale trochu nepraktick složitě. Jsou definován dvě charakteristik, které odráží vlastnosti rozdělení jedním číslem: střední hodnota a rozptl. Střední hodnota je definována pro spojitou náhodnou veličinu s hustotou fx jako integrál pokud existuje: E μ x f x dx pro diskrétní náhodnou veličinu s pravděpodobnostní funkcí px jako součet: E μ xp x x R
Charakteristik náhodných veličin Rozptl je definován pro spojitou i diskrétní náhodnou veličinu jako střední hodnota: Pro výpočet je používán vzorec: Nevýhoda rozptlu je, že není ve stejných jednotkách jako střední hodnota, proto se používá tzv. směrodatná odchlka odmocnina z rozptlu. 2 2 2 2 2 2 2 2 2 E E E E E E E E E E E D + + 2 2 E E D σ
Charakteristik náhodných veličin To, co nás zajímalo u pozorovaných dat má teoretický ekvivalent ve smslu pravděpodobnosti ve formě charakteristik náhodných veličin: Těžiště Střední hodnota Rozsah Rozptl Těmto charakteristikám pak odpovídají parametr rozdělení pravděpodobnosti. Charakteristik však mohou být i lehce zavádějící: náhodná veličina nemusí nabývat své střední hodnot. Příklad: Náhodná veličina nabývá hodnot 1 a 1, obou s pravděpodobností 0,5. Její střední hodnota je 0!
Význam střední hodnot Jedná se o formu váženého průměru možných hodnot na základě jejich pravděpodobností. Uvažujme diskrétní náhodnou veličinu {x 1,, x k } Px 1 p 1,, Px k p k Pak střední hodnota má tvar: E μ k i 1 x p i x i Váhu pro jednotlivé hodnot hraje jejich pravděpodobnost Jednotlivé možné hodnot
K čemu všechn t funkce a čísla vlastně jsou? Popis vlastností cílové populace na základě pozorovaných dat histogram, box plot, popisné statistik jsme schopni usuzovat na charakter rozdělení pravděpodobnosti sledované veličin. Dokonce jsme schopni otestovat míru shod s teoretickým rozdělením. Srovnání vlastností cílové populace/populací na základě pozorovaných dat a našich předpokladů o teoretickém modelu hpotéz jsme schopni pomocí statistických testů srovnávat vlastnosti jedné nebo více cílových populací. Predikce vlastností cílové populace nevvrátíme li na základě pozorovaných dat platnost teoretického modelu, jsme schopni se ptát, jak a s jakou pravděpodobností se bude cílová populace v budoucnu chovat.
Příklad srovnání Pacienti s hpertenzí, léčení ACE I nebo AIIA. Pacienti s ACE I Pacienti s AIIA N 1 416 N 1 394 Teď předbíháme: Vizualizace a popis zhodnotíme tvar rozdělení a přítomnost odlehlých hodnot. Testem můžeme ověřit normalitu hodnot. Testem můžeme ověřit rovnost rozptlů. Rozhodneme o aplikovatelnosti jednotlivých testů. mmhg 0 12 Medián 25% 75% 5% 95% 0 12 TKs v sedě mmhg B ACE-I B AIIA p-hodnota A vs. B Čas 0 medián 155 155 Čas 12 měsíců - medián 135 135 p-hodnota 0 vs. 12 <0,001 <0,001 0,929
3. Normální rozdělení pravděpodobnosti a rozdělení z něj odvozená
Normální rozdělení pravděpodobnosti Klíčové rozdělení pravděpodobnosti. Jak pro teoretickou statistiku, tak pro biostatistiku. Označení normální neznamená, že b blo normálnější než ostatní rozdělení. Popisuje proměnné, jejichž hodnot se smetrick shlukují kolem střední hodnot. Rozptl kolem střední hodnot je dán aditivním vlivem mnoha slabě působících faktorů. Příklad: výška člověka, krevní tlak
Normální rozdělení pravděpodobnosti Je kompletně popsáno dvěma parametr: μ střední hodnota, ted E σ 2 rozptl, ted D Označení: Nμ, σ 2 Hustota pravděpodobnosti: 2 f x; μ, σ 1 2 2πσ e x μ 2 / 2 σ 2 Čím bchom mohli jednotlivé parametr normálního rozdělení odhadnout?
Normální rozdělení dle hodnot parametrů μ a σ 2
Normální rozdělení pravděpodobnosti Normalita je klíčovým předpokladem řad statistických metod zejména testů a modelů. Není li splněna podmínka normalit hodnot, je špatně celý model se kterým daná metoda pracuje, což vede k neinterpretovatelným závěrům. Její ověření je tak stejně důležité jako výběr správného testu. Pro ověření normalit existuje řada testů a grafických metod.
Standardizované normální rozdělení Jakékoliv normální rozdělení může být převedeno zatím schválně neříkám transformováno na tzv. standardizované normální rozdělení: ~ 2 N μ, σ Y μ Y 2 σ ~ N0,1 Hustota pravděpodobnosti: f x;0,1 1 e 2π x 2 / 2 Klíčové rozdělení řad testů. Výhoda je, že všechn hodnot distribuční i kvantilové funkce jsou tabelován a obsažen ve všech dostupných softwarech.
Pravidlo ±3 sigma U normálního rozdělení lze včíslit procento hodnot, které b se měl vsktovat v rozmezí ± x násobku směrodatné odchlk od střední hodnot. Lze říci, že v rozmezí μ ±3σ b se mělo vsktovat přes 99,5 % všech hodnot. 68,3 % všech hodnot 95,6 % všech hodnot 99,7 % všech hodnot
Pravidlo ±3 sigma k čemu to je? Lze ho použít pro jednoduché ale pouze orientační ověření normalit rozdělení pozorovaných dat. Příklad 1: Hladina sérového albuminu u 216 pacientů s cirhózou jater. Sumarizace pozorovaných hodnot: x 34,46 g/l s 5,84 g/l x ± 1s 73,15 % hodnot x ± 2s 95,83 % hodnot x ± 3s 28,62 40,30 g/l 22,78 46,14 g/l 16,94 51,98 g/l 99,07 % hodnot 68,3 % všech hodnot 95,6 % všech hodnot 99,7 % všech hodnot
Pravidlo ±3 sigma k čemu to je? Příklad 2: Simulovaná data, 50 hodnot z N0,1 + 1odlehlá hodnota 200. Sumarizace pozorovaných hodnot: x 3,87 s 28,02 x ± 1s 98,04 % hodnot 68,3 % hodnot x ± 2s 98,04 % hodnot 95,6 % hodnot x ± 3s 24,15 31,90 52,18 59,92 80,21 87,95 98,04 % hodnot 99,7 % hodnot
Pravidlo ±3 sigma k čemu to je? Pravidlo 3 sigma můžeme použít pro identifikaci odlehlých hodnot. Pravidlo 3 sigma můžeme použít pro orientační ověření normalit dat.
Chí kvadrát rozdělení Vzniká jako součet druhých mocnin k nezávislých náhodných veličin se standardizovaným normálním rozdělením, N0,1. Konstanta k je nazývána počet stupňů volnosti. i ~ N0,1 Q k i 1 2 i Q ~ 2 χ k Velký význam v teoretické statistice: Výpočet intervalu spolehlivosti pro rozptl Testování hpotéz o nezávislosti kvalitativních dat Test dobré shod
Studentovo t rozdělení Charakterizuje rozdělení průměru jako odhadu střední hodnot veličin s normálním rozdělením, v případě, že neznáme rozptl což je téměř vžd. Vzniká jako podíl dvou nezávislých veličin, jedné s rozdělením N0,1 a druhé s rozdělením χ 2 k. Parametrem t rozdělení je opět počet stupňů volnosti k. ~ N0,1, Q ~ 2 χ k T Q / k T ~ t k Lze ho chápat jako aproximaci normálního rozdělení pro malé vzork, pro velké velikosti souborů konverguje k normálnímu rozdělení. Teoretický základ t testu.
Log normální rozdělení Náhodná veličina Y má log normální rozdělení, kdž lny má normální rozdělení.a naopak, kdž má normální, pak Yexp má log normální. Hustota: f 2 x; μ, σ x 1 2 2πσ e ln x μ 2 / 2 σ 2, x > 0 Normální rozdělení aditivní efekt faktorů Log normální rozdělení multiplikativní efekt faktorů Řada jevů v přírodě se řídí log normálním rozdělením: délka inkubační dob infekčního onemocnění, abundance druhů, řada krevních parametrů např. sérový bilirubin u pacientů s cirhózou, počet bakteriálních buněk v daném objemu,
Binomické rozdělení Diskrétní rozdělení, které popisuje počet výsktů sledované události ve formě nastala/nenastala v sérii n nezávislých experimentů, kd v každém experimentu je stejná pravděpodobnost výsktu události a je p θ. Pravděpodobnostní funkce: n P k θ k k n k θ 1 Základ binomických testů pro srovnávání výsktu sledovaných událostí v populaci nebo mezi populacemi.
Poissonovo rozdělení Diskrétní rozdělení, které popisuje počet výsktů sledované události na danou jednotku času, ploch, objemu, kdž se tto události vsktují vzájemně nezávisle s konstantní intenzitou parametr λ. Jedná se o zobecnění binomického rozdělení pro n a p 0. Pravděpodobnostní funkce: Střední hodnota, rozptl: x λ λ e P x p x; λ, x x! E λ, D λ 0 Příklad: průměrný výskt mutací bakterií na 1 Petriho misku, počet krvinek vpoli mikroskopu, počet žížal vsktujících se na 1 m 2, počet pooperačních komplikací během určitého časového intervalu po výkonu.
Poissonovo rozdělení vliv λ
Exponenciální rozdělení Spojité rozdělení, které popisuje délk časových intervalů mezi jednotlivými událostmi Poissonova procesu. Popisuje ted časový interval mezi událostmi, kdž se tto události vsktují vzájemně nezávisle s konstantní intenzitou parametr λ. Hustota: Střední hodnota, rozptl: f x; λ λe E 1 λ, D λx, x 0 1 2 λ Význam v analýze přežití, je to nejjednodušší modelové rozdělení pro délku dob do výsktu sledované události předpokládá totiž konstantní intenzitu sstém nemá paměť. Zobecněním jsou další rozdělení: Weibullovo, Gamma.
Bimodální rozdělení Představuje většinou problém, neboť se zřejmě jedná o směs dvou souborů s unimodálním rozdělením. Bimodální rozdělení má např. tento tvar: žen muži
Existuje ±3 sigma i u asmetrických rozdělení? Pro nenormální rozdělení existuje pomůcka v podobě obecného pravidla Čebševov nerovnosti: Máme li náhodnou veličinu se střední hodnotou μ a a konečným rozptlem σ 2,pak pro libovolné reálné číslo k >0platí: P μ kσ 1 k 2
4. Transformace náhodných veličin
Transformace náhodné veličin Transformací náhodné veličin rozumíme aplikaci matematické funkce g tak, že vzniká nová náhodná veličina tzv. transformovaná Y g. Nová veličina nabývá nových hodnot má také jiné rozdělení pravděpodobnosti je třeba ho najít hustotu, pravděpodobnostní funkci. S transformací se mění škála mění se i interpretace vzdáleností mezi jednotlivými hodnotami.
Transformace náhodné veličin Spojitá veličina: chceme najít hustotu f Y. Diskrétní veličina: chceme najít pravděpodobnostní funkci p Y.., 1 1 R x p g P g P Y P p g x Y., 1 1 R g F g P g P Y P F Y., 1 klesající : Pro 1 1 1 R g d d g f g F d d F d d f x g Y Y., : rostoucí Pro 1 1 1 R g d d g f g F d d F d d f x g Y Y., jakoukoliv : Pro 1 1 R g d d g f f x g Y
Transformace náhodné veličin příklad Máme rozdělení náhodné veličin dáno tabulkou a chceme najít rozdělení pravděpodobnosti transformované náhodné veličin Y 2 1. x 2 1 0 1 2 px 0,1 0,25 0,15 0,3 0,2 x 2 1 0 1 2 px 0,1 0,25 0,15 0,3 0,2 3 0 1 0 3 p 0,3 0,55 0,15
Význam transformací pro zpracování dat Teoretické vlastnosti transformovaných náhodných veličin nám dávají nástroj pro práci s pozorovanými dat. Transformace můžeme použít pro následující cíle: 1. Normalizaci pozorovaných hodnot 2. Standardizaci normálních hodnot 3. Stabilizaci rozptlu pozorovaných hodnot teď vnecháme 4. Lepší interpretaci pozorovaných hodnot
1. Normalizace pozorovaných hodnot Normalita pozorovaných hodnot je silný předpoklad řad statistických metod, který musí být splněn, ab výsledk bl interpretovatelné! Hodnocení normalit dat vizuálně, na základě testu. Nenormální data je nutné transformovat nebo použít test bez předpokladu normalit. Logaritmická transformace Y ln Odmocninová transformace Y sqrt Box Coxova transformace
2. Standardizace normálních hodnot Standardizace je transformace náhodné veličin s Nμ,σ 2 na N0,1. Důvod: řada statistických metod bla odvozena pro standardizované normální rozdělení, N0,1. Děláme to ted opět kvůli lepší možnosti hodnocení dat. Teoretická standardizace: Praktická standardizace: U u i x i μ 2 σ x 2 s Obrázek: standardizace je převod modré, zelené a okrové na červenou.
4. Lepší interpretace pozorovaných hodnot Někd se nám hodí transformovat pozorovaná data kvůli lepší interpretaci. Příklad: Microarra experiment se dvěma vzork, měříme intenzitu genu Y v jedné tkáni hodnota intenzit A Y a v druhé tkáni hodnota intenzit B Y. Následně hodnot převádíme na logaritmus se základem 2 jejich podílu: log Z Y 2 A B Y Y Jaké to má výhod?
Poděkování Rozvoj studijního oboru Matematická biologie PřFMU Brno je finančně podporován prostředk projektu ESF č. CZ.1.07/2.2.00/07.0318 Víceoborová inovace studia Matematické biologie a státním rozpočtem České republik