Přednáška IV. Náhodná veličina, rozdělení pravděpodobnosti a reálná data

Podobné dokumenty
Základy teorie pravděpodobnosti

Náhodná veličina, rozdělení pravděpodobnosti a reálná data

KGG/STG Statistika pro geografy

Výběrové charakteristiky a jejich rozdělení

Všechno, co jste chtěli vědět z teorie pravděpodobnosti, z teorie informace a

Náhodná veličina a rozdělení pravděpodobnosti

2. Základní typy dat Spojitá a kategoriální data Základní popisné statistiky Frekvenční tabulky Grafický popis dat

Definice spojité náhodné veličiny zjednodušená verze

Přednáška X. Testování hypotéz o kvantitativních proměnných

JAK MODELOVAT VÝSLEDKY NÁH. POKUSŮ? Martina Litschmannová

Chyby měření 210DPSM

pravděpodobnosti, popisné statistiky

7. Rozdělení pravděpodobnosti ve statistice

JAK MODELOVAT VÝSLEDKY

Charakterizace rozdělení

VYBRANÁ ROZDĚLENÍ. SPOJITÉ NÁH. VELIČINY Martina Litschmannová

y = 0, ,19716x.

RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr.

Rozdělení náhodné veličiny. Distribuční funkce. Vlastnosti distribuční funkce

ROZDĚLENÍ SPOJITÝCH NÁHODNÝCH VELIČIN

Pravděpodobnost a aplikovaná statistika

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Přednáška XI. Asociace ve čtyřpolní tabulce a základy korelační analýzy

Střední hodnota a rozptyl náhodné. kvantilu. Ing. Michael Rost, Ph.D.

Přednáška III. Data, jejich popis a vizualizace. Náhodný výběr, cílová a výběrová populace Typy dat Vizualizace různých typů dat Popisné statistiky

Náhodná veličina a její charakteristiky. Před provedením pokusu jeho výsledek a tedy ani sledovanou hodnotu neznáte. Proto je proměnná, která

P13: Statistické postupy vyhodnocování únavových zkoušek, aplikace normálního, Weibullova rozdělení, apod.

Minikurz aplikované statistiky. Minikurz aplikované statistiky p.1

Někdy lze výsledek pokusu popsat jediným číslem, které označíme X (nebo jiným velkým písmenem). Hodíme dvěma kostkami jaký padl součet?

Analýza dat na PC I.

LIMITNÍ VĚTY DALŠÍ SPOJITÁ ROZDĚLENÍ PR. 8. cvičení

Pravděpodobnost a statistika, Biostatistika pro kombinované studium. Jan Kracík

PRAVDĚPODOBNOST A STATISTIKA

NÁHODNÁ VELIČINA. 3. cvičení

Vybraná rozdělení náhodné veličiny

Přednáška IX. Analýza rozptylu (ANOVA)

Téma 22. Ondřej Nývlt

X = x, y = h(x) Y = y. hodnotám x a jedné hodnotě y. Dostaneme tabulku hodnot pravděpodobnostní

9. T r a n s f o r m a c e n á h o d n é v e l i č i n y

6.1 Normální (Gaussovo) rozdělení

PRAVDĚPODOBNOST A STATISTIKA

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Náhodná veličina Číselné charakteristiky diskrétních náhodných veličin Spojitá náhodná veličina. Pravděpodobnost

Me neˇ nezˇ minimum ze statistiky Michaela S ˇ edova KPMS MFF UK Principy medicı ny zalozˇene na du kazech a za klady veˇdecke prˇı pravy 1 / 33

Mgr. Rudolf Blažek, Ph.D. prof. RNDr. Roman Kotecký Dr.Sc.

Přednáška. Další rozdělení SNP. Limitní věty. Speciální typy rozdělení. Další rozdělení SNP Limitní věty Speciální typy rozdělení

10. cvičení z PST. 5. prosince T = (n 1) S2 X. (n 1) s2 x σ 2 q χ 2 (n 1) (1 α 2 ). q χ 2 (n 1) 2. 2 x. (n 1) s. x = 1 6. x i = 457.

Téma 2: Pravděpodobnostní vyjádření náhodných veličin

Jiří Neubauer. Katedra ekonometrie, FVL, UO Brno kancelář 69a, tel

Inferenční statistika - úvod. z-skóry normální rozdělení pravděpodobnost rozdělení výběrových průměrů

Inovace bakalářského studijního oboru Aplikovaná chemie

I. D i s k r é t n í r o z d ě l e n í

Přednáška. Diskrétní náhodná proměnná. Charakteristiky DNP. Základní rozdělení DNP

p(x) = P (X = x), x R,

ROZDĚLENÍ NÁHODNÝCH VELIČIN

Diskrétní náhodná veličina. November 12, 2008

prof. RNDr. Roman Kotecký DrSc., Dr. Rudolf Blažek, PhD Pravděpodobnost a statistika Katedra teoretické informatiky Fakulta informačních technologií

Náhodný vektor. Náhodný vektor. Hustota náhodného vektoru. Hustota náhodného vektoru. Náhodný vektor je dvojice náhodných veličin (X, Y ) T = ( X

KGG/STG Statistika pro geografy

Téma 2: Pravděpodobnostní vyjádření náhodných veličin

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

KMA/P506 Pravděpodobnost a statistika KMA/P507 Statistika na PC

SPOJITÉ ROZDĚLENÍ PRAVDĚPODOBNOSTI. 7. cvičení

Lékařská biofyzika, výpočetní technika I. Biostatistika Josef Tvrdík (doc. Ing. CSc.)

Vzorová písemka č. 1 (rok 2015/2016) - řešení

Náhodné (statistické) chyby přímých měření

Zpracování náhodného výběru. Ing. Michal Dorda, Ph.D.

Dobývání znalostí. Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze

Statistika, Biostatistika pro kombinované studium Letní semestr 2011/2012. Tutoriál č. 4: Exploratorní analýza. Jan Kracík

PRŮZKUMOVÁ ANALÝZA JEDNOROZMĚRNÝCH DAT Exploratory Data Analysis (EDA)

Pravděpodobnost a matematická statistika

Tématické okruhy pro státní závěrečné zkoušky. bakalářské studium. studijní obor "Management jakosti"

Matematika III 10. týden Číselné charakteristiky střední hodnota, rozptyl, kovariance, korelace

MATEMATICKÁ STATISTIKA

Základy biostatistiky II. Veřejné zdravotnictví 3.LF UK - II

2 Hlavní charakteristiky v analýze přežití

Cvičení 5. Přednášející: Mgr. Rudolf B. Blažek, Ph.D. prof. RNDr. Roman Kotecký, DrSc.

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz

STATISTICKÉ ZJIŠŤOVÁNÍ

Praktická statistika. Petr Ponížil Eva Kutálková

ÚVOD. Rozdělení slouží: K přesnému popisu pravděpodobnostního chování NV Střední hodnota, rozptyl, korelace atd.

PRAVDĚPODOBNOST A STATISTIKA

Diskrétní náhodná veličina

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Fyzikální korespondenční seminář MFF UK

Limitní věty teorie pravděpodobnosti. Jiří Neubauer. Katedra ekonometrie, FVL, UO Brno kancelář 69a, tel

E(X) = np D(X) = np(1 p) 1 2p np(1 p) (n + 1)p 1 ˆx (n + 1)p. A 3 (X) =

a způsoby jejího popisu Ing. Michael Rost, Ph.D.

Dva případy chybného rozhodnutí při testování: a) Testační statistika padne mimo obor přijetí nulové H hypotézy O, tj.

Statistické metody - nástroj poznání a rozhodování anebo zdroj omylů a lží

Náhodná veličina. Michal Fusek. 10. přednáška z ESMAT. Ústav matematiky FEKT VUT, Michal Fusek

Jevy a náhodná veličina

správně - A, jeden celý příklad správně - B, jinak - C. Pro postup k ústní části zkoušky je potřeba dosáhnout stupně A nebo B.

Tomáš Karel LS 2012/2013

Tématické okruhy pro státní závěrečné zkoušky. bakalářské studium. studijní obor "Management jakosti"

Design Experimentu a Statistika - AGA46E

8 Střední hodnota a rozptyl

Deskriptivní statistické metody II. Míry polohy Míry variability

RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr.

Transkript:

Přednáška IV. Náhodná veličina, rozdělení pravděpodobnosti a reálná data Náhodná veličina Rozdělení pravděpodobnosti náhodných veličin Normální rozdělení a rozdělení příbuzná Transformace náhodných veličin

Opakování tp dat Jaké znáte tp dat? Uveďte příklad

Opakování popis dat Co chceme u dat popsat? Jak to můžeme udělat?

Opakování který histogram je správný a proč? Chceme pomocí histogramu vkreslit počt zraněných při automobilových haváriích na předměstí Londýna v roce 1985. Data máme zadána jako počt v daných věkových kategoriích.

1. Náhodná veličina

Pojem náhodná veličina Číselné vjádření výsledku náhodného pokusu. Matematick je to funkce, která každému elementárnímu jevu ω z Ω přiřadí hodnotu ω z nějaké množin možných hodnot. : Ω R Náhodná veličina se netýká pouze kvantitativních proměnných. Číselné vjádření výsledku náhodného pokusu může popisovat i pohlaví. Chování náhodné veličin lze popsat pomocí rozdělení pravděpodobnosti: Funkce zadaná analtick Výčet možností a příslušných pravděpodobností

Význam náhodných veličin Množina Ω často není známa může být i nekonečná a nejsme tak schopni ji popsat. Náhodná veličina převádí Ω na čísla, se kterými se pracuje lépe. Neznáme li Ω, nejsme schopni popsat ani, ale jsme schopni ho pozorovat. Základní prostor Ω Pravděpodobnost P Jev A ω 1 Náhodná veličina 0 PA 1 R 0 x R

Pravděpodobnostní chování náhodné veličin Pravděpodobnostní chování náhodné veličin je jednoznačně popsáno tzv. rozdělením pravděpodobnosti náhodné veličin. Rozdělením náhodné veličin definované na prostoru s pravděpodobností P rozumíme předpis, který jednoznačně určuje všechn pravděpodobnosti tpu P pro každou B R. B P B P ω Ω : ω B i i Distribuční funkce Hustota spojité náhodné veličin Pravděpodobnostní funkce diskrétní náhodné veličin

Opět vztah populace vzorek Rozdělení pravděpodobnosti představuje model cílové populace. Pomocí vzorku naměřených pozorování se ptáme, jestli bl model správný snažíme se z dat usuzovat na vlastnosti tohoto rozdělení pravděpodobnosti. Ověření hpotéz na základě dat Hpotéza Experimentální vzorek Model cílové populace

Popis rozdělení pravděpodobnosti Distribuční funkce popisuje rozdělení pravděpodobnosti kumulativním způsobem. Hustota a pravděpodobnostní funkce popisují rozdělení pravděpodobnosti pro jednotlivé bod respektive interval na reálné ose. Distribuční funkce a hustota, respektive pravděpodobnostní funkce, jsou navzájem ekvivalentní, ted známe li jednu nepotřebujeme druhou.

Distribuční funkce Vjadřuje pravděpodobnost, že náhodná veličina nepřekročí dané x na reálné ose. F x P x P ω Ω : ω x i i Vlastnosti distribuční funkce?

Distribuční funkce Vjadřuje pravděpodobnost, že náhodná veličina nepřekročí dané x na reálné ose. F x P x P ω Ω : ω x i i Vlastnosti distribuční funkce: 1. Neklesající 2. Zprava spojitá 3. 4. 5. 0 F x 1 F x 0 pro x F x 1pro x

Distribuční funkce F x 2 Fx P x < 2 1 x F x 1 x1 x2 x x < 2 1 x

Distribuční funkce příklad Uvažujme 5 hodů mincí. Náhodná veličina představuje počet líců. Jak vpadá distribuční funkce?

Distribuční funkce příklad Uvažujme 5 hodů mincí. Náhodná veličina představuje počet líců. Jak vpadá distribuční funkce? {0, 1, 2, 3, 4, 5} P0 1 / 32 P1 5 / 32 P2 10 / 32 P3 10 / 32 P4 5 / 32 P5 1 / 32

Výběrová distribuční funkce Distribuční funkce je teoretická záležitost, která definuje pravděpodobnostní model pro náhodnou veličinu. Často neznáme její přesné vjádření. Výběrová distribuční funkce je charakteristika pozorovaných dat. Je odhadem teoretické distribuční funkce je li vzorek reprezentativní. Vjádření: F x n # xi n x 1 n n i 1 I x i x

Výběrová distribuční funkce příklad Výška studentů 2. ročníku Matematické biologie

Spojité a diskrétní náhodné veličin Náhodné veličin dělíme dle podstat na: Spojité mohou nabývat všech hodnot v daném intervalu. Diskrétní mohou nabývat nejvýše spočetně mnoha hodnot. Spojitou náhodnou veličinu s distribuční funkcí Fx charakterizuje tzv. hustota pravděpodobnosti, což je funkce taková, že platí: x f F x x dt Diskrétní náhodnou veličinu s distribuční funkcí Fx charakterizuje tzv. pravděpodobnostní funkce, což je funkce taková, že platí: t x F x p t P t t x

Fx a fx a px Spojitá náhodná veličina P 0 < 2 P 0 < 2 Diskrétní náhodná veličina P 3

Spojité a diskrétní náhodné veličin příklad Spojité náhodné veličin: Medicína: výška, váha, krevní tlak, glkémie, čas do sledované události, Biologie: biomasa na m 2, listová plocha, ph, koncentrace látek ve vodě, ovzduší, Diskrétní náhodné veličin: Medicína: počet krvácivých epizod, počet hospitalizací, počet dní po operaci do odeznění bolesti, Biologie: počet zvířat na jednotku plochu, objem, počet kolonií na misku,

Kvantilová funkce Inverzní funkce k distribuční funkci, výsledkem není pravděpodobnost, ale číslo na reálné ose, které odpovídá určité pravděpodobnosti. Distribuční funkce F x P x Kvantilová funkce x p F 1 P x F 1 p P Spojitá náhodná veličina x

2. Charakteristik náhodných veličin

Co chceme u dat popsat? Kvalitativní data četnosti absolutní i relativní jednotlivých kategorií. Kvantitativní data těžiště a rozsah pozorovaných hodnot.

Charakteristik náhodných veličin Distribuční funkce, hustota a pravděpodobnostní funkce popisují chování náhodné veličin sice kompletně, ale trochu nepraktick složitě. Jsou definován dvě charakteristik, které odráží vlastnosti rozdělení jedním číslem: střední hodnota a rozptl. Střední hodnota je definována pro spojitou náhodnou veličinu s hustotou fx jako integrál pokud existuje: E μ x f x dx pro diskrétní náhodnou veličinu s pravděpodobnostní funkcí px jako součet: E μ xp x x R

Charakteristik náhodných veličin Rozptl je definován pro spojitou i diskrétní náhodnou veličinu jako střední hodnota: Pro výpočet je používán vzorec: Nevýhoda rozptlu je, že není ve stejných jednotkách jako střední hodnota, proto se používá tzv. směrodatná odchlka odmocnina z rozptlu. 2 2 2 2 2 2 2 2 2 E E E E E E E E E E E D + + 2 2 E E D σ

Charakteristik náhodných veličin To, co nás zajímalo u pozorovaných dat má teoretický ekvivalent ve smslu pravděpodobnosti ve formě charakteristik náhodných veličin: Těžiště Střední hodnota Rozsah Rozptl Těmto charakteristikám pak odpovídají parametr rozdělení pravděpodobnosti. Charakteristik však mohou být i lehce zavádějící: náhodná veličina nemusí nabývat své střední hodnot. Příklad: Náhodná veličina nabývá hodnot 1 a 1, obou s pravděpodobností 0,5. Její střední hodnota je 0!

Význam střední hodnot Jedná se o formu váženého průměru možných hodnot na základě jejich pravděpodobností. Uvažujme diskrétní náhodnou veličinu {x 1,, x k } Px 1 p 1,, Px k p k Pak střední hodnota má tvar: E μ k i 1 x p i x i Váhu pro jednotlivé hodnot hraje jejich pravděpodobnost Jednotlivé možné hodnot

K čemu všechn t funkce a čísla vlastně jsou? Popis vlastností cílové populace na základě pozorovaných dat histogram, box plot, popisné statistik jsme schopni usuzovat na charakter rozdělení pravděpodobnosti sledované veličin. Dokonce jsme schopni otestovat míru shod s teoretickým rozdělením. Srovnání vlastností cílové populace/populací na základě pozorovaných dat a našich předpokladů o teoretickém modelu hpotéz jsme schopni pomocí statistických testů srovnávat vlastnosti jedné nebo více cílových populací. Predikce vlastností cílové populace nevvrátíme li na základě pozorovaných dat platnost teoretického modelu, jsme schopni se ptát, jak a s jakou pravděpodobností se bude cílová populace v budoucnu chovat.

Příklad srovnání Pacienti s hpertenzí, léčení ACE I nebo AIIA. Pacienti s ACE I Pacienti s AIIA N 1 416 N 1 394 Teď předbíháme: Vizualizace a popis zhodnotíme tvar rozdělení a přítomnost odlehlých hodnot. Testem můžeme ověřit normalitu hodnot. Testem můžeme ověřit rovnost rozptlů. Rozhodneme o aplikovatelnosti jednotlivých testů. mmhg 0 12 Medián 25% 75% 5% 95% 0 12 TKs v sedě mmhg B ACE-I B AIIA p-hodnota A vs. B Čas 0 medián 155 155 Čas 12 měsíců - medián 135 135 p-hodnota 0 vs. 12 <0,001 <0,001 0,929

3. Normální rozdělení pravděpodobnosti a rozdělení z něj odvozená

Normální rozdělení pravděpodobnosti Klíčové rozdělení pravděpodobnosti. Jak pro teoretickou statistiku, tak pro biostatistiku. Označení normální neznamená, že b blo normálnější než ostatní rozdělení. Popisuje proměnné, jejichž hodnot se smetrick shlukují kolem střední hodnot. Rozptl kolem střední hodnot je dán aditivním vlivem mnoha slabě působících faktorů. Příklad: výška člověka, krevní tlak

Normální rozdělení pravděpodobnosti Je kompletně popsáno dvěma parametr: μ střední hodnota, ted E σ 2 rozptl, ted D Označení: Nμ, σ 2 Hustota pravděpodobnosti: 2 f x; μ, σ 1 2 2πσ e x μ 2 / 2 σ 2 Čím bchom mohli jednotlivé parametr normálního rozdělení odhadnout?

Normální rozdělení dle hodnot parametrů μ a σ 2

Normální rozdělení pravděpodobnosti Normalita je klíčovým předpokladem řad statistických metod zejména testů a modelů. Není li splněna podmínka normalit hodnot, je špatně celý model se kterým daná metoda pracuje, což vede k neinterpretovatelným závěrům. Její ověření je tak stejně důležité jako výběr správného testu. Pro ověření normalit existuje řada testů a grafických metod.

Standardizované normální rozdělení Jakékoliv normální rozdělení může být převedeno zatím schválně neříkám transformováno na tzv. standardizované normální rozdělení: ~ 2 N μ, σ Y μ Y 2 σ ~ N0,1 Hustota pravděpodobnosti: f x;0,1 1 e 2π x 2 / 2 Klíčové rozdělení řad testů. Výhoda je, že všechn hodnot distribuční i kvantilové funkce jsou tabelován a obsažen ve všech dostupných softwarech.

Pravidlo ±3 sigma U normálního rozdělení lze včíslit procento hodnot, které b se měl vsktovat v rozmezí ± x násobku směrodatné odchlk od střední hodnot. Lze říci, že v rozmezí μ ±3σ b se mělo vsktovat přes 99,5 % všech hodnot. 68,3 % všech hodnot 95,6 % všech hodnot 99,7 % všech hodnot

Pravidlo ±3 sigma k čemu to je? Lze ho použít pro jednoduché ale pouze orientační ověření normalit rozdělení pozorovaných dat. Příklad 1: Hladina sérového albuminu u 216 pacientů s cirhózou jater. Sumarizace pozorovaných hodnot: x 34,46 g/l s 5,84 g/l x ± 1s 73,15 % hodnot x ± 2s 95,83 % hodnot x ± 3s 28,62 40,30 g/l 22,78 46,14 g/l 16,94 51,98 g/l 99,07 % hodnot 68,3 % všech hodnot 95,6 % všech hodnot 99,7 % všech hodnot

Pravidlo ±3 sigma k čemu to je? Příklad 2: Simulovaná data, 50 hodnot z N0,1 + 1odlehlá hodnota 200. Sumarizace pozorovaných hodnot: x 3,87 s 28,02 x ± 1s 98,04 % hodnot 68,3 % hodnot x ± 2s 98,04 % hodnot 95,6 % hodnot x ± 3s 24,15 31,90 52,18 59,92 80,21 87,95 98,04 % hodnot 99,7 % hodnot

Pravidlo ±3 sigma k čemu to je? Pravidlo 3 sigma můžeme použít pro identifikaci odlehlých hodnot. Pravidlo 3 sigma můžeme použít pro orientační ověření normalit dat.

Chí kvadrát rozdělení Vzniká jako součet druhých mocnin k nezávislých náhodných veličin se standardizovaným normálním rozdělením, N0,1. Konstanta k je nazývána počet stupňů volnosti. i ~ N0,1 Q k i 1 2 i Q ~ 2 χ k Velký význam v teoretické statistice: Výpočet intervalu spolehlivosti pro rozptl Testování hpotéz o nezávislosti kvalitativních dat Test dobré shod

Studentovo t rozdělení Charakterizuje rozdělení průměru jako odhadu střední hodnot veličin s normálním rozdělením, v případě, že neznáme rozptl což je téměř vžd. Vzniká jako podíl dvou nezávislých veličin, jedné s rozdělením N0,1 a druhé s rozdělením χ 2 k. Parametrem t rozdělení je opět počet stupňů volnosti k. ~ N0,1, Q ~ 2 χ k T Q / k T ~ t k Lze ho chápat jako aproximaci normálního rozdělení pro malé vzork, pro velké velikosti souborů konverguje k normálnímu rozdělení. Teoretický základ t testu.

Log normální rozdělení Náhodná veličina Y má log normální rozdělení, kdž lny má normální rozdělení.a naopak, kdž má normální, pak Yexp má log normální. Hustota: f 2 x; μ, σ x 1 2 2πσ e ln x μ 2 / 2 σ 2, x > 0 Normální rozdělení aditivní efekt faktorů Log normální rozdělení multiplikativní efekt faktorů Řada jevů v přírodě se řídí log normálním rozdělením: délka inkubační dob infekčního onemocnění, abundance druhů, řada krevních parametrů např. sérový bilirubin u pacientů s cirhózou, počet bakteriálních buněk v daném objemu,

Binomické rozdělení Diskrétní rozdělení, které popisuje počet výsktů sledované události ve formě nastala/nenastala v sérii n nezávislých experimentů, kd v každém experimentu je stejná pravděpodobnost výsktu události a je p θ. Pravděpodobnostní funkce: n P k θ k k n k θ 1 Základ binomických testů pro srovnávání výsktu sledovaných událostí v populaci nebo mezi populacemi.

Poissonovo rozdělení Diskrétní rozdělení, které popisuje počet výsktů sledované události na danou jednotku času, ploch, objemu, kdž se tto události vsktují vzájemně nezávisle s konstantní intenzitou parametr λ. Jedná se o zobecnění binomického rozdělení pro n a p 0. Pravděpodobnostní funkce: Střední hodnota, rozptl: x λ λ e P x p x; λ, x x! E λ, D λ 0 Příklad: průměrný výskt mutací bakterií na 1 Petriho misku, počet krvinek vpoli mikroskopu, počet žížal vsktujících se na 1 m 2, počet pooperačních komplikací během určitého časového intervalu po výkonu.

Poissonovo rozdělení vliv λ

Exponenciální rozdělení Spojité rozdělení, které popisuje délk časových intervalů mezi jednotlivými událostmi Poissonova procesu. Popisuje ted časový interval mezi událostmi, kdž se tto události vsktují vzájemně nezávisle s konstantní intenzitou parametr λ. Hustota: Střední hodnota, rozptl: f x; λ λe E 1 λ, D λx, x 0 1 2 λ Význam v analýze přežití, je to nejjednodušší modelové rozdělení pro délku dob do výsktu sledované události předpokládá totiž konstantní intenzitu sstém nemá paměť. Zobecněním jsou další rozdělení: Weibullovo, Gamma.

Bimodální rozdělení Představuje většinou problém, neboť se zřejmě jedná o směs dvou souborů s unimodálním rozdělením. Bimodální rozdělení má např. tento tvar: žen muži

Existuje ±3 sigma i u asmetrických rozdělení? Pro nenormální rozdělení existuje pomůcka v podobě obecného pravidla Čebševov nerovnosti: Máme li náhodnou veličinu se střední hodnotou μ a a konečným rozptlem σ 2,pak pro libovolné reálné číslo k >0platí: P μ kσ 1 k 2

4. Transformace náhodných veličin

Transformace náhodné veličin Transformací náhodné veličin rozumíme aplikaci matematické funkce g tak, že vzniká nová náhodná veličina tzv. transformovaná Y g. Nová veličina nabývá nových hodnot má také jiné rozdělení pravděpodobnosti je třeba ho najít hustotu, pravděpodobnostní funkci. S transformací se mění škála mění se i interpretace vzdáleností mezi jednotlivými hodnotami.

Transformace náhodné veličin Spojitá veličina: chceme najít hustotu f Y. Diskrétní veličina: chceme najít pravděpodobnostní funkci p Y.., 1 1 R x p g P g P Y P p g x Y., 1 1 R g F g P g P Y P F Y., 1 klesající : Pro 1 1 1 R g d d g f g F d d F d d f x g Y Y., : rostoucí Pro 1 1 1 R g d d g f g F d d F d d f x g Y Y., jakoukoliv : Pro 1 1 R g d d g f f x g Y

Transformace náhodné veličin příklad Máme rozdělení náhodné veličin dáno tabulkou a chceme najít rozdělení pravděpodobnosti transformované náhodné veličin Y 2 1. x 2 1 0 1 2 px 0,1 0,25 0,15 0,3 0,2 x 2 1 0 1 2 px 0,1 0,25 0,15 0,3 0,2 3 0 1 0 3 p 0,3 0,55 0,15

Význam transformací pro zpracování dat Teoretické vlastnosti transformovaných náhodných veličin nám dávají nástroj pro práci s pozorovanými dat. Transformace můžeme použít pro následující cíle: 1. Normalizaci pozorovaných hodnot 2. Standardizaci normálních hodnot 3. Stabilizaci rozptlu pozorovaných hodnot teď vnecháme 4. Lepší interpretaci pozorovaných hodnot

1. Normalizace pozorovaných hodnot Normalita pozorovaných hodnot je silný předpoklad řad statistických metod, který musí být splněn, ab výsledk bl interpretovatelné! Hodnocení normalit dat vizuálně, na základě testu. Nenormální data je nutné transformovat nebo použít test bez předpokladu normalit. Logaritmická transformace Y ln Odmocninová transformace Y sqrt Box Coxova transformace

2. Standardizace normálních hodnot Standardizace je transformace náhodné veličin s Nμ,σ 2 na N0,1. Důvod: řada statistických metod bla odvozena pro standardizované normální rozdělení, N0,1. Děláme to ted opět kvůli lepší možnosti hodnocení dat. Teoretická standardizace: Praktická standardizace: U u i x i μ 2 σ x 2 s Obrázek: standardizace je převod modré, zelené a okrové na červenou.

4. Lepší interpretace pozorovaných hodnot Někd se nám hodí transformovat pozorovaná data kvůli lepší interpretaci. Příklad: Microarra experiment se dvěma vzork, měříme intenzitu genu Y v jedné tkáni hodnota intenzit A Y a v druhé tkáni hodnota intenzit B Y. Následně hodnot převádíme na logaritmus se základem 2 jejich podílu: log Z Y 2 A B Y Y Jaké to má výhod?

Poděkování Rozvoj studijního oboru Matematická biologie PřFMU Brno je finančně podporován prostředk projektu ESF č. CZ.1.07/2.2.00/07.0318 Víceoborová inovace studia Matematické biologie a státním rozpočtem České republik