Lékařská biofyzika, výpočetní technika I Biostatistika Josef Tvrdík (doc. Ing. CSc.) Přírodovědecká fakulta, katedra informatiky josef.tvrdik@osu.cz konzultace úterý 14.10 až 15.40 hod. http://www1.osu.cz/~tvrdik
Přednáška 2 Induktivní statistika Data zobrazují jen část objektů reálného světa, který zkoumáme Populace a výběr Indukce usuzujeme o celku jen z jeho části Matematická (induktivní) statistika Odhady parametrů, bodové odhady, intervalové odhady Testování statistických hypotéz
Potíže při výzkumu založeném na empirických datech: počet objektů části reálného světa, kterou zkoumáme, je velký. Př. obyvatelé Moravskoslezského kraje, voliči v ČR, mravenci v Beskydech, součástky vyrobené na automatické lince,... zobrazit všechny objekty do statistických dat nelze z různých důvodů (čas, cena měření,...), musíme se spokojit s daty jen o části objektů přesto se potřebujeme dozvědět důležité pravdy o celé zkoumané části reálného světa
Popis situace: všechny objekty jen část objektů realita populace výběr data základní soubor výběrový soubor charakteristiky parametry odhady (parametrů) metody deskriptivní statistika induktivní statistika
Abychom z výběru mohli usuzovat o populaci: jasně vymezit (definovat) populaci, o níž chceme vědět dosud nepoznané pravdy zařídit, aby výběr tuto populaci opravdu reprezentoval (náhodný výběr jedinců z populace, všichni stejnou šanci) mít dostatečný rozsah výběru (počet řádků ve výběrovém souboru) ~ kvalita nových pravd
Obtíže lze překonat s pomocí induktivní (matematické) statistiky!!! Dobré zprávy: struktura dat stejná, jakou známe z popisné statistiky charakteristiky počítáme stejně jako v popisné statistice Špatná zpráva: nemáme úplnou vstupní informaci v datech, tzn. charakteristiky z dat nejsou přesně hodnotami platnými pro všechny objekty
Zatím jsme vystačili se zdravým selským rozumem, abychom zmapovali situaci, ve které se nacházíme, když chceme z výběru udělat rozumný výrok platný pro celou populaci Dále ale budeme potřebovat základní pojmy z (teorie) pravděpodobnosti budeme muset namáhat hlavu
Pravděpodobnost základní pojmy: Náhodný pokus více možných výsledků, nevíme, jak to dopadne, např. - zkouška na řidičského průkaz (projdeme nebo neprojdeme?), - zkoumání vzorku říční vody (kolik druhů mikroorganismů?), - těhotenství (narodí se kluk nebo holka nebo více dětí?) - hod kostkou nebo mincí Náhodný pokus lze nezávisle opakovat za stejných podmínek!(?)
Náhodný jev a pravděpodobnost: Náhodný jev je výsledkem náhodného pokusu (např. padla sudá při hodu kostkou), jev A Náhodnému jevu A lze přiřadit pravděpodobnost P(A)
Hod kostkou - jevy E 1 E 2 E 3 E 4 E 5 E 6 padla jednička padla dvojka padla trojka padla čtyřka padla pětka padla šestka Jiný výsledek nastat nemůže, kostka spadnout musí. Žádný z jevů E i, i = 1, 2,...,6, není složen z jiných jevů, nelze jej dále rozložit, ani nemohou nastat žádné dva takové jevy současně. Říkáme, že jevy E i jsou elementární jevy.
Jevy a operace jev B padne sudá je sjednocením jevů B = E E E 2 4 6 Sjednocením všech elementárních jevů dostaneme jev jistý - označíme jej symbolem U, tedy v našem příkladu U = E 1. E2 E6 Průnik jevů = oba jevy nastanou současně Jev nemožný B C Pokud, jsou B, C neslučitelné Jev opačný k jevu A =
Jevy a operace s jevy
Pravděpodobnost - platí (axiomy): ( ) 0 PA 1 ( ) PU = 1 Je-li A B=, pak PA ( B) = PA ( ) + PB ( )
Jak počítat pravděpodobnosti? lze odvodit z uvedených axiomů: ( ) ( ) PA = 1 PA PA ( B) = PA ( ) + PB ( ) PA ( B) Kde vzít hodnoty pravděpodobnosti?
Určení hodnot pravděpodobnosti: klasická prst všechny elementární jevy stejně pravděpodobné (počet možností příznivých) / (počet všech možností) statistická prst - odhadnout relativní četností při n opakování náhodného pokusu n A P( A) = lim n n
Podmíněná prst, nezávislé jevy: Podmíněná prst P ( A B) = P ( A B) P( B) Pravděpodobnost, že současně nastanou dva nezávislé jevy A, B: P( A B) = P( A) P( B)
Náhodná veličina, rozdělení Náhodná veličina (X, Y,...) abstrakce, přiřazuje elementárnímu náhodnému jevu reálné číslo Praktický účel umožňuje definovat rozdělení pravděpodobnosti, např. prsti jevů X = x nebo Y < y Náhodná veličina má charakteristiky polohy, variability, šikmost,...
Funkce definující rozdělení: Distribuční funkce F( x) = P( X < x) Diskrétní prstní funkce [ x, P( X = x )] i i Spojité - hustota f(t) x t
p-kvantil (daného rozdělení)
Binomické rozdělení model hodu n mincemi, na každé padne lev s pravděpodobností p, pravděpodobnost, že na n mincích padne k lvů n PY ( = k) = p k ( p) k 1 n k
Pravděpodobnostní funkce binomického rozdělení n = 10, p = 0,5 n = 10, p = 0,8
Rovnoměrné spojité rozdělení - hustota
Normální rozdělení s parametry µ, sigma ^ 2
chi kvadrát, n stupňů volnosti f(x) n=4 0.15 n=10 0.000 0 2 4 7 9 11 13 16 18 20 x
Studentovo t -rozdělení
Fisherovo F rozdělení f(x) m=1, n=50 1 m=12, n=6 0 0 2 3 5 6 x
Náhodný výběr v matematické statistice n náhodných veličin jsou nezávislé všechny mají stejné rozdělení mat. statistika nám říká, jaké úsudky o celé populaci můžeme udělat z náhodného výběru výběrový soubor je realizací náhodného výběru, z toho spočítáme hodnoty výběrových charakteristik
Odhady
Bodové odhady výběrová charakteristika je odhadem populační charakteristiky chceme, aby se do populační charakteristiky strefovala nestranný odhad aby se rozptyl výb. charakteristiky zmenšoval s rostoucím rozsahem výběru konzistentní odhad aby rozptyl výb. charakteristiky byl co nejmenší nejlepší odhad
Intervalové odhady θ, θ 1 2 interval,, ve kterém leží parametr (populační charakteristika) s velkou pravděpodobností 100( 1 α ) ( ) P θ θ θ = α 1 2 1 - procentní interval spolehlivosti
Testování hypotéz testujeme (většinou) tvrzení o parametru populace tvrzení je nutno předem zformulovat najít odpovídající test, podle kterého se na základě informace z výběrového souboru, zda tvrzení přijímáme nebo zamítneme.
Testování hypotéz SKUTEČNOST (nám neznámá) NAŠE ROZHODNUTÍ: H 0 : nezamítáme H 0 : zamítáme Tvrzení H 0 je pravdivé SPRÁVNÉ CHYBA I. druhu Tvrzení H 0 je nepravdivé CHYBA II. druhu SPRÁVNÉ