Biostatistika a matematické metody epidemiologie- stručné studijní texty

Rozměr: px
Začít zobrazení ze stránky:

Download "Biostatistika a matematické metody epidemiologie- stručné studijní texty"

Transkript

1 Biostatistika a matematické metody epidemiologie- stručné studijní texty Bohumír Procházka, SZÚ Praha 1 Co můžeme sledovat Pro charakteristiku nebo vlastnost, kterou chceme sledovat zvolíme termín jev. Pod tímto pojmem si můžeme představit výšku postavy, její hmotnost, množství cholesterolu v krvi, vzdělání, skutečnost zda sledovaná osoba je nemocná, rodinný stav či krevní skupina a podobně. Abychom s těmito jevy mohli pracovat, potřebujeme je převést do nějaké formální podoby, tj. vyjádřit je číselnou hodnotou nebo nějakou skupinou kódů. Tento číselný obraz skutečnosti nazveme znakem. Formálně můžeme sledované znaky rozdělit do několika skupin: Kvalitativní znaky jsou charakteristiky sledovaných objektů, jejichž hodnoty patří do omezené skupiny hodnot. Například pohlaví nebo vzdělání. Dále je dělíme na: Nominální znaky jsou takové, které není možno navzájem uspořádat. Ordinální znaky jsou naopak ty, které je možno navzájem uspořádat, ale není známa míra toho, jak jsou od sebe jednotlivé kategorie vzdáleny. Alternativní(binární) znaky jsou ty, které mohou nabývat pouze dvou různých hodnot(např Ano/Ne). Kvantitativní znaky, jsou ty, jejichž hodnoty jsou nejen uspořádány, ale vyjadřují dokonce i určitou míru(např. může být věk, různé míry, váhy, koncentrace, počty zárodků či případů). Můžeme je rozdělit: Diskrétní znaky jsou ty, které nabývají pouze celočíselných hodnot(počty). Spojité znaky jsou ty, u kterých předpokládáme, že je možno je měřit s libovolnou přesností(různé míry, váhy,...). Všechnycharakteristikyvšakjsouzkreslenyjistoumírou náhody,aprotojenazývámenáhodnými veličinami. 2 Populaceavýběr Pokud používáme deskriptivní statistiku, týkají se naše tvrzení pouze souboru na kterém byla prováděna měření, pozorování a pod.. V tomto případě je výběr totožný s základní populací. Získané výsledky popisují pouze zkoumaný soubor a nesnaží se o žádné zobecnění na větší, nebo jinou skupinu objektů. Jiná situace nastává, pokud je požadováno použití induktivní statistiky. Ta se snaží o zobecnění- extrapolaci získaných výsledků na širší skupinu objektů. Celá induktivní statistika je založena na dvou pojmech: Základní populace a její charakteristiky. Jedná se často o velmi rozsáhlý soubor jehož vlastnosti nás zajímají. Můžeme je definovat dvěma způsoby: - První je výčet prvků souboru(například soubor všech voličů, soubor evidovaných diabetiků). - Druhou možností je popis souboru pomocí vlastností jeho členů, bez omezení na konkrétní skupinu osob. Například do souboru budou patřit osoby v produktivním věku léčené na diabetes. V tomto případě neomezujeme soubor na žádnou konkrétní populaci. Z pohledu induktivní statistiky nás zajímá jaké hodnoty sledované veličiny mají jedinci z celé populace. Mluvíme pak o rozložení sledované veličiny. Rozložením sledované veličiny v základní populaci rozumíme souhrn všech hodnot této veličiny základní populace. Tedy seznam všech možných hodnot této veličiny společně s četnostmi těchto hodnot v základní populaci. 1

2 Výběr a výběrové charakteristiky. Výběr je skupina objektů, na kterých provádíme šetření. To, jak výběr odpovídá základní populaci, určuje i kvalitu výsledku- přesněji řečeno kvalitu zobecnění získaných závěrů na základní populaci. Popisné charakteristiky výběru pak slouží jako odhady charakteristik celé populace. Výběrové charakteristiky jsou tedy odhadem populačních charakteristik. 3 Náhoda- pravděpodobnost- rozložení pravděpodobnosti Je zřejmé, že z formálního hlediska jsou nejjednodušší alternativní znaky. Často informují o přítomnosti nějaké vlastnosti, indikují nemoc či expozici. 3.1 Alternativní veličiny Při studiu alternativní veličiny je přirozené zajímat se o to, jakou hodnotu můžeme očekávat. Uvažujme alternativní(binární) veličinu, která nabývá dvou hodnot(např. ano a ne). Můžeme třeba položit otázku: Má sledovanáosobamodréoči?.označmetutoveličinusymbolem O. Naprvnípohledjezřejmé,ženelzebezověřeníříci,zdaveličina Onabýváhodnoty Ano či Ne.Rozložení v základní populaci je popsáno dvěma číselnými hodnotami- počtem modrookých osob a počtem všech ostatních v celé populaci. Podobně je popsáno i rozložení výběru, které nám slouží jako odhad neznámého rozložení celé populace. 3.2 Pravděpodobnost- charakteristika alternativní veličiny v základní populaci K tomu, aby bylo možno s náhodou nějak pracovat, je ji kvantifikovat. Jako míra očekávání zvolené odpovědi (např. Ano bylzavedenpojempravděpodobnost.tanabýváhodnotymezi0a1aprojejíoznačeníse používápísmeno Pajedefinovánajakopodílpočtuvšechosobsmodrýmiočivcelézákladnípopulacikjejímu rozsahu.pravděpodobnost,ženapříkladveličina Onabýváhodnoty Ano,značíme: P(O=Ano) Teoretickymohounastatdvaextrémnípřípady P(O=Ano)=1aP(O=Ano)=0.Má-livýrok(O=Ano - sledovaná osoba má modré oči) pravděpodobnost rovnu 1(resp. 0), mluvíme o jistém výroku(resp. nemožném). Někdy mluvíme i o takzvané podmíněné pravděpodobnosti, t.j. o pravděpodobnosti sledovaného jevu pokud nabývá jiná doprovodná veličina konkrétní požadované hodnoty. Označme ještě další veličinu, například V - sledovanáosobamáčernévlasy.pravděpodobnost,žesledovanáčernovlasáosobamámodréočiznačíme P(O=Ano V = Ano).Častosestává,žesledujemesoučasněrůznéjevyaptámesenajejichvztah.Řekneme, že dva jevy V a O jsou nezávislé, pokud pravděpodobnost společného výskytu modrých očí a černých vlasů P(O= Ano asoučasně V = Ano )jerovnasoučinu: P(O=Ano&V = Ano)=P(O=Ano) P(V = Ano) 3.3 Relativní četnost- charakteristika alternativní veličiny ve výběru Neznámou hodnotu pravděpodobnosti sledovaného jevu v základní populaci potřebujeme odhadnout. n 1 početodpovědí Ano vevýběrunaotázku O. n 2 početodpovědí Ne vevýběrunaotázku O. n. celkovýpočetodpovědí(n. = n 1 + n 2 ). Relativníčetnostínazveme p 1 = n1 n. = početosobvevýběrusmodrýmaočima počet všech osob ve výběru Pozorovanýmhodnotám n i (i=1,2)obvykleříkámepozorovanáčetnostneboabsolutníčetnost. V praktických aplikacích je relativní četnost často vyjadřována v procentech, promilích, nebo v počtech pozorovaných jedinců na Nominální veličiny Podobně, jako u alternativních veličin, je možno mluvit o pojmu pravděpodobnosti i u nominálních veličin. Pro ilustracimůžemeuvažovatrodinnýstavmatek.řekněme,žetatoveličinamůženabývathodnot Svobodná, Vdaná, Rozvedená a Vdova spravděpodobnostmi π 1, π 2, π 3 a π 4,kdenapříklad π 1 = početsvobodnýchmatekvzákladnípopulaci počet všech matek v základní populaci Jednotlivékategorieoznačmečísly1,2,3a4.Pakmůžememluvitočetnostech n 1,relativníchčetnostech n p i = i n 1+n 2+n 3+n 4,i=1,...,4.Jezřejmé,žejejichsoučetjerovenjedné. 2

3 3.5 Ordinální veličiny Stejně je možno uvažovat i o ordinálních veličinách. Jejich kódování je však nutno provést tak, aby respektovalo přirozenéuspořádáníveličiny.napříkladpokudpracujemesveličinou D= dosaženévzdělání,jepřirozené uspořádatjednotlivéhodnotytakto: základní, odborné, středoškolské a vysokoškolské.to,žesledovaná veličina je uspořádatelná, je užitečné využít. Poté co jednotlivé odpovědi vzestupně okódujeme(1,...,4), je možno zavést pro jednotlivé kódy i pojem kumulativní pravděpodobnost. Kumulativní pravděpodobnost je pak pravděpodobnost toho, že libovolná osoba(ze základní populace) má nejvýše právě uvažované vzdělání. 3.6 Kvantitativní veličiny Věnujme se nyní skupině kvantitativních veličin. Tyto veličiny mohou obecně nabývat velkého množství různých hodnot. Charakterizovat rozložení výběru pomocí relativních četností pro jednotlivé pozorované hodnoty je většinou krajně nepřehledné, protože možných hodnot je mnoho. Rozložení spojitých veličin se snažíme popsat pomocí pouze několika číselných parametrů a matematického modelu, který dostatečně dobře popíše celé rozložení. Základním pojmem charakterizujícím populaci je distribuční funkce, často značená F(x). Je to kumulativní pravděpodobnost, že sledovaná veličina nabývá hodnotu menší nebo rovnu x F(x)=P(D x) Tato funkce je rostoucí od nuly k jedničce. Byly vytvořeny různé modely této funkce, nazývané teoretickým rozložením pravděpodobnosti. Výběrovýmprotějškemdistribičnífunkcejeempirickádistribučnífunkce F n (x): F n (x)= n x n kde njepočetpozorovánían x jepočetpozorovánímenšíchneborovných x 3.7 Spojité veličiny Často používanou výběrovou charakteristikou je histogram. Je to seznam všech pozorovaných hodnot sledované veličiny a počtů, kolikrát byly tyto hodnoty pozorovány(tedy seznam dvojic: pozorovaná hodnota, její četnost). Častěji jej ale chápeme jako sloupcový graf, kde pro konkrétní hodnotu x pozorované veličiny vztyčíme nad bodem x x-ové osy sloupec jehož výška je úměrná četnosti příslušné k hodnotě x uvažované veličiny. Pro spojité veličiny je ale takovéto zobrazení většinou nepoužitelné(protože pro spojité veličiny by jednotlivé četnosti neměly být větší než jedna). Proto nejprve rozdělíme číselnou osu na stejně velké intervaly. Přitom je důležité, abychomzvolili rozumnou délkudělení.postupněprovšechnyintervalyzobrazímerelativníčetnostivýskytu pozorování v těchto intervalech. Tvar histogramu silně závisí na zvolené délce, ale i na počátku dělení. Histogram se s rostoucím počtem pozorování a jemnějším dělením stále více podobá své teoretické hodnotě. Histogram souží jako odhad rozložení veličiny v populaci, přesněji je odhadem hustoty(teoretického tvaru histogramu). 3.8 Celočíselné veličiny Jižzjejichnázvujevidět,žesejednáoveličinyvyjádřenépouzecelýmičísly,většinousejednáopočtynějakých objektů(počty buněk, bakterií, výskytu sledované diagnosy, a pod.). Proto jsou tyto veličiny obvykle nezáporné (pokudneuvažujemenapř. změnupočtu... ).Rozloženíceločíselnéveličinymůžemepopsatsoustavoupravděpodobností pro jednotlivé hodnoty(0, 1, 2,...). K číselné presentaci výběrového rozložení se používají relativní nebo kumulativní relativní četnosti. Častěji se ale používá grafické zobrazení. Nejužívanější je histogram pro jednotlivé pozorované hodnoty, případně empirická distribuční funkce. Stejně jako u spojitých veličin je velmi užitečné popsat studované rozložení matematickým modelem, který je dán jen několika málo parametru. Pracovat přímo s distribuční funkcí je obtížné, protože je popsána velkým množstvím čísel. Rádi bychom pracovali jen s několika málo jednoduchými charakteristikami. Dříve než přistoupíme k popisu charakteristik, označme: X sledovanou náhodnou veličinu. n rozsah výběru- počet pozorovaných nebo naměřených hodnot sledované veličiny x i (i=1,2,,...,n)jednotlivénaměřenéhodnoty µ sledovaný parametr veličiny X(například průměr) v základní populaci. ˆx odhad parametru µ vypočtený z výběru(například výběrový průměr x). 3

4 4 Míry polohy První co nás zajímá na sledované veličině je hodnota, která je schopna reprezentovat celý výběr. Chceme znát střed všechhodnotpopulace,čičástčíselnéosy,kdesepozorovánínacházejí.pokuduvažujemeteoretické rozložení populace, mluvíme o střední hodnotě(někdy bývá použit i termín očekávaná hodnota) a značíme jipísmenem E(např. E(X)=µ). 4.1 Průměr Průměr x je nejčastěji používaná charakteristika. Vypočteme jej jako součet všech hodnot dělený jejich počtem. Máme-livevýběru npozorování x i,pakmůžemeformálnězapsat: x= 1 n Průměr je často používaná míra polohy, která za svou oblibu vděčí jednak tomu, že ji je možno jednoduše vypočíst, ale i proto, že je jedním z dvou přirozených parametrů normálního rozložení. Pro typy rozložení, jiné než je normální, však tento odhad již nemusí být vhodný. Například pokud sledujeme koncentraci látky nebo hmotnost postavy, je vhodnější pracovat spíše s logaritmy získaných hodnot než se samotnými hodnotami. Mluvíme pak o logaritmicko-normálním rozložení. Odlogaritmovaný průměr logaritmůpaknazývámegeometrickýprůměr x geom.vypočtemejej: x geom = e 1 n n n i=1 x i i=1 ln(xi) = n n Nepříjemnou vlastností průměru je, že již jedna odlehlá hodnota může výrazně ovlivnit hodnotu počítaného odhadu. 4.2 Medián Dalšíčastopoužívanoucharakteristikoujemedián x med,kterýjejednodušeřečeno,prostředníměřenáhodnota. Proformálnízápisdefinicemediánuseřaďmenejprvejednotlivéhodnoty x i podlevelikostiaoznačmepísmenem xspořadovýmčíslemvhranatézávorcejakoindex(x [1] x [2] x [3]... x [n 1] x [n] ).Mediánpak definujeme: x med = i=1 x i x [ n+1 2 ] njeliché, x [ n 2 ]+x [ n 2 +1] 2 njesudé. Medián není sice pro normální rozložení nejlepším odhadem, má však jednu velmi užitečnou vlastnostje stabilní. Na rozdíl od průměru x, medián se nezmění, pokud bychom použité hodnoty libovolně vzdálili od mediánu. 4.3 Modus Další používanou charakteristikou je modus- nejpravděpodobnější hodnota. Jako výběrový odhad modu je používána nejčastěji pozorovaná hodnota. Pro veličiny, které jsou měřeny s velkou přesností je tento odhad obzvlášť pro menší soubory nepoužitelný. 4.4 Kvantil Kvantil je charakteristika která se z této skupiny poněkud vymyká. Je zobecněním pojmu medián. Kvantil x α jedefinovánjakohodnotataková,žepravděpodobnostmenšíchhodnotjerovna α.máme-li souboronpozorováních,pakprávě αnpozorováníjemenšíchnežvýběrovýkvantil x α. Někdybývázvykem používat i názvy první a druhý tercil, které dělí pozorování na tři stejné skupiny(popřípadě kvartily na čtyři, decily na deset a konečně percentily na sto). 5 Míry měřítka K charakteristikám polohy je důležité znát i míru toho, jak se mohou lišit hodnoty pro jednotlivé objekty sledované populace. K tomu slouží skupina charakteristik, které se nazývají míry měřítka. Jinými slovy: míry měřítka nepopisují přímo sledovanou hodnotu, ale její kolísání- ať již je způsobeno chybou měření nebo přirozenou variabilitou sledovaných objektů. 4

5 5.1 Rozptyl Rozptyl var(x)nebo σ 2 x,kde Xjesymboloznačujícísledovanouveličinu,jenejčastějipoužívanoumírouměřítka (někdy je také nazýván variance). Výběrovýmprotějškemjevýběrovýrozptyl.Zjednodušeněřečeno,jeto průměrný čtverec vzdáleností naměřených hodnot od průměru. s 2 x= 1 n 1 n (x i x) 2 i=1 Takto definovaný rozptyl je optimálním odhadem měřítka pro normální rozložení a je používán společně sprůměrem. Směrodatná odchylka někdy bývá nazývána též standardní odchylka, je charakteristika, která je často značená S.D.nebo s x aje s x = var(x) Střední chyba průměru je další charakteristikou měřítka(ne již přímo sledované náhodné veličiny, ale jejíhoprůměru).vyjadřujemíruvariabilityvýběrovéhoprůměruabýváčastoznačena S.E.nebo s x.jerovna var(x) s x = = s x n n Tato charakteristika již ale není populační charakteristikou, ale je charakteristikou výběru, přesněji řečeno odhaduje charakteristiku měřítka výběrového průměru. Obě poslední charakteristiky jsou úzce spjaté s intervalovými odhady. S.E. je používán pro konstrukci intervalů spolehlivosti a S.D. pro konstrukci tolerančních intervalů. Pozor! Jejich záměnou může dojít k zcela mylné interpretaci výsledků. Vpraxiseněkdypřipopisuvýsledkůpoužívávyjádření x ± S.D.nebo x ± S.E..Totovyjádřeníalenavádí k zcela chybné interpretaci. Čtenář, který není dostatečně seznámen s principy matematické statistiky si nutně takovýtovýrazvysvětlíjako interval,vkterémjesledovanáhodnota.tímmůžemínitbuďněkteroucharakteristiku rozložení(např. průměrnou výšku postavy), nebo hodnoty jedinců základní populace(jednotlivé výšky postavy). To jsou dva zcela odlišné pohledy. Navíc ale výše zmiňovaný interval není možno interpretovat takto interpretovat. 5.2 Rozpětí Jako míra měřítka se nabízí i takzvané rozpětí- vzdálenost nejmenší a největší pozorované hodnoty. Tato charakteristika je však silně závislá na rozsahu výběru. Čím více pozorování máme k disposici, tím menší může být minimální hodnota, případně větší maximální hodnota. Je tedy zřejmé, že takto definované rozpětí není vhodnou mírou. 5.3 Mezikvartilové rozpětí Pokud není sledovaná veličina normálně rozložena, obzvláště pokud jsou ve výběru obsažena odlehlá pozorování, je často rozumné vliv těchto extrémních hodnot omezit. Charakteristikou, která je málo citlivá na odlehlá pozorování je mezikvartilové rozpětí, které je definováno jako rozdíl prvního a třetího kvartilu: x 75% x 25% Na rozdíl od rozpětí se zde již neprojevuje efekt rozsahu výběru, přesněji řečeno u maxima a minima. 5.4 Variační koeficient Někdy je v praxi používáno relativní vyjádření míry polohy vzhledem k měřítku. Nazýváme jej variační koeficient: 6 Ostatní charakteristiky V = S.D. x 100% Někdy bývají používány i další charakteristiky, které není možno zařadit do žádné z obou skupin. Jsou to charakteristiky, které poskytují další informace o rozložení sledované veličiny. 5

6 6.1 Šikmost Je veličina, která měří asymetrii rozložení. T.j. udává, jsou-li pravděpodobnější větší odchylky na jednu, než na druhou stranu. Tato veličina je definována jako Výběrová šikmost je pak E(X E(X)) 3 (var(x)) 3/2 1 n n i=1 (x i x) 3 s 3 Odchylky šikmosti od nuly poukazují na nesprávnost předpokladu normality. Například logaritmicko-normální rozložení má zápornou šikmost. 6.2 Špičatost Tato charakteristika popisuje plochost či špičatost hustoty rozložení sledované veličiny. Je definována: E(X E(X)) 4 (var(x)) 2 3 Výběrová špičatost je pak 1 n n i=1 (x i x) 4 s 4 3 Takto definovaná špičatost je pro normální rozložení vždy rovna nule(někteří autoři však používají k definici špičatosti výraz neobsahující konstantu 3). Věnujme se nyní různým typům rozložení pravděpodobností. Říkali jsme si, že pro popis rozložení veličiny je užitečné používat matematické modely rozložení pravděpodobností, které je možno popsat pomocí pouze několika málo parametrů. Podle typu sledované veličiny je možno rozdělit rozložení do několika skupin: 7 Nominální veličiny O rozložení nominálních veličin jsme se již vlastně zmínili. Je jej možno popsat pravděpodobnostmi jednotlivých možných hodnot. Jak jsme si již říkali, alternativní veličiny je možno popsat pouze pomocí jediného parametru- pravděpodobnosti π. Někdy pak mluvíme o alternativním rozložení. Pokud nominální veličina nabývá více hodnot (například k),jekpopisujejíhorozloženínutno k 1pravděpodobností π 1,...,π k 1 (poslednípravděpodobnost je vždy možno dopočítat jako doplněk do jedné). 8 Diskrétní kvantitativní veličiny Tyto veličiny popisují kolikrát byl daný jev pozorován. Pokud se soustředíme na takovouto kvantitativní veličinu, uvažujeme vztah mezi pravděpodobnostmi, že tato veličina nabývá různých hodnot, který je možno popsat pouze pomocí malého počtu parametrů. Dále si ukážeme různé modely rozložení pravděpodobností. 8.1 Binomické rozložení Představme si, že sledujeme populaci skládající se z n osob, pak se můžeme zajímat o pravděpodobnost, že v tomto výběru bude právě x nemocných. Rozložení takovéto veličiny nazýváme binomické. Samozřejmě je možno vypočíst i základní charakteristiky. Střední hodnota(např. střední počet nemocných) je rovna: E(X)=nπ a pro rozptyl platí: var(x)=nπ(1 π) 6

7 8.2 Poissonovo rozložení U binomického rozložení jsme uvažovali, že sledujeme souboru omezeného rozsahu. Často se stává, že sledovaná populacejevelmirozsáhlánebodokonce nekonečná.napříkladmůžemesledovatpočetzárodkůnakultivační půdě(můžebýt x=0,1,2,3,...)nebopočetinfektůhorníchcestdýchacíchudětíběhemprvníchtříletvěku. Často pak neznáme horní mez pro sledované počty. Základní popisné charakteristiky- střední hodnota a rozptyl jsou: E(X)=var(X)=λ Spolu s binomickým rozložením je Poissonovo rozložení nejčastěji používáno pro popis veličin, které vyjadřují počet nalezených objektů našeho zájmu. 9 Spojité kvantitativní veličiny Dalšískupinuveličintvoříty,kterépopisujírůznémíry,měřitelnés libovolnoupřesností.patřísemrůzné délky, plochy, objemy, váhy, koncentrace a podobně. 9.1 Normální(Gaussovo) rozložení Je nejčastěji používaným rozdělením pro spojité náhodné veličiny. Pro názorné vysvětlení se uchýlíme k zjednodušení, které není z formálního hlediska přesné, ale umožní jednodušší pochopení. Představme si, že chceme měřit nějakou délku ale na měření máme k disposici nástroj, kterým je možno měřit pouze velmi malé délky (například měříme výšku postavy mikrometrem o rozsahu 0-25mm). Rozdělíme tedy měřenou délku na malé úseky (vnašempřípadě20mm),tyzměřímeasečteme.vpraxinebudetotoměřeníjednotlivýchdílkůabsolutně přesné. Dá se předpokládat, že tyto chyby měření budou mít stejné rozložení a nebudou navzájem závislé. Měřená délka, získaná jako součet, pak bude mít rozložení, které je symetrické okolo svého středu(průměru x) má tvar velmi blízký binomickému rozložení s pravděpodobností 0, 5. Pokud bychom si představili, že dílčí, měřené úseku jsou velmi(přesněji řečeno neomezeně) malé, pak získáme rozložení, které nazýváme normální či Gaussovo. Na tomto vysvětlení je názorně vidět, že součet či rozdíl normálních veličin je opět normální. Tedy i průměr skupiny normálně rozložených veličin je normální. Dokonce platí, že čím více nezávislých náhodných veličin sčítáme, tím je jejich součet blíže normálnímu rozložení i bez ohledu na to, zda má původní veličina normální či jiné rozložení. 9.2 Logaritmicko-normální rozložení Často se stává, že rozložení není symetrické. Příkladem může být hmotnost postavy, koncentrace různých látek a mnohé další veličiny. Řekněme, že hmotnost dospělého muže je 80kg. Uvažujeme-li odchylku 50kg, pak je zřejmé, že v populaci se mnohem častěji najdou dospělí muži o hmotnosti 130kg než o hmotnosti 30kg. Jakocharakteristikapolohysepakčastopoužíváodlogaritmovanýprůměrlogaritmů exp( ln(x)) nazývaný geometrický průměr. 10 Výběrová rozložení Konečně je nutno zmínit se i o rozloženích používaných ke konstrukci statistických testů. Tyto testy jsou vlastně prováděny tak, že vytvoříme tzv. testovací statistiku a test pak provádíme na základě toho, zda její hodnota odpovídá rozloženítestovacístatistikypokudbytestovanáskutečnostbylapravdou. 11 Odhady populačních charakteristik V praxi jsme často postaveni před problém stanovení určitých charakteristik rozložení sledované veličiny v základní populaci, je nutno pracovat s hodnotami sledovaných veličin(např. hladiny cholesterolu v krvi), které popisují populaci(přesněji řečeno základní populaci hladin cholesterolu) jako celek. V této kapitole se budeme zabývat principy testování a stanovením obecně platných hodnot sledovaných charakteristik- odhadů. Skutečné hodnoty parametrů rozložení sledované náhodné veličiny nemůžeme nikdy znát, můžeme pouze získat její odhadnout, který je zatížen jistou neurčitostí, kterou nazýváme náhodnou chybou, obsaženou v každém měření a dokonce i v každém našem odhadu. Pokud konstruujeme odhady charakteristik populace, můžeme toto zkreslení libovolně zmenšit rozsahem výběru, ale nikdy jej neodstraníme. 7

8 Vdalšíchúvaháchbudemečastopoužívatpopispozorování x i náhodnéveličiny Xpomocíjejíhoparametru polohy(nejčastěji populačního průměru µ): x i = µ+ε i kde ε i představujechybu(variabilitu)veličiny X. Jestliže máme vytvořen takovýto model, je naším cílem získat o informace o jeho charakteristikách, odhadnout např. střední hodnotu µ sledované náhodné veličiny X. Odhady je možno v principu rozdělit do dvou základních skupin: 11.1 Bodové odhady Bodovým odhadem ˆx charakteristiky µ náhodné veličiny X nazveme číslo, které považujeme za dobrého representanta odhadované charakteristiky µ. Nikde však není řečeno, že odhad ˆx je přesně roven skutečné hodnotě µ. Kvalita odhadu je daná na jedné straně variabilitou veličiny X, ale na druhé straně i rozsahem výběru. Čím více pozorování máme, tím je odhad přesnější, stabilnější. Příkladem bodového odhadu průměrné výšky postavy v populaci je průměrná výška vypočtená z použitého výběru, odhadem pravděpodobnosti výskytu diabetes je její relativní četnost Intervalové odhady populačních charakteristik- intervaly spolehlivosti Místo jednoho čísla bodového odhadu použijeme nyní jako odhad rozmezí(interval), který s dostatečnou jistotou obsahujehledanýparametrrozloženísledovanéveličiny.odhadypopulačníchcharakteristiktohototypu se nazývají intervaly spolehlivosti, v složitějších situacích mluvíme o oblastech či pásech spolehlivosti. Konstruhujeme interval, který s dostatečnou jistotou obsahuje skutečnou hodnotu odhadované charakteristiky v základním souboru. Formálně požadujeme, aby pravděpodobnost toho, že konstruovaný interval obsahuje skutečnou hodnotu byla větší než námi zvolená hodnota. Tuto pravděpodobnost pak nazveme hladinou spolehlivosti. Často ji volíme rovnu 0,95(95%). U později zmíněných statistických testů mluvíme často o jejím doplňku- hladině významnosti, značené obvykle α(vnašempřípadě0,05=5%).jetopravděpodobnosttoho,žekonstruovanýintervaljechybnýa neobsahuje skutečnou hodnotu. Na tomto místě je nutno si uvědomit, že intervaly je možno vymezit více způsoby. Obvykle se používají následující dvě možnosti: Jednostranné intervaly používáme, pokud nás zajímají odchylky pouze v jednom směru, například pokud měříme koncentraci nějaké nežádoucí látky v potravinách a chceme stanovit hodnotu, kterou skutečná koncentracetétolátkysnámizvolenoupravděpodobností 1 nepřekročí.nezajímánásomezeníkoncentrace zdola. Z výběru, který máme k dispozici, odhadneme parametry uvažovaného rozložení a získáme tak odhad hustoty f X (x)veličiny X.Snadnopaksestrojímeiodhadhustotyodhaduparametrů-např. f x (.)průměru x. Pomocí této hustoty můžeme nalézt bod na číselné ose, pro který pravděpodobnost toho, že hledaný průměrjemenšínežtato hodnota, jevětší než(např.) 95%. Toho dosáhnemetak, žezčíselnéosy odřízneme zprava část, jejíž hodnoty se v sledované populaci vyskytují s pravděpodobností α(100α%, tj. 5%).Knalezenítakovéhotohraničníhobodupoužijemehustotu f x (x)-viz.obrázek??,kdešrafovaná plocha nad x-ovou osou určuje oblast, která obsahuje v našem případě tolik největších číselných hodnot výšky postavy, by jejich pravděpodobnost byla rovna 5%. Je tak vlastně určena polopřímka která obsahuje skutečnou hodnotu s pravděpodobností menší než je námi zvolená přípustná chyba. Nás ale zajímá opačná polopřímka- jednostranný interval spolehlivosti. Ten tedy skutečnou hodnotu obsahuje s 95%-ní jistotou - spolehlivostí. Dvoustranné intervaly jsou konstruovány na podobném principu. Nyní však chceme omezit(například výšku postavy) z obou stran. Obvykle přikládáme stejnou váhu chybám na obě strany. Jestliže uvažovanou pravděpodobnostchyby αrozdělímenadvěčásti,stačívypočístdvajednostrannéintervalykaždýpro α 2 a ty vytvoří hledaný oboustranný interval. Graficky je tato konstrukce zobrazena na obrázku??). Dvě šedé plochy na tomto obrázku určují dvě polopřímky, jejichž hodnot nabývá sledovaná veličina pouze s pravděpodobností 5%. Přesněji řečeno pravděpodobnost, že průměrná výška postavy v sledované populaci je větší horní mez intervalu spolehlivosti je 2,5%(podobně i pro menší hodnoty). 1 Častovolíme5%,promálozávažnéorientačnívýsledkysevýjimečněpoužívái10%,neboprozávažnározhodování 1%,0.5%či0,1%. 8

9 5% 2.5% 2.5% porodní hmotnost (g) 11.3 Intervalové odhady pro jednotlivá pozorování- toleranční intervaly Dosud jsme se zabývali odhadem charakteristik, které nepopisují jednotlivé pozorované hodnoty, ale popisují zvolené charakteristiky sledované populace(např. průměrnou porodní hmotnost). Věnujme nyní pozornost odhadu hodnot pro jednotlivé členy populace. Například chtějme stanovit interval, který s dostatečnou jistotouobsahuje většinu (zvolenéprocento)novorozencůzpohleduporodníhmotnosti. K tomuto účelu se konstruují takzvané toleranční(pokryvné) intervaly. Jedná se o interval, který s pravděpodobností α pokryje 100γ%(řekněme 80%) pozorování jakéhokoliv náhodného výběru ze základní populace. Přibližme si názorně úvahy, které umožní konstrukci těchto intervalů. Hraniční hodnoty těchto intervalů někdy nazýváme toleranční meze Rozdíl interpretace intervalu spolehlivosti a tolerančního intervalu Při praktickém použití je nutno zvážit potřeby, musíme se rozhodnout, zda chceme vyslovit tvrzení pro základní populaci jako celku(např. o průměrné hodnotě sledované veličiny v populaci), nebo zda se chceme vyjadřovat o jednotlivých případech. Často mluvíme o epidemiologickém přístupu- vyslovujeme tvrzení pro populaci jako celek(například když chceme stanovit průměrnou výšku populace), nebo o klinickém přístupu-pokudnászajímajíjedinci(napříkladkdyžchcemestanovitrozmezí,vkterémse pohybuje většina populace. Můžeme chtít stanovit rozsah hodnot hladiny cholesterolu v krvi 90-ti procent zdravé populace). 12 Statistické testy Jistě jste si všimli, že již při konstrukci intervalových odhadů provádíme skryté rozhodování o tom, které hodnoty ještě považujeme za přijatelné pro uvažovaný parametr a které již ne. Je samozřejmé, že toto rozhodování není nikdy absolutně spolehlivé. Je nutné zajistit, aby míra případných omylů byla v přijatelných mezích. V předchozím odstavci jsme si ukazovali myšlenku intervalových odhadů. Často však býváme postaveni přímo před problém rozhodnout, zda nějaké tvrzení platí: například zda je rozdíl ve výšce postavy osob z různých krajů, či zda je častěji nemocná skupina exponovaných než neexponovaných osob. Testy, kterými se budeme zabývat, poskytují nástroj pro rozhodování, zda se například liší charakteristika sledované skupiny od požadované hodnoty(zda porodní hmotnost dětí je větší než 2800g). Základem statistických testů je snaha o rozhodnutí, zda je rozdíl testovaných hodnot možno vysvětlit pomocí náhody, či zda jej musíme považovat za systematický. Nejprve si představme velmi jednoduchý 9

10 příklad rozhodování. Řekněme, že chceme z pohledu zkoušejícího tvrdit o konkrétním studentovi výrok A= jehoznalostijsouvsledovanéoblastidostatečné.statistiknazývátakovétotvrzeníhypotézou (H 0 ).Nazákladězkoušky(vstatisticejinazývámetestem)tutohypotézupřijmemenebozamítneme. Vreálnésituacijetakovéto měřeníznalostí zatíženochybou.můžesestát,žepřestožestudentzná zkoušenou látku, odpoví na některou otázku chybně, nebo naopak jinému se podaří správnou odpověď uhádnout. Cílem zkoušky by mělo být zjištění, zda pravděpodobnost správné odpovědi π je dostatečně velká. Při hodnocení studenta mohou nastat čtyři případy: I. Budeme mylně tvrdit, že výrok A je nepravdivý. II.Budememylnětvrdit,ževýrokAjepravdivý. III. Budeme správně tvrdit, že výrok A je pravdivý. IV. Budeme správně tvrdit, že výrok A je nepravdivý. Výsledek Skutečnost testu H 0 platí H 0 neplatí H 0 přijata III. ChybaII.druhu β H 0 nepřijata ChybaI.druhu IV. α Tabulka1:Možnostipřitestováníhypotézy H 0 Správné rozhodnutí je pouze III. a IV. Všechny tyto možnosti jsou názorně zobrazeny ještě i v tabulce 1. Můžeme se tedy dopustit chyby dvojím způsobem(i. a II.). Při testech se budeme snažit pravděpodobnosti těchto chyb minimalizovat. O první z nich jsme se již zmínili u intervalových odhadů. Nazýváme ji chybou I. druhu a její pravděpodobnost značíme α. Je tedy: α=p(tvrdíme,ževýrok Anenípravdivý,aleveskutečnostiplatí) Písmenem β pak označujeme pravděpodobnost chyby II. druhu: β = P(tvrdíme, že výrok A je pravdivý, ale ve skutečnosti neplatí) 1 β se nazývá síla testu. V praxi bychom chtěli minimalizovat obě tyto pravděpodobnosti. Ty však na sobě závisí, s klesajícím α roste β a naopak. Minimalizovat pouze jednu z nich je sice jednoduché, ale nedává to žádný smysl. V praxi se při testování snažíme testem hodnotit charakteristiku jedné nebo více populací. Například hodnotíme průměrnou výšku postavy osob z určité skupiny(např. definované věkem a pohlavím). Nezajímá nás konkrétní jedinec, ale určitá charakteristika základní populace. Při provádění testu vstupují do hry nejenchyby αaβ,aleirozsahvýběru n. Testemtedykontrolujemepravděpodobnosttoho,žetvrzení H 0 platíamyjejneprokážeme.opačnou chybu(pravděpodobnost,že H 0 neplatíamyjejmylněbudemepovažovatzaplatné)jižalemáme(při konkrétnímrozsahuvýběru)pevnědanou.pokudvšakzvětšímerozsahvýběru,zvýšísenaše znalost rozložení sledované veličiny, zpřesní se odhad testovaného parametru a test se tedy stává přesnějším, bude více schopen nalézt případné rozdíly. Věnujme se nyní principu provádění testu. Ten provedeme tak, že vypočteme tzv. testovací statistiku S, která je pro konkrétní test určitou funkcí jednotlivých pozorování(viz. popis testů v dalších kapitolách). Za platnosti testované hypotézy známe rozložení testovací statistiky S. Vypočtené S pak porovnáme s kritickou hodnotou testovací statistiky. Je-li testovací statistika větší než odpovídající kritická hodnota,takjepravdivosthypotézy H 0 málopravděpodobná-protojizamítneme.pokudjevšaktestovací statistika menší než kritická hodnota, je možno pozorované rozdíly vysvětlit prostřednictvím náhodyhypotézu tedy nezamítáme. Jinými slovy: říkáme že, rozdíly nestačí k tomu abychom hypotézu zamítli. Ve výstupech statistických programů se velmi často objevuje mimo hodnotu testovací statistiky i takzvaná P-hodnota. Ta nám při hodnocení testu ještě více usnadní práci. Nemusíme totiž vyhledávat v statistických tabulkách kritickou hodnotu příslušné testovací statistiky, ale stačí pouze porovnat P-hodnotu s požadovanou významností. P-hodnota je rovna při testu dosažené hladině významnosti. Je to pravděpodobnost toho, že při opakovaném provedení experimentu, bude hodnota testovací statistiky stejná nebo větší. Prakticky tedy 10

11 stačí porovnat P-hodnotu se zvolenou hladinou významnosti α a je-li P-hodnota< α(např. < 0, 05 = 5%) řekneme, že test potvrdil statistickou významnost. Jinak považujeme testovaný rozdíl za statisticky nevýznamný- pozorované rozdíly je možno vysvětlit pomocí náhody. Jedním z nejčastějších požadavků je porovnání míry polohy souboru(např. průměru) s nějakou konkrétní hodnotou, nebo porovnání měr polohy různých základních souborů. Příkladem může být porovnání průměrné výšky postavy mužů a žen. Popišme si nyní řešení takovýchto problémů. 13 Jedna skupina Nejjednodušším úkolem je porovnání charakteristiky základní populace s konkrétní hodnotou Jednovýběrový U-test Ten ověřuje, zda je střední hodnota(průměr x) rovna požadované konstantě za předpokladu, že sledovaná veličinamánormálnírozloženíseznámýmrozptylem σ 2 x(např.víme-li,že σ x =0,5). Nutným předpokladem tohoto testu je jednak zmíněná normalita sledované veličiny, ale i nezávislost jednotlivých pozorovaných hodnot. Ta je porušena např., pokud v souboru jsou některé osoby měřeny opakovaně(takovýto problém je nutno řešit složitějšími nástroji). Dříve než zahájíme testování, musíme jednak zvolit hladinu významnosti α(například α = 0, 05 = 5%), ale i rozhodnout, zda chceme provést test jednostranný nebo oboustranný. Řekněme, že nás zajímá pouze jednostrannávariantatestu,tedyhypotézazdajeprůměrnáhladinacholesteroluvkrvidětízeškoly B statisticky významně větší než hodnota 4,4. Pro test vypočteme: U= ( x µ) n σ x = (4,212 4,4) 128 = 4,254 0,5 Pokud je pravda, že hladina HDL cholesterolu je menší nebo rovna hodnotě 4,4, má tato testovací statistika U normální(gaussovo) rozložení. To nám umožní provést požadovaný test. Ze statistických tabulek zjistímekritickouhodnotu u α normálníhorozložení,t.j.hodnotutakovou,abypronormálněrozloženou veličinu byla pravděpodobnost výskytu větších nebo stejných hodnot U nejvýše rovna 100α%(v našem případě5%). Je-lipak U > u α,jetestovanáhypotéza málo pravděpodobná-nemůžemerozdílmezinormou4,4a x vysvětlit pouhou náhodou. Řekneme, že hladina cholesterolu je statisticky významně větší než 4,4(na hladině významnosti 5%). Pokudjenaopak U < u α nenímožnotestovanouhypotézuvyloučit,případnouodchylkuhladinycholesterolu nadnormu jemožnovysvětlitipomocínáhody.řekneme,žerozdílnenístatistickyvýznamný (nahladiněvýznamnosti5%).případnýrozdíljetakmalý,žese schovaldonáhodnéchyby. Vpraxivšakvsoučasnédoběnenínutnovýpočtyprovádět ručně,statisticképrogramytutopráci udělají za nás a dokonce mimo testovací statistiky U nabídnou i již zmíněnou P-hodnotu. Pokud potřebujeme použít oboustranný test, pak stačí porovnat absolutní hodnotu statistiky U s hodnotou u α testjetedystatistickyvýznamnýpokudje U > u α Dálesebudemezabývatpouzeoboustrannými 2 2 testy Jednovýběrový t-test Předpokládejme, že sledovaná veličina má stále normální rozložení. V praxi však známe skutečný rozptyl jen výjimečně, musíme tedy použít jeho odhad. Pak je ale nutno předchozí test modifikovat. Tento test používá v kapitole 5 již zmíněné t-rozložení. Testovací statistika pro oboustranný test je pak velmi podobná U statistice: t= x µ n (4,212 4,4) 128 = =4,624 s x 0,460 Tutohodnotuporovnámeskritickouhodnotou t α (n 1)Studentovat-rozdělenísn 1stupnivolnosti. Protožeje t=4,624 >1,984=t 5% (127),nenímožnoodchylkuodnormyvysvětlitpomocínáhody. Říkáme, že test prokázal statisticky významnou odchylku sledované veličiny od normy. 11

12 13.3 Jednovýběrový znaménkový(mediánový) test Pokud sledovaná veličina nemá normální rozložení není možno použít t-test a musíme se uchýlit k obecněji použitelným, neparametrickým testům. Tím je například znaménkový test. Tento test je založen na velmi jednoduchém principu, sleduje totiž procento naměřených hodnot menších než hodnota s kterou soubor porovnáváme. Test zjišťuje, zda je toto procento statisticky významně odlišné od50%. Označme Y počet hodnot větších než hypotetická hodnota a n počet měření. Pak vypočteme U= 2Y n n = = 3,359 Statistiku U pak porovnáme s kritickou hodnotou normálního rozložení. Pro jednostranný test na hladině významnosti100α%porovnáme U > u α = u 5% =1,64nebo U < u α =1,64.Pokudvšakchceme vypočíst oboustranný test na hladině významnosti 100α%, použijeme U > u α 2 = u 2,5%=1, Jednovýběrový Wilcoxonův test Můžeme však použít i Wilcoxonův neparametrický test, který je silnější než předchozí znaménkový test. Použití Wilcoxonova testu je vhodné obzvlášť pokud je rozsah souboru menší a o analyzovaná náhodná veličina nemá normální rozložení. Tentotestnesledujepouzezdajenaměřenáhodnotavětšíčimenšínež norma,alepracujespořadím naměřených hodnot. Přesněji řečeno seřadíme bez ohledu na znaménko odchylky naměřených hodnot od normy abudemeseptátzdasestatistickyvýznamnělišíprůměrnépořadíodchylekvkladnéma záporném smyslu Test rozptylu jednoho výběru Zatím jsme si ukazovali pouze testy parametrů polohy. Někdy však potřebujeme testovat i parametry měřítka(např. σ 2 ). Řekněme,žechcemevypočístjednostrannýtest,že σ 2 nepřekročíhodnotu σ 0 =0,5. Vypočtěme nejprve statistiku S= (n 1)s2 x σ 2 0 = 127 0,4602 0,5 2 =108,34 Tutohodnotupakporovnámeskritickouhodnotou S < χ 2 n 1(1 α). Pokudbychomchtělitestovathypotézu σ 2 > σ 2 0(např. σ 2 0=0,25),jenutnoporovnat S > χ 2 n 1(α). Prosplněníoboustrannéhypotézy(σ 2 = σ 2 0)musíplatit,že χ 2 n 1( α 2 )=97,70 <108,34=S <160,09=χ2 n 1(1 α 2 ) Směrodatnáodchylka s x setedystatistickyvýznamněnelišíodhodnoty0,5.tentovýsledeknámtedy nebrání použít U-test tak, jak byl popsán. S výše zmíněnými testy velmi úzce souvisí i intervalové odhady. Ukažme si možnosti jejich konstrukce a použití Intervaly spolehlivosti Dále si ukážeme konstrukce intervalů spolehlivosti pro nejčastěji používané statistické charakteristiky průměru x, pro σ známé, je oboustranný α%-ní interval spolehlivosti ( x u α 2 σ n, x+u α 2 σ neznámé, je oboustranný α%-ní interval spolehlivosti ) σ n 12

13 ( x t α (n 1) s x, x+t α (n 1) s ) x n n Poznámka: Intervalové odhady je možno konstruovat i pro veličiny, které je nutno transformovat, aby měly normální rozložení. Například hmotnost postavy h mívá logaritmicko-normální rozložení. Vypočteme tedy intervalové odhady pro ln(h) a ty pak zpět odlogaritmovat. Získáme tak nesymetrické intervaly: (e ln(h) tα(n 1) s ln(h) n ),e ln(h)+tα(n 1) s ln(h) n kde ln(h)jeprůměrhodnot ln(h i ).Sestrojenýintervalpakmávlastnětvar ( hgeom k ) ;h geom k mediánu x med Intervalspolehlivostipromediánsekonstruujetak,ženejprveseřadímevšechnapozorování X i a seřazenáoznačíme X [1],X [2],X [3],...,X [n].pakvstatistickýchtabulkáchprodanýrozsah n,hladinu významnosti α a typ testu(jednostranný nebo oboustranný) nalezneme pořadové číslo pozorování, které tvoří příslušnou hranici intervalu spolehlivosti pro medián. Příklad intervalu spolehlivosti pro medián je v tabulce. rozptylu s 2 Oboustranný α%-níintervalspolehlivostiprorozptylje ( (n 1)s 2 x χ 2 n 1 ( α 2 ), (n 1)s 2 ) x χ 2 n 1 (1 α 2 ) 13.7 Toleranční intervaly Mezi intervalové odhady patří i toleranční intervaly. Ukažme si konstrukci takového intervalu pro veličinusnormálnímrozloženímsneznámým σ 2.Sestrojímejetak,ževstatistickýchtabulkáchnalezneme příslušnéhodnotytolerančníchčinitelů k 1 či k 2.Příslušnéintervalypakjsou: ( x s x k 2, x+s x k 2 ) 13.8 Co nejsou intervalové odhady Vpraxiseněkdypřipopisuvýsledkůpoužívávyjádření X ± S.D.nebo X ± S.E..Použitítakového intervalujealekrajněnevhodné,protoženabízízavádějícíinterpretaci.pokudpoužijemevýraz X ±S.D., pak tento interval, pro dostatečně velké n, obsahuje méně než 68% potenciálních pozorování. V některých pracíchdokonceanineníuvedeno,covýraz číslo ±číslo představuje,pakalejetakovátoprezentace nicneříkající.podobně X ± S.E.pokryjeskutečnouhodnotuspravděpodobnostínejvýše68%.Pokud jerozsah nsouborumalý,jetotoprocentovzávislostina nještěmenší.ktomu,abymohlbýtvýraz X ±S.E. považován za interval spolehlivosti normálně rozložené veličiny, je nutno vynásobit S.E. vhodnou konstantou.například95%-níintervalspolehlivostivypočteme x±t n 1 (α).konstanta t n 1 (α)jekritická hodnota t-rozložení, pro dostatečně velké n je ji možno pro hrubý odhad nahradit číslem 2. Ospravedlňovat použití X ± S.E.tím,žesprávnéintervalovéodhadyjsouširšía zpochybňujívýsledkypráce,jezcela zcestné. 14 Dvě skupiny Podobná situace nastává, pokud máme porovnat střední hodnoty dvou různých skupin. Problém opět můžeme rozdělit podle typu rozložení sledované veličiny. 13

14 14.1 Dvouvýběrový t-test Pokud je rozložení sledované veličiny normální, porovnáme průměry skupin opět pomocí t-testu, tentokrát dvouvýběrového.testováníjejednodušší,pokudjsouobarozptyly s 2 xa s 2 ystejné,tovšaknemusíbýt pravda. Nejprve tedy potřebujeme rozhodnout, kterou variantu t-testu použijeme- zda pro stejné či pro různé rozptyly. Pro jednoduchost se omezíme na popis vzorce pro variantu t-testu pro výběry se stejnými rozptyly. Stačí vypočíst statistiku t= nxn x ȳ y n x+n y (nx 1)s 2 x +(ny 1)s2 y n x+n y 2 Tato testovací statistika uvažuje rozdíl průměrů x a ȳ, který vydělíme odhadem standardní chyby průměru tohotorozdílu.získámetakstatistiku,kterámát-rozloženísn x +n y 2stupnivolnostiatupakvyužijeme pro provedení testu(případně pro výpočet P-hodnoty) Porovnání dvou rozptylů Pro volbu správné varianty t-testu potřebujeme mimo jiné vědět, zda můžeme rozptyly v obou skupinách považovatzastejné.proporovnánírozptylůdvouskupinstačívypočístjejichpodíl F = s2 x s 2 Testpak y 1 provedeme tak, že zjistíme je-li F ny 1,nx 1( α 2 ) < F < F n y 1,n x 1( α 2 )pokudtomutaknení,jenutno považovatrozptyly s 2 xa s 2 yzastatistickyvýznamněodlišné Dvouvýběrový znaménkový test Stejně jako pro řešení předchozího problému i nyní existuje neparametrická varianta dvouvýběrového t- testu- znaménkový test, který nepožaduje normální rozložení. Mediánový test provedeme tak, že nejprve vypočteme medián pozorování z obou skupin spojených dohromady. Testovací statistika S je pak počet pozorování z prvního výběru, která jsou větší než společný medián. Pro test využijeme to, že statistika S má hypergeometrické rozložení Dvouvýběrový Wilcoxonův test Dalším neparametrickým testem je Wilcoxonův test. Opět spojíme na chvíli oba soubory a ke každému pozorování vypočteme pořadí v tomto společném souboru. Potom sečteme všechna pořadová čísla pozorování,kterábylapůvodněvprvnímsouboru,jejichsoučetoznačíme R +.Porovnámehodnotu R + s kritickými hodnotami dvouvýběrového Wilcoxonova testu. 15 Párové porovnání Mezi výše jmenované testy se často zahrnují testy pro párová porovnání. Jsou založeny na zmíněném t-testu či Wilcoxonově testu, ale řeší poněkud odlišný problém. Podobnost názvů párových a nepárových testů sice vychází z použití stejných technických metod, ale z hlediska interpretace se jedná o zcela odlišné přístupy, které není možno zaměňovat. Představme si, že chceme porovnávat efekt určitého zásahu tak, že zjistíme na stejné skupině objektů sledovanou veličinu před zásahem a po něm. Ptáme se, zda změna jídelníčku snížila hladinu cholesterolu v krvi. Hodnota, o kterou je možno snížit hladinu cholesterolu změnou(pouze části) dětské stravy, zřejmě nebude velká a naopak rozdíly hladiny cholesterolu mezi jednotlivými dětmi mohou být mnohem větší. Pokud bychom porovnali obě skupiny dvouvýběrovým testem, zůstane efekt našeho zásahu skryt interindividuální variabilitou a dvouvýběrový test neprokáže významné rozdíly. Dopustili jsme se chyby, protože jsme neuvažovali závislost hodnot naměřenýchnajednéosobě.musímesetedypokusitvyloučitvlivvariabilitymeziosobami, srovnat výsledky tak, aby hodnoty byly srovnány na stejnou úroveň. Nebudeme proto pracovat přímo s naměřenými hodnotami, ale s rozdíly obou měření(porovnáváme změnu ke které došlo za sledované období). Vypočteme-li tedy pro každou osobu rozdíl prvního a druhého měření, můžeme již snadno použít některý z výše jmenovaných jednovýběrových testů a zjistit, zda změny během pokusu jsou statisticky významně odlišné od nuly. 14

15 15.1 Párový t-test Je-li rozložení sledované veličiny normální, je normální i rozložení rozdílu prvého a druhého měření. Můžeme tedy pro výpočet změny mezi prvním a druhým měřením u jednotlivých osob použít jednovýběrový t-test. Samozřejmě je možno pracovat i s intervalovými odhady, interval spolehlivosti je pak vypočten nikoliv pro naměřenou hodnotu, ale pro její změnu za sledované období. Interval tedy odhaduje nárůst či pokles Párový znaménkový test Další často používanou variantou párového testu je znaménkový test. Podobně jako u párového t-testu, nejprve vypočteme pro každého jedince rozdíl mezi prvním a druhým měřením a pak na tyto diference použijeme znaménkový jednovýběrový test Párový Wilcoxonův test Stejně můžeme postupovat i při konstrukci párového Wilcoxonova testu. 16 Víceskupin-Analýzarozptylu-ANOVA Nejprve se věnujme jednoduchému modelu, kdy soubor hodnot sledované veličiny(hladina HDL cholesterolu) rozdělíme do skupin podle kvalitativní veličiny, která nabývá více hodnot(např. veličina indikující školu, kterou dítě navštěvuje) Více skupin- Analýza rozptylu jednoduchého třídění Často se stává, že potřebujeme provést složitější porovnání. Porovnejme více než dvě skupiny(počet sledovaných skupin označme k). Chceme zjistit, zda jsou rozdíly vprůměrnéhladiněhdlcholesteroluvkrvi8-letýchdětítřívybranýchpražskýchškol(např. k=3). OznačmeprůměrnéhladinyHDLcholesteroluvtěchtotřechškolách µ 1, µ 2, µ 3 acelkovýprůměru µ.dále budeme tyto parametry odhadovat a testovat hypotézu zda se od sebe statisticky významně liší. Analýzou rozptylu testujeme, zda je část variability způsobená rozdíly průměry ve skupinách jsou statisticky významně odlišná. To je testováno tak, že porovnáváme rozptyl za platnosti hypotézy shody průměrů s rozptylem pokud tato hypotéza neplatí. Hypotézu analýzy rozptylu pak ověříme testovací statistikou F F= s2 mezi skupinami s 2, uvnit skupin kterámá k 1an kstupňůvolnosti.tutohodnotupakmusímeporovnatskritickouhodnotoufrozdělení. Statistické programy nám však usnadní práci tím, že vypočtou i P-hodnotu Podmínky použitelnosti analýzy rozptylu Na to, abychom vůbec mohli tento postup použít, je nutno přijmout jisté předpoklady, přesněji řečeno ověřit zda nejsou v rozporu s pozorovanými daty. 1. Sledovaná veličina musí mít normální rozložení. 2. Druhým předpokladem je shoda rozptylů. Na ověření tohoto předpokladu existuje několik testů, které sibrzypopíšemevodstavci testshodyrozptylů. 3. Dále by měla být pozorování nezávislá(viz. párový test) Test shody rozptylů Tento test potřebujeme např. k ověření hypotézy shody rozptylů před tím, než použijeme analýzu rozptylu. Jeden takovýto test je již zmíněn v souvislosti s dvouvýběrovým t-testem, ten však porovnává pouze variabilitu dvou skupin. Existují však ještě i další testy, které dokonce dokáží porovnat variabilitu více skupin. Jsou to Bartlettův test a Leveneho test. 15

16 16.4 Kruskall-Wallisův test Zmíněná analýza rozptylu má sice bohaté uplatnění, ale vyžaduje splnění předpokladu normality. Nyní si ukážeme test, který tuto podmínku nevyžaduje. Podobně jako při provádění Wicoxonova testu neporovnává průměry, ale mediány. Tento test předpokládá, že studovaná veličina je spojitá- t.j. žádná hodnota není pozorována vícekrát Znaménkový test Je možno použít i znaménkový test, který vypočteme tak, že nejprve zjistíme společný medián všech pozorování a pak pro každou skupinu(školu) stanovíme počty pozorování větších a menších než tento medián.vzniknetakmatice.vníjemožnotestovatpomocí χ 2 zdajevněkterémsouborustatisticky významně více hodnot nad mediánem než v ostatních souborech Metody mnohonásobného porovnávání Pokud hypotézu shody zamítneme, tvrdíme, že rozdíly mezi školami není možno vysvětlit pomocí náhody. Analýza rozptylu nám pak říká, že průměrné hmotnosti dětí v sledovaných školách se statisticky významně liší od ostatních, nevíme však která(é) škola(y) tento rozdíl způsobuje(jí). Samozřejmě je možno testovat například dvouvýběrovým t-testem každou dvojici škol. V tomto okamžiku se musíme zamyslet nad tím, jak chceme zajistit spolehlivost našich tvrzení. Při porovnání škol po dvojicích kontroluje každý z prováděných testů, zda je pravděpodobnost chyby našeho tvrzení menší než 100α%(např. 5%). Provádíme-li však na 5%-ní hladině významnosti pro tyto tři školy všechny možné testy(t.j. 3 porovnání), je celková pravděpodobnost toho, že uděláme chybu, většínežzvolených5%.vímeonipouze,žejemenšínež3 5%=15%. K tomuto účelu byly navrženy testy mnohonásobného srovnávání. Ty jsou používány jako přirozené pokračování, analýzy rozptylu v případě, že ta prokázala statisticky významné rozdíly mezi porovnávanými skupinami. Mezi tyto testy patří: LSD test, Bonferroniho test, Scheffeho testu, Tuckeyho test nebo Duncanův test Analýza rozptylu dvojného třídění Zatím jsme se zabývali porovnáním hodnoty sledované veličiny v různých skupinách, do kterých jsou pozorované objekty rozděleny pomocí jedné veličiny(např. z které školy je sledované dítě). Někdy je ale rozdělení do jednotlivých skupin přirozené popsat pomocí více veličin. Dalším základním problémem, který matematická statistika řeší, je studium vztahu spojitých veličin. Budemesezajímatoto,zdaajaknasoběsledovanéveličinyzávisí.Nejprvebychomsemělizabývat pojem nezávislosti dvou spojitých veličin. Již v kapitole 3 jsme se seznámili s pojem nezávislosti dvou jevů. Nejdříve se ale zabývejme rozložením více veličin. 17 Kovariance- míra lineárního vztahu dvou veličin Pokusme se nalézt míry vztahu mezi dvěma spojitými, normálně rozloženými veličinami. Již dříve jsme si pro analýzu jednotlivých veličin ukázali význam míry polohy a měřítka. V případě normálně rozložených veličin pracujeme s průměry a rozptyly. Tyto charakteristiky ale nepopisují vztah dvou nebo více veličin. Obdobou míry polohy je zde lineární vztah obou veličin(přímka, která popisuje tuto závislost). Zobecněnímmíryměřítkapakjejistámíra těsnosti datvzhledemktétopřímce. K měření vztahu dvou veličin byl zaveden pojem kovariance. Výběrovou kovarianci pak vypočteme: Z definice kovariance je zřejmé, že: cov(x,y)= 1 n (x i x)(y i ȳ) n 1 i=1 cov(x,y)=cov(y,x) Dálesivšimněme,žepokudjekovariancekladná,jejistákladnávazbamezi xay-čímjevětší x,tímje většíiyanaopak. 16

17 18 Koeficient lineární korelace Takto definovaná kovariance je ale závislá na rozptylu veličin x a y. Stejnou úvahu ale můžeme provést i protzv.z-skóry,tj.pro xi x s x a yi ȳ s y.získámetak(výběrový)pearsonůvkorelačníkoeficient: r=r x,y = 1 n ( )( ) xi x yi ȳ = n 1 i=1 s x s y n i=1 (x i x)(y i ȳ) n i=1 (x i x) 2 n i=1 (y i ȳ) 2 Hodnotykorelačníhokoeficientu rsepohybujívrozmezí 1 r 1.hodnota r=0odpovídátomu, že mezi studovanými veličinami není žádná lineární vazba a hodmoty 1 a-1 odpovídají přesné lineární závislosti.vpraxičastovypouštímeznázvujakslovo Pearsonův,takislovo lineární,nenítozásadní chyba,alenázevpaksvádíktomu,abychomkoeficientchápalijakomírulibovolnévazbyveličin xaya to je již chybná interpretace. Populační korelační koeficient obvykle značíme. Koeficient nabývá hodnot z intevalu[ 1; 1], kde hodnota 0 představuje vzájemnou nezávislost a hodnoty 1 a 1 představují funční lineární závislost(v pozitivním, případně negativním smyslu). Výše uvedený odhad korelačního koeficientu je sice velmi užitečný, ale v praxi většinou potřebujeme mít i možnost testovat zda tento koeficient je statisticky významně odlišný od nuly( 0)- zda mezi veličinou x a y existuje lineární vztah. K tomu stačí vypočíst testovací statistiku T= r 1 r 2 n 2 která má Studentovo t-rozložení s n 2 stupni volnosti. 19 Lineární regresní model Zpopisukorelačníhokoeficientujezřejmé,ževyjadřujevztahdvouveličinna stejnéúrovni,veličiny jsou pozorovány najednou. Např. měříme současně hladinu cholesterolu a triglyceridů a neuvažujeme, že by existoval kauzální vztah studovaných veličin. Je na experimentátorovi, aby rozhodl o tom zda a jakou kauzalitu bude v modelu předpokládat. Někdysepokoušímenazákladěznalostijednéveličinyodhadnout( modelovat )jinouveličinu.např. z výšky otce bychom chtěli usuzovat na výšku syna, nebo z věku dítěte chceme odhadnout jeho výšku. V modelu vlastně předpokládáme kauzalitu veličin(výšky syna na výšce otce). První, kdo se zabýval modelem tohoto typu byl v roce 1886 Francis Galton. Snažil se řešit právě problém závislostivýškyprvorozenýchsynůnavýšcejejichotců.ztétoprácetaképocházítermín regrese. Podobně jako v analýze rozptylu budeme mluvit o nezávisle proměnné, veličině o které předpokládáme, žedojistémírypředurčujehodnotypozorované, cílové,náhodnéveličiny.tuopětnazvemezávisle proměnou. Označme yvýškusynaaxvýškuotce.pokudlineárnímodelplatízcelapřesně,jemožnojejpopsat rovnicí y= β 0 + β 1 x kde β 0 a β 1 jsoukonstantykterépopisujívztahveličin.vpraxijealepozorovanáveličinazkreslena nepřesností měření, biologickou variabilitou a dalšími rušivými faktory. Model tedy ve skutečnosti má tvar: y= β 0 + β 1 x+ε kde εjeprávětatozmíněnánáhodnásložkaveličiny y.někdy,kdyžnenízcelajasnékteráproměnnáje závislá a která nezávislá, používáme přesnější označení y= β 0y:x + β 1y:x x+ε 19.1 Lineární regresní model normálně rozložené náhodné veličiny V další části se zaměříme na modely s normálně rozloženou závisle proměnnou(ε má normální rozložení N(0,σ 2 ).Tentopředpokladvpraxibýváširoceužívánjednakprotožesezdábýtčastopřirozenýalei proto, že výpočty jsou relativně velmi jednoduché. Naším cílem bude porovnat rozdíl mezi jednodušším modelem(výška syna nezávisí na výšce otce) a složitějším(výška syna je lineárně závislá na výšce otce), zjistit zda rozdíly mezi modely je možno vysvětlit 17

18 pomocí náhody. Zvolíme podobně v modelu analýzy rozptylu postup, kdy porovnáme rozptyl za hypotezy s rozptylem, kdy hypotéza neplatí. Naleznemeodhadyparametrůregresnípřímky b 0 ab 1 arozptylu okoloregresnípřímky.grafickysi můžeme představit konstrukci odhadu jako nalezení takové přímky, aby svislé vzdálenosti bodů od ní byly pokud možno co nejmenší. Nyní již můžeme snadno testovat zvolený model, případně jednotlivé koeficienty, nebo sestrojit jejich intervalové odhady. Součty čtverců mají velký význam nejen pro konstrukci odhadu, ale především pro testování modelu. Uvažujemetedy,žeplatímodel Y = β 0 + β 1 X achcemetestovatzdajemožnouvažovatjednodušší model(nazývaný hypotézou). Podobně jako v analýze rozptylu, je nutným předpokladem normalita chyby ε. Dalším předpokladem je, že rozptyl chyby nesmí záviset na nezávisle proměnné a samozřejmě, jak jsme si již říkali, vztah závisle a nezávisle proměnné musí být lineární. To vše pak můžeme shrnout do požadavku, aby závisle proměnná Y mělazapodmínky X= xnormálnírozložení N(β 0 + β 1 x,σ 2 ).Středníhodnotatedyzávisína X,ale rozptyl je konstantní(nezávisí na X) Vztahu regresního lineárního modelu a lineárního korelačního koeficientu Uvažujme co se ale stane, pokud zaměníme závisle a nezávisle proměnnou? Získámetakkoeficienty b 0x:y a b 1x:y.Tytokoeficientysebudoulišitod b 0y:x a b 1y:x.Získanéregresní přímky jsou různoběžné a protínají se uprostřed dat. Úhel, který svírají obě regresní přímky, odpovídá korelaci veličin X a Y Problémy s linearitou a normalitou- transformace modelu V praxi se často stává, že studovaný problém nesplňuje požadavky použitého modelu. Snadno se může stát, že závislost není lineární, nebo že i rozptyl závisle proměnné Y je funkcí nezávisle proměnné X. Například o hmotnosti osoby je známo, že závisí na výšce měřené postavy. Tato závislost ale není lineární, ale ukazuje se, že hmotnost závisí lineárně na čtverci výšky postavy. Proto je nutno abychom pro regresní analýzu nepoužívali přímo sledované veličiny X a Y, ale místo výšky postavy X použijeme její druhou mocninu X 2.Teoretickyjemožnotransformovatjakzávisle,takinezávisleproměnnou.Transformace závisleproměnnépřinášíkroměpřípadného narovnání regresníkřivkyizměnumodelu. Pro přizpůsobení modelu datům se někdy používá jak transformace závisle proměnné(pro převedení rozložení závisle proměnné na tvar blízký normálnímu rozložení), tak i transformace nezávisle proměnné (abychom přiblížili regresní model lineární závislosti). Tato transformace vlastně odpovídá změně použité stupnice měření(pro konkrétní veličinu nemusí být vždy jasné, zda je přirozenější použít normální, logaritmickou či jinou stupnici Odlehlá pozorování v regresi O odlehlých pozorováních jsme se již zmínili u parametrů polohy. V regresním modelu ale přibývá ještě i problém odlehlých hodnot nezávisle proměnné. Je-li hodnota závisle proměnné odlehlá, pak samozřejmě dochází k zkreslení odhadu. Tyto hodnoty, jež nazýváme vlivné body, mohou být pro takovéto zkreslení mnohem nebezpečnější než odlehlé hodnoty závisle proměnné. Podobně jako jsme v minulé kapitole mluvili o sdruženém rozložení dvou spojitých veličin, můžeme mluvit o sdruženém rozložení i u diskrétních veličin. Situace se dokonce zdá být jednodušší, protože obě proměnné nabývají pouze omezený(většinou malý) počet hodnot. 20 Kontingenčnítabulka2 2 Jednou z lékařských disciplín, kde se často používají kontingenční tabulky je epidemiologie. Velmi často používáme právě tabulku 2 2 k řešení problému, zda výskyt vybrané diagnózy závisí na uvažované expozici. K vyčerpávajícímu popisu tabulky 2 2 stačí znát pouze čtyři číselné hodnoty. Proto se často používá zjednodušené značení(viz. tabulka 2). 18

19 náhodná veličina Y náhodná veličina X např. nemoc např. expozice Ano Ne celkem Ano a b a+b Ne c d c+d celkem a+c b+d a+b+c+d=n Tabulka 2: Obecný zápis kontingenční tabulky χ 2 testnezávislostivtabulce2 2 χ 2 -testnezávislostivkontingenčnítabulce2 2vypočteme χ 2 = (ad bc) 2 (a+b)(a+c)(b+d)(c+d) n Pro ilustraci použijme data o výskytu vrozené vady kyčlí v závislosti na pohlaví dítěte(viz. tabulka 3). Vrozená vada kyčlí Pohlaví Ano Ne celkem Chlapci pozorovaná četnost Dívky pozorovaná četnost celkem Tabulka3:Výskytvrozenévadykyčlíuchlapcůadívek Chceme ověřit hypotézu, že vrozené vady kyčlí jsou častější u dívek než u chlapců. Testovací statistika χ 2 jepakrovnahodnotě9,59.tomuodpovídáp-hodnota0,002.jetedystatistickyvýznamnýrozdíl mezi pravděpodobností vrozené vady kyčlí u chlapců a u dívek. Porovnáním pozorovaných a očekávaných četností v tabulce 3 vidíme, že odchylka od modelu nezávislosti je způsobena větším výskytem vady kyčlí u dívek. Tímto testem jsme prokázali, že je dokonce statisticky významně větší. Vpraxiseukazuje,že χ 2 testnezávislostijemožnopromalépozorovanéčetnostivylepšittzv.yatesovou korekcí Obatytotestyjsoualepouzepřibližné.Jevšakmožnoprovéstipřesnýtest.TímjeFisherůvexaktní (faktoriálový) test, který si nyní popíšeme. Sestrojíme všechny možné tabulky, které mají stejné marginální četnosti(řádkové a sloupcové součty) jakopůvodnítabulka.vyberemeznichty,kteréjsou vzdálenější odhypotézynezávislostinežpůvodní kontingenční tabulka(t.j., jsou to tabulky méně pravděpodobné než naše tabulka, pokud skutečně platí hypotéza nezávislosti). Sečteme-li pravděpodobnosti těchto tabulek, získáme tak součet P a ten je již přímo P-hodnotou Fisherova testu. Použíttentopřesnýtestjesicelákavé,alevpraxisesnadnomůžestát,žesedostanemedovážných technickýchproblémů.srostoucím nrostedramatickyipočetvšechmožnýchtabulekapokudje velká i nejmenší ze čtyř četností testované kontingenční tabulky, stává se snadno, že problém není řešitelný v rozumnémčase aninanejmodernějšíchpočítačích Míry vztahu dvou alternativních veličin Jako míra závislosti v kontingenční tabulce se často používají různé charakteristiky. Uvažujme tabulku 2.Jistějezajímavévypočístpravděpodobnostonemocněníuskupinyexponovaných a a+b,aleiuneexponovaných c c+d.relativnímrizikem RRpaknazývámepodíltěchtopravděpodobností: RR= a a+b c c+d = a(c+d) c(a+b) Pokudplatímodelnezávislosti,jejemožnoukázat,žeje RR=1. Často bývá používána i další charakteristika, která je nazývaná křížový poměr(anglicky odds ratio). Někdy je používán i název podíl šancí nebo sázkový poměr. Tato charakteristika je obvykle používána v 19

20 anglosaskýchpracích.nenízaloženanapojmupravděpodobností,alenapojmu šancenaonemocnění. Křížový pomět OR je OR= a b c d = ad bc Křížový poměr, podobně jako relativní riziko, je roven jedné pokud jsou sledované veličiny nezávislé, jinak se ale hodnoty těchto měr liší. Obětytomíryjsouzaloženyna multiplikativnímprincipu -ptámesekolikrátjevětšípravděpodobnost onemocnění(či poměr zdravý/nemocný) u exponovaných než u kontrol(neexponovaných). V praxi se ale někdypoužívái aditivníprincip -sledujemeokoliksezměnípravděpodobnostonemocněnípůsobením uvažované expozice. Protobývájakomírapoužívánonapříkladi atributivníriziko (anglickyatributablerisk),kteréjedefinováno jako rozdíl pravděpodobnosti onemocnění ve skupině exponovaných a ve skupině neexponovaných. Výběrová varianta atributivního rizika je tedy: AR= a a+b c c+d Někdy bývá používáno i v procentech vyjádřené relativní atributivní riziko(atributable fraction) AF= a a+b c c+d a a+b 100% Další podobné varianty těchto koeficientů jsou populační atributivní riziko: a populační relativní atributivní riziko AR P = a+c n c c+d AF P = a+c n c c+d a+c n 100% 20.2 Hypotéza symetrie McNemar Zatím jsme se zabývali pouze hypotézou nezávislosti, ale v praxi nás často zajímají i jiné hypotézy. Chceme porovnat například efekt léčby tak, že se ptáme, zda se stav sledovaných osob změnil po uplynutí určité doby. Vlastně chceme provést obdobu párového testu, který jsme si již popisovali pro spojité veličiny. Představme si, že nás zajímá, zda u dětí jednoho vybraného okresu v studii novorozenců závisí výskyt infektů horních cest dýchacích na jejich věku. Výskyt tohoto onemocnění byl zjišťován jednak v 6.měsíci, ale i v 3.roku věku dítěte. Příslušné pozorované hodnoty jsou zobrazeny v tabulce 4: 3.rok věku Ano Ne celkem 6.měsíc věku Ano Ne celkem Tabulka 4: Infekty horních cest dýchacích Použít χ 2 -testnezávislostijevtomtopřípaděchybnéazcelazavádějící.hypotézanezávislostibyznamenalaže nemocnost v3.rocenezávisínanemocnostivprvýchšestiměsících.jinýmislovypravděpodobnostonemocněnív3.rocebybylastejnáproty,covprvých6.měsícíchonemocněly,aleiprotycobyly zdravé.jednotlivédětialemajízřejměrůznýsklonkonemocnění.utěchkterébylyv6.měsícizdravé jevětšípravděpodobnost,žebudouzdravějšíiv3.rocevěkunežtyděti,kterébylynemocnév6.měsíci věku. Nás ale zajímá, zda je stejná pravděpodobnost toho, že dítě má sledovanou diagnózu v 6.měsíci a nemávtřetímroce,jestejnájakopravděpodobnostžedítěnemátutodiagnózusv6.měsíciamávtřetím roce(porovnáváme tedy políčka b a c kontingenční tabulky). Chceme říci, jestli pravděpodobnost výskytu diagnózyzávisínavěkudítěte,pakbysetotižodsebelišilyočekávanéčetnosti bac(jejichrozdílukazuje na vytrácení starýchnebo objevování novýchvýskytůsledovanédiagnózy).hypotézavlastněověřuje 20

6. T e s t o v á n í h y p o t é z

6. T e s t o v á n í h y p o t é z 6. T e s t o v á n í h y p o t é z Na základě hodnot z realizace náhodného výběru činíme rozhodnutí o platnosti hypotézy o hodnotách parametrů rozdělení nebo o jeho vlastnostech. Používáme k tomu vhodně

Více

Poznámky k předmětu Aplikovaná statistika, 9.téma

Poznámky k předmětu Aplikovaná statistika, 9.téma Poznámky k předmětu Aplikovaná statistika, 9téma Princip testování hypotéz, jednovýběrové testy V minulé hodině jsme si ukázali, jak sestavit intervalové odhady pro některé číselné charakteristiky normálního

Více

STATISTICKÉ ODHADY Odhady populačních charakteristik

STATISTICKÉ ODHADY Odhady populačních charakteristik STATISTICKÉ ODHADY Odhady populačních charakteristik Jak stanovit charakteristiky rozložení sledované veličiny v základní populaci? Populaci většinou nemáme celou k dispozici, musíme se spokojit jen s

Více

KGG/STG Statistika pro geografy

KGG/STG Statistika pro geografy KGG/STG Statistika pro geografy 10. Mgr. David Fiedor 27. dubna 2015 Nelineární závislost - korelační poměr užití v případě, kdy regresní čára není přímka, ale je vyjádřena složitější matematickou funkcí

Více

Některé zákony rozdělení pravděpodobnosti. 1. Binomické rozdělení

Některé zákony rozdělení pravděpodobnosti. 1. Binomické rozdělení Přednáška 5/1 Některé zákony rozdělení pravděpodobnosti 1. Binomické rozdělení Předpoklady: (a) pst výskytu jevu A v jediném pokuse P (A) = π, (b) je uskutečněno n pokusů, (c) pokusy jsou nezávislé, tj.

Více

Regresní a korelační analýza

Regresní a korelační analýza Přednáška STATISTIKA II - EKONOMETRIE Katedra ekonometrie FEM UO Brno kancelář 69a, tel. 973 442029 email:jiri.neubauer@unob.cz Regresní analýza Cíl regresní analýzy: stanovení formy (trendu, tvaru, průběhu)

Více

1. Alternativní rozdělení A(p) (Bernoulli) je diskrétní rozdělení, kdy. p(0) = P (X = 0) = 1 p, p(1) = P (X = 1) = p, 0 < p < 1.

1. Alternativní rozdělení A(p) (Bernoulli) je diskrétní rozdělení, kdy. p(0) = P (X = 0) = 1 p, p(1) = P (X = 1) = p, 0 < p < 1. 2. Některá důležitá rozdělení Diskrétní rozdělení. Alternativní rozdělení Ap) Bernoulli) je diskrétní rozdělení, kdy náhodná veličina X nabývá pouze dvou hodnot a a pro její pravděpodobnostní funkci platí:

Více

a) Základní informace o souboru Statistika: Základní statistika a tabulky: Popisné statistiky: Detaily

a) Základní informace o souboru Statistika: Základní statistika a tabulky: Popisné statistiky: Detaily Testování hypotéz Testování hypotéz jsou klasické statistické úsudky založené na nějakém apriorním předpokladu. Vyslovíme-li předpoklad o hodnotě neznámého parametru nebo o zákonu rozdělení sledované náhodné

Více

V praxi pracujeme s daty nominálními (nabývají pouze dvou hodnot), kategoriálními (nabývají více

V praxi pracujeme s daty nominálními (nabývají pouze dvou hodnot), kategoriálními (nabývají více 9 Vícerozměrná data a jejich zpracování 9.1 Vícerozměrná data a vícerozměrná rozdělení Při zpracování vícerozměrných dat, hledáme souvislosti mezi dvěmi, případně více náhodnými veličinami. V praxi pracujeme

Více

1. Pravděpodobnost a statistika (MP leden 2010)

1. Pravděpodobnost a statistika (MP leden 2010) 1. Pravděpodobnost a statistika (MP leden 2010) Pravděpodobnost pojmy 1. Diskrétní pravděpodobnostní prostor(definice, vlastnosti, příklad). Diskrétní pravděpodobnostní prostor je trojice(ω, A, P), kde

Více

Biostatistika a matematické metody epidemiologie - stručné studijní texty

Biostatistika a matematické metody epidemiologie - stručné studijní texty Biostatistika a matematické metody epidemiologie - stručné studijní texty Bohumír Procházka, SZÚ Praha 1 Co můžeme sledovat Pro charakteristiku nebo vlastnost, kterou chceme sledovat zvolíme termín jev.

Více

Zpracování studie týkající se průzkumu vlastností statistických proměnných a vztahů mezi nimi.

Zpracování studie týkající se průzkumu vlastností statistických proměnných a vztahů mezi nimi. SEMINÁRNÍ PRÁCE Zadání: Data: Statistické metody: Zpracování studie týkající se průzkumu vlastností statistických proměnných a vztahů mezi nimi. Minimálně 6 proměnných o 30 pozorováních (z toho 2 proměnné

Více

Využití statistických metod v medicíně (teorie informace pro aplikace VaV, vícerozměrné metody, atd.)

Využití statistických metod v medicíně (teorie informace pro aplikace VaV, vícerozměrné metody, atd.) Operační program Vzdělávání pro konkurenceschopnost Masarykova univerzita Brno Využití statistických metod v medicíně (teorie informace pro aplikace VaV, vícerozměrné metody, atd.) doc. RNDr. PhMr. Karel

Více

UNIVERSITA PALACKÉHO V OLOMOUCI PŘÍRODOVĚDECKÁ FAKULTA. KATEDRA MATEMATICKÉ ANALÝZY A APLIKACÍ MATEMATIKY školní rok 2009/2010 BAKALÁŘSKÁ PRÁCE

UNIVERSITA PALACKÉHO V OLOMOUCI PŘÍRODOVĚDECKÁ FAKULTA. KATEDRA MATEMATICKÉ ANALÝZY A APLIKACÍ MATEMATIKY školní rok 2009/2010 BAKALÁŘSKÁ PRÁCE UNIVERSITA PALACKÉHO V OLOMOUCI PŘÍRODOVĚDECKÁ FAKULTA KATEDRA MATEMATICKÉ ANALÝZY A APLIKACÍ MATEMATIKY školní rok 2009/2010 BAKALÁŘSKÁ PRÁCE Testy dobré shody Vedoucí diplomové práce: RNDr. PhDr. Ivo

Více

Drsná matematika IV 7. přednáška Jak na statistiku?

Drsná matematika IV 7. přednáška Jak na statistiku? Drsná matematika IV 7. přednáška Jak na statistiku? Jan Slovák Masarykova univerzita Fakulta informatiky 2. 4. 2012 Obsah přednášky 1 Literatura 2 Co je statistika? 3 Popisná statistika Míry polohy statistických

Více

Organizační pokyny k přednášce. Matematická statistika. Přehled témat. Co je statistika?

Organizační pokyny k přednášce. Matematická statistika. Přehled témat. Co je statistika? Organizační pokyny k přednášce Matematická statistika 2012 2013 Šárka Hudecová Katedra pravděpodobnosti a matematické statistiky Matematicko-fyzikální fakulta UK hudecova@karlin.mff.cuni.cz http://www.karlin.mff.cuni.cz/

Více

Statistika. Program R. popisná (deskriptivní) statistika popis konkrétních dat. induktivní (konfirmatorní) statistika. popisná statistika

Statistika. Program R. popisná (deskriptivní) statistika popis konkrétních dat. induktivní (konfirmatorní) statistika. popisná statistika Statistika Cvičení z matematické statistiky na PřF Šárka Hudecová Katedra pravděpodobnosti a matematické statistiky Matematicko-fyzikální fakulta Univerzity Karlovy léto 2012 Základní dělení popisná (deskriptivní)

Více

Teoretická rozdělení

Teoretická rozdělení Teoretická rozdělení Diskrétní rozdělení Obsah kapitoly Studijní cíle Doba potřebná ke studiu Pojmy k zapamatování Úvod Některá teoretická rozdělení diskrétních veličin: Alternativní rozdělení Binomické

Více

Matematická statistika

Matematická statistika Matematická statistika Daniel Husek Gymnázium Rožnov pod Radhoštěm, 8. A8 Dne 12. 12. 2010 v Rožnově pod Radhoštěm Osnova Strana 1) Úvod 3 2) Historie matematické statistiky 4 3) Základní pojmy matematické

Více

SYSTÉM TECHNICKO-EKONOMICKÉ ANALÝZY VÝROBY TEKUTÉHO KOVU - CESTA KE SNIŽOVÁNÍ NÁKLADŮ

SYSTÉM TECHNICKO-EKONOMICKÉ ANALÝZY VÝROBY TEKUTÉHO KOVU - CESTA KE SNIŽOVÁNÍ NÁKLADŮ SYSTÉM TECHNICKO-EKONOMICKÉ ANALÝZY VÝROBY TEKUTÉHO KOVU - CESTA KE SNIŽOVÁNÍ NÁKLADŮ FIGALA V. a), KAFKA V. b) a) VŠB-TU Ostrava, FMMI, katedra slévárenství, 17. listopadu 15, 708 33 b) RACIO&RACIO, Vnitřní

Více

Mendelova zemědělská a lesnická univerzita v Brně Institut celoživotního vzdělávání Fakulta regionálního rozvoje a mezinárodních studií

Mendelova zemědělská a lesnická univerzita v Brně Institut celoživotního vzdělávání Fakulta regionálního rozvoje a mezinárodních studií Mendelova zemědělská a lesnická univerzita v Brně Institut celoživotního vzdělávání Fakulta regionálního rozvoje a mezinárodních studií STATISTIKA pro TZP Modul : Pravděpodobnost a náhodné veličiny Prof

Více

(Auto)korelační funkce. 2. 11. 2015 Statistické vyhodnocování exp. dat M. Čada www.fzu.cz/ ~ cada

(Auto)korelační funkce. 2. 11. 2015 Statistické vyhodnocování exp. dat M. Čada www.fzu.cz/ ~ cada (Auto)korelační funkce 1 Náhodné procesy Korelace mezi náhodnými proměnnými má široké uplatnění v elektrotechnické praxi, kde se snažíme o porovnávání dvou signálů, které by měly být stejné. Příkladem

Více

NEPARAMETRICKÉ TESTY

NEPARAMETRICKÉ TESTY NEPARAMETRICKÉ TESTY Výhodou neparametrických testů je jejich použitelnost bez ohledu na typ rozdělení, z něhož výběr pochází. K testování se nepoužívají parametry výběru (např.: aritmetický průměr či

Více

Jak pracovat s absolutními hodnotami

Jak pracovat s absolutními hodnotami Jak pracovat s absolutními hodnotami Petr Matyáš 1 Co to je absolutní hodnota Absolutní hodnota čísla a, dále ji budeme označovat výrazem a, je jeho vzdálenost od nuly na ose x, tedy je to vždy číslo kladné.

Více

Intervalový odhad. Interval spolehlivosti = intervalový odhad nějakého parametru s danou pravděpodobností = konfidenční interval pro daný parametr

Intervalový odhad. Interval spolehlivosti = intervalový odhad nějakého parametru s danou pravděpodobností = konfidenční interval pro daný parametr StatSoft Intervalový odhad Dnes se budeme zabývat neodmyslitelnou součástí statistiky a to intervaly v nejrůznějších podobách. Toto téma je také úzce spojeno s tématem testování hypotéz, a tedy plynule

Více

Přednáška 5. Výběrová šetření, Exploratorní analýza

Přednáška 5. Výběrová šetření, Exploratorní analýza Přednáška 5 Výběrová šetření, Exploratorní analýza Pravděpodobnost vs. statistika Výběrová šetření aneb jak získat výběrový soubor Exploratorní statistika aneb jak popsat výběrový soubor Typy proměnných

Více

Zápočtová práce STATISTIKA I

Zápočtová práce STATISTIKA I Zápočtová práce STATISTIKA I Obsah: - úvodní stránka - charakteristika dat (původ dat, důvod zpracování,...) - výpis naměřených hodnot (v tabulce) - zpracování dat (buď bodové nebo intervalové, podle charakteru

Více

2. Základní typy dat Spojitá a kategoriální data Základní popisné statistiky Frekvenční tabulky Grafický popis dat

2. Základní typy dat Spojitá a kategoriální data Základní popisné statistiky Frekvenční tabulky Grafický popis dat 2. Základní typy dat Spojitá a kategoriální data Základní popisné statistiky Frekvenční tabulky Grafický popis dat Anotace Realitu můžeme popisovat různými typy dat, každý z nich se specifickými vlastnostmi,

Více

Praktická statistika. Petr Ponížil Eva Kutálková

Praktická statistika. Petr Ponížil Eva Kutálková Praktická statistika Petr Ponížil Eva Kutálková Zápis výsledků měření Předpokládejme, že známe hodnotu napětí U = 238,9 V i její chybu 3,3 V. Hodnotu veličiny zapíšeme na tolik míst, aby až poslední bylo

Více

Test z teorie VÝBĚROVÉ CHARAKTERISTIKY A INTERVALOVÉ ODHADY

Test z teorie VÝBĚROVÉ CHARAKTERISTIKY A INTERVALOVÉ ODHADY VÝBĚROVÉ CHARAKTERISTIKY A INTERVALOVÉ ODHADY Test z teorie 1. Střední hodnota pevně zvolené náhodné veličiny je a) náhodná veličina, b) konstanta, c) náhodný jev, d) výběrová charakteristika. 2. Výběrový

Více

SEMESTRÁ LNÍ PRÁ CE. Licenč ní studium STATISTICKÉZPRACOVÁ NÍ DAT PŘ I KONTROLE A Ř ÍZENÍ JAKOSTI

SEMESTRÁ LNÍ PRÁ CE. Licenč ní studium STATISTICKÉZPRACOVÁ NÍ DAT PŘ I KONTROLE A Ř ÍZENÍ JAKOSTI SEMESTRÁ LNÍ PRÁ CE Licenč ní studium STATISTICKÉZPRACOVÁ NÍ DAT PŘ I KONTROLE A Ř ÍZENÍ JAKOSTI Předmě t STATISTICKÁ ANALÝ ZA JEDNOROZMĚ RNÝ CH DAT (ADSTAT) Ú stav experimentá lní biofarmacie, Hradec

Více

z možností, jak tuto veličinu charakterizovat, je určit součet

z možností, jak tuto veličinu charakterizovat, je určit součet 6 Charakteristiky áhodé veličiy. Nejdůležitější diskrétí a spojitá rozděleí. 6.1. Číselé charakteristiky áhodé veličiy 6.1.1. Středí hodota Uvažujme ejprve diskrétí áhodou veličiu X s rozděleím {x }, {p

Více

Semestrální projekt. do předmětu Statistika. Vypracoval: Adam Mlejnek 2-36. Oponenti: Patrik Novotný 2-36. Jakub Nováček 2-36. Click here to buy 2

Semestrální projekt. do předmětu Statistika. Vypracoval: Adam Mlejnek 2-36. Oponenti: Patrik Novotný 2-36. Jakub Nováček 2-36. Click here to buy 2 Semestrální projekt do předmětu Statistika Vypracoval: Adam Mlejnek 2-36 Oponenti: Patrik Novotný 2-36 Jakub Nováček 2-36 Úvod Pro vypracování projektu do předmětu statistika jsem si zvolil průzkum kvality

Více

Modely diskrétní náhodné veličiny. Jiří Neubauer. Katedra ekonometrie, FVL, UO Brno kancelář 69a, tel. 973 442029 email:jiri.neubauer@unob.

Modely diskrétní náhodné veličiny. Jiří Neubauer. Katedra ekonometrie, FVL, UO Brno kancelář 69a, tel. 973 442029 email:jiri.neubauer@unob. Katedra ekonometrie, FVL, UO Brno kancelář 69a, tel. 973 442029 email:jiri.neubauer@unob.cz Po(λ) je možné použít jako model náhodné veličiny, která nabývá hodnot 0, 1, 2,... a udává buď počet událostí,

Více

Normální (Gaussovo) rozdělení

Normální (Gaussovo) rozdělení Normální (Gaussovo) rozdělení Normální (Gaussovo) rozdělení popisuje vlastnosti náhodné spojité veličiny, která vzniká složením různých náhodných vlivů, které jsou navzájem nezávislé, kterých je velký

Více

Prognóza poruchovosti vodovodních řadů pomocí aplikace Poissonova rozdělení náhodné veličiny

Prognóza poruchovosti vodovodních řadů pomocí aplikace Poissonova rozdělení náhodné veličiny Prognóza poruchovosti vodovodních řadů pomocí aplikace Poissonova rozdělení náhodné veličiny Ing. Jana Šenkapoulová VODÁRENSKÁ AKCIOVÁ SPOLEČNOST, a.s. Brno, Soběšická 156, 638 1 Brno ÚVOD Každé rekonstrukci

Více

Intervalové odhady. Interval spolehlivosti pro střední hodnotu v N(µ, σ 2 ) Interpretace intervalu spolehlivosti. Interval spolehlivosti ilustrace

Intervalové odhady. Interval spolehlivosti pro střední hodnotu v N(µ, σ 2 ) Interpretace intervalu spolehlivosti. Interval spolehlivosti ilustrace Intervalové odhady Interval spolehlivosti pro střední hodnotu v Nµ, σ 2 ) Situace: X 1,..., X n náhodný výběr z Nµ, σ 2 ), kde σ 2 > 0 známe měli jsme: bodové odhady odhadem charakteristiky je číslo) nevyjadřuje

Více

Zpracování náhodného výběru. Ing. Michal Dorda, Ph.D.

Zpracování náhodného výběru. Ing. Michal Dorda, Ph.D. Zpracování náhodného výběru popisná statistika Ing. Michal Dorda, Ph.D. Základní pojmy Úkolem statistiky je na základě vlastností výběrového souboru usuzovat o vlastnostech celé populace. Populace(základní

Více

Intervalové odhady. Interval spolehlivosti pro střední hodnotu v N(µ, σ 2 ) Interpretace intervalu spolehlivosti. Interval spolehlivosti ilustrace

Intervalové odhady. Interval spolehlivosti pro střední hodnotu v N(µ, σ 2 ) Interpretace intervalu spolehlivosti. Interval spolehlivosti ilustrace Intervalové odhady Interval spolehlivosti pro střední hodnotu v Nµ, σ 2 ) Situace: X 1,..., X n náhodný výběr z Nµ, σ 2 ), kde σ 2 > 0 známe měli jsme: bodové odhady odhadem charakteristiky je číslo) nevyjadřuje

Více

GRAFY A GRAFOVÉ ALGORITMY

GRAFY A GRAFOVÉ ALGORITMY KATEDRA INFORMATIKY PŘÍRODOVĚDECKÁ FAKULTA UNIVERZITA PALACKÉHO GRAFY A GRAFOVÉ ALGORITMY ARNOŠT VEČERKA VÝVOJ TOHOTO UČEBNÍHO TEXTU JE SPOLUFINANCOVÁN EVROPSKÝM SOCIÁLNÍM FONDEM A STÁTNÍM ROZPOČTEM ČESKÉ

Více

Test z teorie VÝBĚROVÉ CHARAKTERISTIKY A INTERVALOVÉ ODHADY

Test z teorie VÝBĚROVÉ CHARAKTERISTIKY A INTERVALOVÉ ODHADY VÝBĚROVÉ CHARAKTERISTIKY A INTERVALOVÉ ODHADY Test z teorie 1. Střední hodnota pevně zvolené náhodné veličiny je a) náhodná veličina, b) konstanta, c) náhodný jev, d) výběrová charakteristika. 2. Výběrový

Více

veličin, deskriptivní statistika Ing. Michael Rost, Ph.D.

veličin, deskriptivní statistika Ing. Michael Rost, Ph.D. Vybraná rozdělení spojitých náhodných veličin, deskriptivní statistika Ing. Michael Rost, Ph.D. Třídění Základním zpracováním dat je jejich třídění. Jde o uspořádání získaných dat, kde volba třídícího

Více

Biostatistika Cvičení 7

Biostatistika Cvičení 7 TEST Z TEORIE 1. Střední hodnota pevně zvolené náhodné veličiny je a) náhodná veličina, b) konstanta, c) náhodný jev, d) výběrová charakteristika. 2. Výběrový průměr je a) náhodná veličina, b) konstanta,

Více

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz Úvod do teorie pravděpodobnosti Náhoda a pravděpodobnost, náhodný jev, náhodná veličina rozdělení pravděpodobnosti

Více

Číselné charakteristiky a jejich výpočet

Číselné charakteristiky a jejich výpočet Katedra ekonometrie, FVL, UO Brno kancelář 69a, tel. 973 442029 email:jiri.neubauer@unob.cz charakteristiky polohy charakteristiky variability charakteristiky koncetrace charakteristiky polohy charakteristiky

Více

Porovnání dvou výběrů

Porovnání dvou výběrů Porovnání dvou výběrů Menu: QCExpert Porovnání dvou výběrů Tento modul je určen pro podrobnou analýzu dvou datových souborů (výběrů). Modul poskytuje dva postupy analýzy: porovnání dvou nezávislých výběrů

Více

Analýza rozptylu. Statistika II. Jiří Neubauer. Katedra ekonometrie FVL UO Brno kancelář 69a, tel. 973 442029 email:jiri.neubauer@unob.

Analýza rozptylu. Statistika II. Jiří Neubauer. Katedra ekonometrie FVL UO Brno kancelář 69a, tel. 973 442029 email:jiri.neubauer@unob. ANOVA Statistika II Katedra ekonometrie FVL UO Brno kancelář 69a, tel. 973 442029 email:jiri.neubauer@unob.cz ANOVA ANOVA je nástroj pro zkoumání vztahu mezi vysvětlovanými a vysvětlujícími proměnnými.

Více

Základy popisné statistiky. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek

Základy popisné statistiky. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Základy popisné statistiky Anotace Realitu můžeme popisovat různými typy dat, každý z nich se specifickými vlastnostmi, výhodami, nevýhodami a vlastní sadou využitelných statistických metod -od binárních

Více

PRAKTIKUM I. Oddělení fyzikálních praktik při Kabinetu výuky obecné fyziky MFF UK. úloha č. 11 Název: Dynamická zkouška deformace látek v tlaku

PRAKTIKUM I. Oddělení fyzikálních praktik při Kabinetu výuky obecné fyziky MFF UK. úloha č. 11 Název: Dynamická zkouška deformace látek v tlaku Oddělení fyzikálních praktik při Kabinetu výuky obecné fyziky MFF UK PRAKTIKUM I. úloha č. 11 Název: Dynamická zkouška deformace látek v tlaku Pracoval: Jakub Michálek stud. skup. 15 dne:. dubna 009 Odevzdal

Více

Analýza výsledků testu čtenářské gramotnosti v PRO23 2010/11

Analýza výsledků testu čtenářské gramotnosti v PRO23 2010/11 Analýza výsledků testu čtenářské gramotnosti v PRO23 2010/11 Zpracoval: www.scio.cz, s.r.o. (15. 2. 2012) Datové podklady: výsledky a dotazníky z PRO23, test čtenářské gramotnosti, www.scio.cz, s.r.o.

Více

Mendelova zemědělská a lesnická univerzita v Brně

Mendelova zemědělská a lesnická univerzita v Brně Mendelova zemědělská a lesnická univerzita v Brně Bobtnání dřeva Fyzikální vlastnosti dřeva Protokol č.3 Vypracoval: Pavel Lauko Datum cvičení: 24.9.2002 Obor: DI Datum vyprac.: 10.12.02 Ročník: 2. Skupina:

Více

Distribuční funkce je funkcí neklesající, tj. pro všechna

Distribuční funkce je funkcí neklesající, tj. pro všechna Téma: Náhodná veličina, distribuční funkce a její graf, pravděpodobnostní funkce a její graf, funkce hustoty pravděpodobnosti a její graf, výpočet střední hodnoty a rozptylu náhodné veličiny 1 Náhodná

Více

676 + 4 + 100 + 196 + 0 + 484 + 196 + 324 + 64 + 324 = = 2368

676 + 4 + 100 + 196 + 0 + 484 + 196 + 324 + 64 + 324 = = 2368 Příklad 1 Je třeba prověřit, zda lze na 5% hladině významnosti pokládat za prokázanou hypotézu, že střední doba výroby výlisku je 30 sekund. Přitom 10 náhodně vybraných výlisků bylo vyráběno celkem 540

Více

Náhodné chyby přímých měření

Náhodné chyby přímých měření Náhodné chyby přímých měření Hodnoty náhodných chyb se nedají stanovit předem, ale na základě počtu pravděpodobnosti lze zjistit, která z možných naměřených hodnot je více a která je méně pravděpodobná.

Více

Diskrétní rozdělení Náhodná veličina má diskrétní rozdělení pravděpodobnosti, jestliže existuje seznam hodnot

Diskrétní rozdělení Náhodná veličina má diskrétní rozdělení pravděpodobnosti, jestliže existuje seznam hodnot Rozdělení Náhodná veličina Náhodná veličina je vyjádření výsledku náhodného pokusu číselnou hodnotou. Jde o reálnou funkci definovanou na množině. Rozdělení náhodné veličiny udává jakých hodnot a s jakou

Více

NÁHODNÁ ČÍSLA. F(x) = 1 pro x 1. Náhodná čísla lze generovat některým z následujících generátorů náhodných čísel:

NÁHODNÁ ČÍSLA. F(x) = 1 pro x 1. Náhodná čísla lze generovat některým z následujících generátorů náhodných čísel: NÁHODNÁ ČÍSLA TYPY GENERÁTORŮ, LINEÁRNÍ KONGRUENČNÍ GENERÁTORY, TESTY NÁHODNOSTI, VYUŽITÍ HODNOT NÁHODNÝCH VELIČIN V SIMULACI CO JE TO NÁHODNÉ ČÍSLO? Náhodné číslo definujeme jako nezávislé hodnoty z rovnoměrného

Více

2. Je dáno jevové pole (Ω;A) a na něm nezáporná normovaná funkce. Definujte distrubuční funkci náhodného vektoru.

2. Je dáno jevové pole (Ω;A) a na něm nezáporná normovaná funkce. Definujte distrubuční funkci náhodného vektoru. Varianta I 1. Definujte pravděpodobnostní funkci. 2. Je dáno jevové pole (Ω;A) a na něm nezáporná normovaná funkce. Definujte distrubuční funkci náhodného vektoru. 3. Definujte Fisher-Snedecorovo rozdělení.

Více

VŠB Technická univerzita Ostrava

VŠB Technická univerzita Ostrava VŠB Technická univerzita Ostrava Fakulta elektrotechniky a informatiky JMÉNO STUDENTKY/STUDENTA: OSOBNÍ ČÍSLO: JMÉNO CVIČÍCÍ/CVIČÍCÍHO: PRAVDĚPODOBNOST A STATISTIKA Domácí úkoly Zadání 21 DATUM ODEVZDÁNÍ

Více

MSI LS 2006/2007 Ing. Pavla Hošková, Ph.D., 2. test

MSI LS 2006/2007 Ing. Pavla Hošková, Ph.D., 2. test c 2007 Kompost 1 MSI LS 2006/2007 Ing. Pavla Hošková, Ph.D., 2. test Jestliže při testování výsledek (hodnota testového kritéria) padne do kritického oboru: a) musíme nově formulovat nulovou hypotézu,

Více

ZÁKLADNÍ STATISTICKÉ CHARAKTERISTIKY

ZÁKLADNÍ STATISTICKÉ CHARAKTERISTIKY zhanel@fsps.muni.cz ZÁKLADNÍ STATISTICKÉ CHARAKTERISTIKY METODY DESKRIPTIVNÍ STATISTIKY 1. URČENÍ TYPU ŠKÁLY (nominální, ordinální, metrické) a) nominální + ordinální neparametrické stat. metody b) metrické

Více

12. TESTOVÁNÍ STATISTICKÝCH HYPOTÉZ

12. TESTOVÁNÍ STATISTICKÝCH HYPOTÉZ 1. TESTOVÁNÍ STATISTICKÝCH HYPOTÉZ Průvodce studiem Navážeme na předchozí kapitolu 11 a vysvětlíme některé statistické testy. Předpokládané znalosti Pojmy z předchozích kapitol. Cíle Cílem této kapitoly

Více

Matematika III. 27. listopadu Vysoká škola báňská - Technická univerzita Ostrava. Matematika III

Matematika III. 27. listopadu Vysoká škola báňská - Technická univerzita Ostrava. Matematika III Vysoká škola báňská - Technická univerzita Ostrava 27. listopadu 2017 Typy statistických znaků (proměnných) Typy proměnných: Kvalitativní proměnná (kategoriální, slovní,... ) Kvantitativní proměnná (numerická,

Více

VYSOK A ˇ SKOLA POLYTECHNICK A JIHLAVA Katedra matematiky Statistick a anal yza a ˇ casov e ˇ rady v pˇ r ıkladech Stanislava Dvoˇ r akov a 2015

VYSOK A ˇ SKOLA POLYTECHNICK A JIHLAVA Katedra matematiky Statistick a anal yza a ˇ casov e ˇ rady v pˇ r ıkladech Stanislava Dvoˇ r akov a 2015 VYSOKÁ ŠKOLA POLYTECHNICKÁ JIHLAVA Katedra matematiky Statistická analýza a časové řady v příkladech Stanislava Dvořáková 2015 Stanislava Dvořáková STATISTICKÁ ANALÝZA A ČASOVÉ ŘADY V PŘÍKLADECH 1. vydání

Více

Dynamické metody pro predikci rizika

Dynamické metody pro predikci rizika Dynamické metody pro predikci rizika 1 Úvod do analýzy časových řad Časová řada konečná posloupnost reálných hodnot určitého sledovaného ukazatele měřeného v určitých časových intervalech okamžikové např

Více

Skalár- veličina určená jedním číselným údajem čas, hmotnost (porovnej životní úroveň, hospodaření firmy, naše poloha podle GPS )

Skalár- veličina určená jedním číselným údajem čas, hmotnost (porovnej životní úroveň, hospodaření firmy, naše poloha podle GPS ) LINEÁRNÍ ALGEBRA Úvod vektor Skalár- veličina určená jedním číselným údajem čas, hmotnost (porovnej životní úroveň, hospodaření firmy, naše poloha podle GPS ) Kartézský souřadnicový systém -je taková soustava

Více

Analýza dat na PC I.

Analýza dat na PC I. CENTRUM BIOSTATISTIKY A ANALÝZ Lékařská a Přírodovědecká fakulta, Masarykova univerzita Analýza dat na PC I. Popisná analýza v programu Statistica IBA výuka Základní popisná statistika Popisná statistika

Více

STP022 PRAVDĚPODOBNOST A MATEMATICKÁ STATISTIKA

STP022 PRAVDĚPODOBNOST A MATEMATICKÁ STATISTIKA Poslední aktualizace: 29. května 200 STP022 PRAVDĚPODOBNOST A MATEMATICKÁ STATISTIKA PŘÍKLADY Pro zdárné absolvování předmětu doporučuji věnovat pozornost zejména příkladům označenými hvězdičkou. Příklady

Více

Me neˇ nezˇ minimum ze statistiky Michaela S ˇ edova KPMS MFF UK Principy medicı ny zalozˇene na du kazech a za klady veˇdecke prˇı pravy 1 / 33

Me neˇ nezˇ minimum ze statistiky Michaela S ˇ edova KPMS MFF UK Principy medicı ny zalozˇene na du kazech a za klady veˇdecke prˇı pravy 1 / 33 1 / 33 Méně než minimum ze statistiky Michaela Šedová KPMS MFF UK Principy medicíny založené na důkazech a základy vědecké přípravy Příklad Studie syndromu náhodného úmrtí dětí. Dvě skupiny: Děti, které

Více

Rozhodovací procesy 10

Rozhodovací procesy 10 Rozhodovací procesy 10 Rozhodování za rizika a nejistoty Příprava předmětu byla podpořena projektem OPPA č. CZ.2.17/3.1.00/33253 X rozhodování 1 Rozhodování za rizika a nejistoty Cíl přednášky 10: Rozlišení

Více

Základy biostatistiky II. Veřejné zdravotnictví 3.LF UK - II

Základy biostatistiky II. Veřejné zdravotnictví 3.LF UK - II Základy biostatistiky II Veřejné zdravotnictví 3.LF UK - II Teoretické rozložení-matematické modely rozložení Naměřená data Výběrové rozložení Teoretické rozložení 1 e 2 x 2 Teoretické rozložení-matematické

Více

KOMBINATORIKA, PRAVDĚPODOBNOST, STATISTIKA. Charakteristiky variability. Mgr. Jakub Němec. VY_32_INOVACE_M4r0120

KOMBINATORIKA, PRAVDĚPODOBNOST, STATISTIKA. Charakteristiky variability. Mgr. Jakub Němec. VY_32_INOVACE_M4r0120 KOMBINATORIKA, PRAVDĚPODOBNOST, STATISTIKA Charakteristiky variability Mgr. Jakub Němec VY_32_INOVACE_M4r0120 CHARAKTERISTIKY VARIABILITY Charakteristika variability se určuje pouze u kvantitativních znaků.

Více

Charakteristika datového souboru

Charakteristika datového souboru Zápočtová práce z předmětu Statistika Vypracoval: 10. 11. 2014 Charakteristika datového souboru Zadání: Při kontrole dodržování hygienických norem v kuchyni se prováděl odběr vzduchu a pomocí filtru Pallflex

Více

2. RBF neuronové sítě

2. RBF neuronové sítě 2. RBF neuronové sítě Kapitola pojednává o neuronových sítích typu RBF. V kapitole je popsána základní struktura tohoto typu neuronové sítě. Poté následuje definice a charakteristika jednotlivých radiálně

Více

Normální (Gaussovo) rozdělení

Normální (Gaussovo) rozdělení Normální (Gaussovo) rozdělení f x = 1 2 exp x 2 2 2 f(x) je funkce hustoty pravděpodobnosti, symetrická vůči poloze maxima x = μ μ střední hodnota σ směrodatná odchylka (tzv. pološířka křivky mezi inflexními

Více

Statistické metody. Martin Schindler KAP, tel , budova G. naposledy upraveno: 9.

Statistické metody. Martin Schindler KAP, tel , budova G. naposledy upraveno: 9. Statistické metody Matematika pro přírodní vědy přednášející: konzul. hodiny: e-mail: Martin Schindler KAP, tel. 48 535 2836, budova G po dohodě martin.schindler@tul.cz naposledy upraveno: 9. ledna 2015,

Více

Studium kladného sloupce doutnavého výboje pomocí elektrostatických sond: jednoduchá sonda

Studium kladného sloupce doutnavého výboje pomocí elektrostatických sond: jednoduchá sonda 1 Úvod Studium kladného sloupce doutnavého výboje pomocí elektrostatických sond: jednoduchá sonda V této úloze se zaměříme na měření parametrů kladného sloupce doutnavého výboje, proto je vhodné se na

Více

HODNOCENÍ ZPŮSOBILOSTI KONTROLNÍCH PROSTŘEDKŮ

HODNOCENÍ ZPŮSOBILOSTI KONTROLNÍCH PROSTŘEDKŮ HODNOCENÍ ZPŮSOBILOSTI KONTROLNÍCH PROSTŘEDKŮ DOC.ING. JIŘÍ PERNIKÁŘ, CSC Požadavky na přesnost měření se neustále zvyšují a současně s tím i požadavky na vyhodnocení kvantifikovatelných charakteristik

Více

Tématické celky { kontrolní otázky.

Tématické celky { kontrolní otázky. Tématické celky kontrolní otázky. Základy teorie pravdìpodobnosti..pravdìpodobnostní míra základní pojmy... Vysvìtlete pojem náhody, náhodného pokusu, náhodného jevu a jeho mno- ¾inovou interpretaci. Popi¹te

Více

Výrobní produkce divizí Ice Cream Po lo ha plane t Rozložený výse ový 3D graf Bublinový graf Histogram t s tn e ídy

Výrobní produkce divizí Ice Cream Po lo ha plane t Rozložený výse ový 3D graf Bublinový graf Histogram t s tn e ídy Výrobní produkce divizí Ice Cream Polo ha planet Rozložený výsečový 3D graf Bublinový graf Ice Cream 1 15% Ice Cream 2 12% Ice Cream 3 18% Ice Cream 4 20% Statistika 40 30 20 Ice Cream 6 19% Ice Cream

Více

Náhodné (statistické) chyby přímých měření

Náhodné (statistické) chyby přímých měření Náhodné (statistické) chyby přímých měření Hodnoty náhodných chyb se nedají stanovit předem, ale na základě počtu pravděpodobnosti lze zjistit, která z možných naměřených hodnot je více a která je méně

Více

Pravděpodobnost a statistika, Biostatistika pro kombinované studium. Tutoriál č. 5: Bodové a intervalové odhady, testování hypotéz.

Pravděpodobnost a statistika, Biostatistika pro kombinované studium. Tutoriál č. 5: Bodové a intervalové odhady, testování hypotéz. Pravděpodobnost a statistika, Biostatistika pro kombinované studium Letní semestr 2015/2016 Tutoriál č. 5: Bodové a intervalové odhady, testování hypotéz Jan Kracík jan.kracik@vsb.cz Obsah: Výběrová rozdělení

Více

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz Pravděpodobnost a matematická

Více

Odhad ve fyzice a v životě

Odhad ve fyzice a v životě Odhad ve fyzice a v životě VOJTĚCH ŽÁK Katedra didaktiky fyziky, Matematicko-fyzikální fakulta UK, Praha Gymnázium Praha 6, Nad Alejí 195 Úvod Součástí fyzikálního vzdělávání by mělo být i rozvíjení dovednosti

Více

Analýza rozptylu. Přednáška STATISTIKA II - EKONOMETRIE. Jiří Neubauer

Analýza rozptylu. Přednáška STATISTIKA II - EKONOMETRIE. Jiří Neubauer ANOVA Přednáška STATISTIKA II - EKONOMETRIE Katedra ekonometrie FEM UO Brno kancelář 69a, tel. 973 442029 email:jiri.neubauer@unob.cz ANOVA ANOVA je nástroj pro zkoumání vztahu mezi vysvětlovanými a vysvětlujícími

Více

FAKULTA ELEKTROTECHNIKY A KOMUNIKAČNÍCH TECHNOLOGIÍ. Matematika 3. RNDr. Břetislav Fajmon, PhD. Autoři textu:

FAKULTA ELEKTROTECHNIKY A KOMUNIKAČNÍCH TECHNOLOGIÍ. Matematika 3. RNDr. Břetislav Fajmon, PhD. Autoři textu: FAKULTA ELEKTROTECHNIKY A KOMUNIKAČNÍCH TECHNOLOGIÍ VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ Matematika 3 Garant předmětu: RNDr. Břetislav Fajmon, PhD Autoři textu: Mgr. Irena Růžičková RNDr. Břetislav Fajmon, PhD

Více

Univerzita Pardubice Fakulta chemicko technologická Katedra analytické chemie Licenční studium Management systému jakosti

Univerzita Pardubice Fakulta chemicko technologická Katedra analytické chemie Licenční studium Management systému jakosti Univerzita Pardubice Fakulta chemicko technologická Katedra analytické chemie Licenční studium Management systému jakosti 2.1 Tvorba lineárních regresních modelů při analýze dat Autor práce: Přednášející:

Více

Testy dobré shody Máme dvě veličiny, u kterých bychom chtěli prokázat závislost, TESTY DOBRÉ SHODY (angl. goodness-of-fit tests)

Testy dobré shody Máme dvě veličiny, u kterých bychom chtěli prokázat závislost, TESTY DOBRÉ SHODY (angl. goodness-of-fit tests) Testy dobré shody Máme dvě veličiny, u kterých bychom chtěli prokázat závislost, např. hmotnost a pohlaví narozených dětí. Běžný statistický postup pro ověření závislosti dvou veličin je zamítnutí jejich

Více

MATEMATICKÁ STATISTIKA. Katedra matematiky a didaktiky matematiky Technická univerzita v Liberci

MATEMATICKÁ STATISTIKA.   Katedra matematiky a didaktiky matematiky Technická univerzita v Liberci MATEMATICKÁ STATISTIKA Dana Černá http://www.fp.tul.cz/kmd/ Katedra matematiky a didaktiky matematiky Technická univerzita v Liberci Matematická statistika Matematická statistika se zabývá matematickým

Více

6. Střídavý proud. 6. 1. Sinusových průběh

6. Střídavý proud. 6. 1. Sinusových průběh 6. Střídavý proud - je takový proud, který mění v čase svoji velikost a smysl. Nejsnáze řešitelný střídavý proud matematicky i graficky je sinusový střídavý proud, který vyplývá z konstrukce sinusovky.

Více

+ ω y = 0 pohybová rovnice tlumených kmitů. r dr dt. B m. k m. Tlumené kmity

+ ω y = 0 pohybová rovnice tlumených kmitů. r dr dt. B m. k m. Tlumené kmity Tlumené kmit V praxi téměř vžd brání pohbu nějaká brzdicí síla, jejíž původ je v třecích silách mezi reálnými těles. Matematický popis těchto sil bývá dosti komplikovaný. Velmi často se vsktuje tzv. viskózní

Více

Rozptyl. Pozn.: rozptyl je nezávislý na posunu hustoty pravděpodobnosti na ose x, protože Var(X) mi určuje jen šířku rozdělení.

Rozptyl. Pozn.: rozptyl je nezávislý na posunu hustoty pravděpodobnosti na ose x, protože Var(X) mi určuje jen šířku rozdělení. Rozptyl Základní vlastnosti disperze Var(konst) = 0 Var(X+Y) = Var(X) + Var(Y) (nezávislé proměnné) Lineární změna jednotek Y = rx + s, například z C na F. Jak vypočítám střední hodnotu a rozptyl? Pozn.:

Více

Spojitost funkcí více proměnných

Spojitost funkcí více proměnných Reálné funkce více proměnných Reálnou funkcí n reálných proměnných rozumíme zobrazení, které každé uspořádané n ticireálnýchčíselznějaképodmnožinykartézskéhosoučinur R=R n přiřazuje nějaké reálné číslo.

Více

Matice se v některých publikacích uvádějí v hranatých závorkách, v jiných v kulatých závorkách. My se budeme držet zápisu s kulatými závorkami.

Matice se v některých publikacích uvádějí v hranatých závorkách, v jiných v kulatých závorkách. My se budeme držet zápisu s kulatými závorkami. Maticové operace Definice Skalár Představme si nějakou množinu, jejíž prvky lze sčítat a násobit. Pěkným vzorem jsou čísla, která už známe od mala. Prvky takové množiny nazýváme skaláry. Matice Matice

Více

2 Spojité modely rozhodování

2 Spojité modely rozhodování 2 Spojité modely rozhodování Jak již víme z přednášky, diskrétní model rozhodování lze zapsat ve tvaru úlohy hodnocení variant: f(a i ) max, a i A = {a 1, a 2,... a p }, kde f je kriteriální funkce a A

Více

Základy popisné statistiky

Základy popisné statistiky Základy popisné statistiky Michal Fusek Ústav matematiky FEKT VUT, fusekmi@feec.vutbr.cz 8. přednáška z ESMAT Michal Fusek (fusekmi@feec.vutbr.cz) 1 / 26 Obsah 1 Základy statistického zpracování dat 2

Více

Pravděpodobnost a statistika

Pravděpodobnost a statistika Pravděpodobnost a statistika Diskrétní rozdělení Vilém Vychodil KMI/PRAS, Přednáška 6 Vytvořeno v rámci projektu 2963/2011 FRVŠ V. Vychodil (KMI/PRAS, Přednáška 6) Diskrétní rozdělení Pravděpodobnost a

Více

MEZINÁRODNÍ AUDITORSKÝ STANDARD ISA 530 VÝBĚR VZORKŮ

MEZINÁRODNÍ AUDITORSKÝ STANDARD ISA 530 VÝBĚR VZORKŮ MEZINÁRODNÍ AUDITORSKÝ STANDARD VÝBĚR VZORKŮ (Účinný pro audity účetních závěrek sestavených za období počínající 15. prosincem 2009 nebo po tomto datu) OBSAH Odstavec Úvod Předmět standardu... 1 2 Datum

Více