Biostatistika a matematické metody epidemiologie - stručné studijní texty

Rozměr: px
Začít zobrazení ze stránky:

Download "Biostatistika a matematické metody epidemiologie - stručné studijní texty"

Transkript

1 Biostatistika a matematické metody epidemiologie - stručné studijní texty Bohumír Procházka, SZÚ Praha 1 Co můžeme sledovat Pro charakteristiku nebo vlastnost, kterou chceme sledovat zvolíme termín jev. Pod tímto pojmem si můžeme představit výšku postavy, její hmotnost, množství cholesterolu v krvi, vzdělání, skutečnost zda sledovaná osoba je nemocná, rodinný stav či krevní skupina a podobně. Abychom s těmito jevy mohli pracovat, potřebujeme je převést do nějaké formální podoby, tj. vyjádřit je číselnou hodnotou nebo nějakou skupinou kódů. Tento číselný obraz skutečnosti nazveme znakem. Formálně můžeme sledované znaky rozdělit do několika skupin: Kvalitativní znaky jsou charakteristiky sledovaných objektů, jejichž hodnoty patří do omezené skupiny hodnot. Například pohlaví nebo vzdělání. Dále je dělíme na: Nominální znaky jsou takové, které není možno navzájem uspořádat. Ordinální znaky jsou naopak ty, které je možno navzájem uspořádat, ale není známa míra toho, jak jsou od sebe jednotlivé kategorie vzdáleny. Alternativní (binární) znaky jsou ty, které mohou nabývat pouze dvou různých hodnot (např Ano/Ne). Kvantitativní znaky, jsou ty, jejichž hodnoty jsou nejen uspořádány, ale vyjadřují dokonce i určitou míru (Např. může být věk, různé míry, váhy, koncentrace, počty zárodků či případů). Můžeme je rozdělit: Diskrétní znaky jsou ty, které nabývají pouze celočíselných hodnot (počty). Spojité znaky jsou ty, u kterých předpokládáme, že je možno je měřit s libovolnou přesností (různé míry, váhy,...). Všechny charakteristiky však jsou zkresleny jistou mírou náhody, a proto je nazýváme náhodnými veličinami. 2 Populace a výběr Pokud používáme deskriptivní statistiku, týkají se naše tvrzení pouze souboru na kterém byla prováděna měření, pozorování a pod.. V tomto případě je výběr totožný s základní populací. Získané výsledky popisují pouze zkoumaný soubor a nesnaží se o žádné zobecnění na větší, nebo jinou skupinu objektů. Jiná situace nastává, pokud je požadováno použití induktivní statistiky. Ta se snaží o zobecnění - extrapolaci získaných výsledků na širší skupinu objektů. Celá induktivní statistika je založena na dvou pojmech: Základní populace a její charakteristiky. Jedná se často o velmi rozsáhlý soubor jehož vlastnosti nás zajímají. Můžeme je definovat dvěma způsoby: - První je výčet prvků souboru (například soubor všech voličů, soubor evidovaných diabetiků). - Druhou možností je popis souboru pomocí vlastností jeho členů, bez omezení na konkrétní skupinu osob. Například do souboru budou patřit osoby v produktivním věku léčené na diabetes. V tomto případě neomezujeme soubor na žádnou konkrétní populaci. Z pohledu induktivní statistiky nás zajímá jaké hodnoty sledované veličiny mají jedinci z celé populace. Mluvíme pak o rozložení sledované veličiny. Rozložením sledované veličiny v základní populaci rozumíme souhrn všech hodnot této veličiny základní populace. Tedy seznam všech možných hodnot této veličiny společně s četnostmi těchto hodnot v základní populaci. 1

2 Výběr a výběrové charakteristiky. Výběr je skupina objektů, na kterých provádíme šetření. To, jak výběr odpovídá základní populaci, určuje i kvalitu výsledku - přesněji řečeno kvalitu zobecnění získaných závěrů na základní populaci. Popisné charakteristiky výběru pak slouží jako odhady charakteristik celé populace. Výběrové charakteristiky jsou tedy odhadem populačních charakteristik. 3 Náhoda - pravděpodobnost - rozložení pravděpodobnosti Je zřejmé, že z formálního hlediska jsou nejjednodušší alternativní znaky. Často informují o přítomnosti nějaké vlastnosti, indikují nemoc či expozici. 3.1 Alternativní veličiny Při studiu alternativní veličiny je přirozené zajímat se o to, jakou hodnotu můžeme očekávat. Uvažujme alternativní (binární) veličinu, která nabývá dvou hodnot (např. ano a ne). Můžeme třeba položit otázku: Má sledovaná osoba modré oči?. Označme tuto veličinu symbolem O. Na první pohled je zřejmé, že nelze bez ověření říci, zda veličina O nabývá hodnoty Ano či Ne. Rozložení v základní populaci je popsáno dvěma číselnými hodnotami - počtem modrookých osob a počtem všech ostatních v celé populaci. Podobně je popsáno i rozložení výběru, které nám slouží jako odhad neznámého rozložení celé populace. 3.2 Pravděpodobnost - charakteristika alternativní veličiny v základní populaci K tomu, aby bylo možno s náhodou nějak pracovat, je ji kvantifikovat. Jako míra očekávání zvolené odpovědi (např. Ano byl zaveden pojem pravděpodobnost. Ta nabývá hodnoty mezi 0 a 1 a pro její označení se používá písmeno P a je definována jako podíl počtu všech osob s modrými oči v celé základní populaci k jejímu rozsahu. Pravděpodobnost, že například veličina O nabývá hodnoty Ano, značíme: P (O = Ano) Teoreticky mohou nastat dva extrémní případy P (O = Ano) = 1 a P (O = Ano) = 0. Má-li výrok (O = Ano - sledovaná osoba má modré oči) pravděpodobnost rovnu 1 (resp. 0), mluvíme o jistém výroku (resp. nemožném). Někdy mluvíme i o takzvané podmíněné pravděpodobnosti, t.j. o pravděpodobnosti sledovaného jevu pokud nabývá jiná doprovodná veličina konkrétní požadované hodnoty. Označme ještě další veličinu, například V - sledovaná osoba má černé vlasy. Pravděpodobnost, že sledovaná černovlasá osoba má modré oči značíme P (O = Ano V = Ano). Často se stává, že sledujeme současně různé jevy a ptáme se na jejich vztah. Řekneme, že dva jevy V a O jsou nezávislé, pokud pravděpodobnost společného výskytu modrých očí a černých vlasů P (O = Ano a současně V = Ano ) je rovna součinu: P (O = Ano&V = Ano) = P (O = Ano) P (V = Ano) 3.3 Relativní četnost - charakteristika alternativní veličiny ve výběru Neznámou hodnotu pravděpodobnosti sledovaného jevu v základní populaci potřebujeme odhadnout. n 1 počet odpovědí Ano ve výběru na otázku O. n 2 počet odpovědí Ne ve výběru na otázku O. n. celkový počet odpovědí (n. = n 1 + n 2 ). počet osob ve výběru s modrýma očima počet všech osob ve výběru Relativní četností nazveme p 1 = n1 n. = Pozorovaným hodnotám n i (i = 1, 2) obvykle říkáme pozorovaná četnost nebo absolutní četnost. V praktických aplikacích je relativní četnost často vyjadřována v procentech, promilích, nebo v počtech pozorovaných jedinců na Nominální veličiny Podobně, jako u alternativních veličin, je možno mluvit o pojmu pravděpodobnosti i u nominálních veličin. Pro ilustraci můžeme uvažovat rodinný stav matek. Řekněme, že tato veličina může nabývat hodnot Svobodná, Vdaná, Rozvedená a Vdova s pravděpodobnostmi π 1, π 2, π 3 a π 4, kde například π 1 = počet svobodných matek v základní populaci počet všech matek v základní populaci Jednotlivé kategorie označme čísly 1, 2, 3 a 4. Pak můžeme mluvit o četnostech n 1, relativních četnostech n p i = i n 1+n 2+n 3+n 4, i=1,...,4. Je zřejmé, že jejich součet je roven jedné. 2

3 3.5 Ordinální veličiny Stejně je možno uvažovat i o ordinálních veličinách. Jejich kódování je však nutno provést tak, aby respektovalo přirozené uspořádání veličiny. Například pokud pracujeme s veličinou D = dosažené vzdělání, je přirozené uspořádat jednotlivé hodnoty takto: základní, odborné, středoškolské a vysokoškolské. To, že sledovaná veličina je uspořádatelná, je užitečné využít. Poté co jednotlivé odpovědi vzestupně okódujeme (1,...,4), je možno zavést pro jednotlivé kódy i pojem kumulativní pravděpodobnost. Kumulativní pravděpodobnost je pak pravděpodobnost toho, že libovolná osoba (ze základní populace) má nejvýše právě uvažované vzdělání. 3.6 Kvantitativní veličiny Věnujme se nyní skupině kvantitativních veličin. Tyto veličiny mohou obecně nabývat velkého množství různých hodnot. Charakterizovat rozložení výběru pomocí relativních četností pro jednotlivé pozorované hodnoty je většinou krajně nepřehledné, protože možných hodnot je mnoho. Rozložení spojitých veličin se snažíme popsat pomocí pouze několika číselných parametrů a matematického modelu, který dostatečně dobře popíše celé rozložení. Základním pojmem charakterizujícím populaci je distribuční funkce, často značená F (x). Je to kumulativní pravděpodobnost, že sledovaná veličina nabývá hodnotu menší nebo rovnu x F (x) = P (D x) Tato funkce je rostoucí od nuly k jedničce. Byly vytvořeny různé modely této funkce, nazývané teoretickým rozložením pravděpodobnosti. Výběrovým protějškem distribiční funkce je empirická distribuční funkce F n (x): F n (x) = n x n kde n je počet pozorování a n x je počet pozorování menších nebo rovných x 3.7 Spojité veličiny Často používanou výběrovou charakteristikou je histogram. Je to seznam všech pozorovaných hodnot sledované veličiny a počtů, kolikrát byly tyto hodnoty pozorovány (tedy seznam dvojic: pozorovaná hodnota, její četnost). Častěji jej ale chápeme jako sloupcový graf, kde pro konkrétní hodnotu x pozorované veličiny vztyčíme nad bodem x x-ové osy sloupec jehož výška je úměrná četnosti příslušné k hodnotě x uvažované veličiny. Pro spojité veličiny je ale takovéto zobrazení většinou nepoužitelné (protože pro spojité veličiny by jednotlivé četnosti neměly být větší než jedna). Proto nejprve rozdělíme číselnou osu na stejně velké intervaly. Přitom je důležité, abychom zvolili rozumnou délku dělení. Postupně pro všechny intervaly zobrazíme relativní četnosti výskytu pozorování v těchto intervalech. Tvar histogramu silně závisí na zvolené délce, ale i na počátku dělení. Histogram se s rostoucím počtem pozorování a jemnějším dělením stále více podobá své teoretické hodnotě. Histogram souží jako odhad rozložení veličiny v populaci, přesněji je odhadem hustoty (teoretického tvaru histogramu). 3.8 Celočíselné veličiny Již z jejich názvu je vidět, že se jedná o veličiny vyjádřené pouze celými čísly, většinou se jedná o počty nějakých objektů (počty buněk, bakterií, výskytu sledované diagnosy, a pod.). Proto jsou tyto veličiny obvykle nezáporné (pokud neuvažujeme např. změnu počtu... ). Rozložení celočíselné veličiny můžeme popsat soustavou pravděpodobností pro jednotlivé hodnoty (0, 1, 2,...). K číselné presentaci výběrového rozložení se používají relativní nebo kumulativní relativní četnosti. Častěji se ale používá grafické zobrazení. Nejužívanější je histogram pro jednotlivé pozorované hodnoty, případně empirická distribuční funkce. Stejně jako u spojitých veličin je velmi užitečné popsat studované rozložení matematickým modelem, který je dán jen několika málo parametru. Pracovat přímo s distribuční funkcí je obtížné, protože je popsána velkým množstvím čísel. Rádi bychom pracovali jen s několika málo jednoduchými charakteristikami. Dříve než přistoupíme k popisu charakteristik, označme: X sledovanou náhodnou veličinu. n rozsah výběru - počet pozorovaných nebo naměřených hodnot sledované veličiny x i (i = 1, 2,,..., n) jednotlivé naměřené hodnoty µ sledovaný parametr veličiny X (například průměr) v základní populaci. ˆx odhad parametru µ vypočtený z výběru (například výběrový průměr x). 3

4 4 Míry polohy První co nás zajímá na sledované veličině je hodnota, která je schopna reprezentovat celý výběr. Chceme znát střed všech hodnot populace, či část číselné osy, kde se pozorování nacházejí. Pokud uvažujeme teoretické rozložení populace, mluvíme o střední hodnotě (někdy bývá použit i termín očekávaná hodnota) a značíme ji písmenem E (např. E(X) = µ). 4.1 Průměr Průměr x je nejčastěji používaná charakteristika. Vypočteme jej jako součet všech hodnot dělený jejich počtem. Máme-li ve výběru n pozorování x i, pak můžeme formálně zapsat: x = 1 n Průměr je často používaná míra polohy, která za svou oblibu vděčí jednak tomu, že ji je možno jednoduše vypočíst, ale i proto, že je jedním z dvou přirozených parametrů normálního rozložení. Pro typy rozložení, jiné než je normální, však tento odhad již nemusí být vhodný. Například pokud sledujeme koncentraci látky nebo hmotnost postavy, je vhodnější pracovat spíše s logaritmy získaných hodnot než se samotnými hodnotami. Mluvíme pak o logaritmicko-normálním rozložení. Odlogaritmovaný průměr logaritmů pak nazýváme geometrický průměr x geom. Vypočteme jej: x geom = e 1 n n n i=1 x i i=1 ln(xi) = n n Nepříjemnou vlastností průměru je, že již jedna odlehlá hodnota může výrazně ovlivnit hodnotu počítaného odhadu. 4.2 Medián Další často používanou charakteristikou je medián x med, který je jednoduše řečeno, prostřední měřená hodnota. Pro formální zápis definice mediánu seřaďme nejprve jednotlivé hodnoty x i podle velikosti a označme písmenem x s pořadovým číslem v hranaté závorce jako index (x [1] x [2] x [3]... x [n 1] x [n] ). Medián pak definujeme: x med = i=1 x i x [ n+1 2 ] nje liché, x [ n 2 ]+x [ n 2 +1] 2 n je sudé. Medián není sice pro normální rozložení nejlepším odhadem, má však jednu velmi užitečnou vlastnost - je stabilní. Na rozdíl od průměru x, medián se nezmění, pokud bychom použité hodnoty libovolně vzdálili od mediánu. 4.3 Modus Další používanou charakteristikou je modus - nejpravděpodobnější hodnota. Jako výběrový odhad modu je používána nejčastěji pozorovaná hodnota. Pro veličiny, které jsou měřeny s velkou přesností je tento odhad obzvlášť pro menší soubory nepoužitelný. 4.4 Kvantil Kvantil je charakteristika která se z této skupiny poněkud vymyká. Je zobecněním pojmu medián. Kvantil x α je definován jako hodnota taková, že pravděpodobnost menších hodnot je rovna α. Máme-li soubor o n pozorováních, pak právě αn pozorování je menších než výběrový kvantil x α. Někdy bývá zvykem používat i názvy první a druhý tercil, které dělí pozorování na tři stejné skupiny (popřípadě kvartily na čtyři, decily na deset a konečně percentily na sto). 5 Míry měřítka K charakteristikám polohy je důležité znát i míru toho, jak se mohou lišit hodnoty pro jednotlivé objekty sledované populace. K tomu slouží skupina charakteristik, které se nazývají míry měřítka. Jinými slovy: míry měřítka nepopisují přímo sledovanou hodnotu, ale její kolísání - ať již je způsobeno chybou měření nebo přirozenou variabilitou sledovaných objektů. 4

5 5.1 Rozptyl Rozptyl var(x) nebo σ 2 x, kde X je symbol označující sledovanou veličinu, je nejčastěji používanou mírou měřítka (někdy je také nazýván variance). Výběrovým protějškem je výběrový rozptyl. Zjednodušeně řečeno, je to průměrný čtverec vzdáleností naměřených hodnot od průměru. s 2 x = 1 n 1 n (x i x) 2 i=1 Takto definovaný rozptyl je optimálním odhadem měřítka pro normální rozložení a je používán společně s průměrem. Směrodatná odchylka někdy bývá nazývána též standardní odchylka, je charakteristika, která je často značená S.D. nebo s x a je s x = var(x) Střední chyba průměru je další charakteristikou měřítka (ne již přímo sledované náhodné veličiny, ale jejího průměru). Vyjadřuje míru variability výběrového průměru a bývá často značena S.E. nebo s x. Je rovna var(x) s x = = s x n n Tato charakteristika již ale není populační charakteristikou, ale je charakteristikou výběru, přesněji řečeno odhaduje charakteristiku měřítka výběrového průměru. Obě poslední charakteristiky jsou úzce spjaté s intervalovými odhady. S.E. je používán pro konstrukci intervalů spolehlivosti a S.D. pro konstrukci tolerančních intervalů. Pozor! Jejich záměnou může dojít k zcela mylné interpretaci výsledků. V praxi se někdy při popisu výsledků používá vyjádření x ± S.D. nebo x ± S.E.. Toto vyjádření ale navádí k zcela chybné interpretaci. Čtenář, který není dostatečně seznámen s principy matematické statistiky si nutně takovýto výraz vysvětlí jako interval, v kterém je sledovaná hodnota. Tím může mínit buď některou charakteristiku rozložení (např. průměrnou výšku postavy), nebo hodnoty jedinců základní populace (jednotlivé výšky postavy). To jsou dva zcela odlišné pohledy. Navíc ale výše zmiňovaný interval není možno interpretovat takto interpretovat. 5.2 Rozpětí Jako míra měřítka se nabízí i takzvané rozpětí - vzdálenost nejmenší a největší pozorované hodnoty. Tato charakteristika je však silně závislá na rozsahu výběru. Čím více pozorování máme k disposici, tím menší může být minimální hodnota, případně větší maximální hodnota. Je tedy zřejmé, že takto definované rozpětí není vhodnou mírou. 5.3 Mezikvartilové rozpětí Pokud není sledovaná veličina normálně rozložena, obzvláště pokud jsou ve výběru obsažena odlehlá pozorování, je často rozumné vliv těchto extrémních hodnot omezit. Charakteristikou, která je málo citlivá na odlehlá pozorování je mezikvartilové rozpětí, které je definováno jako rozdíl prvního a třetího kvartilu: x 75% x 25% Na rozdíl od rozpětí se zde již neprojevuje efekt rozsahu výběru, přesněji řečeno u maxima a minima. 5.4 Variační koeficient Někdy je v praxi používáno relativní vyjádření míry polohy vzhledem k měřítku. Nazýváme jej variační koeficient: 6 Ostatní charakteristiky V = S.D. x 100% Někdy bývají používány i další charakteristiky, které není možno zařadit do žádné z obou skupin. Jsou to charakteristiky, které poskytují další informace o rozložení sledované veličiny. 5

6 6.1 Šikmost Je veličina, která měří asymetrii rozložení. T.j. udává, jsou-li pravděpodobnější větší odchylky na jednu, než na druhou stranu. Tato veličina je definována jako Výběrová šikmost je pak E(X E(X)) 3 (var(x)) 3/2 1 n n i=1 (x i x) 3 s 3 Odchylky šikmosti od nuly poukazují na nesprávnost předpokladu normality. Například logaritmicko-normální rozložení má zápornou šikmost. 6.2 Špičatost Tato charakteristika popisuje plochost či špičatost hustoty rozložení sledované veličiny. Je definována: E(X E(X)) 4 (var(x)) 2 3 Výběrová špičatost je pak 1 n n i=1 (x i x) 4 s 4 3 Takto definovaná špičatost je pro normální rozložení vždy rovna nule (někteří autoři však používají k definici špičatosti výraz neobsahující konstantu 3). Věnujme se nyní různým typům rozložení pravděpodobností. Říkali jsme si, že pro popis rozložení veličiny je užitečné používat matematické modely rozložení pravděpodobností, které je možno popsat pomocí pouze několika málo parametrů. Podle typu sledované veličiny je možno rozdělit rozložení do několika skupin: 7 Nominální veličiny O rozložení nominálních veličin jsme se již vlastně zmínili. Je jej možno popsat pravděpodobnostmi jednotlivých možných hodnot. Jak jsme si již říkali, alternativní veličiny je možno popsat pouze pomocí jediného parametru - pravděpodobnosti π. Někdy pak mluvíme o alternativním rozložení. Pokud nominální veličina nabývá více hodnot (například k), je k popisu jejího rozložení nutno k 1 pravděpodobností π 1,...,π k 1 (poslední pravděpodobnost je vždy možno dopočítat jako doplněk do jedné). 8 Diskrétní kvantitativní veličiny Tyto veličiny popisují kolikrát byl daný jev pozorován. Pokud se soustředíme na takovouto kvantitativní veličinu, uvažujeme vztah mezi pravděpodobnostmi, že tato veličina nabývá různých hodnot, který je možno popsat pouze pomocí malého počtu parametrů. Dále si ukážeme různé modely rozložení pravděpodobností. 8.1 Binomické rozložení Představme si, že sledujeme populaci skládající se z n osob, pak se můžeme zajímat o pravděpodobnost, že v tomto výběru bude právě x nemocných. Rozložení takovéto veličiny nazýváme binomické. Samozřejmě je možno vypočíst i základní charakteristiky. Střední hodnota (např. střední počet nemocných) je rovna: E(X) = nπ a pro rozptyl platí: var(x) = nπ(1 π) 6

7 8.2 Poissonovo rozložení U binomického rozložení jsme uvažovali, že sledujeme souboru omezeného rozsahu. Často se stává, že sledovaná populace je velmi rozsáhlá nebo dokonce nekonečná. Například můžeme sledovat počet zárodků na kultivační půdě (může být x = 0, 1, 2, 3,...) nebo počet infektů horních cest dýchacích u dětí během prvních tří let věku. Často pak neznáme horní mez pro sledované počty. Základní popisné charakteristiky - střední hodnota a rozptyl jsou: E(X) = var(x) = λ Spolu s binomickým rozložením je Poissonovo rozložení nejčastěji používáno pro popis veličin, které vyjadřují počet nalezených objektů našeho zájmu. 9 Spojité kvantitativní veličiny Další skupinu veličin tvoří ty, které popisují různé míry, měřitelné s libovolnou přesností. Patří sem různé délky, plochy, objemy, váhy, koncentrace a podobně. 9.1 Normální (Gaussovo) rozložení Je nejčastěji používaným rozdělením pro spojité náhodné veličiny. Pro názorné vysvětlení se uchýlíme k zjednodušení, které není z formálního hlediska přesné, ale umožní jednodušší pochopení. Představme si, že chceme měřit nějakou délku ale na měření máme k disposici nástroj, kterým je možno měřit pouze velmi malé délky (například měříme výšku postavy mikrometrem o rozsahu 0-25mm). Rozdělíme tedy měřenou délku na malé úseky (v našem případě 20mm), ty změříme a sečteme. V praxi nebude toto měření jednotlivých dílků absolutně přesné. Dá se předpokládat, že tyto chyby měření budou mít stejné rozložení a nebudou navzájem závislé. Měřená délka, získaná jako součet, pak bude mít rozložení, které je symetrické okolo svého středu (průměru x) má tvar velmi blízký binomickému rozložení s pravděpodobností 0, 5. Pokud bychom si představili, že dílčí, měřené úseku jsou velmi (přesněji řečeno neomezeně) malé, pak získáme rozložení, které nazýváme normální či Gaussovo. Na tomto vysvětlení je názorně vidět, že součet či rozdíl normálních veličin je opět normální. Tedy i průměr skupiny normálně rozložených veličin je normální. Dokonce platí, že čím více nezávislých náhodných veličin sčítáme, tím je jejich součet blíže normálnímu rozložení i bez ohledu na to, zda má původní veličina normální či jiné rozložení. 9.2 Logaritmicko-normální rozložení Často se stává, že rozložení není symetrické. Příkladem může být hmotnost postavy, koncentrace různých látek a mnohé další veličiny. Řekněme, že hmotnost dospělého muže je 80kg. Uvažujeme-li odchylku 50kg, pak je zřejmé, že v populaci se mnohem častěji najdou dospělí muži o hmotnosti 130kg než o hmotnosti 30kg. Jako charakteristika polohy se pak často používá odlogaritmovaný průměr logaritmů exp( ln(x)) nazývaný geometrický průměr. 10 Výběrová rozložení Konečně je nutno zmínit se i o rozloženích používaných ke konstrukci statistických testů. Tyto testy jsou vlastně prováděny tak, že vytvoříme tzv. testovací statistiku a test pak provádíme na základě toho, zda její hodnota odpovídá rozložení testovací statistiky pokud by testovaná skutečnost byla pravdou. 11 Odhady populačních charakteristik V praxi jsme často postaveni před problém stanovení určitých charakteristik rozložení sledované veličiny v základní populaci, je nutno pracovat s hodnotami sledovaných veličin (např. hladiny cholesterolu v krvi), které popisují populaci (přesněji řečeno základní populaci hladin cholesterolu) jako celek. V této kapitole se budeme zabývat principy testování a stanovením obecně platných hodnot sledovaných charakteristik - odhadů. Skutečné hodnoty parametrů rozložení sledované náhodné veličiny nemůžeme nikdy znát, můžeme pouze získat její odhadnout, který je zatížen jistou neurčitostí, kterou nazýváme náhodnou chybou, obsaženou v každém měření a dokonce i v každém našem odhadu. Pokud konstruujeme odhady charakteristik populace, můžeme toto zkreslení libovolně zmenšit rozsahem výběru, ale nikdy jej neodstraníme. 7

8 V dalších úvahách budeme často používat popis pozorování x i náhodné veličiny X pomocí jejího parametru polohy (nejčastěji populačního průměru µ): x i = µ + ε i kde ε i představuje chybu (variabilitu) veličiny X. Jestliže máme vytvořen takovýto model, je naším cílem získat o informace o jeho charakteristikách, odhadnout např. střední hodnotu µ sledované náhodné veličiny X. Odhady je možno v principu rozdělit do dvou základních skupin: 11.1 Bodové odhady Bodovým odhadem ˆx charakteristiky µ náhodné veličiny X nazveme číslo, které považujeme za dobrého representanta odhadované charakteristiky µ. Nikde však není řečeno, že odhad ˆx je přesně roven skutečné hodnotě µ. Kvalita odhadu je daná na jedné straně variabilitou veličiny X, ale na druhé straně i rozsahem výběru. Čím více pozorování máme, tím je odhad přesnější, stabilnější. Příkladem bodového odhadu průměrné výšky postavy v populaci je průměrná výška vypočtená z použitého výběru, odhadem pravděpodobnosti výskytu diabetes je její relativní četnost Intervalové odhady populačních charakteristik - intervaly spolehlivosti Místo jednoho čísla bodového odhadu použijeme nyní jako odhad rozmezí (interval), který s dostatečnou jistotou obsahuje hledaný parametr rozložení sledované veličiny. Odhady populačních charakteristik tohoto typu se nazývají intervaly spolehlivosti, v složitějších situacích mluvíme o oblastech či pásech spolehlivosti. Konstruhujeme interval, který s dostatečnou jistotou obsahuje skutečnou hodnotu odhadované charakteristiky v základním souboru. Formálně požadujeme, aby pravděpodobnost toho, že konstruovaný interval obsahuje skutečnou hodnotu byla větší než námi zvolená hodnota. Tuto pravděpodobnost pak nazveme hladinou spolehlivosti. Často ji volíme rovnu 0,95 (95%). U později zmíněných statistických testů mluvíme často o jejím doplňku - hladině významnosti, značené obvykle α (v našem případě 0, 05 = 5%). Je to pravděpodobnost toho, že konstruovaný interval je chybný a neobsahuje skutečnou hodnotu. Na tomto místě je nutno si uvědomit, že intervaly je možno vymezit více způsoby. Obvykle se používají následující dvě možnosti: Jednostranné intervaly používáme, pokud nás zajímají odchylky pouze v jednom směru, například pokud měříme koncentraci nějaké nežádoucí látky v potravinách a chceme stanovit hodnotu, kterou skutečná koncentrace této látky s námi zvolenou pravděpodobností 1 nepřekročí. Nezajímá nás omezení koncentrace zdola. Z výběru, který máme k dispozici, odhadneme parametry uvažovaného rozložení a získáme tak odhad hustoty f X (x) veličiny X. Snadno pak sestrojíme i odhad hustoty odhadu parametrů - např. f x (.) průměru x. Pomocí této hustoty můžeme nalézt bod na číselné ose, pro který pravděpodobnost toho, že hledaný průměr je menší než tato hodnota, je větší než (např.) 95%. Toho dosáhneme tak, že z číselné osy odřízneme zprava část, jejíž hodnoty se v sledované populaci vyskytují s pravděpodobností α (100α%, tj. 5%). K nalezení takovéhoto hraničního bodu použijeme hustotu f x (x) - viz. obrázek??, kde šrafovaná plocha nad x-ovou osou určuje oblast, která obsahuje v našem případě tolik největších číselných hodnot výšky postavy, by jejich pravděpodobnost byla rovna 5%. Je tak vlastně určena polopřímka která obsahuje skutečnou hodnotu s pravděpodobností menší než je námi zvolená přípustná chyba. Nás ale zajímá opačná polopřímka - jednostranný interval spolehlivosti. Ten tedy skutečnou hodnotu obsahuje s 95%-ní jistotou - spolehlivostí. Dvoustranné intervaly jsou konstruovány na podobném principu. Nyní však chceme omezit (například výšku postavy) z obou stran. Obvykle přikládáme stejnou váhu chybám na obě strany. Jestliže uvažovanou pravděpodobnost chyby α rozdělíme na dvě části, stačí vypočíst dva jednostranné intervaly každý pro α 2 a ty vytvoří hledaný oboustranný interval. Graficky je tato konstrukce zobrazena na obrázku??). Dvě šedé plochy na tomto obrázku určují dvě polopřímky, jejichž hodnot nabývá sledovaná veličina pouze s pravděpodobností 5%. Přesněji řečeno pravděpodobnost, že průměrná výška postavy v sledované populaci je větší horní mez intervalu spolehlivosti je 2,5% (podobně i pro menší hodnoty). 1 Často volíme 5%, pro málo závažné orientační výsledky se výjimečně používá i 10%, nebo pro závažná rozhodování 1%, 0.5% či 0,1%. 8

9 11.3 Intervalové odhady pro jednotlivá pozorování - toleranční intervaly Dosud jsme se zabývali odhadem charakteristik, které nepopisují jednotlivé pozorované hodnoty, ale popisují zvolené charakteristiky sledované populace (např. průměrnou porodní hmotnost). Věnujme nyní pozornost odhadu hodnot pro jednotlivé členy populace. Například chtějme stanovit interval, který s dostatečnou jistotou obsahuje většinu (zvolené procento) novorozenců z pohledu porodní hmotnosti. K tomuto účelu se konstruují takzvané toleranční (pokryvné) intervaly. Jedná se o interval, který s pravděpodobností α pokryje 100γ% (řekněme 80%) pozorování jakéhokoliv náhodného výběru ze základní populace. Přibližme si názorně úvahy, které umožní konstrukci těchto intervalů. Hraniční hodnoty těchto intervalů někdy nazýváme toleranční meze Rozdíl interpretace intervalu spolehlivosti a tolerančního intervalu Při praktickém použití je nutno zvážit potřeby, musíme se rozhodnout, zda chceme vyslovit tvrzení pro základní populaci jako celku (např. o průměrné hodnotě sledované veličiny v populaci), nebo zda se chceme vyjadřovat o jednotlivých případech. Často mluvíme o epidemiologickém přístupu - vyslovujeme tvrzení pro populaci jako celek (například když chceme stanovit průměrnou výšku populace), nebo o klinickém přístupu - pokud nás zajímají jedinci (například když chceme stanovit rozmezí, v kterém se pohybuje většina populace. Můžeme chtít stanovit rozsah hodnot hladiny cholesterolu v krvi 90-ti procent zdravé populace). 12 Statistické testy Jistě jste si všimli, že již při konstrukci intervalových odhadů provádíme skryté rozhodování o tom, které hodnoty ještě považujeme za přijatelné pro uvažovaný parametr a které již ne. Je samozřejmé, že toto rozhodování není nikdy absolutně spolehlivé. Je nutné zajistit, aby míra případných omylů byla v přijatelných mezích. V předchozím odstavci jsme si ukazovali myšlenku intervalových odhadů. Často však býváme postaveni přímo před problém rozhodnout, zda nějaké tvrzení platí: například zda je rozdíl ve výšce postavy osob z různých krajů, či zda je častěji nemocná skupina exponovaných než neexponovaných osob. Testy, kterými se budeme zabývat, poskytují nástroj pro rozhodování, zda se například liší charakteristika sledované skupiny od požadované hodnoty (zda porodní hmotnost dětí je větší než 2800g). Základem statistických testů je snaha o rozhodnutí, zda je rozdíl testovaných hodnot možno vysvětlit pomocí náhody, či zda jej musíme považovat za systematický. Nejprve si představme velmi jednoduchý příklad rozhodování. Řekněme, že chceme z pohledu zkoušejícího tvrdit o konkrétním studentovi výrok A = jeho znalosti jsou v sledované oblasti dostatečné. Statistik nazývá takovéto tvrzení hypotézou (H 0 ). Na základě zkoušky (v statistice ji nazýváme testem) tuto hypotézu přijmeme nebo zamítneme. V reálné situaci je takovéto měření znalostí zatíženo chybou. Může se stát, že přestože student zná zkoušenou látku, odpoví na některou otázku chybně, nebo naopak jinému se podaří správnou odpověď uhádnout. Cílem zkoušky by mělo být zjištění, zda pravděpodobnost správné odpovědi π je dostatečně velká. Při hodnocení studenta mohou nastat čtyři případy: I. Budeme mylně tvrdit, že výrok A je nepravdivý. II. Budeme mylně tvrdit, že výrok A je pravdivý. III. Budeme správně tvrdit, že výrok A je pravdivý. 9 IV. Budeme správně tvrdit, že výrok A je nepravdivý. Správné rozhodnutí je pouze III. a IV. Všechny tyto možnosti jsou názorně zobrazeny ještě i v tabulce 1.

10 Výsledek Skutečnost testu H 0 platí H 0 neplatí H 0 přijata III. Chyba II. druhu β H 0 nepřijata Chyba I. druhu IV. α Tabulka 1: Možnosti při testování hypotézy H 0 1 β se nazývá síla testu. V praxi bychom chtěli minimalizovat obě tyto pravděpodobnosti. Ty však na sobě závisí, s klesajícím α roste β a naopak. Minimalizovat pouze jednu z nich je sice jednoduché, ale nedává to žádný smysl. V praxi se při testování snažíme testem hodnotit charakteristiku jedné nebo více populací. Například hodnotíme průměrnou výšku postavy osob z určité skupiny (např. definované věkem a pohlavím). Nezajímá nás konkrétní jedinec, ale určitá charakteristika základní populace. Při provádění testu vstupují do hry nejen chyby α a β, ale i rozsah výběru n. Testem tedy kontrolujeme pravděpodobnost toho, že tvrzení H 0 platí a my jej neprokážeme. Opačnou chybu (pravděpodobnost, že H 0 neplatí a my jej mylně budeme považovat za platné) již ale máme (při konkrétním rozsahu výběru) pevně danou. Pokud však zvětšíme rozsah výběru, zvýší se naše znalost rozložení sledované veličiny, zpřesní se odhad testovaného parametru a test se tedy stává přesnějším, bude více schopen nalézt případné rozdíly. Věnujme se nyní principu provádění testu. Ten provedeme tak, že vypočteme tzv. testovací statistiku S, která je pro konkrétní test určitou funkcí jednotlivých pozorování (viz. popis testů v dalších kapitolách). Za platnosti testované hypotézy známe rozložení testovací statistiky S. Vypočtené S pak porovnáme s kritickou hodnotou testovací statistiky. Je-li testovací statistika větší než odpovídající kritická hodnota, tak je pravdivost hypotézy H 0 málo pravděpodobná - proto ji zamítneme. Pokud je však testovací statistika menší než kritická hodnota, je možno pozorované rozdíly vysvětlit prostřednictvím náhody - hypotézu tedy nezamítáme. Jinými slovy: říkáme že, rozdíly nestačí k tomu abychom hypotézu zamítli. Ve výstupech statistických programů se velmi často objevuje mimo hodnotu testovací statistiky i takzvaná P-hodnota. Ta nám při hodnocení testu ještě více usnadní práci. Nemusíme totiž vyhledávat v statistických tabulkách kritickou hodnotu příslušné testovací statistiky, ale stačí pouze porovnat P-hodnotu s požadovanou významností. P-hodnota je rovna při testu dosažené hladině významnosti. Je to pravděpodobnost toho, že při opakovaném provedení experimentu, bude hodnota testovací statistiky stejná nebo větší. Prakticky tedy stačí porovnat P-hodnotu se zvolenou hladinou významnosti α a je-li P-hodnota< α (např. < 0, 05 = 5%) řekneme, že test potvrdil statistickou významnost. Jinak považujeme testovaný rozdíl za statisticky nevýznamný - pozorované rozdíly je možno vysvětlit pomocí náhody. Jedním z nejčastějších požadavků je porovnání míry polohy souboru (např. průměru) s nějakou konkrétní hodnotou, nebo porovnání měr polohy různých základních souborů. Příkladem může být porovnání průměrné výšky postavy mužů a žen. Popišme si nyní řešení takovýchto problémů. 13 Jedna skupina Nejjednodušším úkolem je porovnání charakteristiky základní populace s konkrétní hodnotou Jednovýběrový U-test Ten ověřuje, zda je střední hodnota (průměr x) rovna požadované konstantě za předpokladu, že sledovaná veličina má normální rozložení se známým rozptylem σ 2 x (např. víme-li, že σ x = 0, 5). Nutným předpokladem tohoto testu je jednak zmíněná normalita sledované veličiny, ale i nezávislost jednotlivých pozorovaných hodnot. Ta je porušena např., pokud v souboru jsou některé osoby měřeny opakovaně (takovýto problém je nutno řešit složitějšími nástroji). Dříve než zahájíme testování, musíme jednak zvolit hladinu významnosti α (například α = 0, 05 = 5%), ale i rozhodnout, zda chceme provést test jednostranný nebo oboustranný. Řekněme, že nás zajímá pouze 10

11 jednostranná varianta testu, tedy hypotéza zda je průměrná hladina cholesterolu v krvi dětí ze školy B statisticky významně větší než hodnota 4,4. Pro test vypočteme: U = ( x µ) n σ x = (4, 212 4, 4) 128 = 4, 254 0, 5 Pokud je pravda, že hladina HDL cholesterolu je menší nebo rovna hodnotě 4,4, má tato testovací statistika U normální (Gaussovo) rozložení. To nám umožní provést požadovaný test. Ze statistických tabulek zjistíme kritickou hodnotu u α normálního rozložení, t.j. hodnotu takovou, aby pro normálně rozloženou veličinu byla pravděpodobnost výskytu větších nebo stejných hodnot U nejvýše rovna 100α% (v našem případě 5%). Je-li pak U > u α, je testovaná hypotéza málo pravděpodobná - nemůžeme rozdíl mezi normou 4,4 a x vysvětlit pouhou náhodou. Řekneme, že hladina cholesterolu je statisticky významně větší než 4,4 (na hladině významnosti 5%). Pokud je naopak U < u α není možno testovanou hypotézu vyloučit, případnou odchylku hladiny cholesterolu nad normu je možno vysvětlit i pomocí náhody. Řekneme, že rozdíl není statisticky významný (na hladině významnosti 5%). Případný rozdíl je tak malý, že se schoval do náhodné chyby. V praxi však v současné době není nutno výpočty provádět ručně, statistické programy tuto práci udělají za nás a dokonce mimo testovací statistiky U nabídnou i již zmíněnou P-hodnotu. Pokud potřebujeme použít oboustranný test, pak stačí porovnat absolutní hodnotu statistiky U s hodnotou u α test je tedy statisticky významný pokud je U > u α Dále se budeme zabývat pouze oboustrannými 2 2 testy Jednovýběrový t-test Předpokládejme, že sledovaná veličina má stále normální rozložení. V praxi však známe skutečný rozptyl jen výjimečně, musíme tedy použít jeho odhad. Pak je ale nutno předchozí test modifikovat. Tento test používá v kapitole 5 již zmíněné t-rozložení. Testovací statistika pro oboustranný test je pak velmi podobná U statistice: t = x µ n (4, 212 4, 4) 128 = = 4, 624 s x 0, 460 Tuto hodnotu porovnáme s kritickou hodnotou t α (n 1) Studentova t-rozdělení s n 1 stupni volnosti. Protože je t = 4, 624 > 1, 984 = t 5% (127), není možno odchylku od normy vysvětlit pomocí náhody. Říkáme, že test prokázal statisticky významnou odchylku sledované veličiny od normy Jednovýběrový znaménkový (mediánový) test Pokud sledovaná veličina nemá normální rozložení není možno použít t-test a musíme se uchýlit k obecněji použitelným, neparametrickým testům. Tím je například znaménkový test. Tento test je založen na velmi jednoduchém principu, sleduje totiž procento naměřených hodnot menších než hodnota s kterou soubor porovnáváme. Test zjišťuje, zda je toto procento statisticky významně odlišné od 50%. Označme Y počet hodnot větších než hypotetická hodnota a n počet měření. Pak vypočteme U = 2Y n = = 3, 359 n 128 Statistiku U pak porovnáme s kritickou hodnotou normálního rozložení. Pro jednostranný test na hladině významnosti 100α% porovnáme U > u α = u 5% = 1, 64 nebo U < u α = 1, 64. Pokud však chceme vypočíst oboustranný test na hladině významnosti 100α%, použijeme U > u α 2 = u 2,5% = 1,

12 13.4 Jednovýběrový Wilcoxonův test Můžeme však použít i Wilcoxonův neparametrický test, který je silnější než předchozí znaménkový test. Použití Wilcoxonova testu je vhodné obzvlášť pokud je rozsah souboru menší a o analyzovaná náhodná veličina nemá normální rozložení. Tento test nesleduje pouze zda je naměřená hodnota větší či menší než norma, ale pracuje s pořadím naměřených hodnot. Přesněji řečeno seřadíme bez ohledu na znaménko odchylky naměřených hodnot od normy a budeme se ptát zda se statisticky významně liší průměrné pořadí odchylek v kladném a záporném smyslu Test rozptylu jednoho výběru Zatím jsme si ukazovali pouze testy parametrů polohy. Někdy však potřebujeme testovat i parametry měřítka (např. σ 2 ). Řekněme, že chceme vypočíst jednostranný test, že σ 2 nepřekročí hodnotu σ 0 = 0, 5. Vypočtěme nejprve statistiku S = (n 1)s2 x σ 2 0 = 127 0, , 5 2 = 108, 34 Tuto hodnotu pak porovnáme s kritickou hodnotou S < χ 2 n 1(1 α). Pokud bychom chtěli testovat hypotézu σ 2 > σ 2 0 (např. σ 2 0 = 0, 25), je nutno porovnat S > χ 2 n 1(α). Pro splnění oboustranné hypotézy (σ 2 = σ 2 0) musí platit, že χ 2 n 1( α 2 ) = 97, 70 < 108, 34 = S < 160, 09 = χ2 n 1(1 α 2 ) Směrodatná odchylka s x se tedy statisticky významně neliší od hodnoty 0,5. Tento výsledek nám tedy nebrání použít U-test tak, jak byl popsán. S výše zmíněnými testy velmi úzce souvisí i intervalové odhady. Ukažme si možnosti jejich konstrukce a použití Intervaly spolehlivosti Dále si ukážeme konstrukce intervalů spolehlivosti pro nejčastěji používané statistické charakteristiky průměru x, pro σ známé, je oboustranný α%-ní interval spolehlivosti ( x u α 2 σ n, x + u α 2 σ neznámé, je oboustranný α%-ní interval spolehlivosti ) σ n ( x t α (n 1) s x, x + t α (n 1) s ) x n n Poznámka: Intervalové odhady je možno konstruovat i pro veličiny, které je nutno transformovat, aby měly normální rozložení. Například hmotnost postavy h mívá logaritmicko-normální rozložení. Vypočteme tedy intervalové odhady pro ln(h) a ty pak zpět odlogaritmovat. Získáme tak nesymetrické intervaly: (e ln(h) tα(n 1) s ln(h) n ), e ln(h)+tα(n 1) s ln(h) n kde ln(h) je průměr hodnot ln(h i ). Sestrojený interval pak má vlastně tvar ( hgeom k ) ; h geom k 12

13 mediánu x med Interval spolehlivosti pro medián se konstruuje tak, že nejprve seřadíme všechna pozorování X i a seřazená označíme X [1], X [2], X [3],..., X [n]. Pak v statistických tabulkách pro daný rozsah n, hladinu významnosti α a typ testu (jednostranný nebo oboustranný) nalezneme pořadové číslo pozorování, které tvoří příslušnou hranici intervalu spolehlivosti pro medián. Příklad intervalu spolehlivosti pro medián je v tabulce. rozptylu s 2 Oboustranný α%-ní interval spolehlivosti pro rozptyl je ( (n 1)s 2 x χ 2 n 1 ( α 2 ), (n 1)s 2 ) x χ 2 n 1 (1 α 2 ) 13.7 Toleranční intervaly Mezi intervalové odhady patří i toleranční intervaly. Ukažme si konstrukci takového intervalu pro veličinu s normálním rozložením s neznámým σ 2. Sestrojíme je tak, že v statistických tabulkách nalezneme příslušné hodnoty tolerančních činitelů k 1 či k 2. Příslušné intervaly pak jsou: 13.8 Co nejsou intervalové odhady ( x s x k 2, x + s x k 2 ) V praxi se někdy při popisu výsledků používá vyjádření X ± S.D. nebo X ± S.E.. Použití takového intervalu je ale krajně nevhodné, protože nabízí zavádějící interpretaci. Pokud použijeme výraz X ±S.D., pak tento interval, pro dostatečně velké n, obsahuje méně než 68% potenciálních pozorování. V některých pracích dokonce ani není uvedeno, co výraz číslo ± číslo představuje, pak ale je takováto prezentace nic neříkající. Podobně X ± S.E. pokryje skutečnou hodnotu s pravděpodobností nejvýše 68%. Pokud je rozsah n souboru malý, je toto procento v závislosti na n ještě menší. K tomu, aby mohl být výraz X ±S.E. považován za interval spolehlivosti normálně rozložené veličiny, je nutno vynásobit S.E. vhodnou konstantou. Například 95%-ní interval spolehlivosti vypočteme x±t n 1 (α). Konstanta t n 1 (α) je kritická hodnota t-rozložení, pro dostatečně velké n je ji možno pro hrubý odhad nahradit číslem 2. Ospravedlňovat použití X ± S.E. tím, že správné intervalové odhady jsou širší a zpochybňují výsledky práce, je zcela zcestné. 14 Dvě skupiny Podobná situace nastává, pokud máme porovnat střední hodnoty dvou různých skupin. Problém opět můžeme rozdělit podle typu rozložení sledované veličiny Dvouvýběrový t-test Pokud je rozložení sledované veličiny normální, porovnáme průměry skupin opět pomocí t-testu, tentokrát dvouvýběrového. Testování je jednodušší, pokud jsou oba rozptyly s 2 x a s 2 y stejné, to však nemusí být pravda. Nejprve tedy potřebujeme rozhodnout, kterou variantu t-testu použijeme - zda pro stejné či pro různé rozptyly. Pro jednoduchost se omezíme na popis vzorce pro variantu t-testu pro výběry se stejnými rozptyly. Stačí vypočíst statistiku t = nxn x ȳ y n x+n y (nx 1)s 2 x +(ny 1)s2 y n x+n y 2 Tato testovací statistika uvažuje rozdíl průměrů x a ȳ, který vydělíme odhadem standardní chyby průměru tohoto rozdílu. Získáme tak statistiku, která má t-rozložení s n x +n y 2 stupni volnosti a tu pak využijeme pro provedení testu (případně pro výpočet P-hodnoty) Porovnání dvou rozptylů Pro volbu správné varianty t-testu potřebujeme mimo jiné vědět, zda můžeme rozptyly v obou skupinách považovat za stejné. Pro porovnání rozptylů dvou skupin stačí vypočíst jejich podíl F = s2 x s 2 Test pak y 1 provedeme tak, že zjistíme je-li F ny 1,nx 1( α 2 ) < F < F n y 1,n x 1( α 2 ) pokud tomu tak není, je nutno považovat rozptyly s 2 x a s 2 y za statisticky významně odlišné. 13

14 14.3 Dvouvýběrový znaménkový test Stejně jako pro řešení předchozího problému i nyní existuje neparametrická varianta dvouvýběrového t- testu - znaménkový test, který nepožaduje normální rozložení. Mediánový test provedeme tak, že nejprve vypočteme medián pozorování z obou skupin spojených dohromady. Testovací statistika S je pak počet pozorování z prvního výběru, která jsou větší než společný medián. Pro test využijeme to, že statistika S má hypergeometrické rozložení Dvouvýběrový Wilcoxonův test Dalším neparametrickým testem je Wilcoxonův test. Opět spojíme na chvíli oba soubory a ke každému pozorování vypočteme pořadí v tomto společném souboru. Potom sečteme všechna pořadová čísla pozorování, která byla původně v prvním souboru, jejich součet označíme R +. Porovnáme hodnotu R + s kritickými hodnotami dvouvýběrového Wilcoxonova testu. 15 Párové porovnání Mezi výše jmenované testy se často zahrnují testy pro párová porovnání. Jsou založeny na zmíněném t-testu či Wilcoxonově testu, ale řeší poněkud odlišný problém. Podobnost názvů párových a nepárových testů sice vychází z použití stejných technických metod, ale z hlediska interpretace se jedná o zcela odlišné přístupy, které není možno zaměňovat. Představme si, že chceme porovnávat efekt určitého zásahu tak, že zjistíme na stejné skupině objektů sledovanou veličinu před zásahem a po něm. Ptáme se, zda změna jídelníčku snížila hladinu cholesterolu v krvi. Hodnota, o kterou je možno snížit hladinu cholesterolu změnou (pouze části) dětské stravy, zřejmě nebude velká a naopak rozdíly hladiny cholesterolu mezi jednotlivými dětmi mohou být mnohem větší. Pokud bychom porovnali obě skupiny dvouvýběrovým testem, zůstane efekt našeho zásahu skryt interindividuální variabilitou a dvouvýběrový test neprokáže významné rozdíly. Dopustili jsme se chyby, protože jsme neuvažovali závislost hodnot naměřených na jedné osobě. Musíme se tedy pokusit vyloučit vliv variability mezi osobami, srovnat výsledky tak, aby hodnoty byly srovnány na stejnou úroveň. Nebudeme proto pracovat přímo s naměřenými hodnotami, ale s rozdíly obou měření (porovnáváme změnu ke které došlo za sledované období). Vypočteme-li tedy pro každou osobu rozdíl prvního a druhého měření, můžeme již snadno použít některý z výše jmenovaných jednovýběrových testů a zjistit, zda změny během pokusu jsou statisticky významně odlišné od nuly Párový t-test Je-li rozložení sledované veličiny normální, je normální i rozložení rozdílu prvého a druhého měření. Můžeme tedy pro výpočet změny mezi prvním a druhým měřením u jednotlivých osob použít jednovýběrový t-test. Samozřejmě je možno pracovat i s intervalovými odhady, interval spolehlivosti je pak vypočten nikoliv pro naměřenou hodnotu, ale pro její změnu za sledované období. Interval tedy odhaduje nárůst či pokles Párový znaménkový test Další často používanou variantou párového testu je znaménkový test. Podobně jako u párového t-testu, nejprve vypočteme pro každého jedince rozdíl mezi prvním a druhým měřením a pak na tyto diference použijeme znaménkový jednovýběrový test Párový Wilcoxonův test Stejně můžeme postupovat i při konstrukci párového Wilcoxonova testu. 16 Více skupin - Analýza rozptylu - ANOVA Nejprve se věnujme jednoduchému modelu, kdy soubor hodnot sledované veličiny (hladina HDL cholesterolu) rozdělíme do skupin podle kvalitativní veličiny, která nabývá více hodnot (např. veličina indikující školu, kterou dítě navštěvuje). 14

15 16.1 Více skupin - Analýza rozptylu jednoduchého třídění Často se stává, že potřebujeme provést složitější porovnání. Porovnejme více než dvě skupiny (počet sledovaných skupin označme k). Chceme zjistit, zda jsou rozdíly v průměrné hladině HDL cholesterolu v krvi 8-letých dětí tří vybraných pražských škol (např. k = 3 ). Označme průměrné hladiny HDL cholesterolu v těchto třech školách µ 1, µ 2, µ 3 a celkový průměru µ. Dále budeme tyto parametry odhadovat a testovat hypotézu zda se od sebe statisticky významně liší. Analýzou rozptylu testujeme, zda je část variability způsobená rozdíly průměry ve skupinách jsou statisticky významně odlišná. To je testováno tak, že porovnáváme rozptyl za platnosti hypotézy shody průměrů s rozptylem pokud tato hypotéza neplatí. Hypotézu analýzy rozptylu pak ověříme testovací statistikou F F = s2 mezi skupinami s 2, uvnit skupin která má k 1 a n k stupňů volnosti. Tuto hodnotu pak musíme porovnat s kritickou hodnotou F- rozdělení. Statistické programy nám však usnadní práci tím, že vypočtou i P-hodnotu Podmínky použitelnosti analýzy rozptylu Na to, abychom vůbec mohli tento postup použít, je nutno přijmout jisté předpoklady, přesněji řečeno ověřit zda nejsou v rozporu s pozorovanými daty. 1. Sledovaná veličina musí mít normální rozložení. 2. Druhým předpokladem je shoda rozptylů. Na ověření tohoto předpokladu existuje několik testů, které si brzy popíšeme v odstavci test shody rozptylů. 3. Dále by měla být pozorování nezávislá (viz. párový test) Test shody rozptylů Tento test potřebujeme např. k ověření hypotézy shody rozptylů před tím, než použijeme analýzu rozptylu. Jeden takovýto test je již zmíněn v souvislosti s dvouvýběrovým t-testem, ten však porovnává pouze variabilitu dvou skupin. Existují však ještě i další testy, které dokonce dokáží porovnat variabilitu více skupin. Jsou to Bartlettův test a Leveneho test Kruskall-Wallisův test Zmíněná analýza rozptylu má sice bohaté uplatnění, ale vyžaduje splnění předpokladu normality. Nyní si ukážeme test, který tuto podmínku nevyžaduje. Podobně jako při provádění Wicoxonova testu neporovnává průměry, ale mediány. Tento test předpokládá, že studovaná veličina je spojitá - t.j. žádná hodnota není pozorována vícekrát Znaménkový test Je možno použít i znaménkový test, který vypočteme tak, že nejprve zjistíme společný medián všech pozorování a pak pro každou skupinu (školu) stanovíme počty pozorování větších a menších než tento medián. Vznikne tak matice. V ní je možno testovat pomocí χ 2 zda je v některém souboru statisticky významně více hodnot nad mediánem než v ostatních souborech Metody mnohonásobného porovnávání Pokud hypotézu shody zamítneme, tvrdíme, že rozdíly mezi školami není možno vysvětlit pomocí náhody. Analýza rozptylu nám pak říká, že průměrné hmotnosti dětí v sledovaných školách se statisticky významně liší od ostatních, nevíme však která(é) škola(y) tento rozdíl způsobuje(jí). Samozřejmě je možno testovat například dvouvýběrovým t-testem každou dvojici škol. V tomto okamžiku se musíme zamyslet nad tím, jak chceme zajistit spolehlivost našich tvrzení. Při porovnání škol po dvojicích kontroluje každý z prováděných testů, zda je pravděpodobnost chyby našeho tvrzení menší než 100α% (např. 5%). Provádíme-li však na 5%-ní hladině významnosti pro tyto 15

16 tři školy všechny možné testy (t.j. 3 porovnání), je celková pravděpodobnost toho, že uděláme chybu, větší než zvolených 5%. Víme o ni pouze, že je menší než 3 5% = 15%. K tomuto účelu byly navrženy testy mnohonásobného srovnávání. Ty jsou používány jako přirozené pokračování, analýzy rozptylu v případě, že ta prokázala statisticky významné rozdíly mezi porovnávanými skupinami. Mezi tyto testy patří: LSD test, Bonferroniho test, Scheffeho testu, Tuckeyho test nebo Duncanův test Analýza rozptylu dvojného třídění Zatím jsme se zabývali porovnáním hodnoty sledované veličiny v různých skupinách, do kterých jsou pozorované objekty rozděleny pomocí jedné veličiny (např. z které školy je sledované dítě). Někdy je ale rozdělení do jednotlivých skupin přirozené popsat pomocí více veličin. Dalším základním problémem, který matematická statistika řeší, je studium vztahu spojitých veličin. Budeme se zajímat o to, zda a jak na sobě sledované veličiny závisí. Nejprve bychom se měli zabývat pojem nezávislosti dvou spojitých veličin. Již v kapitole 3 jsme se seznámili s pojem nezávislosti dvou jevů. Nejdříve se ale zabývejme rozložením více veličin. 17 Kovariance - míra lineárního vztahu dvou veličin Pokusme se nalézt míry vztahu mezi dvěma spojitými, normálně rozloženými veličinami. Již dříve jsme si pro analýzu jednotlivých veličin ukázali význam míry polohy a měřítka. V případě normálně rozložených veličin pracujeme s průměry a rozptyly. Tyto charakteristiky ale nepopisují vztah dvou nebo více veličin. Obdobou míry polohy je zde lineární vztah obou veličin (přímka, která popisuje tuto závislost). Zobecněním míry měřítka pak je jistá míra těsnosti dat vzhledem k této přímce. K měření vztahu dvou veličin byl zaveden pojem kovariance. Výběrovou kovarianci pak vypočteme: Z definice kovariance je zřejmé, že: cov(x, y) = 1 n (x i x)(y i ȳ) n 1 i=1 cov(x, y) = cov(y, x) Dále si všimněme, že pokud je kovariance kladná, je jistá kladná vazba mezi x a y - čím je větší x, tím je větší i y a naopak. 18 Koeficient lineární korelace Takto definovaná kovariance je ale závislá na rozptylu veličin x a y. Stejnou úvahu ale můžeme provést i pro tzv. z-skóry, tj. pro xi x s x a yi ȳ s y. Získáme tak (výběrový) Pearsonův korelační koeficient: r = r x,y = 1 n ( ) ( ) n xi x yi ȳ i=1 = (x i x)(y i ȳ) n 1 s x s n y i=1 (x i x) 2 n i=1 (y i ȳ) 2 i=1 Hodnoty korelačního koeficientu r se pohybují v rozmezí 1 r 1. hodnota r = 0 odpovídá tomu, že mezi studovanými veličinami není žádná lineární vazba a hodmoty 1 a -1 odpovídají přesné lineární závislosti. V praxi často vypouštíme z názvu jak slovo Pearsonův, tak i slovo lineární, není to zásadní chyba, ale název pak svádí k tomu, abychom koeficient chápali jako míru libovolné vazby veličin x a y a to je již chybná interpretace. Populační korelační koeficient obvykle značíme ϱ. Koeficient nabývá hodnot z intevalu [ 1; 1], kde hodnota 0 představuje vzájemnou nezávislost a hodnoty 1 a 1 představují funční lineární závislost (v pozitivním, případně negativním smyslu). Výše uvedený odhad korelačního koeficientu je sice velmi užitečný, ale v praxi většinou potřebujeme mít i možnost testovat zda tento koeficient je statisticky významně odlišný od nuly (ϱ 0) - zda mezi veličinou x a y existuje lineární vztah. K tomu stačí vypočíst testovací statistiku T = r 1 r 2 n 2 která má Studentovo t-rozložení s n 2 stupni volnosti. 16

17 19 Lineární regresní model Z popisu korelačního koeficientu je zřejmé, že vyjadřuje vztah dvou veličin na stejné úrovni, veličiny jsou pozorovány najednou. Např. měříme současně hladinu cholesterolu a triglyceridů a neuvažujeme, že by existoval kauzální vztah studovaných veličin. Je na experimentátorovi, aby rozhodl o tom zda a jakou kauzalitu bude v modelu předpokládat. Někdy se pokoušíme na základě znalosti jedné veličiny odhadnout ( modelovat ) jinou veličinu. Např. z výšky otce bychom chtěli usuzovat na výšku syna, nebo z věku dítěte chceme odhadnout jeho výšku. V modelu vlastně předpokládáme kauzalitu veličin (výšky syna na výšce otce). První, kdo se zabýval modelem tohoto typu byl v roce 1886 Francis Galton. Snažil se řešit právě problém závislosti výšky prvorozených synů na výšce jejich otců. Z této práce také pochází termín regrese. Podobně jako v analýze rozptylu budeme mluvit o nezávisle proměnné, veličině o které předpokládáme, že do jisté míry předurčuje hodnoty pozorované, cílové, náhodné veličiny. Tu opět nazveme závisle proměnou. Označme y výšku syna a x výšku otce. Pokud lineární model platí zcela přesně, je možno jej popsat rovnicí y = β 0 + β 1 x kde β 0 a β 1 jsou konstanty které popisují vztah veličin. V praxi je ale pozorovaná veličina zkreslena nepřesností měření, biologickou variabilitou a dalšími rušivými faktory. Model tedy ve skutečnosti má tvar: y = β 0 + β 1 x + ε kde ε je právě tato zmíněná náhodná složka veličiny y. Někdy, když není zcela jasné která proměnná je závislá a která nezávislá, používáme přesnější označení y = β 0y:x + β 1y:x x + ε 19.1 Lineární regresní model normálně rozložené náhodné veličiny V další části se zaměříme na modely s normálně rozloženou závisle proměnnou (ε má normální rozložení N(0, σ 2 ). Tento předpoklad v praxi bývá široce užíván jednak protože se zdá být často přirozený ale i proto, že výpočty jsou relativně velmi jednoduché. Naším cílem bude porovnat rozdíl mezi jednodušším modelem (výška syna nezávisí na výšce otce) a složitějším (výška syna je lineárně závislá na výšce otce), zjistit zda rozdíly mezi modely je možno vysvětlit pomocí náhody. Zvolíme podobně v modelu analýzy rozptylu postup, kdy porovnáme rozptyl za hypotezy s rozptylem, kdy hypotéza neplatí. Nalezneme odhady parametrů regresní přímky b 0 ab 1 a rozptylu okolo regresní přímky. Graficky si můžeme představit konstrukci odhadu jako nalezení takové přímky, aby svislé vzdálenosti bodů od ní byly pokud možno co nejmenší. Nyní již můžeme snadno testovat zvolený model, případně jednotlivé koeficienty, nebo sestrojit jejich intervalové odhady. Součty čtverců mají velký význam nejen pro konstrukci odhadu, ale především pro testování modelu. Uvažujeme tedy, že platí model Y = β 0 + β 1 X a chceme testovat zda je možno uvažovat jednodušší model (nazývaný hypotézou). Podobně jako v analýze rozptylu, je nutným předpokladem normalita chyby ε. Dalším předpokladem je, že rozptyl chyby nesmí záviset na nezávisle proměnné a samozřejmě, jak jsme si již říkali, vztah závisle a nezávisle proměnné musí být lineární. To vše pak můžeme shrnout do požadavku, aby závisle proměnná Y měla za podmínky X = x normální rozložení N(β 0 + β 1 x, σ 2 ). Střední hodnota tedy závisí na X, ale rozptyl je konstantní (nezávisí na X) Vztahu regresního lineárního modelu a lineárního korelačního koeficientu Uvažujme co se ale stane, pokud zaměníme závisle a nezávisle proměnnou? Získáme tak koeficienty b 0x:y a b 1x:y. Tyto koeficienty se budou lišit od b 0y:x a b 1y:x. Získané regresní přímky jsou různoběžné a protínají se uprostřed dat. Úhel, který svírají obě regresní přímky, odpovídá korelaci veličin X a Y. 17

18 19.3 Problémy s linearitou a normalitou - transformace modelu V praxi se často stává, že studovaný problém nesplňuje požadavky použitého modelu. Snadno se může stát, že závislost není lineární, nebo že i rozptyl závisle proměnné Y je funkcí nezávisle proměnné X. Například o hmotnosti osoby je známo, že závisí na výšce měřené postavy. Tato závislost ale není lineární, ale ukazuje se, že hmotnost závisí lineárně na čtverci výšky postavy. Proto je nutno abychom pro regresní analýzu nepoužívali přímo sledované veličiny X a Y, ale místo výšky postavy X použijeme její druhou mocninu X 2. Teoreticky je možno transformovat jak závisle, tak i nezávisle proměnnou. Transformace závisle proměnné přináší kromě případného narovnání regresní křivky i změnu modelu. Pro přizpůsobení modelu datům se někdy používá jak transformace závisle proměnné (pro převedení rozložení závisle proměnné na tvar blízký normálnímu rozložení), tak i transformace nezávisle proměnné (abychom přiblížili regresní model lineární závislosti). Tato transformace vlastně odpovídá změně použité stupnice měření (pro konkrétní veličinu nemusí být vždy jasné, zda je přirozenější použít normální, logaritmickou či jinou stupnici Odlehlá pozorování v regresi O odlehlých pozorováních jsme se již zmínili u parametrů polohy. V regresním modelu ale přibývá ještě i problém odlehlých hodnot nezávisle proměnné. Je-li hodnota závisle proměnné odlehlá, pak samozřejmě dochází k zkreslení odhadu. Tyto hodnoty, jež nazýváme vlivné body, mohou být pro takovéto zkreslení mnohem nebezpečnější než odlehlé hodnoty závisle proměnné. Podobně jako jsme v minulé kapitole mluvili o sdruženém rozložení dvou spojitých veličin, můžeme mluvit o sdruženém rozložení i u diskrétních veličin. Situace se dokonce zdá být jednodušší, protože obě proměnné nabývají pouze omezený (většinou malý) počet hodnot. 20 Kontingenční tabulka 2 2 Jednou z lékařských disciplín, kde se často používají kontingenční tabulky je epidemiologie. Velmi často používáme právě tabulku 2 2 k řešení problému, zda výskyt vybrané diagnózy závisí na uvažované expozici. K vyčerpávajícímu popisu tabulky 2 2 stačí znát pouze čtyři číselné hodnoty. Proto se často používá zjednodušené značení (viz. tabulka 2). náhodná veličina Y náhodná veličina X např. nemoc např. expozice Ano Ne celkem Ano a b a + b Ne c d c + d celkem a + c b + d a + b + c + d = n Tabulka 2: Obecný zápis kontingenční tabulky χ 2 test nezávislosti v tabulce 2 2 χ 2 -test nezávislosti v kontingenční tabulce 2 2 vypočteme χ 2 = (ad bc) 2 (a + b)(a + c)(b + d)(c + d) n Pro ilustraci použijme data o výskytu vrozené vady kyčlí v závislosti na pohlaví dítěte (viz. tabulka 3). Chceme ověřit hypotézu, že vrozené vady kyčlí jsou častější u dívek než u chlapců. Testovací statistika χ 2 je pak rovna hodnotě 9, 59. Tomu odpovídá P-hodnota 0,002. Je tedy statisticky významný rozdíl mezi pravděpodobností vrozené vady kyčlí u chlapců a u dívek. Porovnáním pozorovaných a očekávaných četností v tabulce 3 vidíme, že odchylka od modelu nezávislosti je způsobena větším výskytem vady kyčlí u dívek. Tímto testem jsme prokázali, že je dokonce statisticky významně větší. 18

19 Vrozená vada kyčlí Pohlaví Ano Ne celkem Chlapci pozorovaná četnost Dívky pozorovaná četnost celkem Tabulka 3: Výskyt vrozené vady kyčlí u chlapců a dívek V praxi se ukazuje, že χ 2 test nezávislosti je možno pro malé pozorované četnosti vylepšit tzv. Yatesovou korekcí Oba tyto testy jsou ale pouze přibližné. Je však možno provést i přesný test. Tím je Fisherův exaktní (faktoriálový) test, který si nyní popíšeme. Sestrojíme všechny možné tabulky, které mají stejné marginální četnosti (řádkové a sloupcové součty) jako původní tabulka. Vybereme z nich ty, které jsou vzdálenější od hypotézy nezávislosti než původní kontingenční tabulka (t.j., jsou to tabulky méně pravděpodobné než naše tabulka, pokud skutečně platí hypotéza nezávislosti). Sečteme-li pravděpodobnosti těchto tabulek, získáme tak součet P a ten je již přímo P-hodnotou Fisherova testu. Použít tento přesný test je sice lákavé, ale v praxi se snadno může stát, že se dostaneme do vážných technických problémů. S rostoucím n roste dramaticky i počet všech možných tabulek a pokud je velká i nejmenší ze čtyř četností testované kontingenční tabulky, stává se snadno, že problém není řešitelný v rozumném čase ani na nejmodernějších počítačích Míry vztahu dvou alternativních veličin Jako míra závislosti v kontingenční tabulce se často používají různé charakteristiky. Uvažujme tabulku 2. Jistě je zajímavé vypočíst pravděpodobnost onemocnění u skupiny exponovaných a a+b, ale i u neexponovaných. Relativním rizikem RR pak nazýváme podíl těchto pravděpodobností: c c+d RR = a a+b c c+d = a(c + d) c(a + b) Pokud platí model nezávislosti, je je možno ukázat, že je RR = 1. Často bývá používána i další charakteristika, která je nazývaná křížový poměr (anglicky odds ratio). Někdy je používán i název podíl šancí nebo sázkový poměr. Tato charakteristika je obvykle používána v anglosaských pracích. Není založena na pojmu pravděpodobností, ale na pojmu šance na onemocnění. Křížový pomět OR je OR = a b c d = ad bc Křížový poměr, podobně jako relativní riziko, je roven jedné pokud jsou sledované veličiny nezávislé, jinak se ale hodnoty těchto měr liší. Obě tyto míry jsou založeny na multiplikativním principu - ptáme se kolikrát je větší pravděpodobnost onemocnění (či poměr zdravý/nemocný) u exponovaných než u kontrol (neexponovaných). V praxi se ale někdy používá i aditivní princip - sledujeme o kolik se změní pravděpodobnost onemocnění působením uvažované expozice. Proto bývá jako míra používáno například i atributivní riziko (anglicky atributable risk), které je definováno jako rozdíl pravděpodobnosti onemocnění ve skupině exponovaných a ve skupině neexponovaných. Výběrová varianta atributivního rizika je tedy: AR = a a + b c c + d Někdy bývá používáno i v procentech vyjádřené relativní atributivní riziko (atributable fraction) AF = a a+b c c+d a a+b 100% Další podobné varianty těchto koeficientů jsou populační atributivní riziko: 19

20 AR P = a + c n c c + d a populační relativní atributivní riziko AF P = a+c n c c+d a+c n 100% 20.2 Hypotéza symetrie McNemar Zatím jsme se zabývali pouze hypotézou nezávislosti, ale v praxi nás často zajímají i jiné hypotézy. Chceme porovnat například efekt léčby tak, že se ptáme, zda se stav sledovaných osob změnil po uplynutí určité doby. Vlastně chceme provést obdobu párového testu, který jsme si již popisovali pro spojité veličiny. Představme si, že nás zajímá, zda u dětí jednoho vybraného okresu v studii novorozenců závisí výskyt infektů horních cest dýchacích na jejich věku. Výskyt tohoto onemocnění byl zjišťován jednak v 6.měsíci, ale i v 3.roku věku dítěte. Příslušné pozorované hodnoty jsou zobrazeny v tabulce 4: 3.rok věku Ano Ne celkem 6.měsíc věku Ano Ne celkem Tabulka 4: Infekty horních cest dýchacích Použít χ 2 -test nezávislosti je v tomto případě chybné a zcela zavádějící. Hypotéza nezávislosti by znamenala že nemocnost v 3.roce nezávisí na nemocnosti v prvých šesti měsících. Jinými slovy pravděpodobnost onemocnění v 3.roce by byla stejná pro ty, co v prvých 6. měsících onemocněly, ale i pro ty co byly zdravé. Jednotlivé děti ale mají zřejmě různý sklon k onemocnění. U těch které byly v 6. měsíci zdravé je větší pravděpodobnost, že budou zdravější i v 3. roce věku než ty děti, které byly nemocné v 6. měsíci věku. Nás ale zajímá, zda je stejná pravděpodobnost toho, že dítě má sledovanou diagnózu v 6.měsíci a nemá v třetím roce, je stejná jako pravděpodobnost že dítě nemá tuto diagnózus v 6.měsíci a má v třetím roce (porovnáváme tedy políčka b a c kontingenční tabulky). Chceme říci, jestli pravděpodobnost výskytu diagnózy závisí na věku dítěte, pak by se totiž od sebe lišily očekávané četnosti b a c (jejich rozdíl ukazuje na vytrácení starých nebo objevování nových výskytů sledované diagnózy). Hypotéza vlastně ověřuje zda je tabulka symetrická podle hlavní úhlopříčky (platí-li, že π 12 = π 21 ). Takováto hypotéza je zřejmě zcela odlišná od hypotézy nezávislosti, obě hypotézy jsou splněny současně pouze pro tabulku v které jsou všechny dílčí pravděpodobnosti stejné (π 11 = π 12 = π 21 = π 22 ). Všimněme si, že při hypotéze symetrie nás vlastně nezajímají hodnoty π 11 ani π 22 - zajímají nás pouze ty případy, ve kterých došlo ke změně jak v jednom, tak i v druhém smyslu. K testu symetrie používáme takzvaný McNnemarů test symetrie: M = kde M má χ 2 rozložení s jedním stupněm volnosti. V našem příkladu je testovací statistika: M = ( ) (b c)2 b + c = ( 555)2 772 = 398, 996 Kritická hodnota rozložení χ 2 1(5%) = 3, 84 (dokonce i χ 2 1(0, 5%) = 7, 88). Je tedy nutno považovat test symetrie za statisticky významný. 21 Typy studií - způsoby konstrukce kontingenčních tabulek Stejně jako při analýze spojitých veličin je i pro kvalitativní veličiny podstatné které z nich jsou náhodné a které ne. To samozřejmě závisí na způsobu získávání pozorovaných hodnot. Kontingenční tabulky, tak jak jsme o nich doposud mluvili, vznikly jako obraz reprezentativního vzorku sledované populace. Všichni jedinci použitého výběru jsou rozděleni podle hodnot sledovaných veličin do jednotlivých polí tabulky. Pokud je ale výběr proveden jiným způsobem, musí tuto skutečnost uvažovat i použitý model. To je také důvod proč jsou studie analyzované pomocí kontingenčních tabulek děleny do tří základních skupin: 20

Biostatistika a matematické metody epidemiologie- stručné studijní texty

Biostatistika a matematické metody epidemiologie- stručné studijní texty Biostatistika a matematické metody epidemiologie- stručné studijní texty Bohumír Procházka, SZÚ Praha 1 Co můžeme sledovat Pro charakteristiku nebo vlastnost, kterou chceme sledovat zvolíme termín jev.

Více

STATISTICKÉ ODHADY Odhady populačních charakteristik

STATISTICKÉ ODHADY Odhady populačních charakteristik STATISTICKÉ ODHADY Odhady populačních charakteristik Jak stanovit charakteristiky rozložení sledované veličiny v základní populaci? Populaci většinou nemáme celou k dispozici, musíme se spokojit jen s

Více

676 + 4 + 100 + 196 + 0 + 484 + 196 + 324 + 64 + 324 = = 2368

676 + 4 + 100 + 196 + 0 + 484 + 196 + 324 + 64 + 324 = = 2368 Příklad 1 Je třeba prověřit, zda lze na 5% hladině významnosti pokládat za prokázanou hypotézu, že střední doba výroby výlisku je 30 sekund. Přitom 10 náhodně vybraných výlisků bylo vyráběno celkem 540

Více

Základy popisné statistiky

Základy popisné statistiky Základy popisné statistiky Michal Fusek Ústav matematiky FEKT VUT, fusekmi@feec.vutbr.cz 8. přednáška z ESMAT Michal Fusek (fusekmi@feec.vutbr.cz) 1 / 26 Obsah 1 Základy statistického zpracování dat 2

Více

Základy biostatistiky II. Veřejné zdravotnictví 3.LF UK - II

Základy biostatistiky II. Veřejné zdravotnictví 3.LF UK - II Základy biostatistiky II Veřejné zdravotnictví 3.LF UK - II Teoretické rozložení-matematické modely rozložení Naměřená data Výběrové rozložení Teoretické rozložení 1 e 2 x 2 Teoretické rozložení-matematické

Více

Zpracování náhodného výběru. Ing. Michal Dorda, Ph.D.

Zpracování náhodného výběru. Ing. Michal Dorda, Ph.D. Zpracování náhodného výběru popisná statistika Ing. Michal Dorda, Ph.D. Základní pojmy Úkolem statistiky je na základě vlastností výběrového souboru usuzovat o vlastnostech celé populace. Populace(základní

Více

1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.

1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004. Prostá regresní a korelační analýza 1 1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004. Problematika závislosti V podstatě lze rozlišovat mezi závislostí nepodstatnou, čili náhodnou

Více

STATISTICKÉ TESTY VÝZNAMNOSTI

STATISTICKÉ TESTY VÝZNAMNOSTI STATISTICKÉ TESTY VÝZNAMNOSTI jsou statistické postupy, pomocí nichž ověřujeme, zda mezi proměnnými existuje vztah (závislost, rozdíl). Pokud je výsledek šetření statisticky významný (signifikantní), znamená

Více

Testy dobré shody Máme dvě veličiny, u kterých bychom chtěli prokázat závislost, TESTY DOBRÉ SHODY (angl. goodness-of-fit tests)

Testy dobré shody Máme dvě veličiny, u kterých bychom chtěli prokázat závislost, TESTY DOBRÉ SHODY (angl. goodness-of-fit tests) Testy dobré shody Máme dvě veličiny, u kterých bychom chtěli prokázat závislost, např. hmotnost a pohlaví narozených dětí. Běžný statistický postup pro ověření závislosti dvou veličin je zamítnutí jejich

Více

Matematika III. 27. listopadu Vysoká škola báňská - Technická univerzita Ostrava. Matematika III

Matematika III. 27. listopadu Vysoká škola báňská - Technická univerzita Ostrava. Matematika III Vysoká škola báňská - Technická univerzita Ostrava 27. listopadu 2017 Typy statistických znaků (proměnných) Typy proměnných: Kvalitativní proměnná (kategoriální, slovní,... ) Kvantitativní proměnná (numerická,

Více

1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.

1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004. Testy hypotéz na základě více než 2 výběrů 1 1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004. Testy hypotéz na základě více než 2 výběrů Na analýzu rozptylu lze pohlížet v podstatě

Více

Normální (Gaussovo) rozdělení

Normální (Gaussovo) rozdělení Normální (Gaussovo) rozdělení Normální (Gaussovo) rozdělení popisuje vlastnosti náhodné spojité veličiny, která vzniká složením různých náhodných vlivů, které jsou navzájem nezávislé, kterých je velký

Více

STATISTICKÉ TESTY VÝZNAMNOSTI

STATISTICKÉ TESTY VÝZNAMNOSTI STATISTICKÉ TESTY VÝZNAMNOSTI jsou statistické postupy, pomocí nichž ověřujeme, zda mezi proměnnými existuje vztah (závislost, rozdíl). Pokud je výsledek šetření statisticky významný (signifikantní), znamená

Více

veličin, deskriptivní statistika Ing. Michael Rost, Ph.D.

veličin, deskriptivní statistika Ing. Michael Rost, Ph.D. Vybraná rozdělení spojitých náhodných veličin, deskriptivní statistika Ing. Michael Rost, Ph.D. Třídění Základním zpracováním dat je jejich třídění. Jde o uspořádání získaných dat, kde volba třídícího

Více

Charakteristika datového souboru

Charakteristika datového souboru Zápočtová práce z předmětu Statistika Vypracoval: 10. 11. 2014 Charakteristika datového souboru Zadání: Při kontrole dodržování hygienických norem v kuchyni se prováděl odběr vzduchu a pomocí filtru Pallflex

Více

Statistika pro geografy

Statistika pro geografy Statistika pro geografy 2. Popisná statistika Mgr. David Fiedor 23. února 2015 Osnova 1 2 3 Pojmy - Bodové rozdělení četností Absolutní četnost Absolutní četností hodnoty x j znaku x rozumíme počet statistických

Více

UNIVERZITA OBRANY Fakulta ekonomiky a managementu. Aplikace STAT1. Výsledek řešení projektu PRO HORR2011 a PRO GRAM2011 3. 11.

UNIVERZITA OBRANY Fakulta ekonomiky a managementu. Aplikace STAT1. Výsledek řešení projektu PRO HORR2011 a PRO GRAM2011 3. 11. UNIVERZITA OBRANY Fakulta ekonomiky a managementu Aplikace STAT1 Výsledek řešení projektu PRO HORR2011 a PRO GRAM2011 Jiří Neubauer, Marek Sedlačík, Oldřich Kříž 3. 11. 2012 Popis a návod k použití aplikace

Více

Úvod do analýzy rozptylu

Úvod do analýzy rozptylu Úvod do analýzy rozptylu Párovým t-testem se podařilo prokázat, že úprava režimu stravování a fyzické aktivity ve vybrané škole měla vliv na zlepšené hodnoty HDLcholesterolu u školáků. Pro otestování jsme

Více

Informační technologie a statistika 1

Informační technologie a statistika 1 Informační technologie a statistika 1 přednášející: konzul. hodiny: e-mail: Martin Schindler KAP, tel. 48 535 2836, budova G po dohodě martin.schindler@tul.cz naposledy upraveno: 21. září 2015, 1/33 Požadavek

Více

Testování statistických hypotéz

Testování statistických hypotéz Testování statistických hypotéz Na základě náhodného výběru, který je reprezentativním vzorkem základního souboru (který přesně neznáme, k němuž se ale daná statistická hypotéza váže), potřebujeme ověřit,

Více

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz Pravděpodobnost a matematická

Více

Intervalový odhad. Interval spolehlivosti = intervalový odhad nějakého parametru s danou pravděpodobností = konfidenční interval pro daný parametr

Intervalový odhad. Interval spolehlivosti = intervalový odhad nějakého parametru s danou pravděpodobností = konfidenční interval pro daný parametr StatSoft Intervalový odhad Dnes se budeme zabývat neodmyslitelnou součástí statistiky a to intervaly v nejrůznějších podobách. Toto téma je také úzce spojeno s tématem testování hypotéz, a tedy plynule

Více

12. cvičení z PST. 20. prosince 2017

12. cvičení z PST. 20. prosince 2017 1 cvičení z PST 0 prosince 017 11 test rozptylu normálního rozdělení Do laboratoře bylo odesláno n = 5 stejných vzorků krve ke stanovení obsahu alkoholu X v promilích alkoholu Výsledkem byla realizace

Více

Testování hypotéz. 1. vymezení základních pojmů 2. testování hypotéz o rozdílu průměrů 3. jednovýběrový t-test

Testování hypotéz. 1. vymezení základních pojmů 2. testování hypotéz o rozdílu průměrů 3. jednovýběrový t-test Testování hypotéz 1. vymezení základních pojmů 2. testování hypotéz o rozdílu průměrů 3. jednovýběrový t-test Testování hypotéz proces, kterým rozhodujeme, zda přijmeme nebo zamítneme nulovou hypotézu

Více

Náhodné veličiny jsou nekorelované, neexistuje mezi nimi korelační vztah. Když jsou X; Y nekorelované, nemusí být nezávislé.

Náhodné veličiny jsou nekorelované, neexistuje mezi nimi korelační vztah. Když jsou X; Y nekorelované, nemusí být nezávislé. 1. Korelační analýza V životě většinou nesledujeme pouze jeden statistický znak. Sledujeme více statistických znaků zároveň. Kromě vlastností statistických znaků nás zajímá také jejich těsnost (velikost,

Více

Jana Vránová, 3. lékařská fakulta UK

Jana Vránová, 3. lékařská fakulta UK Jana Vránová, 3. lékařská fakulta UK Vznikají při zkoumání vztahů kvalitativních resp. diskrétních znaků Jedná se o analogii s korelační analýzou spojitých znaků Přitom předpokládáme, že každý prvek populace

Více

Rozhodnutí / Skutečnost platí neplatí Nezamítáme správně chyba 2. druhu Zamítáme chyba 1. druhu správně

Rozhodnutí / Skutečnost platí neplatí Nezamítáme správně chyba 2. druhu Zamítáme chyba 1. druhu správně Testování hypotéz Nechť,, je náhodný výběr z nějakého rozdělení s neznámými parametry. Máme dvě navzájem si odporující hypotézy o parametrech daného rozdělení: Nulová hypotéza parametry (případně jediný

Více

31. 3. 2014, Brno Hanuš Vavrčík Základy statistiky ve vědě

31. 3. 2014, Brno Hanuš Vavrčík Základy statistiky ve vědě 31. 3. 2014, Brno Hanuš Vavrčík Základy statistiky ve vědě Motto Statistika nuda je, má však cenné údaje. strana 3 Statistické charakteristiky Charakteristiky polohy jsou kolem ní seskupeny ostatní hodnoty

Více

Statistické metody. Martin Schindler KAP, tel , budova G. naposledy upraveno: 9.

Statistické metody. Martin Schindler KAP, tel , budova G. naposledy upraveno: 9. Statistické metody Matematika pro přírodní vědy přednášející: konzul. hodiny: e-mail: Martin Schindler KAP, tel. 48 535 2836, budova G po dohodě martin.schindler@tul.cz naposledy upraveno: 9. ledna 2015,

Více

Mnohorozměrná statistická data

Mnohorozměrná statistická data Statistika II Katedra ekonometrie FVL UO Brno kancelář 69a, tel. 973 442029 email:jiri.neubauer@unob.cz Statistický znak, statistický soubor Jednotlivé objekty nebo subjekty, které jsou při statistickém

Více

Mnohorozměrná statistická data

Mnohorozměrná statistická data Mnohorozměrná statistická data Ekonometrie Jiří Neubauer Katedra ekonometrie FVL UO Brno kancelář 69a, tel. 973 442029 email:jiri.neubauer@unob.cz Jiří Neubauer (Katedra ekonometrie UO Brno) Mnohorozměrná

Více

4ST201 STATISTIKA CVIČENÍ Č. 7

4ST201 STATISTIKA CVIČENÍ Č. 7 4ST201 STATISTIKA CVIČENÍ Č. 7 testování hypotéz parametrické testy test hypotézy o střední hodnotě test hypotézy o relativní četnosti test o shodě středních hodnot testování hypotéz v MS Excel neparametrické

Více

MATEMATICKÁ STATISTIKA. Katedra matematiky a didaktiky matematiky Technická univerzita v Liberci

MATEMATICKÁ STATISTIKA.   Katedra matematiky a didaktiky matematiky Technická univerzita v Liberci MATEMATICKÁ STATISTIKA Dana Černá http://www.fp.tul.cz/kmd/ Katedra matematiky a didaktiky matematiky Technická univerzita v Liberci Matematická statistika Matematická statistika se zabývá matematickým

Více

Intervalové odhady. Interval spolehlivosti pro střední hodnotu v N(µ, σ 2 ) Interpretace intervalu spolehlivosti. Interval spolehlivosti ilustrace

Intervalové odhady. Interval spolehlivosti pro střední hodnotu v N(µ, σ 2 ) Interpretace intervalu spolehlivosti. Interval spolehlivosti ilustrace Intervalové odhady Interval spolehlivosti pro střední hodnotu v Nµ, σ 2 ) Situace: X 1,..., X n náhodný výběr z Nµ, σ 2 ), kde σ 2 > 0 známe měli jsme: bodové odhady odhadem charakteristiky je číslo) nevyjadřuje

Více

Jednofaktorová analýza rozptylu

Jednofaktorová analýza rozptylu I I.I Jednofaktorová analýza rozptylu Úvod Jednofaktorová analýza rozptylu (ANOVA) se využívá při porovnání několika středních hodnot. Často se využívá ve vědeckých a lékařských experimentech, při kterých

Více

Intervalové odhady. Interval spolehlivosti pro střední hodnotu v N(µ, σ 2 ) Interpretace intervalu spolehlivosti. Interval spolehlivosti ilustrace

Intervalové odhady. Interval spolehlivosti pro střední hodnotu v N(µ, σ 2 ) Interpretace intervalu spolehlivosti. Interval spolehlivosti ilustrace Intervalové odhady Interval spolehlivosti pro střední hodnotu v Nµ, σ 2 ) Situace: X 1,..., X n náhodný výběr z Nµ, σ 2 ), kde σ 2 > 0 známe měli jsme: bodové odhady odhadem charakteristiky je číslo) nevyjadřuje

Více

STATISTIKA A INFORMATIKA - bc studium OZW, 1.roč. (zkušební otázky)

STATISTIKA A INFORMATIKA - bc studium OZW, 1.roč. (zkušební otázky) STATISTIKA A INFORMATIKA - bc studium OZW, 1.roč. (zkušební otázky) 1) Význam a využití statistiky v biologických vědách a veterinárním lékařství ) Rozdělení znaků (veličin) ve statistice 3) Základní a

Více

Zápočtová práce STATISTIKA I

Zápočtová práce STATISTIKA I Zápočtová práce STATISTIKA I Obsah: - úvodní stránka - charakteristika dat (původ dat, důvod zpracování,...) - výpis naměřených hodnot (v tabulce) - zpracování dat (buď bodové nebo intervalové, podle charakteru

Více

RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr.

RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr. Analýza dat pro Neurovědy RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr. Jaro 2014 Institut biostatistiky Janoušová, a analýz Dušek: Analýza dat pro neurovědy Blok 3 Jak a kdy použít parametrické a

Více

INDUKTIVNÍ STATISTIKA

INDUKTIVNÍ STATISTIKA 10. SEMINÁŘ INDUKTIVNÍ STATISTIKA 3. HODNOCENÍ ZÁVISLOSTÍ HODNOCENÍ ZÁVISLOSTÍ KVALITATIVNÍ VELIČINY - Vychází se z kombinační (kontingenční) tabulky, která je výsledkem třídění druhého stupně KVANTITATIVNÍ

Více

Cvičení ze statistiky - 9. Filip Děchtěrenko

Cvičení ze statistiky - 9. Filip Děchtěrenko Cvičení ze statistiky - 9 Filip Děchtěrenko Minule bylo.. Dobrali jsme normální rozdělení Tyhle termíny by měly být známé: Inferenční statistika Konfidenční intervaly Z-test Postup při testování hypotéz

Více

Číselné charakteristiky a jejich výpočet

Číselné charakteristiky a jejich výpočet Katedra ekonometrie, FVL, UO Brno kancelář 69a, tel. 973 442029 email:jiri.neubauer@unob.cz charakteristiky polohy charakteristiky variability charakteristiky koncetrace charakteristiky polohy charakteristiky

Více

letní semestr Katedra pravděpodobnosti a matematické statistiky Matematicko-fyzikální fakulta Univerzity Karlovy Matematická statistika vektory

letní semestr Katedra pravděpodobnosti a matematické statistiky Matematicko-fyzikální fakulta Univerzity Karlovy Matematická statistika vektory Šárka Hudecová Katedra pravděpodobnosti a matematické statistiky Matematicko-fyzikální fakulta Univerzity Karlovy letní semestr 202 Založeno na materiálech doc. Michala Kulicha Náhodný vektor často potřebujeme

Více

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz Pravděpodobnost a matematická statistika 010 1.týden (0.09.-4.09. ) Data, typy dat, variabilita, frekvenční analýza

Více

Náhodný vektor. Náhodný vektor. Hustota náhodného vektoru. Hustota náhodného vektoru. Náhodný vektor je dvojice náhodných veličin (X, Y ) T = ( X

Náhodný vektor. Náhodný vektor. Hustota náhodného vektoru. Hustota náhodného vektoru. Náhodný vektor je dvojice náhodných veličin (X, Y ) T = ( X Náhodný vektor Náhodný vektor zatím jsme sledovali jednu náhodnou veličinu, její rozdělení a charakteristiky často potřebujeme vyšetřovat vzájemný vztah několika náhodných veličin musíme sledovat jejich

Více

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz Pravděpodobnost a matematická statistika 2010 1.týden (20.09.-24.09. ) Data, typy dat, variabilita, frekvenční analýza

Více

7. Rozdělení pravděpodobnosti ve statistice

7. Rozdělení pravděpodobnosti ve statistice 7. Rozdělení pravděpodobnosti ve statistice Statistika nuda je, má však cenné údaje, neklesejte na mysli, ona nám to vyčíslí Jednou z úloh statistiky je odhad (výpočet) hodnot statistického znaku x i,

Více

MÍRY ZÁVISLOSTI (KORELACE A REGRESE)

MÍRY ZÁVISLOSTI (KORELACE A REGRESE) zhanel@fsps.muni.cz MÍRY ZÁVISLOSTI (KORELACE A REGRESE) 2.5 MÍRY ZÁVISLOSTI 2.5.1 ZÁVISLOST PEVNÁ, VOLNÁ, STATISTICKÁ A KORELAČNÍ Jednorozměrné soubory - charakterizovány jednotlivými statistickými znaky

Více

Základy biostatistiky

Základy biostatistiky Základy biostatistiky Veřejné zdravotnictví 3.LF UK Viktor Hynčica Úvod se statistikou se setkáváme denně ankety proč se statistika začala používat ve zdravotnictví skupinový přístup k léčení celé populace

Více

ANALÝZA DAT V R 3. POPISNÉ STATISTIKY, NÁHODNÁ VELIČINA. Mgr. Markéta Pavlíková Katedra pravděpodobnosti a matematické statistiky MFF UK

ANALÝZA DAT V R 3. POPISNÉ STATISTIKY, NÁHODNÁ VELIČINA. Mgr. Markéta Pavlíková Katedra pravděpodobnosti a matematické statistiky MFF UK ANALÝZA DAT V R 3. POPISNÉ STATISTIKY, NÁHODNÁ VELIČINA Mgr. Markéta Pavlíková Katedra pravděpodobnosti a matematické statistiky MFF UK www.biostatisticka.cz POPISNÉ STATISTIKY - OPAKOVÁNÍ jedna kvalitativní

Více

15. T e s t o v á n í h y p o t é z

15. T e s t o v á n í h y p o t é z 15. T e s t o v á n í h y p o t é z Na základě hodnot náhodného výběru činíme rozhodnutí o platnosti hypotézy o hodnotách parametrů rozdělení nebo o jeho vlastnostech. Rozeznáváme dva základní typy testů:

Více

Analýza dat na PC I.

Analýza dat na PC I. CENTRUM BIOSTATISTIKY A ANALÝZ Lékařská a Přírodovědecká fakulta, Masarykova univerzita Analýza dat na PC I. Popisná analýza v programu Statistica IBA výuka Základní popisná statistika Popisná statistika

Více

STATISTICKÉ CHARAKTERISTIKY

STATISTICKÉ CHARAKTERISTIKY STATISTICKÉ CHARAKTERISTIKY 1 Vytvořeno s podporou projektu Průřezová inovace studijních programů Lesnické a dřevařské fakulty MENDELU v Brně (LDF) s ohledem na discipliny společného základu (reg. č. CZ.1.07/2.2.00/28.0021)

Více

JEDNOVÝBĚROVÉ TESTY. Komentované řešení pomocí programu Statistica

JEDNOVÝBĚROVÉ TESTY. Komentované řešení pomocí programu Statistica JEDNOVÝBĚROVÉ TESTY Komentované řešení pomocí programu Statistica Vstupní data Data umístěná v excelovském souboru překopírujeme do tabulky ve Statistice a pojmenujeme proměnné, viz prezentace k tématu

Více

Testování hypotéz o parametrech regresního modelu

Testování hypotéz o parametrech regresního modelu Testování hypotéz o parametrech regresního modelu Ekonometrie Jiří Neubauer Katedra kvantitativních metod FVL UO Brno kancelář 69a, tel. 973 442029 email:jiri.neubauer@unob.cz Jiří Neubauer (Katedra UO

Více

Regresní analýza 1. Regresní analýza

Regresní analýza 1. Regresní analýza Regresní analýza 1 1 Regresní funkce Regresní analýza Důležitou statistickou úlohou je hledání a zkoumání závislostí proměnných, jejichž hodnoty získáme při realizaci experimentů Vzhledem k jejich náhodnému

Více

Normální (Gaussovo) rozdělení

Normální (Gaussovo) rozdělení Normální (Gaussovo) rozdělení f x = 1 2 exp x 2 2 2 f(x) je funkce hustoty pravděpodobnosti, symetrická vůči poloze maxima x = μ μ střední hodnota σ směrodatná odchylka (tzv. pološířka křivky mezi inflexními

Více

Určujeme neznámé hodnoty parametru základního souboru. Pomocí výběrové charakteristiky vypočtené z náhodného výběru.

Určujeme neznámé hodnoty parametru základního souboru. Pomocí výběrové charakteristiky vypočtené z náhodného výběru. 1 Statistické odhady Určujeme neznámé hodnoty parametru základního souboru. Pomocí výběrové charakteristiky vypočtené z náhodného výběru. Odhad lze provést jako: Bodový odhad o Jedna číselná hodnota Intervalový

Více

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz Pravděpodobnost a matematická statistika 2010 1.týden (20.09.-24.09. ) Data, typy dat, variabilita, frekvenční analýza

Více

Jevy a náhodná veličina

Jevy a náhodná veličina Jevy a náhodná veličina Výsledky některých jevů jsou vyjádřeny číselně -na hrací kostce padne číslo 1, 4, 6.., jiným jevům můžeme čísla přiřadit (stupeň školního vzdělání: ZŠ, SŠ, VŠ) Data jsme rozdělili

Více

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz Pravděpodobnost a matematická statistika 2010 1.týden (20.09.-24.09. ) Data, typy dat, variabilita, frekvenční analýza

Více

Diskrétní náhodná veličina

Diskrétní náhodná veličina Lekce Diskrétní náhodná veličina Výsledek náhodného pokusu může být vyjádřen slovně to vede k zavedení pojmu náhodného jevu Výsledek náhodného pokusu můžeme někdy vyjádřit i číselně, což vede k pojmu náhodné

Více

letní semestr 2012 Katedra pravděpodobnosti a matematické statistiky Matematicko-fyzikální fakulta Univerzity Karlovy Matematická statistika

letní semestr 2012 Katedra pravděpodobnosti a matematické statistiky Matematicko-fyzikální fakulta Univerzity Karlovy Matematická statistika Šárka Hudecová Katedra pravděpodobnosti a matematické statistiky Matematicko-fyzikální fakulta Univerzity Karlovy letní semestr 2012 Opakování t- vs. neparametrické Wilcoxonův jednovýběrový test Opakování

Více

Porovnání dvou výběrů

Porovnání dvou výběrů Porovnání dvou výběrů Menu: QCExpert Porovnání dvou výběrů Tento modul je určen pro podrobnou analýzu dvou datových souborů (výběrů). Modul poskytuje dva postupy analýzy: porovnání dvou nezávislých výběrů

Více

Testování hypotéz o parametrech regresního modelu

Testování hypotéz o parametrech regresního modelu Statistika II Katedra ekonometrie FVL UO Brno kancelář 69a, tel. 973 442029 email:jiri.neubauer@unob.cz Lineární regresní model kde Y = Xβ + e, y 1 e 1 β y 2 Y =., e = e 2 x 11 x 1 1k., X =....... β 2,

Více

Náhodné chyby přímých měření

Náhodné chyby přímých měření Náhodné chyby přímých měření Hodnoty náhodných chyb se nedají stanovit předem, ale na základě počtu pravděpodobnosti lze zjistit, která z možných naměřených hodnot je více a která je méně pravděpodobná.

Více

KGG/STG Statistika pro geografy

KGG/STG Statistika pro geografy KGG/STG Statistika pro geografy 9. Korelační analýza Mgr. David Fiedor 20. dubna 2015 Analýza závislostí v řadě geografických disciplín studujeme jevy, u kterých vyšetřujeme nikoliv pouze jednu vlastnost

Více

Pearsonův korelační koeficient

Pearsonův korelační koeficient I I.I Pearsonův korelační koeficient Úvod Předpokládejme, že náhodně vybereme n objektů (nebo osob) ze zkoumané populace. Často se stává, že na každém z objektů měříme ne pouze jednu, ale několik kvantitativních

Více

2 Zpracování naměřených dat. 2.1 Gaussův zákon chyb. 2.2 Náhodná veličina a její rozdělení

2 Zpracování naměřených dat. 2.1 Gaussův zákon chyb. 2.2 Náhodná veličina a její rozdělení 2 Zpracování naměřených dat Důležitou součástí každé experimentální práce je statistické zpracování naměřených dat. V této krátké kapitole se budeme věnovat určení intervalů spolehlivosti získaných výsledků

Více

Testování statistických hypotéz

Testování statistických hypotéz Testování statistických hypotéz 1 Testování statistických hypotéz 1 Statistická hypotéza a její test V praxi jsme nuceni rozhodnout, zda nějaké tvrzeni o parametrech náhodných veličin nebo o veličině samotné

Více

ZÁKLADNÍ STATISTICKÉ CHARAKTERISTIKY

ZÁKLADNÍ STATISTICKÉ CHARAKTERISTIKY zhanel@fsps.muni.cz ZÁKLADNÍ STATISTICKÉ CHARAKTERISTIKY METODY DESKRIPTIVNÍ STATISTIKY 1. URČENÍ TYPU ŠKÁLY (nominální, ordinální, metrické) a) nominální + ordinální neparametrické stat. metody b) metrické

Více

Ing. Michael Rost, Ph.D.

Ing. Michael Rost, Ph.D. Úvod do testování hypotéz, jednovýběrový t-test Ing. Michael Rost, Ph.D. Testovaná hypotéza Pokud nás zajímá zda platí, či neplatí tvrzení o určitém parametru, např. o parametru Θ, pak takovéto tvrzení

Více

10. cvičení z PST. 5. prosince T = (n 1) S2 X. (n 1) s2 x σ 2 q χ 2 (n 1) (1 α 2 ). q χ 2 (n 1) 2. 2 x. (n 1) s. x = 1 6. x i = 457.

10. cvičení z PST. 5. prosince T = (n 1) S2 X. (n 1) s2 x σ 2 q χ 2 (n 1) (1 α 2 ). q χ 2 (n 1) 2. 2 x. (n 1) s. x = 1 6. x i = 457. 0 cvičení z PST 5 prosince 208 0 (intervalový odhad pro rozptyl) Soubor (70, 84, 89, 70, 74, 70) je náhodným výběrem z normálního rozdělení N(µ, σ 2 ) Určete oboustranný symetrický 95% interval spolehlivosti

Více

23. Matematická statistika

23. Matematická statistika Projekt: Inovace oboru Mechatronik pro Zlínský kraj Registrační číslo: CZ.1.07/1.1.08/03.0009 23. Matematická statistika Statistika je věda, která se snaží zkoumat reálná data a s pomocí teorii pravděpodobnosti

Více

Základy popisné statistiky. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek

Základy popisné statistiky. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Základy popisné statistiky Anotace Realitu můžeme popisovat různými typy dat, každý z nich se specifickými vlastnostmi, výhodami, nevýhodami a vlastní sadou využitelných statistických metod -od binárních

Více

You created this PDF from an application that is not licensed to print to novapdf printer (http://www.novapdf.com)

You created this PDF from an application that is not licensed to print to novapdf printer (http://www.novapdf.com) Závislost náhodných veličin Úvod Předchozí přednášky: - statistické charakteristiky jednoho výběrového nebo základního souboru - vztahy mezi výběrovým a základním souborem - vztahy statistických charakteristik

Více

Lineární regrese. Komentované řešení pomocí MS Excel

Lineární regrese. Komentované řešení pomocí MS Excel Lineární regrese Komentované řešení pomocí MS Excel Vstupní data Tabulka se vstupními daty je umístěna v oblasti A1:B11 (viz. obrázek) na listu cela data Postup Základní výpočty - regrese Výpočet základních

Více

Praktická statistika. Petr Ponížil Eva Kutálková

Praktická statistika. Petr Ponížil Eva Kutálková Praktická statistika Petr Ponížil Eva Kutálková Zápis výsledků měření Předpokládejme, že známe hodnotu napětí U = 238,9 V i její chybu 3,3 V. Hodnotu veličiny zapíšeme na tolik míst, aby až poslední bylo

Více

Náhodný vektor. Náhodný vektor. Hustota náhodného vektoru. Hustota náhodného vektoru. Náhodný vektor je dvojice náhodných veličin (X, Y ) T = ( X

Náhodný vektor. Náhodný vektor. Hustota náhodného vektoru. Hustota náhodného vektoru. Náhodný vektor je dvojice náhodných veličin (X, Y ) T = ( X Náhodný vektor Náhodný vektor zatím jsme sledovali jednu náhodnou veličinu, její rozdělení a charakteristik často potřebujeme všetřovat vzájemný vztah několika náhodných veličin musíme sledovat jejich

Více

VÝBĚR A JEHO REPREZENTATIVNOST

VÝBĚR A JEHO REPREZENTATIVNOST VÝBĚR A JEHO REPREZENTATIVNOST Induktivní, analytická statistika se snaží odhadnout charakteristiky populace pomocí malého vzorku, který se nazývá VÝBĚR neboli VÝBĚROVÝ SOUBOR. REPREZENTATIVNOST VÝBĚRU:

Více

Jednostranné intervaly spolehlivosti

Jednostranné intervaly spolehlivosti Jednostranné intervaly spolehlivosti hledáme jen jednu z obou mezí Princip: dle zadání úlohy hledáme jen dolní či jen horní mez podle oboustranného vzorce s tou změnou, že výraz 1-α/2 ve vzorci nahradíme

Více

RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr.

RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr. Analýza dat pro Neurovědy RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr. Jaro 2014 Institut biostatistiky Janoušová, a analýz Dušek: Analýza dat pro neurovědy Blok 4 Jak a kdy použít parametrické a

Více

Mgr. Karla Hrbáčková, Ph.D. Základy kvantitativního výzkumu

Mgr. Karla Hrbáčková, Ph.D. Základy kvantitativního výzkumu Mgr. Karla Hrbáčková, Ph.D. Základy kvantitativního výzkumu K čemu slouží statistika Popisuje velké soubory dat pomocí charakteristických čísel (popisná statistika). Hledá skryté zákonitosti v souborech

Více

Náhodné veličiny, náhodné chyby

Náhodné veličiny, náhodné chyby Náhodné veličiny, náhodné chyby Máme náhodnou veličinu X, jejíž vlastnosti zkoumáme. Pokud známe její rozložení (např. z nějaké dřívější studie) nebo alespoň předpokládáme znalost rozložení, můžeme ji

Více

Korelace. Komentované řešení pomocí MS Excel

Korelace. Komentované řešení pomocí MS Excel Korelace Komentované řešení pomocí MS Excel Vstupní data Tabulka se vstupními daty je umístěna v oblasti A2:B84 (viz. obrázek) Prvotní představu o tvaru a síle závislosti docházky a počtu bodů nám poskytne

Více

PRAVDĚPODOBNOST A STATISTIKA

PRAVDĚPODOBNOST A STATISTIKA PRAVDĚPODOBNOST A STATISTIKA Definice lineárního normálního regresního modelu Lineární normální regresní model Y β ε Matice n,k je matice realizací. Předpoklad: n > k, h() k - tj. matice je plné hodnosti

Více

Testy statistických hypotéz

Testy statistických hypotéz Testy statistických hypotéz Statistická hypotéza je jakýkoliv předpoklad o rozdělení pravděpodobnosti jedné nebo několika náhodných veličin. Na základě náhodného výběru, který je reprezentativním vzorkem

Více

Statistika, Biostatistika pro kombinované studium Letní semestr 2011/2012. Tutoriál č. 4: Exploratorní analýza. Jan Kracík

Statistika, Biostatistika pro kombinované studium Letní semestr 2011/2012. Tutoriál č. 4: Exploratorní analýza. Jan Kracík Statistika, Biostatistika pro kombinované studium Letní semestr 2011/2012 Tutoriál č. 4: Exploratorní analýza Jan Kracík jan.kracik@vsb.cz Statistika věda o získávání znalostí z empirických dat empirická

Více

Jana Vránová, 3.lékařská fakulta UK, Praha. Hypotézy o populacích

Jana Vránová, 3.lékařská fakulta UK, Praha. Hypotézy o populacích Jana Vránová, 3.lékařská fakulta UK, Praha Hypotézy o populacích Příklad IQ test: Předpokládejme, že z nějakého důvodu ministerstvo školství věří, že studenti absolventi středních škol v Hradci Králové

Více

15. T e s t o v á n í h y p o t é z

15. T e s t o v á n í h y p o t é z 15. T e s t o v á n í h y p o t é z Na základě hodnot náhodného výběru činíme rozhodnutí o platnosti hypotézy o hodnotách parametrů rozdělení nebo o jeho vlastnostech. Rozeznáváme dva základní typy testů:

Více

Kategorická data METODOLOGICKÝ PROSEMINÁŘ II TÝDEN 7 4. DUBNA dubna 2018 Lukáš Hájek, Karel Höfer Metodologický proseminář II 1

Kategorická data METODOLOGICKÝ PROSEMINÁŘ II TÝDEN 7 4. DUBNA dubna 2018 Lukáš Hájek, Karel Höfer Metodologický proseminář II 1 Kategorická data METODOLOGICKÝ PROSEMINÁŘ II TÝDEN 7 4. DUBNA 2018 4. dubna 2018 Lukáš Hájek, Karel Höfer Metodologický proseminář II 1 Typy proměnných nominální (nominal) o dvou hodnotách lze říci pouze

Více

2. Základní typy dat Spojitá a kategoriální data Základní popisné statistiky Frekvenční tabulky Grafický popis dat

2. Základní typy dat Spojitá a kategoriální data Základní popisné statistiky Frekvenční tabulky Grafický popis dat 2. Základní typy dat Spojitá a kategoriální data Základní popisné statistiky Frekvenční tabulky Grafický popis dat Anotace Realitu můžeme popisovat různými typy dat, každý z nich se specifickými vlastnostmi,

Více

Náhodné (statistické) chyby přímých měření

Náhodné (statistické) chyby přímých měření Náhodné (statistické) chyby přímých měření Hodnoty náhodných chyb se nedají stanovit předem, ale na základě počtu pravděpodobnosti lze zjistit, která z možných naměřených hodnot je více a která je méně

Více

KORELACE. Komentované řešení pomocí programu Statistica

KORELACE. Komentované řešení pomocí programu Statistica KORELACE Komentované řešení pomocí programu Statistica Vstupní data I Data umístěná v excelovském souboru překopírujeme do tabulky ve Statistice a pojmenujeme proměnné, viz prezentace k tématu Popisná

Více

Kontingenční tabulky, korelační koeficienty

Kontingenční tabulky, korelační koeficienty Statistika II Katedra ekonometrie FVL UO Brno kancelář 69a, tel 973 442029 email:jirineubauer@unobcz Budeme předpokládat, že X a Y jsou kvalitativní náhodné veličiny, obor hodnot X obsahuje r hodnot (kategorií,

Více

Cvičení ze statistiky - 8. Filip Děchtěrenko

Cvičení ze statistiky - 8. Filip Děchtěrenko Cvičení ze statistiky - 8 Filip Děchtěrenko Minule bylo.. Dobrali jsme normální rozdělení Tyhle termíny by měly být známé: Centrální limitní věta Laplaceho věta (+ korekce na spojitost) Konfidenční intervaly

Více