Biostatistika a matematické metody epidemiologie - stručné studijní texty

Rozměr: px
Začít zobrazení ze stránky:

Download "Biostatistika a matematické metody epidemiologie - stručné studijní texty"

Transkript

1 Biostatistika a matematické metody epidemiologie - stručné studijní texty Bohumír Procházka, SZÚ Praha 1 Co můžeme sledovat Pro charakteristiku nebo vlastnost, kterou chceme sledovat zvolíme termín jev. Pod tímto pojmem si můžeme představit výšku postavy, její hmotnost, množství cholesterolu v krvi, vzdělání, skutečnost zda sledovaná osoba je nemocná, rodinný stav či krevní skupina a podobně. Abychom s těmito jevy mohli pracovat, potřebujeme je převést do nějaké formální podoby, tj. vyjádřit je číselnou hodnotou nebo nějakou skupinou kódů. Tento číselný obraz skutečnosti nazveme znakem. Formálně můžeme sledované znaky rozdělit do několika skupin: Kvalitativní znaky jsou charakteristiky sledovaných objektů, jejichž hodnoty patří do omezené skupiny hodnot. Například pohlaví nebo vzdělání. Dále je dělíme na: Nominální znaky jsou takové, které není možno navzájem uspořádat. Ordinální znaky jsou naopak ty, které je možno navzájem uspořádat, ale není známa míra toho, jak jsou od sebe jednotlivé kategorie vzdáleny. Alternativní (binární) znaky jsou ty, které mohou nabývat pouze dvou různých hodnot (např Ano/Ne). Kvantitativní znaky, jsou ty, jejichž hodnoty jsou nejen uspořádány, ale vyjadřují dokonce i určitou míru (Např. může být věk, různé míry, váhy, koncentrace, počty zárodků či případů). Můžeme je rozdělit: Diskrétní znaky jsou ty, které nabývají pouze celočíselných hodnot (počty). Spojité znaky jsou ty, u kterých předpokládáme, že je možno je měřit s libovolnou přesností (různé míry, váhy,...). Všechny charakteristiky však jsou zkresleny jistou mírou náhody, a proto je nazýváme náhodnými veličinami. 2 Populace a výběr Pokud používáme deskriptivní statistiku, týkají se naše tvrzení pouze souboru na kterém byla prováděna měření, pozorování a pod.. V tomto případě je výběr totožný s základní populací. Získané výsledky popisují pouze zkoumaný soubor a nesnaží se o žádné zobecnění na větší, nebo jinou skupinu objektů. Jiná situace nastává, pokud je požadováno použití induktivní statistiky. Ta se snaží o zobecnění - extrapolaci získaných výsledků na širší skupinu objektů. Celá induktivní statistika je založena na dvou pojmech: Základní populace a její charakteristiky. Jedná se často o velmi rozsáhlý soubor jehož vlastnosti nás zajímají. Můžeme je definovat dvěma způsoby: - První je výčet prvků souboru (například soubor všech voličů, soubor evidovaných diabetiků). - Druhou možností je popis souboru pomocí vlastností jeho členů, bez omezení na konkrétní skupinu osob. Například do souboru budou patřit osoby v produktivním věku léčené na diabetes. V tomto případě neomezujeme soubor na žádnou konkrétní populaci. Z pohledu induktivní statistiky nás zajímá jaké hodnoty sledované veličiny mají jedinci z celé populace. Mluvíme pak o rozložení sledované veličiny. Rozložením sledované veličiny v základní populaci rozumíme souhrn všech hodnot této veličiny základní populace. Tedy seznam všech možných hodnot této veličiny společně s četnostmi těchto hodnot v základní populaci. 1

2 Výběr a výběrové charakteristiky. Výběr je skupina objektů, na kterých provádíme šetření. To, jak výběr odpovídá základní populaci, určuje i kvalitu výsledku - přesněji řečeno kvalitu zobecnění získaných závěrů na základní populaci. Popisné charakteristiky výběru pak slouží jako odhady charakteristik celé populace. Výběrové charakteristiky jsou tedy odhadem populačních charakteristik. 3 Náhoda - pravděpodobnost - rozložení pravděpodobnosti Je zřejmé, že z formálního hlediska jsou nejjednodušší alternativní znaky. Často informují o přítomnosti nějaké vlastnosti, indikují nemoc či expozici. 3.1 Alternativní veličiny Při studiu alternativní veličiny je přirozené zajímat se o to, jakou hodnotu můžeme očekávat. Uvažujme alternativní (binární) veličinu, která nabývá dvou hodnot (např. ano a ne). Můžeme třeba položit otázku: Má sledovaná osoba modré oči?. Označme tuto veličinu symbolem O. Na první pohled je zřejmé, že nelze bez ověření říci, zda veličina O nabývá hodnoty Ano či Ne. Rozložení v základní populaci je popsáno dvěma číselnými hodnotami - počtem modrookých osob a počtem všech ostatních v celé populaci. Podobně je popsáno i rozložení výběru, které nám slouží jako odhad neznámého rozložení celé populace. 3.2 Pravděpodobnost - charakteristika alternativní veličiny v základní populaci K tomu, aby bylo možno s náhodou nějak pracovat, je ji kvantifikovat. Jako míra očekávání zvolené odpovědi (např. Ano byl zaveden pojem pravděpodobnost. Ta nabývá hodnoty mezi 0 a 1 a pro její označení se používá písmeno P a je definována jako podíl počtu všech osob s modrými oči v celé základní populaci k jejímu rozsahu. Pravděpodobnost, že například veličina O nabývá hodnoty Ano, značíme: P (O = Ano) Teoreticky mohou nastat dva extrémní případy P (O = Ano) = 1 a P (O = Ano) = 0. Má-li výrok (O = Ano - sledovaná osoba má modré oči) pravděpodobnost rovnu 1 (resp. 0), mluvíme o jistém výroku (resp. nemožném). Někdy mluvíme i o takzvané podmíněné pravděpodobnosti, t.j. o pravděpodobnosti sledovaného jevu pokud nabývá jiná doprovodná veličina konkrétní požadované hodnoty. Označme ještě další veličinu, například V - sledovaná osoba má černé vlasy. Pravděpodobnost, že sledovaná černovlasá osoba má modré oči značíme P (O = Ano V = Ano). Často se stává, že sledujeme současně různé jevy a ptáme se na jejich vztah. Řekneme, že dva jevy V a O jsou nezávislé, pokud pravděpodobnost společného výskytu modrých očí a černých vlasů P (O = Ano a současně V = Ano ) je rovna součinu: P (O = Ano&V = Ano) = P (O = Ano) P (V = Ano) 3.3 Relativní četnost - charakteristika alternativní veličiny ve výběru Neznámou hodnotu pravděpodobnosti sledovaného jevu v základní populaci potřebujeme odhadnout. n 1 počet odpovědí Ano ve výběru na otázku O. n 2 počet odpovědí Ne ve výběru na otázku O. n. celkový počet odpovědí (n. = n 1 + n 2 ). počet osob ve výběru s modrýma očima počet všech osob ve výběru Relativní četností nazveme p 1 = n1 n. = Pozorovaným hodnotám n i (i = 1, 2) obvykle říkáme pozorovaná četnost nebo absolutní četnost. V praktických aplikacích je relativní četnost často vyjadřována v procentech, promilích, nebo v počtech pozorovaných jedinců na Nominální veličiny Podobně, jako u alternativních veličin, je možno mluvit o pojmu pravděpodobnosti i u nominálních veličin. Pro ilustraci můžeme uvažovat rodinný stav matek. Řekněme, že tato veličina může nabývat hodnot Svobodná, Vdaná, Rozvedená a Vdova s pravděpodobnostmi π 1, π 2, π 3 a π 4, kde například π 1 = počet svobodných matek v základní populaci počet všech matek v základní populaci Jednotlivé kategorie označme čísly 1, 2, 3 a 4. Pak můžeme mluvit o četnostech n 1, relativních četnostech n p i = i n 1+n 2+n 3+n 4, i=1,...,4. Je zřejmé, že jejich součet je roven jedné. 2

3 3.5 Ordinální veličiny Stejně je možno uvažovat i o ordinálních veličinách. Jejich kódování je však nutno provést tak, aby respektovalo přirozené uspořádání veličiny. Například pokud pracujeme s veličinou D = dosažené vzdělání, je přirozené uspořádat jednotlivé hodnoty takto: základní, odborné, středoškolské a vysokoškolské. To, že sledovaná veličina je uspořádatelná, je užitečné využít. Poté co jednotlivé odpovědi vzestupně okódujeme (1,...,4), je možno zavést pro jednotlivé kódy i pojem kumulativní pravděpodobnost. Kumulativní pravděpodobnost je pak pravděpodobnost toho, že libovolná osoba (ze základní populace) má nejvýše právě uvažované vzdělání. 3.6 Kvantitativní veličiny Věnujme se nyní skupině kvantitativních veličin. Tyto veličiny mohou obecně nabývat velkého množství různých hodnot. Charakterizovat rozložení výběru pomocí relativních četností pro jednotlivé pozorované hodnoty je většinou krajně nepřehledné, protože možných hodnot je mnoho. Rozložení spojitých veličin se snažíme popsat pomocí pouze několika číselných parametrů a matematického modelu, který dostatečně dobře popíše celé rozložení. Základním pojmem charakterizujícím populaci je distribuční funkce, často značená F (x). Je to kumulativní pravděpodobnost, že sledovaná veličina nabývá hodnotu menší nebo rovnu x F (x) = P (D x) Tato funkce je rostoucí od nuly k jedničce. Byly vytvořeny různé modely této funkce, nazývané teoretickým rozložením pravděpodobnosti. Výběrovým protějškem distribiční funkce je empirická distribuční funkce F n (x): F n (x) = n x n kde n je počet pozorování a n x je počet pozorování menších nebo rovných x 3.7 Spojité veličiny Často používanou výběrovou charakteristikou je histogram. Je to seznam všech pozorovaných hodnot sledované veličiny a počtů, kolikrát byly tyto hodnoty pozorovány (tedy seznam dvojic: pozorovaná hodnota, její četnost). Častěji jej ale chápeme jako sloupcový graf, kde pro konkrétní hodnotu x pozorované veličiny vztyčíme nad bodem x x-ové osy sloupec jehož výška je úměrná četnosti příslušné k hodnotě x uvažované veličiny. Pro spojité veličiny je ale takovéto zobrazení většinou nepoužitelné (protože pro spojité veličiny by jednotlivé četnosti neměly být větší než jedna). Proto nejprve rozdělíme číselnou osu na stejně velké intervaly. Přitom je důležité, abychom zvolili rozumnou délku dělení. Postupně pro všechny intervaly zobrazíme relativní četnosti výskytu pozorování v těchto intervalech. Tvar histogramu silně závisí na zvolené délce, ale i na počátku dělení. Histogram se s rostoucím počtem pozorování a jemnějším dělením stále více podobá své teoretické hodnotě. Histogram souží jako odhad rozložení veličiny v populaci, přesněji je odhadem hustoty (teoretického tvaru histogramu). 3.8 Celočíselné veličiny Již z jejich názvu je vidět, že se jedná o veličiny vyjádřené pouze celými čísly, většinou se jedná o počty nějakých objektů (počty buněk, bakterií, výskytu sledované diagnosy, a pod.). Proto jsou tyto veličiny obvykle nezáporné (pokud neuvažujeme např. změnu počtu... ). Rozložení celočíselné veličiny můžeme popsat soustavou pravděpodobností pro jednotlivé hodnoty (0, 1, 2,...). K číselné presentaci výběrového rozložení se používají relativní nebo kumulativní relativní četnosti. Častěji se ale používá grafické zobrazení. Nejužívanější je histogram pro jednotlivé pozorované hodnoty, případně empirická distribuční funkce. Stejně jako u spojitých veličin je velmi užitečné popsat studované rozložení matematickým modelem, který je dán jen několika málo parametru. Pracovat přímo s distribuční funkcí je obtížné, protože je popsána velkým množstvím čísel. Rádi bychom pracovali jen s několika málo jednoduchými charakteristikami. Dříve než přistoupíme k popisu charakteristik, označme: X sledovanou náhodnou veličinu. n rozsah výběru - počet pozorovaných nebo naměřených hodnot sledované veličiny x i (i = 1, 2,,..., n) jednotlivé naměřené hodnoty µ sledovaný parametr veličiny X (například průměr) v základní populaci. ˆx odhad parametru µ vypočtený z výběru (například výběrový průměr x). 3

4 4 Míry polohy První co nás zajímá na sledované veličině je hodnota, která je schopna reprezentovat celý výběr. Chceme znát střed všech hodnot populace, či část číselné osy, kde se pozorování nacházejí. Pokud uvažujeme teoretické rozložení populace, mluvíme o střední hodnotě (někdy bývá použit i termín očekávaná hodnota) a značíme ji písmenem E (např. E(X) = µ). 4.1 Průměr Průměr x je nejčastěji používaná charakteristika. Vypočteme jej jako součet všech hodnot dělený jejich počtem. Máme-li ve výběru n pozorování x i, pak můžeme formálně zapsat: x = 1 n Průměr je často používaná míra polohy, která za svou oblibu vděčí jednak tomu, že ji je možno jednoduše vypočíst, ale i proto, že je jedním z dvou přirozených parametrů normálního rozložení. Pro typy rozložení, jiné než je normální, však tento odhad již nemusí být vhodný. Například pokud sledujeme koncentraci látky nebo hmotnost postavy, je vhodnější pracovat spíše s logaritmy získaných hodnot než se samotnými hodnotami. Mluvíme pak o logaritmicko-normálním rozložení. Odlogaritmovaný průměr logaritmů pak nazýváme geometrický průměr x geom. Vypočteme jej: x geom = e 1 n n n i=1 x i i=1 ln(xi) = n n Nepříjemnou vlastností průměru je, že již jedna odlehlá hodnota může výrazně ovlivnit hodnotu počítaného odhadu. 4.2 Medián Další často používanou charakteristikou je medián x med, který je jednoduše řečeno, prostřední měřená hodnota. Pro formální zápis definice mediánu seřaďme nejprve jednotlivé hodnoty x i podle velikosti a označme písmenem x s pořadovým číslem v hranaté závorce jako index (x [1] x [2] x [3]... x [n 1] x [n] ). Medián pak definujeme: x med = i=1 x i x [ n+1 2 ] nje liché, x [ n 2 ]+x [ n 2 +1] 2 n je sudé. Medián není sice pro normální rozložení nejlepším odhadem, má však jednu velmi užitečnou vlastnost - je stabilní. Na rozdíl od průměru x, medián se nezmění, pokud bychom použité hodnoty libovolně vzdálili od mediánu. 4.3 Modus Další používanou charakteristikou je modus - nejpravděpodobnější hodnota. Jako výběrový odhad modu je používána nejčastěji pozorovaná hodnota. Pro veličiny, které jsou měřeny s velkou přesností je tento odhad obzvlášť pro menší soubory nepoužitelný. 4.4 Kvantil Kvantil je charakteristika která se z této skupiny poněkud vymyká. Je zobecněním pojmu medián. Kvantil x α je definován jako hodnota taková, že pravděpodobnost menších hodnot je rovna α. Máme-li soubor o n pozorováních, pak právě αn pozorování je menších než výběrový kvantil x α. Někdy bývá zvykem používat i názvy první a druhý tercil, které dělí pozorování na tři stejné skupiny (popřípadě kvartily na čtyři, decily na deset a konečně percentily na sto). 5 Míry měřítka K charakteristikám polohy je důležité znát i míru toho, jak se mohou lišit hodnoty pro jednotlivé objekty sledované populace. K tomu slouží skupina charakteristik, které se nazývají míry měřítka. Jinými slovy: míry měřítka nepopisují přímo sledovanou hodnotu, ale její kolísání - ať již je způsobeno chybou měření nebo přirozenou variabilitou sledovaných objektů. 4

5 5.1 Rozptyl Rozptyl var(x) nebo σ 2 x, kde X je symbol označující sledovanou veličinu, je nejčastěji používanou mírou měřítka (někdy je také nazýván variance). Výběrovým protějškem je výběrový rozptyl. Zjednodušeně řečeno, je to průměrný čtverec vzdáleností naměřených hodnot od průměru. s 2 x = 1 n 1 n (x i x) 2 i=1 Takto definovaný rozptyl je optimálním odhadem měřítka pro normální rozložení a je používán společně s průměrem. Směrodatná odchylka někdy bývá nazývána též standardní odchylka, je charakteristika, která je často značená S.D. nebo s x a je s x = var(x) Střední chyba průměru je další charakteristikou měřítka (ne již přímo sledované náhodné veličiny, ale jejího průměru). Vyjadřuje míru variability výběrového průměru a bývá často značena S.E. nebo s x. Je rovna var(x) s x = = s x n n Tato charakteristika již ale není populační charakteristikou, ale je charakteristikou výběru, přesněji řečeno odhaduje charakteristiku měřítka výběrového průměru. Obě poslední charakteristiky jsou úzce spjaté s intervalovými odhady. S.E. je používán pro konstrukci intervalů spolehlivosti a S.D. pro konstrukci tolerančních intervalů. Pozor! Jejich záměnou může dojít k zcela mylné interpretaci výsledků. V praxi se někdy při popisu výsledků používá vyjádření x ± S.D. nebo x ± S.E.. Toto vyjádření ale navádí k zcela chybné interpretaci. Čtenář, který není dostatečně seznámen s principy matematické statistiky si nutně takovýto výraz vysvětlí jako interval, v kterém je sledovaná hodnota. Tím může mínit buď některou charakteristiku rozložení (např. průměrnou výšku postavy), nebo hodnoty jedinců základní populace (jednotlivé výšky postavy). To jsou dva zcela odlišné pohledy. Navíc ale výše zmiňovaný interval není možno interpretovat takto interpretovat. 5.2 Rozpětí Jako míra měřítka se nabízí i takzvané rozpětí - vzdálenost nejmenší a největší pozorované hodnoty. Tato charakteristika je však silně závislá na rozsahu výběru. Čím více pozorování máme k disposici, tím menší může být minimální hodnota, případně větší maximální hodnota. Je tedy zřejmé, že takto definované rozpětí není vhodnou mírou. 5.3 Mezikvartilové rozpětí Pokud není sledovaná veličina normálně rozložena, obzvláště pokud jsou ve výběru obsažena odlehlá pozorování, je často rozumné vliv těchto extrémních hodnot omezit. Charakteristikou, která je málo citlivá na odlehlá pozorování je mezikvartilové rozpětí, které je definováno jako rozdíl prvního a třetího kvartilu: x 75% x 25% Na rozdíl od rozpětí se zde již neprojevuje efekt rozsahu výběru, přesněji řečeno u maxima a minima. 5.4 Variační koeficient Někdy je v praxi používáno relativní vyjádření míry polohy vzhledem k měřítku. Nazýváme jej variační koeficient: 6 Ostatní charakteristiky V = S.D. x 100% Někdy bývají používány i další charakteristiky, které není možno zařadit do žádné z obou skupin. Jsou to charakteristiky, které poskytují další informace o rozložení sledované veličiny. 5

6 6.1 Šikmost Je veličina, která měří asymetrii rozložení. T.j. udává, jsou-li pravděpodobnější větší odchylky na jednu, než na druhou stranu. Tato veličina je definována jako Výběrová šikmost je pak E(X E(X)) 3 (var(x)) 3/2 1 n n i=1 (x i x) 3 s 3 Odchylky šikmosti od nuly poukazují na nesprávnost předpokladu normality. Například logaritmicko-normální rozložení má zápornou šikmost. 6.2 Špičatost Tato charakteristika popisuje plochost či špičatost hustoty rozložení sledované veličiny. Je definována: E(X E(X)) 4 (var(x)) 2 3 Výběrová špičatost je pak 1 n n i=1 (x i x) 4 s 4 3 Takto definovaná špičatost je pro normální rozložení vždy rovna nule (někteří autoři však používají k definici špičatosti výraz neobsahující konstantu 3). Věnujme se nyní různým typům rozložení pravděpodobností. Říkali jsme si, že pro popis rozložení veličiny je užitečné používat matematické modely rozložení pravděpodobností, které je možno popsat pomocí pouze několika málo parametrů. Podle typu sledované veličiny je možno rozdělit rozložení do několika skupin: 7 Nominální veličiny O rozložení nominálních veličin jsme se již vlastně zmínili. Je jej možno popsat pravděpodobnostmi jednotlivých možných hodnot. Jak jsme si již říkali, alternativní veličiny je možno popsat pouze pomocí jediného parametru - pravděpodobnosti π. Někdy pak mluvíme o alternativním rozložení. Pokud nominální veličina nabývá více hodnot (například k), je k popisu jejího rozložení nutno k 1 pravděpodobností π 1,...,π k 1 (poslední pravděpodobnost je vždy možno dopočítat jako doplněk do jedné). 8 Diskrétní kvantitativní veličiny Tyto veličiny popisují kolikrát byl daný jev pozorován. Pokud se soustředíme na takovouto kvantitativní veličinu, uvažujeme vztah mezi pravděpodobnostmi, že tato veličina nabývá různých hodnot, který je možno popsat pouze pomocí malého počtu parametrů. Dále si ukážeme různé modely rozložení pravděpodobností. 8.1 Binomické rozložení Představme si, že sledujeme populaci skládající se z n osob, pak se můžeme zajímat o pravděpodobnost, že v tomto výběru bude právě x nemocných. Rozložení takovéto veličiny nazýváme binomické. Samozřejmě je možno vypočíst i základní charakteristiky. Střední hodnota (např. střední počet nemocných) je rovna: E(X) = nπ a pro rozptyl platí: var(x) = nπ(1 π) 6

7 8.2 Poissonovo rozložení U binomického rozložení jsme uvažovali, že sledujeme souboru omezeného rozsahu. Často se stává, že sledovaná populace je velmi rozsáhlá nebo dokonce nekonečná. Například můžeme sledovat počet zárodků na kultivační půdě (může být x = 0, 1, 2, 3,...) nebo počet infektů horních cest dýchacích u dětí během prvních tří let věku. Často pak neznáme horní mez pro sledované počty. Základní popisné charakteristiky - střední hodnota a rozptyl jsou: E(X) = var(x) = λ Spolu s binomickým rozložením je Poissonovo rozložení nejčastěji používáno pro popis veličin, které vyjadřují počet nalezených objektů našeho zájmu. 9 Spojité kvantitativní veličiny Další skupinu veličin tvoří ty, které popisují různé míry, měřitelné s libovolnou přesností. Patří sem různé délky, plochy, objemy, váhy, koncentrace a podobně. 9.1 Normální (Gaussovo) rozložení Je nejčastěji používaným rozdělením pro spojité náhodné veličiny. Pro názorné vysvětlení se uchýlíme k zjednodušení, které není z formálního hlediska přesné, ale umožní jednodušší pochopení. Představme si, že chceme měřit nějakou délku ale na měření máme k disposici nástroj, kterým je možno měřit pouze velmi malé délky (například měříme výšku postavy mikrometrem o rozsahu 0-25mm). Rozdělíme tedy měřenou délku na malé úseky (v našem případě 20mm), ty změříme a sečteme. V praxi nebude toto měření jednotlivých dílků absolutně přesné. Dá se předpokládat, že tyto chyby měření budou mít stejné rozložení a nebudou navzájem závislé. Měřená délka, získaná jako součet, pak bude mít rozložení, které je symetrické okolo svého středu (průměru x) má tvar velmi blízký binomickému rozložení s pravděpodobností 0, 5. Pokud bychom si představili, že dílčí, měřené úseku jsou velmi (přesněji řečeno neomezeně) malé, pak získáme rozložení, které nazýváme normální či Gaussovo. Na tomto vysvětlení je názorně vidět, že součet či rozdíl normálních veličin je opět normální. Tedy i průměr skupiny normálně rozložených veličin je normální. Dokonce platí, že čím více nezávislých náhodných veličin sčítáme, tím je jejich součet blíže normálnímu rozložení i bez ohledu na to, zda má původní veličina normální či jiné rozložení. 9.2 Logaritmicko-normální rozložení Často se stává, že rozložení není symetrické. Příkladem může být hmotnost postavy, koncentrace různých látek a mnohé další veličiny. Řekněme, že hmotnost dospělého muže je 80kg. Uvažujeme-li odchylku 50kg, pak je zřejmé, že v populaci se mnohem častěji najdou dospělí muži o hmotnosti 130kg než o hmotnosti 30kg. Jako charakteristika polohy se pak často používá odlogaritmovaný průměr logaritmů exp( ln(x)) nazývaný geometrický průměr. 10 Výběrová rozložení Konečně je nutno zmínit se i o rozloženích používaných ke konstrukci statistických testů. Tyto testy jsou vlastně prováděny tak, že vytvoříme tzv. testovací statistiku a test pak provádíme na základě toho, zda její hodnota odpovídá rozložení testovací statistiky pokud by testovaná skutečnost byla pravdou. 11 Odhady populačních charakteristik V praxi jsme často postaveni před problém stanovení určitých charakteristik rozložení sledované veličiny v základní populaci, je nutno pracovat s hodnotami sledovaných veličin (např. hladiny cholesterolu v krvi), které popisují populaci (přesněji řečeno základní populaci hladin cholesterolu) jako celek. V této kapitole se budeme zabývat principy testování a stanovením obecně platných hodnot sledovaných charakteristik - odhadů. Skutečné hodnoty parametrů rozložení sledované náhodné veličiny nemůžeme nikdy znát, můžeme pouze získat její odhadnout, který je zatížen jistou neurčitostí, kterou nazýváme náhodnou chybou, obsaženou v každém měření a dokonce i v každém našem odhadu. Pokud konstruujeme odhady charakteristik populace, můžeme toto zkreslení libovolně zmenšit rozsahem výběru, ale nikdy jej neodstraníme. 7

8 V dalších úvahách budeme často používat popis pozorování x i náhodné veličiny X pomocí jejího parametru polohy (nejčastěji populačního průměru µ): x i = µ + ε i kde ε i představuje chybu (variabilitu) veličiny X. Jestliže máme vytvořen takovýto model, je naším cílem získat o informace o jeho charakteristikách, odhadnout např. střední hodnotu µ sledované náhodné veličiny X. Odhady je možno v principu rozdělit do dvou základních skupin: 11.1 Bodové odhady Bodovým odhadem ˆx charakteristiky µ náhodné veličiny X nazveme číslo, které považujeme za dobrého representanta odhadované charakteristiky µ. Nikde však není řečeno, že odhad ˆx je přesně roven skutečné hodnotě µ. Kvalita odhadu je daná na jedné straně variabilitou veličiny X, ale na druhé straně i rozsahem výběru. Čím více pozorování máme, tím je odhad přesnější, stabilnější. Příkladem bodového odhadu průměrné výšky postavy v populaci je průměrná výška vypočtená z použitého výběru, odhadem pravděpodobnosti výskytu diabetes je její relativní četnost Intervalové odhady populačních charakteristik - intervaly spolehlivosti Místo jednoho čísla bodového odhadu použijeme nyní jako odhad rozmezí (interval), který s dostatečnou jistotou obsahuje hledaný parametr rozložení sledované veličiny. Odhady populačních charakteristik tohoto typu se nazývají intervaly spolehlivosti, v složitějších situacích mluvíme o oblastech či pásech spolehlivosti. Konstruhujeme interval, který s dostatečnou jistotou obsahuje skutečnou hodnotu odhadované charakteristiky v základním souboru. Formálně požadujeme, aby pravděpodobnost toho, že konstruovaný interval obsahuje skutečnou hodnotu byla větší než námi zvolená hodnota. Tuto pravděpodobnost pak nazveme hladinou spolehlivosti. Často ji volíme rovnu 0,95 (95%). U později zmíněných statistických testů mluvíme často o jejím doplňku - hladině významnosti, značené obvykle α (v našem případě 0, 05 = 5%). Je to pravděpodobnost toho, že konstruovaný interval je chybný a neobsahuje skutečnou hodnotu. Na tomto místě je nutno si uvědomit, že intervaly je možno vymezit více způsoby. Obvykle se používají následující dvě možnosti: Jednostranné intervaly používáme, pokud nás zajímají odchylky pouze v jednom směru, například pokud měříme koncentraci nějaké nežádoucí látky v potravinách a chceme stanovit hodnotu, kterou skutečná koncentrace této látky s námi zvolenou pravděpodobností 1 nepřekročí. Nezajímá nás omezení koncentrace zdola. Z výběru, který máme k dispozici, odhadneme parametry uvažovaného rozložení a získáme tak odhad hustoty f X (x) veličiny X. Snadno pak sestrojíme i odhad hustoty odhadu parametrů - např. f x (.) průměru x. Pomocí této hustoty můžeme nalézt bod na číselné ose, pro který pravděpodobnost toho, že hledaný průměr je menší než tato hodnota, je větší než (např.) 95%. Toho dosáhneme tak, že z číselné osy odřízneme zprava část, jejíž hodnoty se v sledované populaci vyskytují s pravděpodobností α (100α%, tj. 5%). K nalezení takovéhoto hraničního bodu použijeme hustotu f x (x) - viz. obrázek??, kde šrafovaná plocha nad x-ovou osou určuje oblast, která obsahuje v našem případě tolik největších číselných hodnot výšky postavy, by jejich pravděpodobnost byla rovna 5%. Je tak vlastně určena polopřímka která obsahuje skutečnou hodnotu s pravděpodobností menší než je námi zvolená přípustná chyba. Nás ale zajímá opačná polopřímka - jednostranný interval spolehlivosti. Ten tedy skutečnou hodnotu obsahuje s 95%-ní jistotou - spolehlivostí. Dvoustranné intervaly jsou konstruovány na podobném principu. Nyní však chceme omezit (například výšku postavy) z obou stran. Obvykle přikládáme stejnou váhu chybám na obě strany. Jestliže uvažovanou pravděpodobnost chyby α rozdělíme na dvě části, stačí vypočíst dva jednostranné intervaly každý pro α 2 a ty vytvoří hledaný oboustranný interval. Graficky je tato konstrukce zobrazena na obrázku??). Dvě šedé plochy na tomto obrázku určují dvě polopřímky, jejichž hodnot nabývá sledovaná veličina pouze s pravděpodobností 5%. Přesněji řečeno pravděpodobnost, že průměrná výška postavy v sledované populaci je větší horní mez intervalu spolehlivosti je 2,5% (podobně i pro menší hodnoty). 1 Často volíme 5%, pro málo závažné orientační výsledky se výjimečně používá i 10%, nebo pro závažná rozhodování 1%, 0.5% či 0,1%. 8

9 11.3 Intervalové odhady pro jednotlivá pozorování - toleranční intervaly Dosud jsme se zabývali odhadem charakteristik, které nepopisují jednotlivé pozorované hodnoty, ale popisují zvolené charakteristiky sledované populace (např. průměrnou porodní hmotnost). Věnujme nyní pozornost odhadu hodnot pro jednotlivé členy populace. Například chtějme stanovit interval, který s dostatečnou jistotou obsahuje většinu (zvolené procento) novorozenců z pohledu porodní hmotnosti. K tomuto účelu se konstruují takzvané toleranční (pokryvné) intervaly. Jedná se o interval, který s pravděpodobností α pokryje 100γ% (řekněme 80%) pozorování jakéhokoliv náhodného výběru ze základní populace. Přibližme si názorně úvahy, které umožní konstrukci těchto intervalů. Hraniční hodnoty těchto intervalů někdy nazýváme toleranční meze Rozdíl interpretace intervalu spolehlivosti a tolerančního intervalu Při praktickém použití je nutno zvážit potřeby, musíme se rozhodnout, zda chceme vyslovit tvrzení pro základní populaci jako celku (např. o průměrné hodnotě sledované veličiny v populaci), nebo zda se chceme vyjadřovat o jednotlivých případech. Často mluvíme o epidemiologickém přístupu - vyslovujeme tvrzení pro populaci jako celek (například když chceme stanovit průměrnou výšku populace), nebo o klinickém přístupu - pokud nás zajímají jedinci (například když chceme stanovit rozmezí, v kterém se pohybuje většina populace. Můžeme chtít stanovit rozsah hodnot hladiny cholesterolu v krvi 90-ti procent zdravé populace). 12 Statistické testy Jistě jste si všimli, že již při konstrukci intervalových odhadů provádíme skryté rozhodování o tom, které hodnoty ještě považujeme za přijatelné pro uvažovaný parametr a které již ne. Je samozřejmé, že toto rozhodování není nikdy absolutně spolehlivé. Je nutné zajistit, aby míra případných omylů byla v přijatelných mezích. V předchozím odstavci jsme si ukazovali myšlenku intervalových odhadů. Často však býváme postaveni přímo před problém rozhodnout, zda nějaké tvrzení platí: například zda je rozdíl ve výšce postavy osob z různých krajů, či zda je častěji nemocná skupina exponovaných než neexponovaných osob. Testy, kterými se budeme zabývat, poskytují nástroj pro rozhodování, zda se například liší charakteristika sledované skupiny od požadované hodnoty (zda porodní hmotnost dětí je větší než 2800g). Základem statistických testů je snaha o rozhodnutí, zda je rozdíl testovaných hodnot možno vysvětlit pomocí náhody, či zda jej musíme považovat za systematický. Nejprve si představme velmi jednoduchý příklad rozhodování. Řekněme, že chceme z pohledu zkoušejícího tvrdit o konkrétním studentovi výrok A = jeho znalosti jsou v sledované oblasti dostatečné. Statistik nazývá takovéto tvrzení hypotézou (H 0 ). Na základě zkoušky (v statistice ji nazýváme testem) tuto hypotézu přijmeme nebo zamítneme. V reálné situaci je takovéto měření znalostí zatíženo chybou. Může se stát, že přestože student zná zkoušenou látku, odpoví na některou otázku chybně, nebo naopak jinému se podaří správnou odpověď uhádnout. Cílem zkoušky by mělo být zjištění, zda pravděpodobnost správné odpovědi π je dostatečně velká. Při hodnocení studenta mohou nastat čtyři případy: I. Budeme mylně tvrdit, že výrok A je nepravdivý. II. Budeme mylně tvrdit, že výrok A je pravdivý. III. Budeme správně tvrdit, že výrok A je pravdivý. 9 IV. Budeme správně tvrdit, že výrok A je nepravdivý. Správné rozhodnutí je pouze III. a IV. Všechny tyto možnosti jsou názorně zobrazeny ještě i v tabulce 1.

10 Výsledek Skutečnost testu H 0 platí H 0 neplatí H 0 přijata III. Chyba II. druhu β H 0 nepřijata Chyba I. druhu IV. α Tabulka 1: Možnosti při testování hypotézy H 0 1 β se nazývá síla testu. V praxi bychom chtěli minimalizovat obě tyto pravděpodobnosti. Ty však na sobě závisí, s klesajícím α roste β a naopak. Minimalizovat pouze jednu z nich je sice jednoduché, ale nedává to žádný smysl. V praxi se při testování snažíme testem hodnotit charakteristiku jedné nebo více populací. Například hodnotíme průměrnou výšku postavy osob z určité skupiny (např. definované věkem a pohlavím). Nezajímá nás konkrétní jedinec, ale určitá charakteristika základní populace. Při provádění testu vstupují do hry nejen chyby α a β, ale i rozsah výběru n. Testem tedy kontrolujeme pravděpodobnost toho, že tvrzení H 0 platí a my jej neprokážeme. Opačnou chybu (pravděpodobnost, že H 0 neplatí a my jej mylně budeme považovat za platné) již ale máme (při konkrétním rozsahu výběru) pevně danou. Pokud však zvětšíme rozsah výběru, zvýší se naše znalost rozložení sledované veličiny, zpřesní se odhad testovaného parametru a test se tedy stává přesnějším, bude více schopen nalézt případné rozdíly. Věnujme se nyní principu provádění testu. Ten provedeme tak, že vypočteme tzv. testovací statistiku S, která je pro konkrétní test určitou funkcí jednotlivých pozorování (viz. popis testů v dalších kapitolách). Za platnosti testované hypotézy známe rozložení testovací statistiky S. Vypočtené S pak porovnáme s kritickou hodnotou testovací statistiky. Je-li testovací statistika větší než odpovídající kritická hodnota, tak je pravdivost hypotézy H 0 málo pravděpodobná - proto ji zamítneme. Pokud je však testovací statistika menší než kritická hodnota, je možno pozorované rozdíly vysvětlit prostřednictvím náhody - hypotézu tedy nezamítáme. Jinými slovy: říkáme že, rozdíly nestačí k tomu abychom hypotézu zamítli. Ve výstupech statistických programů se velmi často objevuje mimo hodnotu testovací statistiky i takzvaná P-hodnota. Ta nám při hodnocení testu ještě více usnadní práci. Nemusíme totiž vyhledávat v statistických tabulkách kritickou hodnotu příslušné testovací statistiky, ale stačí pouze porovnat P-hodnotu s požadovanou významností. P-hodnota je rovna při testu dosažené hladině významnosti. Je to pravděpodobnost toho, že při opakovaném provedení experimentu, bude hodnota testovací statistiky stejná nebo větší. Prakticky tedy stačí porovnat P-hodnotu se zvolenou hladinou významnosti α a je-li P-hodnota< α (např. < 0, 05 = 5%) řekneme, že test potvrdil statistickou významnost. Jinak považujeme testovaný rozdíl za statisticky nevýznamný - pozorované rozdíly je možno vysvětlit pomocí náhody. Jedním z nejčastějších požadavků je porovnání míry polohy souboru (např. průměru) s nějakou konkrétní hodnotou, nebo porovnání měr polohy různých základních souborů. Příkladem může být porovnání průměrné výšky postavy mužů a žen. Popišme si nyní řešení takovýchto problémů. 13 Jedna skupina Nejjednodušším úkolem je porovnání charakteristiky základní populace s konkrétní hodnotou Jednovýběrový U-test Ten ověřuje, zda je střední hodnota (průměr x) rovna požadované konstantě za předpokladu, že sledovaná veličina má normální rozložení se známým rozptylem σ 2 x (např. víme-li, že σ x = 0, 5). Nutným předpokladem tohoto testu je jednak zmíněná normalita sledované veličiny, ale i nezávislost jednotlivých pozorovaných hodnot. Ta je porušena např., pokud v souboru jsou některé osoby měřeny opakovaně (takovýto problém je nutno řešit složitějšími nástroji). Dříve než zahájíme testování, musíme jednak zvolit hladinu významnosti α (například α = 0, 05 = 5%), ale i rozhodnout, zda chceme provést test jednostranný nebo oboustranný. Řekněme, že nás zajímá pouze 10

11 jednostranná varianta testu, tedy hypotéza zda je průměrná hladina cholesterolu v krvi dětí ze školy B statisticky významně větší než hodnota 4,4. Pro test vypočteme: U = ( x µ) n σ x = (4, 212 4, 4) 128 = 4, 254 0, 5 Pokud je pravda, že hladina HDL cholesterolu je menší nebo rovna hodnotě 4,4, má tato testovací statistika U normální (Gaussovo) rozložení. To nám umožní provést požadovaný test. Ze statistických tabulek zjistíme kritickou hodnotu u α normálního rozložení, t.j. hodnotu takovou, aby pro normálně rozloženou veličinu byla pravděpodobnost výskytu větších nebo stejných hodnot U nejvýše rovna 100α% (v našem případě 5%). Je-li pak U > u α, je testovaná hypotéza málo pravděpodobná - nemůžeme rozdíl mezi normou 4,4 a x vysvětlit pouhou náhodou. Řekneme, že hladina cholesterolu je statisticky významně větší než 4,4 (na hladině významnosti 5%). Pokud je naopak U < u α není možno testovanou hypotézu vyloučit, případnou odchylku hladiny cholesterolu nad normu je možno vysvětlit i pomocí náhody. Řekneme, že rozdíl není statisticky významný (na hladině významnosti 5%). Případný rozdíl je tak malý, že se schoval do náhodné chyby. V praxi však v současné době není nutno výpočty provádět ručně, statistické programy tuto práci udělají za nás a dokonce mimo testovací statistiky U nabídnou i již zmíněnou P-hodnotu. Pokud potřebujeme použít oboustranný test, pak stačí porovnat absolutní hodnotu statistiky U s hodnotou u α test je tedy statisticky významný pokud je U > u α Dále se budeme zabývat pouze oboustrannými 2 2 testy Jednovýběrový t-test Předpokládejme, že sledovaná veličina má stále normální rozložení. V praxi však známe skutečný rozptyl jen výjimečně, musíme tedy použít jeho odhad. Pak je ale nutno předchozí test modifikovat. Tento test používá v kapitole 5 již zmíněné t-rozložení. Testovací statistika pro oboustranný test je pak velmi podobná U statistice: t = x µ n (4, 212 4, 4) 128 = = 4, 624 s x 0, 460 Tuto hodnotu porovnáme s kritickou hodnotou t α (n 1) Studentova t-rozdělení s n 1 stupni volnosti. Protože je t = 4, 624 > 1, 984 = t 5% (127), není možno odchylku od normy vysvětlit pomocí náhody. Říkáme, že test prokázal statisticky významnou odchylku sledované veličiny od normy Jednovýběrový znaménkový (mediánový) test Pokud sledovaná veličina nemá normální rozložení není možno použít t-test a musíme se uchýlit k obecněji použitelným, neparametrickým testům. Tím je například znaménkový test. Tento test je založen na velmi jednoduchém principu, sleduje totiž procento naměřených hodnot menších než hodnota s kterou soubor porovnáváme. Test zjišťuje, zda je toto procento statisticky významně odlišné od 50%. Označme Y počet hodnot větších než hypotetická hodnota a n počet měření. Pak vypočteme U = 2Y n = = 3, 359 n 128 Statistiku U pak porovnáme s kritickou hodnotou normálního rozložení. Pro jednostranný test na hladině významnosti 100α% porovnáme U > u α = u 5% = 1, 64 nebo U < u α = 1, 64. Pokud však chceme vypočíst oboustranný test na hladině významnosti 100α%, použijeme U > u α 2 = u 2,5% = 1,

12 13.4 Jednovýběrový Wilcoxonův test Můžeme však použít i Wilcoxonův neparametrický test, který je silnější než předchozí znaménkový test. Použití Wilcoxonova testu je vhodné obzvlášť pokud je rozsah souboru menší a o analyzovaná náhodná veličina nemá normální rozložení. Tento test nesleduje pouze zda je naměřená hodnota větší či menší než norma, ale pracuje s pořadím naměřených hodnot. Přesněji řečeno seřadíme bez ohledu na znaménko odchylky naměřených hodnot od normy a budeme se ptát zda se statisticky významně liší průměrné pořadí odchylek v kladném a záporném smyslu Test rozptylu jednoho výběru Zatím jsme si ukazovali pouze testy parametrů polohy. Někdy však potřebujeme testovat i parametry měřítka (např. σ 2 ). Řekněme, že chceme vypočíst jednostranný test, že σ 2 nepřekročí hodnotu σ 0 = 0, 5. Vypočtěme nejprve statistiku S = (n 1)s2 x σ 2 0 = 127 0, , 5 2 = 108, 34 Tuto hodnotu pak porovnáme s kritickou hodnotou S < χ 2 n 1(1 α). Pokud bychom chtěli testovat hypotézu σ 2 > σ 2 0 (např. σ 2 0 = 0, 25), je nutno porovnat S > χ 2 n 1(α). Pro splnění oboustranné hypotézy (σ 2 = σ 2 0) musí platit, že χ 2 n 1( α 2 ) = 97, 70 < 108, 34 = S < 160, 09 = χ2 n 1(1 α 2 ) Směrodatná odchylka s x se tedy statisticky významně neliší od hodnoty 0,5. Tento výsledek nám tedy nebrání použít U-test tak, jak byl popsán. S výše zmíněnými testy velmi úzce souvisí i intervalové odhady. Ukažme si možnosti jejich konstrukce a použití Intervaly spolehlivosti Dále si ukážeme konstrukce intervalů spolehlivosti pro nejčastěji používané statistické charakteristiky průměru x, pro σ známé, je oboustranný α%-ní interval spolehlivosti ( x u α 2 σ n, x + u α 2 σ neznámé, je oboustranný α%-ní interval spolehlivosti ) σ n ( x t α (n 1) s x, x + t α (n 1) s ) x n n Poznámka: Intervalové odhady je možno konstruovat i pro veličiny, které je nutno transformovat, aby měly normální rozložení. Například hmotnost postavy h mívá logaritmicko-normální rozložení. Vypočteme tedy intervalové odhady pro ln(h) a ty pak zpět odlogaritmovat. Získáme tak nesymetrické intervaly: (e ln(h) tα(n 1) s ln(h) n ), e ln(h)+tα(n 1) s ln(h) n kde ln(h) je průměr hodnot ln(h i ). Sestrojený interval pak má vlastně tvar ( hgeom k ) ; h geom k 12

13 mediánu x med Interval spolehlivosti pro medián se konstruuje tak, že nejprve seřadíme všechna pozorování X i a seřazená označíme X [1], X [2], X [3],..., X [n]. Pak v statistických tabulkách pro daný rozsah n, hladinu významnosti α a typ testu (jednostranný nebo oboustranný) nalezneme pořadové číslo pozorování, které tvoří příslušnou hranici intervalu spolehlivosti pro medián. Příklad intervalu spolehlivosti pro medián je v tabulce. rozptylu s 2 Oboustranný α%-ní interval spolehlivosti pro rozptyl je ( (n 1)s 2 x χ 2 n 1 ( α 2 ), (n 1)s 2 ) x χ 2 n 1 (1 α 2 ) 13.7 Toleranční intervaly Mezi intervalové odhady patří i toleranční intervaly. Ukažme si konstrukci takového intervalu pro veličinu s normálním rozložením s neznámým σ 2. Sestrojíme je tak, že v statistických tabulkách nalezneme příslušné hodnoty tolerančních činitelů k 1 či k 2. Příslušné intervaly pak jsou: 13.8 Co nejsou intervalové odhady ( x s x k 2, x + s x k 2 ) V praxi se někdy při popisu výsledků používá vyjádření X ± S.D. nebo X ± S.E.. Použití takového intervalu je ale krajně nevhodné, protože nabízí zavádějící interpretaci. Pokud použijeme výraz X ±S.D., pak tento interval, pro dostatečně velké n, obsahuje méně než 68% potenciálních pozorování. V některých pracích dokonce ani není uvedeno, co výraz číslo ± číslo představuje, pak ale je takováto prezentace nic neříkající. Podobně X ± S.E. pokryje skutečnou hodnotu s pravděpodobností nejvýše 68%. Pokud je rozsah n souboru malý, je toto procento v závislosti na n ještě menší. K tomu, aby mohl být výraz X ±S.E. považován za interval spolehlivosti normálně rozložené veličiny, je nutno vynásobit S.E. vhodnou konstantou. Například 95%-ní interval spolehlivosti vypočteme x±t n 1 (α). Konstanta t n 1 (α) je kritická hodnota t-rozložení, pro dostatečně velké n je ji možno pro hrubý odhad nahradit číslem 2. Ospravedlňovat použití X ± S.E. tím, že správné intervalové odhady jsou širší a zpochybňují výsledky práce, je zcela zcestné. 14 Dvě skupiny Podobná situace nastává, pokud máme porovnat střední hodnoty dvou různých skupin. Problém opět můžeme rozdělit podle typu rozložení sledované veličiny Dvouvýběrový t-test Pokud je rozložení sledované veličiny normální, porovnáme průměry skupin opět pomocí t-testu, tentokrát dvouvýběrového. Testování je jednodušší, pokud jsou oba rozptyly s 2 x a s 2 y stejné, to však nemusí být pravda. Nejprve tedy potřebujeme rozhodnout, kterou variantu t-testu použijeme - zda pro stejné či pro různé rozptyly. Pro jednoduchost se omezíme na popis vzorce pro variantu t-testu pro výběry se stejnými rozptyly. Stačí vypočíst statistiku t = nxn x ȳ y n x+n y (nx 1)s 2 x +(ny 1)s2 y n x+n y 2 Tato testovací statistika uvažuje rozdíl průměrů x a ȳ, který vydělíme odhadem standardní chyby průměru tohoto rozdílu. Získáme tak statistiku, která má t-rozložení s n x +n y 2 stupni volnosti a tu pak využijeme pro provedení testu (případně pro výpočet P-hodnoty) Porovnání dvou rozptylů Pro volbu správné varianty t-testu potřebujeme mimo jiné vědět, zda můžeme rozptyly v obou skupinách považovat za stejné. Pro porovnání rozptylů dvou skupin stačí vypočíst jejich podíl F = s2 x s 2 Test pak y 1 provedeme tak, že zjistíme je-li F ny 1,nx 1( α 2 ) < F < F n y 1,n x 1( α 2 ) pokud tomu tak není, je nutno považovat rozptyly s 2 x a s 2 y za statisticky významně odlišné. 13

14 14.3 Dvouvýběrový znaménkový test Stejně jako pro řešení předchozího problému i nyní existuje neparametrická varianta dvouvýběrového t- testu - znaménkový test, který nepožaduje normální rozložení. Mediánový test provedeme tak, že nejprve vypočteme medián pozorování z obou skupin spojených dohromady. Testovací statistika S je pak počet pozorování z prvního výběru, která jsou větší než společný medián. Pro test využijeme to, že statistika S má hypergeometrické rozložení Dvouvýběrový Wilcoxonův test Dalším neparametrickým testem je Wilcoxonův test. Opět spojíme na chvíli oba soubory a ke každému pozorování vypočteme pořadí v tomto společném souboru. Potom sečteme všechna pořadová čísla pozorování, která byla původně v prvním souboru, jejich součet označíme R +. Porovnáme hodnotu R + s kritickými hodnotami dvouvýběrového Wilcoxonova testu. 15 Párové porovnání Mezi výše jmenované testy se často zahrnují testy pro párová porovnání. Jsou založeny na zmíněném t-testu či Wilcoxonově testu, ale řeší poněkud odlišný problém. Podobnost názvů párových a nepárových testů sice vychází z použití stejných technických metod, ale z hlediska interpretace se jedná o zcela odlišné přístupy, které není možno zaměňovat. Představme si, že chceme porovnávat efekt určitého zásahu tak, že zjistíme na stejné skupině objektů sledovanou veličinu před zásahem a po něm. Ptáme se, zda změna jídelníčku snížila hladinu cholesterolu v krvi. Hodnota, o kterou je možno snížit hladinu cholesterolu změnou (pouze části) dětské stravy, zřejmě nebude velká a naopak rozdíly hladiny cholesterolu mezi jednotlivými dětmi mohou být mnohem větší. Pokud bychom porovnali obě skupiny dvouvýběrovým testem, zůstane efekt našeho zásahu skryt interindividuální variabilitou a dvouvýběrový test neprokáže významné rozdíly. Dopustili jsme se chyby, protože jsme neuvažovali závislost hodnot naměřených na jedné osobě. Musíme se tedy pokusit vyloučit vliv variability mezi osobami, srovnat výsledky tak, aby hodnoty byly srovnány na stejnou úroveň. Nebudeme proto pracovat přímo s naměřenými hodnotami, ale s rozdíly obou měření (porovnáváme změnu ke které došlo za sledované období). Vypočteme-li tedy pro každou osobu rozdíl prvního a druhého měření, můžeme již snadno použít některý z výše jmenovaných jednovýběrových testů a zjistit, zda změny během pokusu jsou statisticky významně odlišné od nuly Párový t-test Je-li rozložení sledované veličiny normální, je normální i rozložení rozdílu prvého a druhého měření. Můžeme tedy pro výpočet změny mezi prvním a druhým měřením u jednotlivých osob použít jednovýběrový t-test. Samozřejmě je možno pracovat i s intervalovými odhady, interval spolehlivosti je pak vypočten nikoliv pro naměřenou hodnotu, ale pro její změnu za sledované období. Interval tedy odhaduje nárůst či pokles Párový znaménkový test Další často používanou variantou párového testu je znaménkový test. Podobně jako u párového t-testu, nejprve vypočteme pro každého jedince rozdíl mezi prvním a druhým měřením a pak na tyto diference použijeme znaménkový jednovýběrový test Párový Wilcoxonův test Stejně můžeme postupovat i při konstrukci párového Wilcoxonova testu. 16 Více skupin - Analýza rozptylu - ANOVA Nejprve se věnujme jednoduchému modelu, kdy soubor hodnot sledované veličiny (hladina HDL cholesterolu) rozdělíme do skupin podle kvalitativní veličiny, která nabývá více hodnot (např. veličina indikující školu, kterou dítě navštěvuje). 14

15 16.1 Více skupin - Analýza rozptylu jednoduchého třídění Často se stává, že potřebujeme provést složitější porovnání. Porovnejme více než dvě skupiny (počet sledovaných skupin označme k). Chceme zjistit, zda jsou rozdíly v průměrné hladině HDL cholesterolu v krvi 8-letých dětí tří vybraných pražských škol (např. k = 3 ). Označme průměrné hladiny HDL cholesterolu v těchto třech školách µ 1, µ 2, µ 3 a celkový průměru µ. Dále budeme tyto parametry odhadovat a testovat hypotézu zda se od sebe statisticky významně liší. Analýzou rozptylu testujeme, zda je část variability způsobená rozdíly průměry ve skupinách jsou statisticky významně odlišná. To je testováno tak, že porovnáváme rozptyl za platnosti hypotézy shody průměrů s rozptylem pokud tato hypotéza neplatí. Hypotézu analýzy rozptylu pak ověříme testovací statistikou F F = s2 mezi skupinami s 2, uvnit skupin která má k 1 a n k stupňů volnosti. Tuto hodnotu pak musíme porovnat s kritickou hodnotou F- rozdělení. Statistické programy nám však usnadní práci tím, že vypočtou i P-hodnotu Podmínky použitelnosti analýzy rozptylu Na to, abychom vůbec mohli tento postup použít, je nutno přijmout jisté předpoklady, přesněji řečeno ověřit zda nejsou v rozporu s pozorovanými daty. 1. Sledovaná veličina musí mít normální rozložení. 2. Druhým předpokladem je shoda rozptylů. Na ověření tohoto předpokladu existuje několik testů, které si brzy popíšeme v odstavci test shody rozptylů. 3. Dále by měla být pozorování nezávislá (viz. párový test) Test shody rozptylů Tento test potřebujeme např. k ověření hypotézy shody rozptylů před tím, než použijeme analýzu rozptylu. Jeden takovýto test je již zmíněn v souvislosti s dvouvýběrovým t-testem, ten však porovnává pouze variabilitu dvou skupin. Existují však ještě i další testy, které dokonce dokáží porovnat variabilitu více skupin. Jsou to Bartlettův test a Leveneho test Kruskall-Wallisův test Zmíněná analýza rozptylu má sice bohaté uplatnění, ale vyžaduje splnění předpokladu normality. Nyní si ukážeme test, který tuto podmínku nevyžaduje. Podobně jako při provádění Wicoxonova testu neporovnává průměry, ale mediány. Tento test předpokládá, že studovaná veličina je spojitá - t.j. žádná hodnota není pozorována vícekrát Znaménkový test Je možno použít i znaménkový test, který vypočteme tak, že nejprve zjistíme společný medián všech pozorování a pak pro každou skupinu (školu) stanovíme počty pozorování větších a menších než tento medián. Vznikne tak matice. V ní je možno testovat pomocí χ 2 zda je v některém souboru statisticky významně více hodnot nad mediánem než v ostatních souborech Metody mnohonásobného porovnávání Pokud hypotézu shody zamítneme, tvrdíme, že rozdíly mezi školami není možno vysvětlit pomocí náhody. Analýza rozptylu nám pak říká, že průměrné hmotnosti dětí v sledovaných školách se statisticky významně liší od ostatních, nevíme však která(é) škola(y) tento rozdíl způsobuje(jí). Samozřejmě je možno testovat například dvouvýběrovým t-testem každou dvojici škol. V tomto okamžiku se musíme zamyslet nad tím, jak chceme zajistit spolehlivost našich tvrzení. Při porovnání škol po dvojicích kontroluje každý z prováděných testů, zda je pravděpodobnost chyby našeho tvrzení menší než 100α% (např. 5%). Provádíme-li však na 5%-ní hladině významnosti pro tyto 15

16 tři školy všechny možné testy (t.j. 3 porovnání), je celková pravděpodobnost toho, že uděláme chybu, větší než zvolených 5%. Víme o ni pouze, že je menší než 3 5% = 15%. K tomuto účelu byly navrženy testy mnohonásobného srovnávání. Ty jsou používány jako přirozené pokračování, analýzy rozptylu v případě, že ta prokázala statisticky významné rozdíly mezi porovnávanými skupinami. Mezi tyto testy patří: LSD test, Bonferroniho test, Scheffeho testu, Tuckeyho test nebo Duncanův test Analýza rozptylu dvojného třídění Zatím jsme se zabývali porovnáním hodnoty sledované veličiny v různých skupinách, do kterých jsou pozorované objekty rozděleny pomocí jedné veličiny (např. z které školy je sledované dítě). Někdy je ale rozdělení do jednotlivých skupin přirozené popsat pomocí více veličin. Dalším základním problémem, který matematická statistika řeší, je studium vztahu spojitých veličin. Budeme se zajímat o to, zda a jak na sobě sledované veličiny závisí. Nejprve bychom se měli zabývat pojem nezávislosti dvou spojitých veličin. Již v kapitole 3 jsme se seznámili s pojem nezávislosti dvou jevů. Nejdříve se ale zabývejme rozložením více veličin. 17 Kovariance - míra lineárního vztahu dvou veličin Pokusme se nalézt míry vztahu mezi dvěma spojitými, normálně rozloženými veličinami. Již dříve jsme si pro analýzu jednotlivých veličin ukázali význam míry polohy a měřítka. V případě normálně rozložených veličin pracujeme s průměry a rozptyly. Tyto charakteristiky ale nepopisují vztah dvou nebo více veličin. Obdobou míry polohy je zde lineární vztah obou veličin (přímka, která popisuje tuto závislost). Zobecněním míry měřítka pak je jistá míra těsnosti dat vzhledem k této přímce. K měření vztahu dvou veličin byl zaveden pojem kovariance. Výběrovou kovarianci pak vypočteme: Z definice kovariance je zřejmé, že: cov(x, y) = 1 n (x i x)(y i ȳ) n 1 i=1 cov(x, y) = cov(y, x) Dále si všimněme, že pokud je kovariance kladná, je jistá kladná vazba mezi x a y - čím je větší x, tím je větší i y a naopak. 18 Koeficient lineární korelace Takto definovaná kovariance je ale závislá na rozptylu veličin x a y. Stejnou úvahu ale můžeme provést i pro tzv. z-skóry, tj. pro xi x s x a yi ȳ s y. Získáme tak (výběrový) Pearsonův korelační koeficient: r = r x,y = 1 n ( ) ( ) n xi x yi ȳ i=1 = (x i x)(y i ȳ) n 1 s x s n y i=1 (x i x) 2 n i=1 (y i ȳ) 2 i=1 Hodnoty korelačního koeficientu r se pohybují v rozmezí 1 r 1. hodnota r = 0 odpovídá tomu, že mezi studovanými veličinami není žádná lineární vazba a hodmoty 1 a -1 odpovídají přesné lineární závislosti. V praxi často vypouštíme z názvu jak slovo Pearsonův, tak i slovo lineární, není to zásadní chyba, ale název pak svádí k tomu, abychom koeficient chápali jako míru libovolné vazby veličin x a y a to je již chybná interpretace. Populační korelační koeficient obvykle značíme ϱ. Koeficient nabývá hodnot z intevalu [ 1; 1], kde hodnota 0 představuje vzájemnou nezávislost a hodnoty 1 a 1 představují funční lineární závislost (v pozitivním, případně negativním smyslu). Výše uvedený odhad korelačního koeficientu je sice velmi užitečný, ale v praxi většinou potřebujeme mít i možnost testovat zda tento koeficient je statisticky významně odlišný od nuly (ϱ 0) - zda mezi veličinou x a y existuje lineární vztah. K tomu stačí vypočíst testovací statistiku T = r 1 r 2 n 2 která má Studentovo t-rozložení s n 2 stupni volnosti. 16

17 19 Lineární regresní model Z popisu korelačního koeficientu je zřejmé, že vyjadřuje vztah dvou veličin na stejné úrovni, veličiny jsou pozorovány najednou. Např. měříme současně hladinu cholesterolu a triglyceridů a neuvažujeme, že by existoval kauzální vztah studovaných veličin. Je na experimentátorovi, aby rozhodl o tom zda a jakou kauzalitu bude v modelu předpokládat. Někdy se pokoušíme na základě znalosti jedné veličiny odhadnout ( modelovat ) jinou veličinu. Např. z výšky otce bychom chtěli usuzovat na výšku syna, nebo z věku dítěte chceme odhadnout jeho výšku. V modelu vlastně předpokládáme kauzalitu veličin (výšky syna na výšce otce). První, kdo se zabýval modelem tohoto typu byl v roce 1886 Francis Galton. Snažil se řešit právě problém závislosti výšky prvorozených synů na výšce jejich otců. Z této práce také pochází termín regrese. Podobně jako v analýze rozptylu budeme mluvit o nezávisle proměnné, veličině o které předpokládáme, že do jisté míry předurčuje hodnoty pozorované, cílové, náhodné veličiny. Tu opět nazveme závisle proměnou. Označme y výšku syna a x výšku otce. Pokud lineární model platí zcela přesně, je možno jej popsat rovnicí y = β 0 + β 1 x kde β 0 a β 1 jsou konstanty které popisují vztah veličin. V praxi je ale pozorovaná veličina zkreslena nepřesností měření, biologickou variabilitou a dalšími rušivými faktory. Model tedy ve skutečnosti má tvar: y = β 0 + β 1 x + ε kde ε je právě tato zmíněná náhodná složka veličiny y. Někdy, když není zcela jasné která proměnná je závislá a která nezávislá, používáme přesnější označení y = β 0y:x + β 1y:x x + ε 19.1 Lineární regresní model normálně rozložené náhodné veličiny V další části se zaměříme na modely s normálně rozloženou závisle proměnnou (ε má normální rozložení N(0, σ 2 ). Tento předpoklad v praxi bývá široce užíván jednak protože se zdá být často přirozený ale i proto, že výpočty jsou relativně velmi jednoduché. Naším cílem bude porovnat rozdíl mezi jednodušším modelem (výška syna nezávisí na výšce otce) a složitějším (výška syna je lineárně závislá na výšce otce), zjistit zda rozdíly mezi modely je možno vysvětlit pomocí náhody. Zvolíme podobně v modelu analýzy rozptylu postup, kdy porovnáme rozptyl za hypotezy s rozptylem, kdy hypotéza neplatí. Nalezneme odhady parametrů regresní přímky b 0 ab 1 a rozptylu okolo regresní přímky. Graficky si můžeme představit konstrukci odhadu jako nalezení takové přímky, aby svislé vzdálenosti bodů od ní byly pokud možno co nejmenší. Nyní již můžeme snadno testovat zvolený model, případně jednotlivé koeficienty, nebo sestrojit jejich intervalové odhady. Součty čtverců mají velký význam nejen pro konstrukci odhadu, ale především pro testování modelu. Uvažujeme tedy, že platí model Y = β 0 + β 1 X a chceme testovat zda je možno uvažovat jednodušší model (nazývaný hypotézou). Podobně jako v analýze rozptylu, je nutným předpokladem normalita chyby ε. Dalším předpokladem je, že rozptyl chyby nesmí záviset na nezávisle proměnné a samozřejmě, jak jsme si již říkali, vztah závisle a nezávisle proměnné musí být lineární. To vše pak můžeme shrnout do požadavku, aby závisle proměnná Y měla za podmínky X = x normální rozložení N(β 0 + β 1 x, σ 2 ). Střední hodnota tedy závisí na X, ale rozptyl je konstantní (nezávisí na X) Vztahu regresního lineárního modelu a lineárního korelačního koeficientu Uvažujme co se ale stane, pokud zaměníme závisle a nezávisle proměnnou? Získáme tak koeficienty b 0x:y a b 1x:y. Tyto koeficienty se budou lišit od b 0y:x a b 1y:x. Získané regresní přímky jsou různoběžné a protínají se uprostřed dat. Úhel, který svírají obě regresní přímky, odpovídá korelaci veličin X a Y. 17

18 19.3 Problémy s linearitou a normalitou - transformace modelu V praxi se často stává, že studovaný problém nesplňuje požadavky použitého modelu. Snadno se může stát, že závislost není lineární, nebo že i rozptyl závisle proměnné Y je funkcí nezávisle proměnné X. Například o hmotnosti osoby je známo, že závisí na výšce měřené postavy. Tato závislost ale není lineární, ale ukazuje se, že hmotnost závisí lineárně na čtverci výšky postavy. Proto je nutno abychom pro regresní analýzu nepoužívali přímo sledované veličiny X a Y, ale místo výšky postavy X použijeme její druhou mocninu X 2. Teoreticky je možno transformovat jak závisle, tak i nezávisle proměnnou. Transformace závisle proměnné přináší kromě případného narovnání regresní křivky i změnu modelu. Pro přizpůsobení modelu datům se někdy používá jak transformace závisle proměnné (pro převedení rozložení závisle proměnné na tvar blízký normálnímu rozložení), tak i transformace nezávisle proměnné (abychom přiblížili regresní model lineární závislosti). Tato transformace vlastně odpovídá změně použité stupnice měření (pro konkrétní veličinu nemusí být vždy jasné, zda je přirozenější použít normální, logaritmickou či jinou stupnici Odlehlá pozorování v regresi O odlehlých pozorováních jsme se již zmínili u parametrů polohy. V regresním modelu ale přibývá ještě i problém odlehlých hodnot nezávisle proměnné. Je-li hodnota závisle proměnné odlehlá, pak samozřejmě dochází k zkreslení odhadu. Tyto hodnoty, jež nazýváme vlivné body, mohou být pro takovéto zkreslení mnohem nebezpečnější než odlehlé hodnoty závisle proměnné. Podobně jako jsme v minulé kapitole mluvili o sdruženém rozložení dvou spojitých veličin, můžeme mluvit o sdruženém rozložení i u diskrétních veličin. Situace se dokonce zdá být jednodušší, protože obě proměnné nabývají pouze omezený (většinou malý) počet hodnot. 20 Kontingenční tabulka 2 2 Jednou z lékařských disciplín, kde se často používají kontingenční tabulky je epidemiologie. Velmi často používáme právě tabulku 2 2 k řešení problému, zda výskyt vybrané diagnózy závisí na uvažované expozici. K vyčerpávajícímu popisu tabulky 2 2 stačí znát pouze čtyři číselné hodnoty. Proto se často používá zjednodušené značení (viz. tabulka 2). náhodná veličina Y náhodná veličina X např. nemoc např. expozice Ano Ne celkem Ano a b a + b Ne c d c + d celkem a + c b + d a + b + c + d = n Tabulka 2: Obecný zápis kontingenční tabulky χ 2 test nezávislosti v tabulce 2 2 χ 2 -test nezávislosti v kontingenční tabulce 2 2 vypočteme χ 2 = (ad bc) 2 (a + b)(a + c)(b + d)(c + d) n Pro ilustraci použijme data o výskytu vrozené vady kyčlí v závislosti na pohlaví dítěte (viz. tabulka 3). Chceme ověřit hypotézu, že vrozené vady kyčlí jsou častější u dívek než u chlapců. Testovací statistika χ 2 je pak rovna hodnotě 9, 59. Tomu odpovídá P-hodnota 0,002. Je tedy statisticky významný rozdíl mezi pravděpodobností vrozené vady kyčlí u chlapců a u dívek. Porovnáním pozorovaných a očekávaných četností v tabulce 3 vidíme, že odchylka od modelu nezávislosti je způsobena větším výskytem vady kyčlí u dívek. Tímto testem jsme prokázali, že je dokonce statisticky významně větší. 18

19 Vrozená vada kyčlí Pohlaví Ano Ne celkem Chlapci pozorovaná četnost Dívky pozorovaná četnost celkem Tabulka 3: Výskyt vrozené vady kyčlí u chlapců a dívek V praxi se ukazuje, že χ 2 test nezávislosti je možno pro malé pozorované četnosti vylepšit tzv. Yatesovou korekcí Oba tyto testy jsou ale pouze přibližné. Je však možno provést i přesný test. Tím je Fisherův exaktní (faktoriálový) test, který si nyní popíšeme. Sestrojíme všechny možné tabulky, které mají stejné marginální četnosti (řádkové a sloupcové součty) jako původní tabulka. Vybereme z nich ty, které jsou vzdálenější od hypotézy nezávislosti než původní kontingenční tabulka (t.j., jsou to tabulky méně pravděpodobné než naše tabulka, pokud skutečně platí hypotéza nezávislosti). Sečteme-li pravděpodobnosti těchto tabulek, získáme tak součet P a ten je již přímo P-hodnotou Fisherova testu. Použít tento přesný test je sice lákavé, ale v praxi se snadno může stát, že se dostaneme do vážných technických problémů. S rostoucím n roste dramaticky i počet všech možných tabulek a pokud je velká i nejmenší ze čtyř četností testované kontingenční tabulky, stává se snadno, že problém není řešitelný v rozumném čase ani na nejmodernějších počítačích Míry vztahu dvou alternativních veličin Jako míra závislosti v kontingenční tabulce se často používají různé charakteristiky. Uvažujme tabulku 2. Jistě je zajímavé vypočíst pravděpodobnost onemocnění u skupiny exponovaných a a+b, ale i u neexponovaných. Relativním rizikem RR pak nazýváme podíl těchto pravděpodobností: c c+d RR = a a+b c c+d = a(c + d) c(a + b) Pokud platí model nezávislosti, je je možno ukázat, že je RR = 1. Často bývá používána i další charakteristika, která je nazývaná křížový poměr (anglicky odds ratio). Někdy je používán i název podíl šancí nebo sázkový poměr. Tato charakteristika je obvykle používána v anglosaských pracích. Není založena na pojmu pravděpodobností, ale na pojmu šance na onemocnění. Křížový pomět OR je OR = a b c d = ad bc Křížový poměr, podobně jako relativní riziko, je roven jedné pokud jsou sledované veličiny nezávislé, jinak se ale hodnoty těchto měr liší. Obě tyto míry jsou založeny na multiplikativním principu - ptáme se kolikrát je větší pravděpodobnost onemocnění (či poměr zdravý/nemocný) u exponovaných než u kontrol (neexponovaných). V praxi se ale někdy používá i aditivní princip - sledujeme o kolik se změní pravděpodobnost onemocnění působením uvažované expozice. Proto bývá jako míra používáno například i atributivní riziko (anglicky atributable risk), které je definováno jako rozdíl pravděpodobnosti onemocnění ve skupině exponovaných a ve skupině neexponovaných. Výběrová varianta atributivního rizika je tedy: AR = a a + b c c + d Někdy bývá používáno i v procentech vyjádřené relativní atributivní riziko (atributable fraction) AF = a a+b c c+d a a+b 100% Další podobné varianty těchto koeficientů jsou populační atributivní riziko: 19

20 AR P = a + c n c c + d a populační relativní atributivní riziko AF P = a+c n c c+d a+c n 100% 20.2 Hypotéza symetrie McNemar Zatím jsme se zabývali pouze hypotézou nezávislosti, ale v praxi nás často zajímají i jiné hypotézy. Chceme porovnat například efekt léčby tak, že se ptáme, zda se stav sledovaných osob změnil po uplynutí určité doby. Vlastně chceme provést obdobu párového testu, který jsme si již popisovali pro spojité veličiny. Představme si, že nás zajímá, zda u dětí jednoho vybraného okresu v studii novorozenců závisí výskyt infektů horních cest dýchacích na jejich věku. Výskyt tohoto onemocnění byl zjišťován jednak v 6.měsíci, ale i v 3.roku věku dítěte. Příslušné pozorované hodnoty jsou zobrazeny v tabulce 4: 3.rok věku Ano Ne celkem 6.měsíc věku Ano Ne celkem Tabulka 4: Infekty horních cest dýchacích Použít χ 2 -test nezávislosti je v tomto případě chybné a zcela zavádějící. Hypotéza nezávislosti by znamenala že nemocnost v 3.roce nezávisí na nemocnosti v prvých šesti měsících. Jinými slovy pravděpodobnost onemocnění v 3.roce by byla stejná pro ty, co v prvých 6. měsících onemocněly, ale i pro ty co byly zdravé. Jednotlivé děti ale mají zřejmě různý sklon k onemocnění. U těch které byly v 6. měsíci zdravé je větší pravděpodobnost, že budou zdravější i v 3. roce věku než ty děti, které byly nemocné v 6. měsíci věku. Nás ale zajímá, zda je stejná pravděpodobnost toho, že dítě má sledovanou diagnózu v 6.měsíci a nemá v třetím roce, je stejná jako pravděpodobnost že dítě nemá tuto diagnózus v 6.měsíci a má v třetím roce (porovnáváme tedy políčka b a c kontingenční tabulky). Chceme říci, jestli pravděpodobnost výskytu diagnózy závisí na věku dítěte, pak by se totiž od sebe lišily očekávané četnosti b a c (jejich rozdíl ukazuje na vytrácení starých nebo objevování nových výskytů sledované diagnózy). Hypotéza vlastně ověřuje zda je tabulka symetrická podle hlavní úhlopříčky (platí-li, že π 12 = π 21 ). Takováto hypotéza je zřejmě zcela odlišná od hypotézy nezávislosti, obě hypotézy jsou splněny současně pouze pro tabulku v které jsou všechny dílčí pravděpodobnosti stejné (π 11 = π 12 = π 21 = π 22 ). Všimněme si, že při hypotéze symetrie nás vlastně nezajímají hodnoty π 11 ani π 22 - zajímají nás pouze ty případy, ve kterých došlo ke změně jak v jednom, tak i v druhém smyslu. K testu symetrie používáme takzvaný McNnemarů test symetrie: M = kde M má χ 2 rozložení s jedním stupněm volnosti. V našem příkladu je testovací statistika: M = ( ) (b c)2 b + c = ( 555)2 772 = 398, 996 Kritická hodnota rozložení χ 2 1(5%) = 3, 84 (dokonce i χ 2 1(0, 5%) = 7, 88). Je tedy nutno považovat test symetrie za statisticky významný. 21 Typy studií - způsoby konstrukce kontingenčních tabulek Stejně jako při analýze spojitých veličin je i pro kvalitativní veličiny podstatné které z nich jsou náhodné a které ne. To samozřejmě závisí na způsobu získávání pozorovaných hodnot. Kontingenční tabulky, tak jak jsme o nich doposud mluvili, vznikly jako obraz reprezentativního vzorku sledované populace. Všichni jedinci použitého výběru jsou rozděleni podle hodnot sledovaných veličin do jednotlivých polí tabulky. Pokud je ale výběr proveden jiným způsobem, musí tuto skutečnost uvažovat i použitý model. To je také důvod proč jsou studie analyzované pomocí kontingenčních tabulek děleny do tří základních skupin: 20

Biostatistika a matematické metody epidemiologie- stručné studijní texty

Biostatistika a matematické metody epidemiologie- stručné studijní texty Biostatistika a matematické metody epidemiologie- stručné studijní texty Bohumír Procházka, SZÚ Praha 1 Co můžeme sledovat Pro charakteristiku nebo vlastnost, kterou chceme sledovat zvolíme termín jev.

Více

676 + 4 + 100 + 196 + 0 + 484 + 196 + 324 + 64 + 324 = = 2368

676 + 4 + 100 + 196 + 0 + 484 + 196 + 324 + 64 + 324 = = 2368 Příklad 1 Je třeba prověřit, zda lze na 5% hladině významnosti pokládat za prokázanou hypotézu, že střední doba výroby výlisku je 30 sekund. Přitom 10 náhodně vybraných výlisků bylo vyráběno celkem 540

Více

Zpracování náhodného výběru. Ing. Michal Dorda, Ph.D.

Zpracování náhodného výběru. Ing. Michal Dorda, Ph.D. Zpracování náhodného výběru popisná statistika Ing. Michal Dorda, Ph.D. Základní pojmy Úkolem statistiky je na základě vlastností výběrového souboru usuzovat o vlastnostech celé populace. Populace(základní

Více

veličin, deskriptivní statistika Ing. Michael Rost, Ph.D.

veličin, deskriptivní statistika Ing. Michael Rost, Ph.D. Vybraná rozdělení spojitých náhodných veličin, deskriptivní statistika Ing. Michael Rost, Ph.D. Třídění Základním zpracováním dat je jejich třídění. Jde o uspořádání získaných dat, kde volba třídícího

Více

STATISTICKÉ TESTY VÝZNAMNOSTI

STATISTICKÉ TESTY VÝZNAMNOSTI STATISTICKÉ TESTY VÝZNAMNOSTI jsou statistické postupy, pomocí nichž ověřujeme, zda mezi proměnnými existuje vztah (závislost, rozdíl). Pokud je výsledek šetření statisticky významný (signifikantní), znamená

Více

Normální (Gaussovo) rozdělení

Normální (Gaussovo) rozdělení Normální (Gaussovo) rozdělení Normální (Gaussovo) rozdělení popisuje vlastnosti náhodné spojité veličiny, která vzniká složením různých náhodných vlivů, které jsou navzájem nezávislé, kterých je velký

Více

UNIVERZITA OBRANY Fakulta ekonomiky a managementu. Aplikace STAT1. Výsledek řešení projektu PRO HORR2011 a PRO GRAM2011 3. 11.

UNIVERZITA OBRANY Fakulta ekonomiky a managementu. Aplikace STAT1. Výsledek řešení projektu PRO HORR2011 a PRO GRAM2011 3. 11. UNIVERZITA OBRANY Fakulta ekonomiky a managementu Aplikace STAT1 Výsledek řešení projektu PRO HORR2011 a PRO GRAM2011 Jiří Neubauer, Marek Sedlačík, Oldřich Kříž 3. 11. 2012 Popis a návod k použití aplikace

Více

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz Pravděpodobnost a matematická

Více

Informační technologie a statistika 1

Informační technologie a statistika 1 Informační technologie a statistika 1 přednášející: konzul. hodiny: e-mail: Martin Schindler KAP, tel. 48 535 2836, budova G po dohodě martin.schindler@tul.cz naposledy upraveno: 21. září 2015, 1/33 Požadavek

Více

31. 3. 2014, Brno Hanuš Vavrčík Základy statistiky ve vědě

31. 3. 2014, Brno Hanuš Vavrčík Základy statistiky ve vědě 31. 3. 2014, Brno Hanuš Vavrčík Základy statistiky ve vědě Motto Statistika nuda je, má však cenné údaje. strana 3 Statistické charakteristiky Charakteristiky polohy jsou kolem ní seskupeny ostatní hodnoty

Více

Intervalový odhad. Interval spolehlivosti = intervalový odhad nějakého parametru s danou pravděpodobností = konfidenční interval pro daný parametr

Intervalový odhad. Interval spolehlivosti = intervalový odhad nějakého parametru s danou pravděpodobností = konfidenční interval pro daný parametr StatSoft Intervalový odhad Dnes se budeme zabývat neodmyslitelnou součástí statistiky a to intervaly v nejrůznějších podobách. Toto téma je také úzce spojeno s tématem testování hypotéz, a tedy plynule

Více

4ST201 STATISTIKA CVIČENÍ Č. 7

4ST201 STATISTIKA CVIČENÍ Č. 7 4ST201 STATISTIKA CVIČENÍ Č. 7 testování hypotéz parametrické testy test hypotézy o střední hodnotě test hypotézy o relativní četnosti test o shodě středních hodnot testování hypotéz v MS Excel neparametrické

Více

Cvičení ze statistiky - 9. Filip Děchtěrenko

Cvičení ze statistiky - 9. Filip Děchtěrenko Cvičení ze statistiky - 9 Filip Děchtěrenko Minule bylo.. Dobrali jsme normální rozdělení Tyhle termíny by měly být známé: Inferenční statistika Konfidenční intervaly Z-test Postup při testování hypotéz

Více

Číselné charakteristiky a jejich výpočet

Číselné charakteristiky a jejich výpočet Katedra ekonometrie, FVL, UO Brno kancelář 69a, tel. 973 442029 email:jiri.neubauer@unob.cz charakteristiky polohy charakteristiky variability charakteristiky koncetrace charakteristiky polohy charakteristiky

Více

2 Zpracování naměřených dat. 2.1 Gaussův zákon chyb. 2.2 Náhodná veličina a její rozdělení

2 Zpracování naměřených dat. 2.1 Gaussův zákon chyb. 2.2 Náhodná veličina a její rozdělení 2 Zpracování naměřených dat Důležitou součástí každé experimentální práce je statistické zpracování naměřených dat. V této krátké kapitole se budeme věnovat určení intervalů spolehlivosti získaných výsledků

Více

Praktická statistika. Petr Ponížil Eva Kutálková

Praktická statistika. Petr Ponížil Eva Kutálková Praktická statistika Petr Ponížil Eva Kutálková Zápis výsledků měření Předpokládejme, že známe hodnotu napětí U = 238,9 V i její chybu 3,3 V. Hodnotu veličiny zapíšeme na tolik míst, aby až poslední bylo

Více

Porovnání dvou výběrů

Porovnání dvou výběrů Porovnání dvou výběrů Menu: QCExpert Porovnání dvou výběrů Tento modul je určen pro podrobnou analýzu dvou datových souborů (výběrů). Modul poskytuje dva postupy analýzy: porovnání dvou nezávislých výběrů

Více

You created this PDF from an application that is not licensed to print to novapdf printer (http://www.novapdf.com)

You created this PDF from an application that is not licensed to print to novapdf printer (http://www.novapdf.com) Závislost náhodných veličin Úvod Předchozí přednášky: - statistické charakteristiky jednoho výběrového nebo základního souboru - vztahy mezi výběrovým a základním souborem - vztahy statistických charakteristik

Více

Popisná statistika kvantitativní veličiny

Popisná statistika kvantitativní veličiny StatSoft Popisná statistika kvantitativní veličiny Protože nám surová data obvykle žádnou smysluplnou informaci neposkytnou, je žádoucí vyjádřit tyto ve zhuštěnější formě. V předchozím dílu jsme začali

Více

Kontingenční tabulky, korelační koeficienty

Kontingenční tabulky, korelační koeficienty Statistika II Katedra ekonometrie FVL UO Brno kancelář 69a, tel. 973 442029 email:jiri.neubauer@unob.cz Mějme kategoriální proměnné X a Y. Vytvoříme tzv. kontingenční tabulku. Budeme tedy testovat hypotézu

Více

Testování hypotéz. 1 Jednovýběrové testy. 90/2 odhad času

Testování hypotéz. 1 Jednovýběrové testy. 90/2 odhad času Testování hypotéz 1 Jednovýběrové testy 90/ odhad času V podmínkách naprostého odloučení má voák prokázat schopnost orientace v čase. Úkolem voáka e provést odhad časového intervalu 1 hodiny bez hodinek

Více

E(X) = np D(X) = np(1 p) 1 2p np(1 p) (n + 1)p 1 ˆx (n + 1)p. A 3 (X) =

E(X) = np D(X) = np(1 p) 1 2p np(1 p) (n + 1)p 1 ˆx (n + 1)p. A 3 (X) = Základní rozdělení pravděpodobnosti Diskrétní rozdělení pravděpodobnosti. Pojem Náhodná veličina s Binomickým rozdělením Bi(n, p), kde n je přirozené číslo, p je reálné číslo, < p < má pravděpodobnostní

Více

Mgr. Karla Hrbáčková, Ph.D. Základy kvantitativního výzkumu

Mgr. Karla Hrbáčková, Ph.D. Základy kvantitativního výzkumu Mgr. Karla Hrbáčková, Ph.D. Základy kvantitativního výzkumu K čemu slouží statistika Popisuje velké soubory dat pomocí charakteristických čísel (popisná statistika). Hledá skryté zákonitosti v souborech

Více

5 Vícerozměrná data - kontingenční tabulky, testy nezávislosti, regresní analýza

5 Vícerozměrná data - kontingenční tabulky, testy nezávislosti, regresní analýza 5 Vícerozměrná data - kontingenční tabulky, testy nezávislosti, regresní analýza 5.1 Vícerozměrná data a vícerozměrná rozdělení Při zpracování vícerozměrných dat se hledají souvislosti mezi dvěma, případně

Více

Střední hodnota a rozptyl náhodné. kvantilu. Ing. Michael Rost, Ph.D.

Střední hodnota a rozptyl náhodné. kvantilu. Ing. Michael Rost, Ph.D. Střední hodnota a rozptyl náhodné veličiny, vybraná rozdělení diskrétních a spojitých náhodných veličin, pojem kvantilu Ing. Michael Rost, Ph.D. Príklad Předpokládejme že máme náhodnou veličinu X která

Více

Tomáš Karel LS 2012/2013

Tomáš Karel LS 2012/2013 Tomáš Karel LS 2012/2013 Doplňkový materiál ke cvičení z předmětu 4ST201. Na případné faktické chyby v této presentaci mě prosím upozorněte. Děkuji. Tyto slidy berte pouze jako doplňkový materiál není

Více

Inferenční statistika - úvod. z-skóry normální rozdělení pravděpodobnost rozdělení výběrových průměrů

Inferenční statistika - úvod. z-skóry normální rozdělení pravděpodobnost rozdělení výběrových průměrů Inferenční statistika - úvod z-skóry normální rozdělení pravděpodobnost rozdělení výběrových průměrů Pravděpodobnost postupy induktivní statistiky vycházejí z teorie pravděpodobnosti pravděpodobnost, že

Více

Korelační a regresní analýza

Korelační a regresní analýza Korelační a regresní analýza Analýza závislosti v normálním rozdělení Pearsonův (výběrový) korelační koeficient: r = s XY s X s Y, kde s XY = 1 n (x n 1 i=0 i x )(y i y ), s X (s Y ) je výběrová směrodatná

Více

Statistické testování hypotéz II

Statistické testování hypotéz II PSY117/454 Statistická analýza dat v psychologii Přednáška 9 Statistické testování hypotéz II Přehled testů, rozdíly průměrů, velikost účinku, síla testu Základní výzkumné otázky/hypotézy 1. Stanovení

Více

Stručný úvod do vybraných zredukovaných základů statistické analýzy dat

Stručný úvod do vybraných zredukovaných základů statistické analýzy dat Stručný úvod do vybraných zredukovaných základů statistické analýzy dat Statistika nuda je, má však cenné údaje. Neklesejme na mysli, ona nám to vyčíslí. Z pohádky Princové jsou na draka Populace (základní

Více

Testování hypotéz. Analýza dat z dotazníkových šetření. Kuranova Pavlina

Testování hypotéz. Analýza dat z dotazníkových šetření. Kuranova Pavlina Testování hypotéz Analýza dat z dotazníkových šetření Kuranova Pavlina Statistická hypotéza Možné cíle výzkumu Srovnání účinnosti různých metod Srovnání výsledků různých skupin Tzn. prokázání rozdílů mezi

Více

Statistické metody uţívané při ověřování platnosti hypotéz

Statistické metody uţívané při ověřování platnosti hypotéz Statistické metody uţívané při ověřování platnosti hypotéz Hypotéza Domněnka, předpoklad Nejčastěji o rozdělení, středních hodnotách, závislostech, Hypotézy ve vědeckém výzkumu pracovní, věcné hypotézy

Více

Pravděpodobnost v závislosti na proměnné x je zde modelován pomocí logistického modelu. exp x. x x x. log 1

Pravděpodobnost v závislosti na proměnné x je zde modelován pomocí logistického modelu. exp x. x x x. log 1 Logistická regrese Menu: QCExpert Regrese Logistická Modul Logistická regrese umožňuje analýzu dat, kdy odezva je binární, nebo frekvenční veličina vyjádřená hodnotami 0 nebo 1, případně poměry v intervalu

Více

KGG/STG Statistika pro geografy

KGG/STG Statistika pro geografy KGG/STG Statistika pro geografy 10. Mgr. David Fiedor 27. dubna 2015 Nelineární závislost - korelační poměr užití v případě, kdy regresní čára není přímka, ale je vyjádřena složitější matematickou funkcí

Více

t-test, Studentův párový test Ing. Michael Rost, Ph.D.

t-test, Studentův párový test Ing. Michael Rost, Ph.D. Testování hypotéz: dvouvýběrový t-test, Studentův párový test Ing. Michael Rost, Ph.D. Úvod do problému... Již známe jednovýběrový t-test, při kterém jsme měli k dispozici pouze jeden výběr. Můžeme se

Více

Cvičení ze statistiky - 3. Filip Děchtěrenko

Cvičení ze statistiky - 3. Filip Děchtěrenko Cvičení ze statistiky - 3 Filip Děchtěrenko Minule bylo.. Dokončili jsme základní statistiky, typy proměnných a začali analýzu kvalitativních dat Tyhle termíny by měly být známé: Histogram, krabicový graf

Více

Statistika. Regresní a korelační analýza Úvod do problému. Roman Biskup

Statistika. Regresní a korelační analýza Úvod do problému. Roman Biskup Statistika Regresní a korelační analýza Úvod do problému Roman Biskup Jihočeská univerzita v Českých Budějovicích Ekonomická fakulta (Zemědělská fakulta) Katedra aplikované matematiky a informatiky 2008/2009

Více

Tomáš Karel LS 2012/2013

Tomáš Karel LS 2012/2013 Tomáš Karel LS 2012/2013 Doplňkový materiál ke cvičení z předmětu 4ST201. Na případné faktické chyby v této presentaci mě prosím upozorněte. Děkuji. Tyto slidy berte pouze jako doplňkový materiál není

Více

1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.

1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004. Testování hypotéz na základě jednoho a dvou výběrů 1 1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/004. Testování hypotéz Pokud nás zajímá zda platí, či neplatí tvrzení o určitém parametru,

Více

Příklad 1. Korelační pole. Řešení 1 ŘEŠENÉ PŘÍKLADY Z MV2 ČÁST 13

Příklad 1. Korelační pole. Řešení 1 ŘEŠENÉ PŘÍKLADY Z MV2 ČÁST 13 Příklad 1 Máme k dispozici výsledky prvního a druhého testu deseti sportovců. Na hladině významnosti 0,05 prověřte, zda jsou výsledky testů kladně korelované. 1.test : 7, 8, 10, 4, 14, 9, 6, 2, 13, 5 2.test

Více

Ilustrační příklad odhadu LRM v SW Gretl

Ilustrační příklad odhadu LRM v SW Gretl Ilustrační příklad odhadu LRM v SW Gretl Podkladové údaje Korelační matice Odhad lineárního regresního modelu (LRM) Verifikace modelu PEF ČZU Praha Určeno pro posluchače předmětu Ekonometrie Needitovaná

Více

marek.pomp@vsb.cz http://homel.vsb.cz/~pom68

marek.pomp@vsb.cz http://homel.vsb.cz/~pom68 Statistika B (151-0303) Marek Pomp ZS 2014 marek.pomp@vsb.cz http://homel.vsb.cz/~pom68 Cvičení: Pavlína Kuráňová & Marek Pomp Podmínky pro úspěšné ukončení zápočet 45 bodů, min. 23 bodů, dvě zápočtové

Více

Testování hypotéz. 4. přednáška 6. 3. 2010

Testování hypotéz. 4. přednáška 6. 3. 2010 Testování hypotéz 4. přednáška 6. 3. 2010 Základní pojmy Statistická hypotéza Je tvrzení o vlastnostech základního souboru, o jehož pravdivosti se chceme přesvědčit. Předem nevíme, zda je pravdivé nebo

Více

Program Statistica Base 9. Mgr. Karla Hrbáčková, Ph.D.

Program Statistica Base 9. Mgr. Karla Hrbáčková, Ph.D. Program Statistica Base 9 Mgr. Karla Hrbáčková, Ph.D. OBSAH KURZU obsluha jednotlivých nástrojů, funkce pro import dat z jiných aplikací, práce s popisnou statistikou, vytváření grafů, analýza dat, výstupní

Více

Testování statistických hypotéz. Ing. Michal Dorda, Ph.D. 1

Testování statistických hypotéz. Ing. Michal Dorda, Ph.D. 1 Testování statistických hypotéz Ing. Michal Dorda, Ph.D. 1 Úvodní poznámky Statistickou hypotézou rozumíme hypotézu o populaci (základním souboru) např.: Střední hodnota základního souboru je rovna 100.

Více

Předpoklad o normalitě rozdělení je zamítnut, protože hodnota testovacího kritéria χ exp je vyšší než tabulkový 2

Předpoklad o normalitě rozdělení je zamítnut, protože hodnota testovacího kritéria χ exp je vyšší než tabulkový 2 Na úloze ukážeme postup analýzy velkého výběru s odlehlými prvky pro určení typu rozdělení koncentrace kyseliny močové u 50 dárců krve. Jaká je míra polohy a rozptýlení uvedeného výběru? Z grafických diagnostik

Více

6. Lineární regresní modely

6. Lineární regresní modely 6. Lineární regresní modely 6.1 Jednoduchá regrese a validace 6.2 Testy hypotéz v lineární regresi 6.3 Kritika dat v regresním tripletu 6.4 Multikolinearita a polynomy 6.5 Kritika modelu v regresním tripletu

Více

Úvodem Dříve les než stromy 3 Operace s maticemi

Úvodem Dříve les než stromy 3 Operace s maticemi Obsah 1 Úvodem 13 2 Dříve les než stromy 17 2.1 Nejednoznačnost terminologie 17 2.2 Volba metody analýzy dat 23 2.3 Přehled vybraných vícerozměrných metod 25 2.3.1 Metoda hlavních komponent 26 2.3.2 Faktorová

Více

Test dobré shody v KONTINGENČNÍCH TABULKÁCH

Test dobré shody v KONTINGENČNÍCH TABULKÁCH Test dobré shody v KONTINGENČNÍCH TABULKÁCH Opakování: Mějme náhodné veličiny X a Y uspořádané do kontingenční tabulky. Řekli jsme, že nulovou hypotézu H 0 : veličiny X, Y jsou nezávislé zamítneme, když

Více

Testování statistických hypotéz. Ing. Michal Dorda, Ph.D.

Testování statistických hypotéz. Ing. Michal Dorda, Ph.D. Testování statistických hypotéz Ing. Michal Dorda, Ph.D. Testování normality Př. : Při simulaci provozu na křižovatce byla získána data o mezerách mezi přijíždějícími vozidly v [s]. Otestujte na hladině

Více

LINEÁRNÍ REGRESE. Lineární regresní model

LINEÁRNÍ REGRESE. Lineární regresní model LINEÁRNÍ REGRESE Chemometrie I, David MILDE Lineární regresní model 1 Typy závislosti 2 proměnných FUNKČNÍ VZTAH: 2 závisle proměnné: určité hodnotě x odpovídá jediná hodnota y. KORELACE: 2 náhodné (nezávislé)

Více

Přednáška 9. Testy dobré shody. Grafická analýza pro ověření shody empirického a teoretického rozdělení

Přednáška 9. Testy dobré shody. Grafická analýza pro ověření shody empirického a teoretického rozdělení Přednáška 9 Testy dobré shody Grafická analýza pro ověření shody empirického a teoretického rozdělení χ 2 test dobré shody ověření, zda jsou relativní četnosti jednotlivých variant rovny číslům π 01 ;

Více

Test z teorie VÝBĚROVÉ CHARAKTERISTIKY A INTERVALOVÉ ODHADY

Test z teorie VÝBĚROVÉ CHARAKTERISTIKY A INTERVALOVÉ ODHADY VÝBĚROVÉ CHARAKTERISTIKY A INTERVALOVÉ ODHADY Test z teorie 1. Střední hodnota pevně zvolené náhodné veličiny je a) náhodná veličina, b) konstanta, c) náhodný jev, d) výběrová charakteristika. 2. Výběrový

Více

Obsah. Statistika Zpracování informací ze statistického šetření Charakteristiky úrovně, variability a koncentrace kvantitativního znaku

Obsah. Statistika Zpracování informací ze statistického šetření Charakteristiky úrovně, variability a koncentrace kvantitativního znaku Obsah Statistika Zpracování informací ze statistického šetření Charakteristiky úrovně, variability a koncentrace kvantitativního znaku Roman Biskup (zapálený) statistik ve výslužbě, aktuálně analytik v

Více

Simulace. Simulace dat. Parametry

Simulace. Simulace dat. Parametry Simulace Simulace dat Menu: QCExpert Simulace Simulace dat Tento modul je určen pro generování pseudonáhodných dat s danými statistickými vlastnostmi. Nabízí čtyři typy rozdělení: normální, logaritmicko-normální,

Více

8 Střední hodnota a rozptyl

8 Střední hodnota a rozptyl Břetislav Fajmon, UMAT FEKT, VUT Brno Této přednášce odpovídá kapitola 10 ze skript [1]. Také je k dispozici sbírka úloh [2], kde si můžete procvičit příklady z kapitol 2, 3 a 4. K samostatnému procvičení

Více

Měření závislosti statistických dat

Měření závislosti statistických dat 5.1 Měření závislosti statistických dat Každý pořádný astronom je schopen vám předpovědět, kde se bude nacházet daná hvězda půl hodiny před půlnocí. Ne každý je však téhož schopen předpovědět v případě

Více

10. Předpovídání - aplikace regresní úlohy

10. Předpovídání - aplikace regresní úlohy 10. Předpovídání - aplikace regresní úlohy Regresní úloha (analýza) je označení pro statistickou metodu, pomocí nichž odhadujeme hodnotu náhodné veličiny (tzv. závislé proměnné, cílové proměnné, regresandu

Více

Pojem a úkoly statistiky

Pojem a úkoly statistiky Katedra ekonometrie FVL UO Brno kancelář 69a, tel. 973 442029 email:jiri.neubauer@unob.cz Pojem a úkoly statistiky Statistika je věda, která se zabývá získáváním, zpracováním a analýzou dat pro potřeby

Více

StatSoft Jak poznat vliv faktorů vizuálně

StatSoft Jak poznat vliv faktorů vizuálně StatSoft Jak poznat vliv faktorů vizuálně V tomto článku bychom se rádi věnovali otázce, jak poznat již z grafického náhledu vztahy a závislosti v analýze rozptylu. Pomocí následujících grafických zobrazení

Více

PRAVDĚPODOBNOST A STATISTIKA aneb Krátký průvodce skripty [1] a [2]

PRAVDĚPODOBNOST A STATISTIKA aneb Krátký průvodce skripty [1] a [2] PRAVDĚPODOBNOST A STATISTIKA aneb Krátký průvodce skripty [1] a [2] Použitá literatura: [1]: J.Reif, Z.Kobeda: Úvod do pravděpodobnosti a spolehlivosti, ZČU Plzeň, 2004 (2. vyd.) [2]: J.Reif: Metody matematické

Více

Biostatistika Cvičení 7

Biostatistika Cvičení 7 TEST Z TEORIE 1. Střední hodnota pevně zvolené náhodné veličiny je a) náhodná veličina, b) konstanta, c) náhodný jev, d) výběrová charakteristika. 2. Výběrový průměr je a) náhodná veličina, b) konstanta,

Více

STATISTIKA. Inovace předmětu. Obsah. 1. Inovace předmětu STATISTIKA... 2 2. Sylabus pro předmět STATISTIKA... 3 3. Pomůcky... 7

STATISTIKA. Inovace předmětu. Obsah. 1. Inovace předmětu STATISTIKA... 2 2. Sylabus pro předmět STATISTIKA... 3 3. Pomůcky... 7 Inovace předmětu STATISTIKA Obsah 1. Inovace předmětu STATISTIKA... 2 2. Sylabus pro předmět STATISTIKA... 3 3. Pomůcky... 7 1 1. Inovace předmětu STATISTIKA Předmět Statistika se na bakalářském oboru

Více

Statistika pro gymnázia

Statistika pro gymnázia Statistika pro gymnázia Pracovní verze učebního textu ZÁKLADNÍ POJMY Statistika zkoumá jevy (společenské, přírodní, technické) ve velkých statistických souborech. Prvky statistických souborů se nazývají

Více

Statistika jako obor. Statistika. Popisná statistika. Matematická statistika TEORIE K MV2

Statistika jako obor. Statistika. Popisná statistika. Matematická statistika TEORIE K MV2 Statistika jako obor Statistika Statistika je vědní obor zabývající se zkoumáním jevů hromadného charakteru. Tím se myslí to, že zkoumaný jev musí příslušet určité části velkého množství objektů (lidí,

Více

ROZDĚLENÍ NÁHODNÝCH VELIČIN

ROZDĚLENÍ NÁHODNÝCH VELIČIN ROZDĚLENÍ NÁHODNÝCH VELIČIN 1 Vytvořeno s podporou projektu Průřezová inovace studijních programů Lesnické a dřevařské fakulty MENDELU v Brně (LDF) s ohledem na discipliny společného základu (reg. č. CZ.1.07/2.2.00/28.0021)

Více

M - Příprava na 1. zápočtový test - třída 3SA

M - Příprava na 1. zápočtový test - třída 3SA M - Příprava na 1. zápočtový test - třída 3SA Autor: Mgr. Jaromír JUŘEK Kopírování a jakékoliv další využití výukového materiálu je povoleno pouze s uvedením odkazu na www.jarjurek.cz. VARIACE 1 Tento

Více

Průzkumová analýza dat

Průzkumová analýza dat Průzkumová analýza dat Proč zkoumat data? Základ průzkumové analýzy dat položil John Tukey ve svém díle Exploratory Data Analysis (odtud zkratka EDA). Často se stává, že data, se kterými pracujeme, se

Více

STATISTICA Téma 7. Testy na základě více než 2 výběrů

STATISTICA Téma 7. Testy na základě více než 2 výběrů STATISTICA Téma 7. Testy na základě více než 2 výběrů 1) Test na homoskedasticitu Nalezneme jej v několika submenu. Omezme se na submenu Základní statistiky a tabulky základního menu Statistika. V něm

Více

Testování hypotéz a měření asociace mezi proměnnými

Testování hypotéz a měření asociace mezi proměnnými Testování hypotéz a měření asociace mezi proměnnými Testování hypotéz Nulová a alternativní hypotéza většina statistických analýz zahrnuje různá porovnání, hledání vztahů, efektů Tvrzení, že efekt je nulový,

Více

6. T e s t o v á n í h y p o t é z

6. T e s t o v á n í h y p o t é z 6. T e s t o v á n í h y p o t é z Na základě hodnot z realizace náhodného výběru činíme rozhodnutí o platnosti hypotézy o hodnotách parametrů rozdělení nebo o jeho vlastnostech. Používáme k tomu vhodně

Více

diskriminaci žen letní semestr 2012 1 = výrok, o jehož pravdivosti chceme rozhodnout tvrzení o populaci, o jehož platnosti rozhodujeme

diskriminaci žen letní semestr 2012 1 = výrok, o jehož pravdivosti chceme rozhodnout tvrzení o populaci, o jehož platnosti rozhodujeme motivační příklad Párový Párový Příklad (Platová diskriminace) firma provedla šetření s cílem zjistit, zda dochází k platové diskriminaci žen Šárka Hudecová Katedra pravděpodobnosti a matematické statistiky

Více

NÁHODNÁ ČÍSLA. F(x) = 1 pro x 1. Náhodná čísla lze generovat některým z následujících generátorů náhodných čísel:

NÁHODNÁ ČÍSLA. F(x) = 1 pro x 1. Náhodná čísla lze generovat některým z následujících generátorů náhodných čísel: NÁHODNÁ ČÍSLA TYPY GENERÁTORŮ, LINEÁRNÍ KONGRUENČNÍ GENERÁTORY, TESTY NÁHODNOSTI, VYUŽITÍ HODNOT NÁHODNÝCH VELIČIN V SIMULACI CO JE TO NÁHODNÉ ČÍSLO? Náhodné číslo definujeme jako nezávislé hodnoty z rovnoměrného

Více

Metodologie pro Informační studia a knihovnictví 2

Metodologie pro Informační studia a knihovnictví 2 Metodologie pro Informační studia a knihovnictví 2 Modul 5: Popis nekategorizovaných dat Co se dozvíte v tomto modulu? Kdy používat modus, průměr a medián. Co je to směrodatná odchylka. Jak popsat distribuci

Více

Vysoká škola báňská technická univerzita Ostrava. Fakulta elektrotechniky a informatiky

Vysoká škola báňská technická univerzita Ostrava. Fakulta elektrotechniky a informatiky Vysoká škola báňská technická univerzita Ostrava Fakulta elektrotechniky a informatiky Bankovní účty (semestrální projekt statistika) Tomáš Hejret (hej124) 18.5.2013 Úvod Cílem tohoto projektu, zadaného

Více

{ } ( 2) Příklad: Test nezávislosti kategoriálních znaků

{ } ( 2) Příklad: Test nezávislosti kategoriálních znaků Příklad: Test nezávislosti kategoriálních znaků Určete na hladině významnosti 5 % na základě dat zjištěných v rámci dotazníkového šetření ve Šluknově, zda existuje závislost mezi pohlavím respondenta a

Více

Kombinatorika, pravděpodobnost a statistika, Posloupnosti a řady

Kombinatorika, pravděpodobnost a statistika, Posloupnosti a řady Předmět: Náplň: Třída: Počet hodin: Pomůcky: Matematika Kombinatorika, pravděpodobnost a statistika, Posloupnosti a řady 4. ročník 3 hodiny týdně PC a dataprojektor Kombinatorika Řeší jednoduché úlohy

Více

Zákony hromadění chyb.

Zákony hromadění chyb. Zákony hromadění chyb. Zákon hromadění skutečných chyb. Zákon hromadění středních chyb. Tomáš Bayer bayertom@natur.cuni.cz Přírodovědecká fakulta Univerzity Karlovy v Praze, Katedra aplikované geoinformatiky

Více

Hodina 50 Strana 1/14. Gymnázium Budějovická. Hodnocení akcií

Hodina 50 Strana 1/14. Gymnázium Budějovická. Hodnocení akcií Hodina 50 Strana /4 Gymnázium Budějovická Volitelný předmět Ekonomie - jednoletý BLOK ČÍSLO 8 Hodnocení akcií Předpokládaný počet : 9 hodin Použitá literatura : František Egermayer, Jan Kožíšek Statistická

Více

Tomáš Karel LS 2012/2013

Tomáš Karel LS 2012/2013 Tomáš Karel LS 2012/2013 Doplňkový materiál ke cvičení z předmětu 4ST201. Na případné faktické chyby v této presentaci mě prosím upozorněte. Děkuji. Tyto slidy berte pouze jako doplňkový materiál není

Více

EKONOMETRIE 7. přednáška Fáze ekonometrické analýzy

EKONOMETRIE 7. přednáška Fáze ekonometrické analýzy EKONOMETRIE 7. přednáška Fáze ekonometrické analýzy Ekonometrická analýza proces, skládající se z následujících fází: a) specifikace b) kvantifikace c) verifikace d) aplikace Postupné zpřesňování jednotlivých

Více

3/8.4 PRAKTICKÉ APLIKACE PŘI POUŽÍVÁNÍ NEJISTOT

3/8.4 PRAKTICKÉ APLIKACE PŘI POUŽÍVÁNÍ NEJISTOT PROKAZOVÁNÍ SHODY VÝROBKŮ část 3, díl 8, kapitola 4, str. 1 3/8.4 PRAKTICKÉ APLIKACE PŘI POUŽÍVÁNÍ NEJISTOT Vyjadřování standardní kombinované nejistoty výsledku zkoušky Výsledek zkoušky se vyjadřuje v

Více

Mannův-Whitneyův(Wilcoxonův) test pořadová obdoba dvouvýběrového t-testu. Statistika (MD360P03Z, MD360P03U) ak. rok 2007/2008

Mannův-Whitneyův(Wilcoxonův) test pořadová obdoba dvouvýběrového t-testu. Statistika (MD360P03Z, MD360P03U) ak. rok 2007/2008 Statistika (MD30P03Z, MD30P03U) ak. rok 007/008 Karel Zvára karel.zvara@mff.cuni.cz http://www.karlin.mff.cuni.cz/ zvara (naposledy upraveno. listopadu 007) 1(4) Mann-Whitney párový Wilcoxon párový znaménkový

Více

Cvičení 9: Neparametrické úlohy o mediánech

Cvičení 9: Neparametrické úlohy o mediánech Cvičení 9: Neparametrické úlohy o mediánech Úkol 1.: Párový znaménkový test a párový Wilcoxonův test Při zjišťování kvality jedné složky půdy se používají dvě metody označené A a B. Výsledky: Vzorek 1

Více

V praxi pracujeme s daty nominálními (nabývají pouze dvou hodnot), kategoriálními (nabývají více

V praxi pracujeme s daty nominálními (nabývají pouze dvou hodnot), kategoriálními (nabývají více 9 Vícerozměrná data a jejich zpracování 9.1 Vícerozměrná data a vícerozměrná rozdělení Při zpracování vícerozměrných dat, hledáme souvislosti mezi dvěmi, případně více náhodnými veličinami. V praxi pracujeme

Více

Cvičení ze statistiky. Filip Děchtěrenko ZS 2012/2013

Cvičení ze statistiky. Filip Děchtěrenko ZS 2012/2013 Cvičení ze statistiky Filip Děchtěrenko ZS 2012/2013 Cvičení ze statistiky Pondělí 16:40, C328 http://www.ms.mff.cuni.cz/~dechf7am Praktické zaměření Proč potřebuji statistiku, když chci dělat (doplň)?

Více

Regresní a korelační analýza

Regresní a korelační analýza Přednáška STATISTIKA II - EKONOMETRIE Katedra ekonometrie FEM UO Brno kancelář 69a, tel. 973 442029 email:jiri.neubauer@unob.cz Regresní analýza Cíl regresní analýzy: stanovení formy (trendu, tvaru, průběhu)

Více

přesné jako tabulky, ale rychle a lépe mohou poskytnou názornou představu o důležitých tendencích a souvislostech.

přesné jako tabulky, ale rychle a lépe mohou poskytnou názornou představu o důležitých tendencích a souvislostech. 3 Grafické zpracování dat Grafické znázorňování je velmi účinný způsob, jak prezentovat statistické údaje. Grafy nejsou tak přesné jako tabulky, ale rychle a lépe mohou poskytnou názornou představu o důležitých

Více

Limita a spojitost funkce

Limita a spojitost funkce Limita a spojitost funkce Základ všší matematik Dana Říhová Mendelu Brno Průřezová inovace studijních programů Lesnické a dřevařské fakult MENDELU v Brně (LDF) s ohledem na disciplin společného základu

Více

Neuronové časové řady (ANN-TS)

Neuronové časové řady (ANN-TS) Neuronové časové řady (ANN-TS) Menu: QCExpert Prediktivní metody Neuronové časové řady Tento modul (Artificial Neural Network Time Series ANN-TS) využívá modelovacího potenciálu neuronové sítě k predikci

Více

MATEMATICKO STATISTICKÉ PARAMETRY ANALYTICKÝCH VÝSLEDKŮ

MATEMATICKO STATISTICKÉ PARAMETRY ANALYTICKÝCH VÝSLEDKŮ MATEMATICKO STATISTICKÉ PARAMETRY ANALYTICKÝCH VÝSLEDKŮ Má-li analytický výsledek objektivně vypovídat o chemickém složení vzorku, musí splňovat určitá kriteria: Mezinárodní metrologický slovník (VIM 3),

Více

1. Několik základních pojmů ze středoškolské matematiky. Na začátku si připomeneme následující pojmy:

1. Několik základních pojmů ze středoškolské matematiky. Na začátku si připomeneme následující pojmy: Opakování středoškolské matematiky Slovo úvodem: Tato pomůcka je určena zejména těm studentům presenčního i kombinovaného studia na VŠFS, kteří na středních školách neprošli dostatečnou průpravou z matematiky

Více

Analýza rozptylu. Podle počtu analyzovaných faktorů rozlišujeme jednofaktorovou, dvoufaktorovou a vícefaktorovou analýzu rozptylu.

Analýza rozptylu. Podle počtu analyzovaných faktorů rozlišujeme jednofaktorovou, dvoufaktorovou a vícefaktorovou analýzu rozptylu. Analýza rozptylu Analýza rozptylu umožňuje ověřit významnost rozdílu mezi výběrovými průměry většího počtu náhodných výběrů, umožňuje posoudit vliv různých faktorů. Podle počtu analyzovaných faktorů rozlišujeme

Více

MĚŘENÍ STATISTICKÝCH ZÁVISLOSTÍ

MĚŘENÍ STATISTICKÝCH ZÁVISLOSTÍ MĚŘENÍ STATISTICKÝCH ZÁVISLOSTÍ v praxi u jednoho prvku souboru se často zkoumá více veličin, které mohou na sobě různě záviset jednorozměrný výběrový soubor VSS X vícerozměrným výběrovým souborem VSS

Více

Matematické modelování dopravního proudu

Matematické modelování dopravního proudu Matematické modelování dopravního proudu Ondřej Lanč, Alena Girglová, Kateřina Papežová, Lucie Obšilová Gymnázium Otokara Březiny a SOŠ Telč lancondrej@centrum.cz Abstrakt: Cílem projektu bylo seznámení

Více

PSY117/454 Statistická analýza dat v psychologii Přednáška 10

PSY117/454 Statistická analýza dat v psychologii Přednáška 10 PSY117/454 Statistická analýza dat v psychologii Přednáška 10 TESTY PRO NOMINÁLNÍ A ORDINÁLNÍ PROMĚNNÉ NEPARAMETRICKÉ METODY... a to mělo, jak sám vidíte, nedozírné následky. Smrť Analýza četností hodnot

Více

1 Popisná statistika. 1.1 Základní pojmy. 1.2 Třídění dat. Četnosti. Grafické znázornění. Rozdělení znaků. Statistika I

1 Popisná statistika. 1.1 Základní pojmy. 1.2 Třídění dat. Četnosti. Grafické znázornění. Rozdělení znaků. Statistika I Statistika I 1 Popisná statistika 1.1 Základní pojmy Statistický soubor konečná množina prvků, které jsou nositeli určitého hromadného jevu Rozsah s.s. počet prvků množiny Statistické jednotky prvky s.s.

Více

TECHNIKA UMĚLÝCH PROMĚNNÝCH V PRŮŘEZOVÉ ANALÝZE A V MODELECH ČASOVÝCH ŘAD

TECHNIKA UMĚLÝCH PROMĚNNÝCH V PRŮŘEZOVÉ ANALÝZE A V MODELECH ČASOVÝCH ŘAD TECHNIKA UMĚLÝCH PROMĚNNÝCH V PRŮŘEZOVÉ ANALÝZE A V MODELECH ČASOVÝCH ŘAD Umělé (dummy) proměnné se používají, pokud chceme do modelu zahrnout proměnné, které mají kvalitativní či diskrétní charakter,

Více

Bodové a intervalové odhady parametrů v regresním modelu

Bodové a intervalové odhady parametrů v regresním modelu Bodové a intervalové odhady parametrů v regresním modelu 1 Odhady parametrů 11 Bodové odhady Mějme lineární regresní model (LRM) kde Y = y 1 y 2 y n, e = e 1 e 2 e n Y = Xβ + e, x 11 x 1k, X =, β = x n1

Více

Tomáš Karel LS 2012/2013

Tomáš Karel LS 2012/2013 Tomáš Karel LS 2012/2013 Doplňkový materiál ke cvičení ze 4ST201. Na případné faktické chyby v této prezentaci mě prosím upozorněte. Děkuji Tyto slidy berte pouze jako doplňkový materiál není v nich obsaženo

Více