INVESTICE DO ROZVOJE VZDĚLÁVÁNÍ. Ladislav Pecen, Petr Kasík

Rozměr: px
Začít zobrazení ze stránky:

Download "INVESTICE DO ROZVOJE VZDĚLÁVÁNÍ. Ladislav Pecen, Petr Kasík"

Transkript

1 Základy bostatstky a modelování lékařských dat Ladslav Pecen, Petr Kasík

2 Předmluva V současnost se statstka uplatňuje téměř ve všech oblastech medcíny. Důvodem jsou jednak vznk rozsáhlých databází v rutnní lékařské prax, jednak bouřlvý rozvoj výpočetní technky. Navíc výrobc softwarů včetně Mcrosoftu produkují statstcké programy a moduly včetně statstckých nástrojů v běžně dostupném Excelu. Cílem autorů je čtenáře uvést do statstckých metod používaných v bomedcíně a ukázat mu, kdy a proč lze které statstcké nástroje použít. Publkace vznkla na základě novovaného voltelného předmětu Základy bostatstky a modelování lékařských dat, který probíhá na Lékařské fakultě v Plzn a je určený studentům 2. a vyšších ročníku a postgraduálním studentům lékařství. Jak realzace voltelného předmětu, tak vytvoření publkace bylo podpořeno projektem OP VK CZ.1.07/2.2.00/ V Plzn, prosnec 2013 Ladslav Pecen 2

3 Autoř Doc. RNDr. Ladslav Pecen, CSc. Unverzta Karlova v Praze - Lékařská fakulta v Plzn Ústav nformatky Akademe věd ČR, Praha CEEOR Insttute, Praha 1 Ladslav.Pecen@seznam.cz Spolupráce př zpracování dat Petr Kasík student 5 ročníku oboru Všeobecné lékařství Unverzta Karlova v Praze - Lékařská fakulta v Plzn petakask@gmal.com 3

4 Obsah Úvod... 6 Kaptola 1 - Typy dat... 7 Číslcový dendrogram (Stem and leaf plot)... 9 Kaptola 2 - Míry polohy a varablty Medán Průměr Modus Rozpětí, rozptyl, směrodatná odchylka, varační koefcent Kvantly, kvartly a percently Kaptola 3 - Zobrazování dat Bodový graf (Dot plot) Krabcový graf Hstogram Sloupcový graf Křížové zobrazení Kaptola 4 - Rozdělení dat Normální (Gaussovo) rozdělení Bnomcké rozdělení Possonovo rozdělení Kaptola 5 Populace a výběr, randomzace Randomzace Jaké jsou základní typy randomzačních technk? Kaptola 6 - Pravděpodobnost a ntervaly spolehlvost Referenční nterval Interval spolehlvost Kaptola 7 - Testování hypotéz

5 Kaptola 8 Statstcké modely Jednovýběrový t-test - porovnání výběrového průměru se zadanou hodnotou Varanty Studentova t-testu ANOVA test (testování rozdílu více středních hodnot) Neparametrcké testy na porovnání středních hodnot Wlcoxonův pořadový test dvou nezávslých výběrů - Mann-Whtney test Medánový test dvou nezávslých výběrů Přehled základních testů Kaptola 9 Korelace a regrese Pearsonův lneární korelační koefcent Určování parametrů regresní funkce (lnearní nelneární) Poznámky ke korelační a regresní analýze Kaptola 10 Analýza přežtí Jak porovnat funkce přežtí? Kaptola 11 ROC analýza Kaptola 12 Volba desgnu stude Typy desgnu Kaptola 13 Závěr

6 Úvod Mnoho ldí vdí statstku jako něco poměrně nezážvného, čím není třeba se přílš zabývat předem, prostě nějak nasbírám jakás data a pak je teprve čas na statstku. Tato představa je bohužel naprosto scestná. Dá se použít jen ve velm jednoduchých aplkacích, kdy mě například zajímá, kolk různých typů léků předepsal jeden konkrétní lékař v březnu Nechceme z této nformace njak zobecňovat, nechceme odhadovat průměrnou spotřebu léků za rok apod. Také tam, kde jde o pops nějaké kazustky nebo několka málo kazustk, statstku na počátku opravdu nepotřebujete. Ale statstka je a musí být na začátku každého výzkumu, kde jsou statstcké metody použty k vyhodnocení výsledků. V Kaptolách 1-4 jsou vysvětleny základní pojmy a metody deskrptvní statstky. Na základě těchto znalostí je pak možné přpravt klnckou stud č výzkumný projekt tak, aby nasbíraná data přnesla co nejvíce relevantních nformací. Aby však byla mnmalzována možnost, že výsledek stude je pouze náhoda neodpovídající realtě, a aby byla zaručena dostatečná přesnost výsledků stude, je nutné zajstt odpovídající kvanttatvní kvaltatvní reprezentatvnost vzorku z cílové populace (Kaptola 5). Dále je třeba zajstt správnost a adekvátní přesnost zaznamenávaných údajů. Především je nutné se vyvarovat systematckých chyb, které mohou výsledky stude zkreslt. V kaptolách 6-7 jsou základy nferencální statstky a v kaptolách 8-10 pak konkrétní typy statstckých modelů pro různé typy dat. 6

7 Kaptola 1 - Typy dat V průběhu výzkumu č klncké stude sbíráme data, což jsou určté znaky zvoleného populačního vzorku (více o populac a vzorku vz Kaptola 5). Exstuje více druhů rozdělení dat, nejužtečnější se ukázuje dělení uvedené v Tabulce 1. Tabulka 1. Typy dat (podle Kvanttatvní (číselné) Kontnuální (spojtá čísla) Tlak krve, cholesterol, výška, váha Dskrétní (celá čísla) Počet dětí, počet astmatckých záchvatů týdně Kategorální Ordnální (uspořádané) Grade rakovny prsu Lepší, beze změny, zhoršení Souhlasí, neutrální, nesouhlasí Nomnální (neuspořádané) Pohlaví (muž/žena) Žvý nebo mrtvý Krevní skupna 0,A,B,AB Data dělíme na kvanttatvní (číselné) proměnné (ptáme se kolk? ) a kategorální proměnné (ptáme se jaký? ). Kvanttatvní proměnné dále dělíme na kontnuální (spojté) nebo dskrétní (nespojté, popsané celým čísly). Kontnuální proměnné mohou teoretcky získávat kteroukolv hodnotu z daného rozsahu (např. celkový cholestrol může být 4, mmol/l č ještě s vyšší přesností, pokud by se našla metoda umožňující tuto přesnost stanovení), zatímco nespojté proměnné se mění skokově (tj. např. počet dětí může být 0, 1, 2, 3, ale ne 1,5). Specálním případem kontnuálních proměnných je censorovaný parametr. Ten v sobě zahrnuje bnární nformac, zda došlo k určtému jevu, a zároveň čas od začátku sledování, kdy k danému jevu došlo. Příkladem je přežvání onkologckých pacentů, doba do relapsu onemocnění, čas do selhání léčby apod. 7

8 Kategorální proměnné jsou buď nomnální (jmenné, neuspořádané) nebo ordnální (uspořádané). Příkladem nomnálních proměnných jsou muž/žena, žvý/mrtvý, krevní skupna 0, A, B, AB, barva očí, hstologcký typ. Mají pouze význam jsté kvalty. Obvykle je na výběr pouze z konečné množny možností a nelze je žádným způsobem seřadt, jelkož jsou neporovnatelné a an v případě nomnálních proměnných s více než dvěma kategorem na pořadí nezáleží. Například nemůžeme říct, že ldé s krevní skupnou B leží mez skupnou A a AB. Tato data nelze uspořádat (např. podle velkost) a můžeme jen zjšťovat četnost. Kategorání velčny se obvykle popsují absolutní a relatvní četnost. Míry polohy nemají smysl až na občas používaný modus (nejčetnější hodnota), průměr nebo medán pro nomnální proměnné nemají vůbec smysl (vz Kaptola 2). Pro ordnální velčny je potřeba použít zobecněné defnce, kterým se zde ale nebudeme zabývat. Specálním případem jsou bnární (dchotomní) parametry. Tyto parametry mohou nabývat pouze dvou hodnot, např. pohlaví muž/žena, uzdravení pacenta Ano/ Ne, odpověď pacenta na léčbu (dostačující/ nedostačující odpověď na léčbu dle daných krtérí). Ordnální data představují, podobně jako data nomnální, výběr z nějakého počtu možností. Významným rozdílem oprot nomnálním datům je to, že lze přrozeným způsobem zavést uspořádání a u každé dvojce hodnot lze snadno určt, která hodnota je větší a která menší. Obecně je nejjednodušší sumarzovat výsledky pomocí kategorálníchch proměnných, proto jsou pro popsné účely kvanttatvní proměnné často převáděny právě na kategorální, a to užtím cut of hodnot. Například tlak krve může být převeden na nomnální (bnární) proměnné defnováním hypertenze jako dastolckého tlaku většího než 90mm Hg a normotenze jako tlak méně než nebo rovno 90mm Hg. Pro lékaře je jednodušší pracovat s poměrem populace s hypotenzí než s přesným hodnotam tlaku krve. Také nemusí lékař pro stanovení klncké dagnózy vědět přesnou hladnu koncentrace draslíku, ale spíše ho zajímá, zda je hladna v normálu č není. Z toho vyplývá, že kategorzace dat je užtečná pro shrnutí výsledku, ale už méně vhodná pro statckou analýzu. Obecně platí, že v stud s bnárním parametrem (například dosažení cílové hodnoty systolckého krevního tlaku např. 120 mmhg) bude zapotřebí zařadt více pacentů než pokud by prmárním cílem byl odpovídající spojtý parametr, tedy hodnota systolckého krevního tlaku nebo změna systolckého krevního 8

9 tlaku oprot měření před zahájením léčby. Síla statstckých testů pracujíích se spojtým velčnam je vyšší než když se tyto velčny kategorzují (vz Kaptola 7). Číslcový dendrogram (Stem and leaf plot) Před jakýmkolv statstckým výpočtem by měla být data uspořádána do tabulky nebo znázorněna v grafu (vz také Kaptola 3). Pokud máme kvanttatvní data a není jch mnoho (např. méně než 30), je praktcké je srovnat podle velkost. Například je podezření, že v chemcké továrně došlo je kontamnac rtutí pracovníků jednoho z provozů. Patnáct pracovníkům provozu byl vyšetřen obsah rtut v krv. Naměřené koncentrace rtut jsou uvedeny v Tabulce 2. Tabulka 2 Koncentrace rtut v krv (podle Koncentrace rtut v krv (µg/l), n = 15 3,8 3,1 0,7 1,2 1,4 2,1 1,8 0,9 1,2 1,6 0,6 1,7 3,9 0,8 2,8 Pro jednoduché a přehledné zobrazení a seřazení dat z Tabulky 2 je vhodné použít číslcový dendrogram, v anglčtně nazývaný stem and leaf plot (v překladu stonek a lsty ). Aby toto bylo možné, musíme výsledky nejdříve zaokrouhlt na jedno desetnné místo (v Tabulce 2 jž jsou zaokrouhlené), hodnoty nalevo od desetnné čárky jsou nazývány stonek ( stem ) a napravo lsty ( leaf ). Nejdříve do prvního sloupce pod sebe seřadíme stems a poté k těmto hodnotám přřadíme seřazené leafs. Tabulka 3 Číslcový dendrogram (podle stonek lsty

10 Pomocí tohoto zobrazení můžeme přehledně pozorovat vztah jednotlvých hodnot mez sebou, jejch odstup, zda se hodnoty rovnoměrně zvyšují nebo naopak pozorujeme znatelný skok v rozložení hodnot. Dnes se tento způsob vzualzace dat používá méně často než dříve a bývá nahrazen hstogramem (vz také Kaptola 3), případně doplněnou frekvenční tabulkou výsledků. Kaptola 2 - Míry polohy a varablty V souboru dat potřebujeme často určt jakous prostřední/střední hodnotu, kolem které jsou rozmístěna naše data. Exstuje několk popsných měr této prostřední/střední hodnoty, které se nazývají míry polohy. Medán Pro nalezení medánu (prostřední hodnoty) potřebujeme najít právě tu hodnotu, která leží uprostřed hodnot seřazených podle velkost. V případě souboru dat čítajících například 15 hodnot (lchý počet), seřazených od nejmenšího po největší, bude medán osmá největší hodnota a ve výše uvedeném příkladu tuto hodnotu můžeme odečíst z Tabulky 3 spočtením osmé hodnoty, což je zde 1,6. Pokud ovšem máme sudý počet uspořádaných hodnot, například 16, žádná hodnota neleží v prostředku. Nejblíže prostředku jsou osmá a devátá hodnota. Medán pak vypočteme jako artmetcký průměr osmé a deváté hodnoty, respektve dvou hodnot nejblíže prostředku. Pro symetrcké (Gaussovo) rozdělení četností hodnot je typcké, že vypočtený medán se velm dobře shoduje s artmetckým průměrem. Pro rozdělení slně odlšné od normálního (Gaussova) se může medán od artmetckého průměru lšt o několk řádů. Hlavní výhodou medánu jako hodnoty míry polohy je velká odolnost vůč odlehlým hodnotám. Mějme stuac, kdy př zapsování dat do tabulky 3 uděláme náhodnou chybu, př které prohodíme číslo 3,9 za 39. A právě v tomto případě se projeví výhoda medánu, který přes tuto změnu zůstane stejný na rozdíl od artmetckého průměru. Ve farmakolog se s medánem můžeme setkat př udávání ED50 č LD50 jako 10

11 charakterstk účnnost léků, kde medán se skrývá pod názvem 50% účnná dávka (effcent dose, ED50, dávka vedoucí k léčebné odpověd u 50% testovaných subjektů), resp. 50% smrtelná dávka (lethal dose, LD50, dávka vedoucí ke smrt u 50% testovaných subjektů, tj. pokusných zvířat). Někdy se medan dá určt z dat mnohem snáze než průměr, například u censorovaných dat (vz Kaptola 10) jako jsou doba přežtí onkologckých pacentů. Proto se zde uvádí obvykle medán přežtí a ne průměrné přežtí. Průměr Artmetcký průměr, v běžné řeč obvykle nazývaný jen termínem průměr, vyjadřuje střední hodnotu popsující soubor mnoha hodnot. Lze ho použít, pokud čísla můžeme opravdu sčítat, tj. znaky jsou kvanttatvní, a neměl by být používán pro ordnální znaky vzhledem k lbovůl př volbě ordnální stupnce. Další nevýhodou, která byla jž zmíněna, je ctlvost k odlehlým hodnotám. Například pokud bychom chtěl vypočítat průměrný majetek obyvatel města Redmond v USA, dostal bychom vysoké číslo, přesto to neznamená, že běžný obyvatel tohoto města by byl tak bohatý. Tento fakt pouze odráží skutečnost, že v daném městě bydlí multmlardář Bll Gates. Jným slovy, jedná hodnota, která se velce výrazně odlšuje od ostatních, může ovlvnt hodnotu artmetckého průměru tak, že průměr vyjadřuje zcela luzorní údaje. Artmetcký průměr je zřejmě nejčastěj používaný statstcký pojem, který se objevuje v běžném ldském vyjadřování. S tím ovšem souvsí fakt, že je velce často využíván chybně, č dokonce záměrně zneužíván. Další běžnou chybnou domněnkou je, že hodnota průměru přblžně rozděluje soubor na polovnu menších hodnot souboru a větších hodnot souboru; tuto vlastnost má však medán. Průměr z hodnot ve výběru vypočítáme, jestlže součet všech hodnot dělíme rozsahem výběru (n). Máme-l tedy n pozorování: x1, x2, x3,,xn, pak průměr počítáme následujícím způsobem. Součet pozorování se značí symbolem, počet pozorování je n. 11

12 Artmetcký průměr může být také vážený. Pro výpočet váženého průměru potřebujeme jednak hodnoty, jejchž průměr chceme spočítat, a zároveň jejch váhy. Například váhy nejnžších a nejvyšších hodnot mohou být nízké, ostatní váhy rovné jednčce. Váha může souvset s důležtostí nebo důvěryhodností daného výsledku. Vážený průměr je dán vzorcem č Pokud jsou všechny váhy stejné, je vážený průměr totožný s artmetckým průměrem. S váženým průměrem je spojen tzv. Smpsonův paradox. Vezměme příklad dvou studentů na dvou různých školách, říkejme jm Petr a Pavel. Oba dva píší během semestru dva testy. Školy jsou různé, proto testy se lší. Petr má v prvním testu úspěšnost 46,2 % a ve druhém 100 %., zatímco Pavel má v prvním úspěšnost 33,3 % a ve druhém 75 %. Vypadá to, že Petr je úspěšnější student. Pokud ale úspěšnost vážíme počtem otázek, závěr bude jný. Podstatou problému je, že Petr s Pavlem psal různé testy a počet otázek byl různý. Petr totž v prvním testu odpověděl správně na 6 z 13 otázek (46,2% úspěšnost) a pak na 2 ze 2 otázek (100%). Celkem tak zodpověděl správně 8 z 15 otázek. Pavel odpověděl správně 1 ze 3 (33,3%) a pak 8 z 12 otázek (75%). Celkem tak zodpověděl 9 z 15 otázek. Z tohoto úhlu pohledu už je zase úspěšnější Pavel. Vážený průměr z procent úspěšnost v testu s vaham počet otázek v testu vede u Petra k váženýémuprůměru 53,3%, zatímco u Pavla k číslu 60,0%. Pavel je tudíž z tohoto úhlu pohledu úspěšnější student, ačkolv v každém z obou testů měl menší procentuální úspěšnost než Petr. Na Smpsonově paradoxu není nc nepochoptelného a skutečně se s ním můžete občas setkat. Geometrcký průměr n nezáporných pozorování: x 1, x 2, x 3,,x n je defnován jako n-tá odmocnna jejch součnu: 12

13 Geometrcký průměr se používá např. pro relatvní rzka a různé relatvní ndexy. Také se používá pro data, která mají tzv. log-normální rozložení (vz Kaptola 4). Harmoncký průměr n nezáporných pozorování: x 1, x 2, x 3,,x n je defnován jako podíl rozsahu souboru n a součtu převrácených hodnot. Jným slovy je to převrácená hodnota artmetckého průměru převrácených hodnot výsledků: Harmoncký průměr se používá většnou v případě rychlostí, např. rychlost proudění krve. Harmoncký průměr je vždy menší nebo roven geometrckému průměru. Modus Modus (Mod(x)) je hodnota, která se v daném statstckém souboru vyskytuje nejčastěj (je to hodnota znaku s největší relatvní četností). V souboru čísel 2, 3, 5, 1, 5, 3, 7, 5 bude modus číslo 5. Představuje jakous typckou hodnotu sledovaného souboru a jeho určení předpokládá roztřídění souboru podle obměn znaku. Výhodou modu je, že ho lze snadno použít pro nomnální nebo ordnální data, kde např. artmetcký průměr použít nelze. Např. modus souboru vedlejších účnků SSRI antdepresv (nauzea, nespavost, sedace, bolest hlavy, nauzea, nespavost, nauzea, ztráta lbda) je nauzea. Dále se může využít například pro výpočet četnost krevních skupn. Může se ale stát, že modus nastává ve více hodnotách. Například nečetněj se vyskytují hodnoty 1 a 3 a obě s četností 10. Všechny výše uvedené míry polohy jsou zakresleny na Obrázku 1. Obecně ale njak neplatí, že nejmenší musí být modus, pak medán a nejvyšší artemtcký průměr. Uspořádaní těchto měr polohy může být dle rozdělení dat lbovolné. 13

14 Obrázek 1. Míry polohy zakreslené v ukázkovém grafu - modus, medán, artmetcký průměr (převzato z webových stránek upraveno) Pokud chceme znát varabltu dat, míry polohy samy o sobě nestačí. Používá se několk metod výpočtu varablty (míry varablty): výpočet některé číselné charakterstky popsující kolísání dat kolem průměru nebo jné míry polohy, určení rozpětí č kvantlů. Rozpětí, rozptyl, směrodatná odchylka, varační koefcent Varablta je malá, pokud jsou pozorování soustředěna kolem svého průměru. Pokud jsou naopak roztroušena ve značné vzdálenost od průměru, pak je jejch varablta velká. Varabltu tedy často měříme právě pomocí odchylek pozorování od průměru a k tomuto používáme statstcké velčny: rozpětí, rozptyl, směrodatná odchylka a varační koefcent. Rozpětí (R) je rozdíl mez nejvyšší a nejnžší hodnotou v datech. Jeho nevýhodou je, že závsí na extrémních hodnotách, může tedy poskytnout velm zavádějící nformac o daném jevu. Přesto je rozpětí celkem užtečná míra, když výběr může například vykazovat vysoké rozpětí, přestože většna hodnot se bude blížt průměru. R = x max - x mn Rozptyl (angl. varance, zkratka s 2 ) je poměrně často užívanou mírou varablty. 14

15 Rovná se průměrnému čtverc odchylky hodnoty ze statstckého souboru od průměru. Součet čtverců je poté dělen počtem prvků mínus jedna nebol stupňů volnost. Toto platí, pokud určujeme tzv. výběrový rozptyl. V tomto případě chceme vlastně na základě výběru odhadnout co nejlépe rozptyl celé populace, který neznáme a nemůžeme ho přímo změřt. Chceme-l jen popsat množnu výsledků, pak popsný rozptyl je dělen počtem prvků. Pro snadnější pochopení stupňů volnost s představte například, že s máte vybrat jednu čokoládu z určtého počtu, který je v balení. Pokaždé máte možnost výběru, dokud se nedostanete k poslední, kde jž žádnou další možnost výběru nemáte. Proto n-1, nebol stupně volnost. V případě roztylu je to tak, že pokud znáte artmetcký průměr a n-1 výsledků, pak n-tý výsledek je už dán. Čím je rozptyl větší, tím více se údaje odchylují od průměru. Nevýhodou je, že výběrový rozptyl nevychází ve stejných jednotkách jako původní hodnoty (nemají stejný fyzkální rozměr jako znaky ze statstckého souboru, ale rozměr je jednotka na druhou). Směrodatná odchylka (angl. standard devaton, zkratka s nebo SD) je nejčastěj používanou mírou varablty souboru. Její velkou výhodou ve srovnání s výběrovým rozptylem je to, že má stejný fyzkální rozměr jako střední hodnota. Opět odlšujeme výběrovou směrodatnou odchylku a popsnou směrodatnou odchylku. Výsledky se lší tím, že u výběrové směrodatné odchylky dělíme rozptyl počtem prvků mínus jedna, v případě popsné směrodatné odchylky děléme rozptyl počtem prvků. Směrodatná odchylka je jakýs průměrný rozdíl (ovšem průměr ve smyslu druhé odmocnny z průměrů druhých mocnc odchylek) mez hodnotam a průměrem př gnorování znamének a počítá se jako druhá odmocnna rozptylu: Exstuje také tzv. absolutní rozptyl defnovaný stejně jako rozptyl s tím rozdílem, že namísto druhé mocnny odchylky hodnoty od průměru v něm vystupuje absolutní hodnota tohoto rozdílu. Tento absultní rozptyl se používá jen ojedněle, protože má špatné statstcké vlastnost a není vhodný pro testování hypotéz. Varační koefcent (angl. coeffcent of varaton, zkratka CV) představuje relatvní 15

16 míru varablty. Používá se například na porovnávání varablty mez soubory dat s odlšným průměry. Počítá se jako podíl směrodatné odchylky a průměru. Je bezrozměrný a obvykle se vyjadřuje v procentech. Varační koefcent používáme pro srovnání několka náhodných velčn s velm odlšným průměry nebo pro srovnání varablty velčn měřených v různých jednotkách. Často se používá př statstcké kontrole kvalty laboratorních testů. Kvantly, kvartly a percently Někdy je užtečné rozdělt data například na určtý počet částí, k tomu se často používají kvantly. 100P% kvantl je taková hodnota, kdy 100P % hodnot ve výběru má hodnotu menší nebo rovnou tomuto kvantlu. Pokud se jedná o dělení dle celočíselných procent, mluvíme o percentlech. V anglcké termnolog se často slovo percentle užívá jako synonymum slova quantle. To není ve skutečnost žádný problém. V češtně se naopak preferuje používání slova kvantl. Proto v anglčtně obvykle napíšeme 33.3% percentle, zatímto v češtně 33,3% kvantl. Obvykle ale v anglčtně napíšeme též 33% percentle a v češtně 33% kvantl. Defnce je jednoduchá: 1% percentl je hodnota, pod kterou leží 1% hodnot (1. percentl). Percently tedy rozdělují soubor na 100 částí. Pokud oddělíme hodnoty po 25%, 50% a 75%, dostáváme kvartly Q1, Q2, Qq3 (nebo označeny jako q1, q2, q3). Druhý kvartl Q2 je rovný medánu (50% kvantlu č percentlu). Kvantly poskytují velm cenný pops varablty výběrového souboru a jsou často užívané pro srovnání ndvduálních hodnot se stanoveným normam. Varabltu dat získáme jako mezkvartlové rozpětí (angl. nterquartle range, zkratka IQR), což je rozdíl mez třetím a prvním kvartlem: Pokud není možné rozdělt data na přesné čtvrtny, pak se kvartly dopočítávají z nejblžších hodnot stejně, jako se to dělá pro výpočet medánu v případě sudého počtu hodnot. Stejný postup se aplkuje pro výpočet kvatlů/percentlů. V těchto případech 16

17 nestačí průměrovat nejblžší hodnoty, ale počítá se lneární extrapolace. Tím se ale nebudeme podrobněj zabývat. Obrázek 2. Vzrůst žen v závslost na věku, příklad užtí percentlu (převzato z upraveno). Příklad nejen k procvčení (příklad ukáže, jak odvodt celkovou směrodatnou odchylku, známe-l směrodatné odchylky a průměry v podskupnách) (podle Zvárová J.): Na psychatrcké klnce bylo v určtém období hosptalzováno 150 osob (n 1 ) na oddělení A s průměrnou délkou hosptalzace 19 dní a směrodatnou odchylkou 3,4 dne (s 1 ), 100 osob (n 2 ) na oddělení B s průměrnou délkou hosptalzace 7 dní a směrodatnou odchylkou 2,4 dne (s 2 ) a na oddělení C 90 osob (n 3 ) s průměrnou délkou hosptalzace 12 dní a směrodatnou odchylkou 3,8 dne (s 3 ). Spočtěte průměrnou délku hosptalzace a směrodatnou odchylku (s) pro všech 340 pacentů. Řešení: Průměrná délka hosptalzace je: a rozptyl je: Důležté je, že rozdíl pacenta od celkového průměru můžeme rozepsat následovně: 17

18 (výsledek celkový průměr) 2 průměr) ] 2 = = [(výsledek průměr odd.) + (průměr odd. celkový = (výsledek průměr odd.) 2 + (průměr odd. celkový průměr) x (průměr odd. celkový průměr) x (výsledek průměr odd.). V posledním členu je ale (průměr odd. celkový průměr) daný a můžeme ho př sčítání brát jako konstantu. Střední hodnota výrazu (výsledek průměr odd.) vzatá přes všechny pacenty hosptalzované na daném oddělení je pak nula. Tak je přece defnován průměr délky hosptalzace na oddělení. Směrodatná odchylka délky hosptalzace spočtená ze všech 340 pacentů je tedy s = 6,08 dne. Pomocí výběrového průměru a výběrové směrodatné odchylky (s) snadno spočítáme varační koefcent v pro výběrový soubor: Kaptola 3 - Zobrazování dat Grafcké zobrazování dat by mělo vždy předcházet statstckým analýzám. V grafu dobře vdíme typ rozdělení především to, je-l normální (Gaussovské) č nkolv. Pak je snadné nalézt odlehlé výsledky. Také je vdět případný efekt zaokrouhlování. Př měření krevního tlaku konvenční metodou bývá například poměrně časté zaohrouhlování na násobky deset. Pak četnost výsledků měření dastolckého tlaku 90 mmhg bývá mnohem vyšší než 88 mmhg č 92 mmhg. Př zobrazení více parametrů (jeden na ose x, druhý na ose y) vdíme, je-l mez nm souvslost a když ano, je-l tato souvslost lneární. Bodový graf (Dot plot) Nejjednodušším přehledným grafem je bodový graf (anglcky dot plot). Je to statstcké schéma, kam se do sloupců zakreslují jednotlvé výsledky měření, nejčastěj ve tvaru bodů. V dnešní době exstují dva typy těchto grafů, které mají odlšné možnost použtí. 18

19 První, starší model vytvořený Lelandem Wlknsonem, pochází ještě z doby předpočítačové éry pro zobrazování dstrbuce hodnot. Další graf navrhl a popsal Wllam Cleveland jako alternatvu ke sloupcovému č koláčovému grafu, kde jsou ve sloupcích zakresleny kvanttatvní hodnoty (např. počty) vztažené ke kategorckým proměnným. Bodové grafy jsou vhodné pro malé a středně velké soubory dat. Snadno se z nch dají vyčíst hustější seskupení hodnot nebo naopak větší mezery mez nm a stejně tak hodnoty velm vzdálené od průměru. Příklad bodového grafu je znázorněn na Obrázku 3. Obrázek 3. Bodový graf (převzato z Krabcový graf Dobrou alternatvou pro velm rozsáhlý soubor dat je krabcový graf (anglcky boxwhsker plot). Boxy jsou ohrančené prvním a třetím kvartlem (vz níže) zahrnující 50% všech hodnot a fousy dokreslující po 25% směrem nahoru a dolů zbylé hodnoty rozpětí (varační šíře). Tento graf nám nabízí šroké možnost v zakreslování mnoha dalších nformací. Mmo medánu je možné pomocí metody, mplementované v některých počítačových programech: rozšířt box fousy zahrnující 1,5 násobek kvartlového rozmezí a zbývající vzdálené hodnoty mmo tento rozsah zakreslt pouhým body. Někdy se také zobrazuje do krabcového grafu také artmetcký průměr. 19

20 Obrázek 4. Krabcový graf (převzato z webových stránek ) Hstogram Předpokládejme nyní, že naše pedatrcká stude bude chtít zahrnout dět stejného věku v celém městě. Nejlepším způsobem, jak toto obrovské množství dat přehledně zpracovat, je frekvenční tabulka a následné zakreslení do hstogramu, který je nejčastějším zobrazením rozdělení četností. Jedná se o sloupcový graf, kde sloupce jsou vždy vertkální a jejch výška odpovídá četnost (absolutní nebo relatvní). Šířka sloupců má v hstogramu též význam - základna každého sloupce zahrnuje třídu hodnot velčny. Četnost tedy odpovídá ploše sloupce (tj. šířce sloupce krát výšce). Z hstogramu dobře poznáme, jedná-l se o normální (Gaussovské) rozdělení č nkolv. Někdy se do hstogramu též zobrazuje, jak by vypadaly četnost, pokud by př stejném průměru a směrodatné odchylce bylo rozdělení normální. Také v hstogramu vdíme hodnoty odlehlé od ostatních a o kolk jsou tyto hodnoty odlehlé. Hstogram je také deálním zobrazením pro nalezení efektu zaokrouhlování. Na Obrázku 5 je ukázka ze stude, kde byl měřen krevní tlak. Měření se opakovalo třkrát po sobě a lékař uváděl průměrné hodnoty z těchto tří měření. Nalevo je ukázka výsledků od lékaře, který nezaokrouhloval tlak na násobky deset. Výsledky od lékaře v hstogramu napravo ukazují enormně vyšší četnost výsledků stanovení dastolckého tlaku 80 mmhg, 90 mmhg a 100 mmhg. 20

21 Obrázek 5. Hstogram dastolckého tlaku a efekt zaokrouhlování na násobky deset (zdroj: záznamy autora). Sloupcový graf Sloupcový graf je dagram, který znázorňuje složení sledovaného souboru pomocí obdélníkových pruhů, jejchž délka proporconálně odpovídá velkost hodnot, které znázorňují. Pruhy mohou být nakresleny svsle vodorovně a poskytuje rychlý přehled o poměrech jednotlvých hodnot. Na první pohled vypadá jako hstogram, ale jeho vlastnost jsou jné Percent females males females males females males females males I. II. III. IV. Normal Vt D >=75 nmol/l Quarter Obrázek 5. Ukázka sloupcového grafu (zdroj: záznamy autora). 21

22 Křížové zobrazení Křížové zobrazení (anglcky scatter plot, česky také někdy nazývaný korelační dagram) je graf, který zobrazuje v souřadncích x vs. y hodnoty dvou parametrů. Data jsou znázorněna jako body, jejchž umístění na vodorovné ose (ose x) udává hodnota prvního parametru a umístění na svslé ose (ose y) hodnota druhého parametru. Pomocí křížového zobrazení je možné jednoduše zjstt vzájemný vztah mez oběma parametry. Pokud nějaký vztah exstuje, pak je možné určt, je-l lneární č nelneární. Závslost mez parametry lze také nterpolovat přímkou, křvkou nebo jným typem závslost. Obrázek 6. Ukázka křížového zobrazení (zdroj: záznamy autora). Kaptola 4 - Rozdělení dat Znalost rozdělení dat především umožňuje zvolt vhodný statstcký test na analýzu dat (vz Kaptoly 7 10). Také je možné data adekvátně popsat a případně extrapolovat mmo oblast naměřených výsledků. 22

23 Normální (Gaussovo) rozdělení Normální (Gaussovo) rozdělení (normální rozdělení, Gaussova dstrbuce, Laplace- Gaussovo rozdělení) patří mez nejdůležtější rozdělení pravděpodobnost spojté náhodné velčny. Náhodné děje vyskytující se v přírodě č společnost lze dobře modelovat právě normálním rozdělením. Jako příklad takového náhodného děje, který se řídí Gaussovým rozdělením, může sloužt např. IQ nebo tělesná výška v populac, vtální kapacty plc nebo třeba chyby měření. Řada dalších rozdělení se př dostatečně velkém vzorku ke Gaussově dstrbuc číselně blíží, takže lze využít tabelovaných hodnot dstrbuce např. k výpočtu problémů modelovatelných bnomckým rozdělením. Jná rozdělení lze na normální poměrně snadno transformovat, např. tzv. log - normální rozdělení (tj. rozdělení výsledků, které není gaussovské, ale po zlogartmování jž gaussovské je) popsující stáří bílých krvnek v perferní krv. K normálnímu rozdělení patří často zmňované náhodné chyby, např. chyby měření, způsobené velkým počtem neznámých a vzájemně nezávslých příčn. Proto bývá normální dstrbuce také označována jako zákon chyb. Dobře je to vdět př smulac tzv. Galton č bean machne (Galtonův č fazolový stroj) (Obrázek 7), kde se padající fazole náhodně odráží na řadě překážek a rozdělení míst, kam dopadnou, je gaussovské) č Obrázek 7. Galton machne smulující Gaussovo rozdělení (převzato z 23

24 Tímto zákonem se také řídí rozdělení některých fyzkálních a technckých velčn. Gaussova křvka (hustota pravděpodobnost) je vlastně funkcí dvou proměnných: střední hodnoty μ a rozptylu σ 2. Gaussova křvka je symetrcká, střední hodnota μ leží právě tam, kde je vrchol křvky. Tvar křvky s extrémem v místě střední hodnoty znamená, že př opakování náhodného pokusu řídícího se Gaussovým rozdělením budou nejčastěj vycházet hodnoty v okolí střední hodnoty. Symetre křvky pak značí, že výsledky vychýlené nad pod střední hodnotu budou vycházet zhruba stejně často. Parametr σ 2 určuje, jak těsně se křvka přmyká střední hodnotě; čím nžší je tento parametr, tím je graf ostřejší. V prax se často používá tzv. pravdlo tří sgma, někdy dvou nebo jednoho sgma. Platí totž, že výsledek náhodného pokusu s rozdělením N (μ, σ 2 ) leží v ntervalu: (μ σ, μ + σ) s pravděpodobností 68,27 %, (μ 2σ, μ + 2σ) s pravděpodobností 95,45 %, (μ 3σ, μ + 3σ) s pravděpodobností 99,73 %. Obrázek 8. Gaussova dstrbuce (převzato z Platí, že je-l velčna normálně rozdělena, pak průměr, medán a modus jsou shodné, tj. mají stejnou hodnotu. Je-l velčna zeškmena napravo (tj. má pravostranně asymetrcké rozdělení nebol delší pravý chvost), pak modus < medán < průměr. Význam křvky popsující hustotu pravděpodobnost s lze představt konstrukcí z hstogramu, tedy sloupcového dagramu tvořeného obdélníky, které mají pevně zvolenou šířku základny na ose x odpovídající zvolenému ntervalu (např. př měření 24

25 výšky můžeme vytvořt kategore po pět centmetrech). Výška obdélníku (tedy rozměr v ose y) pak odpovídá četnost dané třídy. Pokud budeme mít výsledky z pokusu s normálním rozdělením a budeme šířku jedné kategore lmtně snžovat k nule, dostateme právě hustotu pravděpodobost Gaussova rozdělení. Bnomcké rozdělení Bnomcké rozdělení patří mez tzv. dskrétní rozdělení. Na rozdíl od Gaussova rozdělení patřícího mez spojtá rozdělení, kde výsledek je lbovolné reálné číslo, v případě dskrétních rozdělení jsou možným výsledky pouze dskrétní hodnoty. Pokud má jev stále stejnou pravděpodobnost, popsuje se četnost výskytu náhodného jevu v n nezávslých pokusech bnomckým rozdělením (někdy též Bernoullho schéma). S jakým typem problému souvsí bnomcké rozdělení? Např. - nově příchozí pacent je muž, narozené dítě je chlapec. Důležté je, že počet pokusů č zjštění je pevný a je předem dán. Jedná se tedy o n nezávslých náhodných pokusů. Na obrázku 9 je rozdělení pravděpodobnost, že v rodně s 6 dětm nebude žádné děvče, 1 děvce, 2 děvčata... 6 děvčat, přčemž pravděpodobnost narození dívky je v každém porodu stejná, a to 49%. S rostoucím počtem nezávslých pokusů n se bnomcké rozdělení téměř nelší od normálního až na to, že se jedná o dsktrétní rozložení vz obrázek 10. Obrázek 9. Bnomcké rozdělení se 6 pokusy a pravděpodobností 49% v každém pokusu - - počet dívek v rodně s 6 dětm (zdroj: záznamy autora). 25

26 Obrázek 10. Bnomcké rozdělení s 1000 pokusy a pravděpodobností 30% (nelší se od gaussovkého, až na to, že se jedná o dskrétní rozložení (zdroj: záznamy autora). Possonovo rozdělení Toto rozdělení pravděpodobnost, pojmenované podle francouzského matematka S. D. Possona, mají náhodné proměnné, které popsují četnost jevů s těmto vlastnostm: to, že jev v daném ntervalu (časovém, prostorovém) nastane (nenastane), nezávsí na tom, co se stalo jndy nebo jnde, pro každý časový okamžk je pravděpodobnost jevu v malém časovém ntervalu stejná (totéž platí v prostoru), neexstuje případ, že by nastaly dva jevy přesně v jednom časovém okamžku nebo místě v prostoru. Possonovo rozdělení se týká řídkých jevů, a proto se mu také často říká rozdělení č zákon řídkých jevů. Například vezměme počet pacentů, kteří přjdou do ordnace praktckého lékaře X ve městě Y. Z celkového počtu možných pacentů, tj. obyvatel celé městay, případně okolních obcí, jch během jednoho dne přjde do ordnace lékaře X velm málo. Opravdu žádní dva nepřjdou přesne ve stejný čas jeden musí dát ve dveřích přednost druhému a tak se příchody lší, byť někdy jen nepatrně. V tomto příkladě není často ntenzta přchodu pacentů během pracovní doby lékaře homogenní, ncméně se dá tak aproxmovat. Počet pacentů, kteří přjdou jednotlvé dny do ordnace lékaře, má pak Possonovo rozdělení. Průměrný počet výskytů zkoumaného jevu v daném úseku jednotkové délky (za den, 26

27 hodnu, za rok dle kontextu) označujeme λ. Possonovo rozdělení se nemá na rozdíl od bnomckého rozdělení omezen počet pokusů. To znamená, že pravděpodobnost výskytu sledovaného jevu v jednom pokusu je velm malá a blíží se nule, zatímco počet pokusů se blíží k nekonečnu. Obvykle můžeme bnomcké rozdělení aproxmovat Possonovým tehdy, pokud n>30 a p 1/10. Je-l pravděpodobnost nějaké výjmečné událost (např. určté mutace genu) relatvně malá a rozsah výběru poměrně velký, pak Possonovo rozdělení v podstatě splývá s bnomckým (Obrázek 13). Obrázek 11. Possonovo rozdělení - hustota pravděpodobnost (převzato z wkpeda.org). Obrázek 12. Bnomcké rozdělení B (10000, 0,0003), tj. n=10000, p=0,0003 (zdroj: záznamy autora). 27

28 Obrázek 13. Possonovo rozdělení Po(3), tj. λ = 3, je praktcky neodlštelné od bnomckého rozdělení B (10000, 0,0003), (zdroj: záznamy autora). Velký význam má Possonovo rozdělení v teor hromadné obsluhy, kde popsuje takové náhodné jevy, jako jsou příchody zákazníků (což se samozřejmě týká pacentů), úrazy např. zlomenn př lyžování v Pec pod Sněžkou, apod. Dalším příklady jsou: rozdělení počtu úmrtí na některé málo obvyklé onemocnění např. počet úmrtí na paratyfus a jné nfekce způsobené salmonelam, počet onemocnění karcnomem u osob pracujících s potencální karcnogenní látkou, počet dopravních nehod, úrazů, pojstných událostí apod., počet požadovaných ošetření na klnce za den, počet branek za fotbalový zápas, atd. Kaptola 5 Populace a výběr, randomzace Populací ve statstce rozumíme množnu subjektů, kterých se stude č výzkum týká. Konkrétně to mohou být např. pacent s určtou dagnózou nebo je u nch použt stejný terapeutcký postup (jedná se o populac defnovanou stejným ncluson/excluson krtér). Samozřejmě nelze studovat celou populac pacentů: tto pacent žjí po celém 28

29 světě, jž zemřel, dosud jsou ještě zdráv, č se ještě nenarodl. Chceme však na základě vybrané skupny pacentů ze zkoumané populace udělat úsudek o tom, zdal naše myšlenka/hypotéza (více o hypotézách vz Kaptola 7) platí pro celou populac č nkolv. Jelkož celou populac neznáme, úsudek o platnost hypotézy může být jen a jen pravděpodobnostní! Vybrané skupně z populace se říká výběr, jednotlvé subjekty nazýváme vzorky (samples). Důležtou vlastností vzorku je, že každý jednotlvec dané populace má nenulovou šanc dostat se do výběru. Chceme, aby vzorky byly vybírány nezávsle; jným slovy, výběr jednoho subjektu by němel ovlvnt šanc jnéhu subjektu být zařazen do výběru. Abychom tedy zajstl nezávslé zařazení subjektů do výběru, používají se metody randomzace. Randomzace Zeptáme-l se kohokolv znalého metodky klnckých studí, k čemu vlastně slouží randomzace, ve většně případů se nám dostane odpověd, že randomzace je používána pro zajštění náhodného rozdělení pacentů do srovnávaných léčebných skupn (ramen stude). Tuto odpověď nelze považovat za nesprávnou, ncméně pokud v dotazu pokračujeme a zajímáme se o to, proč je náhodné rozdělení důležté, odpovědí je nám většnou mlčení. Představíme-l s, že by rozdělování pacentů do srovnávaných skupn nebylo náhodné a bylo by prováděno subjektem (např. zkoušejícím), který má zájem na určtém výsledku prováděné stude (např. na průkazu superorty expermentální léčby vůč placebu), je zřejmé, že hlavním cílem randomzace je zamezt subjektvnímu a selektvnímu rozdělování pacentů do jednotlvých ramen stude. Proces randomzace zajšťuje, že charakterstky subjektů budou ve všech skupnách shodné. Bude tedy vyvážené např. zastoupení pohlaví, věku, stádí nemoc, ale neznámé č nesledované rušvé faktory budou díky procesu randomzace vyváženě rozděleny. Jakákol dsproporce mez skupnam randomzované klncké stude pak není vlvem systematcké chyby, ale je pouze náhodná. Pravděpodobnost, že k takové náhodě dojde je obecně velm malá a klesá s počtem subjektů v hodnocení. 29

30 Pokud však budeme jako autoř protokolu klncké stude požadovat po statstkov přípravu randomzace, je dobré vědět, že se nemusíme spokojt jen s výše uvedeným hlavním požadavkem na randomzac, ale můžeme po statstkov chtít nastavt plán randomzací tak, abychom po určtém počtu zařazených pacentů do stude celkem zajstl jejch požadovaný poměr v jednotlvých ramenech, tedy nejčastěj stejný nebo téměř stejný počet subjektů ve srovnávaných skupnách. Tento požadavek je důležtý především u studí, ve kterých předpokládáme průběžné statstcké hodnocení (nterm analýzy), kdy př malém počtu subjektů může jejch nerovnoměrné zastoupení ve srovnávaných skupnách negatvně ovlvnt sílu statstckého testu a tedy např. naš schopnost prokázat rozdíl v účnnost léčby mez rameny, pokud tento skutečně exstuje. Každá randomzace díky prvku náhody vede k rovnoměrné rozložení prognostckých faktorů ve srovnávaných skupnách včetně tzv. rušvých faktorů, a to známých neznámých, jejchž nerovnoměrné rozložení v ramenech stude může vést ke zkreslení výsledků. Čm výše subjetků je ve stud, tím je rozdělní parametrů mez skupnam rovnoměrnější. Každý rozdíl je pak jen dílem náhody. Jak s představt takové známé rušvé faktory? Představme s, že plánujeme onkologckou klnckou stud, kde podle vstupních krterí můžeme zařadt pacenty klnckého stada IIA IIB, přčemž víme, že pacent s méně pokročlým stadem mají mnohem vyšší pravděpodobnost poztvní léčebné odpověd, která je zároveň prmárním endpontem této stude. V tomto případě by nerovnoměrné zastoupení pacentů jednotlvých klnckých stadí vedlo ke zkreslení výsledků stude, protože vyšší podíl pacentů s pokročlejším stadem onemocnění v některém ramen může vést k horším léčebným výsledkům v tomto ramen a tedy zkreslení výsledků stude. V tomto uvedeném případě lze tedy klncké stadum považovat za známý rušvý faktor. Naopak příkladem neznámého rušvého faktoru může být např. přítomnost určtého genotypu ovlvňujícího metabolsmus hodnoceného léčvého přípravku č jný faktor, v době realzace stude neznámý. Jaké jsou základní typy randomzačních technk? Nejjednodušší z randomzačních technk je tzv. kompletní randomzace. Tuto technku s můžeme představt jako jednoduchý systém rozdělování pacentů do srovnávaných léčebných skupn pouze na základě pravděpodobnost dané počtem srovnávaných skupn a požadovaným poměrem počtu pacentů v těchto skupnách. Tedy pro 30

31 plánovanou stud se dvěma rameny a plánovaným poměrem počtu pacentů v těchto ramenech 1:1 by jako model kompletní randomzace mohl sloužt hod mncí. Tato technka není v současnost přílš používána, především z důvodu rzka nevyváženého počtu pacentů v jednotlvých ramenech (zkusme s hodt 10 krát mncí a otestovat jaká je šance že padne právě 5 krát panna a 5 krát orel) a dále z důvodu absence kontroly dstrbuce prognostckých faktorů mez rameny. Jen pro zajímavost, př zařazení celkem 100 pacentů do stude a př záměru tyto rozdělt do dvou ramen stude tak, aby v každém ramen bylo právě 50 pacentů, je př použtí technky kompletní randomzace pravděpodobnost pouhých 8 %, že bude v obou ramenech skutečně 50 pacentů, je tedy velm pravděpodobné, že počet pacentů v obou ramenech bude nevyrovnaný. Zlatým standardem je tzv. bloková randomzace, která zajstí, že počet subjektů ve všech skupnách bude shodný. V příkladu výše byla pravděpodobnost shodného počtu subjektů ve dvou léčebných skupnách, tj. 100 subjektů v každém z nch, pouze 8%. Př blokové randomzac tento problém nemůže nastat, protože je vždy randomzován celý blok subjektů najednou. Například, pokud máme blok o velkost 4 a randomzujeme subjekty do dvou ramen, tak v každém bloku budou právě dva subjekty randomzovány do prvního ramene a zbývající dva subjekty do druhého ramene. Bloková randomzace je založena na tom, že předem stanovíme velkost tzv. randomzačního bloku, nebol stanovíme počet pacentů, po jejchž zařazení požadujeme dosáhnout stejného počtu pacentů ve všech srovnávaných ramenech. Postup blokové randomzace je následující. Je zvolena velkost bloku, což je číslo děltelné počtem skupn (přesněj řečeno počtem podílů, na které jsou subjekty hodnocení rozděleny v daném poměru). Zároveň musí být toto číslo děltelem počtu subjektů, které je plánováno randomzovat. Příklady správného určení velkost bloku jsou následující: Pokud jsou subjekty randomzovány do skupn v poměru 1:1, pak musí být velkost bloku děltelná 2. Pokud je poměr 1:2, pak musí být velkost bloku děltelná 3. Pokud se jedná o víceramennou stud s poměrem subjektů v jednotlvých ramenech 1:2:3, pak musí být velkost bloku děltelná 6. Velkost bloku 2 se samostatně nepoužívá, protože umožňuje velm jednoduše určt, do jakého ramene bude druhý subjekt v bloku randomzován (pokud je první subjekt 31

32 randomzován do ramene A, pak druhý musí být randomzován do ramene B a naopak). Pokud je blok přílš velký, zvyšuje se možnost, že v průběhu stude nebude počet plně odpovídat danému poměru. Maxmální dsproporce mez počtem subjektů v jednotlvých ramenech a plánovaným poměrem subjektů ve stud je dána právě velkostí bloku. Aby byla velkost bloku děltelem počtu subjektů, které je plánováno randomzovat, je možné velkost vzorku mírně navýšt např. o jeden, dva nebo tř subjekty. V našem příkladu můžeme zvolt např. blok velkost 4. Označíme-l první rameno A a druhé B, pak v bloku 4 subjektů je 6 možností randomzace do dvou ramen: AABB, BBAA, ABAB, BABA, ABBA, BAAB. Velkost bloku může být stejná pro randomzac všech subjektů hodnocení nebo se mohou střídat různé velkost bloku. V otevřených studích může zkoušející lékař poměrně snadno určt velkost bloku a následně určt do jakého ramene bude subjekt randomzován. Například př velkost bloku 4, lze po prvních dvou nebo třech randomzovaných subjektech v daném bloku s jstotou určt, do jaké skupny budou randomzován další subjekty. Teoretcky by tedy bylo možné subjekty hodnocení rozdělovat do ramen stude selektvně a ovlvnt tak výsledky. Bloková randomzace s náhodným střídáním bloků mnmalzuje možnost, že bude možné v případě otevřených klnckých studí předvídat, do jaké skupny bude subjekt randomzován. V našem příkladu klncké stude se dvěma rameny a celkovým počtem 200 subjektů přpadají v úvahu velkost bloku 2,4,6. Pro randomzac může být použto např. 30 bloků o velkost 2, 20 bloků o velkost 4 a 10 bloků o velkost 6. V současnost nejpoužívanější randomzací technkou je však tzv. stratfkovaná permutační bloková randomzace. Pod tímto složtým názvem se skrývá velce elegantní metoda, která je schopna zajstt ve srovnávaných ramenech jak rovnoměrný počet pacentů (jako bloková randomzace), tak rovnoměrné rozložení předem zvolených tzv. stratfkačních parametrů nebol prognostckých faktorů. Jak tato technka funguje? Představme s stud, ve které bude některý z důležtých endpontů účnnost nebo bezpečnost výrazně ovlvněn pohlavím a věkem pacentů. Tedy pokud se v jednom z ramen nahromadí převaha pacentů jednoho pohlaví nebo určté věkové skupny, může to vést ke zkreslení výsledků stude. Tato randomzační technka funguje 32

33 tak, že se vytvoří teoretcké skupny strata jako kombnace zvolených prognostckých faktorů, v našem případě např. čtyř skupny, a to: muž 35 let, ženy 35 let, muž > 35 let a ženy > 35 let. V rámc všech těchto podskupn jsou následně v náhodném pořadí generovány bloky o předem zvolené velkost tak, aby byl zajštěn požadovaný počet pacentů v jednotlvých léčebných skupnách. Pro správné použtí této technky je klíčový správný výběr stratfkačních krterí. Je důležté, aby to byl parametr jednoznačně dentfkovatelný př vlastní randomzac pacenta a aby to byl parametr s jednoznačným vztahem ke stud hodnocené účnnost nebo bezpečnost léčby. V klnckých studích se nejčastěj používají 2-3 vybrané stratfkační parametry a velm často bývá jako jeden z nch zvoleno centrum stude. Kromě výše uvedených randomzačních technk se někdy používají metody tzv. adaptvní randomzace. Takto je označována skupna randomzacích technk, u kterých není možné předem zpracovat vlastní randomzační plán, ale randomzace každého konkrétního pacenta je počítána algortmem, který bere v úvahu dosavadní rozložení pacentů v jednotlvých ramenech. Tyto technky se používají především ve studích s velm malým počtem pacentů (např. ve studích s novorozenc apod.). Výhodou adaptvní randomzace je zajštění rovnoměrné dstrbuce vybraných prognostckých faktorů v léčebných skupnách. Také lékař pak nemůže odkrýt randomzační schéma. Je také možné regulavat počet subjetů v léčebných skupnách v průběhu klncké stude např. dle výsledků, jsou-l dostupné. Nevýhodou je nutnost průběžné účast randomzačního centra ve stud a specální softwarová podpora. Termíny adaptvní randomzace a adaptvní desgn by neměly být zaměňovány. Jedná se o dvě různé charakterstky plánu, které jsou na sobě navzájem nezávslé. U adaptvního desgnu se nemusí použít adaptvní randomzace a an se obvykle neužívá. A naopak užtí adaptvní randomzace neznamená, že klncká stude má adaptvní desgn. Př použtí adaptvní randomzace není nutné generovat prospektvně randomzační schéma, ale subjekty jsou randomzován adaptvně, dle aktuálního rozložení subjektů v jednotlvých léčebných skupnách v průběhu stude. Uvedeme dvě používané metody adaptvní randomzace: metoda mnmalzace a metoda "randomzed play-the-wnner" (RPW). 33

34 Adaptvní randomzace metodou mnmalzace (navžená autory Pocock a Smon) zajšťuje stejně jako stratfkovaná randomzace rovnoměrnou dstrbuc vybraných prognostckých faktorů (stratfkačních faktorů) v léčebných skupnách. Ale protože přřazení léčby nově randomzovanému subjektů je prováděno v průběhu stude na základě aktuálního rozdělení do léčebných skupn zkoušející nemůže predkovat randomzační schéma. Je také možné regulovat počet subjektů v léčebných skupnách v průběhu stude např. dle výsledků, jsou-l dostupné. Nevýhodou je nutnost průběžné účast randomzačního centra ve stud a specální softwarová podpora. Pomocí metody mnmalzace je před randomzací každého dalšího subjektu zhodnoceno, do jaké léčebné skupny by měl být subjekt zařazen, tak aby byla mnmalzována nerovnováha počtu subjektů v léčebných skupnách celkově v jednotlvých stratfkačních skupnách. V před každou randomzací software vyhodnotí rovnováhu počtu randomzovaných subjektů ve stratfkační skupně, které nově randomzovaný subjekt náleží. Léčebná skupna, pro kterou bylo dosaženo nejlepší rovnováhy, je v randomzac toho subjektu hodnocení zvýhodněna. Subjekt bude s více než 50% pravděpodobností randomzován právě do této nyní "zvýhodněné" skupny. Např. př randomzac do 3 skupn můžou být pravděpodobnost pro randomzac nastaveny následovně 2/3 pro "zvýhodněnou" léčebnou skupnu a 1/6 pro zbylé dvě skupny. Součet pravděpodobností musí být roven 1. Adaptvní randomzace metodou "randomzed play-the-wnner" (navžena Zelenem) představuje jednoduchý model adaptvní randomzace vhodný především pro klnckou stud s bnárním prmárním parametrem a dvěma rameny. Tento model předpokládá, že další subjekt bude randomzován až poté, co je znám výsledek léčby předchozího subjektu. Metoda "randomzed play-the-wnner" zvýhodňuje léčebný přípravek s lepším čnky a je založena na losování z osudí. První subjekt je randomzován na základě vylosované léčebné skupny z osudí, kde spočet balónků pro obě léčebné skupny v daném poměru. Balónek randomzovaného subjektu je nahrazen balónkem, podle výsledku jeho léčby. Úspěšná léčba ve 1.skupně nebo neúspěšná léčba ve 2.skupně, znamená, že balónek bude nahrazen balónkem pro 1.skupna. 34

35 Kaptola 6 - Pravděpodobnost a ntervaly spolehlvost Vděl jsme, že v sadě pozorování normálního (Gaussovského) rozložení nám násobky směrodatné odchylky vytyčují krajní lmty hodnot. Např. s = ± 1,96 vyznačuje hrance, do kterých patří 95% všech hodnot pozorování. Jen zřídka jsme v stuac, kdy se zajímáme jen o zkoumanou skupnu. Obvykle tuto skupnu pokládáme za výběr z mnohem větší populace, jejíž vlastnost chceme zjstt (vz Kaptola 5). Například podáme-l lék skupně pacentů s poruchou srážlvost krve a měříme následně protrombnový poměr (INR), pak typckým úkolem takové stude je odhadnout průměrnou změnu INR, který bychom pozoroval po podání léku celé populac těchto pacentů. Přrozeným odhadem by byly průměrné hodnoty v našem výběru. Tento odhad je ale ovlvněn náhodným výkyvy závsejícím na tom, kteří ldé jsou pro měření vybrán, kdy jsou měřen a jaké chyby př měření vznknou. Proto místo jednoduchého bodového odhadu skutečné hodnoty v populac dáváme přednost ntervalu zkonstruovanému pomocí výběrového průměru, uvntř kterého skutečná hodnota populačního průměru s vysokou pravděpodobností leží. Obvykle pracujeme s 95% ntervaly spolehlvost a pak neznámá populační hodnota leží v tomto ntervalu se spolehlvost s pravděpodobností) 95%. Průměrná hodnota parametru na výběru je pak nejvíce pravděpododobným bodovým odhadem populačního průměru. Toto platí pro další míry polohy a varablty (používame-l výběrový rozptyl a výběrovou směrodatnou odchylku). Referenční nterval Vezmeme s příklad, kde př na náhodně vybraných 100 pacentech nterního oddělení v nemocnc byl naměřen průměrný dastolcký tlak 91,0 mmhg a směrodatná odchylka 5,7 mmhg. Jeden další pacent, který byl právě přjat, měl dastolcký tlak 105 mmhg. Přčtením nebo odečtením 1,96 násobku směrodatné odchylky (SD) od artmetckého průměru nám vyjdou následující hodnoty. 35

ANALÝZA VZTAHU DVOU SPOJITÝCH VELIČIN

ANALÝZA VZTAHU DVOU SPOJITÝCH VELIČIN ANALÝZA VZTAHU DVOU SPOJITÝCH VELIČIN V dokumentu 7a_korelacn_a_regresn_analyza jsme řešl rozdíl mez korelační a regresní analýzou. Budeme se teď věnovat pouze lneárnímu vztahu dvou velčn, protože je nejjednodušší

Více

Statistická šetření a zpracování dat.

Statistická šetření a zpracování dat. Statstcká šetření a zpracování dat. Vyjadřovací prostředky ve statstce STATISTICKÉ TABULKY Typckým vyjadřovacím prostředkem statstky je číslo formalzovaným nástrojem číselného vyjádření je statstcká tabulka.

Více

6. Demonstrační simulační projekt generátory vstupních proudů simulačního modelu

6. Demonstrační simulační projekt generátory vstupních proudů simulačního modelu 6. Demonstrační smulační projekt generátory vstupních proudů smulačního modelu Studjní cíl Na příkladu smulačního projektu představeného v mnulém bloku je dále lustrována metodka pro stanovování typů a

Více

Teoretické modely diskrétních náhodných veličin

Teoretické modely diskrétních náhodných veličin Teoretcké modely dskrétních náhodných velčn Velčny, kterým se zabýváme, bývají nejrůznější povahy. Přesto však estují skupny náhodných velčn, které mají podobně rozloženou pravděpodobnostní funkc a lze

Více

POROVNÁNÍ MEZI SKUPINAMI

POROVNÁNÍ MEZI SKUPINAMI POROVNÁNÍ MEZI SKUPINAMI Potřeba porovnání počtů mez určtým skupnam jednců např. porovnání počtů onemocnění mez kraj nebo okresy v prax se obvykle pracuje s porovnáním na 100.000 osob. Stuace ale nebývá

Více

Teoretické modely diskrétních náhodných veličin

Teoretické modely diskrétních náhodných veličin Teoretcké modely dskrétních náhodných velčn Velčny, kterým se zabýváme, bývají nejrůznější povahy. Přesto však estují skupny náhodných velčn, které mají podobně rozloženou pravděpodobnostní funkc a lze

Více

REGRESNÍ ANALÝZA. 13. cvičení

REGRESNÍ ANALÝZA. 13. cvičení REGRESNÍ ANALÝZA 13. cvčení Závslost náhodných velčn Závslost mez kvanttatvním proměnným X a Y: Funkční závslost hodnotam nezávsle proměnných je jednoznačně dána hodnota závslé proměnné. Y=f(X) Stochastcká

Více

CHYBY MĚŘENÍ. uvádíme ve tvaru x = x ± δ.

CHYBY MĚŘENÍ. uvádíme ve tvaru x = x ± δ. CHYBY MĚŘENÍ Úvod Představte s, že máte změřt délku válečku. Použjete posuvné měřítko a získáte určtou hodnotu. Pamětlv přísloví provedete ještě jedno měření. Ale ouha! Výsledek je jný. Co dělat? Měřt

Více

9. cvičení 4ST201. Obsah: Jednoduchá lineární regrese Vícenásobná lineární regrese Korelační analýza. Jednoduchá lineární regrese

9. cvičení 4ST201. Obsah: Jednoduchá lineární regrese Vícenásobná lineární regrese Korelační analýza. Jednoduchá lineární regrese cvčící 9. cvčení 4ST01 Obsah: Jednoduchá lneární regrese Vícenásobná lneární regrese Korelační analýza Vysoká škola ekonomcká 1 Jednoduchá lneární regrese Regresní analýza je statstcká metoda pro modelování

Více

7. STATISTICKÝ SOUBOR S JEDNÍM ARGUMENTEM

7. STATISTICKÝ SOUBOR S JEDNÍM ARGUMENTEM 7. STATISTICKÝ SOUBOR S JEDNÍM ARGUMENTEM Průvodce studem Předchozí kaptoly byly věnovány pravděpodobnost a tomu, co s tímto pojmem souvsí. Nyní znalost z počtu pravděpodobnost aplkujeme ve statstce. Předpokládané

Více

STATISTIKA PRO NELÉKAŘSKÉ ZDRAVOTNICKÉ OBORY

STATISTIKA PRO NELÉKAŘSKÉ ZDRAVOTNICKÉ OBORY STATISTIKA PRO NELÉKAŘSKÉ ZDRAVOTNICKÉ OBORY Eva Reterová Olomouc 06 Fakulta zdravotnckých věd Unverzta Palackého v Olomouc Statstka pro nelékařské zdravotncké obory Eva Reterová Olomouc 06 Oponent: PhDr.

Více

3 VYBRANÉ MODELY NÁHODNÝCH VELIČIN. 3.1 Náhodná veličina

3 VYBRANÉ MODELY NÁHODNÝCH VELIČIN. 3.1 Náhodná veličina 3 VBRANÉ MODEL NÁHODNÝCH VELIČIN 3. Náhodná velčna Tato kaptola uvádí stručný pops vybraných pravděpodobnostních modelů spojtých náhodných velčn s důrazem na jejch uplatnění př rozboru spolehlvost stavebních

Více

Regresní a korelační analýza

Regresní a korelační analýza Regresní a korelační analýza Závslost příčnná (kauzální). Závslostí pevnou se označuje případ, kdy výskytu jednoho jevu nutně odpovídá výskyt druhé jevu (a často naopak). Z pravděpodobnostního hledska

Více

ANOVA. Analýza rozptylu při jednoduchém třídění. Jana Vránová, 3.lékařská fakulta UK, Praha

ANOVA. Analýza rozptylu při jednoduchém třídění. Jana Vránová, 3.lékařská fakulta UK, Praha ANOVA Analýza rozptylu př jednoduchém třídění Jana Vránová, 3.léařsá faulta UK, Praha Teore Máme nezávslých výběrů, > Mají rozsahy n, teré obecně nemusí být stejné V aždém z nch známe průměr a rozptyl

Více

Čísla přiřazená elementárním jevům tvoří obor hodnot M proměnné, kterou nazýváme náhodná veličina (označujeme X, Y, Z,...)

Čísla přiřazená elementárním jevům tvoří obor hodnot M proměnné, kterou nazýváme náhodná veličina (označujeme X, Y, Z,...) . NÁHODNÁ VELIČINA Průvodce studem V předchozích kaptolách jste se seznáml s kombnatorkou a pravděpodobností jevů. Tyto znalost použjeme v této kaptole, zavedeme pojem náhodná velčna, funkce, které náhodnou

Více

Zpracování náhodného výběru. Ing. Michal Dorda, Ph.D.

Zpracování náhodného výběru. Ing. Michal Dorda, Ph.D. Zpracování náhodného výběru popisná statistika Ing. Michal Dorda, Ph.D. Základní pojmy Úkolem statistiky je na základě vlastností výběrového souboru usuzovat o vlastnostech celé populace. Populace(základní

Více

MODELOVÁNÍ A SIMULACE

MODELOVÁNÍ A SIMULACE MODELOVÁNÍ A SIMULACE základní pojmy a postupy vytváření matematckých modelů na základě blancí prncp numerckého řešení dferencálních rovnc základy práce se smulačním jazykem PSI Základní pojmy matematcký

Více

Korelační energie. Celkovou elektronovou energii molekuly lze experimentálně určit ze vztahu. E vib. = E at. = 39,856, E d

Korelační energie. Celkovou elektronovou energii molekuly lze experimentálně určit ze vztahu. E vib. = E at. = 39,856, E d Korelační energe Referenční stavy Energ molekul a atomů lze vyjádřt vzhledem k různým referenčním stavům. V kvantové mechance za referenční stav s nulovou energí bereme stav odpovídající nenteragujícím

Více

ANALÝZA ROZPTYLU (Analysis of Variance ANOVA)

ANALÝZA ROZPTYLU (Analysis of Variance ANOVA) NLÝZ OZPYLU (nalyss of Varance NOV) Používá se buď ako samostatná technka, nebo ako postup, umožňuící analýzu zdroů varablty v lneární regres. Př. použtí: k porovnání středních hodnot (průměrů) více než

Více

VLIV VELIKOSTI OBCE NA TRŽNÍ CENY RODINNÝCH DOMŮ

VLIV VELIKOSTI OBCE NA TRŽNÍ CENY RODINNÝCH DOMŮ VLIV VELIKOSTI OBCE NA TRŽNÍ CENY RODINNÝCH DOMŮ Abstrakt Martn Cupal 1 Prncp tvorby tržní ceny nemovtost je sce založen na tržní nabídce a poptávce, avšak tento trh je značně nedokonalý. Nejvíce ovlvňuje

Více

Iterační výpočty. Dokumentace k projektu pro předměty IZP a IUS. 22. listopadu projekt č. 2

Iterační výpočty. Dokumentace k projektu pro předměty IZP a IUS. 22. listopadu projekt č. 2 Dokumentace k projektu pro předměty IZP a IUS Iterační výpočty projekt č.. lstopadu 1 Autor: Mlan Setler, setl1@stud.ft.vutbr.cz Fakulta Informačních Technologí Vysoké Učení Techncké v Brně Obsah 1 Úvod...

Více

Čísla a aritmetika. Řádová čárka = místo, které odděluje celou část čísla od zlomkové.

Čísla a aritmetika. Řádová čárka = místo, které odděluje celou část čísla od zlomkové. Příprava na cvčení č.1 Čísla a artmetka Číselné soustavy Obraz čísla A v soustavě o základu z: m A ( Z ) a z (1) n kde: a je symbol (číslce) z je základ m je počet řádových míst, na kterých má základ kladný

Více

Energie elektrického pole

Energie elektrického pole Energe elektrckého pole Jž v úvodní kaptole jsme poznal, že nehybný (centrální elektrcký náboj vytváří v celém nekonečném prostoru slové elektrcké pole, které je konzervatvní, to znamená, že jakýkolv jný

Více

7. Analýza rozptylu jednoduchého třídění

7. Analýza rozptylu jednoduchého třídění 7. nalýza rozptylu jednoduchého třídění - V této kaptole se budeme zabývat vztahem mez znaky kvanttatvním (kolk) a kvaltatvním (kategorálním, jaké jsou) Doposud jsme schopn u nch hodnott: - podmíněné charakterstky

Více

Neparametrické metody

Neparametrické metody Neparametrcké metody Přestože parametrcké metody zaujímají klíčovou úlohu ve statstcké analýze dat, je možné některé problémy řešt př neparametrckém přístupu. V této přednášce uvedeme neparametrcké odhady

Více

Aplikace Li-Ma metody na scintigrafické vyšetření příštítných tělísek. P. Karhan, P. Fiala, J. Ptáček

Aplikace Li-Ma metody na scintigrafické vyšetření příštítných tělísek. P. Karhan, P. Fiala, J. Ptáček Aplkace L-Ma metody na scntgrafcké vyšetření příštítných tělísek P. Karhan, P. Fala, J. Ptáček Vyšetření příštítných tělísek dagnostka hyperparatyreózy: lokalzace tkáně příštítných tělísek neexstence radofarmaka

Více

ina ina Diskrétn tní náhodná veličina může nabývat pouze spočetně mnoha hodnot (počet aut v náhodně vybraná domácnost, výsledek hodu kostkou)

ina ina Diskrétn tní náhodná veličina může nabývat pouze spočetně mnoha hodnot (počet aut v náhodně vybraná domácnost, výsledek hodu kostkou) Náhodná velčna na Výsledek náhodného pokusu, daný reálným číslem je hodnotou náhodné velčny. Náhodná velčna je lbovolná reálná funkce defnovaná na množně elementárních E pravděpodobnostního prostoru S.

Více

VĚROHODNOST VÝSLEDKŮ PŘI UŽITÍ EXPLORATORNÍ ANALÝZY DAT

VĚROHODNOST VÝSLEDKŮ PŘI UŽITÍ EXPLORATORNÍ ANALÝZY DAT VĚROHODNOST VÝSLEDKŮ PŘI UŽITÍ EXPLORATORNÍ ANALÝZY DAT Mlan Meloun Unverzta Pardubce, Čs. Legí 565, 53 10 Pardubce, mlan.meloun@upce.cz 1. Obecný postup analýzy jednorozměrných dat V prvním kroku se v

Více

Téma 5: Parametrická rozdělení pravděpodobnosti spojité náhodné veličiny

Téma 5: Parametrická rozdělení pravděpodobnosti spojité náhodné veličiny 0.05 0.0 0.05 0.0 0.005 Nomnální napětí v pásnc Std Mean 40 60 80 00 0 40 60 Std Téma 5: Parametrcká rozdělení pravděpodobnost spojté náhodné velčn Přednáška z předmětu: Pravděpodobnostní posuzování konstrukcí

Více

Matematika I A ukázkový test 1 pro 2018/2019

Matematika I A ukázkový test 1 pro 2018/2019 Matematka I A ukázkový test 1 pro 2018/2019 1. Je dána soustava rovnc s parametrem a R x y + z = 1 x + y + 3z = 1 (2a 1)x + (a + 1)y + z = 1 a a) Napšte Frobenovu větu (předpoklady + tvrzení). b) Vyšetřete

Více

Numerická matematika 1. t = D u. x 2 (1) tato rovnice určuje chování funkce u(t, x), která závisí na dvou proměnných. První

Numerická matematika 1. t = D u. x 2 (1) tato rovnice určuje chování funkce u(t, x), která závisí na dvou proměnných. První Numercká matematka 1 Parabolcké rovnce Budeme se zabývat rovncí t = D u x (1) tato rovnce určuje chování funkce u(t, x), která závsí na dvou proměnných. První proměnná t mívá význam času, druhá x bývá

Více

EXPERIMENTÁLNÍ MECHANIKA 2 Přednáška 5 - Chyby a nejistoty měření. Jan Krystek

EXPERIMENTÁLNÍ MECHANIKA 2 Přednáška 5 - Chyby a nejistoty měření. Jan Krystek EXPERIMENTÁLNÍ MECHANIKA 2 Přednáška 5 - Chyby a nejistoty měření Jan Krystek 9. května 2019 CHYBY A NEJISTOTY MĚŘENÍ Každé měření je zatíženo určitou nepřesností způsobenou nejrůznějšími negativními vlivy,

Více

Analýza závislosti veličin sledovaných v rámci TBD

Analýza závislosti veličin sledovaných v rámci TBD Analýza závslost velčn sledovaných v rámc BD Helena Koutková Vysoké učení techncké v Brně, Fakulta stavební, Ústav matematky a deskrptvní geometre e-mal: koutkovah@fcevutbrcz Abstrakt Příspěvek se zabývá

Více

podle typu regresní funkce na lineární nebo nelineární model Jednoduchá lineární regrese se dá vyjádřit vztahem y

podle typu regresní funkce na lineární nebo nelineární model Jednoduchá lineární regrese se dá vyjádřit vztahem y 4 Lneární regrese 4 LINEÁRNÍ REGRESE RYCHLÝ NÁHLED DO KAPITOLY Častokrát potřebujete zjstt nejen, jestl jsou dvě nebo více proměnných na sobě závslé, ale také jakým vztahem se tato závslost dá popsat.

Více

KGG/STG Statistika pro geografy

KGG/STG Statistika pro geografy KGG/STG Statistika pro geografy 5. Odhady parametrů základního souboru Mgr. David Fiedor 16. března 2015 Vztahy mezi výběrovým a základním souborem Osnova 1 Úvod, pojmy Vztahy mezi výběrovým a základním

Více

Základy popisné statistiky

Základy popisné statistiky Základy popisné statistiky Michal Fusek Ústav matematiky FEKT VUT, fusekmi@feec.vutbr.cz 8. přednáška z ESMAT Michal Fusek (fusekmi@feec.vutbr.cz) 1 / 26 Obsah 1 Základy statistického zpracování dat 2

Více

KOMPLEXNÍ ČÍSLA. Algebraický tvar komplexního čísla

KOMPLEXNÍ ČÍSLA. Algebraický tvar komplexního čísla KOMPLEXNÍ ČÍSLA Příklad Řešte na množně reálných čísel rovnc: x + = 0. x = Rovnce nemá v R řešení. Taková jednoduchá rovnce a nemá na množně reálných čísel žádné řešení! Co s tím? Zavedeme tzv. magnární

Více

Monte Carlo metody Josef Pelikán CGG MFF UK Praha.

Monte Carlo metody Josef Pelikán CGG MFF UK Praha. Monte Carlo metody 996-7 Josef Pelkán CGG MFF UK Praha pepca@cgg.mff.cun.cz http://cgg.mff.cun.cz/~pepca/ Monte Carlo 7 Josef Pelkán, http://cgg.ms.mff.cun.cz/~pepca / 44 Monte Carlo ntegrace Odhadovaný

Více

Náhodné chyby přímých měření

Náhodné chyby přímých měření Náhodné chyby přímých měření Hodnoty náhodných chyb se nedají stanovit předem, ale na základě počtu pravděpodobnosti lze zjistit, která z možných naměřených hodnot je více a která je méně pravděpodobná.

Více

Inferenční statistika - úvod. z-skóry normální rozdělení pravděpodobnost rozdělení výběrových průměrů

Inferenční statistika - úvod. z-skóry normální rozdělení pravděpodobnost rozdělení výběrových průměrů Inferenční statistika - úvod z-skóry normální rozdělení pravděpodobnost rozdělení výběrových průměrů Pravděpodobnost postupy induktivní statistiky vycházejí z teorie pravděpodobnosti pravděpodobnost, že

Více

2. Definice pravděpodobnosti

2. Definice pravděpodobnosti 2. Defnce pravděpodobnost 2.1. Úvod: V přírodě se setkáváme a v přírodních vědách studujeme pomocí matematckých struktur a algortmů procesy dvojího druhu. Jednodušší jsou determnstcké procesy, které se

Více

ANALÝZA DAT V R 2. POPISNÉ STATISTIKY. Mgr. Markéta Pavlíková Katedra pravděpodobnosti a matematické statistiky MFF UK.

ANALÝZA DAT V R 2. POPISNÉ STATISTIKY. Mgr. Markéta Pavlíková Katedra pravděpodobnosti a matematické statistiky MFF UK. ANALÝZA DAT V R 2. POPISNÉ STATISTIKY Mgr. Markéta Pavlíková Katedra pravděpodobnosti a matematické statistiky MFF UK www.biostatisticka.cz CO SE SKRÝVÁ V DATECH data sbíráme proto, abychom porozuměli

Více

6 LINEÁRNÍ REGRESNÍ MODELY

6 LINEÁRNÍ REGRESNÍ MODELY 1 6 LINEÁRNÍ REGRESNÍ MODELY Př budování regresních modelů se běžně užívá metody nejmenších čtverců. Metoda nejmenších čtverců poskytuje postačující odhady parametrů jenom př současném splnění všech předpokladů

Více

9. Měření kinetiky dohasínání fluorescence ve frekvenční doméně

9. Měření kinetiky dohasínání fluorescence ve frekvenční doméně 9. Měření knetky dohasínání fluorescence ve frekvenční doméně Gavolův experment (194) zdroj vzorek synchronní otáčení fázový posun detektor Měření dob žvota lumnscence Frekvenční doména - exctace harmoncky

Více

mezi studenty. Dále bychom rádi posoudili, zda dobrý výsledek v prvním testu bývá doprovázen dobrým výsledkem i v druhém testu.

mezi studenty. Dále bychom rádi posoudili, zda dobrý výsledek v prvním testu bývá doprovázen dobrým výsledkem i v druhém testu. Popisná statistika Slovní popis problému Naším cílem v této úloze bude stručně a přehledně charakterizovat rozsáhlý soubor dat - v našem případě počty bodů z prvního a druhého zápočtového testu z matematiky.

Více

Jednofaktorová analýza rozptylu

Jednofaktorová analýza rozptylu I I.I Jednofaktorová analýza rozptylu Úvod Jednofaktorová analýza rozptylu (ANOVA) se využívá při porovnání několika středních hodnot. Často se využívá ve vědeckých a lékařských experimentech, při kterých

Více

Západočeská univerzita v Plzni Fakulta aplikovaných věd Katedra matematiky. Bakalářská práce. Zpracování výsledků vstupních testů z matematiky

Západočeská univerzita v Plzni Fakulta aplikovaných věd Katedra matematiky. Bakalářská práce. Zpracování výsledků vstupních testů z matematiky Západočeská unverzta v Plzn Fakulta aplkovaných věd Katedra matematky Bakalářská práce Zpracování výsledků vstupních testů z matematky Plzeň, 13 Tereza Pazderníková Prohlášení Prohlašuj, že jsem bakalářskou

Více

Vícekriteriální rozhodování. Typy kritérií

Vícekriteriální rozhodování. Typy kritérií Vícekrterální rozhodování Zabývá se hodnocením varant podle několka krtérí, přčemž varanta hodnocená podle ednoho krtéra zpravdla nebývá nelépe hodnocená podle krtéra ného. Metody vícekrterálního rozhodování

Více

Kontrola: Sečteme-li sloupec,,četnost výskytu musí nám vyjít hodnota rozsahu souboru (našich 20 žáků)

Kontrola: Sečteme-li sloupec,,četnost výskytu musí nám vyjít hodnota rozsahu souboru (našich 20 žáků) Základní výpočty pro MPPZ Teorie Aritmetický průměr = součet hodnot znaku zjištěných u všech jednotek souboru, dělený počtem všech jednotek souboru Modus = hodnota souboru s nejvyšší četností Medián =

Více

Tepelná kapacita = T. Ē = 1 2 hν + hν. 1 = 1 e x. ln dx. Einsteinův výpočet (1907): Soustava N nezávislých oscilátorů se stejnou vlastní frekvencí má

Tepelná kapacita = T. Ē = 1 2 hν + hν. 1 = 1 e x. ln dx. Einsteinův výpočet (1907): Soustava N nezávislých oscilátorů se stejnou vlastní frekvencí má Tepelná kapacta C x = C V = ( ) dq ( ) du Dulong-Pettovo pravdlo: U = 3kT N C V = 3kN x V = T ( ) ds x Tepelná kapacta mřížky Osclátor s kvantovanou energí E n = ( n + 2) hν má střední hodnotu energe (po

Více

ANALÝZA A KLASIFIKACE DAT

ANALÝZA A KLASIFIKACE DAT ANALÝZA A KLASIFIKACE DAT prof. Ing. Jří Holčík, CSc. INVESTICE Insttut DO bostatstky ROZVOJE VZDĚLÁVÁNÍ a analýz IV - pokračování KLASIFIKACE PODLE MINIMÁLNÍ VZDÁLENOSTI METRIKY PRO URČENÍ VZDÁLENOSTI

Více

Ivana Linkeová SPECIÁLNÍ PŘÍPADY NURBS REPREZENTACE. 2 NURBS reprezentace křivek

Ivana Linkeová SPECIÁLNÍ PŘÍPADY NURBS REPREZENTACE. 2 NURBS reprezentace křivek 25. KONFERENCE O GEOMETRII A POČÍTAČOVÉ GRAFICE Ivana Lnkeová SPECIÁLNÍ PŘÍPADY NURBS REPREZENTACE Abstrakt Příspěvek prezentuje B-splne křvku a Coonsovu, Bézerovu a Fergusonovu kubku jako specální případy

Více

Statistika pro geografy

Statistika pro geografy Statistika pro geografy 2. Popisná statistika Mgr. David Fiedor 23. února 2015 Osnova 1 2 3 Pojmy - Bodové rozdělení četností Absolutní četnost Absolutní četností hodnoty x j znaku x rozumíme počet statistických

Více

4. Třídění statistických dat pořádek v datech

4. Třídění statistických dat pořádek v datech 4. Třídění statstcých dat pořáde v datech Záladní členění statstcých řad: řada časová, řada prostorová, řada věcná věcná slovní řada, věcná číselná řada. Záladem statstcého třídění je uspořádání hodnot

Více

STATISTICKÉ CHARAKTERISTIKY

STATISTICKÉ CHARAKTERISTIKY STATISTICKÉ CHARAKTERISTIKY 1 Vytvořeno s podporou projektu Průřezová inovace studijních programů Lesnické a dřevařské fakulty MENDELU v Brně (LDF) s ohledem na discipliny společného základu (reg. č. CZ.1.07/2.2.00/28.0021)

Více

2 TESTOVÁNÍ HYPOTÉZ. RYCHLÝ NÁHLED KAPITOLY Neříkej: Objevil jsem pravdu! ale raději: Objevil jsem jednu z pravd! Chalil Gibran

2 TESTOVÁNÍ HYPOTÉZ. RYCHLÝ NÁHLED KAPITOLY Neříkej: Objevil jsem pravdu! ale raději: Objevil jsem jednu z pravd! Chalil Gibran Elena Melcová, Radmla Stoklasová a Jaroslav Ramík; Statstcké programy TESTOVÁNÍ HYPOTÉZ RYCHLÝ NÁHLED KAPITOLY Neříkej: Objevl jsem pravdu! ale raděj: Objevl jsem jednu z pravd! Chall Gbran Testování hypotéz

Více

Příprava ke státním maturitám 2011, vyšší úroveň obtížnosti materiál stažen z www.e-matematika.cz

Příprava ke státním maturitám 2011, vyšší úroveň obtížnosti materiál stažen z www.e-matematika.cz Příprava ke státním maturtám 0, všší úroveň obtížnost materál stažen z wwwe-matematkacz 80 60 Jsou dána čísla s 90, t 5 0 Ve stejném tvaru (součn co nejmenšího přrozeného čísla a mocnn deset) uveďte čísla

Více

Spojité regulátory - 1 -

Spojité regulátory - 1 - Spojté regulátory - 1 - SPOJIÉ EGULÁOY Nespojté regulátory mají většnou jednoduchou konstrukc a jsou levné, ale jsou nevhodné tím, že neudržují regulovanou velčnu přesně na žádané hodnotě, neboť regulovaná

Více

LOGICKÉ OBVODY J I Ř Í K A L O U S E K

LOGICKÉ OBVODY J I Ř Í K A L O U S E K LOGICKÉ OBVODY J I Ř Í K A L O U S E K Ostrava 2006 Obsah předmětu 1. ČÍSELNÉ SOUSTAVY... 2 1.1. Číselné soustavy - úvod... 2 1.2. Rozdělení číselných soustav... 2 1.3. Polyadcké číselné soustavy... 2

Více

Lokace odbavovacího centra nákladní pokladny pro víkendový provoz

Lokace odbavovacího centra nákladní pokladny pro víkendový provoz Markéta Brázdová 1 Lokace odbavovacího centra nákladní pokladny pro víkendový provoz Klíčová slova: odbavování záslek, centrum grafu, vážená excentrcta vrcholů sítě, časová náročnost odbavení záslky, vážená

Více

Otázky k měření centrální tendence. 1. Je dáno rozložení, ve kterém průměr = medián. Co musí být pravdivé o tvaru tohoto rozložení?

Otázky k měření centrální tendence. 1. Je dáno rozložení, ve kterém průměr = medián. Co musí být pravdivé o tvaru tohoto rozložení? Otázky k měření centrální tendence 1. Je dáno rozložení, ve kterém průměr = medián. Co musí být pravdivé o tvaru tohoto rozložení? 2. Určete průměr, medián a modus u prvních čtyř rozložení (sad dat): a.

Více

KGG/STG Statistika pro geografy

KGG/STG Statistika pro geografy KGG/STG Statistika pro geografy 4. Teoretická rozdělení Mgr. David Fiedor 9. března 2015 Osnova Úvod 1 Úvod 2 3 4 5 Vybraná rozdělení náhodných proměnných normální rozdělení normované normální rozdělení

Více

Metody sociálních výzkumů. Velmi skromný úvod do statistiky. Motto: Jsou tři druhy lži-lež prostá, lež odsouzeníhodná a statistika.

Metody sociálních výzkumů. Velmi skromný úvod do statistiky. Motto: Jsou tři druhy lži-lež prostá, lež odsouzeníhodná a statistika. Metody sociálních výzkumů Velmi skromný úvod do statistiky. Motto: Jsou tři druhy lži-lež prostá, lež odsouzeníhodná a statistika. Statistika Význam slova-vychází ze slova stát, s jeho administrativou

Více

Simulační metody hromadné obsluhy

Simulační metody hromadné obsluhy Smulační metody hromadné osluhy Systém m a model vstupy S výstupy Systém Část prostředí, kterou lze od jeho okolí oddělt fyzckou neo myšlenkovou hrancí Model Zjednodušený, astraktní nástroj používaný pro

Více

STATISTICKÉ ODHADY Odhady populačních charakteristik

STATISTICKÉ ODHADY Odhady populačních charakteristik STATISTICKÉ ODHADY Odhady populačních charakteristik Jak stanovit charakteristiky rozložení sledované veličiny v základní populaci? Populaci většinou nemáme celou k dispozici, musíme se spokojit jen s

Více

Základy biostatistiky II. Veřejné zdravotnictví 3.LF UK - II

Základy biostatistiky II. Veřejné zdravotnictví 3.LF UK - II Základy biostatistiky II Veřejné zdravotnictví 3.LF UK - II Teoretické rozložení-matematické modely rozložení Naměřená data Výběrové rozložení Teoretické rozložení 1 e 2 x 2 Teoretické rozložení-matematické

Více

Náhodné (statistické) chyby přímých měření

Náhodné (statistické) chyby přímých měření Náhodné (statistické) chyby přímých měření Hodnoty náhodných chyb se nedají stanovit předem, ale na základě počtu pravděpodobnosti lze zjistit, která z možných naměřených hodnot je více a která je méně

Více

Jana Vránová, 3.lékařská fakulta UK, Praha. Hypotézy o populacích

Jana Vránová, 3.lékařská fakulta UK, Praha. Hypotézy o populacích Jana Vránová, 3.lékařská fakulta UK, Praha Hypotézy o populacích Příklad IQ test: Předpokládejme, že z nějakého důvodu ministerstvo školství věří, že studenti absolventi středních škol v Hradci Králové

Více

Využití logistické regrese pro hodnocení omaku

Využití logistické regrese pro hodnocení omaku Využtí logstcké regrese pro hodnocení omaku Vladmír Bazík Úvod Jedním z prmárních proevů textlí e omak. Jedná se o poct který vyvolá textle př kontaktu s pokožkou. Je to ntegrální psychofyzkální vlastnost

Více

Normální (Gaussovo) rozdělení

Normální (Gaussovo) rozdělení Normální (Gaussovo) rozdělení f x = 1 2 exp x 2 2 2 f(x) je funkce hustoty pravděpodobnosti, symetrická vůči poloze maxima x = μ μ střední hodnota σ směrodatná odchylka (tzv. pološířka křivky mezi inflexními

Více

23. Matematická statistika

23. Matematická statistika Projekt: Inovace oboru Mechatronik pro Zlínský kraj Registrační číslo: CZ.1.07/1.1.08/03.0009 23. Matematická statistika Statistika je věda, která se snaží zkoumat reálná data a s pomocí teorii pravděpodobnosti

Více

permutace, popisující nějaké symetrie, je i π permutace, popisující nějakou symetrii.

permutace, popisující nějaké symetrie, je i π permutace, popisující nějakou symetrii. DSM Cv Pólyova věta Budeme se zabývat objekty (na množně X - to jsou vrcholy těchto objektů) s různým prvky symetre (například to mohou být různé brože, tsky, ale také strukturní vzorce různých chemckých

Více

ANALÝZA RIZIKA A CITLIVOSTI JAKO SOUČÁST STUDIE PROVEDITELNOSTI 1. ČÁST

ANALÝZA RIZIKA A CITLIVOSTI JAKO SOUČÁST STUDIE PROVEDITELNOSTI 1. ČÁST Abstrakt ANALÝZA ZKA A CTLOST JAKO SOUČÁST STUDE POVEDTELNOST 1. ČÁST Jří Marek Úspěšnost nvestce závsí na tom, jaké nejstoty ovlvní její předpokládaný žvotní cyklus. Pomocí managementu rzka a analýzy

Více

Teorie efektivních trhů (E.Fama (1965))

Teorie efektivních trhů (E.Fama (1965)) Teore efektvních trhů (E.Fama (965)) Efektvní efektvní zpracování nových nformací Efektvní trh trh, který rychle a přesně absorbuje nové nf. Ceny II (akcí) náhodná procházka Předpoklady: na trhu partcpuje

Více

Intervalové odhady. Interval spolehlivosti pro střední hodnotu v N(µ, σ 2 ) Interpretace intervalu spolehlivosti. Interval spolehlivosti ilustrace

Intervalové odhady. Interval spolehlivosti pro střední hodnotu v N(µ, σ 2 ) Interpretace intervalu spolehlivosti. Interval spolehlivosti ilustrace Intervalové odhady Interval spolehlivosti pro střední hodnotu v Nµ, σ 2 ) Situace: X 1,..., X n náhodný výběr z Nµ, σ 2 ), kde σ 2 > 0 známe měli jsme: bodové odhady odhadem charakteristiky je číslo) nevyjadřuje

Více

POPISNÁ STATISTIKA Komentované řešení pomocí programu Statistica

POPISNÁ STATISTIKA Komentované řešení pomocí programu Statistica POPISNÁ STATISTIKA Komentované řešení pomocí programu Statistica Program Statistica I Statistica je velmi podobná Excelu. Na základní úrovni je to klikací program určený ke statistickému zpracování dat.

Více

Intervalový odhad. Interval spolehlivosti = intervalový odhad nějakého parametru s danou pravděpodobností = konfidenční interval pro daný parametr

Intervalový odhad. Interval spolehlivosti = intervalový odhad nějakého parametru s danou pravděpodobností = konfidenční interval pro daný parametr StatSoft Intervalový odhad Dnes se budeme zabývat neodmyslitelnou součástí statistiky a to intervaly v nejrůznějších podobách. Toto téma je také úzce spojeno s tématem testování hypotéz, a tedy plynule

Více

STATISTICKÝ SOUBOR. je množina sledovaných objektů - statistických jednotek, které mají z hlediska statistického zkoumání společné vlastnosti

STATISTICKÝ SOUBOR. je množina sledovaných objektů - statistických jednotek, které mají z hlediska statistického zkoumání společné vlastnosti ZÁKLADNÍ STATISTICKÉ POJMY HROMADNÝ JEV Statistika pracuje s tzv. HROMADNÝMI JEVY cílem statistického zpracování dat je podání informace o vlastnostech a zákonitostech hromadných jevů: velkého počtu jedinců

Více

1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.

1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004. Prostá regresní a korelační analýza 1 1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004. Problematika závislosti V podstatě lze rozlišovat mezi závislostí nepodstatnou, čili náhodnou

Více

Intervalové odhady. Interval spolehlivosti pro střední hodnotu v N(µ, σ 2 ) Interpretace intervalu spolehlivosti. Interval spolehlivosti ilustrace

Intervalové odhady. Interval spolehlivosti pro střední hodnotu v N(µ, σ 2 ) Interpretace intervalu spolehlivosti. Interval spolehlivosti ilustrace Intervalové odhady Interval spolehlivosti pro střední hodnotu v Nµ, σ 2 ) Situace: X 1,..., X n náhodný výběr z Nµ, σ 2 ), kde σ 2 > 0 známe měli jsme: bodové odhady odhadem charakteristiky je číslo) nevyjadřuje

Více

Otto DVOŘÁK 1 NEJISTOTA STANOVENÍ TEPLOTY VZNÍCENÍ HOŘLAVÝCH PLYNŮ A PAR PARABOLICKOU METODOU PODLE ČSN EN 14522

Otto DVOŘÁK 1 NEJISTOTA STANOVENÍ TEPLOTY VZNÍCENÍ HOŘLAVÝCH PLYNŮ A PAR PARABOLICKOU METODOU PODLE ČSN EN 14522 Otto DVOŘÁK 1 NEJISTOTA STANOVENÍ TEPLOTY VZNÍCENÍ HOŘLAVÝCH PLYNŮ A PAR PARABOLICKOU METODOU PODLE ČSN EN 145 UNCERTAINTY OF DETEMINATION OF THE AUTO-IGNITION TEMPERATURE OF FLAMMABLE GASES OR VAPOURS

Více

SIMULACE. Numerické řešení obyčejných diferenciálních rovnic. Měřicí a řídicí technika magisterské studium FTOP - přednášky ZS 2009/10

SIMULACE. Numerické řešení obyčejných diferenciálních rovnic. Měřicí a řídicí technika magisterské studium FTOP - přednášky ZS 2009/10 SIMULACE numercké řešení dferencálních rovnc smulační program dentfkace modelu Numercké řešení obyčejných dferencálních rovnc krokové metody pro řešení lneárních dferencálních rovnc 1.řádu s počátečním

Více

Induktivní statistika. z-skóry pravděpodobnost

Induktivní statistika. z-skóry pravděpodobnost Induktivní statistika z-skóry pravděpodobnost normální rozdělení Z-skóry umožňují najít a popsat pozici každé hodnoty v rámci rozdělení hodnot a také srovnávání hodnot pocházejících z měření na rozdílných

Více

UKAZATELÉ VARIABILITY

UKAZATELÉ VARIABILITY UKAZATELÉ VARIABILITY VÝZNAM Porovnejte známky dvou studentek ze stejného předmětu: Studentka A: Studentka B: Oba soubory mají stejný rozsah hodnoty, ale liší se známky studentky A jsou vyrovnanější, jsou

Více

Cvičení ze statistiky - 9. Filip Děchtěrenko

Cvičení ze statistiky - 9. Filip Děchtěrenko Cvičení ze statistiky - 9 Filip Děchtěrenko Minule bylo.. Dobrali jsme normální rozdělení Tyhle termíny by měly být známé: Inferenční statistika Konfidenční intervaly Z-test Postup při testování hypotéz

Více

Kategorická data METODOLOGICKÝ PROSEMINÁŘ II TÝDEN 7 4. DUBNA dubna 2018 Lukáš Hájek, Karel Höfer Metodologický proseminář II 1

Kategorická data METODOLOGICKÝ PROSEMINÁŘ II TÝDEN 7 4. DUBNA dubna 2018 Lukáš Hájek, Karel Höfer Metodologický proseminář II 1 Kategorická data METODOLOGICKÝ PROSEMINÁŘ II TÝDEN 7 4. DUBNA 2018 4. dubna 2018 Lukáš Hájek, Karel Höfer Metodologický proseminář II 1 Typy proměnných nominální (nominal) o dvou hodnotách lze říci pouze

Více

2.5. MATICOVÉ ŘEŠENÍ SOUSTAV LINEÁRNÍCH ROVNIC

2.5. MATICOVÉ ŘEŠENÍ SOUSTAV LINEÁRNÍCH ROVNIC 25 MATICOVÉ ŘEŠENÍ SOUSTAV LINEÁRNÍCH ROVNIC V této kaptole se dozvíte: jak lze obecnou soustavu lneárních rovnc zapsat pomocí matcového počtu; přesnou formulac podmínek řeštelnost soustavy lneárních rovnc

Více

Úvod Terminologie Dělení Princip ID3 C4.5 CART Shrnutí. Obsah přednášky

Úvod Terminologie Dělení Princip ID3 C4.5 CART Shrnutí. Obsah přednášky Obsah přednášky. Úvod. Termnologe 3. Základní dělení 4. Prncp tvorby, prořezávání a použtí RS 5. Algortmus ID3 6. C4.5 7. CART 8. Shrnutí A L G O RI T M Y T E O R I E Stromové struktury a RS Obsah knhy

Více

SEDMKRÁT O LÉČBĚ RAKOVINY PROSTATY Aktvní sledování Onlne poradna Zřídl jsme pro Vás anonymní onlne poradnu na: www.rakovnaprostaty.cz Aktvní sledování Vysvětlení termínů rakovna prostaty, karcnom prostaty

Více

Dobývání znalostí. Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze

Dobývání znalostí. Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze Dobývání znalostí Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze Dobývání znalostí Pravděpodobnost a učení Doc. RNDr. Iveta Mrázová,

Více

Pravděpodobnost v závislosti na proměnné x je zde modelován pomocí logistického modelu. exp x. x x x. log 1

Pravděpodobnost v závislosti na proměnné x je zde modelován pomocí logistického modelu. exp x. x x x. log 1 Logistická regrese Menu: QCExpert Regrese Logistická Modul Logistická regrese umožňuje analýzu dat, kdy odezva je binární, nebo frekvenční veličina vyjádřená hodnotami 0 nebo 1, případně poměry v intervalu

Více

Testování hypotéz. Testování hypotéz o rozdílu průměrů t-test pro nezávislé výběry t-test pro závislé výběry

Testování hypotéz. Testování hypotéz o rozdílu průměrů t-test pro nezávislé výběry t-test pro závislé výběry Testování hypotéz Testování hypotéz o rozdílu průměrů t-test pro nezávislé výběry t-test pro závislé výběry Testování hypotéz Obecný postup 1. Určení statistické hypotézy 2. Určení hladiny chyby 3. Výpočet

Více

Cvičení ze statistiky - 8. Filip Děchtěrenko

Cvičení ze statistiky - 8. Filip Děchtěrenko Cvičení ze statistiky - 8 Filip Děchtěrenko Minule bylo.. Dobrali jsme normální rozdělení Tyhle termíny by měly být známé: Centrální limitní věta Laplaceho věta (+ korekce na spojitost) Konfidenční intervaly

Více

Popisná statistika. Komentované řešení pomocí MS Excel

Popisná statistika. Komentované řešení pomocí MS Excel Popisná statistika Komentované řešení pomocí MS Excel Vstupní data Máme k dispozici data o počtech bodů z 1. a 2. zápočtového testu z Matematiky I v zimním semestru 2015/2016 a to za všech 762 studentů,

Více

Informační a znalostní systémy

Informační a znalostní systémy Informační a znalostní systémy Teorie pravděpodobnosti není v podstatě nic jiného než vyjádření obecného povědomí počítáním. P. S. de Laplace Pravděpodobnost a relativní četnost Pokusy, výsledky nejsou

Více

Příloha podrobný výklad vybraných pojmů

Příloha podrobný výklad vybraných pojmů Příloha podrobný výklad vybraných pojmů 1.1 Parametry (popisné charakteristiky) základního souboru 1.1.1 Míry polohy (střední hodnoty) Aritmetický průměr představuje pravděpodobně nejznámější střední hodnotou,

Více

Analýza dat na PC I.

Analýza dat na PC I. CENTRUM BIOSTATISTIKY A ANALÝZ Lékařská a Přírodovědecká fakulta, Masarykova univerzita Analýza dat na PC I. Popisná analýza v programu Statistica IBA výuka Základní popisná statistika Popisná statistika

Více

í I - 13 - Průchod a rozptyl záření gama ve vrstvách materiálu Prof. Ing. J. Šeda, DrSc. KDAIZ - PJPI

í I - 13 - Průchod a rozptyl záření gama ve vrstvách materiálu Prof. Ing. J. Šeda, DrSc. KDAIZ - PJPI - 13 - í Průchod a rozptyl záření gama ve vrstvách materálu Prof. ng. J. Šeda, DrSc. KDAZ - PJP Na našem pracovšt byl vypracován program umožňující modelovat průchod záření gama metodou Monte Carlo, homogenním

Více

Jiří Militky Škály měření Nepřímá měření Teorie měření Kalibrace

Jiří Militky Škály měření Nepřímá měření Teorie měření Kalibrace Tetlní zkušebnctv ebnctví II Jří Mltky Škály měření epřímá měření Teore měření Kalbrace Základní pojmy I PRAVDĚPODOBOST Jev A, byl sledován v m pokusech. astal celkem m a krát. Relatvní četnost výskytu

Více

Jana Vránová, 3. lékařská fakulta UK

Jana Vránová, 3. lékařská fakulta UK Jana Vránová, 3. lékařská fakulta UK Vznikají při zkoumání vztahů kvalitativních resp. diskrétních znaků Jedná se o analogii s korelační analýzou spojitých znaků Přitom předpokládáme, že každý prvek populace

Více