Sem vložte zadání Vaší práce.
|
|
- Vojtěch Tábor
- před 8 lety
- Počet zobrazení:
Transkript
1 Sem vložte zadání Vaší práce.
2
3 České vysoké učení technické v Praze Fakulta informačních technologií Katedra teoretické informatiky Diplomová práce Informační podpora klinických studií Bc. Václav Čadek Vedoucí práce: Ing. Pavel Kordík, Ph.D. 26. června 2013
4
5 Poděkování Na tomto místě bych chtěl poděkovat svému vedoucím Ing. Pavlu Kordíkovi, Ph.D. za vstřícný přístup při vedení mé práce, za možnost zpracovávat takto zajímavé téma a za jeho užitečné připomínky. Dále MUDr. Petru Waldaufovi za jeho nadšení pro věc, které bylo tak nakažlivé, že pro mě bylo neustálým zdrojem motivace. Také chci poděkovat své rodině, přítelkyni a přátelům, za podporu a trpělivost, kterou se mnou měli a mají.
6
7 Prohlášení Prohlašuji, že jsem předloženou práci vypracoval samostatně a že jsem uvedl veškeré použité informační zdroje v souladu s Metodickým pokynem o etické přípravě vysokoškolských závěrečných prací. Beru na vědomí, že se na moji práci vztahují práva a povinnosti vyplývající ze zákona č. 121/2000 Sb., autorského zákona, ve znění pozdějších předpisů, zejména skutečnost, že České vysoké učení technické v Praze má právo na uzavření licenční smlouvy o užití této práce jako školního díla podle 60 odst. 1 autorského zákona. V Praze dne 26. června
8 České vysoké učení technické v Praze Fakulta informačních technologií c 2013 Václav Čadek. Všechna práva vyhrazena. Tato práce vznikla jako školní dílo na Českém vysokém učení technickém v Praze, Fakultě informačních technologií. Práce je chráněna právními předpisy a mezinárodními úmluvami o právu autorském a právech souvisejících s právem autorským. K jejímu užití, s výjimkou bezúplatných zákonných licencí, je nezbytný souhlas autora. Odkaz na tuto práci Čadek, Václav. Informační podpora klinických studií. Diplomová práce. Praha: České vysoké učení technické v Praze, Fakulta informačních technologií, 2013.
9 Abstract The purpose of this thesis is to design and describe the tool for automation of clinical trials evaluation process. The tool itself is built as an extension on top of the RapidMiner platform and it s goal is to provide ability to perform an ad hoc significance tests, descriptive and exploratory analysis from within the RapidMiner as well as provide reporting functionality out of the box. The tool is then deployed to particular clinical trial environment which tries to examine the promising new treatment of patients with high blood pressure using the intervention called renal denervation. Keywords Renal denervation, hypertension, RapidMiner, data mining, hypotheses testing, clinical trial, statistical significance, descriptive statistic, exploratory analysis Abstrakt Cílem této práce je navrhnout a popsat nástroj pro automatizaci vyhodnocování klinických studií. Nástroj samotný byl vytvořen jakožto rozšíření ix
10 programu RapidMiner. Jeho cílem je poskytnout možnost provádět ad hoc statistické testy, deskriptivní a explorační analýzu a navíc poskytnout možnost snadného reportování přímo z programu RapidMiner. Pomocí tohoto rozšíření je následně implementován proces, který je nasazen do prostředí konkrétní klinické studie, která se snaží zkoumat novou slibnou metodu léčby pacientů s vysokým krevním tlakem pomocí zákroku zvaného renální denervace. Klíčová slova Renální denervace, hypertenze, RapidMiner, dolování dat, Testování hypotéz, klinická studie, statistická významnost, deskriptivní statistika, explorační analýza x
11 Obsah Odkaz na tuto práci viii Úvod 1 Struktura práce Popis problému, specifikace cíle Klinická studie Prague Hypertenze a refrakterní hypertenze Renální denervace u hypertoniků Specifikace cíle Teorie Deskriptivní analýza dat Charakteristiky polohy Aritmetický průměr Medián Modus Charakteristiky variability Variační rozpětí Rozptyl Kvartily, Decily a Percentily Směrodatná odchylka Variační koeficient Charakteristiky tvaru Zkosení Špičatost Grafické znázornění dat Histogram xi
12 Krabicový graf Ověřování statistických hypotéz Nulová a alternativní hypotéza Rizika chyb - chyby I. a II. druhu Obecný postup při ověřování hypotéz Vybrané statistické testy T-Test výběrový T-test výběrový T-test (nezávislé vzorky) výběrový T-test (párový) Analýza rozptylu (ANOVA) χ 2 test dobré shody Mann Whitney U Test Wilcoxonův znaménkový test Analýza a návrh řešení Srovnání dostupných nástrojů IBM SPSS Statistics R RapidMiner Srovnání knihoven pro statistické výpočty Apache Commons Math JSC Srovnání knihoven pro vizualizaci JFreeChart GRAL Srovnání knihoven pro reporting JasperReports itext Použité technologie RapidMiner Jazyk R Java + IntelliJ IDEA Groovy Ant NSIS Apache Commons Math JFreeChart JasperReports a DynamicJasper xii
13 5 Realizace Integrace do systému RapidMiner Operátory pro ověřování statistických hypotéz Operátor pro jednovýběrový T-Test Operátor pro dvouvýběrový T-Test One-way ANOVA operátor Chi Square Test operátor Mann Whitney U-Test operátor Wilcoxon Signed Rank Test operátor Zobrazení výsledků statistických testů Operátory pro explorační analýzu dat Descriptive statistics operátor Box plot operátor Operátory pro reporting Create Report operátor Create Section operátor Styled Text operátor Ukázka přidání nového testu Přidání operátoru Přidání testu Vizualizace Popis nasazení v prostředí klinické studie Prague Popis dat klinické studie Prague Problémy v datech Chybějící data Nekonzistentní jmenná konvence Špatně zadané databázové sloupce Špatně zadané hodnoty Popis dat vybraných k analýze Implementace RapidMiner procesu Popis hlavního procesu Předzpracování Popis příznaku Reporting Testování Unit testy (Groovy) Testovací scénáře s použitím R Závěr 53 xiii
14 Literatura 55 A Obsah přiloženého CD 57 B Popis instalace 59 C Ukázka konečného výstupu 61 D Kompletní seznam atributů určených k analýze 63 E Slovník lékařských pojmů 67 F Seznam použitých zkratek 69 xiv
15 Seznam obrázků 1.1 Zavedení katetru do renální arterie Ukázka histogramu Ukázka krabicového grafu I. a II. typ chyb, síla testu Operátory pro ověřování statistických hypotéz Operátory pro deskriptivní statistiku a explorační analýzu Ukázka výstupu krabicového grafu Operátory pro reporting Výsledek nově přidaného Wilcoxonova znaménkového testu v RapidMineru Prague 15 - RapidMiner proces Sub-proces, popisující jeden příznak z C.1 Ukázka konečného výstupu - str. 1 z xv
16
17 Úvod Čas v lékařství jakoby ubíhal rychleji - to je také jeden z důvodů, proč snaha aplikovat metody strojového učení, automatizace nebo data miningu má v této doméně své opodstatnění - čím méně času stráví lékaři snahou o získání, transformace nebo vyhodnocení dat, tím více času jim zbude na záchranu životů a péči o pacienty. Klinická studie Prague 15, na které v rámci této práce spolupracuji se zabývá léčbou pacientů s vysokým krevním tlakem - ve většině případů se navíc jedná o tzv. refrakterní hypertenzi, což je těžká forma hypertenze při které pacienti nepociťují výrazné zlepšení, navzdory tomu, že je jim podáváno velké množství léků (antihypertenziv). Tato klinická studie je výzkumným projektem, na kterém spolupracuje 3. lékařská fakulta Univerzity Karlovy (3. LF UK) Fakultní nemocnice Královské Vinohrady (FNKV) a dvě kardiocentra v Olomouci a Třinci. Cílem této studie je prokázat, zda zákrok zvaný renální denervace, může mít za následek snížení krevního tlaku u pacientů trpících refrakterní hypertenzí a v konečném důsledku vést i ke zvýšení kvality jejich života. Jelikož je množství kroků v rámci této studie vykonávano ručně, otevírá se zde velký prostor pro automatizaci nebo aplikaci některých z metod, kterými se na Fakultě informačních technologií, ČVUT v rámci oboru znalostního inženýrství zabýváme. Nutno říct, že oblast klinických studií upřednostňuje zejména striktní statistický přístup a metody vycházející ze strojového učení, umělé inteligence nebo data miningu jsou zde spíše výjimkou, byť by mohli přinést nový vhled do daného lékařského problému. Z tohoto pohledu je možný přínos této práce nejen v usnadnění práce lékařů, ale také možností, jak některé z těchto metod zviditelnit a otevřít tak nové možnosti spolupráce napříč vědními disciplínami. 1
18 Úvod Struktura práce Tato práce si klade za cíl popsat návrh, tvorbu a nasazení nástroje pro automatizaci klinických studií. Kapitola 1 čtenáře seznamuje s kontextem problému, zároveň popisuje, čím se klinická studie Prague 15 zabývá. Kapitola 2 popisuje nezbytnou teorii, nutnou pro pochopení teoretického pozadí vyhodnocování klinických studií. Tématem kapitoly 3 je zhodnocení kladů a záporů jednotlivých nástrojů a knihoven. Kapitola 4 stručně popisuje zvolené technologie. Velmi podstatnou kapitolou je 4, která popisuje realizaci a zejména nasazení nástroje do prostředí reálné klinické studie. Poslední kapitola 5 shrnuje testování implementovaného nástroje. 2
19 Kapitola 1 Popis problému, specifikace cíle 1.1 Klinická studie Prague 15 Jak již bylo zmíněno v úvodu, klinická studie Prague 15 se zabývá léčbou pacientů s tzv. refrakterní hypertenzí pomocí zákroku zvaného renální denervace (RDN). Projekt je naplánován na 5 let a počítá se zařazením nejméně 150 nemocných. Pacienti budou randomizováni do dvou skupin: RDN + farmakoterapie Renální denervace + antihypertenzní medikamentózní léčba farmakoterapie tito nemocní nepodstoupí v prvním roce RDN, později jen dle klinické indikace Jelikož se jedná o novou metodu, není možné exaktně statisticky předem vypočítat předpokládané rozdíly mezi skupinami a potřebnou velikost souboru. Proto je možné, že studie budou (při nadějných výsledcích) extendovány na vyšší počty nemocných [10]. Na projektu se podílejí následující pracoviště: 1. Kardiocentrum 3. lékařské fakulty Univerzity Karlovy v Praze a Fakultní nemocnice Královské Vinohrady (FNKV) 2. III. Interní klinika (Centrum pro hypertenzi) 1. Lékařské fakulty Univerzity Karlovy v Praze a Všeobecné fakultní nemocnice 3. Kardiocentrum Lékařské fakulty a Fakultní nemocnice Olomouc 4. Kardiocentrum Podlesí Třinec 3
20 1. Popis problému, specifikace cíle Hypertenze a refrakterní hypertenze Hypertenzní choroba je nejrozšířenějším kardiovaskulárním onemocněním v populaci. Její následky jsou často fatální (infarkt myokardu, náhlá smrt, mozková mrtvice) nebo invalidizující (mozková mrtvice, srdeční selhání) [10]. Největšími dvěma problémy v praxi jsou: 1. nedostatečná diagnostika či léčba 2. refrakterní hypertenze Refrakterní/rezistentní hypertenze je definována jako trvající zvýšení krevního tlaku na hodnoty 140/90 mmhg a více přes léčbu zahrnující nejméně trojkombinaci antihypertenziv včetně diuretika v maximálních dávkách. Úspěšnost léčby rezistentní hypertenze medikamentózně činí kolem 10% [10] Renální denervace u hypertoniků K renálním denervacím budou používány radiofrekvenční katetry 1, které budou zavedeny přes tříslo do renální arterie 2, kde je následně provedena radiofrekvenční ablace 3 nervových zakončení. Riziko komplikací se neliší od rizika jiných katetrizací - lokální komplikace v místě vpichu, disekce 4 zobrazované tepny, embolie, trombóza. Metoda je bezpečnější než srdeční katetrizace v tom smyslu, že se katetrem neprochází ani přes oblouk aorty, nehrozí tedy cévní mozková příhoda z embolizace do centrálního nervového systému, ani okolo koronárních tepen (nehrozí tedy infarkt myokardu jako komplikace výkonu). Zákrok trvá necelou jednu hodinu, pacient při něm leží na stole na katetrizačním sále, je lehce analgosedován a je mu podáván bolusově 5 heparin. Zavaděče se z třísla vytahují bezprostředně po odeznění účinku heparinu, druhý den po zákroku je propuštěn domů [10]. 1 zařízení, které lékař zavádí do nějakého dutého tělního orgánu 2 ledvinná tepna 3 odstranění, eliminace tkáně 4 rozdělení 5 dávkově 4
21 1.2. Specifikace cíle Obrázek 1.1: Zavedení katetru do renální arterie 1.2 Specifikace cíle Jelikož je množství kroků v rámci vyhodnocení klinických studií vykonáváno ručně, cílem bude co možná největší počet těchto kroků automatizovat a nabídnout nástroj, který bude umožňovat snadnou tvorbu a úpravu tohoto automatického procesu. Specifické požadavky klinické studie Prague 15 zahrnují: možnost tvorby tzv. krabicového grafu, který by umožňoval srovnávat obě skupiny pacientů v čase možnost tvorby deskriptivních statistik pro obě skupiny pacientů nabídnout možnost snadného reportování 5
22
23 Kapitola 2 Teorie 2.1 Deskriptivní analýza dat Deskriptivní analýza dat je souborné označení pro číselné charakteristiky, grafy nebo tabulky, které umožňují lepší porozumění a získání představy o statistickém souboru dat. Jak již z názvu vyplývá - cílem deskriptivní statistiky je popis dat, nikoliv jejich transformace. Jelikož je ale tento popis určitým zobecněním dat, o část informace zároveň přicházíme Charakteristiky polohy Při popisu statistického souboru potřebujeme často určit nějakou hodnotu, která nejlépe vystihuje soubor jako celek, z tohoto důvodu bylo zavedeno množství charakteristik, které se snaží popsat jakousi střední hodnotu, okolo které se ostatní hodnoty soustřeďují - tyto charakteristiky nazýváme míry polohy Aritmetický průměr Sečteme-li všechny vzorky v souboru dat a následně vydělíme jejich počtem dostaneme jednu z nejzákladnějších hodnot sloužících k vyjádření střední hodnoty souboru - aritmetický průměr. µ = n1 x i n (2.1) Existují různé další varianty průměrů - např. geometrický, vážený, klouzavý, apod. 7
24 2. Teorie Medián Definice 1. Seřadíme-li data podle velikosti a následně vybereme prostřední prvek, pak tento prvek označujeme jako medián. Narozdíl od aritmetického průměru je medián mnohem robustnější z hlediska odlehlých hodnot - jestliže soubor obsahuje několik extrémních hodnot, medián dává stále velmi vypovídající hodnotu o celém souboru z hlediska střední hodnoty. Další výhodou mediánu je jeho snadný výpočet Modus Definice 2. Prvek s největší četností v souboru dat se nazývá modus. Modus je vhodné použít pokud data obsahují nominální hodnoty - vezměme si například známky ve škole - v takovém případě je informace o nejčastější hodnotě poměrně vypovídající z hlediska střední hodnoty celého souboru. Naopak pokud uvažujeme data s reálnou hodnotou a 3 jsou z hlediska modu od sebe stejně vzdáleny jako 3 a Charakteristiky variability Kromě charakteristik polohy potřebujeme často při popisu statistického souboru také určité číselné vyjádření toho, jakým způsobem a v jaké vzdálenosti jsou data rozmístěna okolo střední hodnoty - k tomuto účelu slouží charakteristiky variability Variační rozpětí Variační rozpětí 6 je poměrně intuitivní pojem - je dáno rozdílem největší a nejmenší hodnoty v souboru dat. Nicméně takto definované rozpětí může být zavádějící díky extrémním hodnotám. Daleko lepší představu o datech nám může dát tzv. mezikvartilové rozpětí, které je definováno jako rozdíl Q 3 Q Rozptyl Rozptyl 7 vyjadřuje vzdálenost rozložení prvků statistického souboru okolo jeho průměru. Je definován jako: 6 angl. range 7 angl. variance σ 2 = (xi µ) 2 n (2.2) 8
25 2.1. Deskriptivní analýza dat Kvartily, Decily a Percentily Podobně jako medián dělí statistický soubor na dvě stejně velké poloviny, kvartily, dělí statistický soubor na čtvrtiny, decily na desetiny a percentily na setiny Směrodatná odchylka Jelikož rozptyl vyjadřuje variabilitu v jednotkách na druhou (což nemusí být vždy srozumitelné), byla zavedena směrodatná odchylka 8, která je odmocninou z rozptylu: σ = σ 2 = (xi µ) 2 n (2.3) Variační koeficient Variační koeficient 9 vyjadřuje míru relativního rozptýlení dat: v = σ 100% (2.4) µ Charakteristiky tvaru Tyto charakteristiky nám mohou dát představu o tvaru rozdělení - mezi nejpoužívanější charakteristiky patří zešikmení 10 a špičatost Zkosení Zkosení neboli koeficient asymetrie nám dává představu o tom, na jakou stranu a do jaké míry je rozdělení zešikmené. Obecně o tom, zda je nesymetrické. A = v 3 σ 3 (2.5), kde v 3 je třetí centrální moment: { v 3 = i(x i µ) 3 p(x i ) pro diskrétní náhodnou veličinu (x i µ) 3 f(x i )dx pro spojitou náhodnou veličinu 8 angl. standard deviation 9 coefficient of variation 10 angl. skewness 11 angl. kurtosis 9
26 2. Teorie Rozdělení s hodnotou A = 0 nebo blízkou bývají symetrická, rozdělení s A < 0 bývají zešikmena vlevo a naopak, rozdělení s A > 0 zešikmena vpravo Špičatost Špičatost nebo koeficient špičatosti je charakteristikou, která porovnává tvar rozdělení z hlediska špičatosti a porovnává ho s normálním rozdělením. Je definována jako: e = v 4 σ 4 3 (2.6), kde v 3 je čtvrtý centrální moment: { v 4 = i(x i µ) 4 p(x i ) pro diskrétní náhodnou veličinu (x i µ) 4 f(x i )dx pro spojitou náhodnou veličinu Rozdělení s hodnotou e = 0 nebo blízké tvarem odpovídá normálnímu rozdělení, rozdělení s e < 0 bývají plochá a naopak rozdělení s e > 0 špičatá Grafické znázornění dat Velmi dobrou představu o datech nám může dát jejich grafická reprezentace. Vyčerpávající přehled grafické reprezentace dat by samozřejmě vydal na samostatnou publikaci, proto zmíníme pouze nejpoužívanější prostředky, mezi které patří histogram a krabicový graf Histogram Na obrázku 2.1 můžeme vidět ukázku histogramu - výška sloupců odpovídá četnostem hodnot náhodné veličiny, v případě spojité náhodné veličiny jeden sloupec odpovídá intervalu a jeho výška četnosti výskytu hodnoty náhodné veličiny v tomto intervalu. Aby bylo možné porovnávat různé histogramy z hlediska jejich podobnosti nebo tvaru, často se využívá histogram relativních četností namísto absolutních Krabicový graf Krabicový graf 2.2 vyjadřuje hned několik informací najednou - jeho nejvzdálenější konce zobrazují minimální a maximální hodnoty, které ještě nejsou hodnotami odlehlými (ty by byly v krabicovém grafu zobrazeny vně 12 angl. box-and-whisker plot nebo box plot 10
27 2.1. Deskriptivní analýza dat Obrázek 2.1: Ukázka histogramu tohoto rozpětí). Okraje krabičky představují kvartily Q 1 a Q 3 a jejich vzdálenost (šířka krabičky) mezikvartilové rozpětí. Horizontální přímka uvnitř této krabičky zobrazuje medián. Obrázek 2.2: Ukázka krabicového grafu Tento graf pro nás bude obzvláště výhodný, jelikož s jeho pomocí bude možné sledovat vývoj deskriptivní statistiky obou randomizovaných skupin v čase. 11
28 2. Teorie 2.2 Ověřování statistických hypotéz Hypotéza je v obecném případě nějaké tvrzení o datech. Úkolem statistika při testování statistických hypotéz, je danou hypotézu buď potvrdit nebo vyvrátit Nulová a alternativní hypotéza Při ověřování statistických hypotéz pracujeme s tzv. nulovou hypotézou, kterou obvykle značíme H 0 a s tzv. alternativní hypotézou H 1, která je negací nulové hypotézy. V praxi se obvykle snažíme ukázat, že H 0 neplatí a tudíž můžeme přijmout H 1 - v případě klinických studií H 0 většinou popisuje situaci, kdy zkoumaný lék resp. zákrok má nulový efekt. Samozřejmě, že cílem klinických studií je tuto nulovou hypotézu zamítnout a dokázat tak, že daný lék resp. zákrok má (nejlépe pozitivní) efekt na zdraví pacienta. Testy většinou bývají spojené s tzv. hladinou významnosti, kterou značíme α, a která vyjadřuje pravděpodobnost tzv. chyby I. typu. V oblastech jako je například lékařství, kde je omezená opakovatelnost, se obvykle používá hladina významnosti α = Naproti tomu v technických oborech, kde lze často experimenty mnohokrát opakovat za dobře definovaných podmínek, se používá hladina významnosti α = 0.01 a někdy i menší, pokud je prověření zvlášť důležité [8] Rizika chyb - chyby I. a II. druhu Chyby I. a II. typu jsou ustáleným pojmem, který se používá ve statistice pro popis dvou typů chyb [8] chyba I. typu označuje chybu, kdy je normální skupina klasifikována jako anomální. chyba II. typu anomální skupina je klasifikována jako normální. H 0 je pravdivá H 0 je nepravdivá H 0 zamítnuta chyba I.typu - H 0 nezamítnuta - chyba II.typu Pokud použijeme analogii z prostředí trestního práva, potom o chybě I.typu mluvíme v případě, že zamítneme nulovou hypotézu, která platí (odsoudíme nevinného). Naopak o chybě II.typu mluvíme v případě, že nezamítneme nulovou hypotézu, která neplatí (osvobodíme viníka). 12
29 2.3. Vybrané statistické testy Obrázek 2.3: I. a II. typ chyb, síla testu Jelikož jsou oba druhy chyb spolu úzce spjaté, volbou kritické hodnoty pouze snižujeme riziko jedné chyby na úkor druhé. Jediný způsob, jak snížit pravděpodobnost obou typů chyb, je zvýšit rozsah výběru [8] Obecný postup při ověřování hypotéz Obecný postup při ověřování většiny statistických hypotéz lze shrnout v několika bodech: 1. Je nutné definovat nulovou a alternativní hypotézu. 2. Určit hladinu významnosti. 3. Vypočítat počet stupňů volnosti testu (pokud to test vyžaduje). 4. Stanovit rozhodovací pravidlo. 5. Vypočítat testovou statistiku. 6. Stanovit závěr. 2.3 Vybrané statistické testy Testy můžeme dělit podle různých kritérií. Jedním ze základních dělení je ale dělení na parametrické a neparametrické testy. Neparametrické testy jsou 13
30 2. Teorie takové, které k výpočtu nepotřebují odhady populačních parametrů (např. průměr nebo rozptyl). Naopak typickým zástupcem parametrických testů jsou např. T-testy, u nichž se tyto parametry vyskytují jak při samotném výpočtu, tak při formulaci hypotéz. Neparametrické testy také typicky nekladou žádné předpoklady týkající se povahy nebo typu spojitého rozdělení populace ze které vzorek pochází.[16] Dále je možné provádět tzv. jednostranné resp. oboustranné 13 testy. Tato volba závisí na formulaci naší hypotézy. V nejobecnějším případě použijeme oboustranný test, jelikož nám jde o libovolný (negativní i pozitivní) efekt. Pokud ale naše hypotéza vyžaduje posuzování pouze ve směru jednoho extrému použijeme jednostranný test. Tato kapitola obsahuje ilustrativní příklady statistických testů implementovaných v rámci diplomové práce. Příklady jsou převzaty z [14] a budou použity v dalších kapitolách jako reference toho, že všechny implementované testy fungují na triviálních příkladech tak, jak očekáváme T-Test Jakýkoliv statistický test, který používá t-rozdělení můžeme označit jako T-test. Jeden z nejznámějších T-testů je nazýván Studentův T-test 14. Studentův T-test má několik variant a je používán pro porování hypotetického průměru s průměrem skutečným nebo pro porovnání průměrů dvou skupin [7] výběrový T-test Příklad 1. Průměrné IQ v rámci populace je 100. Tým vědců se snaží zjistit, zda má nový lék pozitivní nebo negativní vliv na inteligenci (obecně, zda má vůbec nějaký efekt). V rámci klinické studie byl lék aplikován 30 účastníkům - průměrné IQ v rámci tohoto vzorku je 140 a směrodatná odchylka je 20. Na hladině významnosti 5% ověřte, zda tento nový lék ovlivňuje inteligenci? Řešení 1: Nejprve si definujeme nulovu a alternativní hypotézu: H 0 ; µ 0 = angl. one-tailed resp. two-tailed 14 Pseudonym, který používal William Sealy Gosset, aby nevyšlo najevo, že je zaměstnán v pivovaru Guinness, kde se snažili vařit lepší pivo s pomocí statistiky a samozřejmě tuto obchodní výhodu skrýt před konkurencí. 14
31 2.3. Vybrané statistické testy Stanovíme hladinu významnosti Určíme počet stupňů volnosti H 1 ; µ 100 α = 0.05 df = n 1 = 30 1 = 29 Protože nás zajímá, zda má lék vůbec nějaký efekt - tj. efekt může být pozitivní i negativní, jedná se o oboustranný test. S využitím výše zmíněných informací nalezneme v t-tabulce kritické hodnoty pro oboustraný test pro danou hladinu významnosti a počet stupňů volnosti. Stanovíme rozhodovací pravidlo pro zamítnutí nulové hypotézy: Vypočteme testovou statistiku jako: t < nebo t > t = x µ s n (2.7) Po dosazení: t = = Jelikož t = > , můžeme na základě rozhodovacího pravidla zamítnout nulovou a přijmout alternativní hypotézu, která říká, že nový lék výrazně zvyšuje inteligenci výběrový T-test (nezávislé vzorky) Příklad 2. Učitel statistiky chce porovnat své dvě třídy a zjistit, zda existují rozdíly mezi výsledky testů v jedné a druhé třídě. Třída A má 25 studentů s průměrným hodnocením 70 a směrodatnou odchylkou 15. Třída B má 20 studentů s průměrným hodnocením 74 a směrodatnou odchylkou 25. Na hladině významnosti 5% ověřte, zda se výsledky obou tříd v daném testu významně liší. Řešení 2: Nejprve si definujeme nulovu a alternativní hypotézu: H 0 ; µ A = µ B 15
32 2. Teorie Stanovíme hladinu významnosti Určíme počet stupňů volnosti H 1 ; µ A µ B α = 0.05 df = (n 1 1) + (n 2 1) = (25 1) + (20 1) = 43 Stejně jako u předchozího příkladu - zajímá nás, zda se výsledky obou tříd jakkoliv liší - znovu se tedy jedná o oboustranný test. S využitím výše zmíněných informací nalezneme v t-tabulce kritické hodnoty pro oboustraný test pro danou hladinu významnosti a počet stupňů volnosti. Stanovíme rozhodovací pravidlo pro zamítnutí nulové hypotézy: t < nebo t > Můžeme si všimnout, že hodnota testovacího kritéria je o něco menší než v předchozím příkladu, přestože kritické hodnoty hledáme v téže tabulce. V tomto případě je to dáno více stupni volnosti, což je parametr, který určuje tvar spojitého rozdělení pravděpodobnosti, ze kterého kritické hodnoty pocházejí. Nejdříve si musíme vypočítat dílčí mezivýsledky: df 1 = n 1 1 = 24 df 2 = n 2 1 = 19 SS 1 = s 2 1 df 1 = = 5400 SS 2 = s 2 2 df 2 = = Které použijeme pro výpočet tzv. sdruženého rozptylu: s 2 p = SS 1 + SS 2 df 1 + df 2 = Nakonec vypočteme testovou statistiku: Po dosazení: t = ( x 1 x 2 ) s 2 p n 1 + s2 p n 2 = = t = x 1 x 2 (2.8) s 2 p n 1 + s2 p n 2 (70 74) = = 0.67 Jelikož t = 0.67 > , nemůžeme na základě rozhodovacího pravidla zamítnout nulovou hypotézu a tedy nemůžeme prohlásit, že by se výsledky v obou třídách výrazněji lišily. 16
33 2.3. Vybrané statistické testy výběrový T-test (párový) Příklad 3. Vědci chtějí zjistit, zda nová pilulka na hubnutí skutečně funguje. V rámci klinické studie se dotazovali 10 pacientů, kteří ohodnotili svůj hlad na stupnici od 1 do 10 před a po aplikaci pilulky. Na hladině významnosti 5% ověřte, zda má pilulka vůbec nějaký efekt na hubnutí? Před Po Řešení 3: Nejprve si definujeme nulovu a alternativní hypotézu: Stanovíme hladinu významnosti Určíme počet stupňů volnosti H 0 ; µ před = µ po H 1 ; µ před µ po α = 0.05 df = n 1 = 10 1 = 9 Stejně jako u předchozích dvou testů nás zajímá to, zda má piluka vůbec nějaký efekt - znovu tedy mluvíme o oboustraném testu. S využitím výše zmíněných informací nalezneme v t-tabulce kritické hodnoty pro oboustraný test pro danou hladinu významnosti a počet stupňů volnosti. Stanovíme rozhodovací pravidlo pro zamítnutí nulové hypotézy: t < nebo t > Nejdříve si vypočteme rozdíly jednotlivých párových pozorování: Před Po Rozdíl Vypočteme testovou statistiku jako: t = X D s D n (2.9) 17
34 2. Teorie Přičemž X D a s D spočteme následovně: X D = Po dosazení: n 1 x diff = ( 1) x 2 ( x) 2 2 = n t = = 3.61 = 1.49 = 1.7 Jelikož t = 3.61 > , můžeme na základě rozhodovacího pravidla zamítnout nulovou a přijmout alternativní hypotézu, která říká, že nový lék výrazně snižuje chuť k jídlu Analýza rozptylu (ANOVA) Název testu je zkratka odvozená ze slovního spojení ANalysis Of VAriance, což je obecná technika, která slouží k porovnání rozdílů spojité veličiny mezi několika skupinami. Tato metoda má několik modifikací - v tomto textu se budeme zabývat variantou zvanou jednocestná analýza rozptylu 15. Jedná se o parametrickou variantu Kruskalova-Wallisova testu. Příklad 4. Lékaři chtějí otestovat nový lék proti úzkosti. Rozdělí účastíky studie do tří skupin podle množství aplikované látky (0mg, 50mg a 100mg). Účastníci jsou poté požádáni aby ohodnotili stupeň úzkosti na stupnici od 1 do 10. Na hladině významnosti 5% ověřte, zda existuje rozdíl mezi jednotlivým dávkováním? 0 mg mg mg Řešení 4: Nejprve si definujeme nulovu a alternativní hypotézu: H 0 ; µ 0mg = µ 50mg = µ 100mg H 1 ; P růměr některé ze skupin se liší. 15 angl. One-way ANOVA nebo Single Factor ANOVA 18
35 2.3. Vybrané statistické testy Stanovíme hladinu významnosti α = 0.05 Určíme počet stupňů volnosti s použitím N je počet vzorků celkem, a je počet skupin: df B = a 1 = 3 1 = 2 df W = N a = 21 3 = 18 df T = N 1 = 21 1 = 20 S využitím df B a df W nalezneme v F-tabulce kritickou hodnotu Můžeme se všimnout, že oproti ostatním doposud představeným testům je tento test jednostranný a tedy rozhodovací pravidlo pro zamítnutí H 0 bude: F > Pro výpočet testové statistiky nejdříve potřebujeme zjistit sumy čtverců: ( i a i ) SS B = T 2 n N = = ve výše uvedeném vztahu odpovídá a i vzorkům z jedné skupiny, T je součet všech prvků ze všech skupin, n je počet prvků v jedné skupině a nakonec N je celkový počet prvků. Dále si vypočteme: kde SS W = Y 2 ( i a i ) n = Y 2 = = 853 Nakonec spočteme poslední z mezivýsledků: = SS T = Y 2 T 2 Dostáváme následující tabulku: N = = SS df MS F B ? W T
36 2. Teorie Kde a MS B = SS B = df B 2 = MS W = SS W = = 0.57 df W 18 A konečně se dostáváme k výpočtu testové statistiky: Po dosazení: F = MS B MS W (2.10) F = = Jelikož F = > , můžeme zamítnout H 0 a konstatovat, že mezi skupinami existují rozdíly ve vnímaném stupni úzkosti χ 2 test dobré shody Chí kvadrát test má stejně tak jako ANOVA několik variant - v tomto textu se budeme věnovat pouze variantě zvané Test dobré shody 16. Další varianta je test nezávislosti 17, kterému se v tomto textu nebudeme věnovat. Test dobré shody má své opodstatnění tam, kde zkoukáme, zda pozorované rozdělení pravděpodobnosti odpovídá rozdělení očekávanému. Příklad 5. Během sčítání lidu v USA v roce 2000 se došlo k závěru, že věkové skupiny v jednom malém městě vypadali takto: méně než 18 let let více než 35 let 20% 30% 50% Zajímá nás, zda i dnes jsou tyto četnosti zhruba stejné? V rámci experimentu byl vybrán vzorek 500 lidí ze stejného města a spočtena tabulka četností. méně než 18 let let více než 35 let očekávané = = = 250 skutečné angl. Goodness of fit test 17 Independence test 20
37 2.3. Vybrané statistické testy Řešení 5: Nejprve si definujeme nulovu a alternativní hypotézu: H 0 ; Četnosti pocházejí ze stejného (očekávaného rozdělení). H 1 ; Četnosti nepocházejí ze stejného (očekávaného rozdělení). Stanovíme hladinu významnosti Určíme počet stupňů volnosti α = 0.05 df = k 1 = 3 1 = 2, kde k je počet tříd. Na základě stupňů volnosti a stanovené hladiny významnosti určíme kritickou hodnotu z χ 2 tabulky a stanovíme rozhodovací pravidlo pro zamítnutí nulové hypotézy: χ 2 > 5.99 Vypočteme testovou statistiku jako: Po dosazení: ( ) (f skutečná f očekávaná ) 2 f očekávaná (2.11) ( ) (91 250)2 250 = Jelikož χ 2 > 5.99, zamítáme H 0 a na základě pozorovaného vzorku populace můžeme konstatovat, že pozorované četnosti nejsou stejné s ohledem na očekávání z roku Mann Whitney U Test Mann-Whitney U-Test neparametrická verze nezávislého T-testu, pomocí něhož můžeme porovnávat ordinální data. Je nutné zmínit fakt, že pro vzorek větší než 20 testová statistika pochází z normálního rozdělení. Příklad 6. Na hladině významnosti 5% máme porovnat, zda existuje rozdíl mezi lékem A a lékem B. Relaxace: pro výpočet kritických hodnot bude použito normální rozdělení, přestože velikost vzorku je menší než 20. Lék A Lék B
38 2. Teorie Řešení 6: Nejprve si definujeme nulovu a alternativní hypotézu: H 0 ; Mezi oběma léky není významný rozdíl. H 1 ; Mezi oběma léky existuje významný rozdíl. Stanovíme hladinu významnosti α = 0.05 Stanovíme rozhodovací pravidlo pro zamítnutí nulové hypotézy: z < 1.96 nebo z > 1.96 Nejprve vzestupně seřadíme 18 jednotlivé hodnoty a přiřadíme jim bodové ohodnocení podle pravidla 1 bod za každý vzorek z druhé skupiny s vyšším pořadím. Pořadí Původní skóre Původní vzorek Ohodnocení 1 12 B B B B B B A A A A A A 0 Sečteme body pro obě skupiny: U A = = 0 U B = = 36 Vybereme menší z obou hodnot U = min(u A, U B ) = 0 a tuto hodnotu označovanou jako U-skóre použijeme pro výpočet z-statistiky: z = U n A n B 2 na n B (n A +n B +1) 12 (2.12) 18 v případě shody rozdělíme jako v případě ohodnocení 4 a 5, ze kterého se stane 4.5 v obou případech 22
39 2.3. Vybrané statistické testy Po dosazení: z = (6+6+1) 12 = 2.88 Jelikož z = 2.88 < 1.96, zamítáme H 0 a můžeme prohlásit, že účinky obou léků se liší Wilcoxonův znaménkový test Jedná se o neparametrický test, který mezi sebou porovnává dvě skupiny závislých pozorování. Je analogií k párovému T-testu - tento test je vhodné použít v situaci, kdy existuje možnost, že data neodpovídají normálnímu rozdělení. [7] Pokud mluvíme o Wilcoxonově testu, máme na mysli většinou znaménkový test nebo Rank Sum test. Je nutné zmínit fakt, že pro vzorek větší než 30 testová statistika pochází z normálního rozdělení. Příklad 7. Zadání je stejné jako u předchozího příkladu - na hladině významnosti 5% máme porovnat, zda existuje rozdíl mezi lékem A a lékem B. Relaxace: pro výpočet kritických hodnot bude použito normální rozdělení, přestože velikost vzorku je menší než 30. Před Po Řešení 7: Nejprve si definujeme nulovu a alternativní hypotézu: H 0 ; Lék nemá žádný významný vliv H 1 ; Lék má významný vliv. Stanovíme hladinu významnosti α = 0.05 Stanovíme rozhodovací pravidlo pro zamítnutí nulové hypotézy: z < 1.96 nebo z > 1.96 Vypočítáme rozdíly mezi jednotlivými pozorováními a na základě pořadí těchto rozdílů přiřadíme hodnocení od nejmenšího rozdílu po největší. 23
40 2. Teorie Před Po Rozdíl Hodnocení Sečteme všechny kladné a záporné rozdíly R+ = = 20 R = 1 Vybereme menší z obou hodnot T = min( R, R + ) = 1 a tuto hodnotu označovanou jako T-skóre použijeme pro výpočet z-statistiky: Po dosazení: z = T n(n+1) 4 n(n+1)(2n+1) 24 (2.13) z = T 6(6+1) 4 = (6+1)(2 6+1) 24 Jelikož z = 1.99 < 1.96, můžeme zamítnout H 0 a prohlásit, že aplikace léku má významné účinky. Musíme však podotknout, že H 0 byla zamítnuta velmi těsně a tedy je závěr nutno brát s větší rezervou. 24
41 Kapitola 3 Analýza a návrh řešení 3.1 Srovnání dostupných nástrojů Jelikož k dosažení vytyčených cílů je možné dojít mnoha cestami a použít různé nástroje, rozhodl jsem se shrnout ty nejzajímavější z hlediska jejich kladů a záporů a pokusit se vybrat z nich ten nejlepší IBM SPSS Statistics! profesionální řešení % velmi vysoká cena R! silná komunita, výborná dokumentace % poněkud zastaralé grafické rozhraní, nemožnost reportingu RapidMiner! intuitivní ovládání, zaměřené na data-flow, snadná rozšiřitelnost, rozšíření pro jazyk R % neexistující podpora pro statistické testy 25
42 3. Analýza a návrh řešení 3.2 Srovnání knihoven pro statistické výpočty Ačkoliv JSC je knihovnou specificky zaměřenou na statistické testy, tato knihovna je poměrně zastaralá a a její dokumentace není moc rozsáhlá. Naopak Apache Commons Math je knihovna, která řeší mnohem více problémů, než je pro naše účely potřeba (pro naše účely je zbytečně rozsáhlá), nicméně za ní stojí silná komunita, je ověřená časem a počet testů, které nabízí je slušný Apache Commons Math! mnoho možností, silná komunita a aktivní vývoj, výborná dokumentace % zbytečně rozsáhlá knihovna, slabá customizovatelnost testů JSC! množství testů % neudržovaná a zastaralá knihovna, slabá dokumentace 3.3 Srovnání knihoven pro vizualizaci Z tohoto srovnání nakonec vyšla vítězně knihovna JFreeChart, ačkoliv to bylo vítězství těsné - GRAL obsahuje dostatečné množství grafů, má slušnou dokumentaci a vypadá lépe - bohužel z celkového srovnání vychází hůře kvůli velmi slabým možnostem customizace JFreeChart! velké množství grafů, spoustu možností customizace, výborná dokumentace % méně přitažlivá vizuální stránka GRAL! přitažlivá vizuální stránka, dobrá dokumentace % málo možností customizace 26
43 3.4. Srovnání knihoven pro reporting 3.4 Srovnání knihoven pro reporting Toto srovnání se může na první pohled jevit jako zavádějící z toho důvodu, že Jasper Reports využívá interně ke generování reportů itext, což je obecná knihovna pro manipulaci s pdf. V případě klinických studií je ale orientace na reporty zcela dostačující a navíc umožňuje generování do mnoha různých formátů JasperReports! výborná dokumentace, silná komunita, mnoho možností, různé formáty % přílišná složitost itext! obecná knihovna pro manipulaci s pdf % orientace pouze na pdf 27
44
45 Kapitola 4 Použité technologie 4.1 RapidMiner RapidMiner je jedním z nejrozšířenějších open source nástrojů pro dolování dat a strojové učení. RapidMiner pracuje s poměrně intuitivní představou o jednotlivých krocích zpracování dat - s tzv. operátory - což jsou komponenty, které poskytují určitou funkčnost (klasifikace, regrese, shluková analýza, předzpracování, apod.). Operátory mají jeden nebo více vstupů resp. výstupů a je možné je libovolně kombinovat a tak vytvořit komplexní proces. Více o jednotlivých operátorech zde [13]. Tvorbu vlastních operátorů popisuje [12]. 4.2 Jazyk R Jazyk R je open source statistické prostředí a programovací jazyk velmi oblíbený mezi statistiky [3], umožňuje snadnou tvorbu grafů a statistických výpočtů. Navíc díky rozšíření pro podporu jazyka R v RapidMineru, je možné zkombinovat možnosti R s už tak rozsáhlými možnostmi RapidMineru. 4.3 Java + IntelliJ IDEA RapidMiner stejně jako jeho rozšíření jsou napsány v jazyce Java. Představovat tento jazyk asi není třeba, neboť se jedná o jeden z nejrozšířenějších (Platformově nezávislý) jazyk současnosti. IntelliJ je profesionální vývojové prostředí určené pro vývoj (nejen) v jazyce Java. 29
46 4. Použité technologie 4.4 Groovy Jedná se o dynamický jazyk pro Java platformu inspirovaný jazyky jako je Python, Ruby nebo Smalltalk, které mají množství užitečných vlastností, díky kterým umožňují psát méně kódu, zato však efektivnějšího. Další výhodou je fakt, že syntaxe Groovy je velmi podobná Javě [6]. 4.5 Ant Another Neat Tool (Ant) je jeden z nejrozšířenějších buildovacích nástrojů určených pro vývoj v jazyce Java. Tento nástroj umožňuje popsat jednotlivé kroky buildovacího procesu a tak umožnit jeho automatizaci. Pracuje s tzv. cíli 19, což je jakási abstrakce zastřešující posloupnost kroků, buildovacího procesu. RapidMiner obsahuje předdefinovanou sadu cílů, které výrazně usnadňují vývoj rozšíření. 4.6 NSIS První věcí, se kterou se uživatel musí potýkat před tím, než začne používat nějaký software, je jeho instalace - je tedy nutné aby byla bezproblémová [9]. Nullsoft Scriptable Install System (NSIS) je open source systém pro tvorbu instalátorů pro operační systém Windows. Práce s tímto systémem je velmi snadná a RapidMiner má navíc připraveny skripty, které odvedou téměř veškerou práci. Uživatel tak pouze nainstaluje dané rozšíření a může ho začít používat. 4.7 Apache Commons Math Apache Commons Math je velmi rozsáhlou knihovnou zaměřenou na matematické výpočty [2]. Jedná se o další z rodiny commons knihoven, které si kladou za cíl zastřešit různé problémy, které musí programátoři často řešit. Tato knihovna pokrývá množství oblastí od lineární algebry po genetické algoritmy. Pro naše účely je zajímavá z toho důvodu, že obsahuje podporu pro statistické testy a spojitá rozdělení pravděpodobnosti. 19 angl. targets 30
47 4.8. JFreeChart 4.8 JFreeChart JFreeChart je komplexní open source knihovna pro tvorbu grafů v prostředí jazyka Java [5]. Přestože je oficiální vývojářská příručka placená, díky kvalitní dokumentaci a množství užitečných příkladů se jedná o jasnou volbu v případě, nutnosti programové tvorby jakýchkoliv grafů. 4.9 JasperReports a DynamicJasper JasperReports je jedním z nejznámnějších reportovacích frameworků v prostředí jazyka Java [1]. V souvislosti s JasperReports bývá často zmiňován ještě ireport, což je editor reportů postavený nad platformou NetBeans. Programová tvorba reportů bez využití ireport je však poměrně komplikovaná záležitost, proto je vhodné JasperReports zkombinovat například s DynamicJasper, což je knihovna, která uživatele odstiňuje od přílišné složitosti JasperReports a umožňuje vytvořit komplexní report napsáním několika řádků kódu. 31
48
49 Kapitola 5 Realizace 5.1 Integrace do systému RapidMiner Rozšíření programu RapidMiner bylo implemtováno dle [12]. Z funkčního hlediska je rozšíření rozděleno do 3 částí, které zajišťují odpovídající funkcionalitu. Celkem bylo přidáno 11 operátoru, konkrétně: 6 operátorů pro ověřování statistických hypotéz 2 operátory pro deskriptivní statistiku a explorační analýzu 3 operátory pro reporting Operátory pro ověřování statistických hypotéz Hlavní funkcionalitu celého nástroje tvoří operátory umožňující vykonávat statistické testy přímo v prostředí RapidMineru. Celkem bylo vytvořeno 6 operátorů, které přidávají podporu pro statistické testy popsané v kapitole 2.3. Testy jsou rozděleny do 2 skupin podle toho, zda se jedná o testy parametrické nebo neparametrické. Všechny implementované testy mají společné tyto parametry: Alpha Hladina významnosti, na které má být test proveden. Výchozí hodnota je 0.05.(povinný) Description Parametr, který slouží k přidání popisku k testu. V případě, že tento parametr není zadán, jeho hodnota odpovídá názvu testu. (expertní) 33
50 5. Realizace Obrázek 5.1: Operátory pro ověřování statistických hypotéz Operátor pro jednovýběrový T-Test Operátor pro jednovýběrový T-test implementuje test pro porovnání hypotetického průměru s průměrem skutečným. Tento test je popsán v Jedná se o oboustranný test. Parametry tohoto operátoru jsou: Sample 1 Parametr, který určuje jaký atribut ze vstupu bude použit v rámci testu jako statistický soubor. (povinný) Fixed value Parametr, který specifikuje hypotetický průměr, se kterým je skutečný statistický soubor porovnáván. Výchozí hodnota je 1.0.(povinný) Operátor pro dvouvýběrový T-Test Operátor pro dvouvýběrový T-test implementuje ve skutečnosti testy dva: Test nezávislých vzorků popsaný v , který porovnává průměry dvou statistických souborů mezi sebou. 2. Párový test popsaný v , který porovnává dva statistické soubory závislých měření. Parametry tohoto operátoru jsou: Sample 1 Parametr, který určuje jaký atribut ze vstupu bude použit v rámci testu jako první statistický soubor.(povinný) Sample 2 Parametr, který určuje jaký atribut ze vstupu bude použit v rámci testu jako druhý statistický soubor. (povinný) Paired Test Parametr, který určuje, zda test bude párový. Výchozí hodnota je false. (povinný)
51 5.1. Integrace do systému RapidMiner V obou případech se jedná o oboustranné testy One-way ANOVA operátor Tento operátor implementuje jednosměrnou analýzu rozptylu dle popisu v Jedná se o jednostranný test. Parametry tohoto operátoru jsou: Classes Parametr, který vybírá podmnožinu atributů ze vstupu. Tyto atributy budou použity jako jednotlivé skupiny v testu. (povinný) Chi Square Test operátor Tento operátor implementuje χ 2 test dobré shody dle popisu v Jedná se o jednostranný test. Parametry tohoto operátoru jsou: Sample 1 Parametr, který určuje jaký atribut ze vstupu bude použit v rámci testu jako první statistický soubor obsahující očekávané četnosti. (povinný) Sample 2 Parametr, který určuje jaký atribut ze vstupu bude použit v rámci testu jako druhý statistický soubor obsahující skutečné (pozorované) četnosti. (povinný) Mann Whitney U-Test operátor Tento operátor implementuje Mann Whitney test dle popisu v Jedná se o oboustranný test. Parametry tohoto operátoru jsou: Sample 1 Parametr, který určuje jaký atribut ze vstupu bude použit v rámci testu jako první statistický soubor. (povinný) Sample 2 Parametr, který určuje jaký atribut ze vstupu bude použit v rámci testu jako druhý statistický soubor. (povinný) Wilcoxon Signed Rank Test operátor Tento operátor implementuje Wilcoxonův znaménkový test dle popisu v Jedná se o oboustranný test. Sample 1 Parametr, který určuje jaký atribut ze vstupu bude použit v rámci testu jako první statistický soubor. (povinný) 35
52 5. Realizace Sample 2 Parametr, který určuje jaký atribut ze vstupu bude použit v rámci testu jako druhý statistický soubor. (povinný) Zobrazení výsledků statistických testů Pro všechny statistické testy je zaregistrován společný renderer, který zobrazí jak textový výstup, tak vizualizaci intervalu spolehlivosti v rámci rozdělení, které odpovídá danému testu. Ukázku výstupu pro Wilcoxonův Znaménkový test je možné vidět na obrázku 5.5. Textový výstup zahrnuje: Test Název testu Test Statistic Hodnota testové statistiky Decision Rule Textová reprezentace rozhodovacího pravidla Confidence Hladina spolehlivosti na jaké byl test proveden Reject H 0 zamítnuta Nejdůležitější informace o tom, zda má být nulová hypotéza Vizualizace zahrnuje: 1. Vizualizaci rozdělení spojité veličiny, ze kterého daný test vychází. 2. Vizualizaci intervalu spolehlivosti. 3. Označenou hodnotu, která odpovídá testové statistice. 4. Zobrazený graf se dá libovolně přibližovat a oddalovat, což může být užitečné v případě těsného zamítnutí resp. přijetí H Operátory pro explorační analýzu dat Operátory pro deskriptivní a explorační analýzu byly prozatím přidány pouze dva, takové, které splňují požadavky klinické studie Prague 15 - jedná se o operátor pro deskriptivní analýzu a operátor pro tvorbu krabicových grafů. 36
53 5.1. Integrace do systému RapidMiner Obrázek 5.2: Operátory pro deskriptivní statistiku a explorační analýzu Descriptive statistics operátor Tento operátor implementuje většinu z charakteristik deskriptivní statistiky zmíněných v sekci 2.1. Vstupem tohoto operátoru je ExampleSet, kterému je pro každý jeho atribut vytvořena popisná statistika. Uživatel si může vybrat, které z popisných charakteristik budou vytvořeny a které nikoliv. Mean aritmetický průměr, výchozí hodnota je true, (povinný) Standard Deviation směrodatná odchylka, výchozí hodnota je true, (povinný) Median medián, výchozí hodnota je false (povinný) Skewness zkosení, výchozí hodnota je false (expertní) Variance rozptyl, výchozí hodnota je false (expertní) Kurtosis špičatost, výchozí hodnota je false (expertní) Renaming rules Umožňuje definovat pravidla pro přejmenování atributů, pokud není zadáno žádné pravidlo, názvy výstupních atributů Description odpovídají názvům vstupních atributů (expertní) Precision určuje počet desetiných míst v případě výstupu do reportu, výchozí hodnota je 2 (expertní) Box plot operátor Tento operátor umožňuje snadno vytvořit ze vstupního ExampleSetu výstup v podobě krabicového grafu. Operátor má proměnný počet vstupů. Každý vstup v případě, že je připojen odpovídá jedné třídě a každý atribut odpovídá krabičce. Chart Title nadpis výstupního grafu (nepovinný) Chart X-Axis Title popisek osy X (povinný) Chart Y-Axis Title popisek osy Y (povinný) 37
Charakteristika datového souboru
Zápočtová práce z předmětu Statistika Vypracoval: 10. 11. 2014 Charakteristika datového souboru Zadání: Při kontrole dodržování hygienických norem v kuchyni se prováděl odběr vzduchu a pomocí filtru Pallflex
VíceMatematika III. 27. listopadu Vysoká škola báňská - Technická univerzita Ostrava. Matematika III
Vysoká škola báňská - Technická univerzita Ostrava 27. listopadu 2017 Typy statistických znaků (proměnných) Typy proměnných: Kvalitativní proměnná (kategoriální, slovní,... ) Kvantitativní proměnná (numerická,
VíceRNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr.
Analýza dat pro Neurovědy RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr. Jaro 2014 Institut biostatistiky Janoušová, a analýz Dušek: Analýza dat pro neurovědy Blok 3 Jak a kdy použít parametrické a
VíceRozhodnutí / Skutečnost platí neplatí Nezamítáme správně chyba 2. druhu Zamítáme chyba 1. druhu správně
Testování hypotéz Nechť,, je náhodný výběr z nějakého rozdělení s neznámými parametry. Máme dvě navzájem si odporující hypotézy o parametrech daného rozdělení: Nulová hypotéza parametry (případně jediný
VíceZápočtová práce STATISTIKA I
Zápočtová práce STATISTIKA I Obsah: - úvodní stránka - charakteristika dat (původ dat, důvod zpracování,...) - výpis naměřených hodnot (v tabulce) - zpracování dat (buď bodové nebo intervalové, podle charakteru
VícePravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz
Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz Pravděpodobnost a matematická
VíceTestování hypotéz. 1. vymezení základních pojmů 2. testování hypotéz o rozdílu průměrů 3. jednovýběrový t-test
Testování hypotéz 1. vymezení základních pojmů 2. testování hypotéz o rozdílu průměrů 3. jednovýběrový t-test Testování hypotéz proces, kterým rozhodujeme, zda přijmeme nebo zamítneme nulovou hypotézu
VíceUNIVERZITA OBRANY Fakulta ekonomiky a managementu. Aplikace STAT1. Výsledek řešení projektu PRO HORR2011 a PRO GRAM2011 3. 11.
UNIVERZITA OBRANY Fakulta ekonomiky a managementu Aplikace STAT1 Výsledek řešení projektu PRO HORR2011 a PRO GRAM2011 Jiří Neubauer, Marek Sedlačík, Oldřich Kříž 3. 11. 2012 Popis a návod k použití aplikace
VíceIntervalové odhady. Interval spolehlivosti pro střední hodnotu v N(µ, σ 2 ) Interpretace intervalu spolehlivosti. Interval spolehlivosti ilustrace
Intervalové odhady Interval spolehlivosti pro střední hodnotu v Nµ, σ 2 ) Situace: X 1,..., X n náhodný výběr z Nµ, σ 2 ), kde σ 2 > 0 známe měli jsme: bodové odhady odhadem charakteristiky je číslo) nevyjadřuje
Více676 + 4 + 100 + 196 + 0 + 484 + 196 + 324 + 64 + 324 = = 2368
Příklad 1 Je třeba prověřit, zda lze na 5% hladině významnosti pokládat za prokázanou hypotézu, že střední doba výroby výlisku je 30 sekund. Přitom 10 náhodně vybraných výlisků bylo vyráběno celkem 540
VíceČíselné charakteristiky
. Číselné charakteristiky statistických dat Průměrný statistik se během svého života ožení s 1,75 ženami, které se ho snaží vytáhnout večer do společnosti,5 x týdně, ale pouze s 50% úspěchem. W. F. Miksch
VíceIntervalové odhady. Interval spolehlivosti pro střední hodnotu v N(µ, σ 2 ) Interpretace intervalu spolehlivosti. Interval spolehlivosti ilustrace
Intervalové odhady Interval spolehlivosti pro střední hodnotu v Nµ, σ 2 ) Situace: X 1,..., X n náhodný výběr z Nµ, σ 2 ), kde σ 2 > 0 známe měli jsme: bodové odhady odhadem charakteristiky je číslo) nevyjadřuje
VíceMgr. Karla Hrbáčková, Ph.D. Základy kvantitativního výzkumu
Mgr. Karla Hrbáčková, Ph.D. Základy kvantitativního výzkumu K čemu slouží statistika Popisuje velké soubory dat pomocí charakteristických čísel (popisná statistika). Hledá skryté zákonitosti v souborech
VíceStatistika, Biostatistika pro kombinované studium Letní semestr 2011/2012. Tutoriál č. 4: Exploratorní analýza. Jan Kracík
Statistika, Biostatistika pro kombinované studium Letní semestr 2011/2012 Tutoriál č. 4: Exploratorní analýza Jan Kracík jan.kracik@vsb.cz Statistika věda o získávání znalostí z empirických dat empirická
VíceZpracování náhodného výběru. Ing. Michal Dorda, Ph.D.
Zpracování náhodného výběru popisná statistika Ing. Michal Dorda, Ph.D. Základní pojmy Úkolem statistiky je na základě vlastností výběrového souboru usuzovat o vlastnostech celé populace. Populace(základní
VíceStručný úvod do vybraných zredukovaných základů statistické analýzy dat
Stručný úvod do vybraných zredukovaných základů statistické analýzy dat Statistika nuda je, má však cenné údaje. Neklesejme na mysli, ona nám to vyčíslí. Z pohádky Princové jsou na draka Populace (základní
Více31. 3. 2014, Brno Hanuš Vavrčík Základy statistiky ve vědě
31. 3. 2014, Brno Hanuš Vavrčík Základy statistiky ve vědě Motto Statistika nuda je, má však cenné údaje. strana 3 Statistické charakteristiky Charakteristiky polohy jsou kolem ní seskupeny ostatní hodnoty
VíceTestování hypotéz. Analýza dat z dotazníkových šetření. Kuranova Pavlina
Testování hypotéz Analýza dat z dotazníkových šetření Kuranova Pavlina Statistická hypotéza Možné cíle výzkumu Srovnání účinnosti různých metod Srovnání výsledků různých skupin Tzn. prokázání rozdílů mezi
VíceVysoká škola báňská technická univerzita Ostrava. Fakulta elektrotechniky a informatiky
Vysoká škola báňská technická univerzita Ostrava Fakulta elektrotechniky a informatiky Bankovní účty (semestrální projekt statistika) Tomáš Hejret (hej124) 18.5.2013 Úvod Cílem tohoto projektu, zadaného
VíceAplikovaná statistika v R
Aplikovaná statistika v R Filip Děchtěrenko Matematicko-fyzikální fakulta filip.dechterenko@gmail.com 15.5.2014 Filip Děchtěrenko (MFF UK) Aplikovaná statistika v R 15.5.2014 1 / 15 Co bude náplní našich
VíceJednofaktorová analýza rozptylu
I I.I Jednofaktorová analýza rozptylu Úvod Jednofaktorová analýza rozptylu (ANOVA) se využívá při porovnání několika středních hodnot. Často se využívá ve vědeckých a lékařských experimentech, při kterých
VíceTECHNICKÁ UNIVERZITA V LIBERCI. Ekonomická fakulta. Semestrální práce. Statistický rozbor dat z dotazníkového šetření školní zadání
TECHNICKÁ UNIVERZITA V LIBERCI Ekonomická fakulta Semestrální práce Statistický rozbor dat z dotazníkového šetření školní zadání Skupina: 51 Vypracovaly: Pavlína Horná, Nikola Loumová, Petra Mikešová,
VíceCvičení ze statistiky - 8. Filip Děchtěrenko
Cvičení ze statistiky - 8 Filip Děchtěrenko Minule bylo.. Dobrali jsme normální rozdělení Tyhle termíny by měly být známé: Centrální limitní věta Laplaceho věta (+ korekce na spojitost) Konfidenční intervaly
VíceAnalýza dat na PC I.
CENTRUM BIOSTATISTIKY A ANALÝZ Lékařská a Přírodovědecká fakulta, Masarykova univerzita Analýza dat na PC I. Popisná analýza v programu Statistica IBA výuka Základní popisná statistika Popisná statistika
VícePravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.
Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz Pravděpodobnost a matematická statistika 010 1.týden (0.09.-4.09. ) Data, typy dat, variabilita, frekvenční analýza
VíceOpakování. Neparametrické testy. Pořadí. Jednovýběrový Wilcoxonův test. t-testy: hypotézy o populačním průměru (střední hodnoty) předpoklad normality
Opakování Opakování: Testy o střední hodnotě normálního rozdělení 1 jednovýběrový t-test 2 párový t-test 3 dvouvýběrový t-test jednovýběrový Wilcoxonův test párový Wilcoxonův test dvouvýběrový Wilcoxonův
VíceTestování statistických hypotéz
Testování statistických hypotéz Na základě náhodného výběru, který je reprezentativním vzorkem základního souboru (který přesně neznáme, k němuž se ale daná statistická hypotéza váže), potřebujeme ověřit,
VíceZáklady popisné statistiky
Základy popisné statistiky Michal Fusek Ústav matematiky FEKT VUT, fusekmi@feec.vutbr.cz 8. přednáška z ESMAT Michal Fusek (fusekmi@feec.vutbr.cz) 1 / 26 Obsah 1 Základy statistického zpracování dat 2
Víceveličin, deskriptivní statistika Ing. Michael Rost, Ph.D.
Vybraná rozdělení spojitých náhodných veličin, deskriptivní statistika Ing. Michael Rost, Ph.D. Třídění Základním zpracováním dat je jejich třídění. Jde o uspořádání získaných dat, kde volba třídícího
VíceCvičení ze statistiky - 9. Filip Děchtěrenko
Cvičení ze statistiky - 9 Filip Děchtěrenko Minule bylo.. Dobrali jsme normální rozdělení Tyhle termíny by měly být známé: Inferenční statistika Konfidenční intervaly Z-test Postup při testování hypotéz
VíceTestování hypotéz testy o tvaru rozdělení. Jiří Neubauer. Katedra ekonometrie, FVL, UO Brno kancelář 69a, tel
Katedra ekonometrie, FVL, UO Brno kancelář 69a, tel. 973 442029 email:jiri.neubauer@unob.cz Statistickou hypotézou se rozumí určité tvrzení o parametrech rozdělení zkoumané náhodné veličiny (µ, σ 2, π,
VíceSeminář 6 statistické testy
Seminář 6 statistické testy Část I. Volba správného testu Chceme zjistit, zda se Ježkovy a Širůčkovy seminární skupiny liší ve výsledcích v. průběžné písemce ze statistiky. Chceme zjistit, zda 1. průběžná
VíceZÁKLADNÍ STATISTICKÉ CHARAKTERISTIKY
zhanel@fsps.muni.cz ZÁKLADNÍ STATISTICKÉ CHARAKTERISTIKY METODY DESKRIPTIVNÍ STATISTIKY 1. URČENÍ TYPU ŠKÁLY (nominální, ordinální, metrické) a) nominální + ordinální neparametrické stat. metody b) metrické
VíceTestování hypotéz. Testování hypotéz o rozdílu průměrů t-test pro nezávislé výběry t-test pro závislé výběry
Testování hypotéz Testování hypotéz o rozdílu průměrů t-test pro nezávislé výběry t-test pro závislé výběry Testování hypotéz Obecný postup 1. Určení statistické hypotézy 2. Určení hladiny chyby 3. Výpočet
VíceJana Vránová, 3. lékařská fakulta UK
Jana Vránová, 3. lékařská fakulta UK Vznikají při zkoumání vztahů kvalitativních resp. diskrétních znaků Jedná se o analogii s korelační analýzou spojitých znaků Přitom předpokládáme, že každý prvek populace
VícePSY117/454 Statistická analýza dat v psychologii seminář 9. Statistické testování hypotéz
PSY117/454 Statistická analýza dat v psychologii seminář 9 Statistické testování hypotéz Základní výzkumné otázky/hypotézy 1. Stanovení hodnoty parametru =stanovení intervalu spolehlivosti na μ, σ, ρ,
Více4ST201 STATISTIKA CVIČENÍ Č. 7
4ST201 STATISTIKA CVIČENÍ Č. 7 testování hypotéz parametrické testy test hypotézy o střední hodnotě test hypotézy o relativní četnosti test o shodě středních hodnot testování hypotéz v MS Excel neparametrické
VícePopisná statistika. Statistika pro sociology
Popisná statistika Jitka Kühnová Statistika pro sociology 24. září 2014 Jitka Kühnová (GSTAT) Popisná statistika 24. září 2014 1 / 31 Outline 1 Základní pojmy 2 Typy statistických dat 3 Výběrové charakteristiky
VíceStatistika. Diskrétní data. Spojitá data. Charakteristiky polohy. Charakteristiky variability
I Přednáška Statistika Diskrétní data Spojitá data Charakteristiky polohy Charakteristiky variability Statistika deskriptivní statistika ˆ induktivní statistika populace (základní soubor) ˆ výběr parametry
VíceANALÝZA DAT V R 7. KONTINGENČNÍ TABULKA. Mgr. Markéta Pavlíková Katedra pravděpodobnosti a matematické statistiky MFF UK.
ANALÝZA DAT V R 7. KONTINGENČNÍ TABULKA Mgr. Markéta Pavlíková Katedra pravděpodobnosti a matematické statistiky MFF UK www.biostatisticka.cz PŘEHLED TESTŮ rozdělení normální spojité alternativní / diskrétní
VícePravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.
Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz Pravděpodobnost a matematická statistika 2010 1.týden (20.09.-24.09. ) Data, typy dat, variabilita, frekvenční analýza
VíceTECHNICKÁ UNIVERZITA V LIBERCI
TECHNICKÁ UNIVERZITA V LIBERCI Ekonomická fakulta SEMESTRÁLNÍ PRÁCE STATISTICKÝ ROZBOR DAT Z DOTAZNÍKOVÉHO ŠETŘENÍ ANALÝZA VÝSLEDKŮ VYUŢITÍ PROJEKTOVÉHO ŘÍZENÍ V ESN Příjmení a jméno: Hrdá Sabina, Kovalčíková
VíceTesty dobré shody Máme dvě veličiny, u kterých bychom chtěli prokázat závislost, TESTY DOBRÉ SHODY (angl. goodness-of-fit tests)
Testy dobré shody Máme dvě veličiny, u kterých bychom chtěli prokázat závislost, např. hmotnost a pohlaví narozených dětí. Běžný statistický postup pro ověření závislosti dvou veličin je zamítnutí jejich
VíceTestování hypotéz. 1 Jednovýběrové testy. 90/2 odhad času
Testování hypotéz 1 Jednovýběrové testy 90/ odhad času V podmínkách naprostého odloučení má voák prokázat schopnost orientace v čase. Úkolem voáka e provést odhad časového intervalu 1 hodiny bez hodinek
VíceMann-Whitney U-test. Znaménkový test. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
10. Neparametrické y Mann-Whitney U- Wilcoxonův Znaménkový Shrnutí statistických ů Typ srovnání Nulová hypotéza Parametrický Neparametrický 1 skupina dat vs. etalon Střední hodnota je rovna hodnotě etalonu.
VíceKategorická data METODOLOGICKÝ PROSEMINÁŘ II TÝDEN 7 4. DUBNA dubna 2018 Lukáš Hájek, Karel Höfer Metodologický proseminář II 1
Kategorická data METODOLOGICKÝ PROSEMINÁŘ II TÝDEN 7 4. DUBNA 2018 4. dubna 2018 Lukáš Hájek, Karel Höfer Metodologický proseminář II 1 Typy proměnných nominální (nominal) o dvou hodnotách lze říci pouze
VíceVYBRANÉ DVOUVÝBĚROVÉ TESTY. Martina Litschmannová
VYBRANÉ DVOUVÝBĚROVÉ TESTY Martina Litschmannová Obsah přednášky Vybrané dvouvýběrové testy par. hypotéz test o shodě rozptylů (F-test), testy o shodě středních hodnot (t-test, Aspinové-Welchův test),
VíceTESTOVÁNÍ HYPOTÉZ STATISTICKÁ HYPOTÉZA Statistické testy Testovací kritérium = B B > B < B B - B - B < 0 - B > 0 oboustranný test = B > B
TESTOVÁNÍ HYPOTÉZ Od statistického šetření neočekáváme pouze elementární informace o velikosti některých statistických ukazatelů. Používáme je i k ověřování našich očekávání o výsledcích nějakého procesu,
VíceObsah Úvod Kapitola 1 Než začneme Kapitola 2 Práce s hromadnými daty před analýzou
Úvod.................................................................. 11 Kapitola 1 Než začneme.................................................................. 17 1.1 Logika kvantitativního výzkumu...........................................
VíceStatistické testování hypotéz II
PSY117/454 Statistická analýza dat v psychologii Přednáška 9 Statistické testování hypotéz II Přehled testů, rozdíly průměrů, velikost účinku, síla testu Základní výzkumné otázky/hypotézy 1. Stanovení
VíceStatistika, Biostatistika pro kombinované studium. Jan Kracík
Statistika, Biostatistika pro kombinované studium Letní semestr 2014/2015 Tutoriál č. 6: ANOVA Jan Kracík jan.kracik@vsb.cz Obsah: Testování hypotéz opakování ANOVA Testování hypotéz (opakování) Testování
VíceMetodologie pro ISK II
Metodologie pro ISK II Všechny hodnoty z daného intervalu Zjišťujeme: Centrální míry Variabilitu Šikmost, špičatost Percentily (decily, kvantily ) Zobrazení: histogram MODUS je hodnota, která se v datech
VíceMetodologie pro Informační studia a knihovnictví 2
Metodologie pro Informační studia a knihovnictví 2 Modul 5: Popis nekategorizovaných dat Co se dozvíte v tomto modulu? Kdy používat modus, průměr a medián. Co je to směrodatná odchylka. Jak popsat distribuci
VíceTestování statistických hypotéz. Ing. Michal Dorda, Ph.D. 1
Testování statistických hypotéz Ing. Michal Dorda, Ph.D. 1 Úvodní poznámky Statistickou hypotézou rozumíme hypotézu o populaci (základním souboru) např.: Střední hodnota základního souboru je rovna 100.
VíceTESTOVÁNÍ STATISTICKÝCH HYPOTÉZ ZÁKLADNÍ POJMY
TESTOVÁNÍ STATISTICKÝCH HYPOTÉZ ZÁKLADNÍ POJMY Statistická hypotéza je určitá domněnka (předpoklad) o vlastnostech ZÁKLADNÍHO SOUBORU. Test statistické hypotézy je pravidlo (kritérium), které na základě
VíceJana Vránová, 3.lékařská fakulta UK, Praha. Hypotézy o populacích
Jana Vránová, 3.lékařská fakulta UK, Praha Hypotézy o populacích Příklad IQ test: Předpokládejme, že z nějakého důvodu ministerstvo školství věří, že studenti absolventi středních škol v Hradci Králové
Víceletní semestr 2012 Katedra pravděpodobnosti a matematické statistiky Matematicko-fyzikální fakulta Univerzity Karlovy Matematická statistika
Šárka Hudecová Katedra pravděpodobnosti a matematické statistiky Matematicko-fyzikální fakulta Univerzity Karlovy letní semestr 2012 Opakování t- vs. neparametrické Wilcoxonův jednovýběrový test Opakování
VícePrůzkumová analýza dat
Průzkumová analýza dat Proč zkoumat data? Základ průzkumové analýzy dat položil John Tukey ve svém díle Exploratory Data Analysis (odtud zkratka EDA). Často se stává, že data, se kterými pracujeme, se
VíceTestování hypotéz. Testování hypotéz o rozdílu průměrů t-test pro nezávislé výběry t-test pro závislé výběry
Testování hypotéz Testování hypotéz o rozdílu průměrů t-test pro nezávislé výběry t-test pro závislé výběry Testování hypotéz Obecný postup 1. Určení statistické hypotézy 2. Určení hladiny chyby 3. Výpočet
VícePříklad 1. Korelační pole. Řešení 1 ŘEŠENÉ PŘÍKLADY Z MV2 ČÁST 13
Příklad 1 Máme k dispozici výsledky prvního a druhého testu deseti sportovců. Na hladině významnosti 0,05 prověřte, zda jsou výsledky testů kladně korelované. 1.test : 7, 8, 10, 4, 14, 9, 6, 2, 13, 5 2.test
VícePorovnání dvou výběrů
Porovnání dvou výběrů Menu: QCExpert Porovnání dvou výběrů Tento modul je určen pro podrobnou analýzu dvou datových souborů (výběrů). Modul poskytuje dva postupy analýzy: porovnání dvou nezávislých výběrů
VíceStatistika. cílem je zjednodušit nějaká data tak, abychom se v nich lépe vyznali důsledkem je ztráta informací!
Statistika aneb známe tři druhy lži: úmyslná neúmyslná statistika Statistika je metoda, jak vyjádřit nejistá data s přesností na setinu procenta. den..00..00 3..00..00..00..00..00..00..00..00..00..00 3..00..00..00..00..00..00..00
VícePříklad 1. Řešení 1 ŘEŠENÉ PŘÍKLADY Z MV2 ČÁST 11
Příklad 1 Vyhláška Ministerstva zdravotnictví předpokládala, že doba dojezdu k pacientovi od nahlášení požadavku nepřekročí 17 minut. Hodnoty deseti náhodně vybraných dob příjezdu sanitky k nemocnému byly:
VícePopisná statistika. Komentované řešení pomocí MS Excel
Popisná statistika Komentované řešení pomocí MS Excel Vstupní data Máme k dispozici data o počtech bodů z 1. a 2. zápočtového testu z Matematiky I v zimním semestru 2015/2016 a to za všech 762 studentů,
VíceStatistika pro geografy
Statistika pro geografy 2. Popisná statistika Mgr. David Fiedor 23. února 2015 Osnova 1 2 3 Pojmy - Bodové rozdělení četností Absolutní četnost Absolutní četností hodnoty x j znaku x rozumíme počet statistických
VíceJednovýběrový Wilcoxonův test a jeho asymptotická varianta (neparametrická obdoba jednovýběrového t-testu)
Jednovýběrový Wilcoxonův test a jeho asymptotická varianta (neparametrická obdoba jednovýběrového t-testu) Frank Wilcoxon (1892 1965): Americký statistik a chemik Nechť X 1,..., X n je náhodný výběr ze
VíceOtázky k měření centrální tendence. 1. Je dáno rozložení, ve kterém průměr = medián. Co musí být pravdivé o tvaru tohoto rozložení?
Otázky k měření centrální tendence 1. Je dáno rozložení, ve kterém průměr = medián. Co musí být pravdivé o tvaru tohoto rozložení? 2. Určete průměr, medián a modus u prvních čtyř rozložení (sad dat): a.
VíceMetodologie pro Informační studia a knihovnictví 2
Metodologie pro Informační studia a knihovnictví 2 Modul V: Nekategorizovaná data Metodologie pro ISK 2, jaro 2014. Ladislava Z. Suchá Metodologie pro Informační studia a knihovnictví 2 Modul 5: Popis
VíceČíselné charakteristiky a jejich výpočet
Katedra ekonometrie, FVL, UO Brno kancelář 69a, tel. 973 442029 email:jiri.neubauer@unob.cz charakteristiky polohy charakteristiky variability charakteristiky koncetrace charakteristiky polohy charakteristiky
Více2 ) 4, Φ 1 (1 0,005)
Příklad 1 Ze zásilky velkého rozsahu byl náhodně vybrán soubor obsahující 1000 kusů. V tomto souboru bylo zjištěno 26 kusů nekvalitních. Rozhodněte, zda je možné s 99% jistotou tvrdit, že zásilka obsahuje
VíceSTATISTIKA A INFORMATIKA - bc studium OZW, 1.roč. (zkušební otázky)
STATISTIKA A INFORMATIKA - bc studium OZW, 1.roč. (zkušební otázky) 1) Význam a využití statistiky v biologických vědách a veterinárním lékařství ) Rozdělení znaků (veličin) ve statistice 3) Základní a
VícePopisná statistika. Jaroslav MAREK. Univerzita Palackého
Popisná statistika Jaroslav MAREK Univerzita Palackého Přírodovědecká fakulta Katedra matematické analýzy a aplikací matematiky Tomkova 40, 779 00 Olomouc Hejčín tel. 585634606 marek@inf.upol.cz pondělí
VíceNÁHODNÁ ČÍSLA. F(x) = 1 pro x 1. Náhodná čísla lze generovat některým z následujících generátorů náhodných čísel:
NÁHODNÁ ČÍSLA TYPY GENERÁTORŮ, LINEÁRNÍ KONGRUENČNÍ GENERÁTORY, TESTY NÁHODNOSTI, VYUŽITÍ HODNOT NÁHODNÝCH VELIČIN V SIMULACI CO JE TO NÁHODNÉ ČÍSLO? Náhodné číslo definujeme jako nezávislé hodnoty z rovnoměrného
VíceProgram Statistica Base 9. Mgr. Karla Hrbáčková, Ph.D.
Program Statistica Base 9 Mgr. Karla Hrbáčková, Ph.D. OBSAH KURZU obsluha jednotlivých nástrojů, funkce pro import dat z jiných aplikací, práce s popisnou statistikou, vytváření grafů, analýza dat, výstupní
VíceRNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr.
Analýza dat pro Neurovědy RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr. Jaro 2014 Institut biostatistiky Janoušová, a analýz Dušek: Analýza dat pro neurovědy Blok 4 Jak a kdy použít parametrické a
VíceZáklady popisné statistiky. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
Základy popisné statistiky Anotace Realitu můžeme popisovat různými typy dat, každý z nich se specifickými vlastnostmi, výhodami, nevýhodami a vlastní sadou využitelných statistických metod -od binárních
VíceÚvod do analýzy rozptylu
Úvod do analýzy rozptylu Párovým t-testem se podařilo prokázat, že úprava režimu stravování a fyzické aktivity ve vybrané škole měla vliv na zlepšené hodnoty HDLcholesterolu u školáků. Pro otestování jsme
VíceZáklady pravděpodobnosti a statistiky. Popisná statistika
Základy pravděpodobnosti a statistiky Popisná statistika Josef Tvrdík Přírodovědecká fakulta, katedra informatiky josef.tvrdik@osu.cz konzultace v úterý 14.10 až 15.40 hod. Příklad ze života Cimrman, Smoljak/Svěrák,
VíceJEDNOVÝBĚROVÉ TESTY. Komentované řešení pomocí programu Statistica
JEDNOVÝBĚROVÉ TESTY Komentované řešení pomocí programu Statistica Vstupní data Data umístěná v excelovském souboru překopírujeme do tabulky ve Statistice a pojmenujeme proměnné, viz prezentace k tématu
VíceYou created this PDF from an application that is not licensed to print to novapdf printer (http://www.novapdf.com)
Testování statistických hypotéz Testování statistických hypotéz Princip: Ověřování určitého předpokladu zjišťujeme, zda zkoumaný výběr pochází ze základního souboru, který má určité rozdělení zjišťujeme,
VícePravděpodobnost a aplikovaná statistika
Pravděpodobnost a aplikovaná statistika MGR. JANA SEKNIČKOVÁ, PH.D. 8. KAPITOLA STATISTICKÉ TESTOVÁNÍ HYPOTÉZ 22.11.2016 Opakování: CLV příklad 1 Zadání: Před volbami je v populaci státu 52 % příznivců
VíceTECHNICKÁ UNIVERZITA V LIBERCI EKONOMICKÁ FAKULTA
TECHNICKÁ UNIVERZITA V LIBERCI EKONOMICKÁ FAKULTA Semestrální práce Semestrální práce z předmětu Statistický rozbor dat z dotazníkového šetření Vypracoval: Bonaconzová, Bryknarová, Milkovičová, Škrdlová
VíceTECHNICKÁ UNIVERZITA V LIBERCI SEMESTRÁLNÍ PRÁCE
TECHNICKÁ UNIVERZITA V LIBERCI Ekonomická fakulta Studentská 2 461 17 Liberec 1 SEMESTRÁLNÍ PRÁCE STATISTICKÝ ROZBOR DAT Z DOTAZNÍKOVÝCH ŠETŘENÍ Gabriela Dlasková, Veronika Bukovinská Sára Kroupová, Dagmar
VíceTesty statistických hypotéz
Testy statistických hypotéz Statistická hypotéza je jakýkoliv předpoklad o rozdělení pravděpodobnosti jedné nebo několika náhodných veličin. Na základě náhodného výběru, který je reprezentativním vzorkem
Více15. T e s t o v á n í h y p o t é z
15. T e s t o v á n í h y p o t é z Na základě hodnot náhodného výběru činíme rozhodnutí o platnosti hypotézy o hodnotách parametrů rozdělení nebo o jeho vlastnostech. Rozeznáváme dva základní typy testů:
VíceIng. Michael Rost, Ph.D.
Úvod do testování hypotéz, jednovýběrový t-test Ing. Michael Rost, Ph.D. Testovaná hypotéza Pokud nás zajímá zda platí, či neplatí tvrzení o určitém parametru, např. o parametru Θ, pak takovéto tvrzení
Více23. Matematická statistika
Projekt: Inovace oboru Mechatronik pro Zlínský kraj Registrační číslo: CZ.1.07/1.1.08/03.0009 23. Matematická statistika Statistika je věda, která se snaží zkoumat reálná data a s pomocí teorii pravděpodobnosti
Více1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.
Testy hypotéz na základě více než 2 výběrů 1 1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004. Testy hypotéz na základě více než 2 výběrů Na analýzu rozptylu lze pohlížet v podstatě
VíceNeparametrické metody
Neparametrické metody Dosud jsme se zabývali statistickými metodami, které zahrnovaly předpoklady o rozdělení dat. Zpravidla jsme předpokládali normální rozdělení. Např. Grubbsův test odlehlých hodnot
VíceSEMESTRÁLNÍ PRÁCE. Leptání plasmou. Ing. Pavel Bouchalík
SEMESTRÁLNÍ PRÁCE Leptání plasmou Ing. Pavel Bouchalík 1. ÚVOD Tato semestrální práce obsahuje písemné vypracování řešení příkladu Leptání plasmou. Jde o praktickou zkoušku znalostí získaných při přednáškách
VíceJAK MODELOVAT VÝSLEDKY NÁH. POKUSŮ? Martina Litschmannová
JAK MODELOVAT VÝSLEDKY NÁH. POKUSŮ? Martina Litschmannová Opakování Základní pojmy z teorie pravděpodobnosti Co je to náhodný pokus? Děj, jehož výsledek není předem jednoznačně určen podmínkami, za nichž
VíceKORELACE. Komentované řešení pomocí programu Statistica
KORELACE Komentované řešení pomocí programu Statistica Vstupní data I Data umístěná v excelovském souboru překopírujeme do tabulky ve Statistice a pojmenujeme proměnné, viz prezentace k tématu Popisná
VíceStatistické metody uţívané při ověřování platnosti hypotéz
Statistické metody uţívané při ověřování platnosti hypotéz Hypotéza Domněnka, předpoklad Nejčastěji o rozdělení, středních hodnotách, závislostech, Hypotézy ve vědeckém výzkumu pracovní, věcné hypotézy
VíceUrčujeme neznámé hodnoty parametru základního souboru. Pomocí výběrové charakteristiky vypočtené z náhodného výběru.
1 Statistické odhady Určujeme neznámé hodnoty parametru základního souboru. Pomocí výběrové charakteristiky vypočtené z náhodného výběru. Odhad lze provést jako: Bodový odhad o Jedna číselná hodnota Intervalový
VíceMATEMATICKÁ STATISTIKA. Katedra matematiky a didaktiky matematiky Technická univerzita v Liberci
MATEMATICKÁ STATISTIKA Dana Černá http://www.fp.tul.cz/kmd/ Katedra matematiky a didaktiky matematiky Technická univerzita v Liberci Matematická statistika Matematická statistika se zabývá matematickým
VíceÚvod do kurzu. Moodle kurz. (a) https://dl1.cuni.cz/course/view.php?id=2022 (b) heslo pro hosty: statistika (c) skripta na pravděpodobnost
Úvod do kurzu Moodle kurz (a) https://dl1.cuni.cz/course/view.php?id=2022 (b) heslo pro hosty: statistika (c) skripta na pravděpodobnost Výpočty online: www.statisticsonweb.tf.czu.cz Začátek výuky posunut
VíceMatematická statistika. Testy v. v binomickém. Test pravděpodobnosti. Test homogenity dvou. Neparametrické testy. statistika. Testy v.
Opakování Opakování: y o střední hodnotě normálního 1 jednovýběrový t-test 2 párový t-test 3 výběrový t-test Šárka Hudecová Katedra a matematické statistiky Matematicko-fyzikální fakulta Univerzity Karlovy
VíceSeminář 6 statistické testy
Seminář 6 statistické testy Část I. Volba správného testu Chceme zjistit, zda se středeční a čtvrteční seminární skupiny liší ve výsledcích v 1. průběžné písemce ze statistiky. Chceme zjistit, zda 1. průběžná
VíceTomáš Karel LS 2012/2013
Tomáš Karel LS 2012/2013 Doplňkový materiál ke cvičení z předmětu 4ST201. Na případné faktické chyby v této presentaci mě prosím upozorněte. Děkuji. Tyto slidy berte pouze jako doplňkový materiál není
Více