Sem vložte zadání Vaší práce.

Transkript

1 Sem vložte zadání Vaší práce.

2

3 České vysoké učení technické v Praze Fakulta informačních technologií Katedra teoretické informatiky Diplomová práce Informační podpora klinických studií Bc. Václav Čadek Vedoucí práce: Ing. Pavel Kordík, Ph.D. 26. června 2013

4

5 Poděkování Na tomto místě bych chtěl poděkovat svému vedoucím Ing. Pavlu Kordíkovi, Ph.D. za vstřícný přístup při vedení mé práce, za možnost zpracovávat takto zajímavé téma a za jeho užitečné připomínky. Dále MUDr. Petru Waldaufovi za jeho nadšení pro věc, které bylo tak nakažlivé, že pro mě bylo neustálým zdrojem motivace. Také chci poděkovat své rodině, přítelkyni a přátelům, za podporu a trpělivost, kterou se mnou měli a mají.

6

7 Prohlášení Prohlašuji, že jsem předloženou práci vypracoval samostatně a že jsem uvedl veškeré použité informační zdroje v souladu s Metodickým pokynem o etické přípravě vysokoškolských závěrečných prací. Beru na vědomí, že se na moji práci vztahují práva a povinnosti vyplývající ze zákona č. 121/2000 Sb., autorského zákona, ve znění pozdějších předpisů, zejména skutečnost, že České vysoké učení technické v Praze má právo na uzavření licenční smlouvy o užití této práce jako školního díla podle 60 odst. 1 autorského zákona. V Praze dne 26. června

8 České vysoké učení technické v Praze Fakulta informačních technologií c 2013 Václav Čadek. Všechna práva vyhrazena. Tato práce vznikla jako školní dílo na Českém vysokém učení technickém v Praze, Fakultě informačních technologií. Práce je chráněna právními předpisy a mezinárodními úmluvami o právu autorském a právech souvisejících s právem autorským. K jejímu užití, s výjimkou bezúplatných zákonných licencí, je nezbytný souhlas autora. Odkaz na tuto práci Čadek, Václav. Informační podpora klinických studií. Diplomová práce. Praha: České vysoké učení technické v Praze, Fakulta informačních technologií, 2013.

9 Abstract The purpose of this thesis is to design and describe the tool for automation of clinical trials evaluation process. The tool itself is built as an extension on top of the RapidMiner platform and it s goal is to provide ability to perform an ad hoc significance tests, descriptive and exploratory analysis from within the RapidMiner as well as provide reporting functionality out of the box. The tool is then deployed to particular clinical trial environment which tries to examine the promising new treatment of patients with high blood pressure using the intervention called renal denervation. Keywords Renal denervation, hypertension, RapidMiner, data mining, hypotheses testing, clinical trial, statistical significance, descriptive statistic, exploratory analysis Abstrakt Cílem této práce je navrhnout a popsat nástroj pro automatizaci vyhodnocování klinických studií. Nástroj samotný byl vytvořen jakožto rozšíření ix

10 programu RapidMiner. Jeho cílem je poskytnout možnost provádět ad hoc statistické testy, deskriptivní a explorační analýzu a navíc poskytnout možnost snadného reportování přímo z programu RapidMiner. Pomocí tohoto rozšíření je následně implementován proces, který je nasazen do prostředí konkrétní klinické studie, která se snaží zkoumat novou slibnou metodu léčby pacientů s vysokým krevním tlakem pomocí zákroku zvaného renální denervace. Klíčová slova Renální denervace, hypertenze, RapidMiner, dolování dat, Testování hypotéz, klinická studie, statistická významnost, deskriptivní statistika, explorační analýza x

11 Obsah Odkaz na tuto práci viii Úvod 1 Struktura práce Popis problému, specifikace cíle Klinická studie Prague Hypertenze a refrakterní hypertenze Renální denervace u hypertoniků Specifikace cíle Teorie Deskriptivní analýza dat Charakteristiky polohy Aritmetický průměr Medián Modus Charakteristiky variability Variační rozpětí Rozptyl Kvartily, Decily a Percentily Směrodatná odchylka Variační koeficient Charakteristiky tvaru Zkosení Špičatost Grafické znázornění dat Histogram xi

12 Krabicový graf Ověřování statistických hypotéz Nulová a alternativní hypotéza Rizika chyb - chyby I. a II. druhu Obecný postup při ověřování hypotéz Vybrané statistické testy T-Test výběrový T-test výběrový T-test (nezávislé vzorky) výběrový T-test (párový) Analýza rozptylu (ANOVA) χ 2 test dobré shody Mann Whitney U Test Wilcoxonův znaménkový test Analýza a návrh řešení Srovnání dostupných nástrojů IBM SPSS Statistics R RapidMiner Srovnání knihoven pro statistické výpočty Apache Commons Math JSC Srovnání knihoven pro vizualizaci JFreeChart GRAL Srovnání knihoven pro reporting JasperReports itext Použité technologie RapidMiner Jazyk R Java + IntelliJ IDEA Groovy Ant NSIS Apache Commons Math JFreeChart JasperReports a DynamicJasper xii

13 5 Realizace Integrace do systému RapidMiner Operátory pro ověřování statistických hypotéz Operátor pro jednovýběrový T-Test Operátor pro dvouvýběrový T-Test One-way ANOVA operátor Chi Square Test operátor Mann Whitney U-Test operátor Wilcoxon Signed Rank Test operátor Zobrazení výsledků statistických testů Operátory pro explorační analýzu dat Descriptive statistics operátor Box plot operátor Operátory pro reporting Create Report operátor Create Section operátor Styled Text operátor Ukázka přidání nového testu Přidání operátoru Přidání testu Vizualizace Popis nasazení v prostředí klinické studie Prague Popis dat klinické studie Prague Problémy v datech Chybějící data Nekonzistentní jmenná konvence Špatně zadané databázové sloupce Špatně zadané hodnoty Popis dat vybraných k analýze Implementace RapidMiner procesu Popis hlavního procesu Předzpracování Popis příznaku Reporting Testování Unit testy (Groovy) Testovací scénáře s použitím R Závěr 53 xiii

14 Literatura 55 A Obsah přiloženého CD 57 B Popis instalace 59 C Ukázka konečného výstupu 61 D Kompletní seznam atributů určených k analýze 63 E Slovník lékařských pojmů 67 F Seznam použitých zkratek 69 xiv

15 Seznam obrázků 1.1 Zavedení katetru do renální arterie Ukázka histogramu Ukázka krabicového grafu I. a II. typ chyb, síla testu Operátory pro ověřování statistických hypotéz Operátory pro deskriptivní statistiku a explorační analýzu Ukázka výstupu krabicového grafu Operátory pro reporting Výsledek nově přidaného Wilcoxonova znaménkového testu v RapidMineru Prague 15 - RapidMiner proces Sub-proces, popisující jeden příznak z C.1 Ukázka konečného výstupu - str. 1 z xv

16

17 Úvod Čas v lékařství jakoby ubíhal rychleji - to je také jeden z důvodů, proč snaha aplikovat metody strojového učení, automatizace nebo data miningu má v této doméně své opodstatnění - čím méně času stráví lékaři snahou o získání, transformace nebo vyhodnocení dat, tím více času jim zbude na záchranu životů a péči o pacienty. Klinická studie Prague 15, na které v rámci této práce spolupracuji se zabývá léčbou pacientů s vysokým krevním tlakem - ve většině případů se navíc jedná o tzv. refrakterní hypertenzi, což je těžká forma hypertenze při které pacienti nepociťují výrazné zlepšení, navzdory tomu, že je jim podáváno velké množství léků (antihypertenziv). Tato klinická studie je výzkumným projektem, na kterém spolupracuje 3. lékařská fakulta Univerzity Karlovy (3. LF UK) Fakultní nemocnice Královské Vinohrady (FNKV) a dvě kardiocentra v Olomouci a Třinci. Cílem této studie je prokázat, zda zákrok zvaný renální denervace, může mít za následek snížení krevního tlaku u pacientů trpících refrakterní hypertenzí a v konečném důsledku vést i ke zvýšení kvality jejich života. Jelikož je množství kroků v rámci této studie vykonávano ručně, otevírá se zde velký prostor pro automatizaci nebo aplikaci některých z metod, kterými se na Fakultě informačních technologií, ČVUT v rámci oboru znalostního inženýrství zabýváme. Nutno říct, že oblast klinických studií upřednostňuje zejména striktní statistický přístup a metody vycházející ze strojového učení, umělé inteligence nebo data miningu jsou zde spíše výjimkou, byť by mohli přinést nový vhled do daného lékařského problému. Z tohoto pohledu je možný přínos této práce nejen v usnadnění práce lékařů, ale také možností, jak některé z těchto metod zviditelnit a otevřít tak nové možnosti spolupráce napříč vědními disciplínami. 1

18 Úvod Struktura práce Tato práce si klade za cíl popsat návrh, tvorbu a nasazení nástroje pro automatizaci klinických studií. Kapitola 1 čtenáře seznamuje s kontextem problému, zároveň popisuje, čím se klinická studie Prague 15 zabývá. Kapitola 2 popisuje nezbytnou teorii, nutnou pro pochopení teoretického pozadí vyhodnocování klinických studií. Tématem kapitoly 3 je zhodnocení kladů a záporů jednotlivých nástrojů a knihoven. Kapitola 4 stručně popisuje zvolené technologie. Velmi podstatnou kapitolou je 4, která popisuje realizaci a zejména nasazení nástroje do prostředí reálné klinické studie. Poslední kapitola 5 shrnuje testování implementovaného nástroje. 2

19 Kapitola 1 Popis problému, specifikace cíle 1.1 Klinická studie Prague 15 Jak již bylo zmíněno v úvodu, klinická studie Prague 15 se zabývá léčbou pacientů s tzv. refrakterní hypertenzí pomocí zákroku zvaného renální denervace (RDN). Projekt je naplánován na 5 let a počítá se zařazením nejméně 150 nemocných. Pacienti budou randomizováni do dvou skupin: RDN + farmakoterapie Renální denervace + antihypertenzní medikamentózní léčba farmakoterapie tito nemocní nepodstoupí v prvním roce RDN, později jen dle klinické indikace Jelikož se jedná o novou metodu, není možné exaktně statisticky předem vypočítat předpokládané rozdíly mezi skupinami a potřebnou velikost souboru. Proto je možné, že studie budou (při nadějných výsledcích) extendovány na vyšší počty nemocných [10]. Na projektu se podílejí následující pracoviště: 1. Kardiocentrum 3. lékařské fakulty Univerzity Karlovy v Praze a Fakultní nemocnice Královské Vinohrady (FNKV) 2. III. Interní klinika (Centrum pro hypertenzi) 1. Lékařské fakulty Univerzity Karlovy v Praze a Všeobecné fakultní nemocnice 3. Kardiocentrum Lékařské fakulty a Fakultní nemocnice Olomouc 4. Kardiocentrum Podlesí Třinec 3

20 1. Popis problému, specifikace cíle Hypertenze a refrakterní hypertenze Hypertenzní choroba je nejrozšířenějším kardiovaskulárním onemocněním v populaci. Její následky jsou často fatální (infarkt myokardu, náhlá smrt, mozková mrtvice) nebo invalidizující (mozková mrtvice, srdeční selhání) [10]. Největšími dvěma problémy v praxi jsou: 1. nedostatečná diagnostika či léčba 2. refrakterní hypertenze Refrakterní/rezistentní hypertenze je definována jako trvající zvýšení krevního tlaku na hodnoty 140/90 mmhg a více přes léčbu zahrnující nejméně trojkombinaci antihypertenziv včetně diuretika v maximálních dávkách. Úspěšnost léčby rezistentní hypertenze medikamentózně činí kolem 10% [10] Renální denervace u hypertoniků K renálním denervacím budou používány radiofrekvenční katetry 1, které budou zavedeny přes tříslo do renální arterie 2, kde je následně provedena radiofrekvenční ablace 3 nervových zakončení. Riziko komplikací se neliší od rizika jiných katetrizací - lokální komplikace v místě vpichu, disekce 4 zobrazované tepny, embolie, trombóza. Metoda je bezpečnější než srdeční katetrizace v tom smyslu, že se katetrem neprochází ani přes oblouk aorty, nehrozí tedy cévní mozková příhoda z embolizace do centrálního nervového systému, ani okolo koronárních tepen (nehrozí tedy infarkt myokardu jako komplikace výkonu). Zákrok trvá necelou jednu hodinu, pacient při něm leží na stole na katetrizačním sále, je lehce analgosedován a je mu podáván bolusově 5 heparin. Zavaděče se z třísla vytahují bezprostředně po odeznění účinku heparinu, druhý den po zákroku je propuštěn domů [10]. 1 zařízení, které lékař zavádí do nějakého dutého tělního orgánu 2 ledvinná tepna 3 odstranění, eliminace tkáně 4 rozdělení 5 dávkově 4

21 1.2. Specifikace cíle Obrázek 1.1: Zavedení katetru do renální arterie 1.2 Specifikace cíle Jelikož je množství kroků v rámci vyhodnocení klinických studií vykonáváno ručně, cílem bude co možná největší počet těchto kroků automatizovat a nabídnout nástroj, který bude umožňovat snadnou tvorbu a úpravu tohoto automatického procesu. Specifické požadavky klinické studie Prague 15 zahrnují: možnost tvorby tzv. krabicového grafu, který by umožňoval srovnávat obě skupiny pacientů v čase možnost tvorby deskriptivních statistik pro obě skupiny pacientů nabídnout možnost snadného reportování 5

22

23 Kapitola 2 Teorie 2.1 Deskriptivní analýza dat Deskriptivní analýza dat je souborné označení pro číselné charakteristiky, grafy nebo tabulky, které umožňují lepší porozumění a získání představy o statistickém souboru dat. Jak již z názvu vyplývá - cílem deskriptivní statistiky je popis dat, nikoliv jejich transformace. Jelikož je ale tento popis určitým zobecněním dat, o část informace zároveň přicházíme Charakteristiky polohy Při popisu statistického souboru potřebujeme často určit nějakou hodnotu, která nejlépe vystihuje soubor jako celek, z tohoto důvodu bylo zavedeno množství charakteristik, které se snaží popsat jakousi střední hodnotu, okolo které se ostatní hodnoty soustřeďují - tyto charakteristiky nazýváme míry polohy Aritmetický průměr Sečteme-li všechny vzorky v souboru dat a následně vydělíme jejich počtem dostaneme jednu z nejzákladnějších hodnot sloužících k vyjádření střední hodnoty souboru - aritmetický průměr. µ = n1 x i n (2.1) Existují různé další varianty průměrů - např. geometrický, vážený, klouzavý, apod. 7

24 2. Teorie Medián Definice 1. Seřadíme-li data podle velikosti a následně vybereme prostřední prvek, pak tento prvek označujeme jako medián. Narozdíl od aritmetického průměru je medián mnohem robustnější z hlediska odlehlých hodnot - jestliže soubor obsahuje několik extrémních hodnot, medián dává stále velmi vypovídající hodnotu o celém souboru z hlediska střední hodnoty. Další výhodou mediánu je jeho snadný výpočet Modus Definice 2. Prvek s největší četností v souboru dat se nazývá modus. Modus je vhodné použít pokud data obsahují nominální hodnoty - vezměme si například známky ve škole - v takovém případě je informace o nejčastější hodnotě poměrně vypovídající z hlediska střední hodnoty celého souboru. Naopak pokud uvažujeme data s reálnou hodnotou a 3 jsou z hlediska modu od sebe stejně vzdáleny jako 3 a Charakteristiky variability Kromě charakteristik polohy potřebujeme často při popisu statistického souboru také určité číselné vyjádření toho, jakým způsobem a v jaké vzdálenosti jsou data rozmístěna okolo střední hodnoty - k tomuto účelu slouží charakteristiky variability Variační rozpětí Variační rozpětí 6 je poměrně intuitivní pojem - je dáno rozdílem největší a nejmenší hodnoty v souboru dat. Nicméně takto definované rozpětí může být zavádějící díky extrémním hodnotám. Daleko lepší představu o datech nám může dát tzv. mezikvartilové rozpětí, které je definováno jako rozdíl Q 3 Q Rozptyl Rozptyl 7 vyjadřuje vzdálenost rozložení prvků statistického souboru okolo jeho průměru. Je definován jako: 6 angl. range 7 angl. variance σ 2 = (xi µ) 2 n (2.2) 8

25 2.1. Deskriptivní analýza dat Kvartily, Decily a Percentily Podobně jako medián dělí statistický soubor na dvě stejně velké poloviny, kvartily, dělí statistický soubor na čtvrtiny, decily na desetiny a percentily na setiny Směrodatná odchylka Jelikož rozptyl vyjadřuje variabilitu v jednotkách na druhou (což nemusí být vždy srozumitelné), byla zavedena směrodatná odchylka 8, která je odmocninou z rozptylu: σ = σ 2 = (xi µ) 2 n (2.3) Variační koeficient Variační koeficient 9 vyjadřuje míru relativního rozptýlení dat: v = σ 100% (2.4) µ Charakteristiky tvaru Tyto charakteristiky nám mohou dát představu o tvaru rozdělení - mezi nejpoužívanější charakteristiky patří zešikmení 10 a špičatost Zkosení Zkosení neboli koeficient asymetrie nám dává představu o tom, na jakou stranu a do jaké míry je rozdělení zešikmené. Obecně o tom, zda je nesymetrické. A = v 3 σ 3 (2.5), kde v 3 je třetí centrální moment: { v 3 = i(x i µ) 3 p(x i ) pro diskrétní náhodnou veličinu (x i µ) 3 f(x i )dx pro spojitou náhodnou veličinu 8 angl. standard deviation 9 coefficient of variation 10 angl. skewness 11 angl. kurtosis 9

26 2. Teorie Rozdělení s hodnotou A = 0 nebo blízkou bývají symetrická, rozdělení s A < 0 bývají zešikmena vlevo a naopak, rozdělení s A > 0 zešikmena vpravo Špičatost Špičatost nebo koeficient špičatosti je charakteristikou, která porovnává tvar rozdělení z hlediska špičatosti a porovnává ho s normálním rozdělením. Je definována jako: e = v 4 σ 4 3 (2.6), kde v 3 je čtvrtý centrální moment: { v 4 = i(x i µ) 4 p(x i ) pro diskrétní náhodnou veličinu (x i µ) 4 f(x i )dx pro spojitou náhodnou veličinu Rozdělení s hodnotou e = 0 nebo blízké tvarem odpovídá normálnímu rozdělení, rozdělení s e < 0 bývají plochá a naopak rozdělení s e > 0 špičatá Grafické znázornění dat Velmi dobrou představu o datech nám může dát jejich grafická reprezentace. Vyčerpávající přehled grafické reprezentace dat by samozřejmě vydal na samostatnou publikaci, proto zmíníme pouze nejpoužívanější prostředky, mezi které patří histogram a krabicový graf Histogram Na obrázku 2.1 můžeme vidět ukázku histogramu - výška sloupců odpovídá četnostem hodnot náhodné veličiny, v případě spojité náhodné veličiny jeden sloupec odpovídá intervalu a jeho výška četnosti výskytu hodnoty náhodné veličiny v tomto intervalu. Aby bylo možné porovnávat různé histogramy z hlediska jejich podobnosti nebo tvaru, často se využívá histogram relativních četností namísto absolutních Krabicový graf Krabicový graf 2.2 vyjadřuje hned několik informací najednou - jeho nejvzdálenější konce zobrazují minimální a maximální hodnoty, které ještě nejsou hodnotami odlehlými (ty by byly v krabicovém grafu zobrazeny vně 12 angl. box-and-whisker plot nebo box plot 10

27 2.1. Deskriptivní analýza dat Obrázek 2.1: Ukázka histogramu tohoto rozpětí). Okraje krabičky představují kvartily Q 1 a Q 3 a jejich vzdálenost (šířka krabičky) mezikvartilové rozpětí. Horizontální přímka uvnitř této krabičky zobrazuje medián. Obrázek 2.2: Ukázka krabicového grafu Tento graf pro nás bude obzvláště výhodný, jelikož s jeho pomocí bude možné sledovat vývoj deskriptivní statistiky obou randomizovaných skupin v čase. 11

28 2. Teorie 2.2 Ověřování statistických hypotéz Hypotéza je v obecném případě nějaké tvrzení o datech. Úkolem statistika při testování statistických hypotéz, je danou hypotézu buď potvrdit nebo vyvrátit Nulová a alternativní hypotéza Při ověřování statistických hypotéz pracujeme s tzv. nulovou hypotézou, kterou obvykle značíme H 0 a s tzv. alternativní hypotézou H 1, která je negací nulové hypotézy. V praxi se obvykle snažíme ukázat, že H 0 neplatí a tudíž můžeme přijmout H 1 - v případě klinických studií H 0 většinou popisuje situaci, kdy zkoumaný lék resp. zákrok má nulový efekt. Samozřejmě, že cílem klinických studií je tuto nulovou hypotézu zamítnout a dokázat tak, že daný lék resp. zákrok má (nejlépe pozitivní) efekt na zdraví pacienta. Testy většinou bývají spojené s tzv. hladinou významnosti, kterou značíme α, a která vyjadřuje pravděpodobnost tzv. chyby I. typu. V oblastech jako je například lékařství, kde je omezená opakovatelnost, se obvykle používá hladina významnosti α = Naproti tomu v technických oborech, kde lze často experimenty mnohokrát opakovat za dobře definovaných podmínek, se používá hladina významnosti α = 0.01 a někdy i menší, pokud je prověření zvlášť důležité [8] Rizika chyb - chyby I. a II. druhu Chyby I. a II. typu jsou ustáleným pojmem, který se používá ve statistice pro popis dvou typů chyb [8] chyba I. typu označuje chybu, kdy je normální skupina klasifikována jako anomální. chyba II. typu anomální skupina je klasifikována jako normální. H 0 je pravdivá H 0 je nepravdivá H 0 zamítnuta chyba I.typu - H 0 nezamítnuta - chyba II.typu Pokud použijeme analogii z prostředí trestního práva, potom o chybě I.typu mluvíme v případě, že zamítneme nulovou hypotézu, která platí (odsoudíme nevinného). Naopak o chybě II.typu mluvíme v případě, že nezamítneme nulovou hypotézu, která neplatí (osvobodíme viníka). 12

29 2.3. Vybrané statistické testy Obrázek 2.3: I. a II. typ chyb, síla testu Jelikož jsou oba druhy chyb spolu úzce spjaté, volbou kritické hodnoty pouze snižujeme riziko jedné chyby na úkor druhé. Jediný způsob, jak snížit pravděpodobnost obou typů chyb, je zvýšit rozsah výběru [8] Obecný postup při ověřování hypotéz Obecný postup při ověřování většiny statistických hypotéz lze shrnout v několika bodech: 1. Je nutné definovat nulovou a alternativní hypotézu. 2. Určit hladinu významnosti. 3. Vypočítat počet stupňů volnosti testu (pokud to test vyžaduje). 4. Stanovit rozhodovací pravidlo. 5. Vypočítat testovou statistiku. 6. Stanovit závěr. 2.3 Vybrané statistické testy Testy můžeme dělit podle různých kritérií. Jedním ze základních dělení je ale dělení na parametrické a neparametrické testy. Neparametrické testy jsou 13

30 2. Teorie takové, které k výpočtu nepotřebují odhady populačních parametrů (např. průměr nebo rozptyl). Naopak typickým zástupcem parametrických testů jsou např. T-testy, u nichž se tyto parametry vyskytují jak při samotném výpočtu, tak při formulaci hypotéz. Neparametrické testy také typicky nekladou žádné předpoklady týkající se povahy nebo typu spojitého rozdělení populace ze které vzorek pochází.[16] Dále je možné provádět tzv. jednostranné resp. oboustranné 13 testy. Tato volba závisí na formulaci naší hypotézy. V nejobecnějším případě použijeme oboustranný test, jelikož nám jde o libovolný (negativní i pozitivní) efekt. Pokud ale naše hypotéza vyžaduje posuzování pouze ve směru jednoho extrému použijeme jednostranný test. Tato kapitola obsahuje ilustrativní příklady statistických testů implementovaných v rámci diplomové práce. Příklady jsou převzaty z [14] a budou použity v dalších kapitolách jako reference toho, že všechny implementované testy fungují na triviálních příkladech tak, jak očekáváme T-Test Jakýkoliv statistický test, který používá t-rozdělení můžeme označit jako T-test. Jeden z nejznámějších T-testů je nazýván Studentův T-test 14. Studentův T-test má několik variant a je používán pro porování hypotetického průměru s průměrem skutečným nebo pro porovnání průměrů dvou skupin [7] výběrový T-test Příklad 1. Průměrné IQ v rámci populace je 100. Tým vědců se snaží zjistit, zda má nový lék pozitivní nebo negativní vliv na inteligenci (obecně, zda má vůbec nějaký efekt). V rámci klinické studie byl lék aplikován 30 účastníkům - průměrné IQ v rámci tohoto vzorku je 140 a směrodatná odchylka je 20. Na hladině významnosti 5% ověřte, zda tento nový lék ovlivňuje inteligenci? Řešení 1: Nejprve si definujeme nulovu a alternativní hypotézu: H 0 ; µ 0 = angl. one-tailed resp. two-tailed 14 Pseudonym, který používal William Sealy Gosset, aby nevyšlo najevo, že je zaměstnán v pivovaru Guinness, kde se snažili vařit lepší pivo s pomocí statistiky a samozřejmě tuto obchodní výhodu skrýt před konkurencí. 14

31 2.3. Vybrané statistické testy Stanovíme hladinu významnosti Určíme počet stupňů volnosti H 1 ; µ 100 α = 0.05 df = n 1 = 30 1 = 29 Protože nás zajímá, zda má lék vůbec nějaký efekt - tj. efekt může být pozitivní i negativní, jedná se o oboustranný test. S využitím výše zmíněných informací nalezneme v t-tabulce kritické hodnoty pro oboustraný test pro danou hladinu významnosti a počet stupňů volnosti. Stanovíme rozhodovací pravidlo pro zamítnutí nulové hypotézy: Vypočteme testovou statistiku jako: t < nebo t > t = x µ s n (2.7) Po dosazení: t = = Jelikož t = > , můžeme na základě rozhodovacího pravidla zamítnout nulovou a přijmout alternativní hypotézu, která říká, že nový lék výrazně zvyšuje inteligenci výběrový T-test (nezávislé vzorky) Příklad 2. Učitel statistiky chce porovnat své dvě třídy a zjistit, zda existují rozdíly mezi výsledky testů v jedné a druhé třídě. Třída A má 25 studentů s průměrným hodnocením 70 a směrodatnou odchylkou 15. Třída B má 20 studentů s průměrným hodnocením 74 a směrodatnou odchylkou 25. Na hladině významnosti 5% ověřte, zda se výsledky obou tříd v daném testu významně liší. Řešení 2: Nejprve si definujeme nulovu a alternativní hypotézu: H 0 ; µ A = µ B 15

32 2. Teorie Stanovíme hladinu významnosti Určíme počet stupňů volnosti H 1 ; µ A µ B α = 0.05 df = (n 1 1) + (n 2 1) = (25 1) + (20 1) = 43 Stejně jako u předchozího příkladu - zajímá nás, zda se výsledky obou tříd jakkoliv liší - znovu se tedy jedná o oboustranný test. S využitím výše zmíněných informací nalezneme v t-tabulce kritické hodnoty pro oboustraný test pro danou hladinu významnosti a počet stupňů volnosti. Stanovíme rozhodovací pravidlo pro zamítnutí nulové hypotézy: t < nebo t > Můžeme si všimnout, že hodnota testovacího kritéria je o něco menší než v předchozím příkladu, přestože kritické hodnoty hledáme v téže tabulce. V tomto případě je to dáno více stupni volnosti, což je parametr, který určuje tvar spojitého rozdělení pravděpodobnosti, ze kterého kritické hodnoty pocházejí. Nejdříve si musíme vypočítat dílčí mezivýsledky: df 1 = n 1 1 = 24 df 2 = n 2 1 = 19 SS 1 = s 2 1 df 1 = = 5400 SS 2 = s 2 2 df 2 = = Které použijeme pro výpočet tzv. sdruženého rozptylu: s 2 p = SS 1 + SS 2 df 1 + df 2 = Nakonec vypočteme testovou statistiku: Po dosazení: t = ( x 1 x 2 ) s 2 p n 1 + s2 p n 2 = = t = x 1 x 2 (2.8) s 2 p n 1 + s2 p n 2 (70 74) = = 0.67 Jelikož t = 0.67 > , nemůžeme na základě rozhodovacího pravidla zamítnout nulovou hypotézu a tedy nemůžeme prohlásit, že by se výsledky v obou třídách výrazněji lišily. 16

33 2.3. Vybrané statistické testy výběrový T-test (párový) Příklad 3. Vědci chtějí zjistit, zda nová pilulka na hubnutí skutečně funguje. V rámci klinické studie se dotazovali 10 pacientů, kteří ohodnotili svůj hlad na stupnici od 1 do 10 před a po aplikaci pilulky. Na hladině významnosti 5% ověřte, zda má pilulka vůbec nějaký efekt na hubnutí? Před Po Řešení 3: Nejprve si definujeme nulovu a alternativní hypotézu: Stanovíme hladinu významnosti Určíme počet stupňů volnosti H 0 ; µ před = µ po H 1 ; µ před µ po α = 0.05 df = n 1 = 10 1 = 9 Stejně jako u předchozích dvou testů nás zajímá to, zda má piluka vůbec nějaký efekt - znovu tedy mluvíme o oboustraném testu. S využitím výše zmíněných informací nalezneme v t-tabulce kritické hodnoty pro oboustraný test pro danou hladinu významnosti a počet stupňů volnosti. Stanovíme rozhodovací pravidlo pro zamítnutí nulové hypotézy: t < nebo t > Nejdříve si vypočteme rozdíly jednotlivých párových pozorování: Před Po Rozdíl Vypočteme testovou statistiku jako: t = X D s D n (2.9) 17

34 2. Teorie Přičemž X D a s D spočteme následovně: X D = Po dosazení: n 1 x diff = ( 1) x 2 ( x) 2 2 = n t = = 3.61 = 1.49 = 1.7 Jelikož t = 3.61 > , můžeme na základě rozhodovacího pravidla zamítnout nulovou a přijmout alternativní hypotézu, která říká, že nový lék výrazně snižuje chuť k jídlu Analýza rozptylu (ANOVA) Název testu je zkratka odvozená ze slovního spojení ANalysis Of VAriance, což je obecná technika, která slouží k porovnání rozdílů spojité veličiny mezi několika skupinami. Tato metoda má několik modifikací - v tomto textu se budeme zabývat variantou zvanou jednocestná analýza rozptylu 15. Jedná se o parametrickou variantu Kruskalova-Wallisova testu. Příklad 4. Lékaři chtějí otestovat nový lék proti úzkosti. Rozdělí účastíky studie do tří skupin podle množství aplikované látky (0mg, 50mg a 100mg). Účastníci jsou poté požádáni aby ohodnotili stupeň úzkosti na stupnici od 1 do 10. Na hladině významnosti 5% ověřte, zda existuje rozdíl mezi jednotlivým dávkováním? 0 mg mg mg Řešení 4: Nejprve si definujeme nulovu a alternativní hypotézu: H 0 ; µ 0mg = µ 50mg = µ 100mg H 1 ; P růměr některé ze skupin se liší. 15 angl. One-way ANOVA nebo Single Factor ANOVA 18

35 2.3. Vybrané statistické testy Stanovíme hladinu významnosti α = 0.05 Určíme počet stupňů volnosti s použitím N je počet vzorků celkem, a je počet skupin: df B = a 1 = 3 1 = 2 df W = N a = 21 3 = 18 df T = N 1 = 21 1 = 20 S využitím df B a df W nalezneme v F-tabulce kritickou hodnotu Můžeme se všimnout, že oproti ostatním doposud představeným testům je tento test jednostranný a tedy rozhodovací pravidlo pro zamítnutí H 0 bude: F > Pro výpočet testové statistiky nejdříve potřebujeme zjistit sumy čtverců: ( i a i ) SS B = T 2 n N = = ve výše uvedeném vztahu odpovídá a i vzorkům z jedné skupiny, T je součet všech prvků ze všech skupin, n je počet prvků v jedné skupině a nakonec N je celkový počet prvků. Dále si vypočteme: kde SS W = Y 2 ( i a i ) n = Y 2 = = 853 Nakonec spočteme poslední z mezivýsledků: = SS T = Y 2 T 2 Dostáváme následující tabulku: N = = SS df MS F B ? W T

36 2. Teorie Kde a MS B = SS B = df B 2 = MS W = SS W = = 0.57 df W 18 A konečně se dostáváme k výpočtu testové statistiky: Po dosazení: F = MS B MS W (2.10) F = = Jelikož F = > , můžeme zamítnout H 0 a konstatovat, že mezi skupinami existují rozdíly ve vnímaném stupni úzkosti χ 2 test dobré shody Chí kvadrát test má stejně tak jako ANOVA několik variant - v tomto textu se budeme věnovat pouze variantě zvané Test dobré shody 16. Další varianta je test nezávislosti 17, kterému se v tomto textu nebudeme věnovat. Test dobré shody má své opodstatnění tam, kde zkoukáme, zda pozorované rozdělení pravděpodobnosti odpovídá rozdělení očekávanému. Příklad 5. Během sčítání lidu v USA v roce 2000 se došlo k závěru, že věkové skupiny v jednom malém městě vypadali takto: méně než 18 let let více než 35 let 20% 30% 50% Zajímá nás, zda i dnes jsou tyto četnosti zhruba stejné? V rámci experimentu byl vybrán vzorek 500 lidí ze stejného města a spočtena tabulka četností. méně než 18 let let více než 35 let očekávané = = = 250 skutečné angl. Goodness of fit test 17 Independence test 20

37 2.3. Vybrané statistické testy Řešení 5: Nejprve si definujeme nulovu a alternativní hypotézu: H 0 ; Četnosti pocházejí ze stejného (očekávaného rozdělení). H 1 ; Četnosti nepocházejí ze stejného (očekávaného rozdělení). Stanovíme hladinu významnosti Určíme počet stupňů volnosti α = 0.05 df = k 1 = 3 1 = 2, kde k je počet tříd. Na základě stupňů volnosti a stanovené hladiny významnosti určíme kritickou hodnotu z χ 2 tabulky a stanovíme rozhodovací pravidlo pro zamítnutí nulové hypotézy: χ 2 > 5.99 Vypočteme testovou statistiku jako: Po dosazení: ( ) (f skutečná f očekávaná ) 2 f očekávaná (2.11) ( ) (91 250)2 250 = Jelikož χ 2 > 5.99, zamítáme H 0 a na základě pozorovaného vzorku populace můžeme konstatovat, že pozorované četnosti nejsou stejné s ohledem na očekávání z roku Mann Whitney U Test Mann-Whitney U-Test neparametrická verze nezávislého T-testu, pomocí něhož můžeme porovnávat ordinální data. Je nutné zmínit fakt, že pro vzorek větší než 20 testová statistika pochází z normálního rozdělení. Příklad 6. Na hladině významnosti 5% máme porovnat, zda existuje rozdíl mezi lékem A a lékem B. Relaxace: pro výpočet kritických hodnot bude použito normální rozdělení, přestože velikost vzorku je menší než 20. Lék A Lék B

38 2. Teorie Řešení 6: Nejprve si definujeme nulovu a alternativní hypotézu: H 0 ; Mezi oběma léky není významný rozdíl. H 1 ; Mezi oběma léky existuje významný rozdíl. Stanovíme hladinu významnosti α = 0.05 Stanovíme rozhodovací pravidlo pro zamítnutí nulové hypotézy: z < 1.96 nebo z > 1.96 Nejprve vzestupně seřadíme 18 jednotlivé hodnoty a přiřadíme jim bodové ohodnocení podle pravidla 1 bod za každý vzorek z druhé skupiny s vyšším pořadím. Pořadí Původní skóre Původní vzorek Ohodnocení 1 12 B B B B B B A A A A A A 0 Sečteme body pro obě skupiny: U A = = 0 U B = = 36 Vybereme menší z obou hodnot U = min(u A, U B ) = 0 a tuto hodnotu označovanou jako U-skóre použijeme pro výpočet z-statistiky: z = U n A n B 2 na n B (n A +n B +1) 12 (2.12) 18 v případě shody rozdělíme jako v případě ohodnocení 4 a 5, ze kterého se stane 4.5 v obou případech 22

39 2.3. Vybrané statistické testy Po dosazení: z = (6+6+1) 12 = 2.88 Jelikož z = 2.88 < 1.96, zamítáme H 0 a můžeme prohlásit, že účinky obou léků se liší Wilcoxonův znaménkový test Jedná se o neparametrický test, který mezi sebou porovnává dvě skupiny závislých pozorování. Je analogií k párovému T-testu - tento test je vhodné použít v situaci, kdy existuje možnost, že data neodpovídají normálnímu rozdělení. [7] Pokud mluvíme o Wilcoxonově testu, máme na mysli většinou znaménkový test nebo Rank Sum test. Je nutné zmínit fakt, že pro vzorek větší než 30 testová statistika pochází z normálního rozdělení. Příklad 7. Zadání je stejné jako u předchozího příkladu - na hladině významnosti 5% máme porovnat, zda existuje rozdíl mezi lékem A a lékem B. Relaxace: pro výpočet kritických hodnot bude použito normální rozdělení, přestože velikost vzorku je menší než 30. Před Po Řešení 7: Nejprve si definujeme nulovu a alternativní hypotézu: H 0 ; Lék nemá žádný významný vliv H 1 ; Lék má významný vliv. Stanovíme hladinu významnosti α = 0.05 Stanovíme rozhodovací pravidlo pro zamítnutí nulové hypotézy: z < 1.96 nebo z > 1.96 Vypočítáme rozdíly mezi jednotlivými pozorováními a na základě pořadí těchto rozdílů přiřadíme hodnocení od nejmenšího rozdílu po největší. 23

40 2. Teorie Před Po Rozdíl Hodnocení Sečteme všechny kladné a záporné rozdíly R+ = = 20 R = 1 Vybereme menší z obou hodnot T = min( R, R + ) = 1 a tuto hodnotu označovanou jako T-skóre použijeme pro výpočet z-statistiky: Po dosazení: z = T n(n+1) 4 n(n+1)(2n+1) 24 (2.13) z = T 6(6+1) 4 = (6+1)(2 6+1) 24 Jelikož z = 1.99 < 1.96, můžeme zamítnout H 0 a prohlásit, že aplikace léku má významné účinky. Musíme však podotknout, že H 0 byla zamítnuta velmi těsně a tedy je závěr nutno brát s větší rezervou. 24

41 Kapitola 3 Analýza a návrh řešení 3.1 Srovnání dostupných nástrojů Jelikož k dosažení vytyčených cílů je možné dojít mnoha cestami a použít různé nástroje, rozhodl jsem se shrnout ty nejzajímavější z hlediska jejich kladů a záporů a pokusit se vybrat z nich ten nejlepší IBM SPSS Statistics! profesionální řešení % velmi vysoká cena R! silná komunita, výborná dokumentace % poněkud zastaralé grafické rozhraní, nemožnost reportingu RapidMiner! intuitivní ovládání, zaměřené na data-flow, snadná rozšiřitelnost, rozšíření pro jazyk R % neexistující podpora pro statistické testy 25

42 3. Analýza a návrh řešení 3.2 Srovnání knihoven pro statistické výpočty Ačkoliv JSC je knihovnou specificky zaměřenou na statistické testy, tato knihovna je poměrně zastaralá a a její dokumentace není moc rozsáhlá. Naopak Apache Commons Math je knihovna, která řeší mnohem více problémů, než je pro naše účely potřeba (pro naše účely je zbytečně rozsáhlá), nicméně za ní stojí silná komunita, je ověřená časem a počet testů, které nabízí je slušný Apache Commons Math! mnoho možností, silná komunita a aktivní vývoj, výborná dokumentace % zbytečně rozsáhlá knihovna, slabá customizovatelnost testů JSC! množství testů % neudržovaná a zastaralá knihovna, slabá dokumentace 3.3 Srovnání knihoven pro vizualizaci Z tohoto srovnání nakonec vyšla vítězně knihovna JFreeChart, ačkoliv to bylo vítězství těsné - GRAL obsahuje dostatečné množství grafů, má slušnou dokumentaci a vypadá lépe - bohužel z celkového srovnání vychází hůře kvůli velmi slabým možnostem customizace JFreeChart! velké množství grafů, spoustu možností customizace, výborná dokumentace % méně přitažlivá vizuální stránka GRAL! přitažlivá vizuální stránka, dobrá dokumentace % málo možností customizace 26

43 3.4. Srovnání knihoven pro reporting 3.4 Srovnání knihoven pro reporting Toto srovnání se může na první pohled jevit jako zavádějící z toho důvodu, že Jasper Reports využívá interně ke generování reportů itext, což je obecná knihovna pro manipulaci s pdf. V případě klinických studií je ale orientace na reporty zcela dostačující a navíc umožňuje generování do mnoha různých formátů JasperReports! výborná dokumentace, silná komunita, mnoho možností, různé formáty % přílišná složitost itext! obecná knihovna pro manipulaci s pdf % orientace pouze na pdf 27

44

45 Kapitola 4 Použité technologie 4.1 RapidMiner RapidMiner je jedním z nejrozšířenějších open source nástrojů pro dolování dat a strojové učení. RapidMiner pracuje s poměrně intuitivní představou o jednotlivých krocích zpracování dat - s tzv. operátory - což jsou komponenty, které poskytují určitou funkčnost (klasifikace, regrese, shluková analýza, předzpracování, apod.). Operátory mají jeden nebo více vstupů resp. výstupů a je možné je libovolně kombinovat a tak vytvořit komplexní proces. Více o jednotlivých operátorech zde [13]. Tvorbu vlastních operátorů popisuje [12]. 4.2 Jazyk R Jazyk R je open source statistické prostředí a programovací jazyk velmi oblíbený mezi statistiky [3], umožňuje snadnou tvorbu grafů a statistických výpočtů. Navíc díky rozšíření pro podporu jazyka R v RapidMineru, je možné zkombinovat možnosti R s už tak rozsáhlými možnostmi RapidMineru. 4.3 Java + IntelliJ IDEA RapidMiner stejně jako jeho rozšíření jsou napsány v jazyce Java. Představovat tento jazyk asi není třeba, neboť se jedná o jeden z nejrozšířenějších (Platformově nezávislý) jazyk současnosti. IntelliJ je profesionální vývojové prostředí určené pro vývoj (nejen) v jazyce Java. 29

46 4. Použité technologie 4.4 Groovy Jedná se o dynamický jazyk pro Java platformu inspirovaný jazyky jako je Python, Ruby nebo Smalltalk, které mají množství užitečných vlastností, díky kterým umožňují psát méně kódu, zato však efektivnějšího. Další výhodou je fakt, že syntaxe Groovy je velmi podobná Javě [6]. 4.5 Ant Another Neat Tool (Ant) je jeden z nejrozšířenějších buildovacích nástrojů určených pro vývoj v jazyce Java. Tento nástroj umožňuje popsat jednotlivé kroky buildovacího procesu a tak umožnit jeho automatizaci. Pracuje s tzv. cíli 19, což je jakási abstrakce zastřešující posloupnost kroků, buildovacího procesu. RapidMiner obsahuje předdefinovanou sadu cílů, které výrazně usnadňují vývoj rozšíření. 4.6 NSIS První věcí, se kterou se uživatel musí potýkat před tím, než začne používat nějaký software, je jeho instalace - je tedy nutné aby byla bezproblémová [9]. Nullsoft Scriptable Install System (NSIS) je open source systém pro tvorbu instalátorů pro operační systém Windows. Práce s tímto systémem je velmi snadná a RapidMiner má navíc připraveny skripty, které odvedou téměř veškerou práci. Uživatel tak pouze nainstaluje dané rozšíření a může ho začít používat. 4.7 Apache Commons Math Apache Commons Math je velmi rozsáhlou knihovnou zaměřenou na matematické výpočty [2]. Jedná se o další z rodiny commons knihoven, které si kladou za cíl zastřešit různé problémy, které musí programátoři často řešit. Tato knihovna pokrývá množství oblastí od lineární algebry po genetické algoritmy. Pro naše účely je zajímavá z toho důvodu, že obsahuje podporu pro statistické testy a spojitá rozdělení pravděpodobnosti. 19 angl. targets 30

47 4.8. JFreeChart 4.8 JFreeChart JFreeChart je komplexní open source knihovna pro tvorbu grafů v prostředí jazyka Java [5]. Přestože je oficiální vývojářská příručka placená, díky kvalitní dokumentaci a množství užitečných příkladů se jedná o jasnou volbu v případě, nutnosti programové tvorby jakýchkoliv grafů. 4.9 JasperReports a DynamicJasper JasperReports je jedním z nejznámnějších reportovacích frameworků v prostředí jazyka Java [1]. V souvislosti s JasperReports bývá často zmiňován ještě ireport, což je editor reportů postavený nad platformou NetBeans. Programová tvorba reportů bez využití ireport je však poměrně komplikovaná záležitost, proto je vhodné JasperReports zkombinovat například s DynamicJasper, což je knihovna, která uživatele odstiňuje od přílišné složitosti JasperReports a umožňuje vytvořit komplexní report napsáním několika řádků kódu. 31

48

49 Kapitola 5 Realizace 5.1 Integrace do systému RapidMiner Rozšíření programu RapidMiner bylo implemtováno dle [12]. Z funkčního hlediska je rozšíření rozděleno do 3 částí, které zajišťují odpovídající funkcionalitu. Celkem bylo přidáno 11 operátoru, konkrétně: 6 operátorů pro ověřování statistických hypotéz 2 operátory pro deskriptivní statistiku a explorační analýzu 3 operátory pro reporting Operátory pro ověřování statistických hypotéz Hlavní funkcionalitu celého nástroje tvoří operátory umožňující vykonávat statistické testy přímo v prostředí RapidMineru. Celkem bylo vytvořeno 6 operátorů, které přidávají podporu pro statistické testy popsané v kapitole 2.3. Testy jsou rozděleny do 2 skupin podle toho, zda se jedná o testy parametrické nebo neparametrické. Všechny implementované testy mají společné tyto parametry: Alpha Hladina významnosti, na které má být test proveden. Výchozí hodnota je 0.05.(povinný) Description Parametr, který slouží k přidání popisku k testu. V případě, že tento parametr není zadán, jeho hodnota odpovídá názvu testu. (expertní) 33

50 5. Realizace Obrázek 5.1: Operátory pro ověřování statistických hypotéz Operátor pro jednovýběrový T-Test Operátor pro jednovýběrový T-test implementuje test pro porovnání hypotetického průměru s průměrem skutečným. Tento test je popsán v Jedná se o oboustranný test. Parametry tohoto operátoru jsou: Sample 1 Parametr, který určuje jaký atribut ze vstupu bude použit v rámci testu jako statistický soubor. (povinný) Fixed value Parametr, který specifikuje hypotetický průměr, se kterým je skutečný statistický soubor porovnáván. Výchozí hodnota je 1.0.(povinný) Operátor pro dvouvýběrový T-Test Operátor pro dvouvýběrový T-test implementuje ve skutečnosti testy dva: Test nezávislých vzorků popsaný v , který porovnává průměry dvou statistických souborů mezi sebou. 2. Párový test popsaný v , který porovnává dva statistické soubory závislých měření. Parametry tohoto operátoru jsou: Sample 1 Parametr, který určuje jaký atribut ze vstupu bude použit v rámci testu jako první statistický soubor.(povinný) Sample 2 Parametr, který určuje jaký atribut ze vstupu bude použit v rámci testu jako druhý statistický soubor. (povinný) Paired Test Parametr, který určuje, zda test bude párový. Výchozí hodnota je false. (povinný)

51 5.1. Integrace do systému RapidMiner V obou případech se jedná o oboustranné testy One-way ANOVA operátor Tento operátor implementuje jednosměrnou analýzu rozptylu dle popisu v Jedná se o jednostranný test. Parametry tohoto operátoru jsou: Classes Parametr, který vybírá podmnožinu atributů ze vstupu. Tyto atributy budou použity jako jednotlivé skupiny v testu. (povinný) Chi Square Test operátor Tento operátor implementuje χ 2 test dobré shody dle popisu v Jedná se o jednostranný test. Parametry tohoto operátoru jsou: Sample 1 Parametr, který určuje jaký atribut ze vstupu bude použit v rámci testu jako první statistický soubor obsahující očekávané četnosti. (povinný) Sample 2 Parametr, který určuje jaký atribut ze vstupu bude použit v rámci testu jako druhý statistický soubor obsahující skutečné (pozorované) četnosti. (povinný) Mann Whitney U-Test operátor Tento operátor implementuje Mann Whitney test dle popisu v Jedná se o oboustranný test. Parametry tohoto operátoru jsou: Sample 1 Parametr, který určuje jaký atribut ze vstupu bude použit v rámci testu jako první statistický soubor. (povinný) Sample 2 Parametr, který určuje jaký atribut ze vstupu bude použit v rámci testu jako druhý statistický soubor. (povinný) Wilcoxon Signed Rank Test operátor Tento operátor implementuje Wilcoxonův znaménkový test dle popisu v Jedná se o oboustranný test. Sample 1 Parametr, který určuje jaký atribut ze vstupu bude použit v rámci testu jako první statistický soubor. (povinný) 35

52 5. Realizace Sample 2 Parametr, který určuje jaký atribut ze vstupu bude použit v rámci testu jako druhý statistický soubor. (povinný) Zobrazení výsledků statistických testů Pro všechny statistické testy je zaregistrován společný renderer, který zobrazí jak textový výstup, tak vizualizaci intervalu spolehlivosti v rámci rozdělení, které odpovídá danému testu. Ukázku výstupu pro Wilcoxonův Znaménkový test je možné vidět na obrázku 5.5. Textový výstup zahrnuje: Test Název testu Test Statistic Hodnota testové statistiky Decision Rule Textová reprezentace rozhodovacího pravidla Confidence Hladina spolehlivosti na jaké byl test proveden Reject H 0 zamítnuta Nejdůležitější informace o tom, zda má být nulová hypotéza Vizualizace zahrnuje: 1. Vizualizaci rozdělení spojité veličiny, ze kterého daný test vychází. 2. Vizualizaci intervalu spolehlivosti. 3. Označenou hodnotu, která odpovídá testové statistice. 4. Zobrazený graf se dá libovolně přibližovat a oddalovat, což může být užitečné v případě těsného zamítnutí resp. přijetí H Operátory pro explorační analýzu dat Operátory pro deskriptivní a explorační analýzu byly prozatím přidány pouze dva, takové, které splňují požadavky klinické studie Prague 15 - jedná se o operátor pro deskriptivní analýzu a operátor pro tvorbu krabicových grafů. 36

53 5.1. Integrace do systému RapidMiner Obrázek 5.2: Operátory pro deskriptivní statistiku a explorační analýzu Descriptive statistics operátor Tento operátor implementuje většinu z charakteristik deskriptivní statistiky zmíněných v sekci 2.1. Vstupem tohoto operátoru je ExampleSet, kterému je pro každý jeho atribut vytvořena popisná statistika. Uživatel si může vybrat, které z popisných charakteristik budou vytvořeny a které nikoliv. Mean aritmetický průměr, výchozí hodnota je true, (povinný) Standard Deviation směrodatná odchylka, výchozí hodnota je true, (povinný) Median medián, výchozí hodnota je false (povinný) Skewness zkosení, výchozí hodnota je false (expertní) Variance rozptyl, výchozí hodnota je false (expertní) Kurtosis špičatost, výchozí hodnota je false (expertní) Renaming rules Umožňuje definovat pravidla pro přejmenování atributů, pokud není zadáno žádné pravidlo, názvy výstupních atributů Description odpovídají názvům vstupních atributů (expertní) Precision určuje počet desetiných míst v případě výstupu do reportu, výchozí hodnota je 2 (expertní) Box plot operátor Tento operátor umožňuje snadno vytvořit ze vstupního ExampleSetu výstup v podobě krabicového grafu. Operátor má proměnný počet vstupů. Každý vstup v případě, že je připojen odpovídá jedné třídě a každý atribut odpovídá krabičce. Chart Title nadpis výstupního grafu (nepovinný) Chart X-Axis Title popisek osy X (povinný) Chart Y-Axis Title popisek osy Y (povinný) 37

Zobrazit více