Sem vložte zadání Vaší práce.

Rozměr: px
Začít zobrazení ze stránky:

Download "Sem vložte zadání Vaší práce."

Transkript

1 Sem vložte zadání Vaší práce.

2

3 České vysoké učení technické v Praze Fakulta informačních technologií Katedra teoretické informatiky Diplomová práce Informační podpora klinických studií Bc. Václav Čadek Vedoucí práce: Ing. Pavel Kordík, Ph.D. 26. června 2013

4

5 Poděkování Na tomto místě bych chtěl poděkovat svému vedoucím Ing. Pavlu Kordíkovi, Ph.D. za vstřícný přístup při vedení mé práce, za možnost zpracovávat takto zajímavé téma a za jeho užitečné připomínky. Dále MUDr. Petru Waldaufovi za jeho nadšení pro věc, které bylo tak nakažlivé, že pro mě bylo neustálým zdrojem motivace. Také chci poděkovat své rodině, přítelkyni a přátelům, za podporu a trpělivost, kterou se mnou měli a mají.

6

7 Prohlášení Prohlašuji, že jsem předloženou práci vypracoval samostatně a že jsem uvedl veškeré použité informační zdroje v souladu s Metodickým pokynem o etické přípravě vysokoškolských závěrečných prací. Beru na vědomí, že se na moji práci vztahují práva a povinnosti vyplývající ze zákona č. 121/2000 Sb., autorského zákona, ve znění pozdějších předpisů, zejména skutečnost, že České vysoké učení technické v Praze má právo na uzavření licenční smlouvy o užití této práce jako školního díla podle 60 odst. 1 autorského zákona. V Praze dne 26. června

8 České vysoké učení technické v Praze Fakulta informačních technologií c 2013 Václav Čadek. Všechna práva vyhrazena. Tato práce vznikla jako školní dílo na Českém vysokém učení technickém v Praze, Fakultě informačních technologií. Práce je chráněna právními předpisy a mezinárodními úmluvami o právu autorském a právech souvisejících s právem autorským. K jejímu užití, s výjimkou bezúplatných zákonných licencí, je nezbytný souhlas autora. Odkaz na tuto práci Čadek, Václav. Informační podpora klinických studií. Diplomová práce. Praha: České vysoké učení technické v Praze, Fakulta informačních technologií, 2013.

9 Abstract The purpose of this thesis is to design and describe the tool for automation of clinical trials evaluation process. The tool itself is built as an extension on top of the RapidMiner platform and it s goal is to provide ability to perform an ad hoc significance tests, descriptive and exploratory analysis from within the RapidMiner as well as provide reporting functionality out of the box. The tool is then deployed to particular clinical trial environment which tries to examine the promising new treatment of patients with high blood pressure using the intervention called renal denervation. Keywords Renal denervation, hypertension, RapidMiner, data mining, hypotheses testing, clinical trial, statistical significance, descriptive statistic, exploratory analysis Abstrakt Cílem této práce je navrhnout a popsat nástroj pro automatizaci vyhodnocování klinických studií. Nástroj samotný byl vytvořen jakožto rozšíření ix

10 programu RapidMiner. Jeho cílem je poskytnout možnost provádět ad hoc statistické testy, deskriptivní a explorační analýzu a navíc poskytnout možnost snadného reportování přímo z programu RapidMiner. Pomocí tohoto rozšíření je následně implementován proces, který je nasazen do prostředí konkrétní klinické studie, která se snaží zkoumat novou slibnou metodu léčby pacientů s vysokým krevním tlakem pomocí zákroku zvaného renální denervace. Klíčová slova Renální denervace, hypertenze, RapidMiner, dolování dat, Testování hypotéz, klinická studie, statistická významnost, deskriptivní statistika, explorační analýza x

11 Obsah Odkaz na tuto práci viii Úvod 1 Struktura práce Popis problému, specifikace cíle Klinická studie Prague Hypertenze a refrakterní hypertenze Renální denervace u hypertoniků Specifikace cíle Teorie Deskriptivní analýza dat Charakteristiky polohy Aritmetický průměr Medián Modus Charakteristiky variability Variační rozpětí Rozptyl Kvartily, Decily a Percentily Směrodatná odchylka Variační koeficient Charakteristiky tvaru Zkosení Špičatost Grafické znázornění dat Histogram xi

12 Krabicový graf Ověřování statistických hypotéz Nulová a alternativní hypotéza Rizika chyb - chyby I. a II. druhu Obecný postup při ověřování hypotéz Vybrané statistické testy T-Test výběrový T-test výběrový T-test (nezávislé vzorky) výběrový T-test (párový) Analýza rozptylu (ANOVA) χ 2 test dobré shody Mann Whitney U Test Wilcoxonův znaménkový test Analýza a návrh řešení Srovnání dostupných nástrojů IBM SPSS Statistics R RapidMiner Srovnání knihoven pro statistické výpočty Apache Commons Math JSC Srovnání knihoven pro vizualizaci JFreeChart GRAL Srovnání knihoven pro reporting JasperReports itext Použité technologie RapidMiner Jazyk R Java + IntelliJ IDEA Groovy Ant NSIS Apache Commons Math JFreeChart JasperReports a DynamicJasper xii

13 5 Realizace Integrace do systému RapidMiner Operátory pro ověřování statistických hypotéz Operátor pro jednovýběrový T-Test Operátor pro dvouvýběrový T-Test One-way ANOVA operátor Chi Square Test operátor Mann Whitney U-Test operátor Wilcoxon Signed Rank Test operátor Zobrazení výsledků statistických testů Operátory pro explorační analýzu dat Descriptive statistics operátor Box plot operátor Operátory pro reporting Create Report operátor Create Section operátor Styled Text operátor Ukázka přidání nového testu Přidání operátoru Přidání testu Vizualizace Popis nasazení v prostředí klinické studie Prague Popis dat klinické studie Prague Problémy v datech Chybějící data Nekonzistentní jmenná konvence Špatně zadané databázové sloupce Špatně zadané hodnoty Popis dat vybraných k analýze Implementace RapidMiner procesu Popis hlavního procesu Předzpracování Popis příznaku Reporting Testování Unit testy (Groovy) Testovací scénáře s použitím R Závěr 53 xiii

14 Literatura 55 A Obsah přiloženého CD 57 B Popis instalace 59 C Ukázka konečného výstupu 61 D Kompletní seznam atributů určených k analýze 63 E Slovník lékařských pojmů 67 F Seznam použitých zkratek 69 xiv

15 Seznam obrázků 1.1 Zavedení katetru do renální arterie Ukázka histogramu Ukázka krabicového grafu I. a II. typ chyb, síla testu Operátory pro ověřování statistických hypotéz Operátory pro deskriptivní statistiku a explorační analýzu Ukázka výstupu krabicového grafu Operátory pro reporting Výsledek nově přidaného Wilcoxonova znaménkového testu v RapidMineru Prague 15 - RapidMiner proces Sub-proces, popisující jeden příznak z C.1 Ukázka konečného výstupu - str. 1 z xv

16

17 Úvod Čas v lékařství jakoby ubíhal rychleji - to je také jeden z důvodů, proč snaha aplikovat metody strojového učení, automatizace nebo data miningu má v této doméně své opodstatnění - čím méně času stráví lékaři snahou o získání, transformace nebo vyhodnocení dat, tím více času jim zbude na záchranu životů a péči o pacienty. Klinická studie Prague 15, na které v rámci této práce spolupracuji se zabývá léčbou pacientů s vysokým krevním tlakem - ve většině případů se navíc jedná o tzv. refrakterní hypertenzi, což je těžká forma hypertenze při které pacienti nepociťují výrazné zlepšení, navzdory tomu, že je jim podáváno velké množství léků (antihypertenziv). Tato klinická studie je výzkumným projektem, na kterém spolupracuje 3. lékařská fakulta Univerzity Karlovy (3. LF UK) Fakultní nemocnice Královské Vinohrady (FNKV) a dvě kardiocentra v Olomouci a Třinci. Cílem této studie je prokázat, zda zákrok zvaný renální denervace, může mít za následek snížení krevního tlaku u pacientů trpících refrakterní hypertenzí a v konečném důsledku vést i ke zvýšení kvality jejich života. Jelikož je množství kroků v rámci této studie vykonávano ručně, otevírá se zde velký prostor pro automatizaci nebo aplikaci některých z metod, kterými se na Fakultě informačních technologií, ČVUT v rámci oboru znalostního inženýrství zabýváme. Nutno říct, že oblast klinických studií upřednostňuje zejména striktní statistický přístup a metody vycházející ze strojového učení, umělé inteligence nebo data miningu jsou zde spíše výjimkou, byť by mohli přinést nový vhled do daného lékařského problému. Z tohoto pohledu je možný přínos této práce nejen v usnadnění práce lékařů, ale také možností, jak některé z těchto metod zviditelnit a otevřít tak nové možnosti spolupráce napříč vědními disciplínami. 1

18 Úvod Struktura práce Tato práce si klade za cíl popsat návrh, tvorbu a nasazení nástroje pro automatizaci klinických studií. Kapitola 1 čtenáře seznamuje s kontextem problému, zároveň popisuje, čím se klinická studie Prague 15 zabývá. Kapitola 2 popisuje nezbytnou teorii, nutnou pro pochopení teoretického pozadí vyhodnocování klinických studií. Tématem kapitoly 3 je zhodnocení kladů a záporů jednotlivých nástrojů a knihoven. Kapitola 4 stručně popisuje zvolené technologie. Velmi podstatnou kapitolou je 4, která popisuje realizaci a zejména nasazení nástroje do prostředí reálné klinické studie. Poslední kapitola 5 shrnuje testování implementovaného nástroje. 2

19 Kapitola 1 Popis problému, specifikace cíle 1.1 Klinická studie Prague 15 Jak již bylo zmíněno v úvodu, klinická studie Prague 15 se zabývá léčbou pacientů s tzv. refrakterní hypertenzí pomocí zákroku zvaného renální denervace (RDN). Projekt je naplánován na 5 let a počítá se zařazením nejméně 150 nemocných. Pacienti budou randomizováni do dvou skupin: RDN + farmakoterapie Renální denervace + antihypertenzní medikamentózní léčba farmakoterapie tito nemocní nepodstoupí v prvním roce RDN, později jen dle klinické indikace Jelikož se jedná o novou metodu, není možné exaktně statisticky předem vypočítat předpokládané rozdíly mezi skupinami a potřebnou velikost souboru. Proto je možné, že studie budou (při nadějných výsledcích) extendovány na vyšší počty nemocných [10]. Na projektu se podílejí následující pracoviště: 1. Kardiocentrum 3. lékařské fakulty Univerzity Karlovy v Praze a Fakultní nemocnice Královské Vinohrady (FNKV) 2. III. Interní klinika (Centrum pro hypertenzi) 1. Lékařské fakulty Univerzity Karlovy v Praze a Všeobecné fakultní nemocnice 3. Kardiocentrum Lékařské fakulty a Fakultní nemocnice Olomouc 4. Kardiocentrum Podlesí Třinec 3

20 1. Popis problému, specifikace cíle Hypertenze a refrakterní hypertenze Hypertenzní choroba je nejrozšířenějším kardiovaskulárním onemocněním v populaci. Její následky jsou často fatální (infarkt myokardu, náhlá smrt, mozková mrtvice) nebo invalidizující (mozková mrtvice, srdeční selhání) [10]. Největšími dvěma problémy v praxi jsou: 1. nedostatečná diagnostika či léčba 2. refrakterní hypertenze Refrakterní/rezistentní hypertenze je definována jako trvající zvýšení krevního tlaku na hodnoty 140/90 mmhg a více přes léčbu zahrnující nejméně trojkombinaci antihypertenziv včetně diuretika v maximálních dávkách. Úspěšnost léčby rezistentní hypertenze medikamentózně činí kolem 10% [10] Renální denervace u hypertoniků K renálním denervacím budou používány radiofrekvenční katetry 1, které budou zavedeny přes tříslo do renální arterie 2, kde je následně provedena radiofrekvenční ablace 3 nervových zakončení. Riziko komplikací se neliší od rizika jiných katetrizací - lokální komplikace v místě vpichu, disekce 4 zobrazované tepny, embolie, trombóza. Metoda je bezpečnější než srdeční katetrizace v tom smyslu, že se katetrem neprochází ani přes oblouk aorty, nehrozí tedy cévní mozková příhoda z embolizace do centrálního nervového systému, ani okolo koronárních tepen (nehrozí tedy infarkt myokardu jako komplikace výkonu). Zákrok trvá necelou jednu hodinu, pacient při něm leží na stole na katetrizačním sále, je lehce analgosedován a je mu podáván bolusově 5 heparin. Zavaděče se z třísla vytahují bezprostředně po odeznění účinku heparinu, druhý den po zákroku je propuštěn domů [10]. 1 zařízení, které lékař zavádí do nějakého dutého tělního orgánu 2 ledvinná tepna 3 odstranění, eliminace tkáně 4 rozdělení 5 dávkově 4

21 1.2. Specifikace cíle Obrázek 1.1: Zavedení katetru do renální arterie 1.2 Specifikace cíle Jelikož je množství kroků v rámci vyhodnocení klinických studií vykonáváno ručně, cílem bude co možná největší počet těchto kroků automatizovat a nabídnout nástroj, který bude umožňovat snadnou tvorbu a úpravu tohoto automatického procesu. Specifické požadavky klinické studie Prague 15 zahrnují: možnost tvorby tzv. krabicového grafu, který by umožňoval srovnávat obě skupiny pacientů v čase možnost tvorby deskriptivních statistik pro obě skupiny pacientů nabídnout možnost snadného reportování 5

22

23 Kapitola 2 Teorie 2.1 Deskriptivní analýza dat Deskriptivní analýza dat je souborné označení pro číselné charakteristiky, grafy nebo tabulky, které umožňují lepší porozumění a získání představy o statistickém souboru dat. Jak již z názvu vyplývá - cílem deskriptivní statistiky je popis dat, nikoliv jejich transformace. Jelikož je ale tento popis určitým zobecněním dat, o část informace zároveň přicházíme Charakteristiky polohy Při popisu statistického souboru potřebujeme často určit nějakou hodnotu, která nejlépe vystihuje soubor jako celek, z tohoto důvodu bylo zavedeno množství charakteristik, které se snaží popsat jakousi střední hodnotu, okolo které se ostatní hodnoty soustřeďují - tyto charakteristiky nazýváme míry polohy Aritmetický průměr Sečteme-li všechny vzorky v souboru dat a následně vydělíme jejich počtem dostaneme jednu z nejzákladnějších hodnot sloužících k vyjádření střední hodnoty souboru - aritmetický průměr. µ = n1 x i n (2.1) Existují různé další varianty průměrů - např. geometrický, vážený, klouzavý, apod. 7

24 2. Teorie Medián Definice 1. Seřadíme-li data podle velikosti a následně vybereme prostřední prvek, pak tento prvek označujeme jako medián. Narozdíl od aritmetického průměru je medián mnohem robustnější z hlediska odlehlých hodnot - jestliže soubor obsahuje několik extrémních hodnot, medián dává stále velmi vypovídající hodnotu o celém souboru z hlediska střední hodnoty. Další výhodou mediánu je jeho snadný výpočet Modus Definice 2. Prvek s největší četností v souboru dat se nazývá modus. Modus je vhodné použít pokud data obsahují nominální hodnoty - vezměme si například známky ve škole - v takovém případě je informace o nejčastější hodnotě poměrně vypovídající z hlediska střední hodnoty celého souboru. Naopak pokud uvažujeme data s reálnou hodnotou a 3 jsou z hlediska modu od sebe stejně vzdáleny jako 3 a Charakteristiky variability Kromě charakteristik polohy potřebujeme často při popisu statistického souboru také určité číselné vyjádření toho, jakým způsobem a v jaké vzdálenosti jsou data rozmístěna okolo střední hodnoty - k tomuto účelu slouží charakteristiky variability Variační rozpětí Variační rozpětí 6 je poměrně intuitivní pojem - je dáno rozdílem největší a nejmenší hodnoty v souboru dat. Nicméně takto definované rozpětí může být zavádějící díky extrémním hodnotám. Daleko lepší představu o datech nám může dát tzv. mezikvartilové rozpětí, které je definováno jako rozdíl Q 3 Q Rozptyl Rozptyl 7 vyjadřuje vzdálenost rozložení prvků statistického souboru okolo jeho průměru. Je definován jako: 6 angl. range 7 angl. variance σ 2 = (xi µ) 2 n (2.2) 8

25 2.1. Deskriptivní analýza dat Kvartily, Decily a Percentily Podobně jako medián dělí statistický soubor na dvě stejně velké poloviny, kvartily, dělí statistický soubor na čtvrtiny, decily na desetiny a percentily na setiny Směrodatná odchylka Jelikož rozptyl vyjadřuje variabilitu v jednotkách na druhou (což nemusí být vždy srozumitelné), byla zavedena směrodatná odchylka 8, která je odmocninou z rozptylu: σ = σ 2 = (xi µ) 2 n (2.3) Variační koeficient Variační koeficient 9 vyjadřuje míru relativního rozptýlení dat: v = σ 100% (2.4) µ Charakteristiky tvaru Tyto charakteristiky nám mohou dát představu o tvaru rozdělení - mezi nejpoužívanější charakteristiky patří zešikmení 10 a špičatost Zkosení Zkosení neboli koeficient asymetrie nám dává představu o tom, na jakou stranu a do jaké míry je rozdělení zešikmené. Obecně o tom, zda je nesymetrické. A = v 3 σ 3 (2.5), kde v 3 je třetí centrální moment: { v 3 = i(x i µ) 3 p(x i ) pro diskrétní náhodnou veličinu (x i µ) 3 f(x i )dx pro spojitou náhodnou veličinu 8 angl. standard deviation 9 coefficient of variation 10 angl. skewness 11 angl. kurtosis 9

26 2. Teorie Rozdělení s hodnotou A = 0 nebo blízkou bývají symetrická, rozdělení s A < 0 bývají zešikmena vlevo a naopak, rozdělení s A > 0 zešikmena vpravo Špičatost Špičatost nebo koeficient špičatosti je charakteristikou, která porovnává tvar rozdělení z hlediska špičatosti a porovnává ho s normálním rozdělením. Je definována jako: e = v 4 σ 4 3 (2.6), kde v 3 je čtvrtý centrální moment: { v 4 = i(x i µ) 4 p(x i ) pro diskrétní náhodnou veličinu (x i µ) 4 f(x i )dx pro spojitou náhodnou veličinu Rozdělení s hodnotou e = 0 nebo blízké tvarem odpovídá normálnímu rozdělení, rozdělení s e < 0 bývají plochá a naopak rozdělení s e > 0 špičatá Grafické znázornění dat Velmi dobrou představu o datech nám může dát jejich grafická reprezentace. Vyčerpávající přehled grafické reprezentace dat by samozřejmě vydal na samostatnou publikaci, proto zmíníme pouze nejpoužívanější prostředky, mezi které patří histogram a krabicový graf Histogram Na obrázku 2.1 můžeme vidět ukázku histogramu - výška sloupců odpovídá četnostem hodnot náhodné veličiny, v případě spojité náhodné veličiny jeden sloupec odpovídá intervalu a jeho výška četnosti výskytu hodnoty náhodné veličiny v tomto intervalu. Aby bylo možné porovnávat různé histogramy z hlediska jejich podobnosti nebo tvaru, často se využívá histogram relativních četností namísto absolutních Krabicový graf Krabicový graf 2.2 vyjadřuje hned několik informací najednou - jeho nejvzdálenější konce zobrazují minimální a maximální hodnoty, které ještě nejsou hodnotami odlehlými (ty by byly v krabicovém grafu zobrazeny vně 12 angl. box-and-whisker plot nebo box plot 10

27 2.1. Deskriptivní analýza dat Obrázek 2.1: Ukázka histogramu tohoto rozpětí). Okraje krabičky představují kvartily Q 1 a Q 3 a jejich vzdálenost (šířka krabičky) mezikvartilové rozpětí. Horizontální přímka uvnitř této krabičky zobrazuje medián. Obrázek 2.2: Ukázka krabicového grafu Tento graf pro nás bude obzvláště výhodný, jelikož s jeho pomocí bude možné sledovat vývoj deskriptivní statistiky obou randomizovaných skupin v čase. 11

28 2. Teorie 2.2 Ověřování statistických hypotéz Hypotéza je v obecném případě nějaké tvrzení o datech. Úkolem statistika při testování statistických hypotéz, je danou hypotézu buď potvrdit nebo vyvrátit Nulová a alternativní hypotéza Při ověřování statistických hypotéz pracujeme s tzv. nulovou hypotézou, kterou obvykle značíme H 0 a s tzv. alternativní hypotézou H 1, která je negací nulové hypotézy. V praxi se obvykle snažíme ukázat, že H 0 neplatí a tudíž můžeme přijmout H 1 - v případě klinických studií H 0 většinou popisuje situaci, kdy zkoumaný lék resp. zákrok má nulový efekt. Samozřejmě, že cílem klinických studií je tuto nulovou hypotézu zamítnout a dokázat tak, že daný lék resp. zákrok má (nejlépe pozitivní) efekt na zdraví pacienta. Testy většinou bývají spojené s tzv. hladinou významnosti, kterou značíme α, a která vyjadřuje pravděpodobnost tzv. chyby I. typu. V oblastech jako je například lékařství, kde je omezená opakovatelnost, se obvykle používá hladina významnosti α = Naproti tomu v technických oborech, kde lze často experimenty mnohokrát opakovat za dobře definovaných podmínek, se používá hladina významnosti α = 0.01 a někdy i menší, pokud je prověření zvlášť důležité [8] Rizika chyb - chyby I. a II. druhu Chyby I. a II. typu jsou ustáleným pojmem, který se používá ve statistice pro popis dvou typů chyb [8] chyba I. typu označuje chybu, kdy je normální skupina klasifikována jako anomální. chyba II. typu anomální skupina je klasifikována jako normální. H 0 je pravdivá H 0 je nepravdivá H 0 zamítnuta chyba I.typu - H 0 nezamítnuta - chyba II.typu Pokud použijeme analogii z prostředí trestního práva, potom o chybě I.typu mluvíme v případě, že zamítneme nulovou hypotézu, která platí (odsoudíme nevinného). Naopak o chybě II.typu mluvíme v případě, že nezamítneme nulovou hypotézu, která neplatí (osvobodíme viníka). 12

29 2.3. Vybrané statistické testy Obrázek 2.3: I. a II. typ chyb, síla testu Jelikož jsou oba druhy chyb spolu úzce spjaté, volbou kritické hodnoty pouze snižujeme riziko jedné chyby na úkor druhé. Jediný způsob, jak snížit pravděpodobnost obou typů chyb, je zvýšit rozsah výběru [8] Obecný postup při ověřování hypotéz Obecný postup při ověřování většiny statistických hypotéz lze shrnout v několika bodech: 1. Je nutné definovat nulovou a alternativní hypotézu. 2. Určit hladinu významnosti. 3. Vypočítat počet stupňů volnosti testu (pokud to test vyžaduje). 4. Stanovit rozhodovací pravidlo. 5. Vypočítat testovou statistiku. 6. Stanovit závěr. 2.3 Vybrané statistické testy Testy můžeme dělit podle různých kritérií. Jedním ze základních dělení je ale dělení na parametrické a neparametrické testy. Neparametrické testy jsou 13

30 2. Teorie takové, které k výpočtu nepotřebují odhady populačních parametrů (např. průměr nebo rozptyl). Naopak typickým zástupcem parametrických testů jsou např. T-testy, u nichž se tyto parametry vyskytují jak při samotném výpočtu, tak při formulaci hypotéz. Neparametrické testy také typicky nekladou žádné předpoklady týkající se povahy nebo typu spojitého rozdělení populace ze které vzorek pochází.[16] Dále je možné provádět tzv. jednostranné resp. oboustranné 13 testy. Tato volba závisí na formulaci naší hypotézy. V nejobecnějším případě použijeme oboustranný test, jelikož nám jde o libovolný (negativní i pozitivní) efekt. Pokud ale naše hypotéza vyžaduje posuzování pouze ve směru jednoho extrému použijeme jednostranný test. Tato kapitola obsahuje ilustrativní příklady statistických testů implementovaných v rámci diplomové práce. Příklady jsou převzaty z [14] a budou použity v dalších kapitolách jako reference toho, že všechny implementované testy fungují na triviálních příkladech tak, jak očekáváme T-Test Jakýkoliv statistický test, který používá t-rozdělení můžeme označit jako T-test. Jeden z nejznámějších T-testů je nazýván Studentův T-test 14. Studentův T-test má několik variant a je používán pro porování hypotetického průměru s průměrem skutečným nebo pro porovnání průměrů dvou skupin [7] výběrový T-test Příklad 1. Průměrné IQ v rámci populace je 100. Tým vědců se snaží zjistit, zda má nový lék pozitivní nebo negativní vliv na inteligenci (obecně, zda má vůbec nějaký efekt). V rámci klinické studie byl lék aplikován 30 účastníkům - průměrné IQ v rámci tohoto vzorku je 140 a směrodatná odchylka je 20. Na hladině významnosti 5% ověřte, zda tento nový lék ovlivňuje inteligenci? Řešení 1: Nejprve si definujeme nulovu a alternativní hypotézu: H 0 ; µ 0 = angl. one-tailed resp. two-tailed 14 Pseudonym, který používal William Sealy Gosset, aby nevyšlo najevo, že je zaměstnán v pivovaru Guinness, kde se snažili vařit lepší pivo s pomocí statistiky a samozřejmě tuto obchodní výhodu skrýt před konkurencí. 14

31 2.3. Vybrané statistické testy Stanovíme hladinu významnosti Určíme počet stupňů volnosti H 1 ; µ 100 α = 0.05 df = n 1 = 30 1 = 29 Protože nás zajímá, zda má lék vůbec nějaký efekt - tj. efekt může být pozitivní i negativní, jedná se o oboustranný test. S využitím výše zmíněných informací nalezneme v t-tabulce kritické hodnoty pro oboustraný test pro danou hladinu významnosti a počet stupňů volnosti. Stanovíme rozhodovací pravidlo pro zamítnutí nulové hypotézy: Vypočteme testovou statistiku jako: t < nebo t > t = x µ s n (2.7) Po dosazení: t = = Jelikož t = > , můžeme na základě rozhodovacího pravidla zamítnout nulovou a přijmout alternativní hypotézu, která říká, že nový lék výrazně zvyšuje inteligenci výběrový T-test (nezávislé vzorky) Příklad 2. Učitel statistiky chce porovnat své dvě třídy a zjistit, zda existují rozdíly mezi výsledky testů v jedné a druhé třídě. Třída A má 25 studentů s průměrným hodnocením 70 a směrodatnou odchylkou 15. Třída B má 20 studentů s průměrným hodnocením 74 a směrodatnou odchylkou 25. Na hladině významnosti 5% ověřte, zda se výsledky obou tříd v daném testu významně liší. Řešení 2: Nejprve si definujeme nulovu a alternativní hypotézu: H 0 ; µ A = µ B 15

32 2. Teorie Stanovíme hladinu významnosti Určíme počet stupňů volnosti H 1 ; µ A µ B α = 0.05 df = (n 1 1) + (n 2 1) = (25 1) + (20 1) = 43 Stejně jako u předchozího příkladu - zajímá nás, zda se výsledky obou tříd jakkoliv liší - znovu se tedy jedná o oboustranný test. S využitím výše zmíněných informací nalezneme v t-tabulce kritické hodnoty pro oboustraný test pro danou hladinu významnosti a počet stupňů volnosti. Stanovíme rozhodovací pravidlo pro zamítnutí nulové hypotézy: t < nebo t > Můžeme si všimnout, že hodnota testovacího kritéria je o něco menší než v předchozím příkladu, přestože kritické hodnoty hledáme v téže tabulce. V tomto případě je to dáno více stupni volnosti, což je parametr, který určuje tvar spojitého rozdělení pravděpodobnosti, ze kterého kritické hodnoty pocházejí. Nejdříve si musíme vypočítat dílčí mezivýsledky: df 1 = n 1 1 = 24 df 2 = n 2 1 = 19 SS 1 = s 2 1 df 1 = = 5400 SS 2 = s 2 2 df 2 = = Které použijeme pro výpočet tzv. sdruženého rozptylu: s 2 p = SS 1 + SS 2 df 1 + df 2 = Nakonec vypočteme testovou statistiku: Po dosazení: t = ( x 1 x 2 ) s 2 p n 1 + s2 p n 2 = = t = x 1 x 2 (2.8) s 2 p n 1 + s2 p n 2 (70 74) = = 0.67 Jelikož t = 0.67 > , nemůžeme na základě rozhodovacího pravidla zamítnout nulovou hypotézu a tedy nemůžeme prohlásit, že by se výsledky v obou třídách výrazněji lišily. 16

33 2.3. Vybrané statistické testy výběrový T-test (párový) Příklad 3. Vědci chtějí zjistit, zda nová pilulka na hubnutí skutečně funguje. V rámci klinické studie se dotazovali 10 pacientů, kteří ohodnotili svůj hlad na stupnici od 1 do 10 před a po aplikaci pilulky. Na hladině významnosti 5% ověřte, zda má pilulka vůbec nějaký efekt na hubnutí? Před Po Řešení 3: Nejprve si definujeme nulovu a alternativní hypotézu: Stanovíme hladinu významnosti Určíme počet stupňů volnosti H 0 ; µ před = µ po H 1 ; µ před µ po α = 0.05 df = n 1 = 10 1 = 9 Stejně jako u předchozích dvou testů nás zajímá to, zda má piluka vůbec nějaký efekt - znovu tedy mluvíme o oboustraném testu. S využitím výše zmíněných informací nalezneme v t-tabulce kritické hodnoty pro oboustraný test pro danou hladinu významnosti a počet stupňů volnosti. Stanovíme rozhodovací pravidlo pro zamítnutí nulové hypotézy: t < nebo t > Nejdříve si vypočteme rozdíly jednotlivých párových pozorování: Před Po Rozdíl Vypočteme testovou statistiku jako: t = X D s D n (2.9) 17

34 2. Teorie Přičemž X D a s D spočteme následovně: X D = Po dosazení: n 1 x diff = ( 1) x 2 ( x) 2 2 = n t = = 3.61 = 1.49 = 1.7 Jelikož t = 3.61 > , můžeme na základě rozhodovacího pravidla zamítnout nulovou a přijmout alternativní hypotézu, která říká, že nový lék výrazně snižuje chuť k jídlu Analýza rozptylu (ANOVA) Název testu je zkratka odvozená ze slovního spojení ANalysis Of VAriance, což je obecná technika, která slouží k porovnání rozdílů spojité veličiny mezi několika skupinami. Tato metoda má několik modifikací - v tomto textu se budeme zabývat variantou zvanou jednocestná analýza rozptylu 15. Jedná se o parametrickou variantu Kruskalova-Wallisova testu. Příklad 4. Lékaři chtějí otestovat nový lék proti úzkosti. Rozdělí účastíky studie do tří skupin podle množství aplikované látky (0mg, 50mg a 100mg). Účastníci jsou poté požádáni aby ohodnotili stupeň úzkosti na stupnici od 1 do 10. Na hladině významnosti 5% ověřte, zda existuje rozdíl mezi jednotlivým dávkováním? 0 mg mg mg Řešení 4: Nejprve si definujeme nulovu a alternativní hypotézu: H 0 ; µ 0mg = µ 50mg = µ 100mg H 1 ; P růměr některé ze skupin se liší. 15 angl. One-way ANOVA nebo Single Factor ANOVA 18

35 2.3. Vybrané statistické testy Stanovíme hladinu významnosti α = 0.05 Určíme počet stupňů volnosti s použitím N je počet vzorků celkem, a je počet skupin: df B = a 1 = 3 1 = 2 df W = N a = 21 3 = 18 df T = N 1 = 21 1 = 20 S využitím df B a df W nalezneme v F-tabulce kritickou hodnotu Můžeme se všimnout, že oproti ostatním doposud představeným testům je tento test jednostranný a tedy rozhodovací pravidlo pro zamítnutí H 0 bude: F > Pro výpočet testové statistiky nejdříve potřebujeme zjistit sumy čtverců: ( i a i ) SS B = T 2 n N = = ve výše uvedeném vztahu odpovídá a i vzorkům z jedné skupiny, T je součet všech prvků ze všech skupin, n je počet prvků v jedné skupině a nakonec N je celkový počet prvků. Dále si vypočteme: kde SS W = Y 2 ( i a i ) n = Y 2 = = 853 Nakonec spočteme poslední z mezivýsledků: = SS T = Y 2 T 2 Dostáváme následující tabulku: N = = SS df MS F B ? W T

36 2. Teorie Kde a MS B = SS B = df B 2 = MS W = SS W = = 0.57 df W 18 A konečně se dostáváme k výpočtu testové statistiky: Po dosazení: F = MS B MS W (2.10) F = = Jelikož F = > , můžeme zamítnout H 0 a konstatovat, že mezi skupinami existují rozdíly ve vnímaném stupni úzkosti χ 2 test dobré shody Chí kvadrát test má stejně tak jako ANOVA několik variant - v tomto textu se budeme věnovat pouze variantě zvané Test dobré shody 16. Další varianta je test nezávislosti 17, kterému se v tomto textu nebudeme věnovat. Test dobré shody má své opodstatnění tam, kde zkoukáme, zda pozorované rozdělení pravděpodobnosti odpovídá rozdělení očekávanému. Příklad 5. Během sčítání lidu v USA v roce 2000 se došlo k závěru, že věkové skupiny v jednom malém městě vypadali takto: méně než 18 let let více než 35 let 20% 30% 50% Zajímá nás, zda i dnes jsou tyto četnosti zhruba stejné? V rámci experimentu byl vybrán vzorek 500 lidí ze stejného města a spočtena tabulka četností. méně než 18 let let více než 35 let očekávané = = = 250 skutečné angl. Goodness of fit test 17 Independence test 20

37 2.3. Vybrané statistické testy Řešení 5: Nejprve si definujeme nulovu a alternativní hypotézu: H 0 ; Četnosti pocházejí ze stejného (očekávaného rozdělení). H 1 ; Četnosti nepocházejí ze stejného (očekávaného rozdělení). Stanovíme hladinu významnosti Určíme počet stupňů volnosti α = 0.05 df = k 1 = 3 1 = 2, kde k je počet tříd. Na základě stupňů volnosti a stanovené hladiny významnosti určíme kritickou hodnotu z χ 2 tabulky a stanovíme rozhodovací pravidlo pro zamítnutí nulové hypotézy: χ 2 > 5.99 Vypočteme testovou statistiku jako: Po dosazení: ( ) (f skutečná f očekávaná ) 2 f očekávaná (2.11) ( ) (91 250)2 250 = Jelikož χ 2 > 5.99, zamítáme H 0 a na základě pozorovaného vzorku populace můžeme konstatovat, že pozorované četnosti nejsou stejné s ohledem na očekávání z roku Mann Whitney U Test Mann-Whitney U-Test neparametrická verze nezávislého T-testu, pomocí něhož můžeme porovnávat ordinální data. Je nutné zmínit fakt, že pro vzorek větší než 20 testová statistika pochází z normálního rozdělení. Příklad 6. Na hladině významnosti 5% máme porovnat, zda existuje rozdíl mezi lékem A a lékem B. Relaxace: pro výpočet kritických hodnot bude použito normální rozdělení, přestože velikost vzorku je menší než 20. Lék A Lék B

38 2. Teorie Řešení 6: Nejprve si definujeme nulovu a alternativní hypotézu: H 0 ; Mezi oběma léky není významný rozdíl. H 1 ; Mezi oběma léky existuje významný rozdíl. Stanovíme hladinu významnosti α = 0.05 Stanovíme rozhodovací pravidlo pro zamítnutí nulové hypotézy: z < 1.96 nebo z > 1.96 Nejprve vzestupně seřadíme 18 jednotlivé hodnoty a přiřadíme jim bodové ohodnocení podle pravidla 1 bod za každý vzorek z druhé skupiny s vyšším pořadím. Pořadí Původní skóre Původní vzorek Ohodnocení 1 12 B B B B B B A A A A A A 0 Sečteme body pro obě skupiny: U A = = 0 U B = = 36 Vybereme menší z obou hodnot U = min(u A, U B ) = 0 a tuto hodnotu označovanou jako U-skóre použijeme pro výpočet z-statistiky: z = U n A n B 2 na n B (n A +n B +1) 12 (2.12) 18 v případě shody rozdělíme jako v případě ohodnocení 4 a 5, ze kterého se stane 4.5 v obou případech 22

39 2.3. Vybrané statistické testy Po dosazení: z = (6+6+1) 12 = 2.88 Jelikož z = 2.88 < 1.96, zamítáme H 0 a můžeme prohlásit, že účinky obou léků se liší Wilcoxonův znaménkový test Jedná se o neparametrický test, který mezi sebou porovnává dvě skupiny závislých pozorování. Je analogií k párovému T-testu - tento test je vhodné použít v situaci, kdy existuje možnost, že data neodpovídají normálnímu rozdělení. [7] Pokud mluvíme o Wilcoxonově testu, máme na mysli většinou znaménkový test nebo Rank Sum test. Je nutné zmínit fakt, že pro vzorek větší než 30 testová statistika pochází z normálního rozdělení. Příklad 7. Zadání je stejné jako u předchozího příkladu - na hladině významnosti 5% máme porovnat, zda existuje rozdíl mezi lékem A a lékem B. Relaxace: pro výpočet kritických hodnot bude použito normální rozdělení, přestože velikost vzorku je menší než 30. Před Po Řešení 7: Nejprve si definujeme nulovu a alternativní hypotézu: H 0 ; Lék nemá žádný významný vliv H 1 ; Lék má významný vliv. Stanovíme hladinu významnosti α = 0.05 Stanovíme rozhodovací pravidlo pro zamítnutí nulové hypotézy: z < 1.96 nebo z > 1.96 Vypočítáme rozdíly mezi jednotlivými pozorováními a na základě pořadí těchto rozdílů přiřadíme hodnocení od nejmenšího rozdílu po největší. 23

40 2. Teorie Před Po Rozdíl Hodnocení Sečteme všechny kladné a záporné rozdíly R+ = = 20 R = 1 Vybereme menší z obou hodnot T = min( R, R + ) = 1 a tuto hodnotu označovanou jako T-skóre použijeme pro výpočet z-statistiky: Po dosazení: z = T n(n+1) 4 n(n+1)(2n+1) 24 (2.13) z = T 6(6+1) 4 = (6+1)(2 6+1) 24 Jelikož z = 1.99 < 1.96, můžeme zamítnout H 0 a prohlásit, že aplikace léku má významné účinky. Musíme však podotknout, že H 0 byla zamítnuta velmi těsně a tedy je závěr nutno brát s větší rezervou. 24

41 Kapitola 3 Analýza a návrh řešení 3.1 Srovnání dostupných nástrojů Jelikož k dosažení vytyčených cílů je možné dojít mnoha cestami a použít různé nástroje, rozhodl jsem se shrnout ty nejzajímavější z hlediska jejich kladů a záporů a pokusit se vybrat z nich ten nejlepší IBM SPSS Statistics! profesionální řešení % velmi vysoká cena R! silná komunita, výborná dokumentace % poněkud zastaralé grafické rozhraní, nemožnost reportingu RapidMiner! intuitivní ovládání, zaměřené na data-flow, snadná rozšiřitelnost, rozšíření pro jazyk R % neexistující podpora pro statistické testy 25

42 3. Analýza a návrh řešení 3.2 Srovnání knihoven pro statistické výpočty Ačkoliv JSC je knihovnou specificky zaměřenou na statistické testy, tato knihovna je poměrně zastaralá a a její dokumentace není moc rozsáhlá. Naopak Apache Commons Math je knihovna, která řeší mnohem více problémů, než je pro naše účely potřeba (pro naše účely je zbytečně rozsáhlá), nicméně za ní stojí silná komunita, je ověřená časem a počet testů, které nabízí je slušný Apache Commons Math! mnoho možností, silná komunita a aktivní vývoj, výborná dokumentace % zbytečně rozsáhlá knihovna, slabá customizovatelnost testů JSC! množství testů % neudržovaná a zastaralá knihovna, slabá dokumentace 3.3 Srovnání knihoven pro vizualizaci Z tohoto srovnání nakonec vyšla vítězně knihovna JFreeChart, ačkoliv to bylo vítězství těsné - GRAL obsahuje dostatečné množství grafů, má slušnou dokumentaci a vypadá lépe - bohužel z celkového srovnání vychází hůře kvůli velmi slabým možnostem customizace JFreeChart! velké množství grafů, spoustu možností customizace, výborná dokumentace % méně přitažlivá vizuální stránka GRAL! přitažlivá vizuální stránka, dobrá dokumentace % málo možností customizace 26

43 3.4. Srovnání knihoven pro reporting 3.4 Srovnání knihoven pro reporting Toto srovnání se může na první pohled jevit jako zavádějící z toho důvodu, že Jasper Reports využívá interně ke generování reportů itext, což je obecná knihovna pro manipulaci s pdf. V případě klinických studií je ale orientace na reporty zcela dostačující a navíc umožňuje generování do mnoha různých formátů JasperReports! výborná dokumentace, silná komunita, mnoho možností, různé formáty % přílišná složitost itext! obecná knihovna pro manipulaci s pdf % orientace pouze na pdf 27

44

45 Kapitola 4 Použité technologie 4.1 RapidMiner RapidMiner je jedním z nejrozšířenějších open source nástrojů pro dolování dat a strojové učení. RapidMiner pracuje s poměrně intuitivní představou o jednotlivých krocích zpracování dat - s tzv. operátory - což jsou komponenty, které poskytují určitou funkčnost (klasifikace, regrese, shluková analýza, předzpracování, apod.). Operátory mají jeden nebo více vstupů resp. výstupů a je možné je libovolně kombinovat a tak vytvořit komplexní proces. Více o jednotlivých operátorech zde [13]. Tvorbu vlastních operátorů popisuje [12]. 4.2 Jazyk R Jazyk R je open source statistické prostředí a programovací jazyk velmi oblíbený mezi statistiky [3], umožňuje snadnou tvorbu grafů a statistických výpočtů. Navíc díky rozšíření pro podporu jazyka R v RapidMineru, je možné zkombinovat možnosti R s už tak rozsáhlými možnostmi RapidMineru. 4.3 Java + IntelliJ IDEA RapidMiner stejně jako jeho rozšíření jsou napsány v jazyce Java. Představovat tento jazyk asi není třeba, neboť se jedná o jeden z nejrozšířenějších (Platformově nezávislý) jazyk současnosti. IntelliJ je profesionální vývojové prostředí určené pro vývoj (nejen) v jazyce Java. 29

46 4. Použité technologie 4.4 Groovy Jedná se o dynamický jazyk pro Java platformu inspirovaný jazyky jako je Python, Ruby nebo Smalltalk, které mají množství užitečných vlastností, díky kterým umožňují psát méně kódu, zato však efektivnějšího. Další výhodou je fakt, že syntaxe Groovy je velmi podobná Javě [6]. 4.5 Ant Another Neat Tool (Ant) je jeden z nejrozšířenějších buildovacích nástrojů určených pro vývoj v jazyce Java. Tento nástroj umožňuje popsat jednotlivé kroky buildovacího procesu a tak umožnit jeho automatizaci. Pracuje s tzv. cíli 19, což je jakási abstrakce zastřešující posloupnost kroků, buildovacího procesu. RapidMiner obsahuje předdefinovanou sadu cílů, které výrazně usnadňují vývoj rozšíření. 4.6 NSIS První věcí, se kterou se uživatel musí potýkat před tím, než začne používat nějaký software, je jeho instalace - je tedy nutné aby byla bezproblémová [9]. Nullsoft Scriptable Install System (NSIS) je open source systém pro tvorbu instalátorů pro operační systém Windows. Práce s tímto systémem je velmi snadná a RapidMiner má navíc připraveny skripty, které odvedou téměř veškerou práci. Uživatel tak pouze nainstaluje dané rozšíření a může ho začít používat. 4.7 Apache Commons Math Apache Commons Math je velmi rozsáhlou knihovnou zaměřenou na matematické výpočty [2]. Jedná se o další z rodiny commons knihoven, které si kladou za cíl zastřešit různé problémy, které musí programátoři často řešit. Tato knihovna pokrývá množství oblastí od lineární algebry po genetické algoritmy. Pro naše účely je zajímavá z toho důvodu, že obsahuje podporu pro statistické testy a spojitá rozdělení pravděpodobnosti. 19 angl. targets 30

47 4.8. JFreeChart 4.8 JFreeChart JFreeChart je komplexní open source knihovna pro tvorbu grafů v prostředí jazyka Java [5]. Přestože je oficiální vývojářská příručka placená, díky kvalitní dokumentaci a množství užitečných příkladů se jedná o jasnou volbu v případě, nutnosti programové tvorby jakýchkoliv grafů. 4.9 JasperReports a DynamicJasper JasperReports je jedním z nejznámnějších reportovacích frameworků v prostředí jazyka Java [1]. V souvislosti s JasperReports bývá často zmiňován ještě ireport, což je editor reportů postavený nad platformou NetBeans. Programová tvorba reportů bez využití ireport je však poměrně komplikovaná záležitost, proto je vhodné JasperReports zkombinovat například s DynamicJasper, což je knihovna, která uživatele odstiňuje od přílišné složitosti JasperReports a umožňuje vytvořit komplexní report napsáním několika řádků kódu. 31

48

49 Kapitola 5 Realizace 5.1 Integrace do systému RapidMiner Rozšíření programu RapidMiner bylo implemtováno dle [12]. Z funkčního hlediska je rozšíření rozděleno do 3 částí, které zajišťují odpovídající funkcionalitu. Celkem bylo přidáno 11 operátoru, konkrétně: 6 operátorů pro ověřování statistických hypotéz 2 operátory pro deskriptivní statistiku a explorační analýzu 3 operátory pro reporting Operátory pro ověřování statistických hypotéz Hlavní funkcionalitu celého nástroje tvoří operátory umožňující vykonávat statistické testy přímo v prostředí RapidMineru. Celkem bylo vytvořeno 6 operátorů, které přidávají podporu pro statistické testy popsané v kapitole 2.3. Testy jsou rozděleny do 2 skupin podle toho, zda se jedná o testy parametrické nebo neparametrické. Všechny implementované testy mají společné tyto parametry: Alpha Hladina významnosti, na které má být test proveden. Výchozí hodnota je 0.05.(povinný) Description Parametr, který slouží k přidání popisku k testu. V případě, že tento parametr není zadán, jeho hodnota odpovídá názvu testu. (expertní) 33

50 5. Realizace Obrázek 5.1: Operátory pro ověřování statistických hypotéz Operátor pro jednovýběrový T-Test Operátor pro jednovýběrový T-test implementuje test pro porovnání hypotetického průměru s průměrem skutečným. Tento test je popsán v Jedná se o oboustranný test. Parametry tohoto operátoru jsou: Sample 1 Parametr, který určuje jaký atribut ze vstupu bude použit v rámci testu jako statistický soubor. (povinný) Fixed value Parametr, který specifikuje hypotetický průměr, se kterým je skutečný statistický soubor porovnáván. Výchozí hodnota je 1.0.(povinný) Operátor pro dvouvýběrový T-Test Operátor pro dvouvýběrový T-test implementuje ve skutečnosti testy dva: Test nezávislých vzorků popsaný v , který porovnává průměry dvou statistických souborů mezi sebou. 2. Párový test popsaný v , který porovnává dva statistické soubory závislých měření. Parametry tohoto operátoru jsou: Sample 1 Parametr, který určuje jaký atribut ze vstupu bude použit v rámci testu jako první statistický soubor.(povinný) Sample 2 Parametr, který určuje jaký atribut ze vstupu bude použit v rámci testu jako druhý statistický soubor. (povinný) Paired Test Parametr, který určuje, zda test bude párový. Výchozí hodnota je false. (povinný)

51 5.1. Integrace do systému RapidMiner V obou případech se jedná o oboustranné testy One-way ANOVA operátor Tento operátor implementuje jednosměrnou analýzu rozptylu dle popisu v Jedná se o jednostranný test. Parametry tohoto operátoru jsou: Classes Parametr, který vybírá podmnožinu atributů ze vstupu. Tyto atributy budou použity jako jednotlivé skupiny v testu. (povinný) Chi Square Test operátor Tento operátor implementuje χ 2 test dobré shody dle popisu v Jedná se o jednostranný test. Parametry tohoto operátoru jsou: Sample 1 Parametr, který určuje jaký atribut ze vstupu bude použit v rámci testu jako první statistický soubor obsahující očekávané četnosti. (povinný) Sample 2 Parametr, který určuje jaký atribut ze vstupu bude použit v rámci testu jako druhý statistický soubor obsahující skutečné (pozorované) četnosti. (povinný) Mann Whitney U-Test operátor Tento operátor implementuje Mann Whitney test dle popisu v Jedná se o oboustranný test. Parametry tohoto operátoru jsou: Sample 1 Parametr, který určuje jaký atribut ze vstupu bude použit v rámci testu jako první statistický soubor. (povinný) Sample 2 Parametr, který určuje jaký atribut ze vstupu bude použit v rámci testu jako druhý statistický soubor. (povinný) Wilcoxon Signed Rank Test operátor Tento operátor implementuje Wilcoxonův znaménkový test dle popisu v Jedná se o oboustranný test. Sample 1 Parametr, který určuje jaký atribut ze vstupu bude použit v rámci testu jako první statistický soubor. (povinný) 35

52 5. Realizace Sample 2 Parametr, který určuje jaký atribut ze vstupu bude použit v rámci testu jako druhý statistický soubor. (povinný) Zobrazení výsledků statistických testů Pro všechny statistické testy je zaregistrován společný renderer, který zobrazí jak textový výstup, tak vizualizaci intervalu spolehlivosti v rámci rozdělení, které odpovídá danému testu. Ukázku výstupu pro Wilcoxonův Znaménkový test je možné vidět na obrázku 5.5. Textový výstup zahrnuje: Test Název testu Test Statistic Hodnota testové statistiky Decision Rule Textová reprezentace rozhodovacího pravidla Confidence Hladina spolehlivosti na jaké byl test proveden Reject H 0 zamítnuta Nejdůležitější informace o tom, zda má být nulová hypotéza Vizualizace zahrnuje: 1. Vizualizaci rozdělení spojité veličiny, ze kterého daný test vychází. 2. Vizualizaci intervalu spolehlivosti. 3. Označenou hodnotu, která odpovídá testové statistice. 4. Zobrazený graf se dá libovolně přibližovat a oddalovat, což může být užitečné v případě těsného zamítnutí resp. přijetí H Operátory pro explorační analýzu dat Operátory pro deskriptivní a explorační analýzu byly prozatím přidány pouze dva, takové, které splňují požadavky klinické studie Prague 15 - jedná se o operátor pro deskriptivní analýzu a operátor pro tvorbu krabicových grafů. 36

53 5.1. Integrace do systému RapidMiner Obrázek 5.2: Operátory pro deskriptivní statistiku a explorační analýzu Descriptive statistics operátor Tento operátor implementuje většinu z charakteristik deskriptivní statistiky zmíněných v sekci 2.1. Vstupem tohoto operátoru je ExampleSet, kterému je pro každý jeho atribut vytvořena popisná statistika. Uživatel si může vybrat, které z popisných charakteristik budou vytvořeny a které nikoliv. Mean aritmetický průměr, výchozí hodnota je true, (povinný) Standard Deviation směrodatná odchylka, výchozí hodnota je true, (povinný) Median medián, výchozí hodnota je false (povinný) Skewness zkosení, výchozí hodnota je false (expertní) Variance rozptyl, výchozí hodnota je false (expertní) Kurtosis špičatost, výchozí hodnota je false (expertní) Renaming rules Umožňuje definovat pravidla pro přejmenování atributů, pokud není zadáno žádné pravidlo, názvy výstupních atributů Description odpovídají názvům vstupních atributů (expertní) Precision určuje počet desetiných míst v případě výstupu do reportu, výchozí hodnota je 2 (expertní) Box plot operátor Tento operátor umožňuje snadno vytvořit ze vstupního ExampleSetu výstup v podobě krabicového grafu. Operátor má proměnný počet vstupů. Každý vstup v případě, že je připojen odpovídá jedné třídě a každý atribut odpovídá krabičce. Chart Title nadpis výstupního grafu (nepovinný) Chart X-Axis Title popisek osy X (povinný) Chart Y-Axis Title popisek osy Y (povinný) 37

Charakteristika datového souboru

Charakteristika datového souboru Zápočtová práce z předmětu Statistika Vypracoval: 10. 11. 2014 Charakteristika datového souboru Zadání: Při kontrole dodržování hygienických norem v kuchyni se prováděl odběr vzduchu a pomocí filtru Pallflex

Více

Matematika III. 27. listopadu Vysoká škola báňská - Technická univerzita Ostrava. Matematika III

Matematika III. 27. listopadu Vysoká škola báňská - Technická univerzita Ostrava. Matematika III Vysoká škola báňská - Technická univerzita Ostrava 27. listopadu 2017 Typy statistických znaků (proměnných) Typy proměnných: Kvalitativní proměnná (kategoriální, slovní,... ) Kvantitativní proměnná (numerická,

Více

RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr.

RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr. Analýza dat pro Neurovědy RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr. Jaro 2014 Institut biostatistiky Janoušová, a analýz Dušek: Analýza dat pro neurovědy Blok 3 Jak a kdy použít parametrické a

Více

Rozhodnutí / Skutečnost platí neplatí Nezamítáme správně chyba 2. druhu Zamítáme chyba 1. druhu správně

Rozhodnutí / Skutečnost platí neplatí Nezamítáme správně chyba 2. druhu Zamítáme chyba 1. druhu správně Testování hypotéz Nechť,, je náhodný výběr z nějakého rozdělení s neznámými parametry. Máme dvě navzájem si odporující hypotézy o parametrech daného rozdělení: Nulová hypotéza parametry (případně jediný

Více

Zápočtová práce STATISTIKA I

Zápočtová práce STATISTIKA I Zápočtová práce STATISTIKA I Obsah: - úvodní stránka - charakteristika dat (původ dat, důvod zpracování,...) - výpis naměřených hodnot (v tabulce) - zpracování dat (buď bodové nebo intervalové, podle charakteru

Více

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz Pravděpodobnost a matematická

Více

Testování hypotéz. 1. vymezení základních pojmů 2. testování hypotéz o rozdílu průměrů 3. jednovýběrový t-test

Testování hypotéz. 1. vymezení základních pojmů 2. testování hypotéz o rozdílu průměrů 3. jednovýběrový t-test Testování hypotéz 1. vymezení základních pojmů 2. testování hypotéz o rozdílu průměrů 3. jednovýběrový t-test Testování hypotéz proces, kterým rozhodujeme, zda přijmeme nebo zamítneme nulovou hypotézu

Více

UNIVERZITA OBRANY Fakulta ekonomiky a managementu. Aplikace STAT1. Výsledek řešení projektu PRO HORR2011 a PRO GRAM2011 3. 11.

UNIVERZITA OBRANY Fakulta ekonomiky a managementu. Aplikace STAT1. Výsledek řešení projektu PRO HORR2011 a PRO GRAM2011 3. 11. UNIVERZITA OBRANY Fakulta ekonomiky a managementu Aplikace STAT1 Výsledek řešení projektu PRO HORR2011 a PRO GRAM2011 Jiří Neubauer, Marek Sedlačík, Oldřich Kříž 3. 11. 2012 Popis a návod k použití aplikace

Více

Intervalové odhady. Interval spolehlivosti pro střední hodnotu v N(µ, σ 2 ) Interpretace intervalu spolehlivosti. Interval spolehlivosti ilustrace

Intervalové odhady. Interval spolehlivosti pro střední hodnotu v N(µ, σ 2 ) Interpretace intervalu spolehlivosti. Interval spolehlivosti ilustrace Intervalové odhady Interval spolehlivosti pro střední hodnotu v Nµ, σ 2 ) Situace: X 1,..., X n náhodný výběr z Nµ, σ 2 ), kde σ 2 > 0 známe měli jsme: bodové odhady odhadem charakteristiky je číslo) nevyjadřuje

Více

676 + 4 + 100 + 196 + 0 + 484 + 196 + 324 + 64 + 324 = = 2368

676 + 4 + 100 + 196 + 0 + 484 + 196 + 324 + 64 + 324 = = 2368 Příklad 1 Je třeba prověřit, zda lze na 5% hladině významnosti pokládat za prokázanou hypotézu, že střední doba výroby výlisku je 30 sekund. Přitom 10 náhodně vybraných výlisků bylo vyráběno celkem 540

Více

Číselné charakteristiky

Číselné charakteristiky . Číselné charakteristiky statistických dat Průměrný statistik se během svého života ožení s 1,75 ženami, které se ho snaží vytáhnout večer do společnosti,5 x týdně, ale pouze s 50% úspěchem. W. F. Miksch

Více

Intervalové odhady. Interval spolehlivosti pro střední hodnotu v N(µ, σ 2 ) Interpretace intervalu spolehlivosti. Interval spolehlivosti ilustrace

Intervalové odhady. Interval spolehlivosti pro střední hodnotu v N(µ, σ 2 ) Interpretace intervalu spolehlivosti. Interval spolehlivosti ilustrace Intervalové odhady Interval spolehlivosti pro střední hodnotu v Nµ, σ 2 ) Situace: X 1,..., X n náhodný výběr z Nµ, σ 2 ), kde σ 2 > 0 známe měli jsme: bodové odhady odhadem charakteristiky je číslo) nevyjadřuje

Více

Mgr. Karla Hrbáčková, Ph.D. Základy kvantitativního výzkumu

Mgr. Karla Hrbáčková, Ph.D. Základy kvantitativního výzkumu Mgr. Karla Hrbáčková, Ph.D. Základy kvantitativního výzkumu K čemu slouží statistika Popisuje velké soubory dat pomocí charakteristických čísel (popisná statistika). Hledá skryté zákonitosti v souborech

Více

Statistika, Biostatistika pro kombinované studium Letní semestr 2011/2012. Tutoriál č. 4: Exploratorní analýza. Jan Kracík

Statistika, Biostatistika pro kombinované studium Letní semestr 2011/2012. Tutoriál č. 4: Exploratorní analýza. Jan Kracík Statistika, Biostatistika pro kombinované studium Letní semestr 2011/2012 Tutoriál č. 4: Exploratorní analýza Jan Kracík jan.kracik@vsb.cz Statistika věda o získávání znalostí z empirických dat empirická

Více

Zpracování náhodného výběru. Ing. Michal Dorda, Ph.D.

Zpracování náhodného výběru. Ing. Michal Dorda, Ph.D. Zpracování náhodného výběru popisná statistika Ing. Michal Dorda, Ph.D. Základní pojmy Úkolem statistiky je na základě vlastností výběrového souboru usuzovat o vlastnostech celé populace. Populace(základní

Více

Stručný úvod do vybraných zredukovaných základů statistické analýzy dat

Stručný úvod do vybraných zredukovaných základů statistické analýzy dat Stručný úvod do vybraných zredukovaných základů statistické analýzy dat Statistika nuda je, má však cenné údaje. Neklesejme na mysli, ona nám to vyčíslí. Z pohádky Princové jsou na draka Populace (základní

Více

31. 3. 2014, Brno Hanuš Vavrčík Základy statistiky ve vědě

31. 3. 2014, Brno Hanuš Vavrčík Základy statistiky ve vědě 31. 3. 2014, Brno Hanuš Vavrčík Základy statistiky ve vědě Motto Statistika nuda je, má však cenné údaje. strana 3 Statistické charakteristiky Charakteristiky polohy jsou kolem ní seskupeny ostatní hodnoty

Více

Testování hypotéz. Analýza dat z dotazníkových šetření. Kuranova Pavlina

Testování hypotéz. Analýza dat z dotazníkových šetření. Kuranova Pavlina Testování hypotéz Analýza dat z dotazníkových šetření Kuranova Pavlina Statistická hypotéza Možné cíle výzkumu Srovnání účinnosti různých metod Srovnání výsledků různých skupin Tzn. prokázání rozdílů mezi

Více

Vysoká škola báňská technická univerzita Ostrava. Fakulta elektrotechniky a informatiky

Vysoká škola báňská technická univerzita Ostrava. Fakulta elektrotechniky a informatiky Vysoká škola báňská technická univerzita Ostrava Fakulta elektrotechniky a informatiky Bankovní účty (semestrální projekt statistika) Tomáš Hejret (hej124) 18.5.2013 Úvod Cílem tohoto projektu, zadaného

Více

Aplikovaná statistika v R

Aplikovaná statistika v R Aplikovaná statistika v R Filip Děchtěrenko Matematicko-fyzikální fakulta filip.dechterenko@gmail.com 15.5.2014 Filip Děchtěrenko (MFF UK) Aplikovaná statistika v R 15.5.2014 1 / 15 Co bude náplní našich

Více

Jednofaktorová analýza rozptylu

Jednofaktorová analýza rozptylu I I.I Jednofaktorová analýza rozptylu Úvod Jednofaktorová analýza rozptylu (ANOVA) se využívá při porovnání několika středních hodnot. Často se využívá ve vědeckých a lékařských experimentech, při kterých

Více

TECHNICKÁ UNIVERZITA V LIBERCI. Ekonomická fakulta. Semestrální práce. Statistický rozbor dat z dotazníkového šetření školní zadání

TECHNICKÁ UNIVERZITA V LIBERCI. Ekonomická fakulta. Semestrální práce. Statistický rozbor dat z dotazníkového šetření školní zadání TECHNICKÁ UNIVERZITA V LIBERCI Ekonomická fakulta Semestrální práce Statistický rozbor dat z dotazníkového šetření školní zadání Skupina: 51 Vypracovaly: Pavlína Horná, Nikola Loumová, Petra Mikešová,

Více

Cvičení ze statistiky - 8. Filip Děchtěrenko

Cvičení ze statistiky - 8. Filip Děchtěrenko Cvičení ze statistiky - 8 Filip Děchtěrenko Minule bylo.. Dobrali jsme normální rozdělení Tyhle termíny by měly být známé: Centrální limitní věta Laplaceho věta (+ korekce na spojitost) Konfidenční intervaly

Více

Analýza dat na PC I.

Analýza dat na PC I. CENTRUM BIOSTATISTIKY A ANALÝZ Lékařská a Přírodovědecká fakulta, Masarykova univerzita Analýza dat na PC I. Popisná analýza v programu Statistica IBA výuka Základní popisná statistika Popisná statistika

Více

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz Pravděpodobnost a matematická statistika 010 1.týden (0.09.-4.09. ) Data, typy dat, variabilita, frekvenční analýza

Více

Opakování. Neparametrické testy. Pořadí. Jednovýběrový Wilcoxonův test. t-testy: hypotézy o populačním průměru (střední hodnoty) předpoklad normality

Opakování. Neparametrické testy. Pořadí. Jednovýběrový Wilcoxonův test. t-testy: hypotézy o populačním průměru (střední hodnoty) předpoklad normality Opakování Opakování: Testy o střední hodnotě normálního rozdělení 1 jednovýběrový t-test 2 párový t-test 3 dvouvýběrový t-test jednovýběrový Wilcoxonův test párový Wilcoxonův test dvouvýběrový Wilcoxonův

Více

Testování statistických hypotéz

Testování statistických hypotéz Testování statistických hypotéz Na základě náhodného výběru, který je reprezentativním vzorkem základního souboru (který přesně neznáme, k němuž se ale daná statistická hypotéza váže), potřebujeme ověřit,

Více

Základy popisné statistiky

Základy popisné statistiky Základy popisné statistiky Michal Fusek Ústav matematiky FEKT VUT, fusekmi@feec.vutbr.cz 8. přednáška z ESMAT Michal Fusek (fusekmi@feec.vutbr.cz) 1 / 26 Obsah 1 Základy statistického zpracování dat 2

Více

veličin, deskriptivní statistika Ing. Michael Rost, Ph.D.

veličin, deskriptivní statistika Ing. Michael Rost, Ph.D. Vybraná rozdělení spojitých náhodných veličin, deskriptivní statistika Ing. Michael Rost, Ph.D. Třídění Základním zpracováním dat je jejich třídění. Jde o uspořádání získaných dat, kde volba třídícího

Více

Cvičení ze statistiky - 9. Filip Děchtěrenko

Cvičení ze statistiky - 9. Filip Děchtěrenko Cvičení ze statistiky - 9 Filip Děchtěrenko Minule bylo.. Dobrali jsme normální rozdělení Tyhle termíny by měly být známé: Inferenční statistika Konfidenční intervaly Z-test Postup při testování hypotéz

Více

Testování hypotéz testy o tvaru rozdělení. Jiří Neubauer. Katedra ekonometrie, FVL, UO Brno kancelář 69a, tel

Testování hypotéz testy o tvaru rozdělení. Jiří Neubauer. Katedra ekonometrie, FVL, UO Brno kancelář 69a, tel Katedra ekonometrie, FVL, UO Brno kancelář 69a, tel. 973 442029 email:jiri.neubauer@unob.cz Statistickou hypotézou se rozumí určité tvrzení o parametrech rozdělení zkoumané náhodné veličiny (µ, σ 2, π,

Více

Seminář 6 statistické testy

Seminář 6 statistické testy Seminář 6 statistické testy Část I. Volba správného testu Chceme zjistit, zda se Ježkovy a Širůčkovy seminární skupiny liší ve výsledcích v. průběžné písemce ze statistiky. Chceme zjistit, zda 1. průběžná

Více

ZÁKLADNÍ STATISTICKÉ CHARAKTERISTIKY

ZÁKLADNÍ STATISTICKÉ CHARAKTERISTIKY zhanel@fsps.muni.cz ZÁKLADNÍ STATISTICKÉ CHARAKTERISTIKY METODY DESKRIPTIVNÍ STATISTIKY 1. URČENÍ TYPU ŠKÁLY (nominální, ordinální, metrické) a) nominální + ordinální neparametrické stat. metody b) metrické

Více

Testování hypotéz. Testování hypotéz o rozdílu průměrů t-test pro nezávislé výběry t-test pro závislé výběry

Testování hypotéz. Testování hypotéz o rozdílu průměrů t-test pro nezávislé výběry t-test pro závislé výběry Testování hypotéz Testování hypotéz o rozdílu průměrů t-test pro nezávislé výběry t-test pro závislé výběry Testování hypotéz Obecný postup 1. Určení statistické hypotézy 2. Určení hladiny chyby 3. Výpočet

Více

Jana Vránová, 3. lékařská fakulta UK

Jana Vránová, 3. lékařská fakulta UK Jana Vránová, 3. lékařská fakulta UK Vznikají při zkoumání vztahů kvalitativních resp. diskrétních znaků Jedná se o analogii s korelační analýzou spojitých znaků Přitom předpokládáme, že každý prvek populace

Více

PSY117/454 Statistická analýza dat v psychologii seminář 9. Statistické testování hypotéz

PSY117/454 Statistická analýza dat v psychologii seminář 9. Statistické testování hypotéz PSY117/454 Statistická analýza dat v psychologii seminář 9 Statistické testování hypotéz Základní výzkumné otázky/hypotézy 1. Stanovení hodnoty parametru =stanovení intervalu spolehlivosti na μ, σ, ρ,

Více

4ST201 STATISTIKA CVIČENÍ Č. 7

4ST201 STATISTIKA CVIČENÍ Č. 7 4ST201 STATISTIKA CVIČENÍ Č. 7 testování hypotéz parametrické testy test hypotézy o střední hodnotě test hypotézy o relativní četnosti test o shodě středních hodnot testování hypotéz v MS Excel neparametrické

Více

Popisná statistika. Statistika pro sociology

Popisná statistika. Statistika pro sociology Popisná statistika Jitka Kühnová Statistika pro sociology 24. září 2014 Jitka Kühnová (GSTAT) Popisná statistika 24. září 2014 1 / 31 Outline 1 Základní pojmy 2 Typy statistických dat 3 Výběrové charakteristiky

Více

Statistika. Diskrétní data. Spojitá data. Charakteristiky polohy. Charakteristiky variability

Statistika. Diskrétní data. Spojitá data. Charakteristiky polohy. Charakteristiky variability I Přednáška Statistika Diskrétní data Spojitá data Charakteristiky polohy Charakteristiky variability Statistika deskriptivní statistika ˆ induktivní statistika populace (základní soubor) ˆ výběr parametry

Více

ANALÝZA DAT V R 7. KONTINGENČNÍ TABULKA. Mgr. Markéta Pavlíková Katedra pravděpodobnosti a matematické statistiky MFF UK.

ANALÝZA DAT V R 7. KONTINGENČNÍ TABULKA. Mgr. Markéta Pavlíková Katedra pravděpodobnosti a matematické statistiky MFF UK. ANALÝZA DAT V R 7. KONTINGENČNÍ TABULKA Mgr. Markéta Pavlíková Katedra pravděpodobnosti a matematické statistiky MFF UK www.biostatisticka.cz PŘEHLED TESTŮ rozdělení normální spojité alternativní / diskrétní

Více

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz Pravděpodobnost a matematická statistika 2010 1.týden (20.09.-24.09. ) Data, typy dat, variabilita, frekvenční analýza

Více

TECHNICKÁ UNIVERZITA V LIBERCI

TECHNICKÁ UNIVERZITA V LIBERCI TECHNICKÁ UNIVERZITA V LIBERCI Ekonomická fakulta SEMESTRÁLNÍ PRÁCE STATISTICKÝ ROZBOR DAT Z DOTAZNÍKOVÉHO ŠETŘENÍ ANALÝZA VÝSLEDKŮ VYUŢITÍ PROJEKTOVÉHO ŘÍZENÍ V ESN Příjmení a jméno: Hrdá Sabina, Kovalčíková

Více

Testy dobré shody Máme dvě veličiny, u kterých bychom chtěli prokázat závislost, TESTY DOBRÉ SHODY (angl. goodness-of-fit tests)

Testy dobré shody Máme dvě veličiny, u kterých bychom chtěli prokázat závislost, TESTY DOBRÉ SHODY (angl. goodness-of-fit tests) Testy dobré shody Máme dvě veličiny, u kterých bychom chtěli prokázat závislost, např. hmotnost a pohlaví narozených dětí. Běžný statistický postup pro ověření závislosti dvou veličin je zamítnutí jejich

Více

Testování hypotéz. 1 Jednovýběrové testy. 90/2 odhad času

Testování hypotéz. 1 Jednovýběrové testy. 90/2 odhad času Testování hypotéz 1 Jednovýběrové testy 90/ odhad času V podmínkách naprostého odloučení má voák prokázat schopnost orientace v čase. Úkolem voáka e provést odhad časového intervalu 1 hodiny bez hodinek

Více

Mann-Whitney U-test. Znaménkový test. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek

Mann-Whitney U-test. Znaménkový test. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek 10. Neparametrické y Mann-Whitney U- Wilcoxonův Znaménkový Shrnutí statistických ů Typ srovnání Nulová hypotéza Parametrický Neparametrický 1 skupina dat vs. etalon Střední hodnota je rovna hodnotě etalonu.

Více

Kategorická data METODOLOGICKÝ PROSEMINÁŘ II TÝDEN 7 4. DUBNA dubna 2018 Lukáš Hájek, Karel Höfer Metodologický proseminář II 1

Kategorická data METODOLOGICKÝ PROSEMINÁŘ II TÝDEN 7 4. DUBNA dubna 2018 Lukáš Hájek, Karel Höfer Metodologický proseminář II 1 Kategorická data METODOLOGICKÝ PROSEMINÁŘ II TÝDEN 7 4. DUBNA 2018 4. dubna 2018 Lukáš Hájek, Karel Höfer Metodologický proseminář II 1 Typy proměnných nominální (nominal) o dvou hodnotách lze říci pouze

Více

VYBRANÉ DVOUVÝBĚROVÉ TESTY. Martina Litschmannová

VYBRANÉ DVOUVÝBĚROVÉ TESTY. Martina Litschmannová VYBRANÉ DVOUVÝBĚROVÉ TESTY Martina Litschmannová Obsah přednášky Vybrané dvouvýběrové testy par. hypotéz test o shodě rozptylů (F-test), testy o shodě středních hodnot (t-test, Aspinové-Welchův test),

Více

TESTOVÁNÍ HYPOTÉZ STATISTICKÁ HYPOTÉZA Statistické testy Testovací kritérium = B B > B < B B - B - B < 0 - B > 0 oboustranný test = B > B

TESTOVÁNÍ HYPOTÉZ STATISTICKÁ HYPOTÉZA Statistické testy Testovací kritérium = B B > B < B B - B - B < 0 - B > 0 oboustranný test = B > B TESTOVÁNÍ HYPOTÉZ Od statistického šetření neočekáváme pouze elementární informace o velikosti některých statistických ukazatelů. Používáme je i k ověřování našich očekávání o výsledcích nějakého procesu,

Více

Obsah Úvod Kapitola 1 Než začneme Kapitola 2 Práce s hromadnými daty před analýzou

Obsah Úvod Kapitola 1 Než začneme Kapitola 2 Práce s hromadnými daty před analýzou Úvod.................................................................. 11 Kapitola 1 Než začneme.................................................................. 17 1.1 Logika kvantitativního výzkumu...........................................

Více

Statistické testování hypotéz II

Statistické testování hypotéz II PSY117/454 Statistická analýza dat v psychologii Přednáška 9 Statistické testování hypotéz II Přehled testů, rozdíly průměrů, velikost účinku, síla testu Základní výzkumné otázky/hypotézy 1. Stanovení

Více

Statistika, Biostatistika pro kombinované studium. Jan Kracík

Statistika, Biostatistika pro kombinované studium. Jan Kracík Statistika, Biostatistika pro kombinované studium Letní semestr 2014/2015 Tutoriál č. 6: ANOVA Jan Kracík jan.kracik@vsb.cz Obsah: Testování hypotéz opakování ANOVA Testování hypotéz (opakování) Testování

Více

Metodologie pro ISK II

Metodologie pro ISK II Metodologie pro ISK II Všechny hodnoty z daného intervalu Zjišťujeme: Centrální míry Variabilitu Šikmost, špičatost Percentily (decily, kvantily ) Zobrazení: histogram MODUS je hodnota, která se v datech

Více

Metodologie pro Informační studia a knihovnictví 2

Metodologie pro Informační studia a knihovnictví 2 Metodologie pro Informační studia a knihovnictví 2 Modul 5: Popis nekategorizovaných dat Co se dozvíte v tomto modulu? Kdy používat modus, průměr a medián. Co je to směrodatná odchylka. Jak popsat distribuci

Více

Testování statistických hypotéz. Ing. Michal Dorda, Ph.D. 1

Testování statistických hypotéz. Ing. Michal Dorda, Ph.D. 1 Testování statistických hypotéz Ing. Michal Dorda, Ph.D. 1 Úvodní poznámky Statistickou hypotézou rozumíme hypotézu o populaci (základním souboru) např.: Střední hodnota základního souboru je rovna 100.

Více

TESTOVÁNÍ STATISTICKÝCH HYPOTÉZ ZÁKLADNÍ POJMY

TESTOVÁNÍ STATISTICKÝCH HYPOTÉZ ZÁKLADNÍ POJMY TESTOVÁNÍ STATISTICKÝCH HYPOTÉZ ZÁKLADNÍ POJMY Statistická hypotéza je určitá domněnka (předpoklad) o vlastnostech ZÁKLADNÍHO SOUBORU. Test statistické hypotézy je pravidlo (kritérium), které na základě

Více

Jana Vránová, 3.lékařská fakulta UK, Praha. Hypotézy o populacích

Jana Vránová, 3.lékařská fakulta UK, Praha. Hypotézy o populacích Jana Vránová, 3.lékařská fakulta UK, Praha Hypotézy o populacích Příklad IQ test: Předpokládejme, že z nějakého důvodu ministerstvo školství věří, že studenti absolventi středních škol v Hradci Králové

Více

letní semestr 2012 Katedra pravděpodobnosti a matematické statistiky Matematicko-fyzikální fakulta Univerzity Karlovy Matematická statistika

letní semestr 2012 Katedra pravděpodobnosti a matematické statistiky Matematicko-fyzikální fakulta Univerzity Karlovy Matematická statistika Šárka Hudecová Katedra pravděpodobnosti a matematické statistiky Matematicko-fyzikální fakulta Univerzity Karlovy letní semestr 2012 Opakování t- vs. neparametrické Wilcoxonův jednovýběrový test Opakování

Více

Průzkumová analýza dat

Průzkumová analýza dat Průzkumová analýza dat Proč zkoumat data? Základ průzkumové analýzy dat položil John Tukey ve svém díle Exploratory Data Analysis (odtud zkratka EDA). Často se stává, že data, se kterými pracujeme, se

Více

Testování hypotéz. Testování hypotéz o rozdílu průměrů t-test pro nezávislé výběry t-test pro závislé výběry

Testování hypotéz. Testování hypotéz o rozdílu průměrů t-test pro nezávislé výběry t-test pro závislé výběry Testování hypotéz Testování hypotéz o rozdílu průměrů t-test pro nezávislé výběry t-test pro závislé výběry Testování hypotéz Obecný postup 1. Určení statistické hypotézy 2. Určení hladiny chyby 3. Výpočet

Více

Příklad 1. Korelační pole. Řešení 1 ŘEŠENÉ PŘÍKLADY Z MV2 ČÁST 13

Příklad 1. Korelační pole. Řešení 1 ŘEŠENÉ PŘÍKLADY Z MV2 ČÁST 13 Příklad 1 Máme k dispozici výsledky prvního a druhého testu deseti sportovců. Na hladině významnosti 0,05 prověřte, zda jsou výsledky testů kladně korelované. 1.test : 7, 8, 10, 4, 14, 9, 6, 2, 13, 5 2.test

Více

Porovnání dvou výběrů

Porovnání dvou výběrů Porovnání dvou výběrů Menu: QCExpert Porovnání dvou výběrů Tento modul je určen pro podrobnou analýzu dvou datových souborů (výběrů). Modul poskytuje dva postupy analýzy: porovnání dvou nezávislých výběrů

Více

Statistika. cílem je zjednodušit nějaká data tak, abychom se v nich lépe vyznali důsledkem je ztráta informací!

Statistika. cílem je zjednodušit nějaká data tak, abychom se v nich lépe vyznali důsledkem je ztráta informací! Statistika aneb známe tři druhy lži: úmyslná neúmyslná statistika Statistika je metoda, jak vyjádřit nejistá data s přesností na setinu procenta. den..00..00 3..00..00..00..00..00..00..00..00..00..00 3..00..00..00..00..00..00..00

Více

Příklad 1. Řešení 1 ŘEŠENÉ PŘÍKLADY Z MV2 ČÁST 11

Příklad 1. Řešení 1 ŘEŠENÉ PŘÍKLADY Z MV2 ČÁST 11 Příklad 1 Vyhláška Ministerstva zdravotnictví předpokládala, že doba dojezdu k pacientovi od nahlášení požadavku nepřekročí 17 minut. Hodnoty deseti náhodně vybraných dob příjezdu sanitky k nemocnému byly:

Více

Popisná statistika. Komentované řešení pomocí MS Excel

Popisná statistika. Komentované řešení pomocí MS Excel Popisná statistika Komentované řešení pomocí MS Excel Vstupní data Máme k dispozici data o počtech bodů z 1. a 2. zápočtového testu z Matematiky I v zimním semestru 2015/2016 a to za všech 762 studentů,

Více

Statistika pro geografy

Statistika pro geografy Statistika pro geografy 2. Popisná statistika Mgr. David Fiedor 23. února 2015 Osnova 1 2 3 Pojmy - Bodové rozdělení četností Absolutní četnost Absolutní četností hodnoty x j znaku x rozumíme počet statistických

Více

Jednovýběrový Wilcoxonův test a jeho asymptotická varianta (neparametrická obdoba jednovýběrového t-testu)

Jednovýběrový Wilcoxonův test a jeho asymptotická varianta (neparametrická obdoba jednovýběrového t-testu) Jednovýběrový Wilcoxonův test a jeho asymptotická varianta (neparametrická obdoba jednovýběrového t-testu) Frank Wilcoxon (1892 1965): Americký statistik a chemik Nechť X 1,..., X n je náhodný výběr ze

Více

Otázky k měření centrální tendence. 1. Je dáno rozložení, ve kterém průměr = medián. Co musí být pravdivé o tvaru tohoto rozložení?

Otázky k měření centrální tendence. 1. Je dáno rozložení, ve kterém průměr = medián. Co musí být pravdivé o tvaru tohoto rozložení? Otázky k měření centrální tendence 1. Je dáno rozložení, ve kterém průměr = medián. Co musí být pravdivé o tvaru tohoto rozložení? 2. Určete průměr, medián a modus u prvních čtyř rozložení (sad dat): a.

Více

Metodologie pro Informační studia a knihovnictví 2

Metodologie pro Informační studia a knihovnictví 2 Metodologie pro Informační studia a knihovnictví 2 Modul V: Nekategorizovaná data Metodologie pro ISK 2, jaro 2014. Ladislava Z. Suchá Metodologie pro Informační studia a knihovnictví 2 Modul 5: Popis

Více

Číselné charakteristiky a jejich výpočet

Číselné charakteristiky a jejich výpočet Katedra ekonometrie, FVL, UO Brno kancelář 69a, tel. 973 442029 email:jiri.neubauer@unob.cz charakteristiky polohy charakteristiky variability charakteristiky koncetrace charakteristiky polohy charakteristiky

Více

2 ) 4, Φ 1 (1 0,005)

2 ) 4, Φ 1 (1 0,005) Příklad 1 Ze zásilky velkého rozsahu byl náhodně vybrán soubor obsahující 1000 kusů. V tomto souboru bylo zjištěno 26 kusů nekvalitních. Rozhodněte, zda je možné s 99% jistotou tvrdit, že zásilka obsahuje

Více

STATISTIKA A INFORMATIKA - bc studium OZW, 1.roč. (zkušební otázky)

STATISTIKA A INFORMATIKA - bc studium OZW, 1.roč. (zkušební otázky) STATISTIKA A INFORMATIKA - bc studium OZW, 1.roč. (zkušební otázky) 1) Význam a využití statistiky v biologických vědách a veterinárním lékařství ) Rozdělení znaků (veličin) ve statistice 3) Základní a

Více

Popisná statistika. Jaroslav MAREK. Univerzita Palackého

Popisná statistika. Jaroslav MAREK. Univerzita Palackého Popisná statistika Jaroslav MAREK Univerzita Palackého Přírodovědecká fakulta Katedra matematické analýzy a aplikací matematiky Tomkova 40, 779 00 Olomouc Hejčín tel. 585634606 marek@inf.upol.cz pondělí

Více

NÁHODNÁ ČÍSLA. F(x) = 1 pro x 1. Náhodná čísla lze generovat některým z následujících generátorů náhodných čísel:

NÁHODNÁ ČÍSLA. F(x) = 1 pro x 1. Náhodná čísla lze generovat některým z následujících generátorů náhodných čísel: NÁHODNÁ ČÍSLA TYPY GENERÁTORŮ, LINEÁRNÍ KONGRUENČNÍ GENERÁTORY, TESTY NÁHODNOSTI, VYUŽITÍ HODNOT NÁHODNÝCH VELIČIN V SIMULACI CO JE TO NÁHODNÉ ČÍSLO? Náhodné číslo definujeme jako nezávislé hodnoty z rovnoměrného

Více

Program Statistica Base 9. Mgr. Karla Hrbáčková, Ph.D.

Program Statistica Base 9. Mgr. Karla Hrbáčková, Ph.D. Program Statistica Base 9 Mgr. Karla Hrbáčková, Ph.D. OBSAH KURZU obsluha jednotlivých nástrojů, funkce pro import dat z jiných aplikací, práce s popisnou statistikou, vytváření grafů, analýza dat, výstupní

Více

RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr.

RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr. Analýza dat pro Neurovědy RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr. Jaro 2014 Institut biostatistiky Janoušová, a analýz Dušek: Analýza dat pro neurovědy Blok 4 Jak a kdy použít parametrické a

Více

Základy popisné statistiky. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek

Základy popisné statistiky. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Základy popisné statistiky Anotace Realitu můžeme popisovat různými typy dat, každý z nich se specifickými vlastnostmi, výhodami, nevýhodami a vlastní sadou využitelných statistických metod -od binárních

Více

Úvod do analýzy rozptylu

Úvod do analýzy rozptylu Úvod do analýzy rozptylu Párovým t-testem se podařilo prokázat, že úprava režimu stravování a fyzické aktivity ve vybrané škole měla vliv na zlepšené hodnoty HDLcholesterolu u školáků. Pro otestování jsme

Více

Základy pravděpodobnosti a statistiky. Popisná statistika

Základy pravděpodobnosti a statistiky. Popisná statistika Základy pravděpodobnosti a statistiky Popisná statistika Josef Tvrdík Přírodovědecká fakulta, katedra informatiky josef.tvrdik@osu.cz konzultace v úterý 14.10 až 15.40 hod. Příklad ze života Cimrman, Smoljak/Svěrák,

Více

JEDNOVÝBĚROVÉ TESTY. Komentované řešení pomocí programu Statistica

JEDNOVÝBĚROVÉ TESTY. Komentované řešení pomocí programu Statistica JEDNOVÝBĚROVÉ TESTY Komentované řešení pomocí programu Statistica Vstupní data Data umístěná v excelovském souboru překopírujeme do tabulky ve Statistice a pojmenujeme proměnné, viz prezentace k tématu

Více

You created this PDF from an application that is not licensed to print to novapdf printer (http://www.novapdf.com)

You created this PDF from an application that is not licensed to print to novapdf printer (http://www.novapdf.com) Testování statistických hypotéz Testování statistických hypotéz Princip: Ověřování určitého předpokladu zjišťujeme, zda zkoumaný výběr pochází ze základního souboru, který má určité rozdělení zjišťujeme,

Více

Pravděpodobnost a aplikovaná statistika

Pravděpodobnost a aplikovaná statistika Pravděpodobnost a aplikovaná statistika MGR. JANA SEKNIČKOVÁ, PH.D. 8. KAPITOLA STATISTICKÉ TESTOVÁNÍ HYPOTÉZ 22.11.2016 Opakování: CLV příklad 1 Zadání: Před volbami je v populaci státu 52 % příznivců

Více

TECHNICKÁ UNIVERZITA V LIBERCI EKONOMICKÁ FAKULTA

TECHNICKÁ UNIVERZITA V LIBERCI EKONOMICKÁ FAKULTA TECHNICKÁ UNIVERZITA V LIBERCI EKONOMICKÁ FAKULTA Semestrální práce Semestrální práce z předmětu Statistický rozbor dat z dotazníkového šetření Vypracoval: Bonaconzová, Bryknarová, Milkovičová, Škrdlová

Více

TECHNICKÁ UNIVERZITA V LIBERCI SEMESTRÁLNÍ PRÁCE

TECHNICKÁ UNIVERZITA V LIBERCI SEMESTRÁLNÍ PRÁCE TECHNICKÁ UNIVERZITA V LIBERCI Ekonomická fakulta Studentská 2 461 17 Liberec 1 SEMESTRÁLNÍ PRÁCE STATISTICKÝ ROZBOR DAT Z DOTAZNÍKOVÝCH ŠETŘENÍ Gabriela Dlasková, Veronika Bukovinská Sára Kroupová, Dagmar

Více

Testy statistických hypotéz

Testy statistických hypotéz Testy statistických hypotéz Statistická hypotéza je jakýkoliv předpoklad o rozdělení pravděpodobnosti jedné nebo několika náhodných veličin. Na základě náhodného výběru, který je reprezentativním vzorkem

Více

15. T e s t o v á n í h y p o t é z

15. T e s t o v á n í h y p o t é z 15. T e s t o v á n í h y p o t é z Na základě hodnot náhodného výběru činíme rozhodnutí o platnosti hypotézy o hodnotách parametrů rozdělení nebo o jeho vlastnostech. Rozeznáváme dva základní typy testů:

Více

Ing. Michael Rost, Ph.D.

Ing. Michael Rost, Ph.D. Úvod do testování hypotéz, jednovýběrový t-test Ing. Michael Rost, Ph.D. Testovaná hypotéza Pokud nás zajímá zda platí, či neplatí tvrzení o určitém parametru, např. o parametru Θ, pak takovéto tvrzení

Více

23. Matematická statistika

23. Matematická statistika Projekt: Inovace oboru Mechatronik pro Zlínský kraj Registrační číslo: CZ.1.07/1.1.08/03.0009 23. Matematická statistika Statistika je věda, která se snaží zkoumat reálná data a s pomocí teorii pravděpodobnosti

Více

1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.

1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004. Testy hypotéz na základě více než 2 výběrů 1 1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004. Testy hypotéz na základě více než 2 výběrů Na analýzu rozptylu lze pohlížet v podstatě

Více

Neparametrické metody

Neparametrické metody Neparametrické metody Dosud jsme se zabývali statistickými metodami, které zahrnovaly předpoklady o rozdělení dat. Zpravidla jsme předpokládali normální rozdělení. Např. Grubbsův test odlehlých hodnot

Více

SEMESTRÁLNÍ PRÁCE. Leptání plasmou. Ing. Pavel Bouchalík

SEMESTRÁLNÍ PRÁCE. Leptání plasmou. Ing. Pavel Bouchalík SEMESTRÁLNÍ PRÁCE Leptání plasmou Ing. Pavel Bouchalík 1. ÚVOD Tato semestrální práce obsahuje písemné vypracování řešení příkladu Leptání plasmou. Jde o praktickou zkoušku znalostí získaných při přednáškách

Více

JAK MODELOVAT VÝSLEDKY NÁH. POKUSŮ? Martina Litschmannová

JAK MODELOVAT VÝSLEDKY NÁH. POKUSŮ? Martina Litschmannová JAK MODELOVAT VÝSLEDKY NÁH. POKUSŮ? Martina Litschmannová Opakování Základní pojmy z teorie pravděpodobnosti Co je to náhodný pokus? Děj, jehož výsledek není předem jednoznačně určen podmínkami, za nichž

Více

KORELACE. Komentované řešení pomocí programu Statistica

KORELACE. Komentované řešení pomocí programu Statistica KORELACE Komentované řešení pomocí programu Statistica Vstupní data I Data umístěná v excelovském souboru překopírujeme do tabulky ve Statistice a pojmenujeme proměnné, viz prezentace k tématu Popisná

Více

Statistické metody uţívané při ověřování platnosti hypotéz

Statistické metody uţívané při ověřování platnosti hypotéz Statistické metody uţívané při ověřování platnosti hypotéz Hypotéza Domněnka, předpoklad Nejčastěji o rozdělení, středních hodnotách, závislostech, Hypotézy ve vědeckém výzkumu pracovní, věcné hypotézy

Více

Určujeme neznámé hodnoty parametru základního souboru. Pomocí výběrové charakteristiky vypočtené z náhodného výběru.

Určujeme neznámé hodnoty parametru základního souboru. Pomocí výběrové charakteristiky vypočtené z náhodného výběru. 1 Statistické odhady Určujeme neznámé hodnoty parametru základního souboru. Pomocí výběrové charakteristiky vypočtené z náhodného výběru. Odhad lze provést jako: Bodový odhad o Jedna číselná hodnota Intervalový

Více

MATEMATICKÁ STATISTIKA. Katedra matematiky a didaktiky matematiky Technická univerzita v Liberci

MATEMATICKÁ STATISTIKA.   Katedra matematiky a didaktiky matematiky Technická univerzita v Liberci MATEMATICKÁ STATISTIKA Dana Černá http://www.fp.tul.cz/kmd/ Katedra matematiky a didaktiky matematiky Technická univerzita v Liberci Matematická statistika Matematická statistika se zabývá matematickým

Více

Úvod do kurzu. Moodle kurz. (a) https://dl1.cuni.cz/course/view.php?id=2022 (b) heslo pro hosty: statistika (c) skripta na pravděpodobnost

Úvod do kurzu. Moodle kurz. (a) https://dl1.cuni.cz/course/view.php?id=2022 (b) heslo pro hosty: statistika (c) skripta na pravděpodobnost Úvod do kurzu Moodle kurz (a) https://dl1.cuni.cz/course/view.php?id=2022 (b) heslo pro hosty: statistika (c) skripta na pravděpodobnost Výpočty online: www.statisticsonweb.tf.czu.cz Začátek výuky posunut

Více

Matematická statistika. Testy v. v binomickém. Test pravděpodobnosti. Test homogenity dvou. Neparametrické testy. statistika. Testy v.

Matematická statistika. Testy v. v binomickém. Test pravděpodobnosti. Test homogenity dvou. Neparametrické testy. statistika. Testy v. Opakování Opakování: y o střední hodnotě normálního 1 jednovýběrový t-test 2 párový t-test 3 výběrový t-test Šárka Hudecová Katedra a matematické statistiky Matematicko-fyzikální fakulta Univerzity Karlovy

Více

Seminář 6 statistické testy

Seminář 6 statistické testy Seminář 6 statistické testy Část I. Volba správného testu Chceme zjistit, zda se středeční a čtvrteční seminární skupiny liší ve výsledcích v 1. průběžné písemce ze statistiky. Chceme zjistit, zda 1. průběžná

Více

Tomáš Karel LS 2012/2013

Tomáš Karel LS 2012/2013 Tomáš Karel LS 2012/2013 Doplňkový materiál ke cvičení z předmětu 4ST201. Na případné faktické chyby v této presentaci mě prosím upozorněte. Děkuji. Tyto slidy berte pouze jako doplňkový materiál není

Více