ANALÝZA DAT V R 9. VÝPOČET VELIKOSTI SOUBORU. Mgr. Markéta Pavlíková Katedra pravděpodobnosti a matematické statistiky MFF UK.

Podobné dokumenty
You created this PDF from an application that is not licensed to print to novapdf printer (

Katedra matematické analýzy a aplikací matematiky, Přírodovědecká fakulta, UP v Olomouci

STATISTIKA A INFORMATIKA - bc studium OZW, 1.roč. (zkušební otázky)

Testování hypotéz. Analýza dat z dotazníkových šetření. Kuranova Pavlina

Tomáš Karel LS 2012/2013

4ST201 STATISTIKA CVIČENÍ Č. 7

Tomáš Karel LS 2012/2013

Statistika, Biostatistika pro kombinované studium. Jan Kracík

Pravděpodobnost, náhoda, kostky

Testy dobré shody Máme dvě veličiny, u kterých bychom chtěli prokázat závislost, TESTY DOBRÉ SHODY (angl. goodness-of-fit tests)

Rozhodnutí / Skutečnost platí neplatí Nezamítáme správně chyba 2. druhu Zamítáme chyba 1. druhu správně

PRAVDĚPODOBNOST A STATISTIKA

= = 2368

Ing. Michael Rost, Ph.D.

Pravděpodobnost a aplikovaná statistika

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz

Aproximace binomického rozdělení normálním

TESTOVÁNÍ STATISTICKÝCH HYPOTÉZ ZÁKLADNÍ POJMY

Epidemiologické ukazatele. lních dat. analýza kategoriáln. Prof. RNDr. Jana Zvárová, DrSc. Záznam epidemiologických dat. a I E

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

analýza kategoriáln lních dat Prof. RNDr. Jana Zvárová, DrSc. Záznam epidemiologických dat Epidemiologické ukazatele

PSY117/454 Statistická analýza dat v psychologii seminář 9. Statistické testování hypotéz

PARAMETRICKÉ TESTY. 1) Měření Etalonu. Dataset - mereni_etalonu.sta - 9 měření etalonu srovnáváme s PŘEDPOKLÁDANOU HODNOTOU 10.

Aplikovaná statistika v R - cvičení 2

Cvičení 12: Binární logistická regrese

Statistické metody uţívané při ověřování platnosti hypotéz

Testy. Pavel Provinský. 19. listopadu 2013

Cvičení ze statistiky - 9. Filip Děchtěrenko

VYBRANÉ DVOUVÝBĚROVÉ TESTY. Martina Litschmannová

ANALÝZA DAT V R 3. POPISNÉ STATISTIKY, NÁHODNÁ VELIČINA. Mgr. Markéta Pavlíková Katedra pravděpodobnosti a matematické statistiky MFF UK

STATISTICKÉ TESTY VÝZNAMNOSTI

Testování statistických hypotéz. Ing. Michal Dorda, Ph.D. 1

Testování hypotéz. 4. přednáška

Testování statistických hypotéz

Základy biostatistiky II. Veřejné zdravotnictví 3.LF UK - II

Pravděpodobnost, náhoda, kostky

Lékařská biofyzika, výpočetní technika I. Biostatistika Josef Tvrdík (doc. Ing. CSc.)

Příklad 1. Řešení 1 ŘEŠENÉ PŘÍKLADY Z MV2 ČÁST 11

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

STATISTICKÉ TESTY VÝZNAMNOSTI

JEDNOVÝBĚROVÉ TESTY. Komentované řešení pomocí programu Statistica

letní semestr 2012 Katedra pravděpodobnosti a matematické statistiky Matematicko-fyzikální fakulta Univerzity Karlovy Matematická statistika t-test

5. Závislost dvou náhodných veličin různých typů (kategoriální a metrická veličina)

Lékařská biofyzika, výpočetní technika I. Biostatistika Josef Tvrdík (doc. Ing. CSc.)

Testování hypotéz. testujeme (většinou) tvrzení o parametru populace. tvrzení je nutno předem zformulovat

Určujeme neznámé hodnoty parametru základního souboru. Pomocí výběrové charakteristiky vypočtené z náhodného výběru.

ANALÝZA DAT V R 7. KONTINGENČNÍ TABULKA. Mgr. Markéta Pavlíková Katedra pravděpodobnosti a matematické statistiky MFF UK.

Testování statistických hypotéz

Pravděpodobnost a statistika, Biostatistika pro kombinované studium. Tutoriál č. 5: Bodové a intervalové odhady, testování hypotéz.

Statistické testování hypotéz II

Testování statistických hypotéz. Obecný postup

Náhodné veličiny, náhodné chyby

Testování hypotéz Biolog Statistik: Matematik: Informatik:

Parametrické testy hypotéz o středních hodnotách spojitých náhodných veličin

Mann-Whitney U-test. Znaménkový test. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek

Regresní a korelační analýza

15. T e s t o v á n í h y p o t é z

HODNOCENÍ VÝKONNOSTI ATRIBUTIVNÍCH ZNAKŮ JAKOSTI. Josef Křepela, Jiří Michálek. OSSM při ČSJ

SEMESTRÁLNÍ PRÁCE. Leptání plasmou. Ing. Pavel Bouchalík

6. Testování statistických hypotéz. KGG/STG Zimní semestr 6. Testování statistických hypotéz

INDUKTIVNÍ STATISTIKA

STATISTICKÉ HYPOTÉZY

Parametrické testy hypotéz o středních hodnotách spojitých náhodných veličin

Tomáš Karel LS 2012/2013

ANALÝZA DAT V R 5. ZÁKLADNÍ STATISTICKÉ TESTY. Mgr. Markéta Pavlíková Katedra pravděpodobnosti a matematické statistiky MFF UK.

letní semestr 2012 Katedra pravděpodobnosti a matematické statistiky Matematicko-fyzikální fakulta Univerzity Karlovy Matematická statistika

diskriminaci žen letní semestr = výrok, o jehož pravdivosti chceme rozhodnout tvrzení o populaci, o jehož platnosti rozhodujeme

TESTOVÁNÍ HYPOTÉZ STATISTICKÁ HYPOTÉZA Statistické testy Testovací kritérium = B B > B < B B - B - B < 0 - B > 0 oboustranný test = B > B

Tomáš Karel LS 2012/2013

Ilustrační příklad odhadu LRM v SW Gretl

DVOUVÝBĚROVÉ A PÁROVÉ TESTY Komentované řešení pomocí programu Statistica

Matematická statistika Zimní semestr Testy o proporci

Testování hypotéz. Testování hypotéz o rozdílu průměrů t-test pro nezávislé výběry t-test pro závislé výběry

Analýza rozptylu. PSY117/454 Statistická analýza dat v psychologii Přednáška 12. Srovnávání více než dvou průměrů

Testy statistických hypotéz

Problematika analýzy rozptylu. Ing. Michael Rost, Ph.D.

STATISTICKÉ ODHADY Odhady populačních charakteristik

Regresní a korelační analýza

Stručný úvod do testování statistických hypotéz

Intervalové odhady. Interval spolehlivosti pro střední hodnotu v N(µ, σ 2 ) Interpretace intervalu spolehlivosti. Interval spolehlivosti ilustrace

Test dobré shody v KONTINGENČNÍCH TABULKÁCH

Statistické metody - nástroj poznání a rozhodování anebo zdroj omylů a lží

ÚVOD DO TESTOVÁNÍ HYPOTÉZ. Martina Litschmannová

15. T e s t o v á n í h y p o t é z

Intervalové odhady. Interval spolehlivosti pro střední hodnotu v N(µ, σ 2 ) Interpretace intervalu spolehlivosti. Interval spolehlivosti ilustrace

KGG/STG Statistika pro geografy

Neparametrické metody

MATEMATICKO STATISTICKÉ PARAMETRY ANALYTICKÝCH VÝSLEDKŮ

Testování hypotéz. 1. vymezení základních pojmů 2. testování hypotéz o rozdílu průměrů 3. jednovýběrový t-test

LIMITY APLIKACE STATISTICKÝCH TESTŮ VÝZNAMNOSTI V PEDAGOGICKÉM VÝZKUMU: SEMINÁŘ PRO NESTATISTIKY

Příklady na testy hypotéz o parametrech normálního rozdělení

UNIVERZITA OBRANY Fakulta ekonomiky a managementu. Aplikace STAT1. Výsledek řešení projektu PRO HORR2011 a PRO GRAM

Úvod do analýzy rozptylu

Vysoká škola báňská technická univerzita Ostrava. Fakulta elektrotechniky a informatiky

Přednáška XI. Asociace ve čtyřpolní tabulce a základy korelační analýzy

PRAVDĚPODOBNOST A STATISTIKA. Testování hypotéz o rozdělení

Mgr. Karla Hrbáčková, Ph.D. Základy kvantitativního výzkumu

MÍRY ZÁVISLOSTI (KORELACE A REGRESE)

Transkript:

ANALÝZA DAT V R 9. VÝPOČET VELIKOSTI SOUBORU Mgr. Markéta Pavlíková Katedra pravděpodobnosti a matematické statistiky MFF UK www.biostatisticka.cz

DATA, VÝZKUM, ANALÝZY ve výzkumu se střídají fáze prozkoumávací (exploratory) a fáze potvrzovací (confirmatory) tradičně se prezentují jako v opozici, ale v zásadě se spíše doplňují

EXPLORATORNÍ ANALÝZA exploratorní analýza hledáme možné vazby, vzorce, tendence v datech korelace, asociace slouží jako vodítko k vytváření hypotéz, případně k odhadu velikosti parametrů statistická významnost je spíše orientační hranicí už by to nemusela být náhoda detektivní práce : sbírání stop a důkazů

KONFORMATORNÍ ANALÝZA konfirmatorní analýza potvrzujeme hypotézy stanovené předem na základě našeho předchozího výzkumu na základě výzkumu někoho jiného na základě našich empirických zkušeností jednoznačně postavená hypotéza, jednoznačně daný test předem stanovená hranice chyby I. druhu, ideálně síla testu a tím velikost souboru soudní proces, ve kterém jsou důkazy podrobeny testu

EXPLORE & CONFIRM na jedné náhodně vybrané části dat můžeme hypotézu generovat a druhou si nechat na potvrzování na jedněch datech lze potvrzovat starší hypotézu a současně prozkoumávat a generovat hypotézy nové oboje může využívat v principu stejné techniky exploratorní: popisné statistiky, grafy, základní testy, konstrukce modelů,... konfirmatorní: typicky dvouvýběrový test, obecně konkrétní test nebo konkrétní model (klasické frekventistické pojetí; bayesovská statistika pracuje trochu jinak)

KONFIRMACE - TESTOVÁNÍ HYPOTÉZY 1) jasně zvolená hypotéza a alternativa 2) zvolení minimální klinicky důležité odchylky / velikost efektu 3) vybraný konkrétní test 4) zvolená přijatelná hladina statistické významnosti 5) zvolená síla testu 6) vypočtená velikost souboru (prakticky navýšená) 7) nasbírání dat a provedení testu

1. HYPOTÉZA A ALTERNATIVA + 2. EFEKT stanovení hypotézy závisí na úkolu, který řešíme příklad (jednoduchý): X je počet úspěchů ve N pokusech, p je pravděpodobnost úspěchu X~Bi(p,N) H0 : p = 0.3 vs. H 1 : p < 0.3 ve skutečnosti pro výpočet síly nestačí H1 v této podobě, ale v podobě nejmenšího rozdílu od H 0, který je nějak zajímavý H0 : p = 0.3 vs. H 1 : p = 0.2

VÝZNAMNOST A SÍLA TESTU Ve skutečnosti platí H 0 Ve skutečnosti platí H 1 Tvrdíme, že platí H 0 1-a (správné rozhodnutí) b (chyba II. druhu) Zamítáme H0 (tvrdíme, že platí H 1 ) a (chyba I. druhu) (hladina stat. významnosti) 1-b (síla testu) (správné rozhodnutí) a volíme předem (jak moc nám vadí, že zamítneme H0, když platí) b je funkcí stanovené alternativy a velikosti souboru

3. VHODNÝ TEST vhodný test pro danou situaci je binomický test / test proporcí v R binom.test, prop.test

4. HLADINA VÝZNAMNOSTI A KRITICKÁ HODNOTA stanovíme hladinu významnosti a = 0.05 jaká je kritická hodnota testu?

5. SÍLA TESTU jaká je síla tohoto testu při p = 0.02 stanovujeme konkrétní hodnotu (klinicky významný rozdíl) 1-b je funkce p

5. SÍLA TESTU 1-b je funkce p pro spolehlivé přijetí H1 : p = 0.2 je síla 0.74 možná příliš nízká (vyšší pravděpodobnost nepřijetí, i když platí) jak zajistíme, aby byla síla testu 0.9?

6. VELIKOST SOUBORU síla je funkce N, p a kritické hodnoty k (a tím tedy a) a, b, p a N jsou tedy svázané stanovíme a, p a N, můžeme vypočítat b stanovíme a, p a b, můžeme vypočítat N

6. VELIKOST SOUBORU

6. VELIKOST SOUBORU hledáme N empiricky a = 0.05, b = 0.90 p0 = 0.3, p A = 0.2 přesný výpočet: library(stat), library(pwr) pwr.p.test(es.h(0.2,0.3),sig.level=0.05,power = 0.9,alternative="less") proportion power calculation for binomial distribution (arcsine transformation) h = -0.232 n = 159.1 sig.level = 0.05 power = 0.9 alternative = less rozdíly: R má přesnější aproximaci a

6. VELIKOST SOUBORU s 50 prokážeme spolehlivě na 90% rozdíl 0.17, se 175 rozdíl 0.09, s 500 rozdíl 0.06

KONFIRMACE - TESTOVÁNÍ HYPOTÉZY čím menší rozdíl chceme prokázat, tím strměji roste počet potřebných pozorování naopak, máme-li moc pozorování, prokážeme i rozdíl, který není klinicky zajímavý praktické hledisko: k vypočtenému počtu pozorování přidat očekávaný úbytek (zpravidla cca 10%) výpočet provádíme pro tzv. hlavní cíl (main endpoint) hlavní cíl stanovujeme tak, aby byl adekvátní počet rozumně dosažitelný novorozenecká úmrtnost 1 vs. 2 : 30576 v každé větvi kompozitní výsledek úmrtnost + vážné poškození zdraví 1% vs. 2%: 3017 v každé větvi výsledná studie může být jak observační tak experimentální, u obojího lze provádět konfirmaci hypotéz na správně velkém souboru

KONFIRMACE - TESTOVÁNÍ HYPOTÉZY základní knihovna {stat} a větší library(pwr) má nástroje pro různé typy designu porovnání dvou poměrů power.p.test, pwr.2p.test porovnání dvou poměrů, skupiny nevyvážené pwr.2p2n.test pro t.test, ANOVA, Fisherův test, chi-kvadrát test, test korelací,.. co s neparametrickými testy? neznáme rozdělení, takže výpočet nejde můžeme si pomoci simulací rule-of-thumb: přidej 15% oproti parametrické variantě (Lehmann) co s regresí? https://stats.stackexchange.com/questions/10079/rules-of-thumb-for-minimumsample-size-for-multiple-regression

DĚKUJI ZA POZORNOST www.biostatisticka.cz