VÝBĚR A JEHO REPREZENTATIVNOST

Podobné dokumenty
STATISTICKÝ SOUBOR. je množina sledovaných objektů - statistických jednotek, které mají z hlediska statistického zkoumání společné vlastnosti

STATISTICKÉ ODHADY Odhady populačních charakteristik

VÝBĚR VZORKU V KVANTITATIVNÍM

Epidemiologické metody

Základy popisné statistiky

Testy dobré shody Máme dvě veličiny, u kterých bychom chtěli prokázat závislost, TESTY DOBRÉ SHODY (angl. goodness-of-fit tests)

Základy biostatistiky

Jana Vránová, 3.lékařská fakulta UK, Praha. Hypotézy o populacích

STATISTIKA jako vědní obor

EXPERIMENTÁLNÍ MECHANIKA 2 Přednáška 5 - Chyby a nejistoty měření. Jan Krystek

Testování statistických hypotéz

Přednáška II. Vztah pravděpodobnosti, statistiky a biostatistiky

Rozhodnutí / Skutečnost platí neplatí Nezamítáme správně chyba 2. druhu Zamítáme chyba 1. druhu správně

Testování hypotéz. 1. vymezení základních pojmů 2. testování hypotéz o rozdílu průměrů 3. jednovýběrový t-test

Epidemiologické ukazatele. lních dat. analýza kategoriáln. Prof. RNDr. Jana Zvárová, DrSc. Záznam epidemiologických dat. a I E

analýza kategoriáln lních dat Prof. RNDr. Jana Zvárová, DrSc. Záznam epidemiologických dat Epidemiologické ukazatele

Pojem a úkoly statistiky

Metody výběru ve výzkumech veřejného mínění

1. Statistická analýza dat Jak vznikají informace Rozložení dat

Škály podle informace v datech:

Úvod do analýzy rozptylu

Přednáška II. Vztah pravděpodobnosti, statistiky a biostatistiky

Statistika. Základní pojmy a cíle statistiky. Roman Biskup. (zapálený) statistik ve výslužbě, aktuálně analytik v praxi ;-) roman.biskup(at) .

5. Náhodná veličina. 2. Házíme hrací kostkou dokud nepadne šestka. Náhodná veličina nabývá hodnot z posloupnosti {1, 2, 3,...}.

Lékařská biofyzika, výpočetní technika I. Biostatistika Josef Tvrdík (doc. Ing. CSc.)

Úvod do teorie odhadu. Ing. Michael Rost, Ph.D.

Testování hypotéz. Testování hypotéz o rozdílu průměrů t-test pro nezávislé výběry t-test pro závislé výběry

Výběrové charakteristiky a jejich rozdělení

Náhodné (statistické) chyby přímých měření

Jana Vránová, 3. lékařská fakulta UK

Varianty výzkumu Kroky výzkumu Výběrový soubor

1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.

Jednostranné intervaly spolehlivosti

Náhodné chyby přímých měření

= = 2368

Základy biostatistiky II. Veřejné zdravotnictví 3.LF UK - II

DVOUVÝBĚROVÉ A PÁROVÉ TESTY Komentované řešení pomocí programu Statistica

LEKCE 5 STATISTICKÁ INFERENCE ANEB ZOBECŇOVÁNÍ VÝSLEDKŮ Z VÝBĚROVÉHO NA ZÁKLADNÍ SOUBOR

7. SEMINÁŘ DESKRIPTIVNÍ STATISTIKA

Cvičení ze statistiky - 9. Filip Děchtěrenko

Test z teorie VÝBĚROVÉ CHARAKTERISTIKY A INTERVALOVÉ ODHADY

UNIVERZITA OBRANY Fakulta ekonomiky a managementu. Aplikace STAT1. Výsledek řešení projektu PRO HORR2011 a PRO GRAM

7. Rozdělení pravděpodobnosti ve statistice

E(X) = np D(X) = np(1 p) 1 2p np(1 p) (n + 1)p 1 ˆx (n + 1)p. A 3 (X) =

Základy popisné statistiky

METODY VÝZKUMU GENDEROVÉ PROBLEMATIKY

časovém horizontu na rozdíl od experimentu lépe odhalit chybné poznání reality.

Analýza dat na PC I.

Test z teorie VÝBĚROVÉ CHARAKTERISTIKY A INTERVALOVÉ ODHADY

ANALÝZA DAT V R 7. KONTINGENČNÍ TABULKA. Mgr. Markéta Pavlíková Katedra pravděpodobnosti a matematické statistiky MFF UK.

Statistická šetření - PROČ? Žádná věda není skutečnou vědou, není-li podložena matematickými principy. (L.da Vinci)

Typy studií. Klinická studie

Pearsonův korelační koeficient

Testování hypotéz. Testování hypotéz o rozdílu průměrů t-test pro nezávislé výběry t-test pro závislé výběry

Motivace. Náhodný pokus, náhodný n jev. Pravděpodobnostn. podobnostní charakteristiky diagnostických testů, Bayesův vzorec

RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr.

Náhodné jevy. Teorie pravděpodobnosti. Náhodné jevy. Operace s náhodnými jevy

Intervalové odhady. Interval spolehlivosti pro střední hodnotu v N(µ, σ 2 ) Interpretace intervalu spolehlivosti. Interval spolehlivosti ilustrace

Náhodné veličiny, náhodné chyby

P13: Statistické postupy vyhodnocování únavových zkoušek, aplikace normálního, Weibullova rozdělení, apod.

III/2 Inovace a zkvalitnění výuky prostřednictvím ICT

Intervalové odhady. Interval spolehlivosti pro střední hodnotu v N(µ, σ 2 ) Interpretace intervalu spolehlivosti. Interval spolehlivosti ilustrace

You created this PDF from an application that is not licensed to print to novapdf printer (

Jednofaktorová analýza rozptylu

You created this PDF from an application that is not licensed to print to novapdf printer (

Někdy lze výsledek pokusu popsat jediným číslem, které označíme X (nebo jiným velkým písmenem). Hodíme dvěma kostkami jaký padl součet?

Úvod do problematiky měření

Cvičení ze statistiky - 8. Filip Děchtěrenko

Vybraná rozdělení náhodné veličiny

Pravděpodobnost a její vlastnosti

Lineární regrese. Komentované řešení pomocí MS Excel

Vymezení důležitých pojmů. nulová hypotéza, alternativní hypotéza testování hypotézy hladina významnosti (alfa) chyba I. druhu, chyba II.

3. SEMINÁŘ MĚŘENÍ FREKVENCE NEMOCÍ V POPULACI

a způsoby jejího popisu Ing. Michael Rost, Ph.D.

Pravděpodobnost v genetické analýze a předpovědi

PSY117/454 Statistická analýza dat v psychologii přednáška 8. Statistické usuzování, odhady

Systém monitorování zdravotního stavu obyvatelstva ve vztahu k životnímu prostředí

PROHLOUBENÍ NABÍDKY DALŠÍHO VZDĚLÁVÁNÍ NA VŠPJ A SVOŠS V JIHLAVĚ

Zpracování náhodného výběru. Ing. Michal Dorda, Ph.D.

ANALÝZA DAT V R 3. POPISNÉ STATISTIKY, NÁHODNÁ VELIČINA. Mgr. Markéta Pavlíková Katedra pravděpodobnosti a matematické statistiky MFF UK

SOFTWARE STAT1 A R. Literatura 4. kontrolní skupině (viz obr. 4). Proto budeme testovat shodu středních hodnot µ 1 = µ 2 proti alternativní

MATEMATICKÁ STATISTIKA. Katedra matematiky a didaktiky matematiky Technická univerzita v Liberci

Inženýrská statistika pak představuje soubor postupů a aplikací teoretických principů v oblasti inženýrské činnosti.

Studie HELEN. Zdravotní stav a životní styl obyvatel ČR. porovnání I. a II. etapy

Pravděpodobnost, náhoda, kostky

( ) ( ) Nezávislé jevy I. Předpoklady: 9204

X = x, y = h(x) Y = y. hodnotám x a jedné hodnotě y. Dostaneme tabulku hodnot pravděpodobnostní

Seminář 6 statistické testy

Obsah přednášky Jaká asi bude chyba modelu na nových datech?

5. SEMINÁŘ TYPY EPIDEMIOLOGICKÝCH STUDIÍ

Testování statistických hypotéz. Ing. Michal Dorda, Ph.D.

Výzkum sociální změny

Inferenční statistika - úvod. z-skóry normální rozdělení pravděpodobnost rozdělení výběrových průměrů

MÍRY ZÁVISLOSTI (KORELACE A REGRESE)

Popisná statistika kvantitativní veličiny

ANALÝZA DAT V R 2. POPISNÉ STATISTIKY. Mgr. Markéta Pavlíková Katedra pravděpodobnosti a matematické statistiky MFF UK.

Biostatistika Cvičení 7

8. Normální rozdělení

MARKETINGOVÝ INFORMAČNÍ SYSTÉM

Transkript:

VÝBĚR A JEHO REPREZENTATIVNOST Induktivní, analytická statistika se snaží odhadnout charakteristiky populace pomocí malého vzorku, který se nazývá VÝBĚR neboli VÝBĚROVÝ SOUBOR. REPREZENTATIVNOST VÝBĚRU: vlastnosti VÝBĚRU by měly co nejlépe odpovídat vlastnostem celé populace. Základní populace je HOMOGENNÍ: rozdíly mezi sledovanými jedinci mohou být způsobeny pouze NÁHODOU. Základní populace není zcela HOMOGENNÍ: sledování výskytu klíšťové encefalitidy: v některých lokalitách je výskyt infikovaných klíšťat systematicky větší sledování krevního tlaku: závisí na věku osob sledování výšky dospělých osob: závisí na pohlaví

KDY VYTVÁŘÍME VÝBĚR 1. Studie popisující populaci 2. Experimentální studie U studie popisující populaci nás zajímá rozložení některé veličiny v populaci, např. její průměr (hladina cholesterolu) pravděpodobnost výskytu nějaké veličiny (např. onemocnění diabetem) skladba populace podle nějaké veličiny (např. podle věku) společné rozložení dvou veličin (např. porodní délky a hmotnosti) Důraz klademe na reprezentativnost výběru - aby složení výběru bylo z pohledu všech rušivých faktorů podobné základní populaci.

1. STUDIE POPISUJÍCÍ POPULACI Musíme mít jasně definovaný základní soubor (populaci), na který chceme zobecnit výsledky studie. Abychom mohli se souborem lépe pracovat, vytvoříme si jeho libovolný seznam- tzv. OPORU. Např. seznam osob z posledního sčítání lidu. Označíme n P rozsah základní populace an V rozsah výběru (rozsah výběru se určí předem samostatným postupem). Rozlišujeme různé konstrukce výběru: A. NÁHODNÝ VÝBĚR B. SYSTEMATICKÝ VÝBĚR C. OBLASTNÍ VÝBĚR D. SKUPINOVÝ VÝBĚR E. VÍCESTUPŇOVÝ VÝBĚR

A. NÁHODNÝ VÝBĚR Nejjednodušší a optimální pro zajištění reprezentativnosti. Nedostatek: technicky velmi náročný. Z čísel 1, 2,, n P OPORY vybereme náhodně jedno číslo. Osobu, která odpovídá tomuto číslu zařadíme do výběru. Další číslo vybíráme ze zbývajících hodnot OPORY. Pokračujeme v tomto výběru bez vracení dokud nemáme vybránon V osob. V některých situacích můžeme použít i výběr s vracením. Pokud rozdíl v rozsahu populace a rozsahu výběrového souboru je extrémně velký, mezi výběrem bez vracení a výběrem s vracením není velký rozdíl, protože je malá pravděpodobnost, že některý prvek vybereme víckrát.

B. SYSTEMATICKÝ VÝBĚR Předpoklad: pořadí jednotek v OPOŘE musí být náhodné - nesmí souviset se sledovanou veličinou. Výhoda: Příklad: Postup: technicky jednodušší. vybíráme děti v jednom kraji/ okresu. Vezmeme abecední seznamy dětí u pediatrů, náhodně vybereme první dítě a pak každé další s krokem např. 10. Další seznam připojíme na konec prvního seznamu. Technicky jednodušší. Celkemvyberemeopětn V osob.

C. KVÓTNÍ VÝBĚR U Kvótního výběru musíme stanovit rušivé faktory, např. stanovíme, že rušivým faktorem je pouze věk a pohlaví. Pak pro každou věkovou skupinu a pohlaví stanovíme počet reprezentantů ve výběru tak, aby to odpovídalo zkoumané populaci. Pak budeme náhodně vybírat do každé takto stanovené skupiny, dokud počty nenaplníme. Pokud neumíme stanovit rušivé faktory, můžeme místo toho použít nějaké přirozené dělení populace na menší celky(kraje, okresy, školy, třídy, ). Vytvoříme dílčí podsoubory podle oblastí a v nich náhodně vybereme počet osob úměrný velikosti dané oblasti. I při tomto způsobu výběru pracujeme s celou populací a každého jedince musíme vyhledávat individuálně - technicky stále náročné.

D. SKUPINOVÝ VÝBĚR Tento výběr umožňuje významné technické zjednodušení. Základní soubor rozdělíme opět na podsoubory (např. podle škol nebo tříd) a písmenem R označíme jejich počet. Zvolíme počet podsouborů, které náhodně vybereme do výběru a jejich počet označíme r. Výběr pak obsahuje všechny objekty zvolených podsouborů. Pro použití této metody je důležité velké množství podsouborů. Tato metoda se používá tehdy, když vyšetření více osob současně přináší relativně malý nárůst nákladů. Příklady přirozených skupin: - rodiny - třídy nebo školy, - obyvatelé jednoho domu, - pacienti jedné nemocnice

E. VÍCESTUPŇOVÝ VÝBĚR U větších studií se používají kombinace těchto metod. Výběr rozdělíme do více stupňů. Příklad: vytvoření reprezentativního výběru žáků Základní soubor rozdělíme na podsoubory podle škol Vybereme náhodně jistý počet škol s pravděpodobnostmi, které odpovídají počtu žáků v příslušné škole V každé vybrané škole vybereme náhodně např. polovinu žáků

2. EXPERIMENTÁLNÍ STUDIE Experimentální studie se používá při studiu vztahů různých veličin nebo posouzení nějaké expozice na objekty našeho zájmu, např.: rozdíl v množství protilátek u zdravých a nemocných rozdíl ve výšce postavy různého pohlaví vyvolá-li podání léku nějakou odpověď Soubory mohou reprezentovat i velmi úzce definovanou populaci. Výběr nemusí splňovat podmínku reprezentativnosti,někdy tuto podmínku dokonce záměrně porušujeme: v reálné populaci je výskyt jedinců s okrajovými hodnotami řídký, ale tady se při výběru dat budeme snažit, aby hodnoty měřené nezávislé proměnné pokrývaly rovnoměrně celou škálu možných hodnot Musíme dbát na to, aby studii neovlivnily rušivé faktory nejdůležitější z nich musí mít stejné zastoupení ve všech porovnávaných skupinách.

Rušivé faktory Vztahy různých charakteristik v biologii jsou velmi komplikované - hodnoty jsou ovlivněny mnoha faktory. Např. výška dítětezávisí nejen na věku, ale také na pohlaví, zdravotním stavu, životosprávě a genetických předpokladech. Většinou není možné všechny vlivy uvažovat. Snažíme se najít model co nejjednodušší, popisující studovanou skutečnost dostatečně přesně. Vybíráme veličiny nejvíce ovlivňující sledovanou charakteristiku: tyto faktory zahrnujeme do modelua nazýváme je confounding (matoucí) a tím, že je měříme, máme možnost eliminovat jejich vliv Neznámé(nezjišťované) faktory zahrnujeme do náhodné chyby nazýváme je bias (vychýlení) a jejich vliv se snažíme eliminovat konstrukcí výběru tak, aby byly stejnoměrně rozděleny ve všech sledovaných souborech

Volba kontrolní skupiny U plánovaného experimentu většinou nepracujeme s rozsáhlými daty a neřešíme problém reprezentativnosti výběru. Obvykle proti skupině, na které zkoumáme působení nějaké expozice stavíme tzv. kontrolní skupinu, statistickými metodami porovnáváme rozdíly ve výsledcích obou skupin a chceme rozhodnout, zda tyto rozdíly jsou statisticky významné, tj. chceme prokázat účinek působení expozice. KONTROLNÍ SKUPINU můžeme vybírat z celé populace nebo pouze z osob, které do sledované skupiny nepatří. KONTROLNÍ SKUPINU musíme zvolit tak, abychom minimalizovali zkreslení výsledků vlivem dalších rušivých faktorů.

Volba kontrolní skupiny a rušivé faktory Kontrolní skupina musí odpovídat věkem, fyzickými předpoklady, pokud na nich záleží apod. Přivýběruosobspracívrizikuakontrolnískupinyzcelépopulace se můžeme dopustit chyby, pokud je pro danou profesi požadováno splnění kritérií, které neodpovídají běžné populaci. Pro všechny plány experimentu je nutné zajistit, aby rozdělení do skupin bylo náhodné. Při studiu účinků léků se můžeme dopustit chyby při volbě kontrolní skupiny neléčených osob se stejnou diagnózou placeboefekt-kladnývliv stresový efekt terapie- negativní vliv

Volba kontrolní skupiny a rušivé faktory Proto se používá tzv. slepý pokus, kdy pouze lékař ví, komu je podáváno placebo a komu lék. V případě, že lékař rozhoduje, komu podá lék a komu placebo, je velmi pravděpodobné, že jeho rozhodnutí nebude náhodné, ale na základě lékařské etiky se rozhodne např. podat lék těžším pacientům. V tomto případě by se použil tzv. dvojitě slepý pokus, kdy ani lékař neví, komu je podáván lék a komu placebo. Vliv rušivých faktorů můžeme omezit prostřednictvím párových testů (t-test nebo Wilcoxonův test pro spojitá data nebo McNemarův test pro alternativní veličiny). Princip je takový, že data získáme měřením na stejných objektech s opakováním po určitém časovém intervalu.