vod slova statistika

Podobné dokumenty
1. (18 bod ) Náhodná veli ina X je po et rub p i 400 nezávislých hodech mincí. a) Pomocí ƒeby²evovy nerovnosti odhadn te pravd podobnost

Analýza dat na PC I.

Testy pro více veli in

P íklad 1 (Náhodná veli ina)

STATISTIKA A INFORMATIKA - bc studium OZW, 1.roč. (zkušební otázky)

Vektor náhodných veli in - práce s více prom nnými

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Statistika, Biostatistika pro kombinované studium Letní semestr 2011/2012. Tutoriál č. 4: Exploratorní analýza. Jan Kracík

Základy biostatistiky II. Veřejné zdravotnictví 3.LF UK - II

Rozhodnutí / Skutečnost platí neplatí Nezamítáme správně chyba 2. druhu Zamítáme chyba 1. druhu správně

Popisná statistika. Statistika pro sociology

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz

RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr.

Statistika pro geografy. Rozd lení etností DEPARTMENT OF GEOGRAPHY

Cvi ení 7. Docházka a testík - 15 min. Distfun 10 min. Úloha 1

Statistické metody - nástroj poznání a rozhodování anebo zdroj omylů a lží

PSY117/454 Statistická analýza dat v psychologii seminář 9. Statistické testování hypotéz

Mann-Whitney U-test. Znaménkový test. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek

PSY117/454 Statistická analýza dat v psychologii Přednáška 10

na za átku se denuje náhodná veli ina

Statistika. cílem je zjednodušit nějaká data tak, abychom se v nich lépe vyznali důsledkem je ztráta informací!

Intervalové odhady. Interval spolehlivosti pro střední hodnotu v N(µ, σ 2 ) Interpretace intervalu spolehlivosti. Interval spolehlivosti ilustrace

Me neˇ nezˇ minimum ze statistiky Michaela S ˇ edova KPMS MFF UK Principy medicı ny zalozˇene na du kazech a za klady veˇdecke prˇı pravy 1 / 33

2C Tisk-ePROJEKTY

Stručný úvod do vybraných zredukovaných základů statistické analýzy dat

Intervalové odhady. Interval spolehlivosti pro střední hodnotu v N(µ, σ 2 ) Interpretace intervalu spolehlivosti. Interval spolehlivosti ilustrace

Zpracování náhodného výběru. Ing. Michal Dorda, Ph.D.

VYBRANÉ DVOUVÝBĚROVÉ TESTY. Martina Litschmannová

Mgr. Karla Hrbáčková, Ph.D. Základy kvantitativního výzkumu

Národní park umava. 9. kv tna Hnutí Duha

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

charakteristiky KGG/STG Zimní semestr Základní statistické charakteristiky, Teoretická rozdělení 1

Pravděpodobnost a aplikovaná statistika

DVOUVÝBĚROVÉ A PÁROVÉ TESTY Komentované řešení pomocí programu Statistica

ST2 - Cvi ení 1 STATISTICKÁ INDUKCE

Skupina Testování obsahuje následující moduly: Síla a rozsah výběru, Testy a Kontingenční tabulka.

Grafický a číselný popis rozložení dat 3.1 Způsoby zobrazení dat Metody zobrazení kvalitativních a ordinálních dat Metody zobrazení kvan

Statistika. Základní pojmy a cíle statistiky. Roman Biskup. (zapálený) statistik ve výslužbě, aktuálně analytik v praxi ;-) roman.biskup(at) .

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Základy popisné statistiky

Kategorická data METODOLOGICKÝ PROSEMINÁŘ II TÝDEN 7 4. DUBNA dubna 2018 Lukáš Hájek, Karel Höfer Metodologický proseminář II 1

Testování hypotéz. testujeme (většinou) tvrzení o parametru populace. tvrzení je nutno předem zformulovat

JEDNOVÝBĚROVÉ TESTY. Komentované řešení pomocí programu Statistica

Obsah Úvod Kapitola 1 Než začneme Kapitola 2 Práce s hromadnými daty před analýzou

DUM 02 téma: Popisové pole na výrobním výkrese

Základy biostatistiky

6. Testování statistických hypotéz. KGG/STG Zimní semestr 6. Testování statistických hypotéz

ANALÝZA DAT V R 3. POPISNÉ STATISTIKY, NÁHODNÁ VELIČINA. Mgr. Markéta Pavlíková Katedra pravděpodobnosti a matematické statistiky MFF UK

Zápočtová práce STATISTIKA I

Úvod do statistické metodologie

Lékařská biofyzika, výpočetní technika I. Biostatistika Josef Tvrdík (doc. Ing. CSc.)

Testy. Pavel Provinský. 19. listopadu 2013


KORELACE. Komentované řešení pomocí programu Statistica

Návrh realizace transformátoru Thane C. Heinse III.

GEODÉZIE ENGINEERING s.r.o. Mezinár.výzkumné laserové centrum ELI Hrdlo ezská 21/31, Praha 9, tel:

Vzorová prezentace do předmětu Statistika

Testování hypotéz. Analýza dat z dotazníkových šetření. Kuranova Pavlina

Tomáš Karel LS 2012/2013

veličin, deskriptivní statistika Ing. Michael Rost, Ph.D.

Základy popisné statistiky. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek

Přednáška X. Testování hypotéz o kvantitativních proměnných

Otázky k měření centrální tendence. 1. Je dáno rozložení, ve kterém průměr = medián. Co musí být pravdivé o tvaru tohoto rozložení?

DUM 07 téma: P edepisování tolerancí

Aplikovaná statistika v R

Lékařská biofyzika, výpočetní technika I. Biostatistika Josef Tvrdík (doc. Ing. CSc.)

= = 2368

analýza kategoriáln lních dat Prof. RNDr. Jana Zvárová, DrSc. Záznam epidemiologických dat Epidemiologické ukazatele

ZATÍŽENÍ SNĚHEM A VĚTREM

Charakteristika datového souboru

Testování hypotéz testy o tvaru rozdělení. Jiří Neubauer. Katedra ekonometrie, FVL, UO Brno kancelář 69a, tel

SEMESTRÁ LNÍ PRÁ CE. Licenč ní studium STATISTICKÉZPRACOVÁ NÍ DAT PŘ I KONTROLE A Ř ÍZENÍ JAKOSTI

5. Odhady parametrů. KGG/STG Zimní semestr

Pravděpodobnost a statistika, Biostatistika pro kombinované studium. Tutoriál č. 5: Bodové a intervalové odhady, testování hypotéz.

FINANČNÍ MODELY. Koncepty, metody, aplikace. Zdeněk Zmeškal, Dana Dluhošová, Tomáš Tichý

Praktická statistika. Petr Ponížil Eva Kutálková

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

FINAN NÍ ÍZENÍ A ROZHODOVÁNÍ PODNIKU

Jednostranné intervaly spolehlivosti

ZÁKLADNÍ STATISTICKÉ CHARAKTERISTIKY

Seminář 6 statistické testy

Statistické metody uţívané při ověřování platnosti hypotéz

MÍRY ZÁVISLOSTI (KORELACE A REGRESE)

1. Obecná innost Soudu pro ve ejnou službu Zahájené, ukon ené, probíhající v ci ( )

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Testování statistických hypotéz

Statistika. Teorie odhadu statistická indukce. Roman Biskup. (zapálený) statistik ve výslužbě, aktuálně analytik v praxi ;-) roman.biskup(at) .

Epidemiologické ukazatele. lních dat. analýza kategoriáln. Prof. RNDr. Jana Zvárová, DrSc. Záznam epidemiologických dat. a I E

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

RNÉ MATERIÁLY. PSYCHODIAGNOSTIKA - VYHODNOCENÍ z , 13:19 hodin

Statistika. Diskrétní data. Spojitá data. Charakteristiky polohy. Charakteristiky variability

Jednofaktorová analýza rozptylu

TESTOVÁNÍ STATISTICKÝCH HYPOTÉZ ZÁKLADNÍ POJMY

Možnosti využití archivu historických povodní v operativní hydrologii na p íkladu povodí Otavy

Národní informační středisko pro podporu kvality Tůmová

TROJFÁZOVÝ OBVOD SE SPOT EBI EM ZAPOJENÝM DO HV ZDY A DO TROJÚHELNÍKU

4EK211 Základy ekonometrie

Ing. Michael Rost, Ph.D.

5. Závislost dvou náhodných veličin různých typů (kategoriální a metrická veličina)

Transkript:

Základy statistiky

Definice Statistika - v da Statistika - statisticky vyjád ené šet ení Statistika je v da, která nám dává návod, jak pracovat s daty obsahujícími náhodnou složku a jak odlišit zákonitosti od variability Deduktivní vs. Induktivní myšlení

vod slova statistika Slovo statistika má stejný p vod jako slovo stát Statistika vychází jako matematická da p edevším z po tu pravd podobnosti a teorie her. Studuje p evážn tak zvané hromadné jevy

Co je statistika? V sou asné dob se bez znalosti základ statistiky neobejdeme variabilita v biol. oborech Správné plánování experiment Správný design experiment Snadná manipulace a demagogie se sebranými daty

Statistika jako v da Soubor postup užívaných p i sb ru, zpracování a interpretaci dat sm ujících ke zlepšení rozhodování Soubor metod, které nám umož ují init rozumná rozhodnutí v p ípad nejistoty.

Obsah a význam statistiky Léka i i výzkumní pracovníci v biologii se asto domnívají že hlubší znalosti statistické metodologie nejsou nezbytné. vod, pro si myslíme, že je statistika významná a d ležitá, je hned n kolik

Statistika je v ur itém smyslu jazykem pro shromaž ování dat, manipulaci s nimi a jejich kvanitativní manipulaci léka d lá v podstat totéž. Otázky, které léka klade jsou mnohdy statistického charakteru (jaké léky, kolik nemocných ). Exploze výpo etní techniky, která zasáhla do zdravotnictví už i u nás, umož uje také laik m zpracování dat pomocí náro ných a donedávna prakticky neproveditelných statistických postup. V publikovaných láncích s biomedicínskou tématikou je statistika nezbytná. Pokus vs. Šet ení

Statistika popisná základní charakteristika získaných dat (volební preference nap.) vy erpávající šet ení analytická, induktivní charakterizace ur itého vzorku populace, ze které usuzujeme na vlastnosti celého základního souboru Výb r (výzkumy ve. mín ní) Vztah mezi základním souborem a výb rem

Statistika se zabývá variabilitou m ení Metodologická, p esnost m ení asová, v rámci individua = intraindividuální variabilita Interindividuální variabilita = popula ní

Statistika opakovaných ení Sledujeme správnost a p esnost ení M ení Správné a p esné Správné a nep ené Nesprávné a p esné Nesprávné a nep esné

Zpracování nam ených dat Kontrola konzistence dat Zobrazení dat Testy normality (Vy azení výsledk ovlivn ných velkou chybou) Odhad st edních hodnot a variability

Typy biologických dat Data na pom rové stupnici (výška rostliny, váha potkana..) Data na intervalové stupnici (nap. stupn teploty) Data na ordinální stupnici (školní klasifikace, klasifikace zdraví..) Data na nominální stupnici (barva, p íslušnost ke druhu, umíst ní hnízda..)

Kvantitativní data Diskrétní data (nap. po et pacient ) Spojitá data (výška, hmotnost apod.)

data kvalitativní Sb r dat kategoriální, nominální (nap. pohlaví) pot eba kódování (nap. muž 0; žena 1) kvantitativní diskrétní x kontinuální (spojitá) ordinální (nap. známky ve škole 1,2,3,4,5 umož uje se adit podle velikosti) intervalová pom rová

Základní data a náhodný výb r Základní soubor (v tší až potenciáln nekone ná skupina individuí) Náhodný výb r každé individuum základního souboru má stejnou a nezávislou šanci, že bude vybráno Výb rové šet ení (charakterizovat základní soubor na základ výb ru)

Populace a výb r Pokud zkoumaný výb r dob e odráží strukturu celého zkoumaného souboru, nazýváme jej reprezentativním výb rem.

Representativní výb r Za ur itých p edpoklad m žeme záv ry z výb vztáhnout na celou populaci Kvantitativní znaky vs. Kvalitativní znaky

Obecné schéma díl ích stádií výzkumného projektu Plánování Návrh Provedení (sb r dat) Zpracování dat Analýza dat Prezentace Interpretace Publikace

Plánování a návrh výzkumného projektu statistické hledisko Nem žeme studovat celou populaci, která nás zajímá vhodný výb r Musíme p esn formulovat cíle a ú el výzkumu Musíme vymezit pojmy a metody pro: studovanou populaci, sledované znaky, sb r dat a statistickou analýzu

Sb r dat dostupnost dat úplnost dat spolehlivost dat cena dat Úvahy zahrnuté v plánování experimentu!!!!

Sb r dat m ítka p ímo nam ená hodnota intervalové (o kolik?) pom rové (kolikrát?)

Databáze záznam: nositel znaku pole: znaky/prom nné Pole 1 Pole 2 Pole 3 Pole 4 Pole 5 Záznam 1 Záznam 2 Sb r dat Záznam 3 Záznam 4 Data

Sb r dat Vztah základní soubor x výb r každý prvek základního souboru musí mít stejnou pravd podobnost, že se stane prvkem výb ru!!!! Definice výb rových kritérií / kritérií exkluze Opakovatelnost výb ru

Zobrazení dat Tabulky absolutních etností Relativní etnost porovnání zastoupení jednotlivých kategorií mezi r zn velikými skupinami vyjád ení struktury, vztahu ásti k celku indexy pro porovnání vývoje v ase (pevný základ a z et zený index)

Zobrazení dat tabulka, etnostní tabulka, histogram etností) originální set íd ná histogram data data 115 <100: 0 135 100-110: 1 120 111-120: 0 140 121-130: 2 125 131-140: 4 130 141-150: 8 150 151-160: 4 145 161-170: 11. >171: 0.. 12 10 8 6 4 2 0 100-110 111-120 121-130 131-140 141-150 151-160 161-170 171-180

Zobrazení dat 1,2 Boxplot by Group Variable: m_slezina 1,1 1,0 histogram box and whisker plot m_slezina 0,9 0,8 0,7 0,6 0,5 0,4 sloupcový graf kolá ový graf 0,3 0,2 0,1 kontrola 3dny 3tydny skup Median 25%-75% Min-Max 90 80 70 18 Histogram: Htc K-S d=,14083, p>.20; Lilliefors p<,15 Expected Normal 60 16 50 14 40 12 30 20 No. of obs. 10 8 10 6 0 1. tvrt. 2. tvrt. 3. tvrt. 4. tvrt. 4 2 0 0,20 0,25 0,30 0,35 0,40 0,45 X <= Category Boundary

Histogram je graf kdy na vodorovnou osu znázorníme ídy a na svislou osu etnosti i relativní etnosti. asto se používá ve tvaru, kdy se hodnota odpovídající t íde znázorní jako sloupec s intervalem t ídy jako základnou a výška je dána etností.

Analýza, interpretace a prezentace výsledk Využíváme metod popisné a induktivní statistiky Statistické t íd ní jednostup ové, vícestup ové Absolutní etnost Konstrukce statistických tabulek Grafické znázorn ní typy graf

Publikace výsledk výzkumu V tšinou recenzované asopisy Nekvalitní a špatn navržené výzkumy nalezneme tém všude Jak vypadá struktura lánku D ležité je zmínit, co daná studie inesla nového

e t n o s t hodnota sledované veli iny

Normální rozložení (Gaussovo) Abraham de Moivre 1733 Quételet obvod hrudi 5738 skotských voják σ 1 e 2π ( x µ ) σ 2 32 34 36 38 40 42 44 46 48 inch

Popis dat Distribuce normální Poissonova binomická Testy normality

Normální rozložení

Popis dat míry polohy pr r (µ) medián (= 50 percentil, frekven ní st ed) modus (= nej ast jší hodnota)

Popis dat míry variability min-max (=rozsah, range) kvantily (horní 25%, dolní 75%) sm rodatná odchylka (SD, σ) rozptyl (σ 2 )

Statistika a léka sb ratel dat konzument výsledk

Základní veli iny 1. Rozsah souboru (n): po et prvk v souboru 2. Aritmetický pr r ( ) x xi i= x x = 1 1 + x2 +... + x neboli x = n n 3. Medián: prost ední len v ad nam ených hodnot uspo ádaných podle velikosti 4. Modus: nej ast ji se vyskytující hodnota v daném souboru (výskyt dvou nebo více hodnot stejn asto = bimodální, event. polymodální soubor) 5. Rozptyl (s2, 2): sou et druhých mocnin odchylek od pr ru d lený rozsahem souboru (n), v p ípad výb rového rozptylu rozsahem souboru zmenšeným o 1 (n-1). 6. Sm rodatná odchylka (s, ): kladná odmocnina z rozptylu n n ( ) 2 n s = x i x ( ) 2 2 1 s = x i x 1 2 n i= 1 n 1 7. St ední chyba pr ru: sm rodatná odchylka d lená odmocninou z n i= 1 n ( ) 2 s n 1 = x i x ( ) 2 s = x i x 1 n i= 1 n 1 i= 1 n = s n

íklady Vypo te pr r následujích výsledk vyšet ení: 39, 42, 73, 67, 24, 55. Co je modus v následujících výsledcích zjiš ování krevních skupin: A, 0, 0, B, B, AB, A, A, 0, 0, 0, AB, B, 0, B, A, 0, AB, 0, 0, B, 0, A? Co je mediánem následujících výsledk hodnocení závažnosti pr hu onemocn ní, emž A je nejleh í a F je nejt žší pr h: C, E, B, D, A, A, B, F, C, C, D? Co je mediánem následujících výsledk vyšet ení: 61, 49, 35, 74, 53, 82?

Vztah mezi modusem,, mediánem a pr rem v p ípad kvantitativních dat Unimodální rozd lení Bimodální r. Kladn šikmé r. Záporn šikmé r.

symetrické pr r =medián =modus asymetrická medián pr r

-3σ -2σ -1σ µ +1σ +2σ +3σ =medián =modus

99,7% 95,5% 68% -3σ -2σ -1σ µ +1σ +2σ +3σ =medián =modus

Variabilita - p iny opakovaná m ení, nap. teploty 18,2 C 18,5 C 19,1 C 18,7 C asová prom nlivost fluktuace prom nlivost biologických spole enstev mezipopula ní rozdíly rasové rozdíly = BIODIVERZITA variabilita výšky v populaci 180cm 175cm 165cm 157cm as

symetrické pr r =medián =modus asymetrická medián pr r

Transformace dat

Statistická indukce základní soubor (populace) soubor prvk, o kterém chceme statistickými metodami n co zjistit výb r reprezentativní ást dané populace (zákl. souboru), která má sloužit k odvození záv platných pro celou populaci

Odhady parametr rozložení Výb rové charakteristiky x pr r, sm rodatná odchylka s Vztahujeme na základní soubor pr r, sm rodatná odchylka

Testování hypotéz porovnání výb rového souboru a teorie o základním souboru porovnání dvou základních soubor na základ porovnání dvou výb nulová hypotéza alternativní hypotéza

Dosažená hladina významnosti Poté co zformulujeme nulovou hypotézu a nasbíráme data, spo teme pravd podobnost, s jakou bychom mohli obdržet pozorovaná data nebo data stejn, i ješt více odporující nulové hypotéze, za p edpokladu, že je nulová hypotéza pravdivá. Tato pravd podobnost se nazývá dosažená hladina významnosti a zna í se p.

Dosažená hladina významnosti!!! ím menší je p, tím neudržiteln jší ili mén ryhodná je nulová hypotéza!!!

Vysoká hladina významnosti Jestliže porovnáme nap. dv lé by a dostaneme vysoké p, pak m žeme tvrdit, že taková data, jako jsou naše bychom mohli dostat celkem asto i v p ípad, že platí nulová hypotéza. Nelze proto vylou it, že nulová hypotéza je pravdivá tj. že ob lé by jsou stejn efektivní.

Nízká hladina významnosti Je-li p velmi malé, pak se nulová hypotéza zdá být tém nemožnou, protože naše data by mohla sotva kdy vzniknout pouze náhodou kdyby platila nulová hypotéza. M žeme tedy tvrdit se zna nou spolehlivostí, že nulová hypotéze není pravdivá a jedna lé ba je prokazateln lepší než druhá. Hladina významnosti 5% (p=0.05)

Významnost statistického testu Test není statisticky významný hypotézu nezamítáme pozorované odchylky od hypotézy je možno vysv tlit pouhou náhodou d vodem m že být i to, že rozdíl je tak malý, že na jeho prokázání nesta í použitý rozsah souboru. Test je statisticky významný hypotézu zamítáme pozorované odchylky od hypotézy není možno vysv tlit pouhou náhodou odchylka od hypotézy je tak velká, že p i opakování šet ení bychom s velkou pravd podobností hypotézu op t zamítli P-hodnota vypo tená pravd podobnost chyby, kdybychom na základ našich dat hypotézu zamítli. Slouží k provedení testu porovnáním se zvoleným.

Jaký je vlastn princip konstrukce testu? 1.Vytvo íme testovanou hypotézu kterou chceme ov it a altrernativní ( širokou ) hypotézu, o jejíž platnosti nepochybujeme. 2. Porovnáme zda je rozdíl mezi skute ností a hypotézou vysv tlitelný pouhou náhodou. Jak? 3. Porovnáme model alternativní hypotézy s testovaným modelem. 4. P evedeme data do tvaru n jaké statistické normy (t-, F-, χ 2 -, rozložení), která nám umožní test dokon it

Chyba 1. a 2. typu

Postup p i testování vyslovení hypotéz volba testu hypotéz volba pravd podobnosti chyby zamítnutí, hladiny významnosti výpo et zamítnutí/nezamítnutí nulové hypotézy

Statistické testy testy nepárové párové parametrické (pro normální nebo tém normální rozložení) t-test nezávislý (klasický t-test, two-sample) t-test závislý (one-sample) neparametrické (pro jiné než normální rozložení) Mann-Whitney (=Wilcoxon nezávislý) mediánový test srovnání parametru mezi 2 skupinami objekt Wilcoxon závislý znaménkový test srovnání parametru u stejných objekt v asové souslednosti

Regresní a korela ní analýza Sleduje závislost dvou prom nných Zprost edkovaná korelace

Kontingen ní tabulky Chi-square Fischer exact test

Mnohorozm rná analýza dat Shluková analýza