PSY117/454 Statistická analýza dat v psychologii přednáška 8. Statistické usuzování, odhady

Podobné dokumenty
Statistická analýza dat v psychologii. Věci, které můžeme přímo pozorovat, jsou téměř vždy pouze vzorky. Alfred North Whitehead

KGG/STG Statistika pro geografy

PSY117/454 Statistická analýza dat v psychologii seminář 9. Statistické testování hypotéz

Inferenční statistika - úvod. z-skóry normální rozdělení pravděpodobnost rozdělení výběrových průměrů

ÚVOD DO TEORIE ODHADU. Martina Litschmannová

LEKCE 5 STATISTICKÁ INFERENCE ANEB ZOBECŇOVÁNÍ VÝSLEDKŮ Z VÝBĚROVÉHO NA ZÁKLADNÍ SOUBOR

TESTOVÁNÍ HYPOTÉZ STATISTICKÁ HYPOTÉZA Statistické testy Testovací kritérium = B B > B < B B - B - B < 0 - B > 0 oboustranný test = B > B

Úvod do teorie odhadu. Ing. Michael Rost, Ph.D.

Intervalové odhady. Interval spolehlivosti pro střední hodnotu v N(µ, σ 2 ) Interpretace intervalu spolehlivosti. Interval spolehlivosti ilustrace

Počet pravděpodobnosti

Intervalové odhady. Interval spolehlivosti pro střední hodnotu v N(µ, σ 2 ) Interpretace intervalu spolehlivosti. Interval spolehlivosti ilustrace

Úvod do problematiky měření

P13: Statistické postupy vyhodnocování únavových zkoušek, aplikace normálního, Weibullova rozdělení, apod.

Tomáš Karel LS 2012/2013

6. ZÁKLADY STATIST. ODHADOVÁNÍ. Θ parametrický prostor. Dva základní způsoby odhadu neznámého vektoru parametrů bodový a intervalový.

Intervalové Odhady Parametrů

STATISTICKÉ ODHADY Odhady populačních charakteristik

INDUKTIVNÍ STATISTIKA

Testování hypotéz. 1. vymezení základních pojmů 2. testování hypotéz o rozdílu průměrů 3. jednovýběrový t-test

Seminář 6 statistické testy

Statistické testování hypotéz II

Všechno, co jste chtěli vědět z teorie pravděpodobnosti, z teorie informace a

Statistika. Teorie odhadu statistická indukce. Roman Biskup. (zapálený) statistik ve výslužbě, aktuálně analytik v praxi ;-) roman.biskup(at) .

STATISTICKÉ ZJIŠŤOVÁNÍ

Analýza rozptylu. PSY117/454 Statistická analýza dat v psychologii Přednáška 12. Srovnávání více než dvou průměrů

PRAVDĚPODOBNOST A STATISTIKA

Kategorická data METODOLOGICKÝ PROSEMINÁŘ II TÝDEN 7 4. DUBNA dubna 2018 Lukáš Hájek, Karel Höfer Metodologický proseminář II 1

Cvičení ze statistiky - 8. Filip Děchtěrenko

5. Odhady parametrů. KGG/STG Zimní semestr

Lékařská biofyzika, výpočetní technika I. Biostatistika Josef Tvrdík (doc. Ing. CSc.)

Test z teorie VÝBĚROVÉ CHARAKTERISTIKY A INTERVALOVÉ ODHADY

VYBRANÉ DVOUVÝBĚROVÉ TESTY. Martina Litschmannová

LIMITNÍ VĚTY DALŠÍ SPOJITÁ ROZDĚLENÍ PR. 8. cvičení

Design Experimentu a Statistika - AGA46E

Odhady parametrů základního souboru. Cvičení 6 Statistické metody a zpracování dat 1 (podzim 2016) Brno, říjen listopad 2016 Ambrožová Klára

KGG/STG Statistika pro geografy

Charakteristika datového souboru

Jana Vránová, 3.lékařská fakulta UK, Praha. Hypotézy o populacích

Ranní úvahy o statistice

České vysoké učení technické v Praze Fakulta dopravní Ústav aplikované matematiky, K611. Semestrální práce ze Statistiky (SIS)

Seminář 6 statistické testy

Dobývání znalostí. Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze

JEDNOVÝBĚROVÉ TESTY. Komentované řešení pomocí programu Statistica

PRAVDĚPODOBNOST A STATISTIKA

PSY117/454 Statistická analýza dat v psychologii Přednáška 10

Zadání Máme data hdp.wf1, která najdete zde: Bodová předpověď: Intervalová předpověď:

Základy biostatistiky II. Veřejné zdravotnictví 3.LF UK - II

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Testování hypotéz o parametrech regresního modelu

Normální rozložení a odvozená rozložení

Testování hypotéz o parametrech regresního modelu

Přednáška X. Testování hypotéz o kvantitativních proměnných

12. cvičení z PST. 20. prosince 2017

Charakterizace rozdělení

Pravděpodobnost a statistika, Biostatistika pro kombinované studium. Tutoriál č. 5: Bodové a intervalové odhady, testování hypotéz.

ROZDĚLENÍ NÁHODNÝCH VELIČIN

Univerzita Palackého v Olomouci

PSY Statistická analýza dat v psychologii Přednáška 3. Transformace skórů a kvantily normálního rozložení

Testování statistických hypotéz. Ing. Michal Dorda, Ph.D.

7. cvičení 4ST201. Úvod: bodový a intervalový odhad

Pravděpodobnost a aplikovaná statistika

4EK211 Základy ekonometrie

Cvičení 10. Přednášející: Mgr. Rudolf B. Blažek, Ph.D. prof. RNDr. Roman Kotecký, DrSc.

4EK211 Základy ekonometrie

Přednáška. Další rozdělení SNP. Limitní věty. Speciální typy rozdělení. Další rozdělení SNP Limitní věty Speciální typy rozdělení

Určujeme neznámé hodnoty parametru základního souboru. Pomocí výběrové charakteristiky vypočtené z náhodného výběru.

Pravděpodobnost a statistika

Intervalové Odhady Parametrů II Testování Hypotéz

Karta předmětu prezenční studium

10. cvičení z PST. 5. prosince T = (n 1) S2 X. (n 1) s2 x σ 2 q χ 2 (n 1) (1 α 2 ). q χ 2 (n 1) 2. 2 x. (n 1) s. x = 1 6. x i = 457.

Parametrické testy hypotéz o středních hodnotách spojitých náhodných veličin

Mann-Whitney U-test. Znaménkový test. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek

Výběrové charakteristiky a jejich rozdělení

Jednofaktorová analýza rozptylu

Pravděpodobnost, náhoda, kostky

1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.

STATISTIKA VĚDA O USUZOVÁNÍ NA ZÁKLADĚ DAT. Patrícia Martinková Ústav informatiky AV ČR

Cvičení ze statistiky - 7. Filip Děchtěrenko

PRAVDĚPODOBNOST A STATISTIKA. Bayesovské odhady

letní semestr 2012 Katedra pravděpodobnosti a matematické statistiky Matematicko-fyzikální fakulta Univerzity Karlovy Matematická statistika t-test

Pravděpodobnost a matematická statistika

Parametrické testy hypotéz o středních hodnotách spojitých náhodných veličin

Metodologie pro Informační studia a knihovnictví 2

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz

Vybraná rozdělení náhodné veličiny

odpovídá jedna a jen jedna hodnota jiných

IDENTIFIKACE BIMODALITY V DATECH

Obsah Úvod Kapitola 1 Než začneme Kapitola 2 Práce s hromadnými daty před analýzou

Odhad parametrů N(µ, σ 2 )

5EN306 Aplikované kvantitativní metody I

Testování hypotéz testy o tvaru rozdělení. Jiří Neubauer. Katedra ekonometrie, FVL, UO Brno kancelář 69a, tel

BAYESOVSKÉ ODHADY. Michal Friesl V NĚKTERÝCH MODELECH. Katedra matematiky Fakulta aplikovaných věd Západočeská univerzita v Plzni

ANALÝZA DAT V R 3. POPISNÉ STATISTIKY, NÁHODNÁ VELIČINA. Mgr. Markéta Pavlíková Katedra pravděpodobnosti a matematické statistiky MFF UK

Normální (Gaussovo) rozdělení

4EK211 Základy ekonometrie

Pearsonůvχ 2 test dobré shody. Ing. Michal Dorda, Ph.D.

12. cvičení z PSI prosince (Test střední hodnoty dvou normálních rozdělení se stejným neznámým rozptylem)

Jana Vránová, 3. lékařská fakulta UK


You created this PDF from an application that is not licensed to print to novapdf printer (

Transkript:

PSY117/454 Statistická analýza dat v psychologii přednáška 8 Statistické usuzování, odhady

Výběr od deskripce k indukci Deskripce dat, odhad parametrů Usuzování = inference = indukce Počítá se s náhodným výběrem tj. výběr jedince splňuje podmínky náhodného pokusu není-li výběr v pravém slova smyslu náhodný, uvažujeme, v čem se p-dobně liší od náhodného AJ: statistical description, inference, population, sample, data, statistics, inference, parameters, random sample (sampling)

Statistiky a parametry Na vzorku (datech) počítáme statistiky Hodnotě statistiky v celé populaci říkáme parametr. Pro parametry používáme odpovídající písmena řecké abecedy např. průměr: statistika m, parametr μ (mí) další: σ (sigma), ρ (ró), A δ (delta - rozdíl) Statistiky jsou odhady parametrů tj. jsou vždy zatíženy chybou výběrovou chybou chyby náhodné umíme spočítat, známe-li výběrové rozložení chyby systematické nevhodné statistiky, špatné měření, špatný způsob výběru vzorku (metodologie) Jak dobré jsou tyto odhady? AJ: estimates, sampling error. random error, systematic error, sampling distribution

Výběrové rozložení a sm. chyba Spočítáme-li tutéž statistiku na mnoha nezávislých náhodných vzorcích získáme mnoho odhadů parametru tyto odhady mají nějaké rozložení říkáme mu výběrové rozložení Výběrové rozložení obvykle můžeme popsat průměrem směrodatnou odchylkou - smodchylce říkáme směrodatná chyba ((odhadu) parametru) nebo také střední chyba a obecněji i výběrová chyba Obecně platí, že čím je velikost vzorku/ů větší, tím je směrodatná chyba menší Ale jak je to přesně? AJ: sampling distribution, standard error (of the mean)

Výběrové rozložení (odhadu) průměru Odhad průměru má přibližně normální rozložení jehož průměr je μ se směrodatnou chybou Platí to i tehdy, když rozložení proměnné není normální. a to díky centrálnímu limitnímu teorému Jenomže my obvykle neznáme σ Neznáme-li σ, musíme použít s průměr zůstává μ směrodatná chyba je nyní. výběrové rozložení není normální, jde o Studentovo t -rozložení t -rozložení σ = se podobá normálnímu s těžšími konci (t je pro t-rozložení totéž, co z pro normální rozložení) má různé tvary pro různá n : stupně volnosti ν (ní) zde ν = n -1; čím vyšší n, tím se t-rozložení blíží normálnímu x s x = σ n s n AJ: central limit theorem, Student s t-distribution, degrees of freedom (d.f.)

Studentovo t -rozložení

Výběrové rozložení dalších statistik Nyní je tedy třeba ke každé popisné statistice znát ještě další vlastnost teoretické výběrové rozložení relativní četnost přibližně normální - Hendl 156 rozptyl po transformaci χ 2 -rozložení (chí kvadrát) - Hendl 159 Pearsonův korelační koeficient po Fisherově transformaci normální Hendl 252 Teoretická výběrová rozložení různých statistik jsou různá statistika je obvykle nějak transformována do podoby, která má jedno z následujících rozložení normální chí-kvadrát rozložení (Pearsonovo) t-rozložení (Studentovo) F-rozložení (Fisherovo, Snedecorovo) není třeba je znát z hlavy, programy je používají za vás pro interpretační potřeby si obvykle vystačíme s představou výběrového rozložení průměru Pozor, centrální limitní teorém se týká pouze výběrového rozložení průměru AJ: chi-square distribution, F-distribution

Bodové vs. intervalové odhady α je p-nost chyby a proto je hladina spolehlivosti 1-α, tj. 95% spolehlivost znamená 5% chybovost: (1-0,05) Parametr se můžeme snažit odhadnout bodovým odhadem tj. odhadujeme přímo hodnotu parametru, např. průměr. Kvalita bodového odhadu viz Hendl 169. intervalovým odhadem tj. odhadnutím intervalu, v němž se parametr s určitou p-ností vyskytuje výsledkem intervalového odhadu je interval spolehlivosti interval spolehlivosti tvoříme z bodového odhadu a znalosti jeho výběrového rozložení, tj. (bod±ochylka) intervalový odh. je lepší - obsahuje více informací CI = X té p-nosti se v tomto kontextu říká hladina spolehlivosti (1-α) typicky se používá 95% a 99% hladina spolehlivosti pak říkáme, že hledaný parametr je s 95% p-ností v intervalu spol. ( 1 α ) ± 1 α / 2 zσ X AJ: point estimate, interval estimate, confidence interval (CI), level of confidence, consistency, unbiasedness, relative efficiency, resistence

Příklad konstrukce intervalu spolehlivosti Na vzorku dětí (n=100) s různobarevnýma očima jsme spočítali průměrné IQ 130 a s =15. bodový odhad průměrného IQ v populaci dětí s různobarevnýma očima (tj. parametru, μ) je 130 intervalový odhad střed intervalu spolehlivosti bude na bodovém odhadu, tj. m víme, že výběrové rozložení průměru má t rozložení se stupni volnosti ν = n -1 = 99 zvolíme-li hladinu spolehlivosti 1-α =95%, pak v tabulkách (Excelu) zjistíme, že 95% rozložení je mezi hodnotami t=-2,276 a 2,276 (tj. 1-α/2 t (ν)= 0,975 t (99) = 2,276 excel: TINV(0,025;99)) směrodatná chyba odhadu průměru s m = s / n = 15/ 100 = 1,5 interval spolehlivosti = (m -2,276s m ; m + 2,276s m ) = (126,6 ; 133,4), tj. s 95% pravděpodobností 126,6 μ 133,4 pozor na tento rozdíl: ve středu intervalu je m, někde v intervalu je v 95% případů μ

Interpretace intervalu spolehlivosti je prostá, avšak zrádná 95% interval spolehlivosti znamená, že sestrojujeme-li tento interval dle výše uvedených instrukcí, v 95% případů sestrojení intervalu tento interval zahrnuje odhadovaný parametr, tj. v 95% případů je závěr, že μ je mezi čísly a a b, správný. V tomto smyslu to také znamená, že máme subjektivní 95% jistotu, že parametr je v námi určeném intervalu. V konkrétním případě, kdy jsme spočetli konkrétní interval spolehlivosti (126,6 μ 133,4), to neznamená, že v 95% případech je μ v intervalu od 126,6 do 133,4. To proto, že μ je konstanta; při opakovaných výzkumech se nemění. Díky omylnému výběru v každém výzkumu vychází poněkud jiný interval sestrojený podle jiného výběrového průměru. Jinými slovy, trefujeme se obručí na kolík a ne kolíkem do obruče. O čem tohle slovíčkaření je? O rozdílu mezi četnostním a subjektivním (Bayesovským) pojetím pravděpodobnosti.