STATISTIKA VĚDA O USUZOVÁNÍ NA ZÁKLADĚ DAT. Patrícia Martinková Ústav informatiky AV ČR

Podobné dokumenty
Statistika, Biostatistika pro kombinované studium Letní semestr 2011/2012. Tutoriál č. 4: Exploratorní analýza. Jan Kracík

Zápočtová práce STATISTIKA I

Me neˇ nezˇ minimum ze statistiky Michaela S ˇ edova KPMS MFF UK Principy medicı ny zalozˇene na du kazech a za klady veˇdecke prˇı pravy 1 / 33

Charakteristika datového souboru


Analýza dat na PC I.

Všechno, co jste chtěli vědět z teorie pravděpodobnosti, z teorie informace a

Statistika s Excelem aneb Máme data. A co dál? Martina Litschmannová Katedra aplikované matematiky, FEI, VŠB-TU Ostrava

AKTIVNÍ ZAPOJOVÁNÍ STUDENTŮ DO VÝUKY STATISTIKY A PSYCHOMETRIE: ZKUŠENOSTI Z USA

Statistická analýza dat v psychologii. Věci, které můžeme přímo pozorovat, jsou téměř vždy pouze vzorky. Alfred North Whitehead

Statistika. Diskrétní data. Spojitá data. Charakteristiky polohy. Charakteristiky variability

Základy pravděpodobnosti a statistiky. Popisná statistika

Popisná statistika. Statistika pro sociology

Intervalové odhady. Interval spolehlivosti pro střední hodnotu v N(µ, σ 2 ) Interpretace intervalu spolehlivosti. Interval spolehlivosti ilustrace

Testování statistických hypotéz

Úvod do kurzu. Moodle kurz. (a) (b) heslo pro hosty: statistika (c) skripta na pravděpodobnost

Intervalové odhady. Interval spolehlivosti pro střední hodnotu v N(µ, σ 2 ) Interpretace intervalu spolehlivosti. Interval spolehlivosti ilustrace

POPISNÁ STATISTIKA Komentované řešení pomocí programu Statistica

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz

veličin, deskriptivní statistika Ing. Michael Rost, Ph.D.

Intervalové Odhady Parametrů

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

PSY117/454 Statistická analýza dat v psychologii přednáška 8. Statistické usuzování, odhady

UNIVERZITA OBRANY Fakulta ekonomiky a managementu. Aplikace STAT1. Výsledek řešení projektu PRO HORR2011 a PRO GRAM

Cvičení ze statistiky - 8. Filip Děchtěrenko

KGG/STG Statistika pro geografy

Otázky k měření centrální tendence. 1. Je dáno rozložení, ve kterém průměr = medián. Co musí být pravdivé o tvaru tohoto rozložení?

Parametrické testy hypotéz o středních hodnotách spojitých náhodných veličin

Vzorová prezentace do předmětu Statistika

Intervalové Odhady Parametrů II Testování Hypotéz

Metody sociálních výzkumů. Velmi skromný úvod do statistiky. Motto: Jsou tři druhy lži-lež prostá, lež odsouzeníhodná a statistika.

, Brno Hanuš Vavrčík Základy statistiky ve vědě

Základy biostatistiky II. Veřejné zdravotnictví 3.LF UK - II

Zpracování náhodného výběru. Ing. Michal Dorda, Ph.D.

Mgr. Karla Hrbáčková, Ph.D. Základy kvantitativního výzkumu

Parametrické testy hypotéz o středních hodnotách spojitých náhodných veličin

JEDNOVÝBĚROVÉ TESTY. Komentované řešení pomocí programu Statistica

Inferenční statistika - úvod. z-skóry normální rozdělení pravděpodobnost rozdělení výběrových průměrů

Přednáška 5. Výběrová šetření, Exploratorní analýza

Co je to statistika? Úvod statistické myšlení. Základy statistického hodnocení výsledků zkoušek. Petr Misák

Základy popisné statistiky

Matematika III. 27. listopadu Vysoká škola báňská - Technická univerzita Ostrava. Matematika III

ANALÝZA DAT V R 2. POPISNÉ STATISTIKY. Mgr. Markéta Pavlíková Katedra pravděpodobnosti a matematické statistiky MFF UK.

Statistické metody - nástroj poznání a rozhodování anebo zdroj omylů a lží

Lékařská biofyzika, výpočetní technika I. Biostatistika Josef Tvrdík (doc. Ing. CSc.)

Popisná statistika. Komentované řešení pomocí MS Excel

Základy popisné statistiky. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek

STATISTIKA S EXCELEM. Martina Litschmannová MODAM,

Protokol č. 1. Tloušťková struktura. Zadání:

Popisná statistika. úvod rozdělení hodnot míry centrální tendence míry variability míry šikmosti a špičatosti grafy

Statistika pro geografy

Tomáš Karel LS 2012/2013

VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ. FAKULTA STROJNÍHO INŽENÝRSTVÍ Ústav materiálového inženýrství - odbor slévárenství

23. Matematická statistika

Charakteristiky kategoriálních veličin. Absolutní četnosti (FREQUENCY)

Praktická statistika. Petr Ponížil Eva Kutálková

Testování hypotéz. 1. vymezení základních pojmů 2. testování hypotéz o rozdílu průměrů 3. jednovýběrový t-test

Normální (Gaussovo) rozdělení

Návrh a vyhodnocení experimentu

Jednostranné intervaly spolehlivosti

MATEMATICKÁ STATISTIKA. Katedra matematiky a didaktiky matematiky Technická univerzita v Liberci

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Testy statistických hypotéz

TECHNICKÁ UNIVERZITA V LIBERCI. Ekonomická fakulta. Semestrální práce. Statistický rozbor dat z dotazníkového šetření školní zadání

RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr.

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Určujeme neznámé hodnoty parametru základního souboru. Pomocí výběrové charakteristiky vypočtené z náhodného výběru.

Statistika. Program R. popisná (deskriptivní) statistika popis konkrétních dat. induktivní (konfirmatorní) statistika. popisná statistika

Úvod do statistické metodologie

Testování statistických hypotéz. Ing. Michal Dorda, Ph.D.

LEKCE 5 STATISTICKÁ INFERENCE ANEB ZOBECŇOVÁNÍ VÝSLEDKŮ Z VÝBĚROVÉHO NA ZÁKLADNÍ SOUBOR

Lineární regrese. Komentované řešení pomocí MS Excel

Pojem a úkoly statistiky

Pravděpodobnost a statistika, Biostatistika pro kombinované studium. Tutoriál č. 5: Bodové a intervalové odhady, testování hypotéz.

Obsah. Statistika Zpracování informací ze statistického šetření Charakteristiky úrovně, variability a koncentrace kvantitativního znaku

2. Základní typy dat Spojitá a kategoriální data Základní popisné statistiky Frekvenční tabulky Grafický popis dat

STATISTIKA A INFORMATIKA - bc studium OZW, 1.roč. (zkušební otázky)

STATISTICKÉ ODHADY Odhady populačních charakteristik

7. SEMINÁŘ DESKRIPTIVNÍ STATISTIKA

ÚVOD DO TEORIE ODHADU. Martina Litschmannová

TEST Z TEORIE EXPLORAČNÍ ANALÝZA DAT

4. Zpracování číselných dat

Náhodná proměnná. Náhodná proměnná může mít rozdělení diskrétní (x 1. , x 2. ; x 2. spojité (<x 1

TECHNICKÁ UNIVERZITA V LIBERCI

Stručný úvod do testování statistických hypotéz

Induktivní statistika. z-skóry pravděpodobnost

Statistika. cílem je zjednodušit nějaká data tak, abychom se v nich lépe vyznali důsledkem je ztráta informací!

Vybraná rozdělení náhodné veličiny

Číselné charakteristiky

Testování hypotéz. testujeme (většinou) tvrzení o parametru populace. tvrzení je nutno předem zformulovat

Katedra matematické analýzy a aplikací matematiky, Přírodovědecká fakulta, UP v Olomouci

Základy biostatistiky

Tabulka 1. Výběr z datové tabulky

AKM CVIČENÍ. Opakování maticové algebry. Mějme matice A, B regulární, potom : ( AB) = B A

Jak nelhat se statistikou? Martina Litschmannová Katedra aplikované matematiky, FEI, VŠB-TU Ostrava

Lékařská biofyzika, výpočetní technika I. Biostatistika Josef Tvrdík (doc. Ing. CSc.)

Normální (Gaussovo) rozdělení

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Transkript:

STATISTIKA VĚDA O USUZOVÁNÍ NA ZÁKLADĚ DAT Patrícia Martinková Ústav informatiky AV ČR martinkova@cs.cas.cz www.cs.cas.cz/martinkova 1.LF UK, 22. a 30. března 2017

Motivace 1 Velké množství (medicínských i jiných) dat je sbíráno každý den Více je uplatňovaná tzv. Evidence based medicine Medik tohoto století se neobejde bez znalosti metod analýzy dat: - Pro porozumění odborným článkům - Pro kvalitní sběr vlastních dat - Pro dobrou komunikaci se statistikem, který pomůže data analyzovat - Pro samostatnou analýzu dat a interpretaci výsledků Znalost statistických metod je pro Vás důležitá!

Obsah (požadavky k zápočtu) 2 Popisná statistika kategorická a numerická data četnosti (absolutní, relativní, kumulativní) aritmetický průměr, rozptyl, směrodatná odchylka medián, modus, kvartil, percentil, krabicový graf grafická a tabulková prezentace statistických dat, histogram Induktivní statistika náhodný výběr, náhodný jev rozdělení pravděpodobnosti (binomické, normální /Gaussovo) intervalový odhad testování hypotéz (princip a význam).

Zdroje pro tuto přednášku 3 Jana Zvárová: Biomedicínská statistika I. Základy statistiky pro biomedicínské obory. Karolinum, 2016. Karel Zvára: Biostatistika. Karolinum, 2008. Karel Zvára: Biomedicínská statistika IV. Základy statistiky v prostředí R. Karolinum, 2013. Software: - Leccos lze spočítat v Excelu - $tatistica, $P$$, $A$,... - Statistické prostředí R

1. Popisná statistika

Popisná statistika 5 Účel: popsat daný soubor dat Číselně: průměr, směrodatná odchylka minimum, maximum medián, kvartily absolutní a relativní četnosti Graficky: výsečový ( koláčový ) graf sloupcový graf histogram dvourozměrný (x-y) graf (scatter plot)

Absolutní a relativní četnost (krevní skupina) 6 n A =? p A =? A A 0 AB B 0 B A 0 AB 0 A

Absolutní a relativní četnost (krevní skupina) 7 n A = 4 p A = 4 12 = 0.33 A A 0 AB B 0 B A 0 AB 0 A

8 Aritmetický průměr (výška) x = (165 + 176 + 152 + 194 + 171) / 5 = 171,6 x = i x i N 165 cm 176 cm 152 cm 194 cm 171 cm

Směrodatná odchylka (výška) 9 sd = i (x i x) 2 n 1 = 15,4 cm sd x 165 cm 176 cm 152 cm 194 cm 171 cm

Minimum (výška) 10 152 cm 165 cm 171 cm 176 cm 194 cm

Maximum (výška) 11 152 cm 165 cm 171 cm 176 cm 194 cm

Medián (výška) 12 Prostřední pozorování: Polovina dat je menších, Polovina větších 152 cm 165 cm 171 cm 176 cm 194 cm Pozn.: Pokud sudý počet, uvažuje se průměr prostředních dvou hodnot

Příklad: Pět mužů ze Seattlu 13 Pět mužů popíjí kávu v kavárně v Seattlu. Jejich roční příjmy jsou 19, 20, 24, 25 a 27 tisíc USD. Jaký je jejich průměrný příjem? Jaký je medián jejich příjmu?

Příklad: Pět mužů ze Seattlu 14 Pět mužů popíjí kávu v kavárně v Seattlu. Jejich roční příjmy jsou 19, 20, 24, 25 a 27 tisíc USD. Jaký je jejich průměrný příjem? (19+20+24+25+27)/5 = 23 tisíc USD Jaký je medián jejich příjmu? 24 tisíc USD

Příklad: Pět mužů ze Seattlu 15 Pět mužů ze Seattlu popíjí kávu v kavárně. Jejich roční příjmy jsou 19, 20, 24, 25 a 27 tisíc USD. Jaký je jejich průměrný příjem? Jaký je medián jejich příjmu?

Příklad: Pět mužů ze Seattlu... a Bill Gates 16 Pět mužů popíjí kávu v kavárně v Seattlu. Jejich roční příjmy jsou 19, 20, 24, 25 a 27 tisíc USD. Vejde Bill Gates, jehož roční příjem je 719885 tisíc USD. Jaký je nyní průměrný příjem těchto šesti mužů? Jaký je medián jejich příjmu?

Příklad: Pět mužů ze Seattlu... a Bill Gates 17 Pět mužů popíjí kávu v kavárně v Seattlu. Jejich roční příjmy jsou 19, 20, 24, 25 a 27 tisíc USD. Vejde Bill Gates, jehož roční příjem je 719885 tisíc USD. Jaký je nyní průměrný příjem těchto šesti mužů? (19+20+24+25+27+ 719885)/6= 72000/6 = =120 000 tisíc USD Jaký je medián jejich příjmu? 24 tisíc USD Kdy dáte přednost mediánu před průměrem?

Pozn. Kvartil odděluje čtvrtinu dat od zbylých tří čtvrtin Grafická interpretace (věk při prvním porodu) 18 Příklad Uvažujme věky 11 matek při prvním porodu: 19, 25, 23, 28, 20, 24, 23, 21, 26, 22, 22 Krabicový graf znázorňuje: Maximum: Horní kvartil: Medián: Dolní kvartil: Minimum:

Grafická interpretace (věk při prvním porodu) 19 Věky 11 matek při prvním porodu seřazené vzestupně: 19, 20, 21, 22, 22, 23, 23, 24, 25, 26, 28 Krabicový graf znázorňuje: Maximum: 28 let Horní kvartil: 24,5 let Medián: 23 let Dolní kvartil: 21,5 let Minimum: 19 let Pozn. Kvartil odděluje čtvrtinu dat od zbylých tří čtvrtin

Krabicový graf 20 Odhalte chybu v datech Pozn.: Body jsou tzv. odlehlá pozorování

Histogram (počet sourozenců) 21 Jak by vypadal histogram porodní délky dětí?

Koláčový graf 22 Vhodné pro znázornění frekvence kategoriálních dat (procenta se sčítají na 100%)

Bar plot 23 Vhodný i když se procenta nesčítají na 100%

Příklady špatných grafů 24

Příklady špatných/klamných grafů 25

Příklady špatných/klamných grafů 26

Příklady špatných/klamných grafů 27

Příklady špatných/klamných grafů 28

DOTAZY? Popisná statistika - Shrnutí 29 Úkolem je popsat daný datový soubor Důležité je zvolit vhodný způsob popisu dat - Kategoriální data: - Tabulka absolutních a relativních četností - Koláčový graf - Numerická data: - Průměr, směrodatná odchylka - Minimum, maximum, kvartily, medián - Krabicový graf - Histogram

2. Induktivní statistika POZOR!!! O DOST NÁROČNĚJŠÍ!!!

Motivace: Validizační studie HCI testu 31 - Dosahují starší studenti (graduate) lepších výsledků než mladší? - Zlepší se studenti po výuce homeostázy? - Je toto zlepšení větší, než u studentů bez výuky homeostázy? (McFarland, Price, Wenderoth, Martinkova et al, CBE LSE, in press) http://physiologyconcepts.org/

Motivace: Validizační studie HCI testu 32 - Dosahují studenti biologických oborů lepších výsledů? - Jaký vliv má typ instituce? (McFarland, Price, Wenderoth, Martinkova et al, CBE LSE, in press)

Induktivní statistika (také statistická inference ) 33 Cíl: Zobecnění závěrů z výběru na celou populaci Populace - soubor všech jednotek (osob, zvířat, ) splňujících dané podmínky - zpravidla není celý dostupný - bývá příliš velký Výběr - část populace, u níž se sbírají data - měl by být reprezentativní POZOR: Každý zobecňující závěr o populaci učiněný na základě výběrových dat je nutně zatížen nejistotou

2. Induktivní statistika 2a: Výběr

Výběr měl by být reprezentativní 35 Odstrašující příklad 1: Hodnocení lékaře Tzv. Voluntary response sample Řešení: např. zadat anketu všem pacientům daného lékaře

Výběr měl by být reprezentativní 36 Odstrašující příklad 2: Porovnání skupin - Experimentální skupina: - Náhodný výběr nemocných nemocí XY (Pozn.: jeden lékařův příbuzný má také nemoc XY) - Kontrolní skupina: - Zdraví jedinci, většinou příbuzní a známí lékaře

Výběr měl by být reprezentativní 37 Strategie náhodného výběru: - Prostý náhodný výběr (simple random sample) - Stratifikovaný výběr (stratified sample) - Klastrový výběr (cluster sample) - Zajistěte náhodný výběr, pokud to jen trochu je možné! - Pokud to není možné, popište výběr, nenáhodnost uveďte jako limitaci studie.

Charakteristiky populace a výběru 38

2. Induktivní statistika 2b: Rozdělení výběrového průměru

Rozdělení výběrového průměru 40 Abychom mohli činit z výběrového průměru závěry o populačním průměru, potřebujeme vědět, jak se výběrový průměr chová (jaké má rozdělení).

Rozdělení výběrového průměru 41 Abychom mohli činit z výběrového průměru závěry o populačním průměru, potřebujeme vědět, jak se výběrový průměr chová (jaké má rozdělení). Platí (tzv. Centrální limitní věta): Průměr z náhodného výběru o (dostatečné) velikosti n má přibližně normální rozdělení, a to - se stejným průměrem - s rozptylem n-krát menším Pozn.: Původní rozdělení ani nemusí být normální! Skvělá věc, jelikož o normálním rozdělení toho hodně víme!

Příklad: průměrné skóre z Quizu č. 3 42 Výběr o velikosti n = 1 - Histogram podobný histogramu původních skóre

Příklad: průměrné skóre z Quizu č. 3 43 Výběr o velikosti n = 1 - Histogram podobný histogramu původních skóre Výběr o velikosti n = 9 - Histogram je - Více symetrický - S menším rozptylem

Příklad: průměrné skóre z Quizu č. 3 44 Výběr o velikosti n = 1 - Histogram podobný histogramu původních skóre Výběr o velikosti n = 9 - Histogram je - Více symetrický - S menším rozptylem Výběr o velikosti n = 25 - Histogram je - Ještě více podobný normálnímu - S ještě menším rozptylem

Rozdělení výběrového průměru 45 Platí (tzv. Centrální limitní věta): Průměr náhodného výběru o (dostatečné) velikosti n má přibližně normální rozdělení: x ~ N(μ, σ2 n ) - se stejným průměrem - s rozptylem n-krát menším To je skvělá věc, jelikož o normálním rozdělení toho hodně víme:

2. Induktivní statistika 2c: Konfidenční interval

Bodový odhad vs. Intervalový odhad 47 Jak odhadnout populační průměr? Pomocí výběrového průměru: (Bodový odhad) - Jako bychom házeli šíp - Nejspíš mineme

Bodový odhad vs. Intervalový odhad 48 Jak odhadnout populační průměr? Pomocí výběrového průměru: (Bodový odhad) - Jako bychom házeli šíp - Nejspíš mineme Pomocí konfidenčního intervalu: (intervalový odhad) - Jako bychom házeli síť - Nejspíš rybu chytíme! Teď se naučíme házet síť!

Intervalový odhad (Skóre z testu č. 3) 49 Úkol: Na základě náhodného výběru o velikosti n=9 studentů spočtěte 95% konfidenční interval pro populační průměr. Prozradím Vám, že populační směrodatná odchylka je σ = 27. 1. Střed intervalu: x = (Váš výběrový průměr) 2. Poloměr 2 σ = (pro všechny stejný!) n 3. Dolní mez intervalu: x 2 σ = n Horní mez intervalu: x + 2 σ n = 4. Závěr: Jsem si z 95% jistý, že skutečná hodnota populačního průměru skóre z testu č. 3 leží v intervalu.

Intervalový odhad (Skóre z testu č. 3) 50 Úkol: Na základě náhodného výběru o velikosti n=9 studentů spočtěte 95% konfidenční interval pro populační průměr. Prozradím Vám, že populační směrodatná odchylka je σ = 27. 1. Střed intervalu: x = 85.0 (Váš) 2. Poloměr 2 σ = 2 27 = 18 (Pro všechny stejný!) n 9 3. Dolní mez intervalu: x 2 σ = 85.0 18 = 67 n Horní mez intervalu: x + 2 σ = 85.0 + 18 = 103 n 4. Závěr: Jsem si z 95% jistý, že skutečná hodnota populačního průměru skóre z testu č. 3 leží v intervalu (67, 103).

na 95% jistý... 51 Správně řečeno: V 95% případů, kdy budeme dělat náhodný výběr o stejné velikosti (n = 9) z této populace, náš interval pokryje skutečnou hodnotu populačního průměru: - Představte si, že mnohokrát provedeme výběr o velikosti n = 9 a spočítáme interval s využitím rovnice x ± 2 σ n - Pak přibližně v 95% případů tyto intervaly pokryjí skutečný populační průměr μ Zkuste si: https://jrnold.shinyapps.io/connt/

Intervalový odhad (Skóre z testu č. 3) 52... a nyní Vám prozradím, že skutečný populační průměr z testu byl 75.5 Pokrývá Váš konfidenční interval tuto hodnotu? 1. Ano, můj konfidenční interval pokrývá hodnotu 75.5 2. Ne, můj konfidenční interval nepokrývá hodnotu 75.5 Kolik z vás odpoví Ne?

Intervalový odhad 53 - Jaký bude konfidenční interval při větším vzorku? - Užší nebo širší? - Který konfidenční interval bude užší - 95% nebo 99%?

2. Induktivní statistika 2d: Testování hypotéz

Testování hypotéz (Příklad Skóre z testu ) 55 Někdo Vám tvrdí, že (populační) průměrné skóre z testu je 89bodů. Chcete to otestovat. Hypotéza (tzv. nulová hypotéza) H 0 : μ = 89

Testování hypotéz (Příklad Skóre z testu ) 56 Někdo Vám tvrdí, že (populační) průměrné skóre z testu je 89bodů. Chcete to otestovat. Hypotéza (tzv. nulová hypotéza) H 0 : μ = 89 Chcete, aby tzv chyba I. druhu, tj. to že hypotézu zamítnete, když přitom platí, byla malá, <0.05

Testování hypotéz (Příklad Skóre z testu ) 57 Někdo Vám tvrdí, že (populační) průměrné skóre z testu je 89bodů. Chcete to otestovat. Hypotéza (tzv. nulová hypotéza) H 0 : μ = 89 Chcete, aby tzv chyba I. druhu, tj. to že hypotézu zamítnete, když přitom platí, byla malá, <0.05 Za tím účelem jste se dotázali náh. výběru 9 studentů, průměr jejich skóre je x = 70. Již víte, že populační směrodatná odchylka je 27. Co lze o populačním skóre říci?

Testování hypotéz (Příklad Skóre z testu ) 58 Pokud toto tvrzení (tzv. nulová hypotéza: H 0 : μ = 89) platí, pak x má rozdělení:

Testování hypotéz (Příklad Skóre z testu ) 59 Pokud toto tvrzení (tzv. nulová hypotéza: H 0 : μ = 89) platí, pak x má rozdělení: p hodnota: Jak je pravděpodobný tento výsledek (70) nebo výsledek víc svědčící proti H 0 ( horší výsledek)? p<0.05, takže zamítáme H 0.

Testování hypotéz ( Skóre z testu )... jinak 60 1. Zformulujte tzv. nulovou hypotézu: H 0 : μ = 89 tzv. alternativní hypotézu: H 1 : μ 89 2. Spočtěte z dat testovou statistiku Z = x μ σ x = 70 89 27 9 = -2.11 ta má za platnosti H 0 normální rozdělení s nulovou střední hodnotou a rozptylem rovným jedné.

Testování hypotéz ( Skóre z testu )... jinak 61 1. Zformulujte tzv. nulovou hypotézu: H 0 : μ = 89 tzv. alternativní hypotézu: H 1 : μ 89 2. Spočtěte z dat testovou statistiku Z = x μ σ x = 70 89 27 9 = -2.11 ta má za platnosti H 0 normální rozdělení s nulovou střední hodnotou a rozptylem rovným jedné. 3. Porovnejte s kritickou hodnotou, zde 1.96 (přibližně 2). Hodnota testové statistiky je v absolutní hodnotě větší než 1.96, tudíž na 5% hladině zamítáme H 0.

Testování hypotéz ( Skóre z testu ) 62 Ještě jinak: - Zamítnutí H 0 : μ = 89 na hladině 5% souvisí s tím, že 95% konfidenční interval je (52, 88), tj. nepokrývá hodnotu 89. Poznámka: - Pro větší n by byl konfidenční interval užší a při stejném x by evidence proti H 0 byla silnější. (p hodnota by byla ještě menší)

Další testy 63 - (Jednovýběrový) t test v případě neznámé populační směrodatné odchylky - Dvouvběrový t test v případě porovnávání průměru dvou skupin - F test analýzy rozptylu pro porovnání průměru více skupin, aj.... PRINCIP TESTOVÁNÍ JE ALE STÁLE STEJNÝ

3. Závěr

Obsah (požadavky k zápočtu) 65 Popisná statistika kategorická a numerická data četnosti (absolutní, relativní, kumulativní) aritmetický průměr, rozptyl, směrodatná odchylka medián, modus, kvartil, percentil, krabicový graf grafická a tabulková prezentace statistických dat, histogram Induktivní statistika náhodný výběr, náhodný jev rozdělení pravděpodobnosti (binomické, normální /Gaussovo) intervalový odhad testování hypotéz (princip a význam).

Zdroje pro tuto přednášku 66 Jana Zvárová: Biomedicínská statistika I. Základy statistiky pro biomedicínské obory. Karolinum, 2016. Karel Zvára: Biostatistika. Karolinum, 2008. Karel Zvára: Biomedicínská statistika IV. Základy statistiky v prostředí R. Karolinum, 2013. Software: - Leccos lze spočítat v Excelu - $tatistica, $P$$, $A$,... - Statistické prostředí R

Děkuji za pozornost! martinkova@cs.cas.cz www.cs.cas.cz/martinkova/