Pokročilejší metody: výběr. Začínáme otázkami na povahu vysvětlované proměnné a končíme otázkami na povahu vysvětlujících proměnných

Podobné dokumenty
ANALÝZA DAT V R 7. KONTINGENČNÍ TABULKA. Mgr. Markéta Pavlíková Katedra pravděpodobnosti a matematické statistiky MFF UK.

Tomáš Karel LS 2012/2013

Regresní a korelační analýza

Statistické metody uţívané při ověřování platnosti hypotéz

Testování hypotéz a měření asociace mezi proměnnými

Regresní a korelační analýza

ANALÝZA DAT V R 5. ZÁKLADNÍ STATISTICKÉ TESTY. Mgr. Markéta Pavlíková Katedra pravděpodobnosti a matematické statistiky MFF UK.

4EK211 Základy ekonometrie

, Brno Hanuš Vavrčík Základy statistiky ve vědě

Tomáš Karel LS 2012/2013

Vzorová prezentace do předmětu Statistika

Testování hypotéz. 1. vymezení základních pojmů 2. testování hypotéz o rozdílu průměrů 3. jednovýběrový t-test

JEDNOVÝBĚROVÉ TESTY. Komentované řešení pomocí programu Statistica

ANALÝZA DAT V R 3. POPISNÉ STATISTIKY, NÁHODNÁ VELIČINA. Mgr. Markéta Pavlíková Katedra pravděpodobnosti a matematické statistiky MFF UK

Rozhodnutí / Skutečnost platí neplatí Nezamítáme správně chyba 2. druhu Zamítáme chyba 1. druhu správně

Jednofaktorová analýza rozptylu

Testování hypotéz o parametrech regresního modelu

Testování hypotéz o parametrech regresního modelu

Parametry hledáme tak, aby součet čtverců odchylek byl minimální. Řešením podle teorie je =

Obsah Úvod Kapitola 1 Než začneme Kapitola 2 Práce s hromadnými daty před analýzou

Mann-Whitney U-test. Znaménkový test. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek

STATISTICKÉ TESTY VÝZNAMNOSTI

Statgraphics v. 5.0 STATISTICKÁ INDUKCE PRO JEDNOROZMĚRNÁ DATA. Martina Litschmannová 1. Typ proměnné. Požadovaný typ analýzy

Sever Jih Západ Plechovka Točené Sever Jih Západ Součty Plechovka Točené Součty

4EK211 Základy ekonometrie

Intervalové odhady. Interval spolehlivosti pro střední hodnotu v N(µ, σ 2 ) Interpretace intervalu spolehlivosti. Interval spolehlivosti ilustrace

= = 2368

UNIVERZITA OBRANY Fakulta ekonomiky a managementu. Aplikace STAT1. Výsledek řešení projektu PRO HORR2011 a PRO GRAM

DVOUVÝBĚROVÉ A PÁROVÉ TESTY Komentované řešení pomocí programu Statistica

Intervalové odhady. Interval spolehlivosti pro střední hodnotu v N(µ, σ 2 ) Interpretace intervalu spolehlivosti. Interval spolehlivosti ilustrace

Testování statistických hypotéz

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Statistická analýza jednorozměrných dat

Jednovýběrový Wilcoxonův test a jeho asymptotická varianta (neparametrická obdoba jednovýběrového t-testu)

{ } ( 2) Příklad: Test nezávislosti kategoriálních znaků

5 Vícerozměrná data - kontingenční tabulky, testy nezávislosti, regresní analýza

IBM SPSS Exact Tests. Přesné analýzy malých datových souborů. Nejdůležitější. IBM SPSS Statistics

STATISTICKÉ PROGRAMY

STATISTICKÉ TESTY VÝZNAMNOSTI

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz

Jana Vránová, 3. lékařská fakulta UK

Statistika, Biostatistika pro kombinované studium. Jan Kracík

Základy počtu pravděpodobnosti a metod matematické statistiky

RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr.

1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.

Testy dobré shody Máme dvě veličiny, u kterých bychom chtěli prokázat závislost, TESTY DOBRÉ SHODY (angl. goodness-of-fit tests)

Cvičení 9: Neparametrické úlohy o mediánech

Jednostranné intervaly spolehlivosti

Testování hypotéz. Testování hypotéz o rozdílu průměrů t-test pro nezávislé výběry t-test pro závislé výběry

AVDAT Klasický lineární model, metoda nejmenších

Opakování. Neparametrické testy. Pořadí. Jednovýběrový Wilcoxonův test. t-testy: hypotézy o populačním průměru (střední hodnoty) předpoklad normality

Kategorická data METODOLOGICKÝ PROSEMINÁŘ II TÝDEN 7 4. DUBNA dubna 2018 Lukáš Hájek, Karel Höfer Metodologický proseminář II 1

Program Statistica Base 9. Mgr. Karla Hrbáčková, Ph.D.

TECHNICKÁ UNIVERZITA V LIBERCI

Ranní úvahy o statistice

Statistika. Testování hypotéz statistická indukce Neparametrické testy. Roman Biskup

RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr.

Úvodem Dříve les než stromy 3 Operace s maticemi

Bakalářské studium na MFF UK v Praze Obecná matematika Zaměření: Stochastika. 1 Úvodní poznámky. Verze: 13. června 2013

INDUKTIVNÍ STATISTIKA

Statistika (KMI/PSTAT)

TESTOVÁNÍ STATISTICKÝCH HYPOTÉZ ZÁKLADNÍ POJMY

Základy biostatistiky II. Veřejné zdravotnictví 3.LF UK - II

PRAVDĚPODOBNOST A STATISTIKA. Neparametrické testy hypotéz čast 1

Pravděpodobnost a aplikovaná statistika

Porovnání dvou výběrů

VYUŽITÍ SIMULACE PŘI MODELOVÁNÍ PROVOZU NA SVÁŽNÉM PAHRBKU SEŘAĎOVACÍ STANICE

Testování statistických hypotéz. Ing. Michal Dorda, Ph.D. 1

Název testu Předpoklady testu Testová statistika Nulové rozdělení. ( ) (p počet odhadovaných parametrů)

Cvičení ze statistiky - 9. Filip Děchtěrenko

Regresní analýza 1. Regresní analýza

Matematická statistika Zimní semestr

Excel mini úvod do kontingenčních tabulek

Analýza dat na PC I.

Tématické okruhy pro státní závěrečné zkoušky. bakalářské studium. studijní obor "Management jakosti"

Kontingenční tabulky v MS Excel 2010

PRAVDĚPODOBNOST A STATISTIKA

Návod na vypracování semestrálního projektu

Analýza rozptylu. Ekonometrie. Jiří Neubauer. Katedra kvantitativních metod FVL UO Brno kancelář 69a, tel

TECHNICKÁ UNIVERZITA V LIBERCI

Ilustrační příklad odhadu LRM v SW Gretl

10. cvičení z PST. 5. prosince T = (n 1) S2 X. (n 1) s2 x σ 2 q χ 2 (n 1) (1 α 2 ). q χ 2 (n 1) 2. 2 x. (n 1) s. x = 1 6. x i = 457.

6. Lineární regresní modely

5. Závislost dvou náhodných veličin různých typů (kategoriální a metrická veličina)

LEKCE 6 ZÁKLADY TESTOVÁNÍ HYPOTÉZ

Pohlédněte si základní charakteristiky polohy jednotlivých veličin pomocí funkce summary.

Grafický a číselný popis rozložení dat 3.1 Způsoby zobrazení dat Metody zobrazení kvalitativních a ordinálních dat Metody zobrazení kvan

Charakteristika datového souboru

Jednovýběrové testy. Komentované řešení pomocí MS Excel

1. Číselné posloupnosti - Definice posloupnosti, základní vlastnosti, operace s posloupnostmi, limita posloupnosti, vlastnosti limit posloupností,

Testování hypotéz. Testování hypotéz o rozdílu průměrů t-test pro nezávislé výběry t-test pro závislé výběry

Jednofaktorová analýza rozptylu

Tématické okruhy pro státní závěrečné zkoušky. bakalářské studium. studijní obor "Management jakosti"

STATISTICKÉ ODHADY Odhady populačních charakteristik

TESTOVÁNÍ HYPOTÉZ STATISTICKÁ HYPOTÉZA Statistické testy Testovací kritérium = B B > B < B B - B - B < 0 - B > 0 oboustranný test = B > B

Testování statistických hypotéz. Ing. Michal Dorda, Ph.D.

Zpracování náhodného vektoru. Ing. Michal Dorda, Ph.D.

Pearsonův korelační koeficient

Statistika. Semestrální projekt

Transkript:

Výběr metody Jak vybrat správnou statistickou metodu pro moje data a pro otázku, kterou si kladu Neexistuje žádná náhražka za zkušenost nejlepší metoda, jak vědět co dělat, je použít stejnou správnou metodu již mnohokrát předtím

Výběr metody Která z proměnných je vysvětlovaná proměnná (response variable) Kteréjsou vysvětlující proměnné (explanatory variables) Jsou vysvětlující proměnné kontinuální nebo kategorické, či jsou směsí obou Je vysvětlovaná proměnná kontinuální, kategorická, počty, poměry, doba do smrti?

Výběr metody Vystačím si s klasickými testy nebo potřebuji pokročilejší metody Klasickými testy se budeme zabývat v MSM I, pokročilými metodami v MSM II Nikdy nepoužíváme složitější metodu, než je metoda nezbytně nutná

Klasické metody Jednovýběrové testy průměrů (např. Studentův t- test) Dvouvýběrové testy průměrů (např. Wilcoxonův znaménkový test) Dvouvýběrové testy rozptylů (např. Fisherův F- test) Testy korelací (např. Spearmanův test pořadí) Analýza počtů pomocí kontingenčních tabulek (např. Fisherův exaktní test) Srovnání rozložení (např. Kolmogorov-Smirnovův test)

Pokročilejší metody: výběr Začínáme otázkami na povahu vysvětlované proměnné a končíme otázkami na povahu vysvětlujících proměnných

Vysvětlovaná proměnná Závisle proměnná, která se objevuje na ose y Její variabilitu se pokoušíme vysvětlit

Vysvětlující proměnná Objevuje se na ose x Zajímá nás, v jakém rozsahu jsou změny vysvětlující proměnné spojeny se změnami vysvětlované proměnné

Typy proměnných Kontinuální mohou nabývat jakékoli reálné hodnoty (výška, váha) Kategoriální faktory, které nabývají různé úrovně (např. pohlaví má dvě)

Všechno se mění Prostorově: každé místo je jiné Časově: vše stárne Jestliže měříme jednu věc dvakrát, v důsledku prostorové a časové heterogenity dostaneme pokaždé jinou hodnotu - jestliže měříme stejného jedince při jiné příležitosti, odpověď bude jiná, protože stárne; jestliže měříme ve stejném čase dva jedince, odpověď bude různá, protože jedinci se liší díky genetickým a environmentálním rozdílům

O čem je celá statistika: vše se mění Protože se všechno mění, samotný fakt, že každá věc je jiná, není vědecky zajímavý Ve statistice nám jde o odlišení obecné variability od variability, která je vysvětlitelná našimi proměnnými

O čem je celá statistika: vše se mění Klíčovým konceptem je velikost změny (variation), kterou můžeme očekávat čistě náhodou, aniž by se dělo něco vědecky zajímavého Je-li změna větší, než lze očekávat náhodou, říkáme, že změna je statisticky průkazná (significant)

O čem je celá statistika: vše se mění Zjistíme-li, že rozdíl není větší než lze očekávat náhodou, říkáme, že výsledek není statisticky průkazný To, že výsledek není statisticky průkazný, ale neznamená, že není důležitý (statisticky nevýznamné prodloužení života) statisticky neprůkazný (non-significant) není totéž co nedůležitý

O čem je celá statistika: vše se mění Ani z vědeckého pohledu statisticky neprůkazný rozdíl nemusí být nedůležitý může to být jen důsledek malého počtu opakování

Co je statistická průkaznost (significance) Je nepravděpodobné, že výsledek se objevil náhodou Přesněji, je nepravděpodobné, že výsledek se objevil náhodou, pokud platí naše nulová hypotéza

Co je nepravděpodobnost Událost je nepravděpodobná, jestliže se objeví v méně než 5% případů

Co je nulová a co je alternativní hypotéza Nulová hypotéza říká nic se nepřihodilo Alternativní hypotéza říká něco se přihodilo

Špatná a dobrá hypotéza podle Karl Poppera Dobrá hypotéza je taková, kterou lze zamítnout tedy taková, kterou lze usvědčit z nepravdivosti (falsifiable hypothesis) Přitom platí, že nepřítomnost důkazu není důkazem nepřítomnosti

Špatná a dobrá hypotéza podle Karl Poppera 1. V místním parku jsou supi 2. V místním parku nejsou supi

Hodnota p Hodnota p je odhad pravděpodobnosti, že za předpokladu platnosti nulové hypotézy se určitý výsledek mohl objevit náhodou (p < 0,001; p = 0,23) Říkáme, že s danou pravděpodobností p nezamítáme nulovou hypotézu

Hodnota p To, že s danou pravděpodobností p nezamítáme nulovou hypotézu, je něco úplně jiného než prohlášení nulová hypotéza je pravdivá Mohlo se nám nepodařit zamítnout nesprávnou nulovou hypotézu například proto, že jsme měli příliš malou velikost vzorku, nebo protože chyba měření byla příliš velká

Interpretace statistických modelů Můžeme zamítnout pravdivou nulovou hypotézu (chyba I. druhu) Můžeme akceptovat nepravdivou nulovou hypotézu (chyba II. druhu) Za předpokladu, že známe skutečný stav, lze interpretaci znázornit takto: Nulová hypotéza Přijata Skutečná situace Pravda Nepravda Správné rozhodnutí Chyba II. druhu Odmítnuta Chyba I. druhu Správné rozhodnutí

Statistické modelování Cílem statistického modelování je určit takové hodnoty parametrů specifikovaného modelu, která vedou k nejlepší shodě modelu s našimi daty Data nefitujeme modelem, ale naopak, model fitujeme daty

Statistické modelování Hledáme minimální adekvátní model, který popíše naše data To je model, který vede k minimální reziduální chybě modelu (nevysvětlené variabilitě dat) za předpokladu, že všechny parametry modelu jsou statisticky průkazné

Statistické modelování Minimální má být model z důvodu parsimonie (Ocamova břitva) Adekvátní proto, že nemáme žádný důvod fitovat parametry, které nevysvětlují průkaznou část variability dat

Statistické modelování Neexistuje jeden správný model Cílem modelování je nejprve určit, který z možných modelů je adekvátní A pak který z adekvátních modelů je minimální adekvátní (je možné, že takových modelů bude více)

(Pravidla jen tak mezi námi) (Všechny modely jsou špatné Některé modely jsou lepší než jiné Nikdy si nejsme jisti, že model je správný Čím je model jednodušší, tím je lepší)

Maximální věrohodnost (maximum likelihood) Tento pojem vyjadřuje, co míníme tím, že parametry modelu zajišťují nejlepší shodu (best fit) s daty Je to technika, která vede k nezaujatému (unbiased) odhadu, který minimalizuje rozptyl kolem odhadnuté hodnoty

Maximální věrohodnost: jak definuje nejlepší model Které hodnoty parametrů pro daná data a vybraný model činí pozorovaná data nejpravděpodobnější?

Datový rámec (data frame) Je specifický typ tabulky, ve kterém jsou všechny hodnoty dané proměnné v jednom sloupci Jde o strukturu podobnou matici, ale na rozdíl od matice, kde musí být všechny sloupce stejného typu, v datovém rámci mohou být v různých sloupcích hodnoty různého typu (číselné, abecední, faktory, logické)

rvní řádka bsahuje éno roměnné Datový rámec: příklad č. 1 Řádky jsou číslovány v prvním sloupci; tato čísla představují opakování Sloupce představují proměnné Číselná proměnná Faktor Logická proměnná

Datový rámec: příklad č. 2 Faktory jsou vyjádřeny úrovněmi a začínají jedničkou Názvy proměnných nesmí obsahovat mezeru Logické proměnné jsou popsány pomocí konvence 0 = NEPRAVDA 1 = PRAVDA Byla vynechána jmén řádek a tudíž bude použita konvence jméno řádky = její číslo

Příprava datových rámců Je účelné vytvářet a analyzovat data ve dvou krocích Řada lidí dává přednost vytvoření datového rámce v tabulkovém procesoru (obvykle Excel), pak teprve importuje data do S-Plus a analyzuje je v něm

Načítání dat do S-Plus Z menu: File Import data From File (nejčastěji) Pomocí funkce read.table; tato funkce načítá listy Excelu (a soubory vytvořené jiným softwarem), uložené jako tabdelimited text file (málo používané)

Funkce read.table Celá cesta a jméno souboru musí být ve dvojitých uvozovkách c:\\abc.txt header=t říká, že první řádka obsahuje jména proměnných V definici cesty se používá \\, nikoli \ Jméno proměnné se přiřazuje pomocí <- nebo _ worms<-read.table( c:\\abc.txt, header=t)

Příkaz attach a names Příkaz attach činí data přístupná pro náš běh programu Příkaz names ukáže názvy proměnných attach(abc) names(abc)