Pokročilejší metody: výběr. Začínáme otázkami na povahu vysvětlované proměnné a končíme otázkami na povahu vysvětlujících proměnných

HTML
DOWNLOAD

Rozměr: px

Začít zobrazení ze stránky:

Download "Pokročilejší metody: výběr. Začínáme otázkami na povahu vysvětlované proměnné a končíme otázkami na povahu vysvětlujících proměnných"

Anna Svobodová
před 6 lety
Počet zobrazení:

1 Výběr metody Jak vybrat správnou statistickou metodu pro moje data a pro otázku, kterou si kladu Neexistuje žádná náhražka za zkušenost nejlepší metoda, jak vědět co dělat, je použít stejnou správnou metodu již mnohokrát předtím

2 Výběr metody Která z proměnných je vysvětlovaná proměnná (response variable) Kteréjsou vysvětlující proměnné (explanatory variables) Jsou vysvětlující proměnné kontinuální nebo kategorické, či jsou směsí obou Je vysvětlovaná proměnná kontinuální, kategorická, počty, poměry, doba do smrti?

3 Výběr metody Vystačím si s klasickými testy nebo potřebuji pokročilejší metody Klasickými testy se budeme zabývat v MSM I, pokročilými metodami v MSM II Nikdy nepoužíváme složitější metodu, než je metoda nezbytně nutná

4 Klasické metody Jednovýběrové testy průměrů (např. Studentův t- test) Dvouvýběrové testy průměrů (např. Wilcoxonův znaménkový test) Dvouvýběrové testy rozptylů (např. Fisherův F- test) Testy korelací (např. Spearmanův test pořadí) Analýza počtů pomocí kontingenčních tabulek (např. Fisherův exaktní test) Srovnání rozložení (např. Kolmogorov-Smirnovův test)

5 Pokročilejší metody: výběr Začínáme otázkami na povahu vysvětlované proměnné a končíme otázkami na povahu vysvětlujících proměnných

6 Vysvětlovaná proměnná Závisle proměnná, která se objevuje na ose y Její variabilitu se pokoušíme vysvětlit

7 Vysvětlující proměnná Objevuje se na ose x Zajímá nás, v jakém rozsahu jsou změny vysvětlující proměnné spojeny se změnami vysvětlované proměnné

8 Typy proměnných Kontinuální mohou nabývat jakékoli reálné hodnoty (výška, váha) Kategoriální faktory, které nabývají různé úrovně (např. pohlaví má dvě)

9 Všechno se mění Prostorově: každé místo je jiné Časově: vše stárne Jestliže měříme jednu věc dvakrát, v důsledku prostorové a časové heterogenity dostaneme pokaždé jinou hodnotu - jestliže měříme stejného jedince při jiné příležitosti, odpověď bude jiná, protože stárne; jestliže měříme ve stejném čase dva jedince, odpověď bude různá, protože jedinci se liší díky genetickým a environmentálním rozdílům

10 O čem je celá statistika: vše se mění Protože se všechno mění, samotný fakt, že každá věc je jiná, není vědecky zajímavý Ve statistice nám jde o odlišení obecné variability od variability, která je vysvětlitelná našimi proměnnými

11 O čem je celá statistika: vše se mění Klíčovým konceptem je velikost změny (variation), kterou můžeme očekávat čistě náhodou, aniž by se dělo něco vědecky zajímavého Je-li změna větší, než lze očekávat náhodou, říkáme, že změna je statisticky průkazná (significant)

12 O čem je celá statistika: vše se mění Zjistíme-li, že rozdíl není větší než lze očekávat náhodou, říkáme, že výsledek není statisticky průkazný To, že výsledek není statisticky průkazný, ale neznamená, že není důležitý (statisticky nevýznamné prodloužení života) statisticky neprůkazný (non-significant) není totéž co nedůležitý

13 O čem je celá statistika: vše se mění Ani z vědeckého pohledu statisticky neprůkazný rozdíl nemusí být nedůležitý může to být jen důsledek malého počtu opakování

14 Co je statistická průkaznost (significance) Je nepravděpodobné, že výsledek se objevil náhodou Přesněji, je nepravděpodobné, že výsledek se objevil náhodou, pokud platí naše nulová hypotéza

15 Co je nepravděpodobnost Událost je nepravděpodobná, jestliže se objeví v méně než 5% případů

16 Co je nulová a co je alternativní hypotéza Nulová hypotéza říká nic se nepřihodilo Alternativní hypotéza říká něco se přihodilo

17 Špatná a dobrá hypotéza podle Karl Poppera Dobrá hypotéza je taková, kterou lze zamítnout tedy taková, kterou lze usvědčit z nepravdivosti (falsifiable hypothesis) Přitom platí, že nepřítomnost důkazu není důkazem nepřítomnosti

18 Špatná a dobrá hypotéza podle Karl Poppera 1. V místním parku jsou supi 2. V místním parku nejsou supi

19 Hodnota p Hodnota p je odhad pravděpodobnosti, že za předpokladu platnosti nulové hypotézy se určitý výsledek mohl objevit náhodou (p < 0,001; p = 0,23) Říkáme, že s danou pravděpodobností p nezamítáme nulovou hypotézu

20 Hodnota p To, že s danou pravděpodobností p nezamítáme nulovou hypotézu, je něco úplně jiného než prohlášení nulová hypotéza je pravdivá Mohlo se nám nepodařit zamítnout nesprávnou nulovou hypotézu například proto, že jsme měli příliš malou velikost vzorku, nebo protože chyba měření byla příliš velká

21 Interpretace statistických modelů Můžeme zamítnout pravdivou nulovou hypotézu (chyba I. druhu) Můžeme akceptovat nepravdivou nulovou hypotézu (chyba II. druhu) Za předpokladu, že známe skutečný stav, lze interpretaci znázornit takto: Nulová hypotéza Přijata Skutečná situace Pravda Nepravda Správné rozhodnutí Chyba II. druhu Odmítnuta Chyba I. druhu Správné rozhodnutí

22 Statistické modelování Cílem statistického modelování je určit takové hodnoty parametrů specifikovaného modelu, která vedou k nejlepší shodě modelu s našimi daty Data nefitujeme modelem, ale naopak, model fitujeme daty

23 Statistické modelování Hledáme minimální adekvátní model, který popíše naše data To je model, který vede k minimální reziduální chybě modelu (nevysvětlené variabilitě dat) za předpokladu, že všechny parametry modelu jsou statisticky průkazné

24 Statistické modelování Minimální má být model z důvodu parsimonie (Ocamova břitva) Adekvátní proto, že nemáme žádný důvod fitovat parametry, které nevysvětlují průkaznou část variability dat

25 Statistické modelování Neexistuje jeden správný model Cílem modelování je nejprve určit, který z možných modelů je adekvátní A pak který z adekvátních modelů je minimální adekvátní (je možné, že takových modelů bude více)

26 (Pravidla jen tak mezi námi) (Všechny modely jsou špatné Některé modely jsou lepší než jiné Nikdy si nejsme jisti, že model je správný Čím je model jednodušší, tím je lepší)

27 Maximální věrohodnost (maximum likelihood) Tento pojem vyjadřuje, co míníme tím, že parametry modelu zajišťují nejlepší shodu (best fit) s daty Je to technika, která vede k nezaujatému (unbiased) odhadu, který minimalizuje rozptyl kolem odhadnuté hodnoty

28 Maximální věrohodnost: jak definuje nejlepší model Které hodnoty parametrů pro daná data a vybraný model činí pozorovaná data nejpravděpodobnější?

29 Datový rámec (data frame) Je specifický typ tabulky, ve kterém jsou všechny hodnoty dané proměnné v jednom sloupci Jde o strukturu podobnou matici, ale na rozdíl od matice, kde musí být všechny sloupce stejného typu, v datovém rámci mohou být v různých sloupcích hodnoty různého typu (číselné, abecední, faktory, logické)

30 rvní řádka bsahuje éno roměnné Datový rámec: příklad č. 1 Řádky jsou číslovány v prvním sloupci; tato čísla představují opakování Sloupce představují proměnné Číselná proměnná Faktor Logická proměnná

31 Datový rámec: příklad č. 2 Faktory jsou vyjádřeny úrovněmi a začínají jedničkou Názvy proměnných nesmí obsahovat mezeru Logické proměnné jsou popsány pomocí konvence 0 = NEPRAVDA 1 = PRAVDA Byla vynechána jmén řádek a tudíž bude použita konvence jméno řádky = její číslo

32 Příprava datových rámců Je účelné vytvářet a analyzovat data ve dvou krocích Řada lidí dává přednost vytvoření datového rámce v tabulkovém procesoru (obvykle Excel), pak teprve importuje data do S-Plus a analyzuje je v něm

33 Načítání dat do S-Plus Z menu: File Import data From File (nejčastěji) Pomocí funkce read.table; tato funkce načítá listy Excelu (a soubory vytvořené jiným softwarem), uložené jako tabdelimited text file (málo používané)

34 Funkce read.table Celá cesta a jméno souboru musí být ve dvojitých uvozovkách c:\\abc.txt header=t říká, že první řádka obsahuje jména proměnných V definici cesty se používá \\, nikoli \ Jméno proměnné se přiřazuje pomocí <- nebo _ worms<-read.table( c:\\abc.txt, header=t)

35 Příkaz attach a names Příkaz attach činí data přístupná pro náš běh programu Příkaz names ukáže názvy proměnných attach(abc) names(abc)

Podobné dokumenty

ANALÝZA DAT V R 7. KONTINGENČNÍ TABULKA. Mgr. Markéta Pavlíková Katedra pravděpodobnosti a matematické statistiky MFF UK.

ANALÝZA DAT V R 7. KONTINGENČNÍ TABULKA Mgr. Markéta Pavlíková Katedra pravděpodobnosti a matematické statistiky MFF UK www.biostatisticka.cz PŘEHLED TESTŮ rozdělení normální spojité alternativní / diskrétní