Výběr metody Jak vybrat správnou statistickou metodu pro moje data a pro otázku, kterou si kladu Neexistuje žádná náhražka za zkušenost nejlepší metoda, jak vědět co dělat, je použít stejnou správnou metodu již mnohokrát předtím
Výběr metody Která z proměnných je vysvětlovaná proměnná (response variable) Kteréjsou vysvětlující proměnné (explanatory variables) Jsou vysvětlující proměnné kontinuální nebo kategorické, či jsou směsí obou Je vysvětlovaná proměnná kontinuální, kategorická, počty, poměry, doba do smrti?
Výběr metody Vystačím si s klasickými testy nebo potřebuji pokročilejší metody Klasickými testy se budeme zabývat v MSM I, pokročilými metodami v MSM II Nikdy nepoužíváme složitější metodu, než je metoda nezbytně nutná
Klasické metody Jednovýběrové testy průměrů (např. Studentův t- test) Dvouvýběrové testy průměrů (např. Wilcoxonův znaménkový test) Dvouvýběrové testy rozptylů (např. Fisherův F- test) Testy korelací (např. Spearmanův test pořadí) Analýza počtů pomocí kontingenčních tabulek (např. Fisherův exaktní test) Srovnání rozložení (např. Kolmogorov-Smirnovův test)
Pokročilejší metody: výběr Začínáme otázkami na povahu vysvětlované proměnné a končíme otázkami na povahu vysvětlujících proměnných
Vysvětlovaná proměnná Závisle proměnná, která se objevuje na ose y Její variabilitu se pokoušíme vysvětlit
Vysvětlující proměnná Objevuje se na ose x Zajímá nás, v jakém rozsahu jsou změny vysvětlující proměnné spojeny se změnami vysvětlované proměnné
Typy proměnných Kontinuální mohou nabývat jakékoli reálné hodnoty (výška, váha) Kategoriální faktory, které nabývají různé úrovně (např. pohlaví má dvě)
Všechno se mění Prostorově: každé místo je jiné Časově: vše stárne Jestliže měříme jednu věc dvakrát, v důsledku prostorové a časové heterogenity dostaneme pokaždé jinou hodnotu - jestliže měříme stejného jedince při jiné příležitosti, odpověď bude jiná, protože stárne; jestliže měříme ve stejném čase dva jedince, odpověď bude různá, protože jedinci se liší díky genetickým a environmentálním rozdílům
O čem je celá statistika: vše se mění Protože se všechno mění, samotný fakt, že každá věc je jiná, není vědecky zajímavý Ve statistice nám jde o odlišení obecné variability od variability, která je vysvětlitelná našimi proměnnými
O čem je celá statistika: vše se mění Klíčovým konceptem je velikost změny (variation), kterou můžeme očekávat čistě náhodou, aniž by se dělo něco vědecky zajímavého Je-li změna větší, než lze očekávat náhodou, říkáme, že změna je statisticky průkazná (significant)
O čem je celá statistika: vše se mění Zjistíme-li, že rozdíl není větší než lze očekávat náhodou, říkáme, že výsledek není statisticky průkazný To, že výsledek není statisticky průkazný, ale neznamená, že není důležitý (statisticky nevýznamné prodloužení života) statisticky neprůkazný (non-significant) není totéž co nedůležitý
O čem je celá statistika: vše se mění Ani z vědeckého pohledu statisticky neprůkazný rozdíl nemusí být nedůležitý může to být jen důsledek malého počtu opakování
Co je statistická průkaznost (significance) Je nepravděpodobné, že výsledek se objevil náhodou Přesněji, je nepravděpodobné, že výsledek se objevil náhodou, pokud platí naše nulová hypotéza
Co je nepravděpodobnost Událost je nepravděpodobná, jestliže se objeví v méně než 5% případů
Co je nulová a co je alternativní hypotéza Nulová hypotéza říká nic se nepřihodilo Alternativní hypotéza říká něco se přihodilo
Špatná a dobrá hypotéza podle Karl Poppera Dobrá hypotéza je taková, kterou lze zamítnout tedy taková, kterou lze usvědčit z nepravdivosti (falsifiable hypothesis) Přitom platí, že nepřítomnost důkazu není důkazem nepřítomnosti
Špatná a dobrá hypotéza podle Karl Poppera 1. V místním parku jsou supi 2. V místním parku nejsou supi
Hodnota p Hodnota p je odhad pravděpodobnosti, že za předpokladu platnosti nulové hypotézy se určitý výsledek mohl objevit náhodou (p < 0,001; p = 0,23) Říkáme, že s danou pravděpodobností p nezamítáme nulovou hypotézu
Hodnota p To, že s danou pravděpodobností p nezamítáme nulovou hypotézu, je něco úplně jiného než prohlášení nulová hypotéza je pravdivá Mohlo se nám nepodařit zamítnout nesprávnou nulovou hypotézu například proto, že jsme měli příliš malou velikost vzorku, nebo protože chyba měření byla příliš velká
Interpretace statistických modelů Můžeme zamítnout pravdivou nulovou hypotézu (chyba I. druhu) Můžeme akceptovat nepravdivou nulovou hypotézu (chyba II. druhu) Za předpokladu, že známe skutečný stav, lze interpretaci znázornit takto: Nulová hypotéza Přijata Skutečná situace Pravda Nepravda Správné rozhodnutí Chyba II. druhu Odmítnuta Chyba I. druhu Správné rozhodnutí
Statistické modelování Cílem statistického modelování je určit takové hodnoty parametrů specifikovaného modelu, která vedou k nejlepší shodě modelu s našimi daty Data nefitujeme modelem, ale naopak, model fitujeme daty
Statistické modelování Hledáme minimální adekvátní model, který popíše naše data To je model, který vede k minimální reziduální chybě modelu (nevysvětlené variabilitě dat) za předpokladu, že všechny parametry modelu jsou statisticky průkazné
Statistické modelování Minimální má být model z důvodu parsimonie (Ocamova břitva) Adekvátní proto, že nemáme žádný důvod fitovat parametry, které nevysvětlují průkaznou část variability dat
Statistické modelování Neexistuje jeden správný model Cílem modelování je nejprve určit, který z možných modelů je adekvátní A pak který z adekvátních modelů je minimální adekvátní (je možné, že takových modelů bude více)
(Pravidla jen tak mezi námi) (Všechny modely jsou špatné Některé modely jsou lepší než jiné Nikdy si nejsme jisti, že model je správný Čím je model jednodušší, tím je lepší)
Maximální věrohodnost (maximum likelihood) Tento pojem vyjadřuje, co míníme tím, že parametry modelu zajišťují nejlepší shodu (best fit) s daty Je to technika, která vede k nezaujatému (unbiased) odhadu, který minimalizuje rozptyl kolem odhadnuté hodnoty
Maximální věrohodnost: jak definuje nejlepší model Které hodnoty parametrů pro daná data a vybraný model činí pozorovaná data nejpravděpodobnější?
Datový rámec (data frame) Je specifický typ tabulky, ve kterém jsou všechny hodnoty dané proměnné v jednom sloupci Jde o strukturu podobnou matici, ale na rozdíl od matice, kde musí být všechny sloupce stejného typu, v datovém rámci mohou být v různých sloupcích hodnoty různého typu (číselné, abecední, faktory, logické)
rvní řádka bsahuje éno roměnné Datový rámec: příklad č. 1 Řádky jsou číslovány v prvním sloupci; tato čísla představují opakování Sloupce představují proměnné Číselná proměnná Faktor Logická proměnná
Datový rámec: příklad č. 2 Faktory jsou vyjádřeny úrovněmi a začínají jedničkou Názvy proměnných nesmí obsahovat mezeru Logické proměnné jsou popsány pomocí konvence 0 = NEPRAVDA 1 = PRAVDA Byla vynechána jmén řádek a tudíž bude použita konvence jméno řádky = její číslo
Příprava datových rámců Je účelné vytvářet a analyzovat data ve dvou krocích Řada lidí dává přednost vytvoření datového rámce v tabulkovém procesoru (obvykle Excel), pak teprve importuje data do S-Plus a analyzuje je v něm
Načítání dat do S-Plus Z menu: File Import data From File (nejčastěji) Pomocí funkce read.table; tato funkce načítá listy Excelu (a soubory vytvořené jiným softwarem), uložené jako tabdelimited text file (málo používané)
Funkce read.table Celá cesta a jméno souboru musí být ve dvojitých uvozovkách c:\\abc.txt header=t říká, že první řádka obsahuje jména proměnných V definici cesty se používá \\, nikoli \ Jméno proměnné se přiřazuje pomocí <- nebo _ worms<-read.table( c:\\abc.txt, header=t)
Příkaz attach a names Příkaz attach činí data přístupná pro náš běh programu Příkaz names ukáže názvy proměnných attach(abc) names(abc)