Matematika pro geometrickou morfometrii (5)

Podobné dokumenty
Matematika pro geometrickou morfometrii

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz

Úvodem Dříve les než stromy 3 Operace s maticemi

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Testování hypotéz. 1. vymezení základních pojmů 2. testování hypotéz o rozdílu průměrů 3. jednovýběrový t-test

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Intervalové odhady. Interval spolehlivosti pro střední hodnotu v N(µ, σ 2 ) Interpretace intervalu spolehlivosti. Interval spolehlivosti ilustrace

Testování statistických hypotéz

Intervalové odhady. Interval spolehlivosti pro střední hodnotu v N(µ, σ 2 ) Interpretace intervalu spolehlivosti. Interval spolehlivosti ilustrace

Zápočtová práce STATISTIKA I

Analýza rozptylu. Ekonometrie. Jiří Neubauer. Katedra kvantitativních metod FVL UO Brno kancelář 69a, tel

Testy statistických hypotéz

Stručný úvod do testování statistických hypotéz

Testování hypotéz o parametrech regresního modelu

STATISTIKA A INFORMATIKA - bc studium OZW, 1.roč. (zkušební otázky)

Testování hypotéz o parametrech regresního modelu

Cvičení ze statistiky - 9. Filip Děchtěrenko

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

ANALÝZA A KLASIFIKACE DAT

Opravená data Úloha (A) + (E) Úloha (C) Úloha (B) Úloha (D) Lineární regrese

UNIVERZITA OBRANY Fakulta ekonomiky a managementu. Aplikace STAT1. Výsledek řešení projektu PRO HORR2011 a PRO GRAM

Testování hypotéz. Testování hypotéz o rozdílu průměrů t-test pro nezávislé výběry t-test pro závislé výběry

Statistická analýza dat

Výběrové charakteristiky a jejich rozdělení

Regresní a korelační analýza

Inovace bakalářského studijního oboru Aplikovaná chemie

Dobývání znalostí. Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze

Normální (Gaussovo) rozdělení

Základní statistické metody v rizikovém inženýrství

Charakterizace rozdělení

MATEMATICKÁ STATISTIKA - XP01MST

1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.

PRAVDĚPODOBNOST A STATISTIKA

ADDS cviceni. Pavlina Kuranova

Problematika analýzy rozptylu. Ing. Michael Rost, Ph.D.

Aplikovaná statistika v R - cvičení 2

Statistická analýza jednorozměrných dat

pravděpodobnosti, popisné statistiky

Grafický a číselný popis rozložení dat 3.1 Způsoby zobrazení dat Metody zobrazení kvalitativních a ordinálních dat Metody zobrazení kvan

JAK MODELOVAT VÝSLEDKY NÁH. POKUSŮ? Martina Litschmannová

Regresní analýza 1. Regresní analýza

AVDAT Náhodný vektor, mnohorozměrné rozdělení

Obsah přednášky Jaká asi bude chyba modelu na nových datech?

Pravděpodobnost a statistika, Biostatistika pro kombinované studium. Tutoriál č. 5: Bodové a intervalové odhady, testování hypotéz.

Charakteristika datového souboru

Praktická statistika. Petr Ponížil Eva Kutálková

Mann-Whitney U-test. Znaménkový test. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek

Testování hypotéz. Testování hypotéz o rozdílu průměrů t-test pro nezávislé výběry t-test pro závislé výběry

RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr.

MÍRY ZÁVISLOSTI (KORELACE A REGRESE)

Co je to statistika? Úvod statistické myšlení. Základy statistického hodnocení výsledků zkoušek. Petr Misák

Jednofaktorová analýza rozptylu

PSY117/454 Statistická analýza dat v psychologii seminář 9. Statistické testování hypotéz

Regresní a korelační analýza

Pravděpodobnost, náhoda, kostky

Přednáška IX. Analýza rozptylu (ANOVA)

Pravděpodobnost a aplikovaná statistika

Vybraná rozdělení náhodné veličiny

Regresní analýza. Eva Jarošová

12. cvičení z PST. 20. prosince 2017

Normální (Gaussovo) rozdělení

Me neˇ nezˇ minimum ze statistiky Michaela S ˇ edova KPMS MFF UK Principy medicı ny zalozˇene na du kazech a za klady veˇdecke prˇı pravy 1 / 33

Všechno, co jste chtěli vědět z teorie pravděpodobnosti, z teorie informace a

letní semestr 2012 Katedra pravděpodobnosti a matematické statistiky Matematicko-fyzikální fakulta Univerzity Karlovy Matematická statistika

Testování hypotéz. Analýza dat z dotazníkových šetření. Kuranova Pavlina

Základy biostatistiky II. Veřejné zdravotnictví 3.LF UK - II

Statistika, Biostatistika pro kombinované studium. Jan Kracík

ANALÝZA DAT V R 3. POPISNÉ STATISTIKY, NÁHODNÁ VELIČINA. Mgr. Markéta Pavlíková Katedra pravděpodobnosti a matematické statistiky MFF UK

Jednofaktorová analýza rozptylu

VYBRANÉ DVOUVÝBĚROVÉ TESTY. Martina Litschmannová

Tomáš Karel LS 2012/2013

PRAVDĚPODOBNOST A STATISTIKA

Design Experimentu a Statistika - AGA46E

Vymezení důležitých pojmů. nulová hypotéza, alternativní hypotéza testování hypotézy hladina významnosti (alfa) chyba I. druhu, chyba II.

Korelační a regresní analýza. 1. Pearsonův korelační koeficient 2. jednoduchá regresní analýza 3. vícenásobná regresní analýza

Bakalářské studium na MFF UK v Praze Obecná matematika Zaměření: Stochastika. 1 Úvodní poznámky. Verze: 13. června 2013

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Určujeme neznámé hodnoty parametru základního souboru. Pomocí výběrové charakteristiky vypočtené z náhodného výběru.

PSY117/454 Statistická analýza dat v psychologii přednáška 8. Statistické usuzování, odhady

Úvod do analýzy rozptylu

Obsah Úvod Kapitola 1 Než začneme Kapitola 2 Práce s hromadnými daty před analýzou

Pokud data zadáme přes "Commands" okno: SDF1$X1<-c(1:15) //vytvoření řady čísel od 1 do 15 SDF1$Y1<-c(1.5,3,4.5,5,6,8,9,11,13,14,15,16,18.

ANALÝZA DAT V R 7. KONTINGENČNÍ TABULKA. Mgr. Markéta Pavlíková Katedra pravděpodobnosti a matematické statistiky MFF UK.

Průzkumová analýza dat

Návrh a vyhodnocení experimentu

II. Statistické metody vyhodnocení kvantitativních dat Gejza Dohnal

Číselné charakteristiky

KGG/STG Statistika pro geografy

(motto: An unsophisticated forecaster uses statistics as a drunken man uses lamp-posts - for support rather than for illumination.

Pravděpodobnost a statistika, Biostatistika pro kombinované studium. Jan Kracík

Kategorická data METODOLOGICKÝ PROSEMINÁŘ II TÝDEN 7 4. DUBNA dubna 2018 Lukáš Hájek, Karel Höfer Metodologický proseminář II 1

Analýza rozptylu. PSY117/454 Statistická analýza dat v psychologii Přednáška 12. Srovnávání více než dvou průměrů

1. Číselné posloupnosti - Definice posloupnosti, základní vlastnosti, operace s posloupnostmi, limita posloupnosti, vlastnosti limit posloupností,

Plánování experimentu

Transkript:

Ján Dupej (jdupej@cgg.mff.cuni.cz) Laboratoř 3D zobrazovacích a analytických metod Katedra antropologie a genetiky člověka Přírodovědecká fakulta UK v Praze

Cíle GM 1. Popsat tvar čísly 2. Čísla statisticky vyhodnotit Měření Čísla Závěr Metoda Metoda 2

Doporučený software PAST Paleontological Statistics Tabulkový editor Nabídka Statistics základní testy Nabídka Multivar multivariační analýza Nabídka Model regresní analýza R, Matlab, Octave Psaní skriptů Cokoliv Excel Morphome3cs R in disguise 3

Analýza dat Visualizace hrubých naměřených dat Grafy Scatter plot 4

Analýza dat Souhrny Průměr Směrodatná odchylka Median Kvantily > q [1] 0.06288092 0.22550026 0.60736743 0.34576066 0.11118783 0.41442509 0.48277405 0.96585162 0.34863972 0.37133069 > mean(q) [1] 0.3935718 > sd(q) [1] 0.2590044 > summary(q) Min. 1st Qu. Median Mean 3rd Qu. Max. 0.06288 0.25560 0.36000 0.39360 0.46570 0.96590 5

Frequency 0 1 2 3 4 0.2 0.4 0.6 0.8 1.0 Matematika pro geometrickou Analýza dat Histogram Boxplot s kníry Histogram of q 0.0 0.2 0.4 0.6 0.8 1.0 q 6

Pravděpodobnost Náhodný jev Výsledek pro: hod mincí, hod kostkou... Pravděpodobnost náhodného jevu Náhodná veličina Funkce na množině elementárních jevů Přirazení čísel jevům Rozdělení Popis náhodné veličiny Odpovídá histogramu pro mnoho opakování 7

Náhodná veličina Spojitá nebo diskrétní Popis tzv. momenty Střední hodnota EX = x f x dx Aritmetický průměr x = 1 N x i Rozptyl var X = E X EX 2 Výběrový rozptyl σ 2 = 1 N 1 x i x 2 Šikmost (skewness) Špičatost (curtosis) 8

f(t) 0.0 0.1 0.2 0.3 0.4 f(t) 0.0 0.2 0.4 0.6 0.8 1.0 Matematika pro geometrickou Hustota vs. Distribuční funkce Hustota f t P(X = t) Pst. že náhodná veličina X má hodnotu t Distr. funkce f t P(X t) Pst. že náhodná veličina X má hodnotu nanejvýš t X~N(0,1) X~N(0,1) 9-4 -2 0 2 4 t -4-2 0 2 4 t

Normální rozdělení Velké odchylky od očekávání jsou málo pravděpodobné f X = 1 X X 2 0 2σ 2 2πσ 2 e Centrální limitní věta Komplexní děje se skládají z mnoha náhodných událostí normální rozdělení je všude Součty libovolného rozdělení se blíží normálnímu rozdělení Z-transformace Posunutí a zúžení rozdělení aby výsledá střední hodnota byla 0 a kvadratická chyba 1 Z = X μ σ(x) 10

Normální rozdělení Z-skóre Symetrie rozdělení, tabulky Celková ploch pod grafem = 1 11

Populace a vzorek Populace Vzorek Vzorek Vzorek Vzorek Vykopávky Sbírka Průměr P Rozptyl R Další vykopávky a sbírky Průměr p Rozptyl r Průměr p Rozptyl r Průměr p Rozptyl r Průměr p Rozptyl r Máme pouze toto Průměr P Rozptyl R Jaké je rozdělení tohoto? 12

Populace a vzorek Rozdělení pravděpodobnosti výběru Normální rozložení průměru pro velký vzorek, bez ohledu na rozdělení populace Střední hodnota odpovídá střední hodnotě populace Rozptyl nepřímo úměrný velikosti vzorku Větší vzorek = menší chyba odhadu 13

t - rozdělení Rozdělení pravděpodobnosti rozptylu při výběru vzorku z populace Vzorek je malý a neznáme rozptyl populace Použijeme výběrovou směrodatnou odchylku vzorku Parametrizované velikostí vzorku Vhodné pro GM kde se často pracuje s malými vzorky Komplikovaný výpočet distr. funkce Tabulka t-hodnota 14

Intervalové odhady Chceme určit výsledek s předem danou přesností Ptáme se na výsledek v celé populaci vzorek Skutočný výsledek se nalézá okolo průměru vzorku Rozptyl odhadu je dán rozptylem populace a velikostí vzorku Rozptyl v populaci nahradíme rozptylem ve vzorku K výpočtu intervalu použijeme tabulkové hodnoty Pro velké vzorky normální rozdělení Pro malé vzorky t-rozdělení 15

Test hypotézy Vyvrátit pravdivost nějakého tvrzení o datech Rovnost středních hodnot dvou vzorků Rovnost střední hodnoty konkrétní hodnotě Jediný důkaz pro vyvrácení je v datech Nevyvrátit potvrdit Postup Nulová hypotéza: X má střední hodnotu 0 Alternativní hypotéza: X nemá střední hodnotu 0 Určení skóre jevu popírajícího nulovou hypotézu Výpočet p-hodnoty, pravděpodobnosti že pozorovaný jev je dílem náhody Porovnání s hladinou významnosti (nejčastěji 0.05, 0.1) 16

Příklad jednovýberový t-test Data 4.4 0.3 7.6 2.7 4.4 0.2 1.5 0.3 3.0 0.0 0.2 H0: Data mají střední hodnotu 0 Málo vzorků použij t-rozdělení a t-statistiku t = X μ 0 s N = 1.345 0 0.931 = 1.445 Porovnání t-statistiky s kritickou hodnotou n 1 stupňů volnosti, kvantil dle hladiny významnosti (Ne)Odmítnutí H0 t 0.975 10 = 2.23 H0 neodmítáme 17

Statistická významnost p-value Nejnižší hladina na které ještě hypotézu nezamítáme Porovnání přímo s hladinou významnosti Hvězdičková konvence R, Morphome3cs Signif. codes: 0 `***' 0.001 `**' 0.01 `*' 0.05 `.' 0.1 ` ' 1 18

Síla testu Chyba prvního typu Test odmítl pravdivou hypotézu False negative Míra chyby α Chyba druhého typu Test neodmítl neplatící hypotézu False positive Míra chyby β Síla testu 1 β 19

Typy testů Rovnost středních hodnot t-test, Hotelling T2, Wilcoxonův test Stejný rozptyl F-test Stejné rozdělení pravděpodobnosti Test normality Shapiro-Wilk, Kolmogorov-Smirnoff Test outlierů... 20

Porovnání dvou vzorků Nepárový t-test Dva vzorky z dvou populací významný rozdíl? Vzorek každé populace je náhodná veličina X 1, X 2 Rozdíl středních hodnot je také náhodná veličina μ 1 μ 2 Jaké je rozdělení, střední hodnota, rozptyl? Pro velké vzorky normální kritická hodnota Kritická hodnota výpočet intervalového odhadu stř. hodnoty 21

Porovnání dvou vzorků Směrodatná odchylka Za předpokladu normality a nezávislosti s = σ2 (X 1 ) n 1 + σ2 (X 2 ) n 2 Porovnání jako test hypotézy Vzorky mají stejnou střední hodnotu rozdíl je nulový z = X 1 X 2 μ 1 μ 2 s 22

Dvouvýběrový t-test Pro malé vzorky se používá statistika t-skóre Předpokládá se normalita a nezávislost Neznámý ale stejný rozptyl Pro odhad směrodatné odchylky kombinujeme rozptyly vzorků s = n 1 σ2 X 1 + m 1 σ 2 X 2 n+m+2 1 n + 1 m Porovnám s kvantilem t-rozdělení s n + m 2 stupni volnosti t = X 1 X 2 s 23

Neparametrické testy Co když data nejsou normálně rozdělená Příklad: málo dat, patologie,... Použití bootstrap simulace Wilcoxonův test Co když vzorky nemají stejný rozptyl Složený odhad pro směrodatnou odchylku nemá normální ani t- rozdělení Použití bootstrap simulace pro určení hladiny významnosti Monte Carlo, Jackknife 24

Permutační test Co když je rozdíl středních hodnot malý a rozptyl příliš velký t-test nemusí zamítnout hypotézu jen díky náhodě výběru Hledáme test s lepší rozlišovací schopností Počet případů kdy rozdíl středních hodnot B a A ku celkovému počtu opakování je pravděpodobnost že rozdíl B a A je pří H0 (rovnost A a B) náhoda. A = 1; 10; 11; 2; 7; 2; 14; 2; 8; 3; 12; 0 A = 1.1667; σ 2 = 7.8605 B = 3; 2; 10; 4; 2; 1; 9; 2; 0; 1; 13; 7 B = 1.6667; σ 2 = 6.0653-1 -10 11 2 7-2 -14-2 8 3 12 0-3 -2 10 4-2 1 9-2 0-1 13-7 2-7 1-2 -14-2 0-3 -1 11-2 8-2 -10 12 0-2 9 10 7 4-1 13 3 25 Permutace, Opakovat n-krát

Návrh experimentu Párový test Další možností je provést párový test/měření Jedinec se vyskytuje v obou populacích Randomizace Vzorky jsou vybrány náhodně při dělení do skupin Lokální kontrola Eliminace variability Rozdělení testované množiny do bloků Replikace Stejně velké skupiny náhodných jedinců, stejný postup opakovaného měření a stejné výchozí podmínky 26

Regresní anaýza Vztah závislosti mezi dvěma veličinami Závislá x a nezávislá y y = α + βx Jaký může být tzv. model Lineární Vyšší stupeň y i y i Myšlenka minimalizovat čtverec vzdálenosti vzorků v ose y n SSE = y i y i 2 i=1 27

Regresní analýza Koeficienty β = SSxy SSxx α = y βx Další míry SSxx = x i x 2 SSyy = y i y 2 SSyy = x i x y i y 28

Regresní analýza Čtverec korelace koeficient determinace Korelační koeficient Rostoucí/klesající regresní křivka Inferenční regresní analýza Parametry křivky jsou náhodné veličiny Vícerozměrná regresní analýza Více závislých proměnných, jedna nezávislá 29

Regresní analýa - R > data() > trees Girth Height Volume 1 8.3 70 10.3 2 8.6 65 10.3 3 8.8 63 10.2 4 10.5 72 16.4 5 10.7 81 18.8 6 10.8 83 19.7 7 11.0 66 15.6 8 11.0 75 18.2 9 11.1 80 22.6 10 11.2 75 19.9 11 11.3 79 24.2... > a<-trees$girth > b<-trees$height > lm(a~b) Call: lm(formula = a ~ b) Coefficients: (Intercept) b -6.1884 0.2557 > summary(lm(a~b)) Call: lm(formula = a ~ b) Residuals: Min 1Q Median 3Q Max -4.2386-1.9205-0.0714 2.7450 4.5384 Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) -6.18839 5.96020-1.038 0.30772 b 0.25575 0.07816 3.272 0.00276 ** --- Signif. codes: 0 *** 0.001 ** 0.01 * 0.05. 0.1 1 Residual standard error: 2.728 on 29 degrees of freedom Multiple R-squared: 0.2697, Adjusted R-squared: 0.2445 F-statistic: 10.71 on 1 and 29 DF, p-value: 0.002758 30

ANOVA Analysis of variance Závislost veličiny popisující jedince na ostatních Zobecňuje t-test pro více skupin (nezávislé proměnné jsou diskrétní, popisují kategorii) Předpoklad normality a stejného rozptylu F-hodnota F = MS b MS e F-rozdělení Obtížné na výpočet Veličina Skupina 31

ANOVA - výpočet MS b = SS b K 1 = MS e = SS e N K = K n i i X i X 2 K 1 K i n i j X i,j X i N K 2 Střední hodnota vzorku (Grand mean) Střední hodnota skupiny P-hodnota se spočítá s využitím tabulky F-rozdělení Existuje statistický rozdíl mezi skupinami? 32

ANOVA interpretace ANOVA odhalí že existuje statisticky významný rozdíl, neřekne která skupina od které a jak moc Provádí se dodatečné testy každého s každým, podobně jako t-test Takových testů existuje víc, např. HSD-Tukey Předpoklad stejného počtu prvků v každé skupině n g Tukey HSD = X 1 X 2 MS e n g Koeficient se vyhodnotí např. pomocí tabulky Podobně jako t, F-hodnota 33

Density 0.0 0.1 0.2 0.3 0.4 0.5 Matematika pro geometrickou ANOVA - R > d <- c(rnorm(100, mean=-0.5, sd=1), rnorm(100, mean=0.5, sd=1)) > cls <- c(rep(0,100), rep(1,100)) > summary(aov(d ~ cls)) Df Sum Sq Mean Sq F value Pr(>F) cls 1 35.97 35.97 41.13 1.02e-09 *** Residuals 198 173.14 0.87 --- Signif. codes: 0 *** 0.001 ** 0.01 * 0.05. 0.1 1 > plot(density(d), xlim=c(-4,4), ylim=c(0,0.5), type="n") > lines(density(d[1:100])) > lines(density(d[101:200])) density.default(x = d) 34-4 -2 0 2 4 N = 200 Bandwidth = 0.3197

Two-way ANOVA Pokud máme dvě kategorizující funkce (faktor) Např. věkové skupiny a pohlaví Máme tři nulové hypotézy získáme 3 p-hodnoty Závislost veličiny na první kategorii, na druhé kategorii Závislost první kategorie na druhé kategorii (interakce) Stejný počet jedinců v kombinaci kategorií Jde i pokud není stejný počet, komplikovanější 35

MANOVA Zkoumáme případ více závislých proměnných na jedné nebo víc kategoriích Wilks lambda ukáže že existuje významný vztah nezávislých závislých proměnných Malá hodnota dobrá separabilita Pro další zkoumání, např. diskriminační analýza 36

Hotellingův T 2 -test Zobecnění t-testu pro multivariační analýzu (více proměnných) Je třeba z vektorových náhodných veličin získat skalární hodnotu (výsledek testu) t 2 = n x μ W 1 x μ Střední hodnota vzorku Testovaná střední hodnota Kovarianční matice vzorku t 2 má Hotellingovo t-kvadrát rozdělení (tabulka) Dvouvýběrová varianta 37

Diskriminační analýza Dichotomie rozdělitelnost vzorku na dvě skupiny Hledání takové diskriminační funkce, která jedince x: f x > 0 příradí do první skupiny f x < 0 přiradí do druhé skupiny Lineární diskriminační analýza (LDA) f je lineární Dimenze dat je libovoln Rozšíření pro více skupin 38

LDA 39

Interpretace DA Oddělení skupin ve vzorku je optimální pro vzorek, ne celou populaci chceme výsledek zobecnit na populaci Cross-validation trénovací množina, testovací množina, počítá se úspěšnost na testovací množině Varianty: k-fold, leave-one-out 40

Modifikace DA Složitější podmínky Support vector machines (SVM) maximum margin criterion Složitější dělení prostoru Quadratic discriminant analysis (QDA) SVM kernels 41

Shluková analýza Co když nevím Kolik skupin data obsahují Do kterých skupín data patří (učení bez učitele) Jestli jsou shluky lineárně oddělitelné Hledání přirozených shluků (explorativní metoda) Libovolná dimenze Hierarchické shlukování Míra podobnosti Nehierarchické shlukování Znám počet shluků 42

Hierarchické shlukování Normalizace dat, použití vhodných metrik Aglomerativní, divizivní techniky 43

Hierarchické shlukování Vysvětlená variabilita je dána poměrem variability shluků k celkové variabilitě elbow criterion Nalezení optimálního počtu shluků 44

K-means shlukování Znám K počet shluků Umístím (náhodně) středy a shlukuji nejbližší sousedy Přepočítám středy a opakuji 45

Klasifikace - interpretace Úspěšnost klasifikace Počet správně zaklasifikovaných / počet celkem Posteriorní Nacvičit na všech, zjistit počet správně klasifikovaných Cross-validace Rozdělit data na foldy Nacvičit na k 1 a testovat zbytek, opakovat Víc restriktivní, lépe vypovídá o vhodnosti klasifikátoru 46