Mnohorozměrná statistika

Podobné dokumenty
Tabulka 1. Výběr z datové tabulky

Vytěžování znalostí z dat

x T 1 matici & S 1 kovarianční matici &

Předzpracování dat. Pavel Kordík. Department of Computer Systems Faculty of Information Technology Czech Technical University in Prague

Pohlédněte si základní charakteristiky polohy jednotlivých veličin pomocí funkce summary.

Vícerozměrné statistické metody

Matematická statistika Zimní semestr

AVDAT Mnohorozměrné metody, metody klasifikace Shluková analýza

STATISTICA Téma 8. Regresní a korelační analýza, regrese prostá

SEMESTRÁLNÍ PRÁCE 3.5 Klasifikace analýzou vícerozměrných dat

Matematická statistika Zimní semestr

Statistické metody v ekonomii. Ing. Michael Rost, Ph.D.

Téma 9: Vícenásobná regrese

Úvodem Dříve les než stromy 3 Operace s maticemi

Vícerozměrné metody. PSY117/454 Statistická analýza dat v psychologii Přednáška 12. Schematický úvod

Profilování vzorků heroinu s využitím vícerozměrné statistické analýzy

Fakulta chemicko-technologická Katedra analytické chemie. Licenční studium Statistické zpracování dat při managementu jakosti. Semestrální práce:

Vytěžování znalostí z dat

Modifikace algoritmu FEKM

= = 2368

Kontingenční tabulky a testy shody

3.4 Určení vnitřní struktury analýzou vícerozměrných dat

Aplikovaná statistika v R - cvičení 3

Fakulta chemicko-technologická Katedra analytické chemie. 3.2 Metody s latentními proměnnými a klasifikační metody

Pokročilé neparametrické metody. Klára Kubošová

Statistické metody v ekonomii. Ing. Michael Rost, Ph.D.

Fakulta chemicko technologická Katedra analytické chemie

Testy o proporci a testy v multinomickém rozdělení

Vícerozměrné statistické metody

STATISTICA Téma 1. Práce s datovým souborem

Vzorová prezentace do předmětu Statistika

RNDr. Tomáš Pavlík, PhD. RNDr. Jiří Jarkovský, PhD. Doc. RNDr. Ladislav Dušek, PhD. Ústav zdravotnických informací a statistiky České republiky

StatSoft Shlukování podobných

Jana Vránová, 3. lékařská fakulta, UK Praha

Pokročilejší metody: výběr. Začínáme otázkami na povahu vysvětlované proměnné a končíme otázkami na povahu vysvětlujících proměnných

Zpracování náhodného výběru. Ing. Michal Dorda, Ph.D.

Příklad 2: Obsah PCB v játrech zemřelých lidí. Zadání: Data: Program:

STATISTICKÉ ODHADY Odhady populačních charakteristik

SEMESTRÁLNÍ PRÁCE. Určení vnitřní struktury analýzou vícerozměrných dat. Ing. Pavel Bouchalík

Matematická statistika Zimní semestr

Škály podle informace v datech:

Úvod do RapidMineru. Praha & EU: Investujeme do vaší budoucnosti. 1 / 23 Úvod do RapidMineru

Pravděpodobnost v závislosti na proměnné x je zde modelován pomocí logistického modelu. exp x. x x x. log 1

MOŽNOSTI VYUŽITÍ SHLUKOVÉ ANALÝZY V Q-METODOLOGII

Úkol 12. Přemysl Bejda. 22. března SAS slouží pro statistiky, jeho využití není příliš flexibilní, protože v něm nelze psát vlastní procedury.

Cvičná bakalářská zkouška, 1. varianta

SEMESTRÁLNÍ PRÁCE. Leptání plasmou. Ing. Pavel Bouchalík

f(x) = ax + b mocnin (čili čtverců, odtud název metody) odchylek proložených hodnot od naměřených hodnot byl co (ax i + b y i ) 2 2(ax i + b y i ).

Univerzita Pardubice Fakulta chemicko technologická Katedra analytické chemie Licenční studium Management systému jakosti

Y n = I[X i > m 0 ],

Hodnocení klasifikátoru Test nezávislosti. 14. prosinec Rozvoj aplikačního potenciálu (RAPlus) CZ.1.07/2.4.00/

Plánování experimentu

PŘÍKLAD 4.5 Chromatografická analýza farmakologických sloučenin Byly měřeny hodnoty R F pro 20 sloučenin s 18 eluenty. Žádné eluční činidlo však nepro

Počítačová analýza vícerozměrných dat v oborech přírodních, technických a společenských věd

Zpracování chybějících dat a dat mimo rozsah

4EK211 Základy ekonometrie

Pojem a úkoly statistiky

Grafický a číselný popis rozložení dat 3.1 Způsoby zobrazení dat Metody zobrazení kvalitativních a ordinálních dat Metody zobrazení kvan

Základy popisné statistiky. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek

Shluková analýza dat a stanovení počtu shluků

TVOŘÍME MAPU V GIS. manuál

NUMERICKÁ KLASIFIKACE. David Zelený Zpracování dat v ekologii společenstev

Kontingenční tabulky, testy dobré shody a analýza rozptylu (ANOVA)

ZÍSKÁVÁNÍ ZNALOSTÍ Z DATABÁZÍ

Připomeň: Shluková analýza

Cvičení 11. Klasifikace. Jan Přikryl. 14. března 2018 ČVUT FD

UKAZATELÉ VARIABILITY

Předmět: 1.1 Využití tabulkového procesu jako laboratorního deníku Přednášející: Doc. Ing. Stanislava Šimonová, Ph.D., Doc. Ing. Milan Javůrek, CSc.


STATISTICA Téma 7. Testy na základě více než 2 výběrů

Algoritmy a datové struktury

Předzpracování dat. Lenka Vysloužilová

Chernoffovy tváře (ikonové grafy)

Statistika. cílem je zjednodušit nějaká data tak, abychom se v nich lépe vyznali důsledkem je ztráta informací!

1.6 Měření V-A charakteristiky různých fotovoltaických článků

POPISNÁ STATISTIKA Komentované řešení pomocí programu Statistica

Regresní a korelační analýza

AVDAT Mnohorozměrné metody, metody klasifikace

2011 (datový soubor life expectancy CR.txt). Budeme predikovat vývoj očekávané doby dožití pomocí

NEPARAMETRICKÉ TESTY

Klasifikace a rozpoznávání. Extrakce příznaků

Statistická analýza dat

Segmentace návštěvníků

M praktikum : M0130pr03

StatSoft Úvod do neuronových sítí

Zobrazení zdrojových dat u krabicového grafu

Pozorovatel, Stavová zpětná vazba

Regresní a korelační analýza

Cvičení 4 komplexní zpracování dat. Analýza povodí řeky Kongo

Tvorba prezentaci v Autodesk Inventoru 10

Oddělení fyzikálních praktik při Kabinetu výuky obecné fyziky MFF UK

Analýzy regionálního trhu práce v České republice Analysis of regional labour market in Czech Republic

Popisná statistika. Komentované řešení pomocí MS Excel

Popisná statistika kvantitativní veličiny

ZÍSKÁVÁNÍ ZNALOSTÍ Z DATABÁZÍ

Vícerozměrné statistické metody

KIV/ZIS cvičení 2. Martin Kryl

Stručný manuál k ovládání programu STATISTICA. Mgr. Petra Beranová

Formátová specifikace má tvar (některé sekce nemají smysl pro načítání) %

Self Organizing Map. Michael Anděl. Praha & EU: Investujeme do vaší budoucnosti. 1 / 10 Slef Organizing Map

Transkript:

Mnohorozměrná statistika 14.12.2012 Úvodní nastavení. Otevřete si R Studio. Z internetu si stáhněte data decathlon.txt. Jedná se o výsledky olympijského závodu v desetiboji z roku 2004. Vícerozměrná data 1. Načtěte si data decathlon.txt. Dále si nastavíme jména řádků jako názvy ve sloupci name: row.names(decathlon)=decathlon$name # prohlidka dat: head(decathlon,5) str(decathlon) summary(decathlon) 2. Budou nás zajímat proměnné udávající výsledky v jednotlivých kategoriích. discipliny=data[,2:11] plot(discipliny) pairs(discipliny[,1:5]) library(car) scatterplotmatrix(discipliny) Číselný popis vztahů jednotlivých veličin: cor(discipliny) round(cor(discipliny)*10) cov(discipliny) #jak souvisi jednotlive discipliny s celkovým počtem bodů cor(discipliny, decathlon$points) Mnohorozměrná vizualizace tzv. Chernoffovy tváře install.packages("aplpack") library(aplpack) faces(discipliny) faces(discipliny,face.type=2) # pro vysvetleni?faces stars(discipliny) 1

Analýza hlavních komponent 3. Provedeme analýzu hlavních komponent na deseti proměnných, které udávají výsledky v jednotlivých kategoriích. Cílem analýzy je získat menší počet proměnných, které nám vysvětlí většinu variability. (a) Provedení výpočtu: p=princomp(discipliny, cor= TRUE) # volba cor - pocitame s normovanymi daty summary(p) plot(p,type="l") (b) Interpretace hlavních komponent loadings(p) # nebo mozna prehledneji round(loadings(p)*10) # graficky biplot(p,choices=1:2,cex=0.8) # jen pro promenne biplot(p1,choices=1:2,col=c("white","red")) biplot(p1,choices=2:3,col=c("white","red")) biplot(p1,choices=c(1,3),col=c("white","red")) (c) Jednotlivé hlavní komponenty (nové proměnné) pc1=p$scores[,1] pc2=p$scores[,2] pc3=p$scores[,3] # ty lze dale pouzit napr. v regresi atd. # znazorneni zavodniku: plot(pc1,pc2,type="n") text(pc1,pc2,row.names(discipliny),cex=0.8) # podobne podle pc1,pc3 a pc2,pc3 Lze identifikovat nějaké odlehlé (netypické) závodníky? (d) Můžeme ověřit, že jednotlivé hlavní komponenty jsou nekorelované (kolmé): cor(pc1,pc2) cor(pc1,pc3) cor(pc2,pc3) (e) Můžeme se ptát, jak souvisí hlavní komponenty s celkovými body: cor(pc1,decathlon$points) cor(pc2,decathlon$points) 2

Faktorová analýza 4. Stejná data budeme analyzovat pomocí faktorové analýzy. Budeme uvažovat tři faktory. (a) Provedení odhadu: f = factanal(discipliny, 3, rotation="varimax") print(f, digits=2, cutoff=.3) (b) Interpretace faktorů viz výstup výše nebo graficky f1 <- f$loadings[,1] f2 <- f$loadings[,2] f3 <- f$loadings[,3] plot(f1,f2,type="n",xlim=c(-1,1)) text(f1,f2,names(discipliny),cex=.8) # podobne pro f1,f3 atd Jakou interpretaci bychom navrhli nalezeným třem faktorům? (c) Podobně jako v analýze hlavních komponent si můžeme znázornit jednotlivé závodníky podle faktorů f = factanal(discipliny, 3, rotation="varimax",scores="regression") fs1=f$scores[,1] fs2=f$scores[,2] fs3=f$scores[,3] plot(fs1,fs2,type="n",xlim=c(-2.2,2.8)) text(fs1,fs2,row.names(discipliny),cex=.8) #podobne pro fs1,fs3 a fs2,fs3 5. Uvažujte data USArrests (načteme příkazem data(usarrests)). Data obsahují statistiky o počtech zatčených na 100 000 obyvatel pro 50 států USA. Více viz?usarresrs. (a) Prohlédněte si data. Podívejte se na vztah jednotlivých proměnných. (b) Proved te analýzu hlavních komponent. Kolik komponent zvolíte? Navrhněte možnou interpretaci hlavních komponent. Jsou některé státy z pohledu trestných činů jiné než ostatní (odlehlé)? Které státy jsou bezpečné a které naopak? 3

Shluková analýza 6. Budeme analyzovat data z desetiboje pomocí shlukové analýzy. Zajímá nás, zda lze závodníky rozdělit do několika skupin tak, aby v těchto skupinách byli závodníci nějakým způsobem podobní (podle toho, které disciplíny jim více vyhovují apod.). (a) Pro další analýzu je vhodné data normovat: disc=scale(discipliny) (b) Nejprve použijeme hierarchický přístup ke shlukové analýze. d = dist(disc, method = "euclidean") # spocte vzdalenosti #provede shlukovou analyzu dle vzdalenosti a Wardovou metodou: shl = hclust(d, method="ward") plot(shl) # tzv. dendrogram rect.hclust(shl, k=4, border="red") #napr. 4 skupiny groups = cutree(shl, k=4) groups sort(groups) Jak lze charakterizovat jednotlivé shluky? Lze nalézt nějakou souvislost s celkovým pořadím na olympiádě? (c) Proved te totéž pomocí jiné volby vzdálenosti mezi shluky: změna method na single nebo complete nebo centroid atd. Výsledky porovnejte. (d) Vyzkoušíme také metodu k-means. Řekněme, že bychom chtěli závodníky roztřídit do čtyř skupin (shluků). fit = kmeans(disc, 4) print(fit, digits=3) #skupiny: sort(fir$cluster) #skupiny graficky: pairs(discipliny,col=fit$clust) # nebo podrobneji napr. pro sprint 100m a disk plot(discipliny$x100m,discipliny$discus,type="n") text(discipliny$x100m,discipliny$discus,row.names(discipliny),col=fit$cluster) 6. Aplikujte metodu shlukové analýzy na data o kriminalitě v USA. 4

Diskriminační analýza 7. Uvažujte data iris, která obsahují informace o třech druzích kosatců. Na každé květině byla provedena čtyři měření: šířka a délka kališních lístků a okvětních lístků. Otázkou je, zda je možné na základě informace o těchto čtyřech veličinách zařadit květinu do příslušné třídy. (a) Nejprve si data načteme a prohlédneme data(iris) summary(iris) pairs(iris[,1:4], col=iris[,5]) par(mfrow=c(2,2)) for(i in 1:4) boxplot(iris[,i]~iris[,5],main=names(iris)[i]) (b) Na základě všech dat vytvoříme diskriminační pravidlo: library(mass) da<- lda(species ~Sepal.Length + Sepal.Width + Petal.Length+ Petal.Width, data=iris) # nebo zkracene: da= lda(species ~., data=iris) print(da) (c) Zhodnocení přesnosti klasifikace (hodnoceno na trénovacích datech) pred=predict(da) table(iris$species, pred$class) prop.table(table(iris$species, pred$class),1) prop.table(table(iris$species, pred$class)) (d) Obrázek: plot(da,col=as.numeric(iris$species)) plot(da,dimen=1) (e) Nyní na základě modelu budeme klasifikovat nové pozorování s hodnotami 6,2,1.7,0.8 new=data.frame(sepal.length=6, Sepal.Width=2,Petal.Length=1.7,Petal.Width=0.8) predlda <- predict(fit,newdata=new) predlda 8. Uvažujte data crabs. Cílem je vytvořit diskriminační pravidlo, pomocí něhož lze určit pohlaví kraba pouze na základě morfologických měření (FL, RW, CL, CW). Zjistěte, jak je taková diskriminace úspěšná. data(crabs)?crabs 5