Shluková analýza. shlukovací metodě
|
|
- Sabina Štěpánková
- před 7 lety
- Počet zobrazení:
Transkript
1 Shluková analýza (Cluster analysis, numerická taxonomie,... ) Cíle shlukové analýzy : ne testovací, ale popisné: klasifikace objektů (Q-technika) nebo znaků (R-technika) nalezení typů generování hypotéz o klasifikaci Předpoklady: Každý objekt je popsán týmiž znaky. Množinu objektů označme O Martin Betinec Shluková analýza 2 Shlukovací metody: hierarchické: Výsledkem je systém {A i } i, kde A i, A j O : buď A i A j = nebo A i A j = A i nebo A i A j = A j shlukovací (aglomerativní) rozhlukovací (divisivní) nehierarchické: Výsledný systém {A i } i tvoří disjunktní množiny optimalizační analýzy modů Výsledek: Ne vždy jednoznačný závislý na: shlukovací metodě měření vzdálenosti, tj. na volbě míry nepodobnosti (metriky) kódování znaků (u nominálních veličin) standartizace znaků (u kardinálních veličin) závislostní struktuře zahrnutých znaků 1 Martin Betinec Shluková analýza 3 1. Data Datový soubor se skládá ze trojice proměnných, které uvádějí počety vězňů odsouzených za přepadení, vraždu, znásilnění na obyvatel každého ze 50 států USA. Čtvrtá proměnná je procentuální zastoupení městského obyvatelstva daného státu. Datová matice x 1,1 x 1,2 x 1,3 x 1,4 x 2,1 x 2,2 x 2,3 x 3,4 X =.. x k,1 x k,2 x k,3 x k,4 (1.1).. x 50,1 x 50,2 x 50,3 x 50,4 Vektor k-tého pozorování x k = (x k,1, x k,2, x k,3, x k,4 ) pro k = 1,, 50. Vektor j-té proměnné x j = pro j = 1,, 4. x 1,j x 2,j. x 50,j Martin Betinec Shluková analýza 4 Murder Assault UrbanPop Rape
2 Martin Betinec Shluková analýza 5 Martin Betinec Shluková analýza 6 Popis dat Murder Assault Měřítko. Hodnoty znaku Assault zřetelně dominují všem ostatním viz obr. 15 a tab. 6, to může silně zkreslit měření vzdáleností jednotlivých objektů: odlišnost v této proměnné může zastínit odlišnosti v ostatních. Viz dále. Proto je vhodné proměnné standardizovat, tj. hodnotu j-tého znaku i-tého státu, přepočítáme: kde x j = i=1 x i,j a s j = z i,j = x i,j x j, s j i=1 (x i,j x j ) UrbanPop 0.41 Rape Murder Assault UrbanPop Rape min prumer median max var st.dev Tabulka 1. Shrnutí vlastností znaků Obrázek 1. Popis pozorování Martin Betinec Shluková analýza Nezávislost znaků. Je zřejmé, že znaky popisující kriminalitu jsou korelované, viz obr. 15 a tab. 7: Murder Assault UrbanPop Rape Murder Assault UrbanPop Rape Tabulka 2. Korelační koeficienty znaků. Klasický Pearsonův test shodně s pořadovým Spearmanovým i Kendallovým testem na hladině 95% zamítají nekorelovanost veličin Murder, Assault, Rape, jakož i nekorelovanost UrbanPop a Rape, viz tab. 8. Nekorelovanost UrbanPop a Assault je na hranici zamítnutí. (1,2) (1,3) (1,4) (2,3) (2,4) (3,4) Pearson Spearman Kendall Tabulka 3. Dosažené hladiny korelačních testů (p-value). Martin Betinec Shluková analýza 8 2. Měření vzdálenosti vzdálenosti se měří mezi objekty: (Q techniky) dle typu znaků, které objekt nese binární symetrický asymetrický nominální ordinální kardinální intervalové poměrové znaky (R techniky) verze cor koeficientu (Pearson,Spearman, χ 2 )
3 Martin Betinec Shluková analýza 9 pro objekty (znaky) i, j míry podobnosti (similarities)... s platí: (1) 0 s(i, j) 1 (2) s(i, j) = s(j, i) (3) s(i, i) = 1 míry nepodobnosti (disimilarities)... d platí: (1) 0 s(i, j) 1 (2) s(i, j) = s(j, i) (3) s(i, i) = 0 d(i, j) = 1 s(i, j) zadány přímo matice (ne)podobností (např. hodnocení soudců) prostřednictvím souřadnic objektů nutno spočítat Martin Betinec Shluková analýza 10 Míra nepodobnosti proměnných kardinální a ordinální d(f, g) odvozeno od Pearsonova, resp. Spearmanova cor(f, g) * d(f, g) = 1 cor(f,g) 2 d(f, g) = * d(f, g) = 1 cor(f, g) 0, cor(f, g) = 1 0.5, 0 1, +1 { 0, cor(f, g) = ±1 d(f, g) = 1, 0 nominální p-level χ 2 testu homogenity f a g nelze užit přímo statstiky X 2 různé DF Martin Betinec Shluková analýza 11 Binární proměnné symetrické setkání dvou 1 nese stejnou informaci jako setkání dvou 0 je jedno, který stav okóduji 1 a který 0 př. žena v celkové populaci užívají se invariantní koeficienty Simple matching, Rogers - Tanimoto, Sokal - Sneath asymetrické setkání dvou 1 nese informaci navíc, setkání dvou 0 nikoli indikátory řídkých jevů, např. žena v populaci fotbalových chuligánů, volič extrémistů, deviace,... užívají se neinvariantni koeficienty Jaccard, Dice - Sorensen, Sokal - Sneath Martin Betinec Shluková analýza 12 objekt j objekt i 1 0 celkem 1 a b a+b 0 c d c+d celkem a+c b+d p=a+b+c+d Tabulka 4. Asociační tabulka. typ název s(i, j) d(i, j) a+d sym Simple matching p a+d Rogers & Tanimoto Sokal & Sneath asym Jaccard Dice Sokal & Sneath a+d+2(c+b) 2(a+d) 2(a+d)+(c+b) a a+b+c 2a 2a+b+c a a+2(c+b) c+b p 2(c+b) a+d+2(c+b) c+b 2(a+d)+(c+b) b+c a+b+c b+c 2a+b+c 2(c+b) a+2(c+b) Tabulka 5. Asociační koeficienty binárních veličin.
4 Nominální proměnné Martin Betinec Shluková analýza 13 Ordinální proměnné Martin Betinec Shluková analýza 14 Strategie: sloučit hladiny tak, aby vznikla binární = ztráta info pro každou hladinu zavést 1 (asymetrickou) binární (indikátor) mnoho nových proměnných & typ (asymetrické), Simple matching tj. s(i, j) = u p d(i, j) = p u u nutno zvážit případné vážení dle počtu hladin (tj. dle míry informace při shodě) diskrétní spojité měřítko není lineární = lze se spolehnout jen na pořadí Př.: monotonní nelineární trafo intervalové proměnné, např.: y = log x, y = x, y = e x,... Označme: r if... pořadí i-tého pozorování proměnné f. M f = max i r if trafo r if na < 0, 1 > z if = r if 1 M f 1 vzdálenost z if a z jf se nyní změří pomocí Manhattan metriky Kardinální proměnné Martin Betinec Shluková analýza 15 intervalové informaci nese interval poměrové kladné, informaci nese poměr, stejné intervaly nemají stejnou informační hodnotu. Platí: d(20, 20) = d(20, 200) tj. např. koncentrace, radiační intenzita,..., často závislosti typu ae bx, kde a > 0 Poměrové kardinální znaky lze zpracovat jako intervalové = chyba spojité ordinální (tj. pracovat s pořadími) trafo y = log x a pak jako intervalové Martin Betinec Shluková analýza 16 Intervalové kardinální znaky Nechť je objekt číslo i reprezentován vektorem x i = (x i,1,, x i,p ). Resp. v případě standartizovaných dat z i = (z i,1,, z i,m ), viz část 3. Příklad: kriminalita v USA i = 1,, 50 a p = 4. Vzdálenost(metrika) je zobrazení d: R p R p R + 0, které pro x i, x j, x k R p, x i = (x i,1,, x i,p ), x j = (x j,1,, x j,p ), x k = (x k,1,, x k,p ). splňuje: (1) d(x i, x j ) 0 (2) d(x i, x j ) = 0 x i = x j (3) symetrie d(x i, x j ) = d(x j, x i ) (4) trojúhelníková nerovnost d(x i, x j ) d(x i, x k ) + d(x k, x j )
5 J OT Většina metrik je odvozena od: (1) Minkowského d t (x i, x j ) = Martin Betinec Shluková analýza 17 [ p k=1 (x i,k x j,k ) t ]1 t t = 1, 2, 3, (2.1) např. (2) Manhattan (city-block) vznikne z d t (1.1) pro t = 1 p d 1 (x i, x j ) = x i,k x j,k, (2.2) k=1 (3) euklidovská vznikne z d t (1.1) pro t = 2 p d E (x i, x j ) = (x i,k x i,j ) 2, (2.3) k=1 je to Pythagorova věta v p dimenzích. Pro binární veličiny d E (x i, x j ) = d 1 (x i, x j ) (4) Lagrangeova(supremální, L -metrika) d (x i, x j ) = lim t d t(x i, x j ) = max k=1,,p x i,k x j,k, (2.4) Platí: Martin Betinec Shluková analýza 18 d 1 (x i, x j ) d E (x i, x j ) d (x i, x j ) (5) Canberra d Cb (x i, x j ) = p k=1 x i,k x j,k x i,k + x j,k, (2.5) (6) Mahalanobisova d M (x i, x j ) = (x i x j ) T S 1 (x i x j ) p p = (x i,h x j,h )(x i,k x j,k )(S 1 ) hk h=1 k=1 (2.6) jedná se o mnohorozměrnou standardizaci = bere v úvahu korelaci znaků eliminuje vliv multikolinearity S 2 se počítá z celého souboru může vybírat matoucí korelace, které nejsou uvnitř skupin přítomny viz násl. příklady a obr. 2 až 6 Martin Betinec Shluková analýza 19 Příklad Kolaps Malahanobisovy metriky I 2 vnitřne nekorelované skupiny, které mezi sebou maji korelaci y C B A F E D I H G data M L K J Q P O N U T S R Y X W V Height A D GB C EF H IJ Agnes: DAISY K NO L MP Martin Betinec Shluková analýza 20 Q RS V WT daisy(x) Agglomerative Coefficient = 0.87 Agnes: DAISY n = 25 U XY 2 clusters C j 1 : : Height A E I D H G Agnes: Mahalanobis B F C Y N S XR W V K P UL as.dist(mahal.dist(x)$d) Agglomerative Coefficient = 0.81 Agnes: Mahalanobis n = 25 Q M 3 clusters C j 1 : : : x Average silhouette width : 0.75 Average silhouette width : 0.47 Obrázek 2. Vnitřne nekorelované skupiny. Obrázek 3. Hierarchické rozklady a jejich hodnocení.
6 Martin Betinec Shluková analýza 21 Component 2 y Component 2 J KS 2 J Martin Betinec Shluková analýza 22 2 Pam: DAISY Component 1 These two components explain % of the Pam: Mahalanobis D BE A G CHF P TI O XUS Q W R LY M N KV J D BEA I G CHF Q P M UKL O T R YJ W N SV X Pam: DAISY n = 25 Average silhouette width : clusters C j 1 : : Pam: Mahalanobis n = 25 3 clusters C j 1 : : : počet klastrů dist metoda Daisy Agnes Pam Mahalanobis Agnes Pam Tabulka 6. Průměrné siluety pro různé počty klastrů. Interpretace: Daisy rozpozná strukturu jako silnou max k s(k) =.75 Mahalanobisova metrika vkládá umělou strukturu a vnímá ji jako slabou max k s(k) = Component 1 These two components explain 91.9 % of the p Average silhouette width : 0.47 Obrázek 4 Nejlepší nehierarchické rozklady. Martin Betinec Shluková analýza 23 Příklad Kolaps Malahanobisovy metriky II 2 vnitřne silně korelované skupiny, které mezi sebou maji silnou korelaci E A F B G C H D I data Obrázek 5. Vnitřne korelované skupiny. počet klastrů dist metoda Daisy Agnes Pam Mahalanobis Agnes Pam Tabulka 7. Průměrné siluety pro různé počty klastrů. x J S K T L U M V N W O X P Y Q Z R Height A FE B GC H DI Agnes: DAISY L TM U NV Martin Betinec Shluková analýza 24 O WP X QY daisy(x) Agglomerative Coefficient = 0.96 Agnes: DAISY n = 26 R Z Average silhouette width : clusters C j 1 : : Height A F E B GC Agnes: Mahalanobis H DI K SL T MU N VO W PX Q YR as.dist(mahal.dist(x)$d) Agglomerative Coefficient = 0.9 Agnes: Mahalanobis n = 26 Z Average silhouette width : 0.6 Obrázek 6 Hierarchické rozklady a jejich hodnocení. 3 clusters C j 1 : : :
7 Component 2 Component 2 J SK y 2 Pam: DAISY Component 1 These two components explain % of the point Pam: Mahalanobis Component 1 These two components explain % of the point Martin Betinec Shluková analýza 25 G C B F H D A E I V W M N O U X P L T Q KY S R JZ G C B H D F A E I T K S L M JU V N Q Y R PZ W OX Pam: DAISY n = 26 Average silhouette width : 0.84 Pam: Mahalanobis n = 26 Obrázek 7 Nejlepší nehierarchické rozklady. 2 clusters C j 1 : : Average silhouette width : clusters C j 1 : : : Martin Betinec Shluková analýza 26 Příklad Kolaps Malahanobisovy metriky III 2 vnitřne pozitivně korelované skupiny, které mezi sebou maji silnou korelaci E F G A B I C H D data x S T U J K L V W X M N O Y Z P Q R Obrázek 8. Vnitřne pozitivně korelované skupiny. počet klastrů dist metoda Daisy Agnes Pam Mahalanobis Agnes Pam Tabulka 8. Průměrné siluety pro různé počty klastrů. Martin Betinec Shluková analýza 27 Martin Betinec Shluková analýza 28 Height A EB C IF D HG Agnes: DAISY T LU M VN W OX P YQ Z R Height A G B I H C DE Agnes: Mahalanobis F JUK V ST L WM X NY O Z P Q R Component Pam: DAISY C I G BF E D H A O N W M VX P Q UY L R TZ K S J Pam: DAISY n = 26 2 clusters C j 1 : : daisy(x) Agglomerative Coefficient = 0.96 as.dist(mahal.dist(x)$d) Agglomerative Coefficient = 0.86 Component 1 These two components explain % of the point Average silhouette width : Agnes: DAISY n = 26 2 clusters C j 1 : : Agnes: Mahalanobis n = 26 3 clusters C j 1 : : : Component 2 Pam: Mahalanobis B I G HA C D F E U V J T W SK L X O P R Z Q M YN Pam: Mahalanobis n = 26 3 clusters C j 1 : : : Average silhouette width : 0.87 Average silhouette width : 0.53 Component 1 These two components explain % of the point Average silhouette width : 0.55 Obrázek 9 Hierarchické rozklady a jejich hodnocení. Obrázek 10 Nejlepší nehierarchické rozklady.
8 Martin Betinec Shluková analýza 29 Příklad: USArrests Situaci demonstrují obrázky 10 až 12, které vznikly metodu nejbližšího souseda. Situace se trochu lišila pro metodu nejbližšího a nejvzdálenějšího souseda, odlišnosti týkaly především spodních pater, viz obr. 13. a některých případů (pro supremální a euklidovskou metriku např. zařazení Montany a u). Použití euklidovské metriky produkuje podobný strom jako vznikne pro supremalní metriku, viz obr. 10. Hint: Začněme dešifrovat shluky od, resp. od Oklahomy či od u Shluk {,, } je až na malé permutace ( vs. {Connectitcut, } apod.) totožný v obou stromech. Shluk {,, } je v obou stromech téměř totožný. Shluk {,, Lousiana} ve druhém případě připojuje Aljašku dříve než ostatní shluky, jinak se liší pouze na spodních úrovních. Srovnání euklidovské a manhattanské metriky. Velmi se liší zařazení Nevady a Arizony. Stabilitu vykazují shluky {,, }, dále {,,}. Nicméně jejich spojení je různé. Martin Betinec Shluková analýza 30 Strom vypěstovaný z canberrské metriky se liší od předchozích dost podstaně, srov. např. a klastr {, a spol.}, nicméně i zde jsou někeré stabilní shluky Martin Betinec Shluková analýza 31 Martin Betinec Shluková analýza euclidian euclidian maximum manhattan Obrázek 11. Euklidian a sup. Obrázek 12. Euklidian a Manhattan.
9 Obrázek 15. Euklidian a sup (4 complete linkage ) complete,eukl complete,supr Martin Betinec Shluková analýza 35 Obrázek 13. Manhattan a Canberra. canberra manhattan Martin Betinec Shluková analýza 33 Strategie zvláštní analýzu pro každý typ znaků problém: když nesouhlasí zacházet se všemi jako s intervalovými problém: nominální a asymetrické binární (místo ordinálních = pořadí... OK místo poměrových = log x... OK) vše převést na binární problém: ztráta info, volba prahu kombinovaná míra např.: DAISY, Gower,... shlukování objektů 3. Smíšené znaky Martin Betinec Shluková analýza 36 Obrázek 14. Euklidian a sup (4 complete linkage ) maximum (complete) euclidian (complete) Martin Betinec Shluková analýza 34
10 d ij.f je-li f nominální, binární Martin Betinec Shluková analýza 37 Martin Betinec Shluková analýza 38 DAISY (Kaufman - Rousseeuw) d(i, j) = p f=1 δ ij.fd ij.f p f=1 δ ij.f = d ij.f = 1 x if x jf d ij.f = 0 x if = x jf δ ij.f δ ij.f = 0 když x if = NA nebo x jf = NA když znak f je asymetrická binární a objekty i a j utvořily shodu (0, 0), je-li f intervalová d ij.f = x if x jf max h x hf min h x hf (3.1) δ ij.f = 1 jinak je-li f ordinální nahrazeny pořadími, na ně aplikováno (2.1). je-li f poměrová buď jako ordinální, nebo log trafo a opět (2.1) Jsou-li všechny znaky nominální = d(i, j)... simple matching symetrické binární asymetrické binární = Jaccardův koef. intervalové = standardiz. Manhattan Martin Betinec Shluková analýza Různé metody shlukování 4.1. Hierarchické metody. nejvzdálenějšího souseda (complete linkage) viz obr. 16 nejbližšího souseda (single linkage) viz obr. 16 Wardova viz obr. 18 centroidní viz obr. 19 mediánová viz obr. 19 průměrné nepodobnosti (group average) viz obr. 18 McQuittyho viz obr. 20 Martin Betinec Shluková analýza 40 Metoda nejvzdálenějšího souseda (complete linkage, furthest neighbour) Míra nepodobnosti shluků A, B: D(A, B) = max d(o i, O j ) (4.1) O i A,O j B D(A, A) = 0 (4.2) Metoda nejbližšího souseda (single linkage, nearest neghbour, friend of friends) Míra nepodobnosti shluků A, B: D(A, B) = min d(o i, O j ) O i A,O j B
11 Obrázek 16. Complete a single linkage single complete Martin Betinec Shluková analýza 43 D(R, U) = 1 2 D(P, U) D(Q, U) 1 4 D(P, Q) D({Oi}, {Oj}) = d 2 E(Oi, Oj) a Pro shluky P, Q, U, R = P Q, platí Mediánová metoda (unweighted group method) řešení: Problém: Ovlivněná počty prvků shluku D(R, U) = P Q P Q D(P, U) + D(Q, U) D(P, Q) R R R 2 D({Oi}, {Oj}) = d 2 E (O i, Oj) a Platí: Pro shluky P, Q, U, R = P Q, platí kde A, B jsou těžiště shluků A, B. D(A, B) = d 2 E (A, B), Míra nepodobnosti shluků A, B: Metoda centroidní (weighted group method) Martin Betinec Shluková analýza 41 Obrázek 17. Complete linkage a group average complete average Martin Betinec Shluková analýza 44 i:oi A j IAB = EC (EA + EB), kde (4.5) EA = (oij oj) 2 (4.6) Pro sloučeni shluků A, B do shluku C minimalizuje Wardova a Wishartova metoda D(A, B) = d(oi, Oj) A D(A, A) = 0 1 B (4.3) (i,j) (4.4) Míra nepodobnosti shluků A, B: Metoda průměrné nepodobnosti shluků (group average) Martin Betinec Shluková analýza 42
12 Obrázek 20. Group average a McQuitty. mcquitty average Martin Betinec Shluková analýza 47 Obrázek 18. Group average a Wardova. ward average Martin Betinec Shluková analýza 45 Pořadí slučování nižších pater není rozhodující, spíš počet shluků. V tomto případě buď 2 nebo 4 (resp. 5 se samostatnou Aljaškou). vykazují stabilitu víceméně při všech metodách. Značně se liší metoda nejbližšího souseda viz např.,,. (2) {,,} Některé shluky, viz obr. 16: (1) {,, } Martin Betinec Shluková analýza 48 Obrázek 19. Centroidní a medianová metoda median centroid Martin Betinec Shluková analýza 46
13 Martin Betinec Shluková analýza Nehierarchické metody. Na základě předchozích výsledků jsem zkusil rozklad do 4 a 5 shluků Rozklad na čtyři shluky. Objekty se shlukovaly klasickou metodou k-means následovně: (1),,,,,,,, RhodeIsland,,,,, (2),,,,,,,, West, (3),,,,,,,,,,,,,,, (4),,,,,,,,, size withinss Tabulka 9. Vlastnosti jednotlivých shluků. Robustnější verze téhož PAM vytvorila stejné shluky, kromě toho, že zařadila do shluku č. 4. Martin Betinec Shluková analýza 50 Murder Assault UrbanPop Rape Tabulka 10. Typické objekty jednotlivých shluků. p.usa.sc14$med[1, ] pomx Obrázek 21. Profily shluků. Martin Betinec Shluková analýza 51 Martin Betinec Shluková analýza 52 size max.diss av.diss diameter separation Tabulka 11. Vlastnosti PAM shluků. k means, complete,eukl Obrázek 22. Srovnání hierarchické a nehierarchické metody.
14 Martin Betinec Shluková analýza Rozklad na pět shluků. Klasickou metodou k-means: Martin Betinec Shluková analýza 54 5 clusters (1), NorthCarolina (2),,,,,,,,,,, NewHampshire, NorthDakota,,, SouthDakota,,, West, (3),,,,,,,,, NewYork (4),,,, NewJersey,,, RhodeIsland,,,,, (5),,, NewMexico,SouthCarolina size withinss Tabulka 12. Vlastnosti jednotlivých shluků clusters Obrázek 23. K means. Martin Betinec Shluková analýza 55 Robustnější metodou PAM (1),,,,,,,,, NewYork (2),,, NewMexico, NorthCarolina, SouthCarolina (3),,,,, NewJersey,,, RhodeIsland,,,, (4),,,,,,,,,, (5),,,, NewHampshire, NorthDakota, SouthDakota,, West, Murder Assault UrbanPop Rape Tabulka 13. Typické objekty jednotlivých shluků. Cvičení: Jakým stromům odpovídají zmíněná řešení? Martin Betinec Shluková analýza 56 size max.diss av.diss diameter separation Tabulka 14. Vlastnosti jednotlivých shluků.
15 Martin Betinec Shluková analýza 57 Martin Betinec Shluková analýza 58 clusplot(pam(x = usa.sc, k = 5)) Silhouette plot of pam(x = usa.sc, k = clusplot(pam(x = usa.sc, k = 4)) Silhouette width Silhouette plot of pam(x = usa.sc, k = Obrázek 24. PAM. Silhouette width Obrázek 25. PAM Projekce do 2. a 3. proměnné Martin Betinec Shluková analýza 59 k means Martin Betinec Shluková analýza 60 k means PAM PAM PC Obrázek 26. Srovnání pro 5 shluků Obrázek 27. Srovnání pro 4 shluky
16 Martin Betinec Shluková analýza Nestandardizovaná data. Pro zajímavost: shluková analýza u nestandardizovaných dat je znehodnocena měřítkom porměnné Assault (tj. směrodatnou odchylkou), takže je vidět, že shluky vpodstatě jen vytvářejí škálu podél této proměnné Martin Betinec Shluková analýza 62 k means PAM Obrázek 28. Srovnání pro 5 shluků, nestandardizovaná data Martin Betinec Shluková analýza 63 k means PAM Obrázek 29. Srovnání pro 4 shluky, nestandardizovaná data
Shluková analýza dat a stanovení počtu shluků
Shluková analýza dat a stanovení počtu shluků Autor: Tomáš Löster Vysoká škola ekonomická v Praze Ostrava, červen 2017 Osnova prezentace Úvod a teorie shlukové analýzy Podrobný popis shlukování na příkladu
Shluková analýza. Jiří Militky. Analýza experimentálních dat V. Červeně označené slide jsou jen pro doplnění informací a nezkouší se.
Červeně označené slide jsou jen pro doplnění informací a nezkouší se. Shluková analýza Jiří Militky Analýza experimentálních dat V Klasifikace objektů Rozdělení objektů do shluků dle jejich podobnosti
AVDAT Mnohorozměrné metody, metody klasifikace Shluková analýza
AVDAT Mnohorozměrné metody, metody klasifikace Shluková analýza Josef Tvrdík Katedra informatiky Přírodovědecká fakulta Ostravská univerzita Shluková analýza Cílem shlukové analýzy je nalézt v datech podmnožiny
Vícerozměrné statistické metody
Vícerozměrné statistické metody Shluková analýza Jiří Jarkovský, Simona Littnerová FSTA: Pokročilé statistické metody Typy shlukových analýz Shluková analýza: cíle a postupy Shluková analýza se snaží o
STATISTICKÉ NÁSTROJE A JEJICH VYUŽITÍ PŘI SEGMENTACI TRHU STATISTICAL TOOLS AND THEIR UTILIZATION DURING THE PROCESS OF MARKETING SEGMENTATION
STATISTICKÉ NÁSTROJE A JEJICH VYUŽITÍ PŘI SEGMENTACI TRHU STATISTICAL TOOLS AND THEIR UTILIZATION DURING THE PROCESS OF MARKETING SEGMENTATION Anna Čermáková Michael Rost Abstrakt Cílem příspěvku bylo
Statistické metody v ekonomii. Ing. Michael Rost, Ph.D.
Statistické metody v ekonomii Ing. Michael Rost, Ph.D. Jihočeská univerzita v Českých Budějovicích Shluková analýza Shluková analýza je souhrnným názvem pro celou řadu výpočetních algoritmů, jejichž cílem
4 STATISTICKÁ ANALÝZA VÍCEROZMĚRNÝCH DAT
4 SAISICKÁ ANALÝZA VÍCEROZMĚRNÝCH DA V technické biologické ale také lékařské praxi se často vedle informací obsažených v náhodném skaláru ξ vyskytují i informace obsažené v náhodném vektoru ξ s m složkami
Vícerozměrné statistické metody
Vícerozměrné statistické metody Podobnosti a vzdálenosti ve vícerozměrném prostoru, asociační matice II Jiří Jarkovský, Simona Littnerová Vícerozměrné statistické metody Práce s asociační maticí Vzdálenosti
Úvodem Dříve les než stromy 3 Operace s maticemi
Obsah 1 Úvodem 13 2 Dříve les než stromy 17 2.1 Nejednoznačnost terminologie 17 2.2 Volba metody analýzy dat 23 2.3 Přehled vybraných vícerozměrných metod 25 2.3.1 Metoda hlavních komponent 26 2.3.2 Faktorová
ANALÝZA A KLASIFIKACE DAT. Institut biostatistiky a analýz
ANALÝZA A KLASIFIKACE DAT prof. Ing. Jiří Holčík,, CSc. VII. VOLBA A VÝBĚR PŘÍZNAKŮ ZAČÍNÁME kolik a jaké příznaky? málo příznaků možná chyba klasifikace; moc příznaků možná nepřiměřená pracnost, vysoké
Kontingenční tabulky, korelační koeficienty
Statistika II Katedra ekonometrie FVL UO Brno kancelář 69a, tel 973 442029 email:jirineubauer@unobcz Budeme předpokládat, že X a Y jsou kvalitativní náhodné veličiny, obor hodnot X obsahuje r hodnot (kategorií,
Cvičná bakalářská zkouška, 1. varianta
jméno: studijní obor: PřF BIMAT počet listů(včetně tohoto): 1 2 3 4 5 celkem Cvičná bakalářská zkouška, 1. varianta 1. Matematická analýza Najdětelokálníextrémyfunkce f(x,y)=e 4(x y) x2 y 2. 2. Lineární
Státnice odborné č. 20
Státnice odborné č. 20 Shlukování dat Shlukování dat. Metoda k-středů, hierarchické (aglomerativní) shlukování, Kohonenova mapa SOM Shlukování dat Shluková analýza je snaha o seskupení objektů do skupin
Fakulta chemicko-technologická Katedra analytické chemie. 3.2 Metody s latentními proměnnými a klasifikační metody
Fakulta chemicko-technologická Katedra analytické chemie 3.2 Metody s latentními proměnnými a klasifikační metody Vypracoval: Ing. Tomáš Nekola Studium: licenční Datum: 21. 1. 2008 Otázka 1. Vypočtěte
5 Vícerozměrná data - kontingenční tabulky, testy nezávislosti, regresní analýza
5 Vícerozměrná data - kontingenční tabulky, testy nezávislosti, regresní analýza 5.1 Vícerozměrná data a vícerozměrná rozdělení Při zpracování vícerozměrných dat se hledají souvislosti mezi dvěma, případně
NUMERICKÁ KLASIFIKACE. David Zelený Zpracování dat v ekologii společenstev
NUMERICKÁ KLASIFIKACE http://wfc3.gsfc.nasa.gov PROČ MÁ SMYSL VĚCI KLASIFIKOVAT? vlnová délka (~ ekologický gradient) 172 http://wfc3.gsfc.nasa.gov PROČ MÁ SMYSL VĚCI KLASIFIKOVAT? vlnová délka (~ ekologický
Pravděpodobnost a aplikovaná statistika
Pravděpodobnost a aplikovaná statistika MGR. JANA SEKNIČKOVÁ, PH.D. 2. KAPITOLA PODMÍNĚNÁ PRAVDĚPODOBNOST 3. KAPITOLA NÁHODNÁ VELIČINA 9.11.2017 Opakování Uveďte příklad aplikace geometrické definice pravděpodobnosti
Metody analýzy dat I. Míry a metriky - pokračování
Metody analýzy dat I Míry a metriky - pokračování Literatura Newman, M. (2010). Networks: an introduction. Oxford University Press. [168-193] Zaki, M. J., Meira Jr, W. (2014). Data Mining and Analysis:
Kontingenční tabulky, korelační koeficienty
Statistika II Katedra ekonometrie FVL UO Brno kancelář 69a, tel. 973 442029 email:jiri.neubauer@unob.cz Mějme kategoriální proměnné X a Y. Vytvoříme tzv. kontingenční tabulku. Budeme tedy testovat hypotézu
Vícerozměrná analýza dat
Jiří Jarkovský Plán n kurzu Každých 4 dní 4 vyučovací hodiny Ukončení zkouškou Písemná Zaměřená na principy a aplikace analýz Cíl kurzu Vysvětlit principy vícerozměrných analýz, jejich aplikaci v biologii
Multivariátní porovnání dat - klastrová (shluková) analýza
Multivariátní porovnání dat - klastrová (shluková) analýza - bez apriorních předpokladů Shluková analýza Shluková analýza - cluster analysis úvod - definice princip algoritmy výsledky Shluková analýza
Mnohorozměrná statistická data
Mnohorozměrná statistická data Ekonometrie Jiří Neubauer Katedra ekonometrie FVL UO Brno kancelář 69a, tel. 973 442029 email:jiri.neubauer@unob.cz Jiří Neubauer (Katedra ekonometrie UO Brno) Mnohorozměrná
SHLUKOVÁ ANALÝZA KRAJŮ ČESKÉ REPUBLIKY DLE VYBRANÝCH CHARAKTERISTIK ZEMĚDĚLSTVÍ V PROGRAMU STATISTICA
SHLUKOVÁ ANALÝZA KRAJŮ ČESKÉ REPUBLIKY DLE VYBRANÝCH CHARAKTERISTIK ZEMĚDĚLSTVÍ V PROGRAMU STATISTICA CLUSTER ANALYSIS OF REGIONS OF CZECH REPUBLIC BY SELECTED CHARACTERISTICS OF AGRICULTURE IN PROGRAM
ZX510 Pokročilé statistické metody geografického výzkumu. Téma: Měření síly asociace mezi proměnnými (korelační analýza)
ZX510 Pokročilé statistické metody geografického výzkumu Téma: Měření síly asociace mezi proměnnými (korelační analýza) Měření síly asociace (korelace) mezi proměnnými Vztah mezi dvěma proměnnými existuje,
Míry podobnosti, základy fuzzy matematiky
Evropský sociální fond Investujeme do vaší budoucnosti Míry podobnosti, základy fuzzy matematiky Matematika pro informatiky, FIT ČVUT Martin Holeňa, 9. týden LS 2010/2011 O čem to bude? Přehled vzdáleností
ANALÝZA A KLASIFIKACE BIOMEDICÍNSKÝCH DAT. Institut biostatistiky a analýz
ANALÝZA A KLASIFIKACE BIOMEDICÍNSKÝCH DAT prof. Ing. Jiří Holčík, CSc. VII. VOLBA A VÝBĚR PŘÍZNAKŮ ZAČÍNÁME kolik a jaké příznaky? málo příznaků možná chyba klasifikace; moc příznaků možná nepřiměřená
PROSTOROVÉ HIERARCHICKÉ SHLUKOVÁNÍ
PROSTOROVÉ HIERARCHICKÉ SHLUKOVÁNÍ Jiří HORÁK 1, Igor IVAN 1, Tomáš INSPEKTOR 1 1 Institut geoinformatiky, Hornicko-geologická fakulta, VŠB-TUO, 17. listopadu 15/2172, 708 33, Ostrava- Poruba, ČR Abstrakt
Jazyk matematiky. 2.1. Matematická logika. 2.2. Množinové operace. 2.3. Zobrazení. 2.4. Rozšířená číslená osa
2. Jazyk matematiky 2.1. Matematická logika 2.2. Množinové operace 2.3. Zobrazení 2.4. Rozšířená číslená osa 1 2.1 Matematická logika 2.1.1 Výrokový počet logická operace zapisujeme čteme česky negace
3.4 Určení vnitřní struktury analýzou vícerozměrných dat
3. Určení vnitřní struktury analýzou vícerozměrných dat. Metoda hlavních komponent PCA Zadání: Byly provedeny analýzy chladící vody pro odběrové místa. Byly stanoveny parametry - ph, vodivost, celková
Charakterizace rozdělení
Charakterizace rozdělení Momenty f(x) f(x) f(x) μ >μ 1 σ 1 σ >σ 1 g 1 g σ μ 1 μ x μ x x N K MK = x f( x) dx 1 M K = x N CK = ( x M ) f( x) dx ( xi M 1 C = 1 K 1) N i= 1 K i K N i= 1 K μ = E ( X ) = xf
Testování hypotéz a měření asociace mezi proměnnými
Testování hypotéz a měření asociace mezi proměnnými Testování hypotéz Nulová a alternativní hypotéza většina statistických analýz zahrnuje různá porovnání, hledání vztahů, efektů Tvrzení, že efekt je nulový,
6. Lineární regresní modely
6. Lineární regresní modely 6.1 Jednoduchá regrese a validace 6.2 Testy hypotéz v lineární regresi 6.3 Kritika dat v regresním tripletu 6.4 Multikolinearita a polynomy 6.5 Kritika modelu v regresním tripletu
Jana Vránová, 3. lékařská fakulta UK
Jana Vránová, 3. lékařská fakulta UK Vznikají při zkoumání vztahů kvalitativních resp. diskrétních znaků Jedná se o analogii s korelační analýzou spojitých znaků Přitom předpokládáme, že každý prvek populace
PSY117/454 Statistická analýza dat v psychologii Přednáška 10
PSY117/454 Statistická analýza dat v psychologii Přednáška 10 TESTY PRO NOMINÁLNÍ A ORDINÁLNÍ PROMĚNNÉ NEPARAMETRICKÉ METODY... a to mělo, jak sám vidíte, nedozírné následky. Smrť Analýza četností hodnot
Pravděpodobnost a statistika, Biostatistika pro kombinované studium. Jan Kracík
Pravděpodobnost a statistika, Biostatistika pro kombinované studium Letní semestr 2017/2018 Tutoriál č. 2:, náhodný vektor Jan Kracík jan.kracik@vsb.cz náhodná veličina rozdělení pravděpodobnosti náhodné
Miroslav Čepek
Vytěžování Dat Přednáška 4 Shluková analýza Miroslav Čepek Katedra počítačů, Computational Intelligence Group Evropský sociální fond Praha & EU: Investujeme do vaší budoucnosti 14.10.2014 Miroslav Čepek
Vícerozměrné statistické metody
Vícerozměrné statistické metody Vícerozměrné statistické rozdělení a testy, operace s vektory a maticemi Jiří Jarkovský, Simona Littnerová FSTA: Pokročilé statistické metody Vícerozměrné statistické rozdělení
odlehlých hodnot pomocí algoritmu k-means
Chybějící a odlehlé hodnoty; odstranění odlehlých hodnot pomocí algoritmu k-means Návod ke druhému cvičení Matěj Holec, holecmat@fel.cvut.cz ZS 2011/2012 Úvod Cílem cvičení je připomenout důležitost předzpracování
(supervizovaného učení), jako je regrese a klasifikace. V takové situaci pozorujeme jak soubor vlastností
Učení bez učitele Nesupervizované versus supervizované učení: Většina tohoto kurzu je zaměřena na metody učení s učitelem (supervizovaného učení), jako je regrese a klasifikace. V takové situaci pozorujeme
Obsah Úvod Kapitola 1 Než začneme Kapitola 2 Práce s hromadnými daty před analýzou
Úvod.................................................................. 11 Kapitola 1 Než začneme.................................................................. 17 1.1 Logika kvantitativního výzkumu...........................................
n = 2 Sdružená distribuční funkce (joint d.f.) n. vektoru F (x, y) = P (X x, Y y)
5. NÁHODNÝ VEKTOR 5.1. Rozdělení náhodného vektoru Náhodný vektor X = (X 1, X 2,..., X n ) T n-rozměrný vektor, složky X i, i = 1,..., n náhodné veličiny. Vícerozměrná (n-rozměrná) náhodná veličina n =
ANALÝZA DAT V R 7. KONTINGENČNÍ TABULKA. Mgr. Markéta Pavlíková Katedra pravděpodobnosti a matematické statistiky MFF UK.
ANALÝZA DAT V R 7. KONTINGENČNÍ TABULKA Mgr. Markéta Pavlíková Katedra pravděpodobnosti a matematické statistiky MFF UK www.biostatisticka.cz PŘEHLED TESTŮ rozdělení normální spojité alternativní / diskrétní
14/10/2015 Z Á K L A D N Í C E N Í K Z B O Ž Í Strana: 1
14/10/2015 Z Á K L A D N Í C E N Í K Z B O Ž Í Strana: 1 S Á ČK Y NA PS Í E XK RE ME N TY SÁ ČK Y e xk re m en t. p o ti sk P ES C Sá čk y P ES C č er né,/ p ot is k/ 12 m y, 20 x2 7 +3 c m 8.8 10 bl ok
Mnohorozměrná statistická data
Statistika II Katedra ekonometrie FVL UO Brno kancelář 69a, tel. 973 442029 email:jiri.neubauer@unob.cz Statistický znak, statistický soubor Jednotlivé objekty nebo subjekty, které jsou při statistickém
1 Zobrazení 1 ZOBRAZENÍ 1. Zobrazení a algebraické struktury. (a) Ukažte, že zobrazení f : x
1 ZOBRAZENÍ 1 Zobrazení a algebraické struktury 1 Zobrazení Příklad 1.1. (a) Ukažte, že zobrazení f : x na otevřený interval ( 1, 1). x x +1 je bijekce množiny reálných čísel R (b) Necht a, b R, a < b.
NADSTAVBOVÝ MODUL MOHSA V1
NADSTAVBOVÝ MODUL MOHSA V1 Nadstavbový modul pro hierarchické shlukování se jmenuje Mod_Sh_Hier (MOHSA V1) je součástí souboru Shluk_Hier.xls. Tento soubor je přístupný na http://jonasova.upce.cz, a je
12. cvičení z PST. 20. prosince 2017
1 cvičení z PST 0 prosince 017 11 test rozptylu normálního rozdělení Do laboratoře bylo odesláno n = 5 stejných vzorků krve ke stanovení obsahu alkoholu X v promilích alkoholu Výsledkem byla realizace
Poznámky k předmětu Aplikovaná statistika, 4. téma
Poznámky k předmětu Aplikovaná statistika, 4. téma 4. Náhodné vektory V praxi se nám může hodit postihnout více vlastností jednoho objektu najednou, např. výšku, váhu a pohlaví člověka; rychlost chemické
STATISTICKÉ METODY; ZÍSKÁVÁNÍ INFORMACÍ Z DRUHOVÝCH A ENVIRONMENTÁLNÍCH DAT
STATISTICKÉ METODY; ZÍSKÁVÁNÍ INFORMACÍ Z DRUHOVÝCH A ENVIRONMENTÁLNÍCH DAT (NE)VÝHODY STATISTIKY OTÁZKY si klást ještě před odběrem a podle nich naplánovat design, metodiku odběru (experimentální vs.
Dopady programového období regionální politiky EU na rozvoj českých mikroregionů PAVEL ZDRAŽIL, PETRA A PPLOVÁ
Dopady programového období 2007-2013 regionální politiky EU na rozvoj českých mikroregionů PAVEL ZDRAŽIL, PETRA A PPLOVÁ X X. M E Z I N Á R O D N Í K O L O K V I U M O R E G I O N Á L N Í C H V Ě D Á C
Definice 1.1. Nechť je M množina. Funkci ρ : M M R nazveme metrikou, jestliže má následující vlastnosti:
Přednáška 1. Definice 1.1. Nechť je množina. Funkci ρ : R nazveme metrikou, jestliže má následující vlastnosti: (1 pro každé x je ρ(x, x = 0; (2 pro každé x, y, x y, je ρ(x, y = ρ(y, x > 0; (3 pro každé
Poznámky k předmětu Aplikovaná statistika, 4. téma
Poznámky k předmětu Aplikovaná statistika, 4. téma 4. Náhodné vektory V praxi se nám může hodit postihnout více vlastností jednoho objektu najednou, např. výšku, váhu a pohlaví člověka; rychlost chemické
Učební texty k státní bakalářské zkoušce Matematika Skalární součin. študenti MFF 15. augusta 2008
Učební texty k státní bakalářské zkoušce Matematika Skalární součin študenti MFF 15. augusta 2008 1 10 Skalární součin Požadavky Vlastnosti v reálném i komplexním případě Norma Cauchy-Schwarzova nerovnost
Základy popisné statistiky. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
Základy popisné statistiky Anotace Realitu můžeme popisovat různými typy dat, každý z nich se specifickými vlastnostmi, výhodami, nevýhodami a vlastní sadou využitelných statistických metod -od binárních
= 8 25 + 19 12 = 32 43 32 = 11. 2 : 1 k > 0. x k + (1 x) 4k = 2k x + 4 4x = 2 x = 2 3. 1 x = 3 1 2 = 2 : 1.
4 4 = 8 8 8 = 5 + 19 1 = 4 = 11 : 1 k > 0 k 4k x 1 x x k + (1 x) 4k = k x + 4 4x = x = x 1 x = 1 = : 1. v h h s 75 v 50 h s v v 50 s h 75 180 v h 90 v 50 h 180 90 50 = 40 s 65 v 80 60 80 80 65 v 50 s 50
Příklad 2: Určení cihlářských surovin na základě chemické silikátové analýzy
Příklad 2: Určení cihlářských surovin na základě chemické silikátové analýzy Zadání: Deponie nadložních jílových sedimentů SHP byla testována za účelem využití v cihlářské výrobě. Z deponie bylo odebráno
Fakulta Elektrotechniky a Informatiky. Katedra Informatiky Martin Hynar
Vysoká Škola Báňská Technická Univerzita Ostrava Fakulta Elektrotechniky a Informatiky Katedra Informatiky Metody shlukování 2003 Martin Hynar Obsah Seznam obrázků ii 1 Motivace 1 2 Míra (ne)podobnosti
Titulní stránka popisuje techniku shlukování a typ vzdálenosti. 2. Tvorba shluků a zařazení objektů do shluků:
Vzorová úloha 4.10 Nalezení shluků hráčů podobných vlastností Použijeme dat úlohy S4.21 Shluky 12 superhvězd košíkové. Následující tabulka dat obsahuje informace o osmi hráčských vlastnostech a aktivitách
VI. Maticový počet. VI.1. Základní operace s maticemi. Definice. Tabulku
VI Maticový počet VI1 Základní operace s maticemi Definice Tabulku a 11 a 12 a 1n a 21 a 22 a 2n, a m1 a m2 a mn kde a ij R, i = 1,, m, j = 1,, n, nazýváme maticí typu m n Zkráceně zapisujeme (a ij i=1m
MATICE. a 11 a 12 a 1n a 21 a 22 a 2n A = = [a ij]
MATICE Matice typu m/n nad tělesem T je soubor m n prvků z tělesa T uspořádaných do m řádků a n sloupců: a 11 a 12 a 1n a 21 a 22 a 2n A = = [a ij] a m1 a m2 a mn Prvek a i,j je prvek matice A na místě
Testy nezávislosti kardinálních veličin
Testy nezávislosti kardinálních veličin Komentované řešení pomocí programu R Ústav matematiky Fakulta chemicko inženýrská Vysoká škola chemicko-technologická v Praze Načtení vstupních dat Vstupní data
Korelační a regresní analýza. 1. Pearsonův korelační koeficient 2. jednoduchá regresní analýza 3. vícenásobná regresní analýza
Korelační a regresní analýza 1. Pearsonův korelační koeficient 2. jednoduchá regresní analýza 3. vícenásobná regresní analýza Pearsonův korelační koeficient u intervalových a poměrových dat můžeme jako
MATEMATICKÁ STATISTIKA - XP01MST
MATEMATICKÁ STATISTIKA - XP01MST 1. Úvod. Matematická statistika (statistics) se zabývá vyšetřováním zákonitostí, které v sobě obsahují prvek náhody. Zpracováním hodnot, které jsou výstupem sledovaného
V praxi pracujeme s daty nominálními (nabývají pouze dvou hodnot), kategoriálními (nabývají více
9 Vícerozměrná data a jejich zpracování 9.1 Vícerozměrná data a vícerozměrná rozdělení Při zpracování vícerozměrných dat, hledáme souvislosti mezi dvěmi, případně více náhodnými veličinami. V praxi pracujeme
Zpracování podkladů pro praktickou část distanční opory pro předmět KZMSA - část hierarchické shlukování Jan Míčka
Univerzita Pardubice Fakulta ekonomicko-správní Zpracování podkladů pro praktickou část distanční opory pro předmět KZMSA - část hierarchické shlukování Jan Míčka Bakalářská práce 009 Tuto práci jsem
Algoritmy pro shlukování prostorových dat
Algoritmy pro shlukování prostorových dat Marta Žambochová Katedra matematiky a informatiky Fakulta sociálně ekonomická Univerzita J. E. Purkyně v Ústí nad Labem ROBUST 21. 26. leden 2018 Rybník - Hostouň
Analýza dat na PC I.
CENTRUM BIOSTATISTIKY A ANALÝZ Lékařská a Přírodovědecká fakulta, Masarykova univerzita Analýza dat na PC I. Popisná analýza v programu Statistica IBA výuka Základní popisná statistika Popisná statistika
Řešení příkladu - klasifikace testovacího subjektu podle minimální vzdálenosti:
Řešení příkladu - klasifikace testovacího subjektu podle minimální vzdálenosti: Postup: I) zvolení metriky pro výpočet vzdáleností dvou bodů II) zvolení metriky pro určení vzdálenosti mezi dvěma množinami
Četba: Texty o lineární algebře (odkazy na webových stránkách přednášejícího).
Předmět: MA 4 Dnešní látka Lineární (vektorový) prostor Normovaný lineární prostor Normy matic a vektorů Symetrické matice, pozitivně definitní matice Gaussova eliminační metoda, podmíněnost matic Četba:
Fakt. Každou soustavu n lineárních ODR řádů n i lze eliminací převést ekvivalentně na jednu lineární ODR
DEN: ODR teoreticky: soustavy rovnic Soustava lineárních ODR 1 řádu s konstantními koeficienty je soustava ve tvaru y 1 = a 11 y 1 + a 12 y 2 + + a 1n y n + b 1 (x) y 2 = a 21 y 1 + a 22 y 2 + + a 2n y
4.3.2 Koeficient podobnosti
4.. Koeficient podobnosti Předpoklady: 04001 Př. 1: Která z následujících tvrzení jsou správná? a) Každé dvě úsečky jsou podobné. b) Každé dva pravoúhlé trojúhelníky jsou podobné. c) Každé dva rovnostranné
Odhalení skryté struktury a vnitřních vazeb dat metodami vícerozměrné statistické analýzy
Odhalení skryté struktury a vnitřních vazeb dat metodami vícerozměrné statistické analýzy Prof. RNDr. Milan Meloun, DrSc, Katedra analytické chemie, Univerzita Pardubice, 532 10 Pardubice, milan. meloun@upce.
Euklidovský prostor. Parametrické rovnice roviny. Obecná rovnice roviny. . p.1/25
n 3 GeometrievÊ zvláštěvê Euklidovský prostor n Ê Norma, úhel vektorů, skalární a vektorový součin Parametrické rovnice přímky Parametrické rovnice roviny Obecná rovnice roviny. p.1/25 Euklidovskýprostor
1 Báze a dimenze vektorového prostoru 1
1 Báze a dimenze vektorového prostoru 1 Báze a dimenze vektorového prostoru 1 2 Aritmetické vektorové prostory 7 3 Eukleidovské vektorové prostory 9 Levá vnější operace Definice 5.1 Necht A B. Levou vnější
KGG/STG Statistika pro geografy
KGG/STG Statistika pro geografy 9. Korelační analýza Mgr. David Fiedor 20. dubna 2015 Analýza závislostí v řadě geografických disciplín studujeme jevy, u kterých vyšetřujeme nikoliv pouze jednu vlastnost
Korelační a regresní analýza
Korelační a regresní analýza Analýza závislosti v normálním rozdělení Pearsonův (výběrový) korelační koeficient: r = s XY s X s Y, kde s XY = 1 n (x n 1 i=0 i x )(y i y ), s X (s Y ) je výběrová směrodatná
LWS při heteroskedasticitě
Stochastické modelování v ekonomii a financích Petr Jonáš 7. prosince 2009 Obsah 1 2 3 4 5 47 1 Předpoklad 1: Y i = X i β 0 + e i i = 1,..., n. (X i, e i) je posloupnost nezávislých nestejně rozdělených
Necht L je lineární prostor nad R. Operaci : L L R nazýváme
Skalární součin axiomatická definice odvození velikosti vektorů a úhlu mezi vektory geometrická interpretace ortogonalita vlastnosti ortonormálních bázi [1] Definice skalárního součinu Necht L je lineární
Skalární součin dovoluje zavedení metriky v afinním bodovém prostoru, tj. umožňuje nám určovat vzdálenosti, odchylky, obsahy a objemy.
6 Skalární součin Skalární součin dovoluje zavedení metriky v afinním bodovém prostoru, tj. umožňuje nám určovat vzdálenosti, odchylky, obsahy a objemy. Příklad: Určete odchylku přímek p, q : p : x =1+3t,
Četba: Texty o lineární algebře (odkazy na webových stránkách přednášejícího).
Předmět: MA 4 Dnešní látka Vektorový (lineární) prostor (připomenutí) Normovaný lineární prostor Normy matic a vektorů Symetrické matice, pozitivně definitní matice Gaussova eliminační metoda, podmíněnost
Notice:Jagran Infotech Ltd. Printed by Fontographer 4.1 on 6/3/2003 at 7:12 PM
$ % $0 Undefined $1 Undefined $2 Undefined $3 Undefined $4 Undefined $5 Undefined $6 Undefined $7 Undefined $8 Undefined $9 Undefined $A Undefined $B Undefined $C Undefined $D Undefined $E Undefined $F
Univerzita Pardubice. Fakulta ekonomicko-správní
Univerzita Pardubice Fakulta ekonomicko-správní Nadstavbový modul v MS Excel pro metody hierarchického shlukování. Jaroslav Lohynský Diplomová práce 2011 Prohlašuji: Tuto práci jsem vypracoval samostatně.
Mannův-Whitneyův(Wilcoxonův) test pořadová obdoba dvouvýběrového t-testu. Statistika (MD360P03Z, MD360P03U) ak. rok 2007/2008
Statistika (MD30P03Z, MD30P03U) ak. rok 007/008 Karel Zvára karel.zvara@mff.cuni.cz http://www.karlin.mff.cuni.cz/ zvara (naposledy upraveno. listopadu 007) 1(4) Mann-Whitney párový Wilcoxon párový znaménkový
Příklad 2: Obsah PCB v játrech zemřelých lidí. Zadání: Data: Program:
Příklad 2: Obsah PCB v játrech zemřelých lidí Zadání: V rámci Monitoringu zdraví byly měřeny koncentrace polychlorovaných bifenylů vjátrech lidí zemřelých náhodnou smrtí ve věku 40 let a více. Sedm vybraných
VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ BRNO UNIVERSITY OF TECHNOLOGY
VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ BRNO UNIVERSITY OF TECHNOLOGY FAKULTA ELEKTROTECHNIKY A KOMUNIKAČNÍCH TECHNOLOGIÍ ÚSTAV AUTOMATIZACE A MĚŘÍCÍ TECHNIKY FACULTY OF ELECTRICAL ENGINEERING AND COMMUNICATION
Metody sociálních výzkumů. Velmi skromný úvod do statistiky. Motto: Jsou tři druhy lži-lež prostá, lež odsouzeníhodná a statistika.
Metody sociálních výzkumů Velmi skromný úvod do statistiky. Motto: Jsou tři druhy lži-lež prostá, lež odsouzeníhodná a statistika. Statistika Význam slova-vychází ze slova stát, s jeho administrativou
Lineární algebra : Skalární součin a ortogonalita
Lineární algebra : Skalární součin a ortogonalita (15. přednáška) František Štampach, Karel Klouda frantisek.stampach@fit.cvut.cz, karel.klouda@fit.cvut.cz Katedra aplikované matematiky Fakulta informačních
NMAI059 Pravděpodobnost a statistika
NMAI059 Pravděpodobnost a statistika podle přednášky Daniela Hlubinky (hlubinka@karlin.mff.cuni.cz) zapsal Pavel Obdržálek (pobdr@matfyz.cz) 205/20 poslední změna: 4. prosince 205 . přednáška. 0. 205 )
PSY117/454 Statistická analýza dat v psychologii Přednáška 5 ZOBRAZENÍ DVOUROZMĚRNÝCH DAT KORELAČNÍ KOEFICIENT. Všichni žijeme v matrixu.
PSY117/454 Statistická analýza dat v psychologii Přednáška 5 ZOBRAZENÍ DVOUROZMĚRNÝCH DAT KORELAČNÍ KOEFICIENT Všichni žijeme v matrixu. V minulých dílech jsme viděli/y: Frekvence = četnosti Procenta =
y (5) (x) y (4) (x) + 4y (3) (x) 12y (x) 45y (x) 27y(x) (horní indexy značí derivaci) pro 3. y(x) = x sin 3x 4. y(x) = x cos 3x 9.
Přezdívka: Jméno a příjmení: výsledek 101 Vypočtěte y x y 4 x + 4y x 12y x 4y x 27yx horní indexy značí derivaci pro 1. yx = sin x 2. yx = cos x. yx = x sin x 4. yx = x cos x. yx = e x 1 6. yx = xe x 7.
FP - SEMINÁŘ Z NUMERICKÉ MATEMATIKY. Katedra matematiky a didaktiky matematiky Technická univerzita v Liberci
FP - SEMINÁŘ Z NUMERICKÉ MATEMATIKY Dana Černá http://www.fp.tul.cz/kmd/ Katedra matematiky a didaktiky matematiky Technická univerzita v Liberci OBSAH A CÍLE SEMINÁŘE: Opakování a procvičení vybraných
Statistická analýza jednorozměrných dat
Statistická analýza jednorozměrných dat Prof. RNDr. Milan Meloun, DrSc. Univerzita Pardubice, Pardubice 31.ledna 2011 Tato prezentace je spolufinancována Evropským sociálním fondem a státním rozpočtem
Upozornění : barevné odstíny zobrazené na této stránce se mohou z důvodu možného zkreslení Vašeho monitoru lišit od fyzické dodávky.
Upozornění : barevné odstíny zobrazené na této stránce se mohou z důvodu možného zkreslení Vašeho monitoru lišit od fyzické dodávky. ODSTÍN SKUPINA CENOVÁ SKUPINA ODRÁŽIVOST A10-A BRIGHT A 1 81 A10-B BRIGHT
KORELACE. Komentované řešení pomocí programu Statistica
KORELACE Komentované řešení pomocí programu Statistica Vstupní data I Data umístěná v excelovském souboru překopírujeme do tabulky ve Statistice a pojmenujeme proměnné, viz prezentace k tématu Popisná
Aplikovaná statistika v R - cvičení 2
Aplikovaná statistika v R - cvičení 2 Filip Děchtěrenko Matematicko-fyzikální fakulta filip.dechterenko@gmail.com 5.6.2014 Filip Děchtěrenko (MFF UK) Aplikovaná statistika v R 5.6.2014 1 / 18 Přehled Rkových
PSY117/454 Statistická analýza dat v psychologii seminář 9. Statistické testování hypotéz
PSY117/454 Statistická analýza dat v psychologii seminář 9 Statistické testování hypotéz Základní výzkumné otázky/hypotézy 1. Stanovení hodnoty parametru =stanovení intervalu spolehlivosti na μ, σ, ρ,
Kategorická data METODOLOGICKÝ PROSEMINÁŘ II TÝDEN 7 4. DUBNA dubna 2018 Lukáš Hájek, Karel Höfer Metodologický proseminář II 1
Kategorická data METODOLOGICKÝ PROSEMINÁŘ II TÝDEN 7 4. DUBNA 2018 4. dubna 2018 Lukáš Hájek, Karel Höfer Metodologický proseminář II 1 Typy proměnných nominální (nominal) o dvou hodnotách lze říci pouze
Statistické testování hypotéz II
PSY117/454 Statistická analýza dat v psychologii Přednáška 9 Statistické testování hypotéz II Přehled testů, rozdíly průměrů, velikost účinku, síla testu Základní výzkumné otázky/hypotézy 1. Stanovení
ELIMINACE VLIVU DRUHÉ ROTACE PŘI AFINNĚ INVARIANTNÍM 2D ROZPOZNÁVÁNÍ
ELIMINACE VLIVU DRUHÉ ROTACE PŘI AFINNĚ INVARIANTNÍM 2D ROZPOZNÁVÁNÍ K. Nováková 1, J. Kukal 1,2 1 Fakulta jaderná a fyzikálně inženýrská, ČVUT v Praze 2 Ústav počítačové a řídicí techniky, VŠCHT Praha
4. Na obrázku je rozdělovací funkce (hustota pravděpodobnosti) náhodné veličiny X. Jakou hodnotu musí mít parametr k?
A 1. Stanovte pravděpodobnost, že náhodná veličina X nabyde hodnoty menší než 6: P( X 6). Veličina X má rozdělení se střední hodnotou 6 a směrodatnou odchylkou 5: N(6,5). a) 0 b) 1/3 c) ½ 2. Je možné,