Shluková analýza. shlukovací metodě

Rozměr: px
Začít zobrazení ze stránky:

Download "Shluková analýza. shlukovací metodě"

Transkript

1 Shluková analýza (Cluster analysis, numerická taxonomie,... ) Cíle shlukové analýzy : ne testovací, ale popisné: klasifikace objektů (Q-technika) nebo znaků (R-technika) nalezení typů generování hypotéz o klasifikaci Předpoklady: Každý objekt je popsán týmiž znaky. Množinu objektů označme O Martin Betinec Shluková analýza 2 Shlukovací metody: hierarchické: Výsledkem je systém {A i } i, kde A i, A j O : buď A i A j = nebo A i A j = A i nebo A i A j = A j shlukovací (aglomerativní) rozhlukovací (divisivní) nehierarchické: Výsledný systém {A i } i tvoří disjunktní množiny optimalizační analýzy modů Výsledek: Ne vždy jednoznačný závislý na: shlukovací metodě měření vzdálenosti, tj. na volbě míry nepodobnosti (metriky) kódování znaků (u nominálních veličin) standartizace znaků (u kardinálních veličin) závislostní struktuře zahrnutých znaků 1 Martin Betinec Shluková analýza 3 1. Data Datový soubor se skládá ze trojice proměnných, které uvádějí počety vězňů odsouzených za přepadení, vraždu, znásilnění na obyvatel každého ze 50 států USA. Čtvrtá proměnná je procentuální zastoupení městského obyvatelstva daného státu. Datová matice x 1,1 x 1,2 x 1,3 x 1,4 x 2,1 x 2,2 x 2,3 x 3,4 X =.. x k,1 x k,2 x k,3 x k,4 (1.1).. x 50,1 x 50,2 x 50,3 x 50,4 Vektor k-tého pozorování x k = (x k,1, x k,2, x k,3, x k,4 ) pro k = 1,, 50. Vektor j-té proměnné x j = pro j = 1,, 4. x 1,j x 2,j. x 50,j Martin Betinec Shluková analýza 4 Murder Assault UrbanPop Rape

2 Martin Betinec Shluková analýza 5 Martin Betinec Shluková analýza 6 Popis dat Murder Assault Měřítko. Hodnoty znaku Assault zřetelně dominují všem ostatním viz obr. 15 a tab. 6, to může silně zkreslit měření vzdáleností jednotlivých objektů: odlišnost v této proměnné může zastínit odlišnosti v ostatních. Viz dále. Proto je vhodné proměnné standardizovat, tj. hodnotu j-tého znaku i-tého státu, přepočítáme: kde x j = i=1 x i,j a s j = z i,j = x i,j x j, s j i=1 (x i,j x j ) UrbanPop 0.41 Rape Murder Assault UrbanPop Rape min prumer median max var st.dev Tabulka 1. Shrnutí vlastností znaků Obrázek 1. Popis pozorování Martin Betinec Shluková analýza Nezávislost znaků. Je zřejmé, že znaky popisující kriminalitu jsou korelované, viz obr. 15 a tab. 7: Murder Assault UrbanPop Rape Murder Assault UrbanPop Rape Tabulka 2. Korelační koeficienty znaků. Klasický Pearsonův test shodně s pořadovým Spearmanovým i Kendallovým testem na hladině 95% zamítají nekorelovanost veličin Murder, Assault, Rape, jakož i nekorelovanost UrbanPop a Rape, viz tab. 8. Nekorelovanost UrbanPop a Assault je na hranici zamítnutí. (1,2) (1,3) (1,4) (2,3) (2,4) (3,4) Pearson Spearman Kendall Tabulka 3. Dosažené hladiny korelačních testů (p-value). Martin Betinec Shluková analýza 8 2. Měření vzdálenosti vzdálenosti se měří mezi objekty: (Q techniky) dle typu znaků, které objekt nese binární symetrický asymetrický nominální ordinální kardinální intervalové poměrové znaky (R techniky) verze cor koeficientu (Pearson,Spearman, χ 2 )

3 Martin Betinec Shluková analýza 9 pro objekty (znaky) i, j míry podobnosti (similarities)... s platí: (1) 0 s(i, j) 1 (2) s(i, j) = s(j, i) (3) s(i, i) = 1 míry nepodobnosti (disimilarities)... d platí: (1) 0 s(i, j) 1 (2) s(i, j) = s(j, i) (3) s(i, i) = 0 d(i, j) = 1 s(i, j) zadány přímo matice (ne)podobností (např. hodnocení soudců) prostřednictvím souřadnic objektů nutno spočítat Martin Betinec Shluková analýza 10 Míra nepodobnosti proměnných kardinální a ordinální d(f, g) odvozeno od Pearsonova, resp. Spearmanova cor(f, g) * d(f, g) = 1 cor(f,g) 2 d(f, g) = * d(f, g) = 1 cor(f, g) 0, cor(f, g) = 1 0.5, 0 1, +1 { 0, cor(f, g) = ±1 d(f, g) = 1, 0 nominální p-level χ 2 testu homogenity f a g nelze užit přímo statstiky X 2 různé DF Martin Betinec Shluková analýza 11 Binární proměnné symetrické setkání dvou 1 nese stejnou informaci jako setkání dvou 0 je jedno, který stav okóduji 1 a který 0 př. žena v celkové populaci užívají se invariantní koeficienty Simple matching, Rogers - Tanimoto, Sokal - Sneath asymetrické setkání dvou 1 nese informaci navíc, setkání dvou 0 nikoli indikátory řídkých jevů, např. žena v populaci fotbalových chuligánů, volič extrémistů, deviace,... užívají se neinvariantni koeficienty Jaccard, Dice - Sorensen, Sokal - Sneath Martin Betinec Shluková analýza 12 objekt j objekt i 1 0 celkem 1 a b a+b 0 c d c+d celkem a+c b+d p=a+b+c+d Tabulka 4. Asociační tabulka. typ název s(i, j) d(i, j) a+d sym Simple matching p a+d Rogers & Tanimoto Sokal & Sneath asym Jaccard Dice Sokal & Sneath a+d+2(c+b) 2(a+d) 2(a+d)+(c+b) a a+b+c 2a 2a+b+c a a+2(c+b) c+b p 2(c+b) a+d+2(c+b) c+b 2(a+d)+(c+b) b+c a+b+c b+c 2a+b+c 2(c+b) a+2(c+b) Tabulka 5. Asociační koeficienty binárních veličin.

4 Nominální proměnné Martin Betinec Shluková analýza 13 Ordinální proměnné Martin Betinec Shluková analýza 14 Strategie: sloučit hladiny tak, aby vznikla binární = ztráta info pro každou hladinu zavést 1 (asymetrickou) binární (indikátor) mnoho nových proměnných & typ (asymetrické), Simple matching tj. s(i, j) = u p d(i, j) = p u u nutno zvážit případné vážení dle počtu hladin (tj. dle míry informace při shodě) diskrétní spojité měřítko není lineární = lze se spolehnout jen na pořadí Př.: monotonní nelineární trafo intervalové proměnné, např.: y = log x, y = x, y = e x,... Označme: r if... pořadí i-tého pozorování proměnné f. M f = max i r if trafo r if na < 0, 1 > z if = r if 1 M f 1 vzdálenost z if a z jf se nyní změří pomocí Manhattan metriky Kardinální proměnné Martin Betinec Shluková analýza 15 intervalové informaci nese interval poměrové kladné, informaci nese poměr, stejné intervaly nemají stejnou informační hodnotu. Platí: d(20, 20) = d(20, 200) tj. např. koncentrace, radiační intenzita,..., často závislosti typu ae bx, kde a > 0 Poměrové kardinální znaky lze zpracovat jako intervalové = chyba spojité ordinální (tj. pracovat s pořadími) trafo y = log x a pak jako intervalové Martin Betinec Shluková analýza 16 Intervalové kardinální znaky Nechť je objekt číslo i reprezentován vektorem x i = (x i,1,, x i,p ). Resp. v případě standartizovaných dat z i = (z i,1,, z i,m ), viz část 3. Příklad: kriminalita v USA i = 1,, 50 a p = 4. Vzdálenost(metrika) je zobrazení d: R p R p R + 0, které pro x i, x j, x k R p, x i = (x i,1,, x i,p ), x j = (x j,1,, x j,p ), x k = (x k,1,, x k,p ). splňuje: (1) d(x i, x j ) 0 (2) d(x i, x j ) = 0 x i = x j (3) symetrie d(x i, x j ) = d(x j, x i ) (4) trojúhelníková nerovnost d(x i, x j ) d(x i, x k ) + d(x k, x j )

5 J OT Většina metrik je odvozena od: (1) Minkowského d t (x i, x j ) = Martin Betinec Shluková analýza 17 [ p k=1 (x i,k x j,k ) t ]1 t t = 1, 2, 3, (2.1) např. (2) Manhattan (city-block) vznikne z d t (1.1) pro t = 1 p d 1 (x i, x j ) = x i,k x j,k, (2.2) k=1 (3) euklidovská vznikne z d t (1.1) pro t = 2 p d E (x i, x j ) = (x i,k x i,j ) 2, (2.3) k=1 je to Pythagorova věta v p dimenzích. Pro binární veličiny d E (x i, x j ) = d 1 (x i, x j ) (4) Lagrangeova(supremální, L -metrika) d (x i, x j ) = lim t d t(x i, x j ) = max k=1,,p x i,k x j,k, (2.4) Platí: Martin Betinec Shluková analýza 18 d 1 (x i, x j ) d E (x i, x j ) d (x i, x j ) (5) Canberra d Cb (x i, x j ) = p k=1 x i,k x j,k x i,k + x j,k, (2.5) (6) Mahalanobisova d M (x i, x j ) = (x i x j ) T S 1 (x i x j ) p p = (x i,h x j,h )(x i,k x j,k )(S 1 ) hk h=1 k=1 (2.6) jedná se o mnohorozměrnou standardizaci = bere v úvahu korelaci znaků eliminuje vliv multikolinearity S 2 se počítá z celého souboru může vybírat matoucí korelace, které nejsou uvnitř skupin přítomny viz násl. příklady a obr. 2 až 6 Martin Betinec Shluková analýza 19 Příklad Kolaps Malahanobisovy metriky I 2 vnitřne nekorelované skupiny, které mezi sebou maji korelaci y C B A F E D I H G data M L K J Q P O N U T S R Y X W V Height A D GB C EF H IJ Agnes: DAISY K NO L MP Martin Betinec Shluková analýza 20 Q RS V WT daisy(x) Agglomerative Coefficient = 0.87 Agnes: DAISY n = 25 U XY 2 clusters C j 1 : : Height A E I D H G Agnes: Mahalanobis B F C Y N S XR W V K P UL as.dist(mahal.dist(x)$d) Agglomerative Coefficient = 0.81 Agnes: Mahalanobis n = 25 Q M 3 clusters C j 1 : : : x Average silhouette width : 0.75 Average silhouette width : 0.47 Obrázek 2. Vnitřne nekorelované skupiny. Obrázek 3. Hierarchické rozklady a jejich hodnocení.

6 Martin Betinec Shluková analýza 21 Component 2 y Component 2 J KS 2 J Martin Betinec Shluková analýza 22 2 Pam: DAISY Component 1 These two components explain % of the Pam: Mahalanobis D BE A G CHF P TI O XUS Q W R LY M N KV J D BEA I G CHF Q P M UKL O T R YJ W N SV X Pam: DAISY n = 25 Average silhouette width : clusters C j 1 : : Pam: Mahalanobis n = 25 3 clusters C j 1 : : : počet klastrů dist metoda Daisy Agnes Pam Mahalanobis Agnes Pam Tabulka 6. Průměrné siluety pro různé počty klastrů. Interpretace: Daisy rozpozná strukturu jako silnou max k s(k) =.75 Mahalanobisova metrika vkládá umělou strukturu a vnímá ji jako slabou max k s(k) = Component 1 These two components explain 91.9 % of the p Average silhouette width : 0.47 Obrázek 4 Nejlepší nehierarchické rozklady. Martin Betinec Shluková analýza 23 Příklad Kolaps Malahanobisovy metriky II 2 vnitřne silně korelované skupiny, které mezi sebou maji silnou korelaci E A F B G C H D I data Obrázek 5. Vnitřne korelované skupiny. počet klastrů dist metoda Daisy Agnes Pam Mahalanobis Agnes Pam Tabulka 7. Průměrné siluety pro různé počty klastrů. x J S K T L U M V N W O X P Y Q Z R Height A FE B GC H DI Agnes: DAISY L TM U NV Martin Betinec Shluková analýza 24 O WP X QY daisy(x) Agglomerative Coefficient = 0.96 Agnes: DAISY n = 26 R Z Average silhouette width : clusters C j 1 : : Height A F E B GC Agnes: Mahalanobis H DI K SL T MU N VO W PX Q YR as.dist(mahal.dist(x)$d) Agglomerative Coefficient = 0.9 Agnes: Mahalanobis n = 26 Z Average silhouette width : 0.6 Obrázek 6 Hierarchické rozklady a jejich hodnocení. 3 clusters C j 1 : : :

7 Component 2 Component 2 J SK y 2 Pam: DAISY Component 1 These two components explain % of the point Pam: Mahalanobis Component 1 These two components explain % of the point Martin Betinec Shluková analýza 25 G C B F H D A E I V W M N O U X P L T Q KY S R JZ G C B H D F A E I T K S L M JU V N Q Y R PZ W OX Pam: DAISY n = 26 Average silhouette width : 0.84 Pam: Mahalanobis n = 26 Obrázek 7 Nejlepší nehierarchické rozklady. 2 clusters C j 1 : : Average silhouette width : clusters C j 1 : : : Martin Betinec Shluková analýza 26 Příklad Kolaps Malahanobisovy metriky III 2 vnitřne pozitivně korelované skupiny, které mezi sebou maji silnou korelaci E F G A B I C H D data x S T U J K L V W X M N O Y Z P Q R Obrázek 8. Vnitřne pozitivně korelované skupiny. počet klastrů dist metoda Daisy Agnes Pam Mahalanobis Agnes Pam Tabulka 8. Průměrné siluety pro různé počty klastrů. Martin Betinec Shluková analýza 27 Martin Betinec Shluková analýza 28 Height A EB C IF D HG Agnes: DAISY T LU M VN W OX P YQ Z R Height A G B I H C DE Agnes: Mahalanobis F JUK V ST L WM X NY O Z P Q R Component Pam: DAISY C I G BF E D H A O N W M VX P Q UY L R TZ K S J Pam: DAISY n = 26 2 clusters C j 1 : : daisy(x) Agglomerative Coefficient = 0.96 as.dist(mahal.dist(x)$d) Agglomerative Coefficient = 0.86 Component 1 These two components explain % of the point Average silhouette width : Agnes: DAISY n = 26 2 clusters C j 1 : : Agnes: Mahalanobis n = 26 3 clusters C j 1 : : : Component 2 Pam: Mahalanobis B I G HA C D F E U V J T W SK L X O P R Z Q M YN Pam: Mahalanobis n = 26 3 clusters C j 1 : : : Average silhouette width : 0.87 Average silhouette width : 0.53 Component 1 These two components explain % of the point Average silhouette width : 0.55 Obrázek 9 Hierarchické rozklady a jejich hodnocení. Obrázek 10 Nejlepší nehierarchické rozklady.

8 Martin Betinec Shluková analýza 29 Příklad: USArrests Situaci demonstrují obrázky 10 až 12, které vznikly metodu nejbližšího souseda. Situace se trochu lišila pro metodu nejbližšího a nejvzdálenějšího souseda, odlišnosti týkaly především spodních pater, viz obr. 13. a některých případů (pro supremální a euklidovskou metriku např. zařazení Montany a u). Použití euklidovské metriky produkuje podobný strom jako vznikne pro supremalní metriku, viz obr. 10. Hint: Začněme dešifrovat shluky od, resp. od Oklahomy či od u Shluk {,, } je až na malé permutace ( vs. {Connectitcut, } apod.) totožný v obou stromech. Shluk {,, } je v obou stromech téměř totožný. Shluk {,, Lousiana} ve druhém případě připojuje Aljašku dříve než ostatní shluky, jinak se liší pouze na spodních úrovních. Srovnání euklidovské a manhattanské metriky. Velmi se liší zařazení Nevady a Arizony. Stabilitu vykazují shluky {,, }, dále {,,}. Nicméně jejich spojení je různé. Martin Betinec Shluková analýza 30 Strom vypěstovaný z canberrské metriky se liší od předchozích dost podstaně, srov. např. a klastr {, a spol.}, nicméně i zde jsou někeré stabilní shluky Martin Betinec Shluková analýza 31 Martin Betinec Shluková analýza euclidian euclidian maximum manhattan Obrázek 11. Euklidian a sup. Obrázek 12. Euklidian a Manhattan.

9 Obrázek 15. Euklidian a sup (4 complete linkage ) complete,eukl complete,supr Martin Betinec Shluková analýza 35 Obrázek 13. Manhattan a Canberra. canberra manhattan Martin Betinec Shluková analýza 33 Strategie zvláštní analýzu pro každý typ znaků problém: když nesouhlasí zacházet se všemi jako s intervalovými problém: nominální a asymetrické binární (místo ordinálních = pořadí... OK místo poměrových = log x... OK) vše převést na binární problém: ztráta info, volba prahu kombinovaná míra např.: DAISY, Gower,... shlukování objektů 3. Smíšené znaky Martin Betinec Shluková analýza 36 Obrázek 14. Euklidian a sup (4 complete linkage ) maximum (complete) euclidian (complete) Martin Betinec Shluková analýza 34

10 d ij.f je-li f nominální, binární Martin Betinec Shluková analýza 37 Martin Betinec Shluková analýza 38 DAISY (Kaufman - Rousseeuw) d(i, j) = p f=1 δ ij.fd ij.f p f=1 δ ij.f = d ij.f = 1 x if x jf d ij.f = 0 x if = x jf δ ij.f δ ij.f = 0 když x if = NA nebo x jf = NA když znak f je asymetrická binární a objekty i a j utvořily shodu (0, 0), je-li f intervalová d ij.f = x if x jf max h x hf min h x hf (3.1) δ ij.f = 1 jinak je-li f ordinální nahrazeny pořadími, na ně aplikováno (2.1). je-li f poměrová buď jako ordinální, nebo log trafo a opět (2.1) Jsou-li všechny znaky nominální = d(i, j)... simple matching symetrické binární asymetrické binární = Jaccardův koef. intervalové = standardiz. Manhattan Martin Betinec Shluková analýza Různé metody shlukování 4.1. Hierarchické metody. nejvzdálenějšího souseda (complete linkage) viz obr. 16 nejbližšího souseda (single linkage) viz obr. 16 Wardova viz obr. 18 centroidní viz obr. 19 mediánová viz obr. 19 průměrné nepodobnosti (group average) viz obr. 18 McQuittyho viz obr. 20 Martin Betinec Shluková analýza 40 Metoda nejvzdálenějšího souseda (complete linkage, furthest neighbour) Míra nepodobnosti shluků A, B: D(A, B) = max d(o i, O j ) (4.1) O i A,O j B D(A, A) = 0 (4.2) Metoda nejbližšího souseda (single linkage, nearest neghbour, friend of friends) Míra nepodobnosti shluků A, B: D(A, B) = min d(o i, O j ) O i A,O j B

11 Obrázek 16. Complete a single linkage single complete Martin Betinec Shluková analýza 43 D(R, U) = 1 2 D(P, U) D(Q, U) 1 4 D(P, Q) D({Oi}, {Oj}) = d 2 E(Oi, Oj) a Pro shluky P, Q, U, R = P Q, platí Mediánová metoda (unweighted group method) řešení: Problém: Ovlivněná počty prvků shluku D(R, U) = P Q P Q D(P, U) + D(Q, U) D(P, Q) R R R 2 D({Oi}, {Oj}) = d 2 E (O i, Oj) a Platí: Pro shluky P, Q, U, R = P Q, platí kde A, B jsou těžiště shluků A, B. D(A, B) = d 2 E (A, B), Míra nepodobnosti shluků A, B: Metoda centroidní (weighted group method) Martin Betinec Shluková analýza 41 Obrázek 17. Complete linkage a group average complete average Martin Betinec Shluková analýza 44 i:oi A j IAB = EC (EA + EB), kde (4.5) EA = (oij oj) 2 (4.6) Pro sloučeni shluků A, B do shluku C minimalizuje Wardova a Wishartova metoda D(A, B) = d(oi, Oj) A D(A, A) = 0 1 B (4.3) (i,j) (4.4) Míra nepodobnosti shluků A, B: Metoda průměrné nepodobnosti shluků (group average) Martin Betinec Shluková analýza 42

12 Obrázek 20. Group average a McQuitty. mcquitty average Martin Betinec Shluková analýza 47 Obrázek 18. Group average a Wardova. ward average Martin Betinec Shluková analýza 45 Pořadí slučování nižších pater není rozhodující, spíš počet shluků. V tomto případě buď 2 nebo 4 (resp. 5 se samostatnou Aljaškou). vykazují stabilitu víceméně při všech metodách. Značně se liší metoda nejbližšího souseda viz např.,,. (2) {,,} Některé shluky, viz obr. 16: (1) {,, } Martin Betinec Shluková analýza 48 Obrázek 19. Centroidní a medianová metoda median centroid Martin Betinec Shluková analýza 46

13 Martin Betinec Shluková analýza Nehierarchické metody. Na základě předchozích výsledků jsem zkusil rozklad do 4 a 5 shluků Rozklad na čtyři shluky. Objekty se shlukovaly klasickou metodou k-means následovně: (1),,,,,,,, RhodeIsland,,,,, (2),,,,,,,, West, (3),,,,,,,,,,,,,,, (4),,,,,,,,, size withinss Tabulka 9. Vlastnosti jednotlivých shluků. Robustnější verze téhož PAM vytvorila stejné shluky, kromě toho, že zařadila do shluku č. 4. Martin Betinec Shluková analýza 50 Murder Assault UrbanPop Rape Tabulka 10. Typické objekty jednotlivých shluků. p.usa.sc14$med[1, ] pomx Obrázek 21. Profily shluků. Martin Betinec Shluková analýza 51 Martin Betinec Shluková analýza 52 size max.diss av.diss diameter separation Tabulka 11. Vlastnosti PAM shluků. k means, complete,eukl Obrázek 22. Srovnání hierarchické a nehierarchické metody.

14 Martin Betinec Shluková analýza Rozklad na pět shluků. Klasickou metodou k-means: Martin Betinec Shluková analýza 54 5 clusters (1), NorthCarolina (2),,,,,,,,,,, NewHampshire, NorthDakota,,, SouthDakota,,, West, (3),,,,,,,,, NewYork (4),,,, NewJersey,,, RhodeIsland,,,,, (5),,, NewMexico,SouthCarolina size withinss Tabulka 12. Vlastnosti jednotlivých shluků clusters Obrázek 23. K means. Martin Betinec Shluková analýza 55 Robustnější metodou PAM (1),,,,,,,,, NewYork (2),,, NewMexico, NorthCarolina, SouthCarolina (3),,,,, NewJersey,,, RhodeIsland,,,, (4),,,,,,,,,, (5),,,, NewHampshire, NorthDakota, SouthDakota,, West, Murder Assault UrbanPop Rape Tabulka 13. Typické objekty jednotlivých shluků. Cvičení: Jakým stromům odpovídají zmíněná řešení? Martin Betinec Shluková analýza 56 size max.diss av.diss diameter separation Tabulka 14. Vlastnosti jednotlivých shluků.

15 Martin Betinec Shluková analýza 57 Martin Betinec Shluková analýza 58 clusplot(pam(x = usa.sc, k = 5)) Silhouette plot of pam(x = usa.sc, k = clusplot(pam(x = usa.sc, k = 4)) Silhouette width Silhouette plot of pam(x = usa.sc, k = Obrázek 24. PAM. Silhouette width Obrázek 25. PAM Projekce do 2. a 3. proměnné Martin Betinec Shluková analýza 59 k means Martin Betinec Shluková analýza 60 k means PAM PAM PC Obrázek 26. Srovnání pro 5 shluků Obrázek 27. Srovnání pro 4 shluky

16 Martin Betinec Shluková analýza Nestandardizovaná data. Pro zajímavost: shluková analýza u nestandardizovaných dat je znehodnocena měřítkom porměnné Assault (tj. směrodatnou odchylkou), takže je vidět, že shluky vpodstatě jen vytvářejí škálu podél této proměnné Martin Betinec Shluková analýza 62 k means PAM Obrázek 28. Srovnání pro 5 shluků, nestandardizovaná data Martin Betinec Shluková analýza 63 k means PAM Obrázek 29. Srovnání pro 4 shluky, nestandardizovaná data

Shluková analýza dat a stanovení počtu shluků

Shluková analýza dat a stanovení počtu shluků Shluková analýza dat a stanovení počtu shluků Autor: Tomáš Löster Vysoká škola ekonomická v Praze Ostrava, červen 2017 Osnova prezentace Úvod a teorie shlukové analýzy Podrobný popis shlukování na příkladu

Více

Shluková analýza. Jiří Militky. Analýza experimentálních dat V. Červeně označené slide jsou jen pro doplnění informací a nezkouší se.

Shluková analýza. Jiří Militky. Analýza experimentálních dat V. Červeně označené slide jsou jen pro doplnění informací a nezkouší se. Červeně označené slide jsou jen pro doplnění informací a nezkouší se. Shluková analýza Jiří Militky Analýza experimentálních dat V Klasifikace objektů Rozdělení objektů do shluků dle jejich podobnosti

Více

AVDAT Mnohorozměrné metody, metody klasifikace Shluková analýza

AVDAT Mnohorozměrné metody, metody klasifikace Shluková analýza AVDAT Mnohorozměrné metody, metody klasifikace Shluková analýza Josef Tvrdík Katedra informatiky Přírodovědecká fakulta Ostravská univerzita Shluková analýza Cílem shlukové analýzy je nalézt v datech podmnožiny

Více

Vícerozměrné statistické metody

Vícerozměrné statistické metody Vícerozměrné statistické metody Shluková analýza Jiří Jarkovský, Simona Littnerová FSTA: Pokročilé statistické metody Typy shlukových analýz Shluková analýza: cíle a postupy Shluková analýza se snaží o

Více

STATISTICKÉ NÁSTROJE A JEJICH VYUŽITÍ PŘI SEGMENTACI TRHU STATISTICAL TOOLS AND THEIR UTILIZATION DURING THE PROCESS OF MARKETING SEGMENTATION

STATISTICKÉ NÁSTROJE A JEJICH VYUŽITÍ PŘI SEGMENTACI TRHU STATISTICAL TOOLS AND THEIR UTILIZATION DURING THE PROCESS OF MARKETING SEGMENTATION STATISTICKÉ NÁSTROJE A JEJICH VYUŽITÍ PŘI SEGMENTACI TRHU STATISTICAL TOOLS AND THEIR UTILIZATION DURING THE PROCESS OF MARKETING SEGMENTATION Anna Čermáková Michael Rost Abstrakt Cílem příspěvku bylo

Více

Statistické metody v ekonomii. Ing. Michael Rost, Ph.D.

Statistické metody v ekonomii. Ing. Michael Rost, Ph.D. Statistické metody v ekonomii Ing. Michael Rost, Ph.D. Jihočeská univerzita v Českých Budějovicích Shluková analýza Shluková analýza je souhrnným názvem pro celou řadu výpočetních algoritmů, jejichž cílem

Více

4 STATISTICKÁ ANALÝZA VÍCEROZMĚRNÝCH DAT

4 STATISTICKÁ ANALÝZA VÍCEROZMĚRNÝCH DAT 4 SAISICKÁ ANALÝZA VÍCEROZMĚRNÝCH DA V technické biologické ale také lékařské praxi se často vedle informací obsažených v náhodném skaláru ξ vyskytují i informace obsažené v náhodném vektoru ξ s m složkami

Více

Vícerozměrné statistické metody

Vícerozměrné statistické metody Vícerozměrné statistické metody Podobnosti a vzdálenosti ve vícerozměrném prostoru, asociační matice II Jiří Jarkovský, Simona Littnerová Vícerozměrné statistické metody Práce s asociační maticí Vzdálenosti

Více

Úvodem Dříve les než stromy 3 Operace s maticemi

Úvodem Dříve les než stromy 3 Operace s maticemi Obsah 1 Úvodem 13 2 Dříve les než stromy 17 2.1 Nejednoznačnost terminologie 17 2.2 Volba metody analýzy dat 23 2.3 Přehled vybraných vícerozměrných metod 25 2.3.1 Metoda hlavních komponent 26 2.3.2 Faktorová

Více

ANALÝZA A KLASIFIKACE DAT. Institut biostatistiky a analýz

ANALÝZA A KLASIFIKACE DAT. Institut biostatistiky a analýz ANALÝZA A KLASIFIKACE DAT prof. Ing. Jiří Holčík,, CSc. VII. VOLBA A VÝBĚR PŘÍZNAKŮ ZAČÍNÁME kolik a jaké příznaky? málo příznaků možná chyba klasifikace; moc příznaků možná nepřiměřená pracnost, vysoké

Více

Kontingenční tabulky, korelační koeficienty

Kontingenční tabulky, korelační koeficienty Statistika II Katedra ekonometrie FVL UO Brno kancelář 69a, tel 973 442029 email:jirineubauer@unobcz Budeme předpokládat, že X a Y jsou kvalitativní náhodné veličiny, obor hodnot X obsahuje r hodnot (kategorií,

Více

Cvičná bakalářská zkouška, 1. varianta

Cvičná bakalářská zkouška, 1. varianta jméno: studijní obor: PřF BIMAT počet listů(včetně tohoto): 1 2 3 4 5 celkem Cvičná bakalářská zkouška, 1. varianta 1. Matematická analýza Najdětelokálníextrémyfunkce f(x,y)=e 4(x y) x2 y 2. 2. Lineární

Více

Státnice odborné č. 20

Státnice odborné č. 20 Státnice odborné č. 20 Shlukování dat Shlukování dat. Metoda k-středů, hierarchické (aglomerativní) shlukování, Kohonenova mapa SOM Shlukování dat Shluková analýza je snaha o seskupení objektů do skupin

Více

Fakulta chemicko-technologická Katedra analytické chemie. 3.2 Metody s latentními proměnnými a klasifikační metody

Fakulta chemicko-technologická Katedra analytické chemie. 3.2 Metody s latentními proměnnými a klasifikační metody Fakulta chemicko-technologická Katedra analytické chemie 3.2 Metody s latentními proměnnými a klasifikační metody Vypracoval: Ing. Tomáš Nekola Studium: licenční Datum: 21. 1. 2008 Otázka 1. Vypočtěte

Více

5 Vícerozměrná data - kontingenční tabulky, testy nezávislosti, regresní analýza

5 Vícerozměrná data - kontingenční tabulky, testy nezávislosti, regresní analýza 5 Vícerozměrná data - kontingenční tabulky, testy nezávislosti, regresní analýza 5.1 Vícerozměrná data a vícerozměrná rozdělení Při zpracování vícerozměrných dat se hledají souvislosti mezi dvěma, případně

Více

NUMERICKÁ KLASIFIKACE. David Zelený Zpracování dat v ekologii společenstev

NUMERICKÁ KLASIFIKACE. David Zelený Zpracování dat v ekologii společenstev NUMERICKÁ KLASIFIKACE http://wfc3.gsfc.nasa.gov PROČ MÁ SMYSL VĚCI KLASIFIKOVAT? vlnová délka (~ ekologický gradient) 172 http://wfc3.gsfc.nasa.gov PROČ MÁ SMYSL VĚCI KLASIFIKOVAT? vlnová délka (~ ekologický

Více

Pravděpodobnost a aplikovaná statistika

Pravděpodobnost a aplikovaná statistika Pravděpodobnost a aplikovaná statistika MGR. JANA SEKNIČKOVÁ, PH.D. 2. KAPITOLA PODMÍNĚNÁ PRAVDĚPODOBNOST 3. KAPITOLA NÁHODNÁ VELIČINA 9.11.2017 Opakování Uveďte příklad aplikace geometrické definice pravděpodobnosti

Více

Metody analýzy dat I. Míry a metriky - pokračování

Metody analýzy dat I. Míry a metriky - pokračování Metody analýzy dat I Míry a metriky - pokračování Literatura Newman, M. (2010). Networks: an introduction. Oxford University Press. [168-193] Zaki, M. J., Meira Jr, W. (2014). Data Mining and Analysis:

Více

Kontingenční tabulky, korelační koeficienty

Kontingenční tabulky, korelační koeficienty Statistika II Katedra ekonometrie FVL UO Brno kancelář 69a, tel. 973 442029 email:jiri.neubauer@unob.cz Mějme kategoriální proměnné X a Y. Vytvoříme tzv. kontingenční tabulku. Budeme tedy testovat hypotézu

Více

Vícerozměrná analýza dat

Vícerozměrná analýza dat Jiří Jarkovský Plán n kurzu Každých 4 dní 4 vyučovací hodiny Ukončení zkouškou Písemná Zaměřená na principy a aplikace analýz Cíl kurzu Vysvětlit principy vícerozměrných analýz, jejich aplikaci v biologii

Více

Multivariátní porovnání dat - klastrová (shluková) analýza

Multivariátní porovnání dat - klastrová (shluková) analýza Multivariátní porovnání dat - klastrová (shluková) analýza - bez apriorních předpokladů Shluková analýza Shluková analýza - cluster analysis úvod - definice princip algoritmy výsledky Shluková analýza

Více

Mnohorozměrná statistická data

Mnohorozměrná statistická data Mnohorozměrná statistická data Ekonometrie Jiří Neubauer Katedra ekonometrie FVL UO Brno kancelář 69a, tel. 973 442029 email:jiri.neubauer@unob.cz Jiří Neubauer (Katedra ekonometrie UO Brno) Mnohorozměrná

Více

SHLUKOVÁ ANALÝZA KRAJŮ ČESKÉ REPUBLIKY DLE VYBRANÝCH CHARAKTERISTIK ZEMĚDĚLSTVÍ V PROGRAMU STATISTICA

SHLUKOVÁ ANALÝZA KRAJŮ ČESKÉ REPUBLIKY DLE VYBRANÝCH CHARAKTERISTIK ZEMĚDĚLSTVÍ V PROGRAMU STATISTICA SHLUKOVÁ ANALÝZA KRAJŮ ČESKÉ REPUBLIKY DLE VYBRANÝCH CHARAKTERISTIK ZEMĚDĚLSTVÍ V PROGRAMU STATISTICA CLUSTER ANALYSIS OF REGIONS OF CZECH REPUBLIC BY SELECTED CHARACTERISTICS OF AGRICULTURE IN PROGRAM

Více

ZX510 Pokročilé statistické metody geografického výzkumu. Téma: Měření síly asociace mezi proměnnými (korelační analýza)

ZX510 Pokročilé statistické metody geografického výzkumu. Téma: Měření síly asociace mezi proměnnými (korelační analýza) ZX510 Pokročilé statistické metody geografického výzkumu Téma: Měření síly asociace mezi proměnnými (korelační analýza) Měření síly asociace (korelace) mezi proměnnými Vztah mezi dvěma proměnnými existuje,

Více

Míry podobnosti, základy fuzzy matematiky

Míry podobnosti, základy fuzzy matematiky Evropský sociální fond Investujeme do vaší budoucnosti Míry podobnosti, základy fuzzy matematiky Matematika pro informatiky, FIT ČVUT Martin Holeňa, 9. týden LS 2010/2011 O čem to bude? Přehled vzdáleností

Více

ANALÝZA A KLASIFIKACE BIOMEDICÍNSKÝCH DAT. Institut biostatistiky a analýz

ANALÝZA A KLASIFIKACE BIOMEDICÍNSKÝCH DAT. Institut biostatistiky a analýz ANALÝZA A KLASIFIKACE BIOMEDICÍNSKÝCH DAT prof. Ing. Jiří Holčík, CSc. VII. VOLBA A VÝBĚR PŘÍZNAKŮ ZAČÍNÁME kolik a jaké příznaky? málo příznaků možná chyba klasifikace; moc příznaků možná nepřiměřená

Více

PROSTOROVÉ HIERARCHICKÉ SHLUKOVÁNÍ

PROSTOROVÉ HIERARCHICKÉ SHLUKOVÁNÍ PROSTOROVÉ HIERARCHICKÉ SHLUKOVÁNÍ Jiří HORÁK 1, Igor IVAN 1, Tomáš INSPEKTOR 1 1 Institut geoinformatiky, Hornicko-geologická fakulta, VŠB-TUO, 17. listopadu 15/2172, 708 33, Ostrava- Poruba, ČR Abstrakt

Více

Jazyk matematiky. 2.1. Matematická logika. 2.2. Množinové operace. 2.3. Zobrazení. 2.4. Rozšířená číslená osa

Jazyk matematiky. 2.1. Matematická logika. 2.2. Množinové operace. 2.3. Zobrazení. 2.4. Rozšířená číslená osa 2. Jazyk matematiky 2.1. Matematická logika 2.2. Množinové operace 2.3. Zobrazení 2.4. Rozšířená číslená osa 1 2.1 Matematická logika 2.1.1 Výrokový počet logická operace zapisujeme čteme česky negace

Více

3.4 Určení vnitřní struktury analýzou vícerozměrných dat

3.4 Určení vnitřní struktury analýzou vícerozměrných dat 3. Určení vnitřní struktury analýzou vícerozměrných dat. Metoda hlavních komponent PCA Zadání: Byly provedeny analýzy chladící vody pro odběrové místa. Byly stanoveny parametry - ph, vodivost, celková

Více

Charakterizace rozdělení

Charakterizace rozdělení Charakterizace rozdělení Momenty f(x) f(x) f(x) μ >μ 1 σ 1 σ >σ 1 g 1 g σ μ 1 μ x μ x x N K MK = x f( x) dx 1 M K = x N CK = ( x M ) f( x) dx ( xi M 1 C = 1 K 1) N i= 1 K i K N i= 1 K μ = E ( X ) = xf

Více

Testování hypotéz a měření asociace mezi proměnnými

Testování hypotéz a měření asociace mezi proměnnými Testování hypotéz a měření asociace mezi proměnnými Testování hypotéz Nulová a alternativní hypotéza většina statistických analýz zahrnuje různá porovnání, hledání vztahů, efektů Tvrzení, že efekt je nulový,

Více

6. Lineární regresní modely

6. Lineární regresní modely 6. Lineární regresní modely 6.1 Jednoduchá regrese a validace 6.2 Testy hypotéz v lineární regresi 6.3 Kritika dat v regresním tripletu 6.4 Multikolinearita a polynomy 6.5 Kritika modelu v regresním tripletu

Více

Jana Vránová, 3. lékařská fakulta UK

Jana Vránová, 3. lékařská fakulta UK Jana Vránová, 3. lékařská fakulta UK Vznikají při zkoumání vztahů kvalitativních resp. diskrétních znaků Jedná se o analogii s korelační analýzou spojitých znaků Přitom předpokládáme, že každý prvek populace

Více

PSY117/454 Statistická analýza dat v psychologii Přednáška 10

PSY117/454 Statistická analýza dat v psychologii Přednáška 10 PSY117/454 Statistická analýza dat v psychologii Přednáška 10 TESTY PRO NOMINÁLNÍ A ORDINÁLNÍ PROMĚNNÉ NEPARAMETRICKÉ METODY... a to mělo, jak sám vidíte, nedozírné následky. Smrť Analýza četností hodnot

Více

Pravděpodobnost a statistika, Biostatistika pro kombinované studium. Jan Kracík

Pravděpodobnost a statistika, Biostatistika pro kombinované studium. Jan Kracík Pravděpodobnost a statistika, Biostatistika pro kombinované studium Letní semestr 2017/2018 Tutoriál č. 2:, náhodný vektor Jan Kracík jan.kracik@vsb.cz náhodná veličina rozdělení pravděpodobnosti náhodné

Více

Miroslav Čepek

Miroslav Čepek Vytěžování Dat Přednáška 4 Shluková analýza Miroslav Čepek Katedra počítačů, Computational Intelligence Group Evropský sociální fond Praha & EU: Investujeme do vaší budoucnosti 14.10.2014 Miroslav Čepek

Více

Vícerozměrné statistické metody

Vícerozměrné statistické metody Vícerozměrné statistické metody Vícerozměrné statistické rozdělení a testy, operace s vektory a maticemi Jiří Jarkovský, Simona Littnerová FSTA: Pokročilé statistické metody Vícerozměrné statistické rozdělení

Více

odlehlých hodnot pomocí algoritmu k-means

odlehlých hodnot pomocí algoritmu k-means Chybějící a odlehlé hodnoty; odstranění odlehlých hodnot pomocí algoritmu k-means Návod ke druhému cvičení Matěj Holec, holecmat@fel.cvut.cz ZS 2011/2012 Úvod Cílem cvičení je připomenout důležitost předzpracování

Více

(supervizovaného učení), jako je regrese a klasifikace. V takové situaci pozorujeme jak soubor vlastností

(supervizovaného učení), jako je regrese a klasifikace. V takové situaci pozorujeme jak soubor vlastností Učení bez učitele Nesupervizované versus supervizované učení: Většina tohoto kurzu je zaměřena na metody učení s učitelem (supervizovaného učení), jako je regrese a klasifikace. V takové situaci pozorujeme

Více

Obsah Úvod Kapitola 1 Než začneme Kapitola 2 Práce s hromadnými daty před analýzou

Obsah Úvod Kapitola 1 Než začneme Kapitola 2 Práce s hromadnými daty před analýzou Úvod.................................................................. 11 Kapitola 1 Než začneme.................................................................. 17 1.1 Logika kvantitativního výzkumu...........................................

Více

n = 2 Sdružená distribuční funkce (joint d.f.) n. vektoru F (x, y) = P (X x, Y y)

n = 2 Sdružená distribuční funkce (joint d.f.) n. vektoru F (x, y) = P (X x, Y y) 5. NÁHODNÝ VEKTOR 5.1. Rozdělení náhodného vektoru Náhodný vektor X = (X 1, X 2,..., X n ) T n-rozměrný vektor, složky X i, i = 1,..., n náhodné veličiny. Vícerozměrná (n-rozměrná) náhodná veličina n =

Více

ANALÝZA DAT V R 7. KONTINGENČNÍ TABULKA. Mgr. Markéta Pavlíková Katedra pravděpodobnosti a matematické statistiky MFF UK.

ANALÝZA DAT V R 7. KONTINGENČNÍ TABULKA. Mgr. Markéta Pavlíková Katedra pravděpodobnosti a matematické statistiky MFF UK. ANALÝZA DAT V R 7. KONTINGENČNÍ TABULKA Mgr. Markéta Pavlíková Katedra pravděpodobnosti a matematické statistiky MFF UK www.biostatisticka.cz PŘEHLED TESTŮ rozdělení normální spojité alternativní / diskrétní

Více

14/10/2015 Z Á K L A D N Í C E N Í K Z B O Ž Í Strana: 1

14/10/2015 Z Á K L A D N Í C E N Í K Z B O Ž Í Strana: 1 14/10/2015 Z Á K L A D N Í C E N Í K Z B O Ž Í Strana: 1 S Á ČK Y NA PS Í E XK RE ME N TY SÁ ČK Y e xk re m en t. p o ti sk P ES C Sá čk y P ES C č er né,/ p ot is k/ 12 m y, 20 x2 7 +3 c m 8.8 10 bl ok

Více

Mnohorozměrná statistická data

Mnohorozměrná statistická data Statistika II Katedra ekonometrie FVL UO Brno kancelář 69a, tel. 973 442029 email:jiri.neubauer@unob.cz Statistický znak, statistický soubor Jednotlivé objekty nebo subjekty, které jsou při statistickém

Více

1 Zobrazení 1 ZOBRAZENÍ 1. Zobrazení a algebraické struktury. (a) Ukažte, že zobrazení f : x

1 Zobrazení 1 ZOBRAZENÍ 1. Zobrazení a algebraické struktury. (a) Ukažte, že zobrazení f : x 1 ZOBRAZENÍ 1 Zobrazení a algebraické struktury 1 Zobrazení Příklad 1.1. (a) Ukažte, že zobrazení f : x na otevřený interval ( 1, 1). x x +1 je bijekce množiny reálných čísel R (b) Necht a, b R, a < b.

Více

NADSTAVBOVÝ MODUL MOHSA V1

NADSTAVBOVÝ MODUL MOHSA V1 NADSTAVBOVÝ MODUL MOHSA V1 Nadstavbový modul pro hierarchické shlukování se jmenuje Mod_Sh_Hier (MOHSA V1) je součástí souboru Shluk_Hier.xls. Tento soubor je přístupný na http://jonasova.upce.cz, a je

Více

12. cvičení z PST. 20. prosince 2017

12. cvičení z PST. 20. prosince 2017 1 cvičení z PST 0 prosince 017 11 test rozptylu normálního rozdělení Do laboratoře bylo odesláno n = 5 stejných vzorků krve ke stanovení obsahu alkoholu X v promilích alkoholu Výsledkem byla realizace

Více

Poznámky k předmětu Aplikovaná statistika, 4. téma

Poznámky k předmětu Aplikovaná statistika, 4. téma Poznámky k předmětu Aplikovaná statistika, 4. téma 4. Náhodné vektory V praxi se nám může hodit postihnout více vlastností jednoho objektu najednou, např. výšku, váhu a pohlaví člověka; rychlost chemické

Více

STATISTICKÉ METODY; ZÍSKÁVÁNÍ INFORMACÍ Z DRUHOVÝCH A ENVIRONMENTÁLNÍCH DAT

STATISTICKÉ METODY; ZÍSKÁVÁNÍ INFORMACÍ Z DRUHOVÝCH A ENVIRONMENTÁLNÍCH DAT STATISTICKÉ METODY; ZÍSKÁVÁNÍ INFORMACÍ Z DRUHOVÝCH A ENVIRONMENTÁLNÍCH DAT (NE)VÝHODY STATISTIKY OTÁZKY si klást ještě před odběrem a podle nich naplánovat design, metodiku odběru (experimentální vs.

Více

Dopady programového období regionální politiky EU na rozvoj českých mikroregionů PAVEL ZDRAŽIL, PETRA A PPLOVÁ

Dopady programového období regionální politiky EU na rozvoj českých mikroregionů PAVEL ZDRAŽIL, PETRA A PPLOVÁ Dopady programového období 2007-2013 regionální politiky EU na rozvoj českých mikroregionů PAVEL ZDRAŽIL, PETRA A PPLOVÁ X X. M E Z I N Á R O D N Í K O L O K V I U M O R E G I O N Á L N Í C H V Ě D Á C

Více

Definice 1.1. Nechť je M množina. Funkci ρ : M M R nazveme metrikou, jestliže má následující vlastnosti:

Definice 1.1. Nechť je M množina. Funkci ρ : M M R nazveme metrikou, jestliže má následující vlastnosti: Přednáška 1. Definice 1.1. Nechť je množina. Funkci ρ : R nazveme metrikou, jestliže má následující vlastnosti: (1 pro každé x je ρ(x, x = 0; (2 pro každé x, y, x y, je ρ(x, y = ρ(y, x > 0; (3 pro každé

Více

Poznámky k předmětu Aplikovaná statistika, 4. téma

Poznámky k předmětu Aplikovaná statistika, 4. téma Poznámky k předmětu Aplikovaná statistika, 4. téma 4. Náhodné vektory V praxi se nám může hodit postihnout více vlastností jednoho objektu najednou, např. výšku, váhu a pohlaví člověka; rychlost chemické

Více

Učební texty k státní bakalářské zkoušce Matematika Skalární součin. študenti MFF 15. augusta 2008

Učební texty k státní bakalářské zkoušce Matematika Skalární součin. študenti MFF 15. augusta 2008 Učební texty k státní bakalářské zkoušce Matematika Skalární součin študenti MFF 15. augusta 2008 1 10 Skalární součin Požadavky Vlastnosti v reálném i komplexním případě Norma Cauchy-Schwarzova nerovnost

Více

Základy popisné statistiky. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek

Základy popisné statistiky. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Základy popisné statistiky Anotace Realitu můžeme popisovat různými typy dat, každý z nich se specifickými vlastnostmi, výhodami, nevýhodami a vlastní sadou využitelných statistických metod -od binárních

Více

= 8 25 + 19 12 = 32 43 32 = 11. 2 : 1 k > 0. x k + (1 x) 4k = 2k x + 4 4x = 2 x = 2 3. 1 x = 3 1 2 = 2 : 1.

= 8 25 + 19 12 = 32 43 32 = 11. 2 : 1 k > 0. x k + (1 x) 4k = 2k x + 4 4x = 2 x = 2 3. 1 x = 3 1 2 = 2 : 1. 4 4 = 8 8 8 = 5 + 19 1 = 4 = 11 : 1 k > 0 k 4k x 1 x x k + (1 x) 4k = k x + 4 4x = x = x 1 x = 1 = : 1. v h h s 75 v 50 h s v v 50 s h 75 180 v h 90 v 50 h 180 90 50 = 40 s 65 v 80 60 80 80 65 v 50 s 50

Více

Příklad 2: Určení cihlářských surovin na základě chemické silikátové analýzy

Příklad 2: Určení cihlářských surovin na základě chemické silikátové analýzy Příklad 2: Určení cihlářských surovin na základě chemické silikátové analýzy Zadání: Deponie nadložních jílových sedimentů SHP byla testována za účelem využití v cihlářské výrobě. Z deponie bylo odebráno

Více

Fakulta Elektrotechniky a Informatiky. Katedra Informatiky Martin Hynar

Fakulta Elektrotechniky a Informatiky. Katedra Informatiky Martin Hynar Vysoká Škola Báňská Technická Univerzita Ostrava Fakulta Elektrotechniky a Informatiky Katedra Informatiky Metody shlukování 2003 Martin Hynar Obsah Seznam obrázků ii 1 Motivace 1 2 Míra (ne)podobnosti

Více

Titulní stránka popisuje techniku shlukování a typ vzdálenosti. 2. Tvorba shluků a zařazení objektů do shluků:

Titulní stránka popisuje techniku shlukování a typ vzdálenosti. 2. Tvorba shluků a zařazení objektů do shluků: Vzorová úloha 4.10 Nalezení shluků hráčů podobných vlastností Použijeme dat úlohy S4.21 Shluky 12 superhvězd košíkové. Následující tabulka dat obsahuje informace o osmi hráčských vlastnostech a aktivitách

Více

VI. Maticový počet. VI.1. Základní operace s maticemi. Definice. Tabulku

VI. Maticový počet. VI.1. Základní operace s maticemi. Definice. Tabulku VI Maticový počet VI1 Základní operace s maticemi Definice Tabulku a 11 a 12 a 1n a 21 a 22 a 2n, a m1 a m2 a mn kde a ij R, i = 1,, m, j = 1,, n, nazýváme maticí typu m n Zkráceně zapisujeme (a ij i=1m

Více

MATICE. a 11 a 12 a 1n a 21 a 22 a 2n A = = [a ij]

MATICE. a 11 a 12 a 1n a 21 a 22 a 2n A = = [a ij] MATICE Matice typu m/n nad tělesem T je soubor m n prvků z tělesa T uspořádaných do m řádků a n sloupců: a 11 a 12 a 1n a 21 a 22 a 2n A = = [a ij] a m1 a m2 a mn Prvek a i,j je prvek matice A na místě

Více

Testy nezávislosti kardinálních veličin

Testy nezávislosti kardinálních veličin Testy nezávislosti kardinálních veličin Komentované řešení pomocí programu R Ústav matematiky Fakulta chemicko inženýrská Vysoká škola chemicko-technologická v Praze Načtení vstupních dat Vstupní data

Více

Korelační a regresní analýza. 1. Pearsonův korelační koeficient 2. jednoduchá regresní analýza 3. vícenásobná regresní analýza

Korelační a regresní analýza. 1. Pearsonův korelační koeficient 2. jednoduchá regresní analýza 3. vícenásobná regresní analýza Korelační a regresní analýza 1. Pearsonův korelační koeficient 2. jednoduchá regresní analýza 3. vícenásobná regresní analýza Pearsonův korelační koeficient u intervalových a poměrových dat můžeme jako

Více

MATEMATICKÁ STATISTIKA - XP01MST

MATEMATICKÁ STATISTIKA - XP01MST MATEMATICKÁ STATISTIKA - XP01MST 1. Úvod. Matematická statistika (statistics) se zabývá vyšetřováním zákonitostí, které v sobě obsahují prvek náhody. Zpracováním hodnot, které jsou výstupem sledovaného

Více

V praxi pracujeme s daty nominálními (nabývají pouze dvou hodnot), kategoriálními (nabývají více

V praxi pracujeme s daty nominálními (nabývají pouze dvou hodnot), kategoriálními (nabývají více 9 Vícerozměrná data a jejich zpracování 9.1 Vícerozměrná data a vícerozměrná rozdělení Při zpracování vícerozměrných dat, hledáme souvislosti mezi dvěmi, případně více náhodnými veličinami. V praxi pracujeme

Více

Zpracování podkladů pro praktickou část distanční opory pro předmět KZMSA - část hierarchické shlukování Jan Míčka

Zpracování podkladů pro praktickou část distanční opory pro předmět KZMSA - část hierarchické shlukování Jan Míčka Univerzita Pardubice Fakulta ekonomicko-správní Zpracování podkladů pro praktickou část distanční opory pro předmět KZMSA - část hierarchické shlukování Jan Míčka Bakalářská práce 009 Tuto práci jsem

Více

Algoritmy pro shlukování prostorových dat

Algoritmy pro shlukování prostorových dat Algoritmy pro shlukování prostorových dat Marta Žambochová Katedra matematiky a informatiky Fakulta sociálně ekonomická Univerzita J. E. Purkyně v Ústí nad Labem ROBUST 21. 26. leden 2018 Rybník - Hostouň

Více

Analýza dat na PC I.

Analýza dat na PC I. CENTRUM BIOSTATISTIKY A ANALÝZ Lékařská a Přírodovědecká fakulta, Masarykova univerzita Analýza dat na PC I. Popisná analýza v programu Statistica IBA výuka Základní popisná statistika Popisná statistika

Více

Řešení příkladu - klasifikace testovacího subjektu podle minimální vzdálenosti:

Řešení příkladu - klasifikace testovacího subjektu podle minimální vzdálenosti: Řešení příkladu - klasifikace testovacího subjektu podle minimální vzdálenosti: Postup: I) zvolení metriky pro výpočet vzdáleností dvou bodů II) zvolení metriky pro určení vzdálenosti mezi dvěma množinami

Více

Četba: Texty o lineární algebře (odkazy na webových stránkách přednášejícího).

Četba: Texty o lineární algebře (odkazy na webových stránkách přednášejícího). Předmět: MA 4 Dnešní látka Lineární (vektorový) prostor Normovaný lineární prostor Normy matic a vektorů Symetrické matice, pozitivně definitní matice Gaussova eliminační metoda, podmíněnost matic Četba:

Více

Fakt. Každou soustavu n lineárních ODR řádů n i lze eliminací převést ekvivalentně na jednu lineární ODR

Fakt. Každou soustavu n lineárních ODR řádů n i lze eliminací převést ekvivalentně na jednu lineární ODR DEN: ODR teoreticky: soustavy rovnic Soustava lineárních ODR 1 řádu s konstantními koeficienty je soustava ve tvaru y 1 = a 11 y 1 + a 12 y 2 + + a 1n y n + b 1 (x) y 2 = a 21 y 1 + a 22 y 2 + + a 2n y

Více

4.3.2 Koeficient podobnosti

4.3.2 Koeficient podobnosti 4.. Koeficient podobnosti Předpoklady: 04001 Př. 1: Která z následujících tvrzení jsou správná? a) Každé dvě úsečky jsou podobné. b) Každé dva pravoúhlé trojúhelníky jsou podobné. c) Každé dva rovnostranné

Více

Odhalení skryté struktury a vnitřních vazeb dat metodami vícerozměrné statistické analýzy

Odhalení skryté struktury a vnitřních vazeb dat metodami vícerozměrné statistické analýzy Odhalení skryté struktury a vnitřních vazeb dat metodami vícerozměrné statistické analýzy Prof. RNDr. Milan Meloun, DrSc, Katedra analytické chemie, Univerzita Pardubice, 532 10 Pardubice, milan. meloun@upce.

Více

Euklidovský prostor. Parametrické rovnice roviny. Obecná rovnice roviny. . p.1/25

Euklidovský prostor. Parametrické rovnice roviny. Obecná rovnice roviny. . p.1/25 n 3 GeometrievÊ zvláštěvê Euklidovský prostor n Ê Norma, úhel vektorů, skalární a vektorový součin Parametrické rovnice přímky Parametrické rovnice roviny Obecná rovnice roviny. p.1/25 Euklidovskýprostor

Více

1 Báze a dimenze vektorového prostoru 1

1 Báze a dimenze vektorového prostoru 1 1 Báze a dimenze vektorového prostoru 1 Báze a dimenze vektorového prostoru 1 2 Aritmetické vektorové prostory 7 3 Eukleidovské vektorové prostory 9 Levá vnější operace Definice 5.1 Necht A B. Levou vnější

Více

KGG/STG Statistika pro geografy

KGG/STG Statistika pro geografy KGG/STG Statistika pro geografy 9. Korelační analýza Mgr. David Fiedor 20. dubna 2015 Analýza závislostí v řadě geografických disciplín studujeme jevy, u kterých vyšetřujeme nikoliv pouze jednu vlastnost

Více

Korelační a regresní analýza

Korelační a regresní analýza Korelační a regresní analýza Analýza závislosti v normálním rozdělení Pearsonův (výběrový) korelační koeficient: r = s XY s X s Y, kde s XY = 1 n (x n 1 i=0 i x )(y i y ), s X (s Y ) je výběrová směrodatná

Více

LWS při heteroskedasticitě

LWS při heteroskedasticitě Stochastické modelování v ekonomii a financích Petr Jonáš 7. prosince 2009 Obsah 1 2 3 4 5 47 1 Předpoklad 1: Y i = X i β 0 + e i i = 1,..., n. (X i, e i) je posloupnost nezávislých nestejně rozdělených

Více

Necht L je lineární prostor nad R. Operaci : L L R nazýváme

Necht L je lineární prostor nad R. Operaci : L L R nazýváme Skalární součin axiomatická definice odvození velikosti vektorů a úhlu mezi vektory geometrická interpretace ortogonalita vlastnosti ortonormálních bázi [1] Definice skalárního součinu Necht L je lineární

Více

Skalární součin dovoluje zavedení metriky v afinním bodovém prostoru, tj. umožňuje nám určovat vzdálenosti, odchylky, obsahy a objemy.

Skalární součin dovoluje zavedení metriky v afinním bodovém prostoru, tj. umožňuje nám určovat vzdálenosti, odchylky, obsahy a objemy. 6 Skalární součin Skalární součin dovoluje zavedení metriky v afinním bodovém prostoru, tj. umožňuje nám určovat vzdálenosti, odchylky, obsahy a objemy. Příklad: Určete odchylku přímek p, q : p : x =1+3t,

Více

Četba: Texty o lineární algebře (odkazy na webových stránkách přednášejícího).

Četba: Texty o lineární algebře (odkazy na webových stránkách přednášejícího). Předmět: MA 4 Dnešní látka Vektorový (lineární) prostor (připomenutí) Normovaný lineární prostor Normy matic a vektorů Symetrické matice, pozitivně definitní matice Gaussova eliminační metoda, podmíněnost

Více

Notice:Jagran Infotech Ltd. Printed by Fontographer 4.1 on 6/3/2003 at 7:12 PM

Notice:Jagran Infotech Ltd. Printed by Fontographer 4.1 on 6/3/2003 at 7:12 PM $ % $0 Undefined $1 Undefined $2 Undefined $3 Undefined $4 Undefined $5 Undefined $6 Undefined $7 Undefined $8 Undefined $9 Undefined $A Undefined $B Undefined $C Undefined $D Undefined $E Undefined $F

Více

Univerzita Pardubice. Fakulta ekonomicko-správní

Univerzita Pardubice. Fakulta ekonomicko-správní Univerzita Pardubice Fakulta ekonomicko-správní Nadstavbový modul v MS Excel pro metody hierarchického shlukování. Jaroslav Lohynský Diplomová práce 2011 Prohlašuji: Tuto práci jsem vypracoval samostatně.

Více

Mannův-Whitneyův(Wilcoxonův) test pořadová obdoba dvouvýběrového t-testu. Statistika (MD360P03Z, MD360P03U) ak. rok 2007/2008

Mannův-Whitneyův(Wilcoxonův) test pořadová obdoba dvouvýběrového t-testu. Statistika (MD360P03Z, MD360P03U) ak. rok 2007/2008 Statistika (MD30P03Z, MD30P03U) ak. rok 007/008 Karel Zvára karel.zvara@mff.cuni.cz http://www.karlin.mff.cuni.cz/ zvara (naposledy upraveno. listopadu 007) 1(4) Mann-Whitney párový Wilcoxon párový znaménkový

Více

Příklad 2: Obsah PCB v játrech zemřelých lidí. Zadání: Data: Program:

Příklad 2: Obsah PCB v játrech zemřelých lidí. Zadání: Data: Program: Příklad 2: Obsah PCB v játrech zemřelých lidí Zadání: V rámci Monitoringu zdraví byly měřeny koncentrace polychlorovaných bifenylů vjátrech lidí zemřelých náhodnou smrtí ve věku 40 let a více. Sedm vybraných

Více

VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ BRNO UNIVERSITY OF TECHNOLOGY

VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ BRNO UNIVERSITY OF TECHNOLOGY VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ BRNO UNIVERSITY OF TECHNOLOGY FAKULTA ELEKTROTECHNIKY A KOMUNIKAČNÍCH TECHNOLOGIÍ ÚSTAV AUTOMATIZACE A MĚŘÍCÍ TECHNIKY FACULTY OF ELECTRICAL ENGINEERING AND COMMUNICATION

Více

Metody sociálních výzkumů. Velmi skromný úvod do statistiky. Motto: Jsou tři druhy lži-lež prostá, lež odsouzeníhodná a statistika.

Metody sociálních výzkumů. Velmi skromný úvod do statistiky. Motto: Jsou tři druhy lži-lež prostá, lež odsouzeníhodná a statistika. Metody sociálních výzkumů Velmi skromný úvod do statistiky. Motto: Jsou tři druhy lži-lež prostá, lež odsouzeníhodná a statistika. Statistika Význam slova-vychází ze slova stát, s jeho administrativou

Více

Lineární algebra : Skalární součin a ortogonalita

Lineární algebra : Skalární součin a ortogonalita Lineární algebra : Skalární součin a ortogonalita (15. přednáška) František Štampach, Karel Klouda frantisek.stampach@fit.cvut.cz, karel.klouda@fit.cvut.cz Katedra aplikované matematiky Fakulta informačních

Více

NMAI059 Pravděpodobnost a statistika

NMAI059 Pravděpodobnost a statistika NMAI059 Pravděpodobnost a statistika podle přednášky Daniela Hlubinky (hlubinka@karlin.mff.cuni.cz) zapsal Pavel Obdržálek (pobdr@matfyz.cz) 205/20 poslední změna: 4. prosince 205 . přednáška. 0. 205 )

Více

PSY117/454 Statistická analýza dat v psychologii Přednáška 5 ZOBRAZENÍ DVOUROZMĚRNÝCH DAT KORELAČNÍ KOEFICIENT. Všichni žijeme v matrixu.

PSY117/454 Statistická analýza dat v psychologii Přednáška 5 ZOBRAZENÍ DVOUROZMĚRNÝCH DAT KORELAČNÍ KOEFICIENT. Všichni žijeme v matrixu. PSY117/454 Statistická analýza dat v psychologii Přednáška 5 ZOBRAZENÍ DVOUROZMĚRNÝCH DAT KORELAČNÍ KOEFICIENT Všichni žijeme v matrixu. V minulých dílech jsme viděli/y: Frekvence = četnosti Procenta =

Více

y (5) (x) y (4) (x) + 4y (3) (x) 12y (x) 45y (x) 27y(x) (horní indexy značí derivaci) pro 3. y(x) = x sin 3x 4. y(x) = x cos 3x 9.

y (5) (x) y (4) (x) + 4y (3) (x) 12y (x) 45y (x) 27y(x) (horní indexy značí derivaci) pro 3. y(x) = x sin 3x 4. y(x) = x cos 3x 9. Přezdívka: Jméno a příjmení: výsledek 101 Vypočtěte y x y 4 x + 4y x 12y x 4y x 27yx horní indexy značí derivaci pro 1. yx = sin x 2. yx = cos x. yx = x sin x 4. yx = x cos x. yx = e x 1 6. yx = xe x 7.

Více

FP - SEMINÁŘ Z NUMERICKÉ MATEMATIKY. Katedra matematiky a didaktiky matematiky Technická univerzita v Liberci

FP - SEMINÁŘ Z NUMERICKÉ MATEMATIKY.   Katedra matematiky a didaktiky matematiky Technická univerzita v Liberci FP - SEMINÁŘ Z NUMERICKÉ MATEMATIKY Dana Černá http://www.fp.tul.cz/kmd/ Katedra matematiky a didaktiky matematiky Technická univerzita v Liberci OBSAH A CÍLE SEMINÁŘE: Opakování a procvičení vybraných

Více

Statistická analýza jednorozměrných dat

Statistická analýza jednorozměrných dat Statistická analýza jednorozměrných dat Prof. RNDr. Milan Meloun, DrSc. Univerzita Pardubice, Pardubice 31.ledna 2011 Tato prezentace je spolufinancována Evropským sociálním fondem a státním rozpočtem

Více

Upozornění : barevné odstíny zobrazené na této stránce se mohou z důvodu možného zkreslení Vašeho monitoru lišit od fyzické dodávky.

Upozornění : barevné odstíny zobrazené na této stránce se mohou z důvodu možného zkreslení Vašeho monitoru lišit od fyzické dodávky. Upozornění : barevné odstíny zobrazené na této stránce se mohou z důvodu možného zkreslení Vašeho monitoru lišit od fyzické dodávky. ODSTÍN SKUPINA CENOVÁ SKUPINA ODRÁŽIVOST A10-A BRIGHT A 1 81 A10-B BRIGHT

Více

KORELACE. Komentované řešení pomocí programu Statistica

KORELACE. Komentované řešení pomocí programu Statistica KORELACE Komentované řešení pomocí programu Statistica Vstupní data I Data umístěná v excelovském souboru překopírujeme do tabulky ve Statistice a pojmenujeme proměnné, viz prezentace k tématu Popisná

Více

Aplikovaná statistika v R - cvičení 2

Aplikovaná statistika v R - cvičení 2 Aplikovaná statistika v R - cvičení 2 Filip Děchtěrenko Matematicko-fyzikální fakulta filip.dechterenko@gmail.com 5.6.2014 Filip Děchtěrenko (MFF UK) Aplikovaná statistika v R 5.6.2014 1 / 18 Přehled Rkových

Více

PSY117/454 Statistická analýza dat v psychologii seminář 9. Statistické testování hypotéz

PSY117/454 Statistická analýza dat v psychologii seminář 9. Statistické testování hypotéz PSY117/454 Statistická analýza dat v psychologii seminář 9 Statistické testování hypotéz Základní výzkumné otázky/hypotézy 1. Stanovení hodnoty parametru =stanovení intervalu spolehlivosti na μ, σ, ρ,

Více

Kategorická data METODOLOGICKÝ PROSEMINÁŘ II TÝDEN 7 4. DUBNA dubna 2018 Lukáš Hájek, Karel Höfer Metodologický proseminář II 1

Kategorická data METODOLOGICKÝ PROSEMINÁŘ II TÝDEN 7 4. DUBNA dubna 2018 Lukáš Hájek, Karel Höfer Metodologický proseminář II 1 Kategorická data METODOLOGICKÝ PROSEMINÁŘ II TÝDEN 7 4. DUBNA 2018 4. dubna 2018 Lukáš Hájek, Karel Höfer Metodologický proseminář II 1 Typy proměnných nominální (nominal) o dvou hodnotách lze říci pouze

Více

Statistické testování hypotéz II

Statistické testování hypotéz II PSY117/454 Statistická analýza dat v psychologii Přednáška 9 Statistické testování hypotéz II Přehled testů, rozdíly průměrů, velikost účinku, síla testu Základní výzkumné otázky/hypotézy 1. Stanovení

Více

ELIMINACE VLIVU DRUHÉ ROTACE PŘI AFINNĚ INVARIANTNÍM 2D ROZPOZNÁVÁNÍ

ELIMINACE VLIVU DRUHÉ ROTACE PŘI AFINNĚ INVARIANTNÍM 2D ROZPOZNÁVÁNÍ ELIMINACE VLIVU DRUHÉ ROTACE PŘI AFINNĚ INVARIANTNÍM 2D ROZPOZNÁVÁNÍ K. Nováková 1, J. Kukal 1,2 1 Fakulta jaderná a fyzikálně inženýrská, ČVUT v Praze 2 Ústav počítačové a řídicí techniky, VŠCHT Praha

Více

4. Na obrázku je rozdělovací funkce (hustota pravděpodobnosti) náhodné veličiny X. Jakou hodnotu musí mít parametr k?

4. Na obrázku je rozdělovací funkce (hustota pravděpodobnosti) náhodné veličiny X. Jakou hodnotu musí mít parametr k? A 1. Stanovte pravděpodobnost, že náhodná veličina X nabyde hodnoty menší než 6: P( X 6). Veličina X má rozdělení se střední hodnotou 6 a směrodatnou odchylkou 5: N(6,5). a) 0 b) 1/3 c) ½ 2. Je možné,

Více