SHLUKOVÁ ANALÝZA KATEGORIÁLNÍCH DAT

Rozměr: px
Začít zobrazení ze stránky:

Download "SHLUKOVÁ ANALÝZA KATEGORIÁLNÍCH DAT"

Transkript

1 SHLUKOVÁ ANALÝZA KATEGORIÁLNÍCH DAT Hana Řezanková Vysoká škola ekonomická v Praze htt://nb.vse.cz/~rezanka Analýza dat 27/II

2 Obsah Metody shlukové analýzy Shlukování objektů Shlukování roměnných Shlukování binárních dat Shlukování kategorií Možnosti rogramových systémů Analýza dat 27/II 2

3 Metody shlukové analýzy Literatura knihy: Řezanková, H., Húsek, D., Snášel, V.: Shluková analýza dat. Professional Publishing, Praha 27, 96 s. Řezanková, H. Analýza dat z dotazníkových šetření.. vyd. Professional Publishing, Praha 27, 22 s. vyjde Hebák, P. a kol. Vícerozměrné statistické metody [3]. 2. vyd. Informatorium, Praha s. Analýza dat 27/II 3

4 Metody shlukové analýzy Literatura sborníky: Řezanková, H.: Klasifikace omocí shlukové analýzy. Sborník řednášek ze semináře Analýza dat 23/II, TriloByte Statistical Software, Pardubice 24, s Řezanková, H.: Shlukování a velké soubory dat. Sborník řednášek ze semináře Analýza dat 24/II, TriloByte Statistical Software, Pardubice 25, s Analýza dat 27/II 4

5 Metody shlukové analýzy Shluková analýza je ostu formulovaný jako rocedura, omocí níž objektivně seskuujeme jedince do skuin na základě jejich odobnosti a odlišnosti (zkráceně R. C. Tryon, 939). Cílem shlukové analýzy je nalézt skuiny objektů (v širším smyslu) tak, aby dva objekty z téže skuiny si byly odobnější než dva objekty z různých skuin. Analýza dat 27/II 5

6 Metody shlukové analýzy Klasifikace tradičních metod: metody rozkladu (artitioning) ro disjunktní shluky (se zadaným očtem shluků) iterativní relokační (řemísťovací) algoritmy metody matematického rogramování grafické zobrazování omocí minimální kostry hybridní klasifikace metody založené na hustotě metody ro řekrývající se shluky Analýza dat 27/II 6

7 Metody shlukové analýzy Klasifikace tradičních metod: Analýza dat 27/II 7

8 Metody shlukové analýzy Klasifikace tradičních metod: metody rozkladu shluky evné shlukování,4,2,3,3,3,5 objekty fuzzy shlukování,8,,,4,3,3 částečné fuzzy shlukování,2,3,5 Analýza dat 27/II 8

9 Metody shlukové analýzy Metody hierarchické shlukové analýzy: monotetické divizivní (S-PLUS) olytetické aglomerativní divizivní (S-PLUS) modifikované metody dvourozměrné shlukování (STATISTICA, SYSTAT) dvoukroková shluková analýza (SPSS) ROCK (RObust Clustering using links) Analýza dat 27/II 9

10 Metody shlukové analýzy Vstuní data: m-rozměrná ozorování (matice vzorů attern matrix) matice X, rvky x il m roměnných (znaků). znak 2. znak. objekt 2. objekt matice vzdáleností/odobností (matice blízkostí - roximity matrix). objekt 2. objekt. objekt 2. objekt kontingenční tabulka (tabulka četností) X / Y. kategorie 2. kategorie. kategorie 2. kategorie Analýza dat 27/II

11 Metody shlukové analýzy Měření odobnosti u kategoriálních dat Kategoriální roměnné (znaky, atributy): obor hodnot tvořen kategoriemi dichotomické (symetrické a asymetrické) vícekategoriální nominální (nelze určit ořadí) vícekategoriální ordinální (záleží na ořadí) kvantitativní (lze očítat vzdálenost, není třeba zvláštní ostu) Analýza dat 27/II

12 Metody shlukové analýzy Měření odobnosti u dichotomických dat obvykle binární data (hodnoty jsou a ) symetrické asymetrické (jedna hodnota důležitější, obvykle ) Postu: běžné míry (ro symetrické) seciální míry (zaměřené na určitý ty) Analýza dat 27/II 2

13 Metody shlukové analýzy Měření odobnosti u nominálních dat jediná míra ro odobnost objektů (koeficient rosté shody) různé míry ro odobnost roměnných (viz dále) S m l ij S m ijl Škola P P2 P3 řevedení na binární data OA SPŠ SOU Analýza dat 27/II 3

14 Metody shlukové analýzy Měření odobnosti u ordinálních dat kódovat kategorie od hodnoty jedna a transformace do intervalu ; řevedení na binární data Odezva P P2 P3 žádná slabá střední silná různé míry ro odobnost roměnných (viz dále) Analýza dat 27/II 4

15 Shlukování objektů Dichotomické roměnné seciální míry hierarchická shluková analýza (stejné jako ro shlukování roměnných) seciální metody monotetická shluková analýza (S-PLUS) Kaufman, L., Rousseeuw, P.: Finding Grous in Data: An Introduction to Cluster Analysis. Wiley, Hoboken 25. Algoritmus MONA (MONothetic Analysis) Analýza dat 27/II 5

16 Shlukování objektů Algoritmus MONA (MONothetic Analysis) Kategorie znaku x k Kategorie znaku x l a kl b kl c kl d kl q kl a kl d q l q kl k l kl b kl c kl k, 2,, m l, 2,, m rozdělení objektů odle roměnné, ro níž max l (q l ). Analýza dat 27/II 6

17 Analýza dat 27/II 7 Shlukování objektů Vlastnosti zvířat: Ritter, H. J., Kohonen, T.: Self-Oganizing Semantic Mas. Biological Cybernetics, 6, 989, kráva zebra kůň lev tygr kočka vlk es liška orel jestřáb sova husa kachna sleice holub lave létá běhá loví eří hříva koyta srst 4_nohy 2_nohy velké střední malé Zvíře

18 Shlukování objektů Algoritmus MONA (MONothetic Analysis) Analýza dat 27/II 8

19 Shlukování objektů Nominální roměnné insirace v třídícím algoritmu (Hartigan): ro každou roměnnou stanovena rahová hodnota shluky jsou vymezeny olíčky vícerozměrné kontingenční tabulky mezi všemi roměnnými Hartigan, J. A.: Clustering Algorithms. John Wiley & Sons, New York 975. Analýza dat 27/II 9

20 Nominální roměnné Shlukování objektů koeficient rosté shody (STATISTICA) S ijl x il x jl a S ijl jinak řevedení na binární data seciální metody k-modů, k-histogramů, ROCK, CACTUS další ostuy (jiné míry v nových metodách) míra věrohodnostního tyu (log-likelihood) v dvoukrokové shlukové analýze (SPSS) S m l ij S m ijl Analýza dat 27/II 2

21 Shlukování objektů Metody k-modů, k-histogramů vycházejí z metody k-růměrů, obecně k-centroidů. Centroid je definován jako vektor, ro který latí, že součet vzdáleností jednotlivých objektů ve shluku k tomuto vektoru je minimální (oužije-li se euklidovská vzdálenost, ak je centroidem vektor růměrů a jde o metodu k-růměrů). D m 2 E ( xi, x j ) ( xil x jl ) l x i x j Analýza dat 27/II 2

22 Shlukování objektů Metody k-modů, k-histogramů Každá l-tá roměnná nabývá hodnot v lu (u, 2,, K l ). Každý shluk je rerezentován m-rozměrným vektorem údajů, který obsahuje buď modální (nejčetněji zastouené) kategorie jednotlivých roměnných (v metodě k-modů), nebo údaje o četnostech kategorií jednotlivých roměnných (v metodě k-histogramů). Používají se řitom seciální míry neodobnosti. Huang, Z.: Extensions to the k-means algorithm to clustering large data sets with categorical values. Data Mining and Knowledge Discovery, 2, 998, Analýza dat 27/II 22

23 Shlukování objektů Metoda ROCK (RObust Clustering using links) založena na rinciu hierarchického shlukování nejdříve se rovede náhodný výběr objektů, které se shlukují do ožadovaného očtu shluků, o čemž následuje řiřazení zbylých objektů (jako v CURE) využívá koncet grafu, ojmy sousedi a vazby Jaccardův koeficient odobnosti ro binární data Guha, S., Rastogi, R., Shim, K. : ROCK: A robust clustering algorithm for categorical attributes. Information Systems, 25(5), 2, Analýza dat 27/II 23

24 Shlukování objektů Metoda CACTUS (CAtegorical ClusTering Using Summaries) atří k metodám založeným na mřížce založena na myšlence solečného výskytu určitých kategorií různých roměnných zda je očet výskytů kategorií v kt a v lu dvou různých roměnných k a l větší než očekávaná četnost Ganti, V., Gehrke, J., Ramakrishnan, R.: CACTUS Clustering categorical data using summaries. Proceedings of the 5th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, ACM Press, San Diego 999, Analýza dat 27/II 24

25 Shlukování objektů Dvoukroková shluková analýza (sytém SPSS) shlukovací vlastnosti CF (Cluster Features), CF-strom míra věrohodnostního tyu (log-likelihood) variabilita ve shlucích se zjišťuje omocí entroie H gl K l u n n glu g n ln n Zhang, T., Ramakrishnan, R., Livny, M.: BIRCH: An efficient data clustering method for very large databases. ACM SIGMOD Record, 25(2), 996, 3-4. glu g Analýza dat 27/II 25

26 Shlukování objektů Newman, D.J., Hettich, S., Blake, C.L., Merz, C.J.: UCI Reository of machine learning databases. Irvine, CA: University of California, 998 [htt://www.ics.uci.edu/~mlearn/mlreository. html]. Analýza dat 27/II 26

27 Shlukování objektů Dvoukroková shluková analýza (sytém SPSS) Cluster Distribution v5 Cluster Total Combined % of N Combined % of Total 737 2,4% 2,4% 635 2,% 2,% 296 6,% 6,% 728 2,3% 2,3% 728 2,3% 2,3% 824,%,% 824,% Cluster Combined f t Frequency Percent Frequency Percent 433 3,2% 34 9,% 29 6,% ,8% ,3%,% ,4%,%,% 728 5,2% 4748,% 3376,% Cluster Combined v3 f g s y Frequency Percent Frequency Percent Frequency Percent Frequency Percent ,5% 4,% ,3% 289 8,9% 24,3%,% 86 3,9% 579 7,8% ,9%,%,% 648 2,%,%,% ,8% ,6% ,2%,%,% ,6% 232,% 4,% 2556,% 3244,% Analýza dat 27/II 27

28 Shlukování objektů Ordinální roměnné kódovat kategorie od hodnoty jedna a transformace do intervalu ; řevést na binární data oužít seciální metody k-mediánů Analýza dat 27/II 28

29 Shlukování objektů Metoda k-mediánů (SYSTAT) vychází z metody k-centroidů (jde o k-shlukování) Centroid je definován jako vektor, ro který latí, že součet vzdáleností jednotlivých objektů ve shluku k tomuto vektoru je minimální. Použije-li se manhattanská vzdálenost, ak je centroidem vektor mediánů a jde o metodu k-mediánů). D B ( x i, x j ) m l x il x jl x i x j Analýza dat 27/II 29

30 Shlukování roměnných Nominální roměnné koeficient rosté shody S kli x ik x il a S kli jinak koeficient neshody seciální míry odobnosti řevedení na binární data S kl D kl S kl n i S n kli Analýza dat 27/II 3

31 Shlukování roměnných Newman, D.J., Hettich, S., Blake, C.L., Merz, C.J.: UCI Reository of machine learning databases. Irvine, CA: University of California, 998 [htt://www.ics.uci.edu/~mlearn/mlreository. html]. Analýza dat 27/II 3

32 Shlukování roměnných Nominální roměnné koeficient neshody ca-shae sore-rint-color ca-color odor habitat oulation gill-color ca-surface gill-size bruises ring-tye stalk-shae gill-attachment veil-color ring-number gill-sacing stalk-surfacr-above-ring stalk-surface-below-ring stalk-color-above-ring stalk-color-below-ring Stromový diagram ro 2 roměnných Úlné sojení Procentuální neshoda,,2,4,6,8, Vzdálenost sojení Analýza dat 27/II 32

33 Shlukování roměnných Seciální míry odobnosti vycházejí z kontingenční tabulky Znak Y Znak X. kategorie. kategorie j-tá kategorie S-tá kategorie Celkem n n j n S n i-tá kategorie n i n ij n is n i R-tá kategorie n R n Rj n RS n R Celkem n n j n S n Analýza dat 27/II 33

34 Shlukování roměnných Seciální míry odobnosti vycházejí z kontingenční tabulky Znak Y Znak X Celkem. kategorie i-tá kategorie R-tá kategorie. kategorie j-tá kategorie S-tá kategorie Celkem i R j ij R j S is i RS S R Analýza dat 27/II 34

35 Shlukování roměnných Seciální míry odobnosti ro nominální roměnné vycházejí z rinciu analýzy roztylu a oměru determinace S Y X var( Y, X var( Y ) ) var( Y ) var( Y var( Y ) X ) S Y X var( Y ) R i i var( Y ) var( Y x i ) var ( Y ) var( Y, X ) var( Y X ) Analýza dat 27/II 35

36 Shlukování roměnných Měření variability nominálních roměnných Četnost Znak X absolutní relativní kumulativní relativní x n P x i n i x K n K i K P i Celkem n x Analýza dat 27/II 36

37 Shlukování roměnných Měření variability nominálních roměnných variační oměr v n /n nominální roztyl nomvar (Giniho koeficient) entroie H K i K i 2 i K i i ln i ( i Mo ( i )) Mo Analýza dat 27/II 37

38 Analýza dat 27/II 38 Shlukování roměnných Míry závislosti nominálních roměnných variační oměr v /n Mo Mo n λ Mo Mo Mo ) ( ) ( ) ( Y v x Y v Y v i i R i i i R i i X Y Mo Mo Mo Mo Mo Mo R i i R i i Goodmanova- -Kruskalova λ

39 Shlukování roměnných Míry odobnosti nominálních roměnných PRE P{} - P{2} P{} P{} ( Mo ) P{2} ( Σ imo ) Goodmanova- -Kruskalova λ P{ } 2 ( ) Mo Mo R S P{2} i Mo 2 i j Moj λ sym R S imo i j Moj 2 Mo Mo Mo Mo Analýza dat 27/II 39

40 Analýza dat 27/II 4 Shlukování roměnných Míry závislosti nominálních roměnných entroie K i i i H ln S j j j S j i ij i ij R i i S j j j i R i i X Y Y H x Y H Y H U ln ln ln ) ( ) ( ) ( informační koeficient (koeficient nejistoty) S j j j R i S j R i S j ij ij j j i i X Y U ln ln ln ln ) ( ) ( ) ( ) ( Y H XY H Y H X H

41 Analýza dat 27/II 4 Shlukování roměnných Míry odobnosti nominálních roměnných informační koeficient (koeficient nejistoty) ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( 2 XY H Y H X H X H XY H Y H X H Y H U sym ( ) ) ( ) ( ) ( ) ( ) ( 2 Y H X H XY H Y H X H

42 Shlukování roměnných Míry odobnosti ordinálních roměnných Searmanův koeficient ořadové korelace n( n ) Míry založené na očtech konkordantních a diskordantních árů r S 6 n ( x l l 2 y l ) 2 Analýza dat 27/II 42

43 Shlukování roměnných Míry odobnosti ordinálních roměnných Míry založené na očtech konkordantních a diskordantních árů C očet konkordantních árů D očet diskordantních árů T X očet árů, které obsahují stejnou hodnotu roměnné X, ale různou hodnotu Y T Y očet árů, které obsahují stejnou hodnotu roměnné Y, ale různou hodnotu X Analýza dat 27/II 43

44 Shlukování roměnných Míry odobnosti ordinálních roměnných Goodmanova-Kruskalova γ γ C C D D Kendallovo τ b τ b C D ( C D TX )( C D TY ) Kendallovo τ c Stuartovo τ c τ c 2q( C 2 n ( q D) ) q min{r, S} Analýza dat 27/II 44

45 Analýza dat 27/II 45 Shlukování roměnných Míry odobnosti ordinálních roměnných Somersovo d Y X Y T D C D C d ( ) ( ) Y X X Y sym T T D C D C D C T D C D C T D C d 2 2 2

46 Shlukování roměnných Hodnoty Kendallova τ b ro dvojice roměnných Blues Musicals Classical Jazz Ra Heavy Metal Blues or R & B Music,,7,5,49,6,2 Broadway Musicals,7,,4,22,3 -, Classical Music,5,4,,23, -, Jazz Music,49,22,23,,6, Ra Music,6,3,,6,,35 Heavy Metal Music,2 -, -,,,35, Analýza dat 27/II 46

47 Shlukování roměnných Ordinální roměnné koeficient τ b Stromový diagram ro 6 roměnných Úlné sojení Odlišnosti z matice Blues Jazz Musicals Classical Ra Heavy Metal,4,5,6,7,8,9,, Vzdálenost sojení Analýza dat 27/II 47

48 Shlukování binárních dat Stejné míry odobnosti (neodobnosti) ro objekty i roměnné Kategorie objektu x j Kategorie objektu x i a c b d Analýza dat 27/II 48

49 Shlukování binárních dat míry ro symetrické a asymetrické roměnn nné míry odobnosti, neodobnosti a vzdálenosti koeficienty shody, odmíněné ravděodobnosti odobnosti míry ro hodnocení ředovědí a ostatní míry, které jsou funkcemi oměru šancí,, míry, m které jsou funkcemi korelačního koeficientu, a ostatní Analýza dat 27/II 49

50 Shlukování binárních dat Koeficient souhlasu (ro symetrická binární data) Jaccardův koeficient (ro asymetrická binární data) a a d b c d a a b c Diceův (Czekanowského) koeficient (ro asymetrická binární data) Russelův a Raoův RR (ro asymetrická binární data) 2a 2a b c a a b c d Analýza dat 27/II 5

51 Shlukování binárních dat Sokalův a Sneathův koeficient, SoSn 2( a d) 2( a d) b c Rogersův a Tanimotoův koef., RT a a d d 2( b c) Analýza dat 27/II 5

52 Shlukování binárních dat Funkce oměru šancí Poměr šancí ψ ad bc Yuleovo Q Q ad ad bc bc ad ad / bc / bc ψ ψ Yuleův koeficient vazby Y ad ad bc bc ψ ψ Analýza dat 27/II 52

53 Shlukování binárních dat Míry ro hodnocení ředovědí Goodmanova-Kruskalova λ Anderbergovo D t t2 2( a b c d ) t 2 2( a t t2 b c d ) t max(a, b) max(c, d) max(a, c) max(b, d) t 2 max(a c, b d) max(a b, c d) Analýza dat 27/II 53

54 Shlukování binárních dat Míry ro ordinální roměnné Goodmanova-Kruskalova γ γ C C D D ad ad bc bc Q Kendallovo τ b τ b C D ( C D TY )( C D TX ) ad bc ( ad bc ab cd )( ad bc ac bd ) Analýza dat 27/II 54

55 Shlukování binárních dat Míry ro kvantitativní roměnné Koeficient asociace (korelační koeficient) ad bc r XY ( a b)( a c)( b d )( c d ) τ r b XY Analýza dat 27/II 55

56 Shlukování binárních dat Míry vzdálenosti a neodobnosti Euklidovská vzdálenost Binární čtvercová euklidovská vzdálenost Hammingova vzdálenost Binární Lanceova a Williamsova nemetrická míra neodobnosti b c b c b c 2a b c Analýza dat 27/II 56

57 Shlukování binárních dat Dendrogram olytetické aglomerativní shlukování Stromový diagram ro 6 říadů Úlné sojení Euklidovská vzdálenost holub sleice kachna husa sova jestřáb orel liška vlk es kočka tygr lev kůň zebra kráva,,5,,5 2, 2,5 3, 3,5 Vzdálenost sojení Analýza dat 27/II 57

58 Shlukování binárních dat Banner lot olytetické divizivní shlukování Analýza dat 27/II 58

59 Shlukování binárních dat Vícerozměrné škálování,8 Bodový graf 2D Konečná konfigurace, dimenze vs. dimenze 2,6,4 HUSA KACHNA SLEPICE KRÁVA ZEBRA KŮN Dimenze 2,2, -,2 HOLUB JESTŘÁB SOVA KOČKA TYGR LEV -,4 -,6 OREL LIŠKA PES VLK -,8 -,4 -,2 -, -,8 -,6 -,4 -,2,,2,4,6,8,,2,4 Dimenze Analýza dat 27/II 59

60 Shlukování kategorií Míry neodobnosti kategorií Pearsonova chí-kvadrát statistika χ S 2 S 2 nij mij ) ( ni j m 2 i j ) j Koeficient φ i ij i j mij ni ni ( m ij ϕ m j i j 2 χ n i n i m i j n n i ( n n ( n i ij n n n i ) i j ) Analýza dat 27/II 6

61 Shlukování kategorií Matice neodobností (chí-kvadrát míra) ro oblasti interview na základě úrovně vzdělání Region :New England, 2,8 3,32 2,65 3,33 4,76,9,95 2,6 2:Middle Atlantic 2,8,,55,3,9 3,82,32 2,2,56 3:E. Nor Central 3,32,55,,44 2,62 5,6,62 2,48 2,25 4:W. Nor Central 2,65,3,44,,56 3,66,23,88,6 5:South Atlantic 3,33,9 2,62,56, 3,6 2,8 2,42 2,53 6:E. Sou Central 4,76 3,82 5,6 3,66 3,6, 4,39 3,54 4,6 7:W. Sou Central,9,32,62,23 2,8 4,39,,3,8 8:Mountain,95 2,2 2,48,88 2,42 3,54,3,,5 9:Pacifik 2,6,56 2,25,6 2,53 4,6,8,5, Analýza dat 27/II 6

62 Shlukování kategorií Dendrogram olytetické aglomerativní shlukování Stromový diagram ro 9 objektů Úlné sojení Odlišnosti z matice NEW ENGL W. SOU C PACIFIC MOUNTAIN MIDDLE A SOUTH A E. NOR C W. NOR C E. SOU C Vzdálenost sojení Analýza dat 27/II 62

63 Shlukování kategorií Jiné metody (grafické zobrazování) Koresondenční analýza Vícerozměrné škálování Analýza dat 27/II 63

64 Shlukování kategorií Výsledky růzkumu cestovní kanceláře Count Ty zájezdu Celkem hory obyt s výlety oznávací zájezd turistika Otimální ubytování aartman bungalov hotel stan Celkem Matice neodobností (míra chí-kvadrát) Case :hory 2:obyt s výlety 3:oznávací zájezd 4:turistika This is a dissimilarity matrix Proximity Matrix Chi-square between Sets of Frequencies 2:obyt 3:oznávací :hory s výlety zájezd 4:turistika, 3,2 3,368 3,62 3,2,,7 9,65 3,368,7, 3,367 3,62 9,65 3,367, Analýza dat 27/II 64

65 Shlukování kategorií Matice neodobností (míra chí-kvadrát) Case :hory 2:obyt s výlety 3:oznávací zájezd 4:turistika This is a dissimilarity matrix Proximity Matrix Chi-square between Sets of Frequencies 2:obyt 3:oznávací :hory s výlety zájezd 4:turistika, 3,2 3,368 3,62 3,2,,7 9,65 3,368,7, 3,367 3,62 9,65 3,367, Postu ři shlukování (jednoduché sojení) Agglomeration Schedule Stage 2 3 Stage Cluster First Cluster Combined Aears Cluster Cluster 2 Coefficients Cluster Cluster 2 Next Stage 3 4 3, , ,65 2 Analýza dat 27/II 65

66 Shlukování kategorií Výsledky růzkumu cestovní kanceláře Count Ty zájezdu Celkem hory obyt s výlety oznávací zájezd turistika Otimální ubytování aartman bungalov hotel stan Celkem Matice neodobností (míra chí-kvadrát) Proximity Matrix Case aartman bungalov hotel stan Matrix File Inut aartman bungalov hotel stan, 5,439,97,52 5,439, 8,2 5,97,97 8,2, 3,754,52 5,97 3,754, Analýza dat 27/II 66

67 Shlukování kategorií Matice neodobností (míra chí-kvadrát) Proximity Matrix Case aartman bungalov hotel stan Matrix File Inut aartman bungalov hotel stan, 5,439,97,52 5,439, 8,2 5,97,97 8,2, 3,754,52 5,97 3,754, Postu ři shlukování (růměrné sojení) Agglomeration Schedule Stage 2 3 Stage Cluster First Cluster Combined Aears Cluster Cluster 2 Coefficients Cluster Cluster 2 Next Stage 3, , ,427 2 Analýza dat 27/II 67

68 Shlukování kategorií Vícerozměrné škálování Common Sace Common Sace Dimension 2,2,, -, -,2 -,3 hory turistika oznávací_zájezd -,5,,5 Dimension obyt_s_výlety, Dimension 2,2,, -, -,2 -,3 -,4 -, hotel aartman bungalov -,5,,5 Dimension stan, Analýza dat 27/II 68

69 Shlukování kategorií Koresondenční analýza Symmetrical Normalization Otimální ubytování Ty zájezdu,5 turistika Dimension 2,,5, -,5 hory -,5 bungalov aartman stan obyt s výlety hotel oznávací zájezd -, -,5,,5, Dimension Analýza dat 27/II 69

70 Možnosti rogramových systémů Seciální míry ro hierarchickou shlukovou analýzu, res. k-shlukování (růměry, mediány) Koef. neshody (STATISTICA, SYSTAT ro HSA) Míra ro ordinální roměnné ro HSA a k-shluk. SYSTAT (gama) Míry ro binární data ro HSA SPSS (26 měr) STATISTICA (korelační koeficient koef. asociace) SYSTAT (Jaccardův koeficient, Anderbergovo D, RR, SoSn, RT, gama Yulovo Q, korel. koeficient) Analýza dat 27/II 7

71 Možnosti rogramových systémů Míry ro různé tyy roměnných (včetně nominálních) ve seciální metodě Míra věrohodnostního tyu ve dvoukrokové shlukové analýze (SPSS) Míry ro shlukování kategorií ro HSA Chí-kvadrát, fí-kvadrát (SPSS, SYSTAT i ro k-shlukování, tj. k-růměrů a k-mediánů) Seciální metody Monotetická shluková analýza (S-PLUS) Metoda k-mediánů (SYSTAT) Analýza dat 27/II 7

72 Možnosti rogramových systémů Vytvoření matice odobností (neodobností) SPSS: Pearsonův a Searmanův korelační koeficient, Kendallovo τ b SYSTAT: koef. fí, Cramérovo V, kontingenční koef., Goodmanova-Kruskalova λ, koef. nejistoty, Pearsonův a Searmanův korelační koeficient, Kendallovo τ b, Stuartovo τ c, Goodmanova- Kruskalova γ, 3 měr ro dichotomická data Analýza dat 27/II 72

73 Děkuji Vám za ozornost Analýza dat 27/II 73

Klasifikace pomocí shlukové analýzy. Hana Řezanková

Klasifikace pomocí shlukové analýzy. Hana Řezanková Klasifikace pomocí shlukové analýzy Hana Řezanková Vysoká škola ekonomická v Praze Cíle klasifikace a shlukové analýzy Cílem klasifikace je zařadit adit buď některé z objektů nebo všechny v objekty do

Více

Úvodem Dříve les než stromy 3 Operace s maticemi

Úvodem Dříve les než stromy 3 Operace s maticemi Obsah 1 Úvodem 13 2 Dříve les než stromy 17 2.1 Nejednoznačnost terminologie 17 2.2 Volba metody analýzy dat 23 2.3 Přehled vybraných vícerozměrných metod 25 2.3.1 Metoda hlavních komponent 26 2.3.2 Faktorová

Více

Analýza dat z dotazníkových šetření. Zdrojová data: dotazník http://www.vyplnto.cz/realizovane-pruzkumy/konzumace-ryb-a-rybich-vyrob/

Analýza dat z dotazníkových šetření. Zdrojová data: dotazník http://www.vyplnto.cz/realizovane-pruzkumy/konzumace-ryb-a-rybich-vyrob/ Analýza dat z dotazníkových šetření Cvičení 3. - Jednorozměrné třídění Zdrojová data: dotazník http://www.vyplnto.cz/realizovane-pruzkumy/konzumace-ryb-a-rybich-vyrob/ - Seznamte se s dotazníkem a strukturou

Více

Analýza dat z dotazníkových šetření

Analýza dat z dotazníkových šetření Analýza dat z dotazníkových šetření Cvičení 6. Rozsah výběru Př. Určete minimální rozsah výběru pro proměnnou věk v souboru dovolena, jestliže 95% interval spolehlivost průměru proměnné nemá být širší

Více

1.1 Úvod... 1 1.2 Data... 1. 3 Statistická analýza dotazníkových dat 8. Literatura 10

1.1 Úvod... 1 1.2 Data... 1. 3 Statistická analýza dotazníkových dat 8. Literatura 10 MÍRY STATISTICKÉ VAZBY, VÝBĚROVÁ ŠETŘENÍ, STATISTICKÁ ANALÝZA DOTAZNÍKOVÝCH DAT Obsah 1 Statistická data 1 1.1 Úvod.......................................... 1 1. Data...........................................

Více

PSY117/454 Statistická analýza dat v psychologii Přednáška 10

PSY117/454 Statistická analýza dat v psychologii Přednáška 10 PSY117/454 Statistická analýza dat v psychologii Přednáška 10 TESTY PRO NOMINÁLNÍ A ORDINÁLNÍ PROMĚNNÉ NEPARAMETRICKÉ METODY... a to mělo, jak sám vidíte, nedozírné následky. Smrť Analýza četností hodnot

Více

Obsah Úvod Kapitola 1 Než začneme Kapitola 2 Práce s hromadnými daty před analýzou

Obsah Úvod Kapitola 1 Než začneme Kapitola 2 Práce s hromadnými daty před analýzou Úvod.................................................................. 11 Kapitola 1 Než začneme.................................................................. 17 1.1 Logika kvantitativního výzkumu...........................................

Více

5 Vícerozměrná data - kontingenční tabulky, testy nezávislosti, regresní analýza

5 Vícerozměrná data - kontingenční tabulky, testy nezávislosti, regresní analýza 5 Vícerozměrná data - kontingenční tabulky, testy nezávislosti, regresní analýza 5.1 Vícerozměrná data a vícerozměrná rozdělení Při zpracování vícerozměrných dat se hledají souvislosti mezi dvěma, případně

Více

Testování hypotéz a měření asociace mezi proměnnými

Testování hypotéz a měření asociace mezi proměnnými Testování hypotéz a měření asociace mezi proměnnými Testování hypotéz Nulová a alternativní hypotéza většina statistických analýz zahrnuje různá porovnání, hledání vztahů, efektů Tvrzení, že efekt je nulový,

Více

Základy pravděpodobnosti a statistiky. Popisná statistika

Základy pravděpodobnosti a statistiky. Popisná statistika Základy pravděpodobnosti a statistiky Popisná statistika Josef Tvrdík Přírodovědecká fakulta, katedra informatiky josef.tvrdik@osu.cz konzultace v úterý 14.10 až 15.40 hod. Příklad ze života Cimrman, Smoljak/Svěrák,

Více

Grafický a číselný popis rozložení dat 3.1 Způsoby zobrazení dat Metody zobrazení kvalitativních a ordinálních dat Metody zobrazení kvan

Grafický a číselný popis rozložení dat 3.1 Způsoby zobrazení dat Metody zobrazení kvalitativních a ordinálních dat Metody zobrazení kvan 1 Úvod 1.1 Empirický výzkum a jeho etapy 1.2 Význam teorie pro výzkum 1.2.1 Konstrukty a jejich operacionalizace 1.2.2 Role teorie ve výzkumu 1.2.3 Proces ověření hypotéz a teorií 1.3 Etika vědecké práce

Více

Shluková analýza. Jiří Militky. Analýza experimentálních dat V. Červeně označené slide jsou jen pro doplnění informací a nezkouší se.

Shluková analýza. Jiří Militky. Analýza experimentálních dat V. Červeně označené slide jsou jen pro doplnění informací a nezkouší se. Červeně označené slide jsou jen pro doplnění informací a nezkouší se. Shluková analýza Jiří Militky Analýza experimentálních dat V Klasifikace objektů Rozdělení objektů do shluků dle jejich podobnosti

Více

IBM SPSS Exact Tests. Přesné analýzy malých datových souborů. Nejdůležitější. IBM SPSS Statistics

IBM SPSS Exact Tests. Přesné analýzy malých datových souborů. Nejdůležitější. IBM SPSS Statistics IBM Software IBM SPSS Exact Tests Přesné analýzy malých datových souborů Při rozhodování o existenci vztahu mezi proměnnými v kontingenčních tabulkách a při používání neparametrických ů analytici zpravidla

Více

A-PDF Split DEMO : Purchase from to remove the watermark

A-PDF Split DEMO : Purchase from  to remove the watermark A-PDF Split DEMO : Purchase from www.a-pdf.com to remove the watermark KDE STUDENTI HLEDAJÍ INFORMACE Marta Žambochová Adresa: FSE UJEP, KMS, Moskevská 54, CZ-400 96, Ústí nad Labem E-mail: marta.zambochova@ujep.cz

Více

Vícerozměrné statistické metody

Vícerozměrné statistické metody Vícerozměrné statistické metody Shluková analýza Jiří Jarkovský, Simona Littnerová FSTA: Pokročilé statistické metody Typy shlukových analýz Shluková analýza: cíle a postupy Shluková analýza se snaží o

Více

Vícerozměrné statistické metody

Vícerozměrné statistické metody Vícerozměrné statistické metody Podobnosti a vzdálenosti ve vícerozměrném prostoru, asociační matice II Jiří Jarkovský, Simona Littnerová Vícerozměrné statistické metody Práce s asociační maticí Vzdálenosti

Více

Dynamické programování

Dynamické programování ALG Dynamické rogramování Nejdelší rostoucí odoslounost Otimální ořadí násobení matic Nejdelší rostoucí odoslounost Z dané oslounosti vyberte co nejdelší rostoucí odoslounost. 5 4 9 5 8 6 7 Řešení: 4 5

Více

Vícerozměrné metody. PSY117/454 Statistická analýza dat v psychologii Přednáška 12. Schematický úvod

Vícerozměrné metody. PSY117/454 Statistická analýza dat v psychologii Přednáška 12. Schematický úvod PSY117/454 Statistická analýza dat v psychologii Přednáška 12 Vícerozměrné metody Schematický úvod Co je na slově statistika tak divného, že jeho vyslovení tak často způsobuje napjaté ticho? William Kruskal

Více

Stav Svobodný Rozvedený Vdovec. Svobodná 37 10 6. Rozvedená 8 12 8. Vdova 5 8 6

Stav Svobodný Rozvedený Vdovec. Svobodná 37 10 6. Rozvedená 8 12 8. Vdova 5 8 6 1. Příklad Byly sledovány rodinné stavy nevěst a ženichů při uzavírání sňatků a byla vytvořena následující tabulka četností. Stav Svobodný Rozvedený Vdovec Svobodná 37 10 6 Rozvedená 8 12 8 Vdova 5 8 6

Více

Kontingenční tabulky, korelační koeficienty

Kontingenční tabulky, korelační koeficienty Statistika II Katedra ekonometrie FVL UO Brno kancelář 69a, tel. 973 442029 email:jiri.neubauer@unob.cz Mějme kategoriální proměnné X a Y. Vytvoříme tzv. kontingenční tabulku. Budeme tedy testovat hypotézu

Více

Statistické metody v ekonomii. Ing. Michael Rost, Ph.D.

Statistické metody v ekonomii. Ing. Michael Rost, Ph.D. Statistické metody v ekonomii Ing. Michael Rost, Ph.D. Jihočeská univerzita v Českých Budějovicích Shluková analýza Shluková analýza je souhrnným názvem pro celou řadu výpočetních algoritmů, jejichž cílem

Více

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz Pravděodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@niax.cz Pravděodobnost a matematická statistika 2010 1.týden (20.09.-24.09. ) Data, tyy dat, variabilita, frekvenční analýza

Více

V praxi pracujeme s daty nominálními (nabývají pouze dvou hodnot), kategoriálními (nabývají více

V praxi pracujeme s daty nominálními (nabývají pouze dvou hodnot), kategoriálními (nabývají více 9 Vícerozměrná data a jejich zpracování 9.1 Vícerozměrná data a vícerozměrná rozdělení Při zpracování vícerozměrných dat, hledáme souvislosti mezi dvěmi, případně více náhodnými veličinami. V praxi pracujeme

Více

Karta předmětu prezenční studium

Karta předmětu prezenční studium Karta předmětu prezenční studium Název předmětu: Číslo předmětu: 545-0250 Garantující institut: Garant předmětu: Ekonomická statistika Institut ekonomiky a systémů řízení RNDr. Radmila Sousedíková, Ph.D.

Více

Rozhodovací stromy Marta Žambochová

Rozhodovací stromy Marta Žambochová Rozhodovací stromy Marta Žambochová Obsah: 1 Úvod... Algoritmy ro vytváření rozhodovacích stromů... 3.1 Algoritmus CART... 3.1.1 lasifikační stromy... 3.1. Regresní stromy... 4. Algoritmus ID3... 4.3 Algoritmus

Více

STATISTICKÉ METODY. (kombinovaná forma, 8.4., 20.5. 2012) Matěj Bulant, Ph.D., VŠEM

STATISTICKÉ METODY. (kombinovaná forma, 8.4., 20.5. 2012) Matěj Bulant, Ph.D., VŠEM STATISTICKÉ METODY A DEMOGRAFIE (kombinovaná forma, 8.4., 2.5. 22) Matěj Bulant, Ph.D., VŠEM Řekli o statistice Věřím ouze těm statistikám, které jsem sám zfalšoval. Tři stuně lži - lež, hnusná lež, statistika.

Více

Analýza dat na PC I.

Analýza dat na PC I. CENTRUM BIOSTATISTIKY A ANALÝZ Lékařská a Přírodovědecká fakulta, Masarykova univerzita Analýza dat na PC I. Popisná analýza v programu Statistica IBA výuka Základní popisná statistika Popisná statistika

Více

Způsobilost. Data a parametry. Menu: QCExpert Způsobilost

Způsobilost. Data a parametry. Menu: QCExpert Způsobilost Zůsobilost Menu: QExert Zůsobilost Modul očítá na základě dat a zadaných secifikačních mezí hodnoty různých indexů zůsobilosti (caability index, ) a výkonnosti (erformance index, ). Dále jsou vyočítány

Více

ADDS cvičení 7. Pavlína Kuráňová

ADDS cvičení 7. Pavlína Kuráňová ADDS cvičení 7 Pavlína Kuráňová Analyzujte závislost věku obyvatel na místě kde nejčastěji tráví dovolenou. (dotazník dovolená, sloupce Jaký je Váš věk a Kde nejčastěji trávíte dovolenou) Analyzujte závislost

Více

Klasifikační metody pro genetická data: regularizace a robustnost

Klasifikační metody pro genetická data: regularizace a robustnost Odd medicínské informatiky a biostatistiky Ústav informatiky AV ČR, vvi Práce vznikla za finanční podpory Nadačního fondu Neuron na podporu vědy Klasifikační metody pro genetická data Regularizovaná klasifikační

Více

Zpracování studie týkající se průzkumu vlastností statistických proměnných a vztahů mezi nimi.

Zpracování studie týkající se průzkumu vlastností statistických proměnných a vztahů mezi nimi. SEMINÁRNÍ PRÁCE Zadání: Data: Statistické metody: Zpracování studie týkající se průzkumu vlastností statistických proměnných a vztahů mezi nimi. Minimálně 6 proměnných o 30 pozorováních (z toho 2 proměnné

Více

Statistická analýza jednorozměrných dat

Statistická analýza jednorozměrných dat Statistická analýza jednorozměrných dat Prof. RNDr. Milan Meloun, DrSc. Univerzita Pardubice, Pardubice 31.ledna 2011 Tato prezentace je spolufinancována Evropským sociálním fondem a státním rozpočtem

Více

Zpracování podkladů pro praktickou část distanční opory pro předmět KZMSA - část hierarchické shlukování Jan Míčka

Zpracování podkladů pro praktickou část distanční opory pro předmět KZMSA - část hierarchické shlukování Jan Míčka Univerzita Pardubice Fakulta ekonomicko-správní Zpracování podkladů pro praktickou část distanční opory pro předmět KZMSA - část hierarchické shlukování Jan Míčka Bakalářská práce 009 Tuto práci jsem

Více

Multivariátní porovnání dat - klastrová (shluková) analýza

Multivariátní porovnání dat - klastrová (shluková) analýza Multivariátní porovnání dat - klastrová (shluková) analýza - bez apriorních předpokladů Shluková analýza Shluková analýza - cluster analysis úvod - definice princip algoritmy výsledky Shluková analýza

Více

Přednáška 10. Analýza závislosti

Přednáška 10. Analýza závislosti Přednáška 10 Analýza závislosti Analýza závislosti dvou kategoriálních proměnných Analýza závislosti v kontingečních tabulkách Analýza závislosti v asociačních tabulkách Simpsonův paradox Analýza závislosti

Více

MĚŘENÍ STATISTICKÝCH ZÁVISLOSTÍ

MĚŘENÍ STATISTICKÝCH ZÁVISLOSTÍ MĚŘENÍ STATISTICKÝCH ZÁVISLOSTÍ v praxi u jednoho prvku souboru se často zkoumá více veličin, které mohou na sobě různě záviset jednorozměrný výběrový soubor VSS X vícerozměrným výběrovým souborem VSS

Více

Třídění statistických dat

Třídění statistických dat 2.1 Třídění statistických dat Všechny muže ve městě rozdělíme na 2 skupiny: A) muži, kteří chodí k holiči B) muži, kteří se holí sami Do které skupiny zařadíme holiče? prof. Raymond M. Smullyan, Dr. Math.

Více

Přednáška XI. Asociace ve čtyřpolní tabulce a základy korelační analýzy

Přednáška XI. Asociace ve čtyřpolní tabulce a základy korelační analýzy Přednáška XI. Asociace ve čtyřpolní tabulce a základy korelační analýzy Relativní riziko a poměr šancí Princip korelace dvou náhodných veličin Korelační koeficienty Pearsonůva Spearmanův Korelace a kauzalita

Více

Cronbachův koeficient α nová adaptovaná metoda uvedení vlastností položkové analýzy deskriptivní induktivní parametrické

Cronbachův koeficient α nová adaptovaná metoda uvedení vlastností položkové analýzy deskriptivní induktivní parametrické Československá psychologie 0009-062X Metodologické požadavky na výzkumné studie METODOLOGICKÉ POŽADAVKY NA VÝZKUMNÉ STUDIE Výzkumné studie mají přinášet nová konkrétní zjištění získaná specifickými výzkumnými

Více

Spokojenost se životem

Spokojenost se životem SEMINÁRNÍ PRÁCE Spokojenost se životem (sekundárních analýza dat sociologického výzkumu Naše společnost 2007 ) Předmět: Analýza kvantitativních revize Šafr dat I. Jiří (18/2/2012) Vypracoval: ANONYMIZOVÁNO

Více

Kontingenční tabulky. (Analýza kategoriálních dat)

Kontingenční tabulky. (Analýza kategoriálních dat) Kontingenční tabulky (Analýza kategoriálních dat) Agenda Standardní analýzy dat v kontingenčních tabulkách úvod, KT, míry diverzity nominálních veličin, některá rozdělení chí kvadrát testy, analýza reziduí,

Více

Pojem a úkoly statistiky

Pojem a úkoly statistiky Katedra ekonometrie FVL UO Brno kancelář 69a, tel. 973 442029 email:jiri.neubauer@unob.cz Pojem a úkoly statistiky Statistika je věda, která se zabývá získáváním, zpracováním a analýzou dat pro potřeby

Více

Měření závislosti statistických dat

Měření závislosti statistických dat 5.1 Měření závislosti statistických dat Každý pořádný astronom je schopen vám předpovědět, kde se bude nacházet daná hvězda půl hodiny před půlnocí. Ne každý je však téhož schopen předpovědět v případě

Více

SOFTWARE STAT1 A R. Literatura 4. kontrolní skupině (viz obr. 4). Proto budeme testovat shodu středních hodnot µ 1 = µ 2 proti alternativní

SOFTWARE STAT1 A R. Literatura 4. kontrolní skupině (viz obr. 4). Proto budeme testovat shodu středních hodnot µ 1 = µ 2 proti alternativní ŘEŠENÍ PRAKTICKÝCH ÚLOH UŽITÍM SOFTWARE STAT1 A R Obsah 1 Užití software STAT1 1 2 Užití software R 3 Literatura 4 Příklady k procvičení 6 1 Užití software STAT1 Praktické užití aplikace STAT1 si ukažme

Více

6. Lineární regresní modely

6. Lineární regresní modely 6. Lineární regresní modely 6.1 Jednoduchá regrese a validace 6.2 Testy hypotéz v lineární regresi 6.3 Kritika dat v regresním tripletu 6.4 Multikolinearita a polynomy 6.5 Kritika modelu v regresním tripletu

Více

Profilování vzorků heroinu s využitím vícerozměrné statistické analýzy

Profilování vzorků heroinu s využitím vícerozměrné statistické analýzy Profilování vzorků heroinu s využitím vícerozměrné statistické analýzy Autor práce : RNDr. Ivo Beroun,CSc. Vedoucí práce: prof. RNDr. Milan Meloun, DrSc. PROFILOVÁNÍ Profilování = klasifikace a rozlišování

Více

ZX510 Pokročilé statistické metody geografického výzkumu. Téma: Měření síly asociace mezi proměnnými (korelační analýza)

ZX510 Pokročilé statistické metody geografického výzkumu. Téma: Měření síly asociace mezi proměnnými (korelační analýza) ZX510 Pokročilé statistické metody geografického výzkumu Téma: Měření síly asociace mezi proměnnými (korelační analýza) Měření síly asociace (korelace) mezi proměnnými Vztah mezi dvěma proměnnými existuje,

Více

Zpracování náhodného výběru. Ing. Michal Dorda, Ph.D.

Zpracování náhodného výběru. Ing. Michal Dorda, Ph.D. Zpracování náhodného výběru popisná statistika Ing. Michal Dorda, Ph.D. Základní pojmy Úkolem statistiky je na základě vlastností výběrového souboru usuzovat o vlastnostech celé populace. Populace(základní

Více

Popisná statistika. Statistika pro sociology

Popisná statistika. Statistika pro sociology Popisná statistika Jitka Kühnová Statistika pro sociology 24. září 2014 Jitka Kühnová (GSTAT) Popisná statistika 24. září 2014 1 / 31 Outline 1 Základní pojmy 2 Typy statistických dat 3 Výběrové charakteristiky

Více

Obsah. Statistika Zpracování informací ze statistického šetření Charakteristiky úrovně, variability a koncentrace kvantitativního znaku

Obsah. Statistika Zpracování informací ze statistického šetření Charakteristiky úrovně, variability a koncentrace kvantitativního znaku Obsah Statistika Zpracování informací ze statistického šetření Charakteristiky úrovně, variability a koncentrace kvantitativního znaku Roman Biskup (zapálený) statistik ve výslužbě, aktuálně analytik v

Více

Metody sociálních výzkumů. Velmi skromný úvod do statistiky. Motto: Jsou tři druhy lži-lež prostá, lež odsouzeníhodná a statistika.

Metody sociálních výzkumů. Velmi skromný úvod do statistiky. Motto: Jsou tři druhy lži-lež prostá, lež odsouzeníhodná a statistika. Metody sociálních výzkumů Velmi skromný úvod do statistiky. Motto: Jsou tři druhy lži-lež prostá, lež odsouzeníhodná a statistika. Statistika Význam slova-vychází ze slova stát, s jeho administrativou

Více

STATISTICKÉ NÁSTROJE A JEJICH VYUŽITÍ PŘI SEGMENTACI TRHU STATISTICAL TOOLS AND THEIR UTILIZATION DURING THE PROCESS OF MARKETING SEGMENTATION

STATISTICKÉ NÁSTROJE A JEJICH VYUŽITÍ PŘI SEGMENTACI TRHU STATISTICAL TOOLS AND THEIR UTILIZATION DURING THE PROCESS OF MARKETING SEGMENTATION STATISTICKÉ NÁSTROJE A JEJICH VYUŽITÍ PŘI SEGMENTACI TRHU STATISTICAL TOOLS AND THEIR UTILIZATION DURING THE PROCESS OF MARKETING SEGMENTATION Anna Čermáková Michael Rost Abstrakt Cílem příspěvku bylo

Více

Stručný úvod do vybraných zredukovaných základů statistické analýzy dat

Stručný úvod do vybraných zredukovaných základů statistické analýzy dat Stručný úvod do vybraných zredukovaných základů statistické analýzy dat Statistika nuda je, má však cenné údaje. Neklesejme na mysli, ona nám to vyčíslí. Z pohádky Princové jsou na draka Populace (základní

Více

SHLUKOVÁ ANALÝZA KRAJŮ ČESKÉ REPUBLIKY DLE VYBRANÝCH CHARAKTERISTIK ZEMĚDĚLSTVÍ V PROGRAMU STATISTICA

SHLUKOVÁ ANALÝZA KRAJŮ ČESKÉ REPUBLIKY DLE VYBRANÝCH CHARAKTERISTIK ZEMĚDĚLSTVÍ V PROGRAMU STATISTICA SHLUKOVÁ ANALÝZA KRAJŮ ČESKÉ REPUBLIKY DLE VYBRANÝCH CHARAKTERISTIK ZEMĚDĚLSTVÍ V PROGRAMU STATISTICA CLUSTER ANALYSIS OF REGIONS OF CZECH REPUBLIC BY SELECTED CHARACTERISTICS OF AGRICULTURE IN PROGRAM

Více

II. Statistické metody vyhodnocení kvantitativních dat Gejza Dohnal

II. Statistické metody vyhodnocení kvantitativních dat Gejza Dohnal Základy navrhování průmyslových experimentů DOE II. Statistické metody vyhodnocení kvantitativních dat Gejza Dohnal! Testování statistických hypotéz kvalitativní odezva kvantitativní chí-kvadrát test homogenity,

Více

Předmluva S o u h rn... 89

Předmluva S o u h rn... 89 Obsah Předmluva... 17 1 Ú v o d... 2 1 1.1 Empirický výzkum a jeho etap y... 23 1.2 Význam teorie pro v ý zk u m... 27 1.2.1 Konstrukty a jejich operacionalizace... 27 1.2.2 Role teorie ve v ý zk u m u...

Více

VÝCHODISKA A PŘÍSTUPY K VYUŽITÍ

VÝCHODISKA A PŘÍSTUPY K VYUŽITÍ České vysoké učení technické v Praze FAKULTA ELEKTROTECHNICKÁ Katedra ekonomiky, manažerství a humanitních věd VÝCHODISKA A PŘÍSTUPY K VYUŽITÍ MATEMATICKÝCH METOD V MARKETINGU Odborná studie Doktorand:

Více

KGG/STG Statistika pro geografy

KGG/STG Statistika pro geografy KGG/STG Statistika pro geografy 9. Korelační analýza Mgr. David Fiedor 20. dubna 2015 Analýza závislostí v řadě geografických disciplín studujeme jevy, u kterých vyšetřujeme nikoliv pouze jednu vlastnost

Více

AVDAT Mnohorozměrné metody, metody klasifikace Shluková analýza

AVDAT Mnohorozměrné metody, metody klasifikace Shluková analýza AVDAT Mnohorozměrné metody, metody klasifikace Shluková analýza Josef Tvrdík Katedra informatiky Přírodovědecká fakulta Ostravská univerzita Shluková analýza Cílem shlukové analýzy je nalézt v datech podmnožiny

Více

Pořízení licencí statistického SW

Pořízení licencí statistického SW Pořízení licencí statistického SW Zadavatel: Česká školní inspekce, Fráni Šrámka 37, 150 21 Praha 5 IČO: 00638994 Jednající: Mgr. Tomáš Zatloukal Předpokládaná (a maximální cena): 1.200.000 vč. DPH Typ

Více

Cíl Vyhodnotit současný stav migračně prostorové diferenciace území ČR a migrační tendence na základě údajů za obce ČR

Cíl Vyhodnotit současný stav migračně prostorové diferenciace území ČR a migrační tendence na základě údajů za obce ČR Cíl Vyhodnotit současný stav migračně prostorové diferenciace území ČR a migrační tendence na základě údajů za obce ČR Data Obce ČR 2011 (Veřejná databáze ČSÚ) SPSS IBM, ArcGIS Proměnné: intenzita migračního

Více

VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ BRNO UNIVERSITY OF TECHNOLOGY

VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ BRNO UNIVERSITY OF TECHNOLOGY VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ BRNO UNIVERSITY OF TECHNOLOGY FAKULTA ELEKTROTECHNIKY A KOMUNIKAČNÍCH TECHNOLOGIÍ ÚSTAV AUTOMATIZACE A MĚŘÍCÍ TECHNIKY FACULTY OF ELECTRICAL ENGINEERING AND COMMUNICATION

Více

Vícerozměrné statistické metody

Vícerozměrné statistické metody Vícerozměrné statistické metody Vícerozměrné statistické rozdělení a testy, operace s vektory a maticemi Jiří Jarkovský, Simona Littnerová FSTA: Pokročilé statistické metody Vícerozměrné statistické rozdělení

Více

Formální konceptuální analýza

Formální konceptuální analýza moderní metoda analýzy dat 14. října 2011 Osnova Informatika 1 Informatika 2 3 4 Co je to informatika? Co je to informatika? Computer science is no more about computers than astronomy is about telescopes.

Více

ANALÝZA DAT V R 3. POPISNÉ STATISTIKY, NÁHODNÁ VELIČINA. Mgr. Markéta Pavlíková Katedra pravděpodobnosti a matematické statistiky MFF UK

ANALÝZA DAT V R 3. POPISNÉ STATISTIKY, NÁHODNÁ VELIČINA. Mgr. Markéta Pavlíková Katedra pravděpodobnosti a matematické statistiky MFF UK ANALÝZA DAT V R 3. POPISNÉ STATISTIKY, NÁHODNÁ VELIČINA Mgr. Markéta Pavlíková Katedra pravděpodobnosti a matematické statistiky MFF UK www.biostatisticka.cz POPISNÉ STATISTIKY - OPAKOVÁNÍ jedna kvalitativní

Více

Robust 2014, 19. - 24. ledna 2014, Jetřichovice

Robust 2014, 19. - 24. ledna 2014, Jetřichovice K. Hron 1 C. Mert 2 P. Filzmoser 2 1 Katedra matematické analýzy a aplikací matematiky Přírodovědecká fakulta, Univerzita Palackého, Olomouc 2 Department of Statistics and Probability Theory Vienna University

Více

STATISTIKA A INFORMATIKA - bc studium OZW, 1.roč. (zkušební otázky)

STATISTIKA A INFORMATIKA - bc studium OZW, 1.roč. (zkušební otázky) STATISTIKA A INFORMATIKA - bc studium OZW, 1.roč. (zkušební otázky) 1) Význam a využití statistiky v biologických vědách a veterinárním lékařství ) Rozdělení znaků (veličin) ve statistice 3) Základní a

Více

Jana Vránová, 3. lékařská fakulta UK

Jana Vránová, 3. lékařská fakulta UK Jana Vránová, 3. lékařská fakulta UK Vznikají při zkoumání vztahů kvalitativních resp. diskrétních znaků Jedná se o analogii s korelační analýzou spojitých znaků Přitom předpokládáme, že každý prvek populace

Více

Základy biostatistiky II. Veřejné zdravotnictví 3.LF UK - II

Základy biostatistiky II. Veřejné zdravotnictví 3.LF UK - II Základy biostatistiky II Veřejné zdravotnictví 3.LF UK - II Teoretické rozložení-matematické modely rozložení Naměřená data Výběrové rozložení Teoretické rozložení 1 e 2 x 2 Teoretické rozložení-matematické

Více

SHLUKOVACÍ METODY V DATA MININGU

SHLUKOVACÍ METODY V DATA MININGU SHLUKOVACÍ METODY V DATA MININGU Petr Klímek 1. Data Mining Obecná definice data mining popisuje jako proces výběru, prohledávání a modelování ve velkých objemech dat, sloužící k odhalení dříve neznámých

Více

Úkol 1.: Testování nezávislosti nominálních veličin V roce 1950 zkoumali Yule a Kendall barvu očí a vlasů u 6800 mužů.

Úkol 1.: Testování nezávislosti nominálních veličin V roce 1950 zkoumali Yule a Kendall barvu očí a vlasů u 6800 mužů. Téma 10: Analýza závislosti dvou nominálních veličin Úkol 1.: Testování nezávislosti nominálních veličin V roce 1950 zkoumali Yule a Kendall barvu očí a vlasů u 6800 mužů. barva očí barva vlasů světlá

Více

You created this PDF from an application that is not licensed to print to novapdf printer (http://www.novapdf.com)

You created this PDF from an application that is not licensed to print to novapdf printer (http://www.novapdf.com) Závislost náhodných veličin Úvod Předchozí přednášky: - statistické charakteristiky jednoho výběrového nebo základního souboru - vztahy mezi výběrovým a základním souborem - vztahy statistických charakteristik

Více

Shluková analýza příklad

Shluková analýza příklad Shluková analýza příklad K dispozici jsou údaje o složení vybraných přírodních a minerálních vod. Pracujeme s následujícím seznamem proměnných: Dané hodnoty vznikly tak, že byl zjištěn u všech vod celkový

Více

SEMESTRÁLNÍ PRÁCE 3.5 Klasifikace analýzou vícerozměrných dat

SEMESTRÁLNÍ PRÁCE 3.5 Klasifikace analýzou vícerozměrných dat UNIVERZITA PARDUBICE FAKULTA CHEMICKO-TECHNOLOGICKÁ KATEDRA ANALYTICKÉ CHEMIE LICENČNÍ STUDIUM - STATISTICKÉ ZPRACOVÁNÍ DAT SEMESTRÁLNÍ PRÁCE Ing. Věra Fialová BIOPHARM VÝZKUMNÝ ÚSTAV BIOFARMACIE A VETERINÁRNÍCH

Více

APLIKACE SHLUKOVÉ ANALÝZY V EKOLOGII

APLIKACE SHLUKOVÉ ANALÝZY V EKOLOGII ROBUST 2, 2 28 c JČMF 2 APLIKACE SHLUKOVÉ ANALÝZY V EKOLOGII MARIE BUDÍKOVÁ Abstrakt. In this paper, the basic principles of hierarchical cluster analysis are described.an example of calculation and application

Více

ANALÝZA A KLASIFIKACE DAT. Institut biostatistiky a analýz

ANALÝZA A KLASIFIKACE DAT. Institut biostatistiky a analýz ANALÝZA A KLASIFIKACE DAT prof. Ing. Jiří Holčík,, CSc. VII. VOLBA A VÝBĚR PŘÍZNAKŮ ZAČÍNÁME kolik a jaké příznaky? málo příznaků možná chyba klasifikace; moc příznaků možná nepřiměřená pracnost, vysoké

Více

31. 3. 2014, Brno Hanuš Vavrčík Základy statistiky ve vědě

31. 3. 2014, Brno Hanuš Vavrčík Základy statistiky ve vědě 31. 3. 2014, Brno Hanuš Vavrčík Základy statistiky ve vědě Motto Statistika nuda je, má však cenné údaje. strana 3 Statistické charakteristiky Charakteristiky polohy jsou kolem ní seskupeny ostatní hodnoty

Více

Cvičení ze statistiky - 3. Filip Děchtěrenko

Cvičení ze statistiky - 3. Filip Děchtěrenko Cvičení ze statistiky - 3 Filip Děchtěrenko Minule bylo.. Dokončili jsme základní statistiky, typy proměnných a začali analýzu kvalitativních dat Tyhle termíny by měly být známé: Histogram, krabicový graf

Více

Zpracování vícerozměrných dat pomocí analýzy shluků Multidimensional Data Processing by Cluster Analysis

Zpracování vícerozměrných dat pomocí analýzy shluků Multidimensional Data Processing by Cluster Analysis Zpracování vícerozměrných dat pomocí analýzy shluků Multidimensional Data Processing by Cluster Analysis Ing. Jitka Svobodová Ing. Jana Pružinová Abstrakt Příspěvek diskutuje možnosti zpracování velkých

Více

Univerzita Pardubice. Fakulta ekonomicko-správní

Univerzita Pardubice. Fakulta ekonomicko-správní Univerzita Pardubice Fakulta ekonomicko-správní Nadstavbový modul v MS Excel pro metody hierarchického shlukování. Jaroslav Lohynský Diplomová práce 2011 Prohlašuji: Tuto práci jsem vypracoval samostatně.

Více

Tomáš Karel LS 2012/2013

Tomáš Karel LS 2012/2013 Tomáš Karel LS 2012/2013 Doplňkový materiál ke cvičení ze 4ST201. Na případné faktické chyby v této prezentaci mě prosím upozorněte. Děkuji Tyto slidy berte pouze jako doplňkový materiál není v nich obsaženo

Více

Klasifikace obchodních partnerů s využitím metod shlukové analýzy

Klasifikace obchodních partnerů s využitím metod shlukové analýzy Klasifikace obchodních partnerů s využitím metod shlukové analýzy Mária Režňáková 1 Abstrakt Předpokladem úspěšnosti podnikatelských subjektů je schopnost generovat příjmy v takové výši, která zajistí

Více

veličin, deskriptivní statistika Ing. Michael Rost, Ph.D.

veličin, deskriptivní statistika Ing. Michael Rost, Ph.D. Vybraná rozdělení spojitých náhodných veličin, deskriptivní statistika Ing. Michael Rost, Ph.D. Třídění Základním zpracováním dat je jejich třídění. Jde o uspořádání získaných dat, kde volba třídícího

Více

STATISTIKA S EXCELEM. Martina Litschmannová MODAM,

STATISTIKA S EXCELEM. Martina Litschmannová MODAM, STATISTIKA S EXCELEM Martina Litschmannová MODAM, 8. 4. 216 Obsah Motivace aneb Máme data a co dál? Základní terminologie Analýza kvalitativního znaku rozdělení četnosti, vizualizace Analýza kvantitativního

Více

Získávání znalostí z dat

Získávání znalostí z dat Získávání znalostí z dat Informační a komunikační technologie ve zdravotnictví Získávání znalostí z dat Definice: proces netriviálního získávání implicitní, dříve neznámé a potencionálně užitečné informace

Více

Univerzita Pardubice Fakulta chemicko-technologická. Analýza závislosti dat z personálních průzkumů v podniku. Zuzana Mokrenová

Univerzita Pardubice Fakulta chemicko-technologická. Analýza závislosti dat z personálních průzkumů v podniku. Zuzana Mokrenová Univerzita Pardubice Fakulta chemicko-technologická Analýza závislosti dat z personálních průzkumů v podniku Zuzana Mokrenová Bakalářská práce 01 Univerzity of Pardubice Faculty of chemical technology

Více

ZÍSKÁVÁNÍ ZNALOSTÍ Z DATABÁZÍ

ZÍSKÁVÁNÍ ZNALOSTÍ Z DATABÁZÍ Metodický list č. 1 Dobývání znalostí z databází Cílem tohoto tematického celku je vysvětlení základních pojmů z oblasti dobývání znalostí z databází i východisek dobývání znalostí z databází inspirovaných

Více

ZÍSKÁVÁNÍ ZNALOSTÍ Z DATABÁZÍ

ZÍSKÁVÁNÍ ZNALOSTÍ Z DATABÁZÍ metodický list č. 1 Dobývání znalostí z databází Cílem tohoto tematického celku je vysvětlení základních pojmů z oblasti dobývání znalostí z databází i východisek dobývání znalostí z databází inspirovaných

Více

NADSTAVBOVÝ MODUL MOHSA V1

NADSTAVBOVÝ MODUL MOHSA V1 NADSTAVBOVÝ MODUL MOHSA V1 Nadstavbový modul pro hierarchické shlukování se jmenuje Mod_Sh_Hier (MOHSA V1) je součástí souboru Shluk_Hier.xls. Tento soubor je přístupný na http://jonasova.upce.cz, a je

Více

Náhodné veličiny jsou nekorelované, neexistuje mezi nimi korelační vztah. Když jsou X; Y nekorelované, nemusí být nezávislé.

Náhodné veličiny jsou nekorelované, neexistuje mezi nimi korelační vztah. Když jsou X; Y nekorelované, nemusí být nezávislé. 1. Korelační analýza V životě většinou nesledujeme pouze jeden statistický znak. Sledujeme více statistických znaků zároveň. Kromě vlastností statistických znaků nás zajímá také jejich těsnost (velikost,

Více

Cvičná bakalářská zkouška, 1. varianta

Cvičná bakalářská zkouška, 1. varianta jméno: studijní obor: PřF BIMAT počet listů(včetně tohoto): 1 2 3 4 5 celkem Cvičná bakalářská zkouška, 1. varianta 1. Matematická analýza Najdětelokálníextrémyfunkce f(x,y)=e 4(x y) x2 y 2. 2. Lineární

Více

Odhalení skryté struktury a vnitřních vazeb dat vícerozměrnou statistickou analýzou pitné vody

Odhalení skryté struktury a vnitřních vazeb dat vícerozměrnou statistickou analýzou pitné vody Odhalení skryté struktury a vnitřních vazeb dat vícerozměrnou statistickou analýzou pitné vody Prof. RNDr. Milan Meloun, DrSc, Katedra analytické chemie, Univerzita Pardubice, 532 10 Pardubice, milan.

Více

ZÁKLADNÍ STATISTICKÉ CHARAKTERISTIKY

ZÁKLADNÍ STATISTICKÉ CHARAKTERISTIKY zhanel@fsps.muni.cz ZÁKLADNÍ STATISTICKÉ CHARAKTERISTIKY METODY DESKRIPTIVNÍ STATISTIKY 1. URČENÍ TYPU ŠKÁLY (nominální, ordinální, metrické) a) nominální + ordinální neparametrické stat. metody b) metrické

Více

Vědecký tutoriál, část I. A Tutorial. Vilém Vychodil (Univerzita Palackého v Olomouci)

Vědecký tutoriál, část I. A Tutorial. Vilém Vychodil (Univerzita Palackého v Olomouci) ..! POSSIBILISTIC Laboratoř pro analýzu INFORMATION: a modelování dat Vědecký tutoriál, část I A Tutorial Vilém Vychodil (Univerzita Palackého v Olomouci) George J. Klir State University of New York (SUNY)

Více

Renáta Bednárová STATISTIKA PRO EKONOMY

Renáta Bednárová STATISTIKA PRO EKONOMY Renáta Bednárová STATISTIKA PRO EKONOMY ZÁKLADNÍ STATISTICKÉ POJMY Statistika Statistický soubor Statistická jednotky Statistický znak STATISTIKA Vědní obor, který se zabývá hromadnými jevy Hromadné jevy

Více

EKOLOGICKÁ PODOBNOST (ECOLOGICAL RESEMBLANCE) David Zelený Zpracování dat v ekologii společenstev

EKOLOGICKÁ PODOBNOST (ECOLOGICAL RESEMBLANCE) David Zelený Zpracování dat v ekologii společenstev EKOLOGICKÁ PODOBNOST (ECOLOGICAL RESEMBLANCE) EKOLOGICKÁ PODOBNOST Q VS R ANALÝZA Vzorky Druhy druh 1 druh 2 druh 3 vzorek 1 0 1 1 vzorek 2 1 0 0 vzorek 3 0 4 4 vztahy mezi vzorky Q analýza vztahy mezi

Více

Klíčová slova prediktory absolvování studia medicíny, logistická regrese, ROC křivky

Klíčová slova prediktory absolvování studia medicíny, logistická regrese, ROC křivky STUDIUM SOUVISLOSTÍ MEZI ÚSPĚŠNOSTÍ STUDIA MEDICÍNY, ZNÁMKAMI STUDENTŮ NA STŘEDNÍ ŠKOLE A VÝSLEDKY PŘIJÍMACÍCH ZKOUŠEK 1 Čestmír Štuka, Petr Šimeček Anotace Studie analyzuje úspěšnost studentů přijatých

Více

marek.pomp@vsb.cz http://homel.vsb.cz/~pom68

marek.pomp@vsb.cz http://homel.vsb.cz/~pom68 Statistika B (151-0303) Marek Pomp ZS 2014 marek.pomp@vsb.cz http://homel.vsb.cz/~pom68 Cvičení: Pavlína Kuráňová & Marek Pomp Podmínky pro úspěšné ukončení zápočet 45 bodů, min. 23 bodů, dvě zápočtové

Více

Informační technologie a statistika 1

Informační technologie a statistika 1 Informační technologie a statistika 1 přednášející: konzul. hodiny: e-mail: Martin Schindler KAP, tel. 48 535 2836, budova G po dohodě martin.schindler@tul.cz naposledy upraveno: 21. září 2015, 1/33 Požadavek

Více

Shluková analýza. shlukovací metodě

Shluková analýza. shlukovací metodě Shluková analýza (Cluster analysis, numerická taxonomie,... ) Cíle shlukové analýzy : ne testovací, ale popisné: klasifikace objektů (Q-technika) nebo znaků (R-technika) nalezení typů generování hypotéz

Více