SHLUKOVÁ ANALÝZA KATEGORIÁLNÍCH DAT

Rozměr: px
Začít zobrazení ze stránky:

Download "SHLUKOVÁ ANALÝZA KATEGORIÁLNÍCH DAT"

Transkript

1 SHLUKOVÁ ANALÝZA KATEGORIÁLNÍCH DAT Hana Řezanková Vysoká škola ekonomická v Praze htt://nb.vse.cz/~rezanka Analýza dat 27/II

2 Obsah Metody shlukové analýzy Shlukování objektů Shlukování roměnných Shlukování binárních dat Shlukování kategorií Možnosti rogramových systémů Analýza dat 27/II 2

3 Metody shlukové analýzy Literatura knihy: Řezanková, H., Húsek, D., Snášel, V.: Shluková analýza dat. Professional Publishing, Praha 27, 96 s. Řezanková, H. Analýza dat z dotazníkových šetření.. vyd. Professional Publishing, Praha 27, 22 s. vyjde Hebák, P. a kol. Vícerozměrné statistické metody [3]. 2. vyd. Informatorium, Praha s. Analýza dat 27/II 3

4 Metody shlukové analýzy Literatura sborníky: Řezanková, H.: Klasifikace omocí shlukové analýzy. Sborník řednášek ze semináře Analýza dat 23/II, TriloByte Statistical Software, Pardubice 24, s Řezanková, H.: Shlukování a velké soubory dat. Sborník řednášek ze semináře Analýza dat 24/II, TriloByte Statistical Software, Pardubice 25, s Analýza dat 27/II 4

5 Metody shlukové analýzy Shluková analýza je ostu formulovaný jako rocedura, omocí níž objektivně seskuujeme jedince do skuin na základě jejich odobnosti a odlišnosti (zkráceně R. C. Tryon, 939). Cílem shlukové analýzy je nalézt skuiny objektů (v širším smyslu) tak, aby dva objekty z téže skuiny si byly odobnější než dva objekty z různých skuin. Analýza dat 27/II 5

6 Metody shlukové analýzy Klasifikace tradičních metod: metody rozkladu (artitioning) ro disjunktní shluky (se zadaným očtem shluků) iterativní relokační (řemísťovací) algoritmy metody matematického rogramování grafické zobrazování omocí minimální kostry hybridní klasifikace metody založené na hustotě metody ro řekrývající se shluky Analýza dat 27/II 6

7 Metody shlukové analýzy Klasifikace tradičních metod: Analýza dat 27/II 7

8 Metody shlukové analýzy Klasifikace tradičních metod: metody rozkladu shluky evné shlukování,4,2,3,3,3,5 objekty fuzzy shlukování,8,,,4,3,3 částečné fuzzy shlukování,2,3,5 Analýza dat 27/II 8

9 Metody shlukové analýzy Metody hierarchické shlukové analýzy: monotetické divizivní (S-PLUS) olytetické aglomerativní divizivní (S-PLUS) modifikované metody dvourozměrné shlukování (STATISTICA, SYSTAT) dvoukroková shluková analýza (SPSS) ROCK (RObust Clustering using links) Analýza dat 27/II 9

10 Metody shlukové analýzy Vstuní data: m-rozměrná ozorování (matice vzorů attern matrix) matice X, rvky x il m roměnných (znaků). znak 2. znak. objekt 2. objekt matice vzdáleností/odobností (matice blízkostí - roximity matrix). objekt 2. objekt. objekt 2. objekt kontingenční tabulka (tabulka četností) X / Y. kategorie 2. kategorie. kategorie 2. kategorie Analýza dat 27/II

11 Metody shlukové analýzy Měření odobnosti u kategoriálních dat Kategoriální roměnné (znaky, atributy): obor hodnot tvořen kategoriemi dichotomické (symetrické a asymetrické) vícekategoriální nominální (nelze určit ořadí) vícekategoriální ordinální (záleží na ořadí) kvantitativní (lze očítat vzdálenost, není třeba zvláštní ostu) Analýza dat 27/II

12 Metody shlukové analýzy Měření odobnosti u dichotomických dat obvykle binární data (hodnoty jsou a ) symetrické asymetrické (jedna hodnota důležitější, obvykle ) Postu: běžné míry (ro symetrické) seciální míry (zaměřené na určitý ty) Analýza dat 27/II 2

13 Metody shlukové analýzy Měření odobnosti u nominálních dat jediná míra ro odobnost objektů (koeficient rosté shody) různé míry ro odobnost roměnných (viz dále) S m l ij S m ijl Škola P P2 P3 řevedení na binární data OA SPŠ SOU Analýza dat 27/II 3

14 Metody shlukové analýzy Měření odobnosti u ordinálních dat kódovat kategorie od hodnoty jedna a transformace do intervalu ; řevedení na binární data Odezva P P2 P3 žádná slabá střední silná různé míry ro odobnost roměnných (viz dále) Analýza dat 27/II 4

15 Shlukování objektů Dichotomické roměnné seciální míry hierarchická shluková analýza (stejné jako ro shlukování roměnných) seciální metody monotetická shluková analýza (S-PLUS) Kaufman, L., Rousseeuw, P.: Finding Grous in Data: An Introduction to Cluster Analysis. Wiley, Hoboken 25. Algoritmus MONA (MONothetic Analysis) Analýza dat 27/II 5

16 Shlukování objektů Algoritmus MONA (MONothetic Analysis) Kategorie znaku x k Kategorie znaku x l a kl b kl c kl d kl q kl a kl d q l q kl k l kl b kl c kl k, 2,, m l, 2,, m rozdělení objektů odle roměnné, ro níž max l (q l ). Analýza dat 27/II 6

17 Analýza dat 27/II 7 Shlukování objektů Vlastnosti zvířat: Ritter, H. J., Kohonen, T.: Self-Oganizing Semantic Mas. Biological Cybernetics, 6, 989, kráva zebra kůň lev tygr kočka vlk es liška orel jestřáb sova husa kachna sleice holub lave létá běhá loví eří hříva koyta srst 4_nohy 2_nohy velké střední malé Zvíře

18 Shlukování objektů Algoritmus MONA (MONothetic Analysis) Analýza dat 27/II 8

19 Shlukování objektů Nominální roměnné insirace v třídícím algoritmu (Hartigan): ro každou roměnnou stanovena rahová hodnota shluky jsou vymezeny olíčky vícerozměrné kontingenční tabulky mezi všemi roměnnými Hartigan, J. A.: Clustering Algorithms. John Wiley & Sons, New York 975. Analýza dat 27/II 9

20 Nominální roměnné Shlukování objektů koeficient rosté shody (STATISTICA) S ijl x il x jl a S ijl jinak řevedení na binární data seciální metody k-modů, k-histogramů, ROCK, CACTUS další ostuy (jiné míry v nových metodách) míra věrohodnostního tyu (log-likelihood) v dvoukrokové shlukové analýze (SPSS) S m l ij S m ijl Analýza dat 27/II 2

21 Shlukování objektů Metody k-modů, k-histogramů vycházejí z metody k-růměrů, obecně k-centroidů. Centroid je definován jako vektor, ro který latí, že součet vzdáleností jednotlivých objektů ve shluku k tomuto vektoru je minimální (oužije-li se euklidovská vzdálenost, ak je centroidem vektor růměrů a jde o metodu k-růměrů). D m 2 E ( xi, x j ) ( xil x jl ) l x i x j Analýza dat 27/II 2

22 Shlukování objektů Metody k-modů, k-histogramů Každá l-tá roměnná nabývá hodnot v lu (u, 2,, K l ). Každý shluk je rerezentován m-rozměrným vektorem údajů, který obsahuje buď modální (nejčetněji zastouené) kategorie jednotlivých roměnných (v metodě k-modů), nebo údaje o četnostech kategorií jednotlivých roměnných (v metodě k-histogramů). Používají se řitom seciální míry neodobnosti. Huang, Z.: Extensions to the k-means algorithm to clustering large data sets with categorical values. Data Mining and Knowledge Discovery, 2, 998, Analýza dat 27/II 22

23 Shlukování objektů Metoda ROCK (RObust Clustering using links) založena na rinciu hierarchického shlukování nejdříve se rovede náhodný výběr objektů, které se shlukují do ožadovaného očtu shluků, o čemž následuje řiřazení zbylých objektů (jako v CURE) využívá koncet grafu, ojmy sousedi a vazby Jaccardův koeficient odobnosti ro binární data Guha, S., Rastogi, R., Shim, K. : ROCK: A robust clustering algorithm for categorical attributes. Information Systems, 25(5), 2, Analýza dat 27/II 23

24 Shlukování objektů Metoda CACTUS (CAtegorical ClusTering Using Summaries) atří k metodám založeným na mřížce založena na myšlence solečného výskytu určitých kategorií různých roměnných zda je očet výskytů kategorií v kt a v lu dvou různých roměnných k a l větší než očekávaná četnost Ganti, V., Gehrke, J., Ramakrishnan, R.: CACTUS Clustering categorical data using summaries. Proceedings of the 5th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, ACM Press, San Diego 999, Analýza dat 27/II 24

25 Shlukování objektů Dvoukroková shluková analýza (sytém SPSS) shlukovací vlastnosti CF (Cluster Features), CF-strom míra věrohodnostního tyu (log-likelihood) variabilita ve shlucích se zjišťuje omocí entroie H gl K l u n n glu g n ln n Zhang, T., Ramakrishnan, R., Livny, M.: BIRCH: An efficient data clustering method for very large databases. ACM SIGMOD Record, 25(2), 996, 3-4. glu g Analýza dat 27/II 25

26 Shlukování objektů Newman, D.J., Hettich, S., Blake, C.L., Merz, C.J.: UCI Reository of machine learning databases. Irvine, CA: University of California, 998 [htt:// html]. Analýza dat 27/II 26

27 Shlukování objektů Dvoukroková shluková analýza (sytém SPSS) Cluster Distribution v5 Cluster Total Combined % of N Combined % of Total 737 2,4% 2,4% 635 2,% 2,% 296 6,% 6,% 728 2,3% 2,3% 728 2,3% 2,3% 824,%,% 824,% Cluster Combined f t Frequency Percent Frequency Percent 433 3,2% 34 9,% 29 6,% ,8% ,3%,% ,4%,%,% 728 5,2% 4748,% 3376,% Cluster Combined v3 f g s y Frequency Percent Frequency Percent Frequency Percent Frequency Percent ,5% 4,% ,3% 289 8,9% 24,3%,% 86 3,9% 579 7,8% ,9%,%,% 648 2,%,%,% ,8% ,6% ,2%,%,% ,6% 232,% 4,% 2556,% 3244,% Analýza dat 27/II 27

28 Shlukování objektů Ordinální roměnné kódovat kategorie od hodnoty jedna a transformace do intervalu ; řevést na binární data oužít seciální metody k-mediánů Analýza dat 27/II 28

29 Shlukování objektů Metoda k-mediánů (SYSTAT) vychází z metody k-centroidů (jde o k-shlukování) Centroid je definován jako vektor, ro který latí, že součet vzdáleností jednotlivých objektů ve shluku k tomuto vektoru je minimální. Použije-li se manhattanská vzdálenost, ak je centroidem vektor mediánů a jde o metodu k-mediánů). D B ( x i, x j ) m l x il x jl x i x j Analýza dat 27/II 29

30 Shlukování roměnných Nominální roměnné koeficient rosté shody S kli x ik x il a S kli jinak koeficient neshody seciální míry odobnosti řevedení na binární data S kl D kl S kl n i S n kli Analýza dat 27/II 3

31 Shlukování roměnných Newman, D.J., Hettich, S., Blake, C.L., Merz, C.J.: UCI Reository of machine learning databases. Irvine, CA: University of California, 998 [htt:// html]. Analýza dat 27/II 3

32 Shlukování roměnných Nominální roměnné koeficient neshody ca-shae sore-rint-color ca-color odor habitat oulation gill-color ca-surface gill-size bruises ring-tye stalk-shae gill-attachment veil-color ring-number gill-sacing stalk-surfacr-above-ring stalk-surface-below-ring stalk-color-above-ring stalk-color-below-ring Stromový diagram ro 2 roměnných Úlné sojení Procentuální neshoda,,2,4,6,8, Vzdálenost sojení Analýza dat 27/II 32

33 Shlukování roměnných Seciální míry odobnosti vycházejí z kontingenční tabulky Znak Y Znak X. kategorie. kategorie j-tá kategorie S-tá kategorie Celkem n n j n S n i-tá kategorie n i n ij n is n i R-tá kategorie n R n Rj n RS n R Celkem n n j n S n Analýza dat 27/II 33

34 Shlukování roměnných Seciální míry odobnosti vycházejí z kontingenční tabulky Znak Y Znak X Celkem. kategorie i-tá kategorie R-tá kategorie. kategorie j-tá kategorie S-tá kategorie Celkem i R j ij R j S is i RS S R Analýza dat 27/II 34

35 Shlukování roměnných Seciální míry odobnosti ro nominální roměnné vycházejí z rinciu analýzy roztylu a oměru determinace S Y X var( Y, X var( Y ) ) var( Y ) var( Y var( Y ) X ) S Y X var( Y ) R i i var( Y ) var( Y x i ) var ( Y ) var( Y, X ) var( Y X ) Analýza dat 27/II 35

36 Shlukování roměnných Měření variability nominálních roměnných Četnost Znak X absolutní relativní kumulativní relativní x n P x i n i x K n K i K P i Celkem n x Analýza dat 27/II 36

37 Shlukování roměnných Měření variability nominálních roměnných variační oměr v n /n nominální roztyl nomvar (Giniho koeficient) entroie H K i K i 2 i K i i ln i ( i Mo ( i )) Mo Analýza dat 27/II 37

38 Analýza dat 27/II 38 Shlukování roměnných Míry závislosti nominálních roměnných variační oměr v /n Mo Mo n λ Mo Mo Mo ) ( ) ( ) ( Y v x Y v Y v i i R i i i R i i X Y Mo Mo Mo Mo Mo Mo R i i R i i Goodmanova- -Kruskalova λ

39 Shlukování roměnných Míry odobnosti nominálních roměnných PRE P{} - P{2} P{} P{} ( Mo ) P{2} ( Σ imo ) Goodmanova- -Kruskalova λ P{ } 2 ( ) Mo Mo R S P{2} i Mo 2 i j Moj λ sym R S imo i j Moj 2 Mo Mo Mo Mo Analýza dat 27/II 39

40 Analýza dat 27/II 4 Shlukování roměnných Míry závislosti nominálních roměnných entroie K i i i H ln S j j j S j i ij i ij R i i S j j j i R i i X Y Y H x Y H Y H U ln ln ln ) ( ) ( ) ( informační koeficient (koeficient nejistoty) S j j j R i S j R i S j ij ij j j i i X Y U ln ln ln ln ) ( ) ( ) ( ) ( Y H XY H Y H X H

41 Analýza dat 27/II 4 Shlukování roměnných Míry odobnosti nominálních roměnných informační koeficient (koeficient nejistoty) ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( 2 XY H Y H X H X H XY H Y H X H Y H U sym ( ) ) ( ) ( ) ( ) ( ) ( 2 Y H X H XY H Y H X H

42 Shlukování roměnných Míry odobnosti ordinálních roměnných Searmanův koeficient ořadové korelace n( n ) Míry založené na očtech konkordantních a diskordantních árů r S 6 n ( x l l 2 y l ) 2 Analýza dat 27/II 42

43 Shlukování roměnných Míry odobnosti ordinálních roměnných Míry založené na očtech konkordantních a diskordantních árů C očet konkordantních árů D očet diskordantních árů T X očet árů, které obsahují stejnou hodnotu roměnné X, ale různou hodnotu Y T Y očet árů, které obsahují stejnou hodnotu roměnné Y, ale různou hodnotu X Analýza dat 27/II 43

44 Shlukování roměnných Míry odobnosti ordinálních roměnných Goodmanova-Kruskalova γ γ C C D D Kendallovo τ b τ b C D ( C D TX )( C D TY ) Kendallovo τ c Stuartovo τ c τ c 2q( C 2 n ( q D) ) q min{r, S} Analýza dat 27/II 44

45 Analýza dat 27/II 45 Shlukování roměnných Míry odobnosti ordinálních roměnných Somersovo d Y X Y T D C D C d ( ) ( ) Y X X Y sym T T D C D C D C T D C D C T D C d 2 2 2

46 Shlukování roměnných Hodnoty Kendallova τ b ro dvojice roměnných Blues Musicals Classical Jazz Ra Heavy Metal Blues or R & B Music,,7,5,49,6,2 Broadway Musicals,7,,4,22,3 -, Classical Music,5,4,,23, -, Jazz Music,49,22,23,,6, Ra Music,6,3,,6,,35 Heavy Metal Music,2 -, -,,,35, Analýza dat 27/II 46

47 Shlukování roměnných Ordinální roměnné koeficient τ b Stromový diagram ro 6 roměnných Úlné sojení Odlišnosti z matice Blues Jazz Musicals Classical Ra Heavy Metal,4,5,6,7,8,9,, Vzdálenost sojení Analýza dat 27/II 47

48 Shlukování binárních dat Stejné míry odobnosti (neodobnosti) ro objekty i roměnné Kategorie objektu x j Kategorie objektu x i a c b d Analýza dat 27/II 48

49 Shlukování binárních dat míry ro symetrické a asymetrické roměnn nné míry odobnosti, neodobnosti a vzdálenosti koeficienty shody, odmíněné ravděodobnosti odobnosti míry ro hodnocení ředovědí a ostatní míry, které jsou funkcemi oměru šancí,, míry, m které jsou funkcemi korelačního koeficientu, a ostatní Analýza dat 27/II 49

50 Shlukování binárních dat Koeficient souhlasu (ro symetrická binární data) Jaccardův koeficient (ro asymetrická binární data) a a d b c d a a b c Diceův (Czekanowského) koeficient (ro asymetrická binární data) Russelův a Raoův RR (ro asymetrická binární data) 2a 2a b c a a b c d Analýza dat 27/II 5

51 Shlukování binárních dat Sokalův a Sneathův koeficient, SoSn 2( a d) 2( a d) b c Rogersův a Tanimotoův koef., RT a a d d 2( b c) Analýza dat 27/II 5

52 Shlukování binárních dat Funkce oměru šancí Poměr šancí ψ ad bc Yuleovo Q Q ad ad bc bc ad ad / bc / bc ψ ψ Yuleův koeficient vazby Y ad ad bc bc ψ ψ Analýza dat 27/II 52

53 Shlukování binárních dat Míry ro hodnocení ředovědí Goodmanova-Kruskalova λ Anderbergovo D t t2 2( a b c d ) t 2 2( a t t2 b c d ) t max(a, b) max(c, d) max(a, c) max(b, d) t 2 max(a c, b d) max(a b, c d) Analýza dat 27/II 53

54 Shlukování binárních dat Míry ro ordinální roměnné Goodmanova-Kruskalova γ γ C C D D ad ad bc bc Q Kendallovo τ b τ b C D ( C D TY )( C D TX ) ad bc ( ad bc ab cd )( ad bc ac bd ) Analýza dat 27/II 54

55 Shlukování binárních dat Míry ro kvantitativní roměnné Koeficient asociace (korelační koeficient) ad bc r XY ( a b)( a c)( b d )( c d ) τ r b XY Analýza dat 27/II 55

56 Shlukování binárních dat Míry vzdálenosti a neodobnosti Euklidovská vzdálenost Binární čtvercová euklidovská vzdálenost Hammingova vzdálenost Binární Lanceova a Williamsova nemetrická míra neodobnosti b c b c b c 2a b c Analýza dat 27/II 56

57 Shlukování binárních dat Dendrogram olytetické aglomerativní shlukování Stromový diagram ro 6 říadů Úlné sojení Euklidovská vzdálenost holub sleice kachna husa sova jestřáb orel liška vlk es kočka tygr lev kůň zebra kráva,,5,,5 2, 2,5 3, 3,5 Vzdálenost sojení Analýza dat 27/II 57

58 Shlukování binárních dat Banner lot olytetické divizivní shlukování Analýza dat 27/II 58

59 Shlukování binárních dat Vícerozměrné škálování,8 Bodový graf 2D Konečná konfigurace, dimenze vs. dimenze 2,6,4 HUSA KACHNA SLEPICE KRÁVA ZEBRA KŮN Dimenze 2,2, -,2 HOLUB JESTŘÁB SOVA KOČKA TYGR LEV -,4 -,6 OREL LIŠKA PES VLK -,8 -,4 -,2 -, -,8 -,6 -,4 -,2,,2,4,6,8,,2,4 Dimenze Analýza dat 27/II 59

60 Shlukování kategorií Míry neodobnosti kategorií Pearsonova chí-kvadrát statistika χ S 2 S 2 nij mij ) ( ni j m 2 i j ) j Koeficient φ i ij i j mij ni ni ( m ij ϕ m j i j 2 χ n i n i m i j n n i ( n n ( n i ij n n n i ) i j ) Analýza dat 27/II 6

61 Shlukování kategorií Matice neodobností (chí-kvadrát míra) ro oblasti interview na základě úrovně vzdělání Region :New England, 2,8 3,32 2,65 3,33 4,76,9,95 2,6 2:Middle Atlantic 2,8,,55,3,9 3,82,32 2,2,56 3:E. Nor Central 3,32,55,,44 2,62 5,6,62 2,48 2,25 4:W. Nor Central 2,65,3,44,,56 3,66,23,88,6 5:South Atlantic 3,33,9 2,62,56, 3,6 2,8 2,42 2,53 6:E. Sou Central 4,76 3,82 5,6 3,66 3,6, 4,39 3,54 4,6 7:W. Sou Central,9,32,62,23 2,8 4,39,,3,8 8:Mountain,95 2,2 2,48,88 2,42 3,54,3,,5 9:Pacifik 2,6,56 2,25,6 2,53 4,6,8,5, Analýza dat 27/II 6

62 Shlukování kategorií Dendrogram olytetické aglomerativní shlukování Stromový diagram ro 9 objektů Úlné sojení Odlišnosti z matice NEW ENGL W. SOU C PACIFIC MOUNTAIN MIDDLE A SOUTH A E. NOR C W. NOR C E. SOU C Vzdálenost sojení Analýza dat 27/II 62

63 Shlukování kategorií Jiné metody (grafické zobrazování) Koresondenční analýza Vícerozměrné škálování Analýza dat 27/II 63

64 Shlukování kategorií Výsledky růzkumu cestovní kanceláře Count Ty zájezdu Celkem hory obyt s výlety oznávací zájezd turistika Otimální ubytování aartman bungalov hotel stan Celkem Matice neodobností (míra chí-kvadrát) Case :hory 2:obyt s výlety 3:oznávací zájezd 4:turistika This is a dissimilarity matrix Proximity Matrix Chi-square between Sets of Frequencies 2:obyt 3:oznávací :hory s výlety zájezd 4:turistika, 3,2 3,368 3,62 3,2,,7 9,65 3,368,7, 3,367 3,62 9,65 3,367, Analýza dat 27/II 64

65 Shlukování kategorií Matice neodobností (míra chí-kvadrát) Case :hory 2:obyt s výlety 3:oznávací zájezd 4:turistika This is a dissimilarity matrix Proximity Matrix Chi-square between Sets of Frequencies 2:obyt 3:oznávací :hory s výlety zájezd 4:turistika, 3,2 3,368 3,62 3,2,,7 9,65 3,368,7, 3,367 3,62 9,65 3,367, Postu ři shlukování (jednoduché sojení) Agglomeration Schedule Stage 2 3 Stage Cluster First Cluster Combined Aears Cluster Cluster 2 Coefficients Cluster Cluster 2 Next Stage 3 4 3, , ,65 2 Analýza dat 27/II 65

66 Shlukování kategorií Výsledky růzkumu cestovní kanceláře Count Ty zájezdu Celkem hory obyt s výlety oznávací zájezd turistika Otimální ubytování aartman bungalov hotel stan Celkem Matice neodobností (míra chí-kvadrát) Proximity Matrix Case aartman bungalov hotel stan Matrix File Inut aartman bungalov hotel stan, 5,439,97,52 5,439, 8,2 5,97,97 8,2, 3,754,52 5,97 3,754, Analýza dat 27/II 66

67 Shlukování kategorií Matice neodobností (míra chí-kvadrát) Proximity Matrix Case aartman bungalov hotel stan Matrix File Inut aartman bungalov hotel stan, 5,439,97,52 5,439, 8,2 5,97,97 8,2, 3,754,52 5,97 3,754, Postu ři shlukování (růměrné sojení) Agglomeration Schedule Stage 2 3 Stage Cluster First Cluster Combined Aears Cluster Cluster 2 Coefficients Cluster Cluster 2 Next Stage 3, , ,427 2 Analýza dat 27/II 67

68 Shlukování kategorií Vícerozměrné škálování Common Sace Common Sace Dimension 2,2,, -, -,2 -,3 hory turistika oznávací_zájezd -,5,,5 Dimension obyt_s_výlety, Dimension 2,2,, -, -,2 -,3 -,4 -, hotel aartman bungalov -,5,,5 Dimension stan, Analýza dat 27/II 68

69 Shlukování kategorií Koresondenční analýza Symmetrical Normalization Otimální ubytování Ty zájezdu,5 turistika Dimension 2,,5, -,5 hory -,5 bungalov aartman stan obyt s výlety hotel oznávací zájezd -, -,5,,5, Dimension Analýza dat 27/II 69

70 Možnosti rogramových systémů Seciální míry ro hierarchickou shlukovou analýzu, res. k-shlukování (růměry, mediány) Koef. neshody (STATISTICA, SYSTAT ro HSA) Míra ro ordinální roměnné ro HSA a k-shluk. SYSTAT (gama) Míry ro binární data ro HSA SPSS (26 měr) STATISTICA (korelační koeficient koef. asociace) SYSTAT (Jaccardův koeficient, Anderbergovo D, RR, SoSn, RT, gama Yulovo Q, korel. koeficient) Analýza dat 27/II 7

71 Možnosti rogramových systémů Míry ro různé tyy roměnných (včetně nominálních) ve seciální metodě Míra věrohodnostního tyu ve dvoukrokové shlukové analýze (SPSS) Míry ro shlukování kategorií ro HSA Chí-kvadrát, fí-kvadrát (SPSS, SYSTAT i ro k-shlukování, tj. k-růměrů a k-mediánů) Seciální metody Monotetická shluková analýza (S-PLUS) Metoda k-mediánů (SYSTAT) Analýza dat 27/II 7

72 Možnosti rogramových systémů Vytvoření matice odobností (neodobností) SPSS: Pearsonův a Searmanův korelační koeficient, Kendallovo τ b SYSTAT: koef. fí, Cramérovo V, kontingenční koef., Goodmanova-Kruskalova λ, koef. nejistoty, Pearsonův a Searmanův korelační koeficient, Kendallovo τ b, Stuartovo τ c, Goodmanova- Kruskalova γ, 3 měr ro dichotomická data Analýza dat 27/II 72

73 Děkuji Vám za ozornost Analýza dat 27/II 73

Klasifikace pomocí shlukové analýzy. Hana Řezanková

Klasifikace pomocí shlukové analýzy. Hana Řezanková Klasifikace pomocí shlukové analýzy Hana Řezanková Vysoká škola ekonomická v Praze Cíle klasifikace a shlukové analýzy Cílem klasifikace je zařadit adit buď některé z objektů nebo všechny v objekty do

Více

Úvodem Dříve les než stromy 3 Operace s maticemi

Úvodem Dříve les než stromy 3 Operace s maticemi Obsah 1 Úvodem 13 2 Dříve les než stromy 17 2.1 Nejednoznačnost terminologie 17 2.2 Volba metody analýzy dat 23 2.3 Přehled vybraných vícerozměrných metod 25 2.3.1 Metoda hlavních komponent 26 2.3.2 Faktorová

Více

Univerzita Pardubice FAKULTA CHEMICKO TECHNOLOGICKÁ

Univerzita Pardubice FAKULTA CHEMICKO TECHNOLOGICKÁ Univerzita Pardubice FAKULA CHEMICKO ECHNOLOGICKÁ MEODY S LAENNÍMI PROMĚNNÝMI A KLASIFIKAČNÍ MEODY SEMINÁRNÍ PRÁCE LICENČNÍHO SUDIA Statistické zracování dat ři kontrole jakosti Ing. Karel Dráela, CSc.

Více

3.2 Metody s latentními proměnnými a klasifikační metody

3.2 Metody s latentními proměnnými a klasifikační metody 3. Metody s latentními roměnnými a klasifikační metody Otázka č. Vyočtěte algoritmem IPALS. latentní roměnnou z matice A[řádek,slouec]: A[,]=, A[,]=, A[3,]=3, A[,]=, A[,]=, A[3,]=0, A[,3]=6, A[,3]=4, A[3,3]=.

Více

Analýza dat z dotazníkových šetření. Zdrojová data: dotazník http://www.vyplnto.cz/realizovane-pruzkumy/konzumace-ryb-a-rybich-vyrob/

Analýza dat z dotazníkových šetření. Zdrojová data: dotazník http://www.vyplnto.cz/realizovane-pruzkumy/konzumace-ryb-a-rybich-vyrob/ Analýza dat z dotazníkových šetření Cvičení 3. - Jednorozměrné třídění Zdrojová data: dotazník http://www.vyplnto.cz/realizovane-pruzkumy/konzumace-ryb-a-rybich-vyrob/ - Seznamte se s dotazníkem a strukturou

Více

Metody analýzy dat I. Míry a metriky - pokračování

Metody analýzy dat I. Míry a metriky - pokračování Metody analýzy dat I Míry a metriky - pokračování Literatura Newman, M. (2010). Networks: an introduction. Oxford University Press. [168-193] Zaki, M. J., Meira Jr, W. (2014). Data Mining and Analysis:

Více

Analýza dat z dotazníkových šetření

Analýza dat z dotazníkových šetření Analýza dat z dotazníkových šetření Cvičení 6. Rozsah výběru Př. Určete minimální rozsah výběru pro proměnnou věk v souboru dovolena, jestliže 95% interval spolehlivost průměru proměnné nemá být širší

Více

1.1 Úvod... 1 1.2 Data... 1. 3 Statistická analýza dotazníkových dat 8. Literatura 10

1.1 Úvod... 1 1.2 Data... 1. 3 Statistická analýza dotazníkových dat 8. Literatura 10 MÍRY STATISTICKÉ VAZBY, VÝBĚROVÁ ŠETŘENÍ, STATISTICKÁ ANALÝZA DOTAZNÍKOVÝCH DAT Obsah 1 Statistická data 1 1.1 Úvod.......................................... 1 1. Data...........................................

Více

Algoritmy pro shlukování prostorových dat

Algoritmy pro shlukování prostorových dat Algoritmy pro shlukování prostorových dat Marta Žambochová Katedra matematiky a informatiky Fakulta sociálně ekonomická Univerzita J. E. Purkyně v Ústí nad Labem ROBUST 21. 26. leden 2018 Rybník - Hostouň

Více

Shluková analýza dat a stanovení počtu shluků

Shluková analýza dat a stanovení počtu shluků Shluková analýza dat a stanovení počtu shluků Autor: Tomáš Löster Vysoká škola ekonomická v Praze Ostrava, červen 2017 Osnova prezentace Úvod a teorie shlukové analýzy Podrobný popis shlukování na příkladu

Více

PSY117/454 Statistická analýza dat v psychologii Přednáška 10

PSY117/454 Statistická analýza dat v psychologii Přednáška 10 PSY117/454 Statistická analýza dat v psychologii Přednáška 10 TESTY PRO NOMINÁLNÍ A ORDINÁLNÍ PROMĚNNÉ NEPARAMETRICKÉ METODY... a to mělo, jak sám vidíte, nedozírné následky. Smrť Analýza četností hodnot

Více

Mnohorozměrná statistická data

Mnohorozměrná statistická data Statistika II Katedra ekonometrie FVL UO Brno kancelář 69a, tel. 973 442029 email:jiri.neubauer@unob.cz Statistický znak, statistický soubor Jednotlivé objekty nebo subjekty, které jsou při statistickém

Více

5 Vícerozměrná data - kontingenční tabulky, testy nezávislosti, regresní analýza

5 Vícerozměrná data - kontingenční tabulky, testy nezávislosti, regresní analýza 5 Vícerozměrná data - kontingenční tabulky, testy nezávislosti, regresní analýza 5.1 Vícerozměrná data a vícerozměrná rozdělení Při zpracování vícerozměrných dat se hledají souvislosti mezi dvěma, případně

Více

Obsah Úvod Kapitola 1 Než začneme Kapitola 2 Práce s hromadnými daty před analýzou

Obsah Úvod Kapitola 1 Než začneme Kapitola 2 Práce s hromadnými daty před analýzou Úvod.................................................................. 11 Kapitola 1 Než začneme.................................................................. 17 1.1 Logika kvantitativního výzkumu...........................................

Více

Shluková analýza. Jiří Militky. Analýza experimentálních dat V. Červeně označené slide jsou jen pro doplnění informací a nezkouší se.

Shluková analýza. Jiří Militky. Analýza experimentálních dat V. Červeně označené slide jsou jen pro doplnění informací a nezkouší se. Červeně označené slide jsou jen pro doplnění informací a nezkouší se. Shluková analýza Jiří Militky Analýza experimentálních dat V Klasifikace objektů Rozdělení objektů do shluků dle jejich podobnosti

Více

IBM SPSS Exact Tests. Přesné analýzy malých datových souborů. Nejdůležitější. IBM SPSS Statistics

IBM SPSS Exact Tests. Přesné analýzy malých datových souborů. Nejdůležitější. IBM SPSS Statistics IBM Software IBM SPSS Exact Tests Přesné analýzy malých datových souborů Při rozhodování o existenci vztahu mezi proměnnými v kontingenčních tabulkách a při používání neparametrických ů analytici zpravidla

Více

Testování hypotéz a měření asociace mezi proměnnými

Testování hypotéz a měření asociace mezi proměnnými Testování hypotéz a měření asociace mezi proměnnými Testování hypotéz Nulová a alternativní hypotéza většina statistických analýz zahrnuje různá porovnání, hledání vztahů, efektů Tvrzení, že efekt je nulový,

Více

A-PDF Split DEMO : Purchase from to remove the watermark

A-PDF Split DEMO : Purchase from  to remove the watermark A-PDF Split DEMO : Purchase from www.a-pdf.com to remove the watermark KDE STUDENTI HLEDAJÍ INFORMACE Marta Žambochová Adresa: FSE UJEP, KMS, Moskevská 54, CZ-400 96, Ústí nad Labem E-mail: marta.zambochova@ujep.cz

Více

Vícerozměrné statistické metody

Vícerozměrné statistické metody Vícerozměrné statistické metody Shluková analýza Jiří Jarkovský, Simona Littnerová FSTA: Pokročilé statistické metody Typy shlukových analýz Shluková analýza: cíle a postupy Shluková analýza se snaží o

Více

Základy pravděpodobnosti a statistiky. Popisná statistika

Základy pravděpodobnosti a statistiky. Popisná statistika Základy pravděpodobnosti a statistiky Popisná statistika Josef Tvrdík Přírodovědecká fakulta, katedra informatiky josef.tvrdik@osu.cz konzultace v úterý 14.10 až 15.40 hod. Příklad ze života Cimrman, Smoljak/Svěrák,

Více

Grafický a číselný popis rozložení dat 3.1 Způsoby zobrazení dat Metody zobrazení kvalitativních a ordinálních dat Metody zobrazení kvan

Grafický a číselný popis rozložení dat 3.1 Způsoby zobrazení dat Metody zobrazení kvalitativních a ordinálních dat Metody zobrazení kvan 1 Úvod 1.1 Empirický výzkum a jeho etapy 1.2 Význam teorie pro výzkum 1.2.1 Konstrukty a jejich operacionalizace 1.2.2 Role teorie ve výzkumu 1.2.3 Proces ověření hypotéz a teorií 1.3 Etika vědecké práce

Více

Metody s latentními proměnnými a klasifikační metody

Metody s latentními proměnnými a klasifikační metody Univerzita Pardubice Fakulta chemicko-technologická Katedra analytické chemie etody s latentními roměnnými a klasifikační metody Ing. Roman Slavík V Bohumíně 4.4. ŽDB a.s. Příklad č. Vyočtěte algoritmem

Více

Dynamické programování

Dynamické programování ALG Dynamické rogramování Nejdelší rostoucí odoslounost Otimální ořadí násobení matic Nejdelší rostoucí odoslounost Z dané oslounosti vyberte co nejdelší rostoucí odoslounost. 5 4 9 5 8 6 7 Řešení: 4 5

Více

ANALÝZA DAT V R 7. KONTINGENČNÍ TABULKA. Mgr. Markéta Pavlíková Katedra pravděpodobnosti a matematické statistiky MFF UK.

ANALÝZA DAT V R 7. KONTINGENČNÍ TABULKA. Mgr. Markéta Pavlíková Katedra pravděpodobnosti a matematické statistiky MFF UK. ANALÝZA DAT V R 7. KONTINGENČNÍ TABULKA Mgr. Markéta Pavlíková Katedra pravděpodobnosti a matematické statistiky MFF UK www.biostatisticka.cz PŘEHLED TESTŮ rozdělení normální spojité alternativní / diskrétní

Více

Vícerozměrné statistické metody

Vícerozměrné statistické metody Vícerozměrné statistické metody Podobnosti a vzdálenosti ve vícerozměrném prostoru, asociační matice II Jiří Jarkovský, Simona Littnerová Vícerozměrné statistické metody Práce s asociační maticí Vzdálenosti

Více

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz Pravděodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@niax.cz Pravděodobnost a matematická statistika 2010 1.týden (20.09.-24.09. ) Data, tyy dat, variabilita, frekvenční analýza

Více

V praxi pracujeme s daty nominálními (nabývají pouze dvou hodnot), kategoriálními (nabývají více

V praxi pracujeme s daty nominálními (nabývají pouze dvou hodnot), kategoriálními (nabývají více 9 Vícerozměrná data a jejich zpracování 9.1 Vícerozměrná data a vícerozměrná rozdělení Při zpracování vícerozměrných dat, hledáme souvislosti mezi dvěmi, případně více náhodnými veličinami. V praxi pracujeme

Více

Stav Svobodný Rozvedený Vdovec. Svobodná 37 10 6. Rozvedená 8 12 8. Vdova 5 8 6

Stav Svobodný Rozvedený Vdovec. Svobodná 37 10 6. Rozvedená 8 12 8. Vdova 5 8 6 1. Příklad Byly sledovány rodinné stavy nevěst a ženichů při uzavírání sňatků a byla vytvořena následující tabulka četností. Stav Svobodný Rozvedený Vdovec Svobodná 37 10 6 Rozvedená 8 12 8 Vdova 5 8 6

Více

Mnohorozměrná statistická data

Mnohorozměrná statistická data Mnohorozměrná statistická data Ekonometrie Jiří Neubauer Katedra ekonometrie FVL UO Brno kancelář 69a, tel. 973 442029 email:jiri.neubauer@unob.cz Jiří Neubauer (Katedra ekonometrie UO Brno) Mnohorozměrná

Více

MATEMATICKÁ STATISTIKA. Katedra matematiky a didaktiky matematiky Technická univerzita v Liberci

MATEMATICKÁ STATISTIKA.   Katedra matematiky a didaktiky matematiky Technická univerzita v Liberci MATEMATICKÁ STATISTIKA Dana Černá http://www.fp.tul.cz/kmd/ Katedra matematiky a didaktiky matematiky Technická univerzita v Liberci Matematická statistika Matematická statistika se zabývá matematickým

Více

Vícerozměrné metody. PSY117/454 Statistická analýza dat v psychologii Přednáška 12. Schematický úvod

Vícerozměrné metody. PSY117/454 Statistická analýza dat v psychologii Přednáška 12. Schematický úvod PSY117/454 Statistická analýza dat v psychologii Přednáška 12 Vícerozměrné metody Schematický úvod Co je na slově statistika tak divného, že jeho vyslovení tak často způsobuje napjaté ticho? William Kruskal

Více

Státnice odborné č. 20

Státnice odborné č. 20 Státnice odborné č. 20 Shlukování dat Shlukování dat. Metoda k-středů, hierarchické (aglomerativní) shlukování, Kohonenova mapa SOM Shlukování dat Shluková analýza je snaha o seskupení objektů do skupin

Více

Statistické metody v ekonomii. Ing. Michael Rost, Ph.D.

Statistické metody v ekonomii. Ing. Michael Rost, Ph.D. Statistické metody v ekonomii Ing. Michael Rost, Ph.D. Jihočeská univerzita v Českých Budějovicích Shluková analýza Shluková analýza je souhrnným názvem pro celou řadu výpočetních algoritmů, jejichž cílem

Více

Některé potíže s klasifikačními modely v praxi. Nikola Kaspříková KMAT FIS VŠE v Praze

Některé potíže s klasifikačními modely v praxi. Nikola Kaspříková KMAT FIS VŠE v Praze Některé potíže s klasifikačními modely v praxi Nikola Kaspříková KMAT FIS VŠE v Praze Literatura J. M. Chambers: Greater or Lesser Statistics: A Choice for Future Research. Statistics and Computation 3,

Více

Kontingenční tabulky, korelační koeficienty

Kontingenční tabulky, korelační koeficienty Statistika II Katedra ekonometrie FVL UO Brno kancelář 69a, tel. 973 442029 email:jiri.neubauer@unob.cz Mějme kategoriální proměnné X a Y. Vytvoříme tzv. kontingenční tabulku. Budeme tedy testovat hypotézu

Více

Karta předmětu prezenční studium

Karta předmětu prezenční studium Karta předmětu prezenční studium Název předmětu: Číslo předmětu: 545-0250 Garantující institut: Garant předmětu: Ekonomická statistika Institut ekonomiky a systémů řízení RNDr. Radmila Sousedíková, Ph.D.

Více

Zpracování studie týkající se průzkumu vlastností statistických proměnných a vztahů mezi nimi.

Zpracování studie týkající se průzkumu vlastností statistických proměnných a vztahů mezi nimi. SEMINÁRNÍ PRÁCE Zadání: Data: Statistické metody: Zpracování studie týkající se průzkumu vlastností statistických proměnných a vztahů mezi nimi. Minimálně 6 proměnných o 30 pozorováních (z toho 2 proměnné

Více

Modifikace algoritmu FEKM

Modifikace algoritmu FEKM Modifikace algoritmu FEKM Marta Žambochová Katedra matematiky a informatiky Fakulta sociálně ekonomická Univerzita J. E. Purkyně v Ústí nad Labem ROBUST 9. 14. září 2012 Němčičky Motivace Potřeba metod

Více

Rozhodovací stromy Marta Žambochová

Rozhodovací stromy Marta Žambochová Rozhodovací stromy Marta Žambochová Obsah: 1 Úvod... Algoritmy ro vytváření rozhodovacích stromů... 3.1 Algoritmus CART... 3.1.1 lasifikační stromy... 3.1. Regresní stromy... 4. Algoritmus ID3... 4.3 Algoritmus

Více

Analýza dat na PC I.

Analýza dat na PC I. CENTRUM BIOSTATISTIKY A ANALÝZ Lékařská a Přírodovědecká fakulta, Masarykova univerzita Analýza dat na PC I. Popisná analýza v programu Statistica IBA výuka Základní popisná statistika Popisná statistika

Více

Způsobilost. Data a parametry. Menu: QCExpert Způsobilost

Způsobilost. Data a parametry. Menu: QCExpert Způsobilost Zůsobilost Menu: QExert Zůsobilost Modul očítá na základě dat a zadaných secifikačních mezí hodnoty různých indexů zůsobilosti (caability index, ) a výkonnosti (erformance index, ). Dále jsou vyočítány

Více

ANALÝZA ZÁVISLOSTI. Martina Litschmannová

ANALÝZA ZÁVISLOSTI. Martina Litschmannová ANALÝZA ZÁVISLOSTI Martina Litschmannová Obsah přednášky Analýza závislosti dvou kategoriálních proměnných Analýza závislosti v kontingečních tabulkách Analýza závislosti v asociačních tabulkách Simpsonův

Více

STATISTICKÉ METODY. (kombinovaná forma, 8.4., 20.5. 2012) Matěj Bulant, Ph.D., VŠEM

STATISTICKÉ METODY. (kombinovaná forma, 8.4., 20.5. 2012) Matěj Bulant, Ph.D., VŠEM STATISTICKÉ METODY A DEMOGRAFIE (kombinovaná forma, 8.4., 2.5. 22) Matěj Bulant, Ph.D., VŠEM Řekli o statistice Věřím ouze těm statistikám, které jsem sám zfalšoval. Tři stuně lži - lež, hnusná lež, statistika.

Více

Klasifikační metody pro genetická data: regularizace a robustnost

Klasifikační metody pro genetická data: regularizace a robustnost Odd medicínské informatiky a biostatistiky Ústav informatiky AV ČR, vvi Práce vznikla za finanční podpory Nadačního fondu Neuron na podporu vědy Klasifikační metody pro genetická data Regularizovaná klasifikační

Více

ADDS cvičení 7. Pavlína Kuráňová

ADDS cvičení 7. Pavlína Kuráňová ADDS cvičení 7 Pavlína Kuráňová Analyzujte závislost věku obyvatel na místě kde nejčastěji tráví dovolenou. (dotazník dovolená, sloupce Jaký je Váš věk a Kde nejčastěji trávíte dovolenou) Analyzujte závislost

Více

UNIVEZITA PARDUBICE FAKULTA EKONOMICKO SPRÁVNÍ. Předzpracování ekonomických dat pomocí metod shlukové analýzy. Pavel Novák

UNIVEZITA PARDUBICE FAKULTA EKONOMICKO SPRÁVNÍ. Předzpracování ekonomických dat pomocí metod shlukové analýzy. Pavel Novák UNIVEZITA PARDUBICE FAKULTA EKONOMICKO SPRÁVNÍ Předzpracování ekonomických dat pomocí metod shlukové analýzy Pavel Novák Bakalářská práce 2009 Prohlašuji: Tuto práci jsem vypracoval samostatně. Všechny

Více

Obsah. Statistika Zpracování informací ze statistického šetření Charakteristiky úrovně, variability a koncentrace kvantitativního znaku

Obsah. Statistika Zpracování informací ze statistického šetření Charakteristiky úrovně, variability a koncentrace kvantitativního znaku Obsah Statistika Zpracování informací ze statistického šetření Charakteristiky úrovně, variability a koncentrace kvantitativního znaku Roman Biskup (zapálený) statistik ve výslužbě, aktuálně analytik v

Více

Zpracování podkladů pro praktickou část distanční opory pro předmět KZMSA - část hierarchické shlukování Jan Míčka

Zpracování podkladů pro praktickou část distanční opory pro předmět KZMSA - část hierarchické shlukování Jan Míčka Univerzita Pardubice Fakulta ekonomicko-správní Zpracování podkladů pro praktickou část distanční opory pro předmět KZMSA - část hierarchické shlukování Jan Míčka Bakalářská práce 009 Tuto práci jsem

Více

Multivariátní porovnání dat - klastrová (shluková) analýza

Multivariátní porovnání dat - klastrová (shluková) analýza Multivariátní porovnání dat - klastrová (shluková) analýza - bez apriorních předpokladů Shluková analýza Shluková analýza - cluster analysis úvod - definice princip algoritmy výsledky Shluková analýza

Více

Třídění statistických dat

Třídění statistických dat 2.1 Třídění statistických dat Všechny muže ve městě rozdělíme na 2 skupiny: A) muži, kteří chodí k holiči B) muži, kteří se holí sami Do které skupiny zařadíme holiče? prof. Raymond M. Smullyan, Dr. Math.

Více

Přednáška XI. Asociace ve čtyřpolní tabulce a základy korelační analýzy

Přednáška XI. Asociace ve čtyřpolní tabulce a základy korelační analýzy Přednáška XI. Asociace ve čtyřpolní tabulce a základy korelační analýzy Relativní riziko a poměr šancí Princip korelace dvou náhodných veličin Korelační koeficienty Pearsonůva Spearmanův Korelace a kauzalita

Více

Kontingenční tabulky. (Analýza kategoriálních dat)

Kontingenční tabulky. (Analýza kategoriálních dat) Kontingenční tabulky (Analýza kategoriálních dat) Agenda Standardní analýzy dat v kontingenčních tabulkách úvod, KT, míry diverzity nominálních veličin, některá rozdělení chí kvadrát testy, analýza reziduí,

Více

Spokojenost se životem

Spokojenost se životem SEMINÁRNÍ PRÁCE Spokojenost se životem (sekundárních analýza dat sociologického výzkumu Naše společnost 2007 ) Předmět: Analýza kvantitativních revize Šafr dat I. Jiří (18/2/2012) Vypracoval: ANONYMIZOVÁNO

Více

Profilování vzorků heroinu s využitím vícerozměrné statistické analýzy

Profilování vzorků heroinu s využitím vícerozměrné statistické analýzy Profilování vzorků heroinu s využitím vícerozměrné statistické analýzy Autor práce : RNDr. Ivo Beroun,CSc. Vedoucí práce: prof. RNDr. Milan Meloun, DrSc. PROFILOVÁNÍ Profilování = klasifikace a rozlišování

Více

Kontingenční tabulky, korelační koeficienty

Kontingenční tabulky, korelační koeficienty Statistika II Katedra ekonometrie FVL UO Brno kancelář 69a, tel 973 442029 email:jirineubauer@unobcz Budeme předpokládat, že X a Y jsou kvalitativní náhodné veličiny, obor hodnot X obsahuje r hodnot (kategorií,

Více

Statistická analýza jednorozměrných dat

Statistická analýza jednorozměrných dat Statistická analýza jednorozměrných dat Prof. RNDr. Milan Meloun, DrSc. Univerzita Pardubice, Pardubice 31.ledna 2011 Tato prezentace je spolufinancována Evropským sociálním fondem a státním rozpočtem

Více

Zpracování náhodného výběru. Ing. Michal Dorda, Ph.D.

Zpracování náhodného výběru. Ing. Michal Dorda, Ph.D. Zpracování náhodného výběru popisná statistika Ing. Michal Dorda, Ph.D. Základní pojmy Úkolem statistiky je na základě vlastností výběrového souboru usuzovat o vlastnostech celé populace. Populace(základní

Více

Přednáška 10. Analýza závislosti

Přednáška 10. Analýza závislosti Přednáška 10 Analýza závislosti Analýza závislosti dvou kategoriálních proměnných Analýza závislosti v kontingečních tabulkách Analýza závislosti v asociačních tabulkách Simpsonův paradox Analýza závislosti

Více

2. Základní typy dat Spojitá a kategoriální data Základní popisné statistiky Frekvenční tabulky Grafický popis dat

2. Základní typy dat Spojitá a kategoriální data Základní popisné statistiky Frekvenční tabulky Grafický popis dat 2. Základní typy dat Spojitá a kategoriální data Základní popisné statistiky Frekvenční tabulky Grafický popis dat Anotace Realitu můžeme popisovat různými typy dat, každý z nich se specifickými vlastnostmi,

Více

Popisná statistika. Statistika pro sociology

Popisná statistika. Statistika pro sociology Popisná statistika Jitka Kühnová Statistika pro sociology 24. září 2014 Jitka Kühnová (GSTAT) Popisná statistika 24. září 2014 1 / 31 Outline 1 Základní pojmy 2 Typy statistických dat 3 Výběrové charakteristiky

Více

SHLUKOVÁ ANALÝZA KRAJŮ ČESKÉ REPUBLIKY DLE VYBRANÝCH CHARAKTERISTIK ZEMĚDĚLSTVÍ V PROGRAMU STATISTICA

SHLUKOVÁ ANALÝZA KRAJŮ ČESKÉ REPUBLIKY DLE VYBRANÝCH CHARAKTERISTIK ZEMĚDĚLSTVÍ V PROGRAMU STATISTICA SHLUKOVÁ ANALÝZA KRAJŮ ČESKÉ REPUBLIKY DLE VYBRANÝCH CHARAKTERISTIK ZEMĚDĚLSTVÍ V PROGRAMU STATISTICA CLUSTER ANALYSIS OF REGIONS OF CZECH REPUBLIC BY SELECTED CHARACTERISTICS OF AGRICULTURE IN PROGRAM

Více

Cronbachův koeficient α nová adaptovaná metoda uvedení vlastností položkové analýzy deskriptivní induktivní parametrické

Cronbachův koeficient α nová adaptovaná metoda uvedení vlastností položkové analýzy deskriptivní induktivní parametrické Československá psychologie 0009-062X Metodologické požadavky na výzkumné studie METODOLOGICKÉ POŽADAVKY NA VÝZKUMNÉ STUDIE Výzkumné studie mají přinášet nová konkrétní zjištění získaná specifickými výzkumnými

Více

Pojem a úkoly statistiky

Pojem a úkoly statistiky Katedra ekonometrie FVL UO Brno kancelář 69a, tel. 973 442029 email:jiri.neubauer@unob.cz Pojem a úkoly statistiky Statistika je věda, která se zabývá získáváním, zpracováním a analýzou dat pro potřeby

Více

Příprava dat a) Kontrola dat

Příprava dat a) Kontrola dat Příprava dat a) Kontrola dat 2 Sběr data? Příprava dat Předpoklady o datech Software obsahuje nástroje pro: Detekci chybějících dat a dat mimo stanovených rozsah Detekci odlehlých a extrémních hodnot Překodování

Více

Měření závislosti statistických dat

Měření závislosti statistických dat 5.1 Měření závislosti statistických dat Každý pořádný astronom je schopen vám předpovědět, kde se bude nacházet daná hvězda půl hodiny před půlnocí. Ne každý je však téhož schopen předpovědět v případě

Více

Metody sociálních výzkumů. Velmi skromný úvod do statistiky. Motto: Jsou tři druhy lži-lež prostá, lež odsouzeníhodná a statistika.

Metody sociálních výzkumů. Velmi skromný úvod do statistiky. Motto: Jsou tři druhy lži-lež prostá, lež odsouzeníhodná a statistika. Metody sociálních výzkumů Velmi skromný úvod do statistiky. Motto: Jsou tři druhy lži-lež prostá, lež odsouzeníhodná a statistika. Statistika Význam slova-vychází ze slova stát, s jeho administrativou

Více

MĚŘENÍ STATISTICKÝCH ZÁVISLOSTÍ

MĚŘENÍ STATISTICKÝCH ZÁVISLOSTÍ MĚŘENÍ STATISTICKÝCH ZÁVISLOSTÍ v praxi u jednoho prvku souboru se často zkoumá více veličin, které mohou na sobě různě záviset jednorozměrný výběrový soubor VSS X vícerozměrným výběrovým souborem VSS

Více

SOFTWARE STAT1 A R. Literatura 4. kontrolní skupině (viz obr. 4). Proto budeme testovat shodu středních hodnot µ 1 = µ 2 proti alternativní

SOFTWARE STAT1 A R. Literatura 4. kontrolní skupině (viz obr. 4). Proto budeme testovat shodu středních hodnot µ 1 = µ 2 proti alternativní ŘEŠENÍ PRAKTICKÝCH ÚLOH UŽITÍM SOFTWARE STAT1 A R Obsah 1 Užití software STAT1 1 2 Užití software R 3 Literatura 4 Příklady k procvičení 6 1 Užití software STAT1 Praktické užití aplikace STAT1 si ukažme

Více

STATISTICKÉ NÁSTROJE A JEJICH VYUŽITÍ PŘI SEGMENTACI TRHU STATISTICAL TOOLS AND THEIR UTILIZATION DURING THE PROCESS OF MARKETING SEGMENTATION

STATISTICKÉ NÁSTROJE A JEJICH VYUŽITÍ PŘI SEGMENTACI TRHU STATISTICAL TOOLS AND THEIR UTILIZATION DURING THE PROCESS OF MARKETING SEGMENTATION STATISTICKÉ NÁSTROJE A JEJICH VYUŽITÍ PŘI SEGMENTACI TRHU STATISTICAL TOOLS AND THEIR UTILIZATION DURING THE PROCESS OF MARKETING SEGMENTATION Anna Čermáková Michael Rost Abstrakt Cílem příspěvku bylo

Více

INDUKTIVNÍ STATISTIKA

INDUKTIVNÍ STATISTIKA 10. SEMINÁŘ INDUKTIVNÍ STATISTIKA 3. HODNOCENÍ ZÁVISLOSTÍ HODNOCENÍ ZÁVISLOSTÍ KVALITATIVNÍ VELIČINY - Vychází se z kombinační (kontingenční) tabulky, která je výsledkem třídění druhého stupně KVANTITATIVNÍ

Více

6. Lineární regresní modely

6. Lineární regresní modely 6. Lineární regresní modely 6.1 Jednoduchá regrese a validace 6.2 Testy hypotéz v lineární regresi 6.3 Kritika dat v regresním tripletu 6.4 Multikolinearita a polynomy 6.5 Kritika modelu v regresním tripletu

Více

4 STATISTICKÁ ANALÝZA VÍCEROZMĚRNÝCH DAT

4 STATISTICKÁ ANALÝZA VÍCEROZMĚRNÝCH DAT 4 SAISICKÁ ANALÝZA VÍCEROZMĚRNÝCH DA V technické biologické ale také lékařské praxi se často vedle informací obsažených v náhodném skaláru ξ vyskytují i informace obsažené v náhodném vektoru ξ s m složkami

Více

Korelační a regresní analýza. 1. Pearsonův korelační koeficient 2. jednoduchá regresní analýza 3. vícenásobná regresní analýza

Korelační a regresní analýza. 1. Pearsonův korelační koeficient 2. jednoduchá regresní analýza 3. vícenásobná regresní analýza Korelační a regresní analýza 1. Pearsonův korelační koeficient 2. jednoduchá regresní analýza 3. vícenásobná regresní analýza Pearsonův korelační koeficient u intervalových a poměrových dat můžeme jako

Více

PRAVDĚPODOBNOST A STATISTIKA. Metoda momentů Metoda maximální věrohodnosti

PRAVDĚPODOBNOST A STATISTIKA. Metoda momentů Metoda maximální věrohodnosti SP3 Odhady arametrů PRAVDĚPODOBNOST A STATISTIKA Metoda momentů Metoda maimální věrohodnosti SP3 Odhady arametrů Metoda momentů Vychází se z: - P - ravděodobnostní rostor - X je náhodná roměnná s hustotou

Více

ANALÝZA A KLASIFIKACE DAT. Institut biostatistiky a analýz

ANALÝZA A KLASIFIKACE DAT. Institut biostatistiky a analýz ANALÝZA A KLASIFIKACE DAT prof. Ing. Jiří Holčík,, CSc. VII. VOLBA A VÝBĚR PŘÍZNAKŮ ZAČÍNÁME kolik a jaké příznaky? málo příznaků možná chyba klasifikace; moc příznaků možná nepřiměřená pracnost, vysoké

Více

Základy popisné statistiky. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek

Základy popisné statistiky. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Základy popisné statistiky Anotace Realitu můžeme popisovat různými typy dat, každý z nich se specifickými vlastnostmi, výhodami, nevýhodami a vlastní sadou využitelných statistických metod -od binárních

Více

ZX510 Pokročilé statistické metody geografického výzkumu. Téma: Měření síly asociace mezi proměnnými (korelační analýza)

ZX510 Pokročilé statistické metody geografického výzkumu. Téma: Měření síly asociace mezi proměnnými (korelační analýza) ZX510 Pokročilé statistické metody geografického výzkumu Téma: Měření síly asociace mezi proměnnými (korelační analýza) Měření síly asociace (korelace) mezi proměnnými Vztah mezi dvěma proměnnými existuje,

Více

Předmluva S o u h rn... 89

Předmluva S o u h rn... 89 Obsah Předmluva... 17 1 Ú v o d... 2 1 1.1 Empirický výzkum a jeho etap y... 23 1.2 Význam teorie pro v ý zk u m... 27 1.2.1 Konstrukty a jejich operacionalizace... 27 1.2.2 Role teorie ve v ý zk u m u...

Více

VÝCHODISKA A PŘÍSTUPY K VYUŽITÍ

VÝCHODISKA A PŘÍSTUPY K VYUŽITÍ České vysoké učení technické v Praze FAKULTA ELEKTROTECHNICKÁ Katedra ekonomiky, manažerství a humanitních věd VÝCHODISKA A PŘÍSTUPY K VYUŽITÍ MATEMATICKÝCH METOD V MARKETINGU Odborná studie Doktorand:

Více

AVDAT Mnohorozměrné metody, metody klasifikace Shluková analýza

AVDAT Mnohorozměrné metody, metody klasifikace Shluková analýza AVDAT Mnohorozměrné metody, metody klasifikace Shluková analýza Josef Tvrdík Katedra informatiky Přírodovědecká fakulta Ostravská univerzita Shluková analýza Cílem shlukové analýzy je nalézt v datech podmnožiny

Více

Stručný úvod do vybraných zredukovaných základů statistické analýzy dat

Stručný úvod do vybraných zredukovaných základů statistické analýzy dat Stručný úvod do vybraných zredukovaných základů statistické analýzy dat Statistika nuda je, má však cenné údaje. Neklesejme na mysli, ona nám to vyčíslí. Z pohádky Princové jsou na draka Populace (základní

Více

Pořízení licencí statistického SW

Pořízení licencí statistického SW Pořízení licencí statistického SW Zadavatel: Česká školní inspekce, Fráni Šrámka 37, 150 21 Praha 5 IČO: 00638994 Jednající: Mgr. Tomáš Zatloukal Předpokládaná (a maximální cena): 1.200.000 vč. DPH Typ

Více

Formální konceptuální analýza

Formální konceptuální analýza moderní metoda analýzy dat 14. října 2011 Osnova Informatika 1 Informatika 2 3 4 Co je to informatika? Co je to informatika? Computer science is no more about computers than astronomy is about telescopes.

Více

Cíl Vyhodnotit současný stav migračně prostorové diferenciace území ČR a migrační tendence na základě údajů za obce ČR

Cíl Vyhodnotit současný stav migračně prostorové diferenciace území ČR a migrační tendence na základě údajů za obce ČR Cíl Vyhodnotit současný stav migračně prostorové diferenciace území ČR a migrační tendence na základě údajů za obce ČR Data Obce ČR 2011 (Veřejná databáze ČSÚ) SPSS IBM, ArcGIS Proměnné: intenzita migračního

Více

Dobývání znalostí z textů text mining

Dobývání znalostí z textů text mining Dobývání znalostí z textů text mining Text mining - data mining na nestrukturovaných textových dokumentech 2 možné přístupy: Předzpracování dat + běžné algoritmy pro data mining Speciální algoritmy pro

Více

Vícerozměrné statistické metody

Vícerozměrné statistické metody Vícerozměrné statistické metody Vícerozměrné statistické rozdělení a testy, operace s vektory a maticemi Jiří Jarkovský, Simona Littnerová FSTA: Pokročilé statistické metody Vícerozměrné statistické rozdělení

Více

Cvičení ze statistiky - 3. Filip Děchtěrenko

Cvičení ze statistiky - 3. Filip Děchtěrenko Cvičení ze statistiky - 3 Filip Děchtěrenko Minule bylo.. Dokončili jsme základní statistiky, typy proměnných a začali analýzu kvalitativních dat Tyhle termíny by měly být známé: Histogram, krabicový graf

Více

Nehierarchické shlukování

Nehierarchické shlukování Základní informace Následující text je součástí učebních textů předmětu Vícerozměrné statistické metody a je určen zejména pro studenty Matematické biologie. Může být ovšem přínosný i pro další studenty

Více

Hledání optimální polohy stanic a zastávek na tratích regionálního významu

Hledání optimální polohy stanic a zastávek na tratích regionálního významu Hledání optimální polohy stanic a zastávek na tratích regionálního významu Václav Novotný 31. 10. 2018 Anotace 1. Dopravní obsluha území tratěmi regionálního významu 2. Cíle výzkumu a algoritmus práce

Více

VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ BRNO UNIVERSITY OF TECHNOLOGY

VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ BRNO UNIVERSITY OF TECHNOLOGY VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ BRNO UNIVERSITY OF TECHNOLOGY FAKULTA ELEKTROTECHNIKY A KOMUNIKAČNÍCH TECHNOLOGIÍ ÚSTAV AUTOMATIZACE A MĚŘÍCÍ TECHNIKY FACULTY OF ELECTRICAL ENGINEERING AND COMMUNICATION

Více

II. Statistické metody vyhodnocení kvantitativních dat Gejza Dohnal

II. Statistické metody vyhodnocení kvantitativních dat Gejza Dohnal Základy navrhování průmyslových experimentů DOE II. Statistické metody vyhodnocení kvantitativních dat Gejza Dohnal! Testování statistických hypotéz kvalitativní odezva kvantitativní chí-kvadrát test homogenity,

Více

Statistika pro geografy

Statistika pro geografy Statistika pro geografy 2. Popisná statistika Mgr. David Fiedor 23. února 2015 Osnova 1 2 3 Pojmy - Bodové rozdělení četností Absolutní četnost Absolutní četností hodnoty x j znaku x rozumíme počet statistických

Více

Robust 2014, 19. - 24. ledna 2014, Jetřichovice

Robust 2014, 19. - 24. ledna 2014, Jetřichovice K. Hron 1 C. Mert 2 P. Filzmoser 2 1 Katedra matematické analýzy a aplikací matematiky Přírodovědecká fakulta, Univerzita Palackého, Olomouc 2 Department of Statistics and Probability Theory Vienna University

Více

Statgraphics v. 5.0 STATISTICKÁ INDUKCE PRO JEDNOROZMĚRNÁ DATA. Martina Litschmannová 1. Typ proměnné. Požadovaný typ analýzy

Statgraphics v. 5.0 STATISTICKÁ INDUKCE PRO JEDNOROZMĚRNÁ DATA. Martina Litschmannová 1. Typ proměnné. Požadovaný typ analýzy Dichotomická proměnná (0-1) Spojitá proměnná STATISTICKÁ INDUKCE PRO JEDNOROZMĚRNÁ DATA Typ proměnné Požadovaný typ analýzy Ověření variability Předpoklady Testy, resp. intervalové odhad Test o rozptylu

Více

Fakulta chemicko-technologická Katedra analytické chemie. 3.2 Metody s latentními proměnnými a klasifikační metody

Fakulta chemicko-technologická Katedra analytické chemie. 3.2 Metody s latentními proměnnými a klasifikační metody Fakulta chemicko-technologická Katedra analytické chemie 3.2 Metody s latentními proměnnými a klasifikační metody Vypracoval: Ing. Tomáš Nekola Studium: licenční Datum: 21. 1. 2008 Otázka 1. Vypočtěte

Více

NUMERICKÁ KLASIFIKACE. David Zelený Zpracování dat v ekologii společenstev

NUMERICKÁ KLASIFIKACE. David Zelený Zpracování dat v ekologii společenstev NUMERICKÁ KLASIFIKACE http://wfc3.gsfc.nasa.gov PROČ MÁ SMYSL VĚCI KLASIFIKOVAT? vlnová délka (~ ekologický gradient) 172 http://wfc3.gsfc.nasa.gov PROČ MÁ SMYSL VĚCI KLASIFIKOVAT? vlnová délka (~ ekologický

Více

Základy biostatistiky II. Veřejné zdravotnictví 3.LF UK - II

Základy biostatistiky II. Veřejné zdravotnictví 3.LF UK - II Základy biostatistiky II Veřejné zdravotnictví 3.LF UK - II Teoretické rozložení-matematické modely rozložení Naměřená data Výběrové rozložení Teoretické rozložení 1 e 2 x 2 Teoretické rozložení-matematické

Více

Úkol 1.: Testování nezávislosti nominálních veličin V roce 1950 zkoumali Yule a Kendall barvu očí a vlasů u 6800 mužů.

Úkol 1.: Testování nezávislosti nominálních veličin V roce 1950 zkoumali Yule a Kendall barvu očí a vlasů u 6800 mužů. Téma 10: Analýza závislosti dvou nominálních veličin Úkol 1.: Testování nezávislosti nominálních veličin V roce 1950 zkoumali Yule a Kendall barvu očí a vlasů u 6800 mužů. barva očí barva vlasů světlá

Více

KGG/STG Statistika pro geografy

KGG/STG Statistika pro geografy KGG/STG Statistika pro geografy 9. Korelační analýza Mgr. David Fiedor 20. dubna 2015 Analýza závislostí v řadě geografických disciplín studujeme jevy, u kterých vyšetřujeme nikoliv pouze jednu vlastnost

Více

Fakulta chemicko-technologická Katedra analytické chemie. Licenční studium Statistické zpracování dat při managementu jakosti. Semestrální práce:

Fakulta chemicko-technologická Katedra analytické chemie. Licenční studium Statistické zpracování dat při managementu jakosti. Semestrální práce: UNIVERZITA PARDUBICE Fakulta chemicko-technologická Katedra analytické chemie Licenční studium Statistické zpracování dat při managementu jakosti Semestrální práce: METODY S LATENTNÍMI PROMĚNNÝMI A KLASIFIKAČNÍ

Více