SHLUKOVÁ ANALÝZA KATEGORIÁLNÍCH DAT

Save this PDF as:
 WORD  PNG  TXT  JPG

Rozměr: px
Začít zobrazení ze stránky:

Download "SHLUKOVÁ ANALÝZA KATEGORIÁLNÍCH DAT"

Transkript

1 SHLUKOVÁ ANALÝZA KATEGORIÁLNÍCH DAT Hana Řezanková Vysoká škola ekonomická v Praze htt://nb.vse.cz/~rezanka Analýza dat 27/II

2 Obsah Metody shlukové analýzy Shlukování objektů Shlukování roměnných Shlukování binárních dat Shlukování kategorií Možnosti rogramových systémů Analýza dat 27/II 2

3 Metody shlukové analýzy Literatura knihy: Řezanková, H., Húsek, D., Snášel, V.: Shluková analýza dat. Professional Publishing, Praha 27, 96 s. Řezanková, H. Analýza dat z dotazníkových šetření.. vyd. Professional Publishing, Praha 27, 22 s. vyjde Hebák, P. a kol. Vícerozměrné statistické metody [3]. 2. vyd. Informatorium, Praha s. Analýza dat 27/II 3

4 Metody shlukové analýzy Literatura sborníky: Řezanková, H.: Klasifikace omocí shlukové analýzy. Sborník řednášek ze semináře Analýza dat 23/II, TriloByte Statistical Software, Pardubice 24, s Řezanková, H.: Shlukování a velké soubory dat. Sborník řednášek ze semináře Analýza dat 24/II, TriloByte Statistical Software, Pardubice 25, s Analýza dat 27/II 4

5 Metody shlukové analýzy Shluková analýza je ostu formulovaný jako rocedura, omocí níž objektivně seskuujeme jedince do skuin na základě jejich odobnosti a odlišnosti (zkráceně R. C. Tryon, 939). Cílem shlukové analýzy je nalézt skuiny objektů (v širším smyslu) tak, aby dva objekty z téže skuiny si byly odobnější než dva objekty z různých skuin. Analýza dat 27/II 5

6 Metody shlukové analýzy Klasifikace tradičních metod: metody rozkladu (artitioning) ro disjunktní shluky (se zadaným očtem shluků) iterativní relokační (řemísťovací) algoritmy metody matematického rogramování grafické zobrazování omocí minimální kostry hybridní klasifikace metody založené na hustotě metody ro řekrývající se shluky Analýza dat 27/II 6

7 Metody shlukové analýzy Klasifikace tradičních metod: Analýza dat 27/II 7

8 Metody shlukové analýzy Klasifikace tradičních metod: metody rozkladu shluky evné shlukování,4,2,3,3,3,5 objekty fuzzy shlukování,8,,,4,3,3 částečné fuzzy shlukování,2,3,5 Analýza dat 27/II 8

9 Metody shlukové analýzy Metody hierarchické shlukové analýzy: monotetické divizivní (S-PLUS) olytetické aglomerativní divizivní (S-PLUS) modifikované metody dvourozměrné shlukování (STATISTICA, SYSTAT) dvoukroková shluková analýza (SPSS) ROCK (RObust Clustering using links) Analýza dat 27/II 9

10 Metody shlukové analýzy Vstuní data: m-rozměrná ozorování (matice vzorů attern matrix) matice X, rvky x il m roměnných (znaků). znak 2. znak. objekt 2. objekt matice vzdáleností/odobností (matice blízkostí - roximity matrix). objekt 2. objekt. objekt 2. objekt kontingenční tabulka (tabulka četností) X / Y. kategorie 2. kategorie. kategorie 2. kategorie Analýza dat 27/II

11 Metody shlukové analýzy Měření odobnosti u kategoriálních dat Kategoriální roměnné (znaky, atributy): obor hodnot tvořen kategoriemi dichotomické (symetrické a asymetrické) vícekategoriální nominální (nelze určit ořadí) vícekategoriální ordinální (záleží na ořadí) kvantitativní (lze očítat vzdálenost, není třeba zvláštní ostu) Analýza dat 27/II

12 Metody shlukové analýzy Měření odobnosti u dichotomických dat obvykle binární data (hodnoty jsou a ) symetrické asymetrické (jedna hodnota důležitější, obvykle ) Postu: běžné míry (ro symetrické) seciální míry (zaměřené na určitý ty) Analýza dat 27/II 2

13 Metody shlukové analýzy Měření odobnosti u nominálních dat jediná míra ro odobnost objektů (koeficient rosté shody) různé míry ro odobnost roměnných (viz dále) S m l ij S m ijl Škola P P2 P3 řevedení na binární data OA SPŠ SOU Analýza dat 27/II 3

14 Metody shlukové analýzy Měření odobnosti u ordinálních dat kódovat kategorie od hodnoty jedna a transformace do intervalu ; řevedení na binární data Odezva P P2 P3 žádná slabá střední silná různé míry ro odobnost roměnných (viz dále) Analýza dat 27/II 4

15 Shlukování objektů Dichotomické roměnné seciální míry hierarchická shluková analýza (stejné jako ro shlukování roměnných) seciální metody monotetická shluková analýza (S-PLUS) Kaufman, L., Rousseeuw, P.: Finding Grous in Data: An Introduction to Cluster Analysis. Wiley, Hoboken 25. Algoritmus MONA (MONothetic Analysis) Analýza dat 27/II 5

16 Shlukování objektů Algoritmus MONA (MONothetic Analysis) Kategorie znaku x k Kategorie znaku x l a kl b kl c kl d kl q kl a kl d q l q kl k l kl b kl c kl k, 2,, m l, 2,, m rozdělení objektů odle roměnné, ro níž max l (q l ). Analýza dat 27/II 6

17 Analýza dat 27/II 7 Shlukování objektů Vlastnosti zvířat: Ritter, H. J., Kohonen, T.: Self-Oganizing Semantic Mas. Biological Cybernetics, 6, 989, kráva zebra kůň lev tygr kočka vlk es liška orel jestřáb sova husa kachna sleice holub lave létá běhá loví eří hříva koyta srst 4_nohy 2_nohy velké střední malé Zvíře

18 Shlukování objektů Algoritmus MONA (MONothetic Analysis) Analýza dat 27/II 8

19 Shlukování objektů Nominální roměnné insirace v třídícím algoritmu (Hartigan): ro každou roměnnou stanovena rahová hodnota shluky jsou vymezeny olíčky vícerozměrné kontingenční tabulky mezi všemi roměnnými Hartigan, J. A.: Clustering Algorithms. John Wiley & Sons, New York 975. Analýza dat 27/II 9

20 Nominální roměnné Shlukování objektů koeficient rosté shody (STATISTICA) S ijl x il x jl a S ijl jinak řevedení na binární data seciální metody k-modů, k-histogramů, ROCK, CACTUS další ostuy (jiné míry v nových metodách) míra věrohodnostního tyu (log-likelihood) v dvoukrokové shlukové analýze (SPSS) S m l ij S m ijl Analýza dat 27/II 2

21 Shlukování objektů Metody k-modů, k-histogramů vycházejí z metody k-růměrů, obecně k-centroidů. Centroid je definován jako vektor, ro který latí, že součet vzdáleností jednotlivých objektů ve shluku k tomuto vektoru je minimální (oužije-li se euklidovská vzdálenost, ak je centroidem vektor růměrů a jde o metodu k-růměrů). D m 2 E ( xi, x j ) ( xil x jl ) l x i x j Analýza dat 27/II 2

22 Shlukování objektů Metody k-modů, k-histogramů Každá l-tá roměnná nabývá hodnot v lu (u, 2,, K l ). Každý shluk je rerezentován m-rozměrným vektorem údajů, který obsahuje buď modální (nejčetněji zastouené) kategorie jednotlivých roměnných (v metodě k-modů), nebo údaje o četnostech kategorií jednotlivých roměnných (v metodě k-histogramů). Používají se řitom seciální míry neodobnosti. Huang, Z.: Extensions to the k-means algorithm to clustering large data sets with categorical values. Data Mining and Knowledge Discovery, 2, 998, Analýza dat 27/II 22

23 Shlukování objektů Metoda ROCK (RObust Clustering using links) založena na rinciu hierarchického shlukování nejdříve se rovede náhodný výběr objektů, které se shlukují do ožadovaného očtu shluků, o čemž následuje řiřazení zbylých objektů (jako v CURE) využívá koncet grafu, ojmy sousedi a vazby Jaccardův koeficient odobnosti ro binární data Guha, S., Rastogi, R., Shim, K. : ROCK: A robust clustering algorithm for categorical attributes. Information Systems, 25(5), 2, Analýza dat 27/II 23

24 Shlukování objektů Metoda CACTUS (CAtegorical ClusTering Using Summaries) atří k metodám založeným na mřížce založena na myšlence solečného výskytu určitých kategorií různých roměnných zda je očet výskytů kategorií v kt a v lu dvou různých roměnných k a l větší než očekávaná četnost Ganti, V., Gehrke, J., Ramakrishnan, R.: CACTUS Clustering categorical data using summaries. Proceedings of the 5th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, ACM Press, San Diego 999, Analýza dat 27/II 24

25 Shlukování objektů Dvoukroková shluková analýza (sytém SPSS) shlukovací vlastnosti CF (Cluster Features), CF-strom míra věrohodnostního tyu (log-likelihood) variabilita ve shlucích se zjišťuje omocí entroie H gl K l u n n glu g n ln n Zhang, T., Ramakrishnan, R., Livny, M.: BIRCH: An efficient data clustering method for very large databases. ACM SIGMOD Record, 25(2), 996, 3-4. glu g Analýza dat 27/II 25

26 Shlukování objektů Newman, D.J., Hettich, S., Blake, C.L., Merz, C.J.: UCI Reository of machine learning databases. Irvine, CA: University of California, 998 [htt:// html]. Analýza dat 27/II 26

27 Shlukování objektů Dvoukroková shluková analýza (sytém SPSS) Cluster Distribution v5 Cluster Total Combined % of N Combined % of Total 737 2,4% 2,4% 635 2,% 2,% 296 6,% 6,% 728 2,3% 2,3% 728 2,3% 2,3% 824,%,% 824,% Cluster Combined f t Frequency Percent Frequency Percent 433 3,2% 34 9,% 29 6,% ,8% ,3%,% ,4%,%,% 728 5,2% 4748,% 3376,% Cluster Combined v3 f g s y Frequency Percent Frequency Percent Frequency Percent Frequency Percent ,5% 4,% ,3% 289 8,9% 24,3%,% 86 3,9% 579 7,8% ,9%,%,% 648 2,%,%,% ,8% ,6% ,2%,%,% ,6% 232,% 4,% 2556,% 3244,% Analýza dat 27/II 27

28 Shlukování objektů Ordinální roměnné kódovat kategorie od hodnoty jedna a transformace do intervalu ; řevést na binární data oužít seciální metody k-mediánů Analýza dat 27/II 28

29 Shlukování objektů Metoda k-mediánů (SYSTAT) vychází z metody k-centroidů (jde o k-shlukování) Centroid je definován jako vektor, ro který latí, že součet vzdáleností jednotlivých objektů ve shluku k tomuto vektoru je minimální. Použije-li se manhattanská vzdálenost, ak je centroidem vektor mediánů a jde o metodu k-mediánů). D B ( x i, x j ) m l x il x jl x i x j Analýza dat 27/II 29

30 Shlukování roměnných Nominální roměnné koeficient rosté shody S kli x ik x il a S kli jinak koeficient neshody seciální míry odobnosti řevedení na binární data S kl D kl S kl n i S n kli Analýza dat 27/II 3

31 Shlukování roměnných Newman, D.J., Hettich, S., Blake, C.L., Merz, C.J.: UCI Reository of machine learning databases. Irvine, CA: University of California, 998 [htt:// html]. Analýza dat 27/II 3

32 Shlukování roměnných Nominální roměnné koeficient neshody ca-shae sore-rint-color ca-color odor habitat oulation gill-color ca-surface gill-size bruises ring-tye stalk-shae gill-attachment veil-color ring-number gill-sacing stalk-surfacr-above-ring stalk-surface-below-ring stalk-color-above-ring stalk-color-below-ring Stromový diagram ro 2 roměnných Úlné sojení Procentuální neshoda,,2,4,6,8, Vzdálenost sojení Analýza dat 27/II 32

33 Shlukování roměnných Seciální míry odobnosti vycházejí z kontingenční tabulky Znak Y Znak X. kategorie. kategorie j-tá kategorie S-tá kategorie Celkem n n j n S n i-tá kategorie n i n ij n is n i R-tá kategorie n R n Rj n RS n R Celkem n n j n S n Analýza dat 27/II 33

34 Shlukování roměnných Seciální míry odobnosti vycházejí z kontingenční tabulky Znak Y Znak X Celkem. kategorie i-tá kategorie R-tá kategorie. kategorie j-tá kategorie S-tá kategorie Celkem i R j ij R j S is i RS S R Analýza dat 27/II 34

35 Shlukování roměnných Seciální míry odobnosti ro nominální roměnné vycházejí z rinciu analýzy roztylu a oměru determinace S Y X var( Y, X var( Y ) ) var( Y ) var( Y var( Y ) X ) S Y X var( Y ) R i i var( Y ) var( Y x i ) var ( Y ) var( Y, X ) var( Y X ) Analýza dat 27/II 35

36 Shlukování roměnných Měření variability nominálních roměnných Četnost Znak X absolutní relativní kumulativní relativní x n P x i n i x K n K i K P i Celkem n x Analýza dat 27/II 36

37 Shlukování roměnných Měření variability nominálních roměnných variační oměr v n /n nominální roztyl nomvar (Giniho koeficient) entroie H K i K i 2 i K i i ln i ( i Mo ( i )) Mo Analýza dat 27/II 37

38 Analýza dat 27/II 38 Shlukování roměnných Míry závislosti nominálních roměnných variační oměr v /n Mo Mo n λ Mo Mo Mo ) ( ) ( ) ( Y v x Y v Y v i i R i i i R i i X Y Mo Mo Mo Mo Mo Mo R i i R i i Goodmanova- -Kruskalova λ

39 Shlukování roměnných Míry odobnosti nominálních roměnných PRE P{} - P{2} P{} P{} ( Mo ) P{2} ( Σ imo ) Goodmanova- -Kruskalova λ P{ } 2 ( ) Mo Mo R S P{2} i Mo 2 i j Moj λ sym R S imo i j Moj 2 Mo Mo Mo Mo Analýza dat 27/II 39

40 Analýza dat 27/II 4 Shlukování roměnných Míry závislosti nominálních roměnných entroie K i i i H ln S j j j S j i ij i ij R i i S j j j i R i i X Y Y H x Y H Y H U ln ln ln ) ( ) ( ) ( informační koeficient (koeficient nejistoty) S j j j R i S j R i S j ij ij j j i i X Y U ln ln ln ln ) ( ) ( ) ( ) ( Y H XY H Y H X H

41 Analýza dat 27/II 4 Shlukování roměnných Míry odobnosti nominálních roměnných informační koeficient (koeficient nejistoty) ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( 2 XY H Y H X H X H XY H Y H X H Y H U sym ( ) ) ( ) ( ) ( ) ( ) ( 2 Y H X H XY H Y H X H

42 Shlukování roměnných Míry odobnosti ordinálních roměnných Searmanův koeficient ořadové korelace n( n ) Míry založené na očtech konkordantních a diskordantních árů r S 6 n ( x l l 2 y l ) 2 Analýza dat 27/II 42

43 Shlukování roměnných Míry odobnosti ordinálních roměnných Míry založené na očtech konkordantních a diskordantních árů C očet konkordantních árů D očet diskordantních árů T X očet árů, které obsahují stejnou hodnotu roměnné X, ale různou hodnotu Y T Y očet árů, které obsahují stejnou hodnotu roměnné Y, ale různou hodnotu X Analýza dat 27/II 43

44 Shlukování roměnných Míry odobnosti ordinálních roměnných Goodmanova-Kruskalova γ γ C C D D Kendallovo τ b τ b C D ( C D TX )( C D TY ) Kendallovo τ c Stuartovo τ c τ c 2q( C 2 n ( q D) ) q min{r, S} Analýza dat 27/II 44

45 Analýza dat 27/II 45 Shlukování roměnných Míry odobnosti ordinálních roměnných Somersovo d Y X Y T D C D C d ( ) ( ) Y X X Y sym T T D C D C D C T D C D C T D C d 2 2 2

46 Shlukování roměnných Hodnoty Kendallova τ b ro dvojice roměnných Blues Musicals Classical Jazz Ra Heavy Metal Blues or R & B Music,,7,5,49,6,2 Broadway Musicals,7,,4,22,3 -, Classical Music,5,4,,23, -, Jazz Music,49,22,23,,6, Ra Music,6,3,,6,,35 Heavy Metal Music,2 -, -,,,35, Analýza dat 27/II 46

47 Shlukování roměnných Ordinální roměnné koeficient τ b Stromový diagram ro 6 roměnných Úlné sojení Odlišnosti z matice Blues Jazz Musicals Classical Ra Heavy Metal,4,5,6,7,8,9,, Vzdálenost sojení Analýza dat 27/II 47

48 Shlukování binárních dat Stejné míry odobnosti (neodobnosti) ro objekty i roměnné Kategorie objektu x j Kategorie objektu x i a c b d Analýza dat 27/II 48

49 Shlukování binárních dat míry ro symetrické a asymetrické roměnn nné míry odobnosti, neodobnosti a vzdálenosti koeficienty shody, odmíněné ravděodobnosti odobnosti míry ro hodnocení ředovědí a ostatní míry, které jsou funkcemi oměru šancí,, míry, m které jsou funkcemi korelačního koeficientu, a ostatní Analýza dat 27/II 49

50 Shlukování binárních dat Koeficient souhlasu (ro symetrická binární data) Jaccardův koeficient (ro asymetrická binární data) a a d b c d a a b c Diceův (Czekanowského) koeficient (ro asymetrická binární data) Russelův a Raoův RR (ro asymetrická binární data) 2a 2a b c a a b c d Analýza dat 27/II 5

51 Shlukování binárních dat Sokalův a Sneathův koeficient, SoSn 2( a d) 2( a d) b c Rogersův a Tanimotoův koef., RT a a d d 2( b c) Analýza dat 27/II 5

52 Shlukování binárních dat Funkce oměru šancí Poměr šancí ψ ad bc Yuleovo Q Q ad ad bc bc ad ad / bc / bc ψ ψ Yuleův koeficient vazby Y ad ad bc bc ψ ψ Analýza dat 27/II 52

53 Shlukování binárních dat Míry ro hodnocení ředovědí Goodmanova-Kruskalova λ Anderbergovo D t t2 2( a b c d ) t 2 2( a t t2 b c d ) t max(a, b) max(c, d) max(a, c) max(b, d) t 2 max(a c, b d) max(a b, c d) Analýza dat 27/II 53

54 Shlukování binárních dat Míry ro ordinální roměnné Goodmanova-Kruskalova γ γ C C D D ad ad bc bc Q Kendallovo τ b τ b C D ( C D TY )( C D TX ) ad bc ( ad bc ab cd )( ad bc ac bd ) Analýza dat 27/II 54

55 Shlukování binárních dat Míry ro kvantitativní roměnné Koeficient asociace (korelační koeficient) ad bc r XY ( a b)( a c)( b d )( c d ) τ r b XY Analýza dat 27/II 55

56 Shlukování binárních dat Míry vzdálenosti a neodobnosti Euklidovská vzdálenost Binární čtvercová euklidovská vzdálenost Hammingova vzdálenost Binární Lanceova a Williamsova nemetrická míra neodobnosti b c b c b c 2a b c Analýza dat 27/II 56

57 Shlukování binárních dat Dendrogram olytetické aglomerativní shlukování Stromový diagram ro 6 říadů Úlné sojení Euklidovská vzdálenost holub sleice kachna husa sova jestřáb orel liška vlk es kočka tygr lev kůň zebra kráva,,5,,5 2, 2,5 3, 3,5 Vzdálenost sojení Analýza dat 27/II 57

58 Shlukování binárních dat Banner lot olytetické divizivní shlukování Analýza dat 27/II 58

59 Shlukování binárních dat Vícerozměrné škálování,8 Bodový graf 2D Konečná konfigurace, dimenze vs. dimenze 2,6,4 HUSA KACHNA SLEPICE KRÁVA ZEBRA KŮN Dimenze 2,2, -,2 HOLUB JESTŘÁB SOVA KOČKA TYGR LEV -,4 -,6 OREL LIŠKA PES VLK -,8 -,4 -,2 -, -,8 -,6 -,4 -,2,,2,4,6,8,,2,4 Dimenze Analýza dat 27/II 59

60 Shlukování kategorií Míry neodobnosti kategorií Pearsonova chí-kvadrát statistika χ S 2 S 2 nij mij ) ( ni j m 2 i j ) j Koeficient φ i ij i j mij ni ni ( m ij ϕ m j i j 2 χ n i n i m i j n n i ( n n ( n i ij n n n i ) i j ) Analýza dat 27/II 6

61 Shlukování kategorií Matice neodobností (chí-kvadrát míra) ro oblasti interview na základě úrovně vzdělání Region :New England, 2,8 3,32 2,65 3,33 4,76,9,95 2,6 2:Middle Atlantic 2,8,,55,3,9 3,82,32 2,2,56 3:E. Nor Central 3,32,55,,44 2,62 5,6,62 2,48 2,25 4:W. Nor Central 2,65,3,44,,56 3,66,23,88,6 5:South Atlantic 3,33,9 2,62,56, 3,6 2,8 2,42 2,53 6:E. Sou Central 4,76 3,82 5,6 3,66 3,6, 4,39 3,54 4,6 7:W. Sou Central,9,32,62,23 2,8 4,39,,3,8 8:Mountain,95 2,2 2,48,88 2,42 3,54,3,,5 9:Pacifik 2,6,56 2,25,6 2,53 4,6,8,5, Analýza dat 27/II 6

62 Shlukování kategorií Dendrogram olytetické aglomerativní shlukování Stromový diagram ro 9 objektů Úlné sojení Odlišnosti z matice NEW ENGL W. SOU C PACIFIC MOUNTAIN MIDDLE A SOUTH A E. NOR C W. NOR C E. SOU C Vzdálenost sojení Analýza dat 27/II 62

63 Shlukování kategorií Jiné metody (grafické zobrazování) Koresondenční analýza Vícerozměrné škálování Analýza dat 27/II 63

64 Shlukování kategorií Výsledky růzkumu cestovní kanceláře Count Ty zájezdu Celkem hory obyt s výlety oznávací zájezd turistika Otimální ubytování aartman bungalov hotel stan Celkem Matice neodobností (míra chí-kvadrát) Case :hory 2:obyt s výlety 3:oznávací zájezd 4:turistika This is a dissimilarity matrix Proximity Matrix Chi-square between Sets of Frequencies 2:obyt 3:oznávací :hory s výlety zájezd 4:turistika, 3,2 3,368 3,62 3,2,,7 9,65 3,368,7, 3,367 3,62 9,65 3,367, Analýza dat 27/II 64

65 Shlukování kategorií Matice neodobností (míra chí-kvadrát) Case :hory 2:obyt s výlety 3:oznávací zájezd 4:turistika This is a dissimilarity matrix Proximity Matrix Chi-square between Sets of Frequencies 2:obyt 3:oznávací :hory s výlety zájezd 4:turistika, 3,2 3,368 3,62 3,2,,7 9,65 3,368,7, 3,367 3,62 9,65 3,367, Postu ři shlukování (jednoduché sojení) Agglomeration Schedule Stage 2 3 Stage Cluster First Cluster Combined Aears Cluster Cluster 2 Coefficients Cluster Cluster 2 Next Stage 3 4 3, , ,65 2 Analýza dat 27/II 65

66 Shlukování kategorií Výsledky růzkumu cestovní kanceláře Count Ty zájezdu Celkem hory obyt s výlety oznávací zájezd turistika Otimální ubytování aartman bungalov hotel stan Celkem Matice neodobností (míra chí-kvadrát) Proximity Matrix Case aartman bungalov hotel stan Matrix File Inut aartman bungalov hotel stan, 5,439,97,52 5,439, 8,2 5,97,97 8,2, 3,754,52 5,97 3,754, Analýza dat 27/II 66

67 Shlukování kategorií Matice neodobností (míra chí-kvadrát) Proximity Matrix Case aartman bungalov hotel stan Matrix File Inut aartman bungalov hotel stan, 5,439,97,52 5,439, 8,2 5,97,97 8,2, 3,754,52 5,97 3,754, Postu ři shlukování (růměrné sojení) Agglomeration Schedule Stage 2 3 Stage Cluster First Cluster Combined Aears Cluster Cluster 2 Coefficients Cluster Cluster 2 Next Stage 3, , ,427 2 Analýza dat 27/II 67

68 Shlukování kategorií Vícerozměrné škálování Common Sace Common Sace Dimension 2,2,, -, -,2 -,3 hory turistika oznávací_zájezd -,5,,5 Dimension obyt_s_výlety, Dimension 2,2,, -, -,2 -,3 -,4 -, hotel aartman bungalov -,5,,5 Dimension stan, Analýza dat 27/II 68

69 Shlukování kategorií Koresondenční analýza Symmetrical Normalization Otimální ubytování Ty zájezdu,5 turistika Dimension 2,,5, -,5 hory -,5 bungalov aartman stan obyt s výlety hotel oznávací zájezd -, -,5,,5, Dimension Analýza dat 27/II 69

70 Možnosti rogramových systémů Seciální míry ro hierarchickou shlukovou analýzu, res. k-shlukování (růměry, mediány) Koef. neshody (STATISTICA, SYSTAT ro HSA) Míra ro ordinální roměnné ro HSA a k-shluk. SYSTAT (gama) Míry ro binární data ro HSA SPSS (26 měr) STATISTICA (korelační koeficient koef. asociace) SYSTAT (Jaccardův koeficient, Anderbergovo D, RR, SoSn, RT, gama Yulovo Q, korel. koeficient) Analýza dat 27/II 7

71 Možnosti rogramových systémů Míry ro různé tyy roměnných (včetně nominálních) ve seciální metodě Míra věrohodnostního tyu ve dvoukrokové shlukové analýze (SPSS) Míry ro shlukování kategorií ro HSA Chí-kvadrát, fí-kvadrát (SPSS, SYSTAT i ro k-shlukování, tj. k-růměrů a k-mediánů) Seciální metody Monotetická shluková analýza (S-PLUS) Metoda k-mediánů (SYSTAT) Analýza dat 27/II 7

72 Možnosti rogramových systémů Vytvoření matice odobností (neodobností) SPSS: Pearsonův a Searmanův korelační koeficient, Kendallovo τ b SYSTAT: koef. fí, Cramérovo V, kontingenční koef., Goodmanova-Kruskalova λ, koef. nejistoty, Pearsonův a Searmanův korelační koeficient, Kendallovo τ b, Stuartovo τ c, Goodmanova- Kruskalova γ, 3 měr ro dichotomická data Analýza dat 27/II 72

73 Děkuji Vám za ozornost Analýza dat 27/II 73

Klasifikace pomocí shlukové analýzy. Hana Řezanková

Klasifikace pomocí shlukové analýzy. Hana Řezanková Klasifikace pomocí shlukové analýzy Hana Řezanková Vysoká škola ekonomická v Praze Cíle klasifikace a shlukové analýzy Cílem klasifikace je zařadit adit buď některé z objektů nebo všechny v objekty do

Více

Úvodem Dříve les než stromy 3 Operace s maticemi

Úvodem Dříve les než stromy 3 Operace s maticemi Obsah 1 Úvodem 13 2 Dříve les než stromy 17 2.1 Nejednoznačnost terminologie 17 2.2 Volba metody analýzy dat 23 2.3 Přehled vybraných vícerozměrných metod 25 2.3.1 Metoda hlavních komponent 26 2.3.2 Faktorová

Více

PSY117/454 Statistická analýza dat v psychologii Přednáška 10

PSY117/454 Statistická analýza dat v psychologii Přednáška 10 PSY117/454 Statistická analýza dat v psychologii Přednáška 10 TESTY PRO NOMINÁLNÍ A ORDINÁLNÍ PROMĚNNÉ NEPARAMETRICKÉ METODY... a to mělo, jak sám vidíte, nedozírné následky. Smrť Analýza četností hodnot

Více

Testování hypotéz a měření asociace mezi proměnnými

Testování hypotéz a měření asociace mezi proměnnými Testování hypotéz a měření asociace mezi proměnnými Testování hypotéz Nulová a alternativní hypotéza většina statistických analýz zahrnuje různá porovnání, hledání vztahů, efektů Tvrzení, že efekt je nulový,

Více

5 Vícerozměrná data - kontingenční tabulky, testy nezávislosti, regresní analýza

5 Vícerozměrná data - kontingenční tabulky, testy nezávislosti, regresní analýza 5 Vícerozměrná data - kontingenční tabulky, testy nezávislosti, regresní analýza 5.1 Vícerozměrná data a vícerozměrná rozdělení Při zpracování vícerozměrných dat se hledají souvislosti mezi dvěma, případně

Více

Vícerozměrné metody. PSY117/454 Statistická analýza dat v psychologii Přednáška 12. Schematický úvod

Vícerozměrné metody. PSY117/454 Statistická analýza dat v psychologii Přednáška 12. Schematický úvod PSY117/454 Statistická analýza dat v psychologii Přednáška 12 Vícerozměrné metody Schematický úvod Co je na slově statistika tak divného, že jeho vyslovení tak často způsobuje napjaté ticho? William Kruskal

Více

STATISTICKÉ METODY. (kombinovaná forma, 8.4., 20.5. 2012) Matěj Bulant, Ph.D., VŠEM

STATISTICKÉ METODY. (kombinovaná forma, 8.4., 20.5. 2012) Matěj Bulant, Ph.D., VŠEM STATISTICKÉ METODY A DEMOGRAFIE (kombinovaná forma, 8.4., 2.5. 22) Matěj Bulant, Ph.D., VŠEM Řekli o statistice Věřím ouze těm statistikám, které jsem sám zfalšoval. Tři stuně lži - lež, hnusná lež, statistika.

Více

Multivariátní porovnání dat - klastrová (shluková) analýza

Multivariátní porovnání dat - klastrová (shluková) analýza Multivariátní porovnání dat - klastrová (shluková) analýza - bez apriorních předpokladů Shluková analýza Shluková analýza - cluster analysis úvod - definice princip algoritmy výsledky Shluková analýza

Více

Přednáška 10. Analýza závislosti

Přednáška 10. Analýza závislosti Přednáška 10 Analýza závislosti Analýza závislosti dvou kategoriálních proměnných Analýza závislosti v kontingečních tabulkách Analýza závislosti v asociačních tabulkách Simpsonův paradox Analýza závislosti

Více

Cronbachův koeficient α nová adaptovaná metoda uvedení vlastností položkové analýzy deskriptivní induktivní parametrické

Cronbachův koeficient α nová adaptovaná metoda uvedení vlastností položkové analýzy deskriptivní induktivní parametrické Československá psychologie 0009-062X Metodologické požadavky na výzkumné studie METODOLOGICKÉ POŽADAVKY NA VÝZKUMNÉ STUDIE Výzkumné studie mají přinášet nová konkrétní zjištění získaná specifickými výzkumnými

Více

ADDS cvičení 7. Pavlína Kuráňová

ADDS cvičení 7. Pavlína Kuráňová ADDS cvičení 7 Pavlína Kuráňová Analyzujte závislost věku obyvatel na místě kde nejčastěji tráví dovolenou. (dotazník dovolená, sloupce Jaký je Váš věk a Kde nejčastěji trávíte dovolenou) Analyzujte závislost

Více

SHLUKOVÁ ANALÝZA KRAJŮ ČESKÉ REPUBLIKY DLE VYBRANÝCH CHARAKTERISTIK ZEMĚDĚLSTVÍ V PROGRAMU STATISTICA

SHLUKOVÁ ANALÝZA KRAJŮ ČESKÉ REPUBLIKY DLE VYBRANÝCH CHARAKTERISTIK ZEMĚDĚLSTVÍ V PROGRAMU STATISTICA SHLUKOVÁ ANALÝZA KRAJŮ ČESKÉ REPUBLIKY DLE VYBRANÝCH CHARAKTERISTIK ZEMĚDĚLSTVÍ V PROGRAMU STATISTICA CLUSTER ANALYSIS OF REGIONS OF CZECH REPUBLIC BY SELECTED CHARACTERISTICS OF AGRICULTURE IN PROGRAM

Více

APLIKACE SHLUKOVÉ ANALÝZY V EKOLOGII

APLIKACE SHLUKOVÉ ANALÝZY V EKOLOGII ROBUST 2, 2 28 c JČMF 2 APLIKACE SHLUKOVÉ ANALÝZY V EKOLOGII MARIE BUDÍKOVÁ Abstrakt. In this paper, the basic principles of hierarchical cluster analysis are described.an example of calculation and application

Více

6. Lineární regresní modely

6. Lineární regresní modely 6. Lineární regresní modely 6.1 Jednoduchá regrese a validace 6.2 Testy hypotéz v lineární regresi 6.3 Kritika dat v regresním tripletu 6.4 Multikolinearita a polynomy 6.5 Kritika modelu v regresním tripletu

Více

Stručný úvod do vybraných zredukovaných základů statistické analýzy dat

Stručný úvod do vybraných zredukovaných základů statistické analýzy dat Stručný úvod do vybraných zredukovaných základů statistické analýzy dat Statistika nuda je, má však cenné údaje. Neklesejme na mysli, ona nám to vyčíslí. Z pohádky Princové jsou na draka Populace (základní

Více

Klasifikace obchodních partnerů s využitím metod shlukové analýzy

Klasifikace obchodních partnerů s využitím metod shlukové analýzy Klasifikace obchodních partnerů s využitím metod shlukové analýzy Mária Režňáková 1 Abstrakt Předpokladem úspěšnosti podnikatelských subjektů je schopnost generovat příjmy v takové výši, která zajistí

Více

NADSTAVBOVÝ MODUL MOHSA V1

NADSTAVBOVÝ MODUL MOHSA V1 NADSTAVBOVÝ MODUL MOHSA V1 Nadstavbový modul pro hierarchické shlukování se jmenuje Mod_Sh_Hier (MOHSA V1) je součástí souboru Shluk_Hier.xls. Tento soubor je přístupný na http://jonasova.upce.cz, a je

Více

Robust 2014, 19. - 24. ledna 2014, Jetřichovice

Robust 2014, 19. - 24. ledna 2014, Jetřichovice K. Hron 1 C. Mert 2 P. Filzmoser 2 1 Katedra matematické analýzy a aplikací matematiky Přírodovědecká fakulta, Univerzita Palackého, Olomouc 2 Department of Statistics and Probability Theory Vienna University

Více

Způsobilost. Data a parametry. Menu: QCExpert Způsobilost

Způsobilost. Data a parametry. Menu: QCExpert Způsobilost Zůsobilost Menu: QExert Zůsobilost Modul očítá na základě dat a zadaných secifikačních mezí hodnoty různých indexů zůsobilosti (caability index, ) a výkonnosti (erformance index, ). Dále jsou vyočítány

Více

Třídění statistických dat

Třídění statistických dat 2.1 Třídění statistických dat Všechny muže ve městě rozdělíme na 2 skupiny: A) muži, kteří chodí k holiči B) muži, kteří se holí sami Do které skupiny zařadíme holiče? prof. Raymond M. Smullyan, Dr. Math.

Více

Spokojenost se životem

Spokojenost se životem SEMINÁRNÍ PRÁCE Spokojenost se životem (sekundárních analýza dat sociologického výzkumu Naše společnost 2007 ) Předmět: Analýza kvantitativních revize Šafr dat I. Jiří (18/2/2012) Vypracoval: ANONYMIZOVÁNO

Více

Pojem a úkoly statistiky

Pojem a úkoly statistiky Katedra ekonometrie FVL UO Brno kancelář 69a, tel. 973 442029 email:jiri.neubauer@unob.cz Pojem a úkoly statistiky Statistika je věda, která se zabývá získáváním, zpracováním a analýzou dat pro potřeby

Více

You created this PDF from an application that is not licensed to print to novapdf printer (http://www.novapdf.com)

You created this PDF from an application that is not licensed to print to novapdf printer (http://www.novapdf.com) Závislost náhodných veličin Úvod Předchozí přednášky: - statistické charakteristiky jednoho výběrového nebo základního souboru - vztahy mezi výběrovým a základním souborem - vztahy statistických charakteristik

Více

Měření závislosti statistických dat

Měření závislosti statistických dat 5.1 Měření závislosti statistických dat Každý pořádný astronom je schopen vám předpovědět, kde se bude nacházet daná hvězda půl hodiny před půlnocí. Ne každý je však téhož schopen předpovědět v případě

Více

Zpracování náhodného výběru. Ing. Michal Dorda, Ph.D.

Zpracování náhodného výběru. Ing. Michal Dorda, Ph.D. Zpracování náhodného výběru popisná statistika Ing. Michal Dorda, Ph.D. Základní pojmy Úkolem statistiky je na základě vlastností výběrového souboru usuzovat o vlastnostech celé populace. Populace(základní

Více

Mgr. Karla Hrbáčková, Ph.D. Základy kvantitativního výzkumu

Mgr. Karla Hrbáčková, Ph.D. Základy kvantitativního výzkumu Mgr. Karla Hrbáčková, Ph.D. Základy kvantitativního výzkumu K čemu slouží statistika Popisuje velké soubory dat pomocí charakteristických čísel (popisná statistika). Hledá skryté zákonitosti v souborech

Více

SEMESTRÁLNÍ PRÁCE 3.5 Klasifikace analýzou vícerozměrných dat

SEMESTRÁLNÍ PRÁCE 3.5 Klasifikace analýzou vícerozměrných dat UNIVERZITA PARDUBICE FAKULTA CHEMICKO-TECHNOLOGICKÁ KATEDRA ANALYTICKÉ CHEMIE LICENČNÍ STUDIUM - STATISTICKÉ ZPRACOVÁNÍ DAT SEMESTRÁLNÍ PRÁCE Ing. Věra Fialová BIOPHARM VÝZKUMNÝ ÚSTAV BIOFARMACIE A VETERINÁRNÍCH

Více

Vědecký tutoriál, část I. A Tutorial. Vilém Vychodil (Univerzita Palackého v Olomouci)

Vědecký tutoriál, část I. A Tutorial. Vilém Vychodil (Univerzita Palackého v Olomouci) ..! POSSIBILISTIC Laboratoř pro analýzu INFORMATION: a modelování dat Vědecký tutoriál, část I A Tutorial Vilém Vychodil (Univerzita Palackého v Olomouci) George J. Klir State University of New York (SUNY)

Více

Navrhování experimentů a jejich analýza. Eva Jarošová

Navrhování experimentů a jejich analýza. Eva Jarošová Navrhování experimentů a jejich analýza Eva Jarošová Obsah Základní techniky Vyhodnocení výsledků Experimenty s jedním zkoumaným faktorem Faktoriální experimenty úplné 2 N dílčí 2 N-p Experimenty pro studium

Více

Přednáška 9. Testy dobré shody. Grafická analýza pro ověření shody empirického a teoretického rozdělení

Přednáška 9. Testy dobré shody. Grafická analýza pro ověření shody empirického a teoretického rozdělení Přednáška 9 Testy dobré shody Grafická analýza pro ověření shody empirického a teoretického rozdělení χ 2 test dobré shody ověření, zda jsou relativní četnosti jednotlivých variant rovny číslům π 01 ;

Více

Matematika pro ekonomiku

Matematika pro ekonomiku Pojistná matematika 14.10.2011 1 I. POJISTNÁ MATEMATIKA Pojistná matematika 2 Základní odvětví: životní pojištění, do něhož spadá výplata předem sjednané částky v případě smrti nebo dožití se určitého

Více

Analýzy regionálního trhu práce v České republice Analysis of regional labour market in Czech Republic

Analýzy regionálního trhu práce v České republice Analysis of regional labour market in Czech Republic 2 nd Central European Conference in Regional Science CERS, 2007 862 Analýzy regionálního trhu práce v České republice Analysis of regional labour market in Czech Republic PETR ŘEHOŘ, DARJA HOLÁTOVÁ Jihočeská

Více

Vytěžování znalostí z dat

Vytěžování znalostí z dat Pavel Kordík, Josef Borkovec (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2011, Cvičení 10 1/21 Vytěžování znalostí z dat Pavel Kordík, Josef Borkovec Department of Computer Systems Faculty of Information

Více

1. cvičení 4ST201. Základní informace: Vyučující: Obsah: Informace o kurzu Popisná statistika Úvod do SASu

1. cvičení 4ST201. Základní informace: Vyučující: Obsah: Informace o kurzu Popisná statistika Úvod do SASu cvičící 1. cvičení 4ST201 Informace o kurzu Popisná statistika Úvod do SASu Obsah: Vysoká škola ekonomická 1 Vyučující: Základní informace:» Konzultační hodiny: pátek 9:00 11:00» Místnost: JM317» Email:

Více

STATISTICKÉ METODY A DEMOGRAFIE

STATISTICKÉ METODY A DEMOGRAFIE STATISTICKÉ METODY A DEMOGRAFIE (kombinovaná forma, 8.4., 2.5., 7.6. 22) Matěj Bulant, Ph.D., VŠEM Řekli o statistice Věřím ouze těm statistikám, které jsem sám zfalšoval. Tři stuně lži - lež, hnusná lež,

Více

ZÍSKÁVÁNÍ ZNALOSTÍ Z DATABÁZÍ

ZÍSKÁVÁNÍ ZNALOSTÍ Z DATABÁZÍ metodický list č. 1 Dobývání znalostí z databází Cílem tohoto tematického celku je vysvětlení základních pojmů z oblasti dobývání znalostí z databází i východisek dobývání znalostí z databází inspirovaných

Více

Statistika. Regresní a korelační analýza Úvod do problému. Roman Biskup

Statistika. Regresní a korelační analýza Úvod do problému. Roman Biskup Statistika Regresní a korelační analýza Úvod do problému Roman Biskup Jihočeská univerzita v Českých Budějovicích Ekonomická fakulta (Zemědělská fakulta) Katedra aplikované matematiky a informatiky 2008/2009

Více

Tomáš Karel LS 2012/2013

Tomáš Karel LS 2012/2013 Tomáš Karel LS 2012/2013 Doplňkový materiál ke cvičení z předmětu 4ST201. Na případné faktické chyby v této presentaci mě prosím upozorněte. Děkuji. Tyto slidy berte pouze jako doplňkový materiál není

Více

Datová centra a úložiště. Jaroslav G. Křemének g.j.kremenek@gmail.com

Datová centra a úložiště. Jaroslav G. Křemének g.j.kremenek@gmail.com Datová centra a úložiště Jaroslav G. Křemének g.j.kremenek@gmail.com České národní datové úložiště Součást rojektu CESNET Rozšíření národní informační infrastruktury ro VaV v regionech (eiger) Náklady

Více

Statistika jako obor. Statistika. Popisná statistika. Matematická statistika TEORIE K MV2

Statistika jako obor. Statistika. Popisná statistika. Matematická statistika TEORIE K MV2 Statistika jako obor Statistika Statistika je vědní obor zabývající se zkoumáním jevů hromadného charakteru. Tím se myslí to, že zkoumaný jev musí příslušet určité části velkého množství objektů (lidí,

Více

ANALÝZA KATEGORIZOVANÝCH DAT V SOCIOLOGII

ANALÝZA KATEGORIZOVANÝCH DAT V SOCIOLOGII ANALÝZA KATEGORIZOVANÝCH DAT V SOCIOLOGII Tomáš Katrňák Fakulta sociálních studií Masarykova univerzita Brno SOCIOLOGIE A STATISTIKA nadindividuální společenské struktury podmiňují lidské chování (Durkheim)

Více

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz Pravděpodobnost a matematická

Více

Gibbsova a Helmholtzova energie. Def. Gibbsovy energie G. Def. Helmholtzovy energie A

Gibbsova a Helmholtzova energie. Def. Gibbsovy energie G. Def. Helmholtzovy energie A ibbsova a Helmholtzova energie Def. ibbsovy energie H Def. Helmholtzovy energie U, jsou efinovány omocí stavových funkcí jená se o stavové funkce. ibbsova energie charakterizuje rovnovážný stav (erzibilní

Více

Statistické metody uţívané při ověřování platnosti hypotéz

Statistické metody uţívané při ověřování platnosti hypotéz Statistické metody uţívané při ověřování platnosti hypotéz Hypotéza Domněnka, předpoklad Nejčastěji o rozdělení, středních hodnotách, závislostech, Hypotézy ve vědeckém výzkumu pracovní, věcné hypotézy

Více

1 ROZHODOVÁNÍ V ŘÍZENÍ

1 ROZHODOVÁNÍ V ŘÍZENÍ 1 ROZHODOVÁNÍ V ŘÍZENÍ Rozhodování je ovažováno za jednu ze základních aktivit ři racionálním řešení nejenom řídících roblémů, řitom kvalita rozhodování zásadním zůsobem ovlivňuje výslednou kvalitu řídícího

Více

Základní analýza dat. Úvod

Základní analýza dat. Úvod Základní analýza dat literatura: Hendl, J. 2006: Přehled statistických metod zpracování dat. Analýza a metaanalýza dat. Praha: Portál. Macháček, J. 2001: Studie k velkomoravské keramice. Metody, analýzy

Více

Program Statistica Base 9. Mgr. Karla Hrbáčková, Ph.D.

Program Statistica Base 9. Mgr. Karla Hrbáčková, Ph.D. Program Statistica Base 9 Mgr. Karla Hrbáčková, Ph.D. OBSAH KURZU obsluha jednotlivých nástrojů, funkce pro import dat z jiných aplikací, práce s popisnou statistikou, vytváření grafů, analýza dat, výstupní

Více

2. Statistická terminologie a vyjadřovací prostředky. 2.1. Statistická terminologie. Statistická jednotka

2. Statistická terminologie a vyjadřovací prostředky. 2.1. Statistická terminologie. Statistická jednotka 2. Statistická terminologie a vyjadřovací prostředky 2.1. Statistická terminologie Statistická jednotka Statistická jednotka = nositel statistické informace, elementární prvek hromadného jevu. Příklady:

Více

Modul Analýza síly testu Váš pomocník při analýze dat.

Modul Analýza síly testu Váš pomocník při analýze dat. 6..0 Modul Analýza síly testu Váš pomocník při analýze dat. Power Analysis and Interval Estimation Analýza síly testu Odhad velikosti vzorku Pokročilé techniky pro odhad intervalu spolehlivosti Rozdělení

Více

Shluková analýza vícerozměrných dat v programu R

Shluková analýza vícerozměrných dat v programu R Shluková analýza vícerozměrných dat v programu R - příklad použití metod PAM, CLARA a fuzzy shlukové analýzy http://data.tulipany.cz Úvodní poznámky a popis dat Pro analýzu vícerozměrných dat existují

Více

UNIVERZITA OBRANY Fakulta ekonomiky a managementu. Aplikace STAT1. Výsledek řešení projektu PRO HORR2011 a PRO GRAM2011 3. 11.

UNIVERZITA OBRANY Fakulta ekonomiky a managementu. Aplikace STAT1. Výsledek řešení projektu PRO HORR2011 a PRO GRAM2011 3. 11. UNIVERZITA OBRANY Fakulta ekonomiky a managementu Aplikace STAT1 Výsledek řešení projektu PRO HORR2011 a PRO GRAM2011 Jiří Neubauer, Marek Sedlačík, Oldřich Kříž 3. 11. 2012 Popis a návod k použití aplikace

Více

Korelační a regresní analýza

Korelační a regresní analýza Korelační a regresní analýza Analýza závislosti v normálním rozdělení Pearsonův (výběrový) korelační koeficient: r = s XY s X s Y, kde s XY = 1 n (x n 1 i=0 i x )(y i y ), s X (s Y ) je výběrová směrodatná

Více

Počítačová analýza vícerozměrných dat v oborech přírodních, technických a společenských věd

Počítačová analýza vícerozměrných dat v oborech přírodních, technických a společenských věd Počítačová analýza vícerozměrných dat v oborech přírodních, technických a společenských věd Prof. RNDr. Milan Meloun, DrSc. (Univerzita Pardubice, Pardubice) 20.-24. června 2011 Tato prezentace je spolufinancována

Více

ADZ základní statistické funkce

ADZ základní statistické funkce ADZ základní statistické funkce Základní statistické funkce a znaky v softwaru Excel Znak Stručný popis + Sčítání buněk - Odčítání buněk * Násobení buněk / Dělení buněk Ctrl+c Vyjmutí buňky Ctrl+v Vložení

Více

Ekonomika podniku. Katedra ekonomiky, manažerství a humanitních věd Fakulta elektrotechnická ČVUT v Praze. Ing. Kučerková Blanka, 2011

Ekonomika podniku. Katedra ekonomiky, manažerství a humanitních věd Fakulta elektrotechnická ČVUT v Praze. Ing. Kučerková Blanka, 2011 Evroský sociální fond Praha & EU: Investujeme do vaší udoucnosti Ekonomika odniku Katedra ekonomiky, manažerství a humanitních věd akulta elektrotechnická ČVUT v Praze Ing. Kučerková Blanka, 2011 Vztahy

Více

Řešené statistické příklady v SPSS

Řešené statistické příklady v SPSS Řešené statistické příklady v SPSS Lektor: Ing. Martin Kořínek, Ph.D. 1 Krátce o SPSS Statistických programů komerčně šířených existuje veliké množství. Jako nejpopulárnější příklady můžeme zmínit NCSS,

Více

Kurz SPSS: Jednoduchá analýza dat. Jiří Šafr

Kurz SPSS: Jednoduchá analýza dat. Jiří Šafr Kurz SPSS: Jednoduchá analýza dat Jiří Šafr vytvořeno 29. 6. 2009 Dva základní typy statistiky 1. Popisná statistika: metody pro zjišťování a sumarizaci informací grfy, tabulky, popisné chrakteristiky

Více

SHLUKOVÁ ANALÝZA E-BANKING KLIENTŮ ČESKÉ SPOŘITELNY

SHLUKOVÁ ANALÝZA E-BANKING KLIENTŮ ČESKÉ SPOŘITELNY SHLUKOVÁ ANALÝZA E-BANKING KLIENTŮ ČESKÉ SPOŘITELNY Ivan SOUKAL Univerzita Hradec Králové, Fakulta informatiky a managementu ivan.soukal@uhkcz Abstrakt Tento článek je zaměřený na retailové základní bankovní

Více

11 Analýza hlavních komponet

11 Analýza hlavních komponet 11 Analýza hlavních komponet Tato úloha provádí transformaci měřených dat na menší počet tzv. fiktivních dat tak, aby většina informace obsažená v původních datech zůstala zachována. Jedná se tedy o úlohu

Více

ISŠT Mělník. Integrovaná střední škola technická Mělník, K učilišti 2566, 276 01 Mělník Ing.František Moravec

ISŠT Mělník. Integrovaná střední škola technická Mělník, K učilišti 2566, 276 01 Mělník Ing.František Moravec SŠT Mělník Číslo rojektu Označení materiálu ázev školy Autor Tematická oblast Ročník Anotace CZ..07/.5.00/34.006 VY_3_OVACE_H..05 ntegrovaná střední škola technická Mělník, K učilišti 566, 76 0 Mělník

Více

APLIKACE NÁSTROJE PASW SPSS 18.0 BASE V TRŽNÍ

APLIKACE NÁSTROJE PASW SPSS 18.0 BASE V TRŽNÍ Úvod a záměr práce APLIKACE NÁSTROJE PASW SPSS 18.0 BASE V TRŽNÍ SEGMENTACI Autor: Mgr. Ing. David Vít Faulta eletrotechnicá ČVUT v Praze, atedra eonomiy, manažerství a humanitních věd 1. Úvod a záměr

Více

zaměřením na spokojenost uživatelů se soudobými softwarovými produkty Ing. Josef Horák, Ph.D. 20. 1. 2012

zaměřením na spokojenost uživatelů se soudobými softwarovými produkty Ing. Josef Horák, Ph.D. 20. 1. 2012 Analýza procesu zpracování účetních informací se zaměřením na spokojenost uživatelů se soudobými softwarovými produkty Ing. Josef Horák, Ph.D. 20. 1. 2012 Řešitelský kolektiv: Akademičtí zaměstnanci: Ing.

Více

Statistická analýza dat - Indexní analýza

Statistická analýza dat - Indexní analýza Statistiká analýza dat Indexní analýza Statistiká analýza dat - Indexní analýza Index mohou být:. Stejnorodýh ukazatelů. Nestejnorodýh ukazatelů Index se skládají ze dvou složek:... intenzita (úroveň znaku)...

Více

Základní informace o co se jedná a k čemu to slouží

Základní informace o co se jedná a k čemu to slouží Základní informace o co se jedná a k čemu to slouží založené na relačních databází transakční systémy, které jsou určeny pro pořizování a ukládání dat v reálném čase (ERP, účetní, ekonomické a další podnikové

Více

Teorie grafů. zadání úloh. letní semestr 2008/2009. Poslední aktualizace: 19. května 2009. First Prev Next Last Go Back Full Screen Close Quit

Teorie grafů. zadání úloh. letní semestr 2008/2009. Poslední aktualizace: 19. května 2009. First Prev Next Last Go Back Full Screen Close Quit Teorie grafů zadání úloh letní semestr 2008/2009 Poslední aktualizace: 19. května 2009 Obsah Úloha číslo 1 5 Úloha číslo 2 6 Úloha číslo 3 7 Úloha číslo 4 8 Úloha číslo 5 9 Úloha číslo 6 10 Úloha číslo

Více

Střední hodnota a rozptyl náhodné. kvantilu. Ing. Michael Rost, Ph.D.

Střední hodnota a rozptyl náhodné. kvantilu. Ing. Michael Rost, Ph.D. Střední hodnota a rozptyl náhodné veličiny, vybraná rozdělení diskrétních a spojitých náhodných veličin, pojem kvantilu Ing. Michael Rost, Ph.D. Príklad Předpokládejme že máme náhodnou veličinu X která

Více

MODELOVÁNÍ BONITY OBCÍ POMOCÍ KOHONENOVÝCH SAMOORGANIZUJÍCÍCH SE MAP A LVQ NEURONOVÝCH SÍTÍ

MODELOVÁNÍ BONITY OBCÍ POMOCÍ KOHONENOVÝCH SAMOORGANIZUJÍCÍCH SE MAP A LVQ NEURONOVÝCH SÍTÍ MODELOVÁNÍ BONITY OBCÍ POMOCÍ KOHONENOVÝCH SAMOORGANIZUJÍCÍCH SE MAP A LVQ NEURONOVÝCH SÍTÍ Vladimír Olej, Petr Hájek Univerzita Pardubice, Fakulta ekonomicko-správní, informatiky Ústav systémového inženýrství

Více

Obsah. 3 Testy 31 3.1 z test... 32 3.2 z test 2... 33 3.3 t test... 34 3.4 t test 2s... 35

Obsah. 3 Testy 31 3.1 z test... 32 3.2 z test 2... 33 3.3 t test... 34 3.4 t test 2s... 35 Obsah 1 Popisná statistika 4 1.1 bas stat........................................ 5 1.2 mean.......................................... 6 1.3 meansq........................................ 7 1.4 sumsq.........................................

Více

Š ÍŠ Ť ž Ť Ý č ď č š Ť č č č š č Ť š š Ť Í šč š č č č č Ď č Ť č š š ť Š Ť Ť Š č č č ž Š č č š Ť Ť ž Ť ť Ť č š š Ť ť Ť ť č č Ť ž š Ť š Ť Ť š Ť š Ť Ť ť Č š Ť č š Ť č Ť ť č č š Ť ť Ý Ť š ď š Í Ť Í ť Ť ť š

Více

Pravděpodobnost v závislosti na proměnné x je zde modelován pomocí logistického modelu. exp x. x x x. log 1

Pravděpodobnost v závislosti na proměnné x je zde modelován pomocí logistického modelu. exp x. x x x. log 1 Logistická regrese Menu: QCExpert Regrese Logistická Modul Logistická regrese umožňuje analýzu dat, kdy odezva je binární, nebo frekvenční veličina vyjádřená hodnotami 0 nebo 1, případně poměry v intervalu

Více

Číselné charakteristiky a jejich výpočet

Číselné charakteristiky a jejich výpočet Katedra ekonometrie, FVL, UO Brno kancelář 69a, tel. 973 442029 email:jiri.neubauer@unob.cz charakteristiky polohy charakteristiky variability charakteristiky koncetrace charakteristiky polohy charakteristiky

Více

E(X) = np D(X) = np(1 p) 1 2p np(1 p) (n + 1)p 1 ˆx (n + 1)p. A 3 (X) =

E(X) = np D(X) = np(1 p) 1 2p np(1 p) (n + 1)p 1 ˆx (n + 1)p. A 3 (X) = Základní rozdělení pravděpodobnosti Diskrétní rozdělení pravděpodobnosti. Pojem Náhodná veličina s Binomickým rozdělením Bi(n, p), kde n je přirozené číslo, p je reálné číslo, < p < má pravděpodobnostní

Více

Vícerozměrné statistické metody

Vícerozměrné statistické metody Vícerozměrné statistické metody Smysl a cíle vícerozměrné analýzy dat a modelování, vztah jednorozměrných a vícerozměrných statistických metod Jiří Jarkovský, Simona Littnerová Průběh výuky 13 přednášek

Více

Dobývání a vizualizace znalostí

Dobývání a vizualizace znalostí Dobývání a vizualizace znalostí Olga Štěpánková et al. 1 Osnova předmětu 1. Dobývání znalostí - popis a metodika procesu a objasnění základních pojmů 2. Nástroje pro modelování klasifikovaných dat a jejich

Více

Test dobré shody v KONTINGENČNÍCH TABULKÁCH

Test dobré shody v KONTINGENČNÍCH TABULKÁCH Test dobré shody v KONTINGENČNÍCH TABULKÁCH Opakování: Mějme náhodné veličiny X a Y uspořádané do kontingenční tabulky. Řekli jsme, že nulovou hypotézu H 0 : veličiny X, Y jsou nezávislé zamítneme, když

Více

V p-v diagramu je tento proces znázorněn hyperbolou spojující body obou stavů plynu, je to tzv. izoterma :

V p-v diagramu je tento proces znázorněn hyperbolou spojující body obou stavů plynu, je to tzv. izoterma : Jednoduché vratné děje ideálního lynu ) Děj izoter mický ( = ) Za ředokladu konstantní teloty se stavová rovnice ro zadané množství lynu změní na známý zákon Boylův-Mariottův, která říká, že součin tlaku

Více

Statistická analýza dat podzemních vod. Statistical analysis of ground water data. Vladimír Sosna 1

Statistická analýza dat podzemních vod. Statistical analysis of ground water data. Vladimír Sosna 1 Statistická analýza dat podzemních vod. Statistical analysis of ground water data. Vladimír Sosna 1 1 ČHMÚ, OPZV, Na Šabatce 17, 143 06 Praha 4 - Komořany sosna@chmi.cz, tel. 377 256 617 Abstrakt: Referát

Více

CLP ANALYSIS OF MOLECULAR MARKERS DIGITAL IMAGE ANALYSIS OF ELECTROPHOEROGRAMS CZECH VERSION

CLP ANALYSIS OF MOLECULAR MARKERS DIGITAL IMAGE ANALYSIS OF ELECTROPHOEROGRAMS CZECH VERSION CLP ANALYSIS OF MOLECULAR MARKERS DIGITAL IMAGE ANALYSIS OF ELECTROPHOEROGRAMS CZECH VERSION DIGITÁLNÍ OBRAZOVÁ ANALÝZA ELEKTROFORETICKÝCH GELŮ *** Vyhodnocování získaných elektroforeogramů: Pro vyhodnocování

Více

Vysoká škola báňská technická univerzita Ostrava. Fakulta elektrotechniky a informatiky

Vysoká škola báňská technická univerzita Ostrava. Fakulta elektrotechniky a informatiky Vysoká škola báňská technická univerzita Ostrava Fakulta elektrotechniky a informatiky Bankovní účty (semestrální projekt statistika) Tomáš Hejret (hej124) 18.5.2013 Úvod Cílem tohoto projektu, zadaného

Více

Analýza dat s využitím MS Excel

Analýza dat s využitím MS Excel Analýza dat s využitím MS Excel Seminář aplikované statistiky Martina Litschmannová Několik fíglů na úvod Absolutní vs. relativní adresování změna pomocí F4 =$H$20 =H$20 =$H20 =H20 Posun po souvislé oblasti

Více

Mannův-Whitneyův(Wilcoxonův) test pořadová obdoba dvouvýběrového t-testu. Statistika (MD360P03Z, MD360P03U) ak. rok 2007/2008

Mannův-Whitneyův(Wilcoxonův) test pořadová obdoba dvouvýběrového t-testu. Statistika (MD360P03Z, MD360P03U) ak. rok 2007/2008 Statistika (MD30P03Z, MD30P03U) ak. rok 007/008 Karel Zvára karel.zvara@mff.cuni.cz http://www.karlin.mff.cuni.cz/ zvara (naposledy upraveno. listopadu 007) 1(4) Mann-Whitney párový Wilcoxon párový znaménkový

Více

Statistická analýza složek kvality bílého vína

Statistická analýza složek kvality bílého vína Statistická analýza složek kvality bílého vína Petr Voborník Fakulta informatiky a managementu, Katedra informatiky a kvantitativních metod Univerzita Hradec Králové, Rokitanského 62, 5 Hradec Králové,

Více

Univerzita Pardubice Chemicko-technologická fakulta Katedra analytické chemie

Univerzita Pardubice Chemicko-technologická fakulta Katedra analytické chemie Univerzita Pardubice Chemicko-technologická fakulta Katedra analytické chemie 12. licenční studium PYTHAGORAS Statistické zpracování dat 3.1 Matematické principy vícerozměrných metod statistické analýzy

Více

Ing. Radovan Nečas Mgr. Miroslav Hroza

Ing. Radovan Nečas Mgr. Miroslav Hroza Výzkumný ústav stavebních hmot, a.s. Hněvkovského, č.p. 30, or. 65, 617 00 BRNO zapsaná v OR u krajského soudu v Brně, oddíl B, vložka 3470 Aktivační energie rozkladu vápenců a její souvislost s ostatními

Více

Simulace. Simulace dat. Parametry

Simulace. Simulace dat. Parametry Simulace Simulace dat Menu: QCExpert Simulace Simulace dat Tento modul je určen pro generování pseudonáhodných dat s danými statistickými vlastnostmi. Nabízí čtyři typy rozdělení: normální, logaritmicko-normální,

Více

Využití shlukové analýzy při vytváření typologie studentů

Využití shlukové analýzy při vytváření typologie studentů Miroslav CHRÁSKA, Milan KLEMENT Univerzita Palackého v Olomouci, Česká republika Využití shlukové analýzy při vytváření typologie studentů 1. Cíl výzkumu Cílem výzkumu bylo rozdělit české a polské vysokoškolské

Více

DOBÝVÁNÍ ZNALOSTÍ Z DATABÁZÍ PŘÍKLADY APLIKACÍ V KARDIOLOGICKÝCH DATECH Jan Rauch

DOBÝVÁNÍ ZNALOSTÍ Z DATABÁZÍ PŘÍKLADY APLIKACÍ V KARDIOLOGICKÝCH DATECH Jan Rauch DOBÝVÁNÍ ZNALOSTÍ Z DATABÁZÍ PŘÍKLADY APLIKACÍ V KARDIOLOGICKÝCH DATECH Jan Rauch Anotace: Příspěvek obsahuje základní informace o dobývání znalostí jakožto důležité disciplíně informatiky a ukazuje příklady

Více

Písemná práce k modulu Statistika

Písemná práce k modulu Statistika The Nottingham Trent University B.I.B.S., a. s. Brno BA (Hons) in Business Management Písemná práce k modulu Statistika Číslo zadání: 144 Autor: Zdeněk Fekar Ročník: II., 2005/2006 1 Prohlašuji, že jsem

Více

Testy dobré shody TESTY DOBRÉ SHODY (angl. goodness-of-fit tests), : veličiny X, Y jsou nezávislé nij eij

Testy dobré shody TESTY DOBRÉ SHODY (angl. goodness-of-fit tests),   : veličiny X, Y jsou nezávislé nij eij Testy dobré shody Máme dvě veličiny a předpokládáme, že jsou nezávislé (platí nulová hypotéza nezávislosti). Často chceme naopak prokázat jejich závislost. K tomu slouží: TESTY DOBRÉ SHODY (angl. goodness-of-fit

Více

á í ó é ří č á í ý í ú ň ť í Ú ě Ú č Í íč ý Ž ží á ří ř áří é í ý á í ě á ě ý ů č ř ě č ž é í íí á ě ý í ů í í íí ř ě ř č ě ý í š í é íč ě ř ě é č ě ř ě č í í ř á í í ů Í š é í í é í ř á í š é á í í á

Více

MEZIREGIONÁLNÍ PŘEPRAVA NA ŽELEZNICI V ČR INTERREGINAL RAILWAY TRANSPORT IN CZECH REPUBLIC

MEZIREGIONÁLNÍ PŘEPRAVA NA ŽELEZNICI V ČR INTERREGINAL RAILWAY TRANSPORT IN CZECH REPUBLIC MEZIREGIONÁLNÍ PŘEPRAVA NA ŽELEZNICI V ČR INTERREGINAL RAILWAY TRANSPORT IN CZECH REPUBLIC Kateřina Pojkarová 1 Anotace:Článek se věnuje železniční přepravě mezi kraji v České republice, se zaměřením na

Více

VYUŽITÍ SHLUKOVÉ ANALÝZY V MARKETINGU. České vysoké učení technické v Praze FAKULTA ELEKTROTECHNICKÁ Katedra ekonomiky, manažerství a humanitních věd

VYUŽITÍ SHLUKOVÉ ANALÝZY V MARKETINGU. České vysoké učení technické v Praze FAKULTA ELEKTROTECHNICKÁ Katedra ekonomiky, manažerství a humanitních věd České vysoké učení technické v Praze FAKULTA ELEKTROTECHNICKÁ Katedra ekonomiky, manažerství a humanitních věd VYUŽITÍ SHLUKOVÉ ANALÝZY V MARKETINGU Diplomová práce Diplomant: Mgr. David Vít Vedoucí diplomové

Více

Lineární algebra nad obecným Z m, lineární kódy

Lineární algebra nad obecným Z m, lineární kódy Lineární algebra nad obecným Z m, lineární kódy Jiří Velebil: X01DML 19. listopadu 2010: Lineární algebra a kódy 1/19 Minule: soustavy lineárních rovnic nad Z p, p prvočíslo, stejně jako nad R. Dále nad

Více

Analýza kvantitativních dat II. Standardizace v kontingenční tabulce kontrola vlivu 3 faktoru

Analýza kvantitativních dat II. Standardizace v kontingenční tabulce kontrola vlivu 3 faktoru UK FHS Historická sociologie (LS 2013+) Analýza kvantitativních dat II. Standardizace v kontingenční tabulce kontrola vlivu 3 faktoru Jiří Šafr jiri.safr(zavináč)seznam.cz poslední aktualizace 13.1. 2015

Více

SAMOSTATNÁ STUDENTSKÁ PRÁCE ZE STATISTIKY

SAMOSTATNÁ STUDENTSKÁ PRÁCE ZE STATISTIKY SAMOSTATÁ STUDETSKÁ PRÁCE ZE STATISTIKY Váha studentů Kučerová Eliška, Pazdeříková Jana septima červen 005 Zadání: My dvě studentky jsme si vylosovaly zjistit statistickým šetřením v celém ročníku septim

Více

PODNIKOVÁ EKONOMIKA A MANAGEMENT (2-letý) (písemný test)

PODNIKOVÁ EKONOMIKA A MANAGEMENT (2-letý) (písemný test) Přijímací řízení ro akademický rok 2007/08 na magisterský studijní rogram: Zde nalete své univerzitní číslo PODNIKOVÁ EKONOMIKA A MANAGEMENT (2-letý) (ísemný test) U každé otázky či odotázky v následujícím

Více

Samoopravné kódy. Katedra matematiky a Institut teoretické informatiky Západočeská univerzita

Samoopravné kódy. Katedra matematiky a Institut teoretické informatiky Západočeská univerzita Katedra matematiky a Institut teoretické informatiky Západočeská univerzita Seminář pro učitele středních a vysokých škol, Plzeň, 30. března 2012 jsou všude Některé oblasti využití: CD přehrávače mobilní

Více

Národníinformačnístředisko pro podporu jakosti

Národníinformačnístředisko pro podporu jakosti Národníinformačnístředisko pro podporu jakosti OVĚŘOVÁNÍ PŘEDPOKLADU NORMALITY Doc. Ing. Eva Jarošová, CSc. Ing. Jan Král Používané metody statistické testy: Chí-kvadrát test dobré shody Kolmogorov -Smirnov

Více

Statistika. Semestrální projekt

Statistika. Semestrální projekt Statistika Semestrální projekt 18.5.2013 Tomáš Jędrzejek, JED0008 Obsah Úvod 3 Analyzovaná data 4 Analýza dat 6 Statistická indukce 12 Závěr 15 1. Úvod Cílem této semestrální práce je aplikovat získané

Více