SHLUKOVÁ ANALÝZA KATEGORIÁLNÍCH DAT
|
|
- Iveta Bartošová
- před 10 lety
- Počet zobrazení:
Transkript
1 SHLUKOVÁ ANALÝZA KATEGORIÁLNÍCH DAT Hana Řezanková Vysoká škola ekonomická v Praze htt://nb.vse.cz/~rezanka Analýza dat 27/II
2 Obsah Metody shlukové analýzy Shlukování objektů Shlukování roměnných Shlukování binárních dat Shlukování kategorií Možnosti rogramových systémů Analýza dat 27/II 2
3 Metody shlukové analýzy Literatura knihy: Řezanková, H., Húsek, D., Snášel, V.: Shluková analýza dat. Professional Publishing, Praha 27, 96 s. Řezanková, H. Analýza dat z dotazníkových šetření.. vyd. Professional Publishing, Praha 27, 22 s. vyjde Hebák, P. a kol. Vícerozměrné statistické metody [3]. 2. vyd. Informatorium, Praha s. Analýza dat 27/II 3
4 Metody shlukové analýzy Literatura sborníky: Řezanková, H.: Klasifikace omocí shlukové analýzy. Sborník řednášek ze semináře Analýza dat 23/II, TriloByte Statistical Software, Pardubice 24, s Řezanková, H.: Shlukování a velké soubory dat. Sborník řednášek ze semináře Analýza dat 24/II, TriloByte Statistical Software, Pardubice 25, s Analýza dat 27/II 4
5 Metody shlukové analýzy Shluková analýza je ostu formulovaný jako rocedura, omocí níž objektivně seskuujeme jedince do skuin na základě jejich odobnosti a odlišnosti (zkráceně R. C. Tryon, 939). Cílem shlukové analýzy je nalézt skuiny objektů (v širším smyslu) tak, aby dva objekty z téže skuiny si byly odobnější než dva objekty z různých skuin. Analýza dat 27/II 5
6 Metody shlukové analýzy Klasifikace tradičních metod: metody rozkladu (artitioning) ro disjunktní shluky (se zadaným očtem shluků) iterativní relokační (řemísťovací) algoritmy metody matematického rogramování grafické zobrazování omocí minimální kostry hybridní klasifikace metody založené na hustotě metody ro řekrývající se shluky Analýza dat 27/II 6
7 Metody shlukové analýzy Klasifikace tradičních metod: Analýza dat 27/II 7
8 Metody shlukové analýzy Klasifikace tradičních metod: metody rozkladu shluky evné shlukování,4,2,3,3,3,5 objekty fuzzy shlukování,8,,,4,3,3 částečné fuzzy shlukování,2,3,5 Analýza dat 27/II 8
9 Metody shlukové analýzy Metody hierarchické shlukové analýzy: monotetické divizivní (S-PLUS) olytetické aglomerativní divizivní (S-PLUS) modifikované metody dvourozměrné shlukování (STATISTICA, SYSTAT) dvoukroková shluková analýza (SPSS) ROCK (RObust Clustering using links) Analýza dat 27/II 9
10 Metody shlukové analýzy Vstuní data: m-rozměrná ozorování (matice vzorů attern matrix) matice X, rvky x il m roměnných (znaků). znak 2. znak. objekt 2. objekt matice vzdáleností/odobností (matice blízkostí - roximity matrix). objekt 2. objekt. objekt 2. objekt kontingenční tabulka (tabulka četností) X / Y. kategorie 2. kategorie. kategorie 2. kategorie Analýza dat 27/II
11 Metody shlukové analýzy Měření odobnosti u kategoriálních dat Kategoriální roměnné (znaky, atributy): obor hodnot tvořen kategoriemi dichotomické (symetrické a asymetrické) vícekategoriální nominální (nelze určit ořadí) vícekategoriální ordinální (záleží na ořadí) kvantitativní (lze očítat vzdálenost, není třeba zvláštní ostu) Analýza dat 27/II
12 Metody shlukové analýzy Měření odobnosti u dichotomických dat obvykle binární data (hodnoty jsou a ) symetrické asymetrické (jedna hodnota důležitější, obvykle ) Postu: běžné míry (ro symetrické) seciální míry (zaměřené na určitý ty) Analýza dat 27/II 2
13 Metody shlukové analýzy Měření odobnosti u nominálních dat jediná míra ro odobnost objektů (koeficient rosté shody) různé míry ro odobnost roměnných (viz dále) S m l ij S m ijl Škola P P2 P3 řevedení na binární data OA SPŠ SOU Analýza dat 27/II 3
14 Metody shlukové analýzy Měření odobnosti u ordinálních dat kódovat kategorie od hodnoty jedna a transformace do intervalu ; řevedení na binární data Odezva P P2 P3 žádná slabá střední silná různé míry ro odobnost roměnných (viz dále) Analýza dat 27/II 4
15 Shlukování objektů Dichotomické roměnné seciální míry hierarchická shluková analýza (stejné jako ro shlukování roměnných) seciální metody monotetická shluková analýza (S-PLUS) Kaufman, L., Rousseeuw, P.: Finding Grous in Data: An Introduction to Cluster Analysis. Wiley, Hoboken 25. Algoritmus MONA (MONothetic Analysis) Analýza dat 27/II 5
16 Shlukování objektů Algoritmus MONA (MONothetic Analysis) Kategorie znaku x k Kategorie znaku x l a kl b kl c kl d kl q kl a kl d q l q kl k l kl b kl c kl k, 2,, m l, 2,, m rozdělení objektů odle roměnné, ro níž max l (q l ). Analýza dat 27/II 6
17 Analýza dat 27/II 7 Shlukování objektů Vlastnosti zvířat: Ritter, H. J., Kohonen, T.: Self-Oganizing Semantic Mas. Biological Cybernetics, 6, 989, kráva zebra kůň lev tygr kočka vlk es liška orel jestřáb sova husa kachna sleice holub lave létá běhá loví eří hříva koyta srst 4_nohy 2_nohy velké střední malé Zvíře
18 Shlukování objektů Algoritmus MONA (MONothetic Analysis) Analýza dat 27/II 8
19 Shlukování objektů Nominální roměnné insirace v třídícím algoritmu (Hartigan): ro každou roměnnou stanovena rahová hodnota shluky jsou vymezeny olíčky vícerozměrné kontingenční tabulky mezi všemi roměnnými Hartigan, J. A.: Clustering Algorithms. John Wiley & Sons, New York 975. Analýza dat 27/II 9
20 Nominální roměnné Shlukování objektů koeficient rosté shody (STATISTICA) S ijl x il x jl a S ijl jinak řevedení na binární data seciální metody k-modů, k-histogramů, ROCK, CACTUS další ostuy (jiné míry v nových metodách) míra věrohodnostního tyu (log-likelihood) v dvoukrokové shlukové analýze (SPSS) S m l ij S m ijl Analýza dat 27/II 2
21 Shlukování objektů Metody k-modů, k-histogramů vycházejí z metody k-růměrů, obecně k-centroidů. Centroid je definován jako vektor, ro který latí, že součet vzdáleností jednotlivých objektů ve shluku k tomuto vektoru je minimální (oužije-li se euklidovská vzdálenost, ak je centroidem vektor růměrů a jde o metodu k-růměrů). D m 2 E ( xi, x j ) ( xil x jl ) l x i x j Analýza dat 27/II 2
22 Shlukování objektů Metody k-modů, k-histogramů Každá l-tá roměnná nabývá hodnot v lu (u, 2,, K l ). Každý shluk je rerezentován m-rozměrným vektorem údajů, který obsahuje buď modální (nejčetněji zastouené) kategorie jednotlivých roměnných (v metodě k-modů), nebo údaje o četnostech kategorií jednotlivých roměnných (v metodě k-histogramů). Používají se řitom seciální míry neodobnosti. Huang, Z.: Extensions to the k-means algorithm to clustering large data sets with categorical values. Data Mining and Knowledge Discovery, 2, 998, Analýza dat 27/II 22
23 Shlukování objektů Metoda ROCK (RObust Clustering using links) založena na rinciu hierarchického shlukování nejdříve se rovede náhodný výběr objektů, které se shlukují do ožadovaného očtu shluků, o čemž následuje řiřazení zbylých objektů (jako v CURE) využívá koncet grafu, ojmy sousedi a vazby Jaccardův koeficient odobnosti ro binární data Guha, S., Rastogi, R., Shim, K. : ROCK: A robust clustering algorithm for categorical attributes. Information Systems, 25(5), 2, Analýza dat 27/II 23
24 Shlukování objektů Metoda CACTUS (CAtegorical ClusTering Using Summaries) atří k metodám založeným na mřížce založena na myšlence solečného výskytu určitých kategorií různých roměnných zda je očet výskytů kategorií v kt a v lu dvou různých roměnných k a l větší než očekávaná četnost Ganti, V., Gehrke, J., Ramakrishnan, R.: CACTUS Clustering categorical data using summaries. Proceedings of the 5th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, ACM Press, San Diego 999, Analýza dat 27/II 24
25 Shlukování objektů Dvoukroková shluková analýza (sytém SPSS) shlukovací vlastnosti CF (Cluster Features), CF-strom míra věrohodnostního tyu (log-likelihood) variabilita ve shlucích se zjišťuje omocí entroie H gl K l u n n glu g n ln n Zhang, T., Ramakrishnan, R., Livny, M.: BIRCH: An efficient data clustering method for very large databases. ACM SIGMOD Record, 25(2), 996, 3-4. glu g Analýza dat 27/II 25
26 Shlukování objektů Newman, D.J., Hettich, S., Blake, C.L., Merz, C.J.: UCI Reository of machine learning databases. Irvine, CA: University of California, 998 [htt:// html]. Analýza dat 27/II 26
27 Shlukování objektů Dvoukroková shluková analýza (sytém SPSS) Cluster Distribution v5 Cluster Total Combined % of N Combined % of Total 737 2,4% 2,4% 635 2,% 2,% 296 6,% 6,% 728 2,3% 2,3% 728 2,3% 2,3% 824,%,% 824,% Cluster Combined f t Frequency Percent Frequency Percent 433 3,2% 34 9,% 29 6,% ,8% ,3%,% ,4%,%,% 728 5,2% 4748,% 3376,% Cluster Combined v3 f g s y Frequency Percent Frequency Percent Frequency Percent Frequency Percent ,5% 4,% ,3% 289 8,9% 24,3%,% 86 3,9% 579 7,8% ,9%,%,% 648 2,%,%,% ,8% ,6% ,2%,%,% ,6% 232,% 4,% 2556,% 3244,% Analýza dat 27/II 27
28 Shlukování objektů Ordinální roměnné kódovat kategorie od hodnoty jedna a transformace do intervalu ; řevést na binární data oužít seciální metody k-mediánů Analýza dat 27/II 28
29 Shlukování objektů Metoda k-mediánů (SYSTAT) vychází z metody k-centroidů (jde o k-shlukování) Centroid je definován jako vektor, ro který latí, že součet vzdáleností jednotlivých objektů ve shluku k tomuto vektoru je minimální. Použije-li se manhattanská vzdálenost, ak je centroidem vektor mediánů a jde o metodu k-mediánů). D B ( x i, x j ) m l x il x jl x i x j Analýza dat 27/II 29
30 Shlukování roměnných Nominální roměnné koeficient rosté shody S kli x ik x il a S kli jinak koeficient neshody seciální míry odobnosti řevedení na binární data S kl D kl S kl n i S n kli Analýza dat 27/II 3
31 Shlukování roměnných Newman, D.J., Hettich, S., Blake, C.L., Merz, C.J.: UCI Reository of machine learning databases. Irvine, CA: University of California, 998 [htt:// html]. Analýza dat 27/II 3
32 Shlukování roměnných Nominální roměnné koeficient neshody ca-shae sore-rint-color ca-color odor habitat oulation gill-color ca-surface gill-size bruises ring-tye stalk-shae gill-attachment veil-color ring-number gill-sacing stalk-surfacr-above-ring stalk-surface-below-ring stalk-color-above-ring stalk-color-below-ring Stromový diagram ro 2 roměnných Úlné sojení Procentuální neshoda,,2,4,6,8, Vzdálenost sojení Analýza dat 27/II 32
33 Shlukování roměnných Seciální míry odobnosti vycházejí z kontingenční tabulky Znak Y Znak X. kategorie. kategorie j-tá kategorie S-tá kategorie Celkem n n j n S n i-tá kategorie n i n ij n is n i R-tá kategorie n R n Rj n RS n R Celkem n n j n S n Analýza dat 27/II 33
34 Shlukování roměnných Seciální míry odobnosti vycházejí z kontingenční tabulky Znak Y Znak X Celkem. kategorie i-tá kategorie R-tá kategorie. kategorie j-tá kategorie S-tá kategorie Celkem i R j ij R j S is i RS S R Analýza dat 27/II 34
35 Shlukování roměnných Seciální míry odobnosti ro nominální roměnné vycházejí z rinciu analýzy roztylu a oměru determinace S Y X var( Y, X var( Y ) ) var( Y ) var( Y var( Y ) X ) S Y X var( Y ) R i i var( Y ) var( Y x i ) var ( Y ) var( Y, X ) var( Y X ) Analýza dat 27/II 35
36 Shlukování roměnných Měření variability nominálních roměnných Četnost Znak X absolutní relativní kumulativní relativní x n P x i n i x K n K i K P i Celkem n x Analýza dat 27/II 36
37 Shlukování roměnných Měření variability nominálních roměnných variační oměr v n /n nominální roztyl nomvar (Giniho koeficient) entroie H K i K i 2 i K i i ln i ( i Mo ( i )) Mo Analýza dat 27/II 37
38 Analýza dat 27/II 38 Shlukování roměnných Míry závislosti nominálních roměnných variační oměr v /n Mo Mo n λ Mo Mo Mo ) ( ) ( ) ( Y v x Y v Y v i i R i i i R i i X Y Mo Mo Mo Mo Mo Mo R i i R i i Goodmanova- -Kruskalova λ
39 Shlukování roměnných Míry odobnosti nominálních roměnných PRE P{} - P{2} P{} P{} ( Mo ) P{2} ( Σ imo ) Goodmanova- -Kruskalova λ P{ } 2 ( ) Mo Mo R S P{2} i Mo 2 i j Moj λ sym R S imo i j Moj 2 Mo Mo Mo Mo Analýza dat 27/II 39
40 Analýza dat 27/II 4 Shlukování roměnných Míry závislosti nominálních roměnných entroie K i i i H ln S j j j S j i ij i ij R i i S j j j i R i i X Y Y H x Y H Y H U ln ln ln ) ( ) ( ) ( informační koeficient (koeficient nejistoty) S j j j R i S j R i S j ij ij j j i i X Y U ln ln ln ln ) ( ) ( ) ( ) ( Y H XY H Y H X H
41 Analýza dat 27/II 4 Shlukování roměnných Míry odobnosti nominálních roměnných informační koeficient (koeficient nejistoty) ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( 2 XY H Y H X H X H XY H Y H X H Y H U sym ( ) ) ( ) ( ) ( ) ( ) ( 2 Y H X H XY H Y H X H
42 Shlukování roměnných Míry odobnosti ordinálních roměnných Searmanův koeficient ořadové korelace n( n ) Míry založené na očtech konkordantních a diskordantních árů r S 6 n ( x l l 2 y l ) 2 Analýza dat 27/II 42
43 Shlukování roměnných Míry odobnosti ordinálních roměnných Míry založené na očtech konkordantních a diskordantních árů C očet konkordantních árů D očet diskordantních árů T X očet árů, které obsahují stejnou hodnotu roměnné X, ale různou hodnotu Y T Y očet árů, které obsahují stejnou hodnotu roměnné Y, ale různou hodnotu X Analýza dat 27/II 43
44 Shlukování roměnných Míry odobnosti ordinálních roměnných Goodmanova-Kruskalova γ γ C C D D Kendallovo τ b τ b C D ( C D TX )( C D TY ) Kendallovo τ c Stuartovo τ c τ c 2q( C 2 n ( q D) ) q min{r, S} Analýza dat 27/II 44
45 Analýza dat 27/II 45 Shlukování roměnných Míry odobnosti ordinálních roměnných Somersovo d Y X Y T D C D C d ( ) ( ) Y X X Y sym T T D C D C D C T D C D C T D C d 2 2 2
46 Shlukování roměnných Hodnoty Kendallova τ b ro dvojice roměnných Blues Musicals Classical Jazz Ra Heavy Metal Blues or R & B Music,,7,5,49,6,2 Broadway Musicals,7,,4,22,3 -, Classical Music,5,4,,23, -, Jazz Music,49,22,23,,6, Ra Music,6,3,,6,,35 Heavy Metal Music,2 -, -,,,35, Analýza dat 27/II 46
47 Shlukování roměnných Ordinální roměnné koeficient τ b Stromový diagram ro 6 roměnných Úlné sojení Odlišnosti z matice Blues Jazz Musicals Classical Ra Heavy Metal,4,5,6,7,8,9,, Vzdálenost sojení Analýza dat 27/II 47
48 Shlukování binárních dat Stejné míry odobnosti (neodobnosti) ro objekty i roměnné Kategorie objektu x j Kategorie objektu x i a c b d Analýza dat 27/II 48
49 Shlukování binárních dat míry ro symetrické a asymetrické roměnn nné míry odobnosti, neodobnosti a vzdálenosti koeficienty shody, odmíněné ravděodobnosti odobnosti míry ro hodnocení ředovědí a ostatní míry, které jsou funkcemi oměru šancí,, míry, m které jsou funkcemi korelačního koeficientu, a ostatní Analýza dat 27/II 49
50 Shlukování binárních dat Koeficient souhlasu (ro symetrická binární data) Jaccardův koeficient (ro asymetrická binární data) a a d b c d a a b c Diceův (Czekanowského) koeficient (ro asymetrická binární data) Russelův a Raoův RR (ro asymetrická binární data) 2a 2a b c a a b c d Analýza dat 27/II 5
51 Shlukování binárních dat Sokalův a Sneathův koeficient, SoSn 2( a d) 2( a d) b c Rogersův a Tanimotoův koef., RT a a d d 2( b c) Analýza dat 27/II 5
52 Shlukování binárních dat Funkce oměru šancí Poměr šancí ψ ad bc Yuleovo Q Q ad ad bc bc ad ad / bc / bc ψ ψ Yuleův koeficient vazby Y ad ad bc bc ψ ψ Analýza dat 27/II 52
53 Shlukování binárních dat Míry ro hodnocení ředovědí Goodmanova-Kruskalova λ Anderbergovo D t t2 2( a b c d ) t 2 2( a t t2 b c d ) t max(a, b) max(c, d) max(a, c) max(b, d) t 2 max(a c, b d) max(a b, c d) Analýza dat 27/II 53
54 Shlukování binárních dat Míry ro ordinální roměnné Goodmanova-Kruskalova γ γ C C D D ad ad bc bc Q Kendallovo τ b τ b C D ( C D TY )( C D TX ) ad bc ( ad bc ab cd )( ad bc ac bd ) Analýza dat 27/II 54
55 Shlukování binárních dat Míry ro kvantitativní roměnné Koeficient asociace (korelační koeficient) ad bc r XY ( a b)( a c)( b d )( c d ) τ r b XY Analýza dat 27/II 55
56 Shlukování binárních dat Míry vzdálenosti a neodobnosti Euklidovská vzdálenost Binární čtvercová euklidovská vzdálenost Hammingova vzdálenost Binární Lanceova a Williamsova nemetrická míra neodobnosti b c b c b c 2a b c Analýza dat 27/II 56
57 Shlukování binárních dat Dendrogram olytetické aglomerativní shlukování Stromový diagram ro 6 říadů Úlné sojení Euklidovská vzdálenost holub sleice kachna husa sova jestřáb orel liška vlk es kočka tygr lev kůň zebra kráva,,5,,5 2, 2,5 3, 3,5 Vzdálenost sojení Analýza dat 27/II 57
58 Shlukování binárních dat Banner lot olytetické divizivní shlukování Analýza dat 27/II 58
59 Shlukování binárních dat Vícerozměrné škálování,8 Bodový graf 2D Konečná konfigurace, dimenze vs. dimenze 2,6,4 HUSA KACHNA SLEPICE KRÁVA ZEBRA KŮN Dimenze 2,2, -,2 HOLUB JESTŘÁB SOVA KOČKA TYGR LEV -,4 -,6 OREL LIŠKA PES VLK -,8 -,4 -,2 -, -,8 -,6 -,4 -,2,,2,4,6,8,,2,4 Dimenze Analýza dat 27/II 59
60 Shlukování kategorií Míry neodobnosti kategorií Pearsonova chí-kvadrát statistika χ S 2 S 2 nij mij ) ( ni j m 2 i j ) j Koeficient φ i ij i j mij ni ni ( m ij ϕ m j i j 2 χ n i n i m i j n n i ( n n ( n i ij n n n i ) i j ) Analýza dat 27/II 6
61 Shlukování kategorií Matice neodobností (chí-kvadrát míra) ro oblasti interview na základě úrovně vzdělání Region :New England, 2,8 3,32 2,65 3,33 4,76,9,95 2,6 2:Middle Atlantic 2,8,,55,3,9 3,82,32 2,2,56 3:E. Nor Central 3,32,55,,44 2,62 5,6,62 2,48 2,25 4:W. Nor Central 2,65,3,44,,56 3,66,23,88,6 5:South Atlantic 3,33,9 2,62,56, 3,6 2,8 2,42 2,53 6:E. Sou Central 4,76 3,82 5,6 3,66 3,6, 4,39 3,54 4,6 7:W. Sou Central,9,32,62,23 2,8 4,39,,3,8 8:Mountain,95 2,2 2,48,88 2,42 3,54,3,,5 9:Pacifik 2,6,56 2,25,6 2,53 4,6,8,5, Analýza dat 27/II 6
62 Shlukování kategorií Dendrogram olytetické aglomerativní shlukování Stromový diagram ro 9 objektů Úlné sojení Odlišnosti z matice NEW ENGL W. SOU C PACIFIC MOUNTAIN MIDDLE A SOUTH A E. NOR C W. NOR C E. SOU C Vzdálenost sojení Analýza dat 27/II 62
63 Shlukování kategorií Jiné metody (grafické zobrazování) Koresondenční analýza Vícerozměrné škálování Analýza dat 27/II 63
64 Shlukování kategorií Výsledky růzkumu cestovní kanceláře Count Ty zájezdu Celkem hory obyt s výlety oznávací zájezd turistika Otimální ubytování aartman bungalov hotel stan Celkem Matice neodobností (míra chí-kvadrát) Case :hory 2:obyt s výlety 3:oznávací zájezd 4:turistika This is a dissimilarity matrix Proximity Matrix Chi-square between Sets of Frequencies 2:obyt 3:oznávací :hory s výlety zájezd 4:turistika, 3,2 3,368 3,62 3,2,,7 9,65 3,368,7, 3,367 3,62 9,65 3,367, Analýza dat 27/II 64
65 Shlukování kategorií Matice neodobností (míra chí-kvadrát) Case :hory 2:obyt s výlety 3:oznávací zájezd 4:turistika This is a dissimilarity matrix Proximity Matrix Chi-square between Sets of Frequencies 2:obyt 3:oznávací :hory s výlety zájezd 4:turistika, 3,2 3,368 3,62 3,2,,7 9,65 3,368,7, 3,367 3,62 9,65 3,367, Postu ři shlukování (jednoduché sojení) Agglomeration Schedule Stage 2 3 Stage Cluster First Cluster Combined Aears Cluster Cluster 2 Coefficients Cluster Cluster 2 Next Stage 3 4 3, , ,65 2 Analýza dat 27/II 65
66 Shlukování kategorií Výsledky růzkumu cestovní kanceláře Count Ty zájezdu Celkem hory obyt s výlety oznávací zájezd turistika Otimální ubytování aartman bungalov hotel stan Celkem Matice neodobností (míra chí-kvadrát) Proximity Matrix Case aartman bungalov hotel stan Matrix File Inut aartman bungalov hotel stan, 5,439,97,52 5,439, 8,2 5,97,97 8,2, 3,754,52 5,97 3,754, Analýza dat 27/II 66
67 Shlukování kategorií Matice neodobností (míra chí-kvadrát) Proximity Matrix Case aartman bungalov hotel stan Matrix File Inut aartman bungalov hotel stan, 5,439,97,52 5,439, 8,2 5,97,97 8,2, 3,754,52 5,97 3,754, Postu ři shlukování (růměrné sojení) Agglomeration Schedule Stage 2 3 Stage Cluster First Cluster Combined Aears Cluster Cluster 2 Coefficients Cluster Cluster 2 Next Stage 3, , ,427 2 Analýza dat 27/II 67
68 Shlukování kategorií Vícerozměrné škálování Common Sace Common Sace Dimension 2,2,, -, -,2 -,3 hory turistika oznávací_zájezd -,5,,5 Dimension obyt_s_výlety, Dimension 2,2,, -, -,2 -,3 -,4 -, hotel aartman bungalov -,5,,5 Dimension stan, Analýza dat 27/II 68
69 Shlukování kategorií Koresondenční analýza Symmetrical Normalization Otimální ubytování Ty zájezdu,5 turistika Dimension 2,,5, -,5 hory -,5 bungalov aartman stan obyt s výlety hotel oznávací zájezd -, -,5,,5, Dimension Analýza dat 27/II 69
70 Možnosti rogramových systémů Seciální míry ro hierarchickou shlukovou analýzu, res. k-shlukování (růměry, mediány) Koef. neshody (STATISTICA, SYSTAT ro HSA) Míra ro ordinální roměnné ro HSA a k-shluk. SYSTAT (gama) Míry ro binární data ro HSA SPSS (26 měr) STATISTICA (korelační koeficient koef. asociace) SYSTAT (Jaccardův koeficient, Anderbergovo D, RR, SoSn, RT, gama Yulovo Q, korel. koeficient) Analýza dat 27/II 7
71 Možnosti rogramových systémů Míry ro různé tyy roměnných (včetně nominálních) ve seciální metodě Míra věrohodnostního tyu ve dvoukrokové shlukové analýze (SPSS) Míry ro shlukování kategorií ro HSA Chí-kvadrát, fí-kvadrát (SPSS, SYSTAT i ro k-shlukování, tj. k-růměrů a k-mediánů) Seciální metody Monotetická shluková analýza (S-PLUS) Metoda k-mediánů (SYSTAT) Analýza dat 27/II 7
72 Možnosti rogramových systémů Vytvoření matice odobností (neodobností) SPSS: Pearsonův a Searmanův korelační koeficient, Kendallovo τ b SYSTAT: koef. fí, Cramérovo V, kontingenční koef., Goodmanova-Kruskalova λ, koef. nejistoty, Pearsonův a Searmanův korelační koeficient, Kendallovo τ b, Stuartovo τ c, Goodmanova- Kruskalova γ, 3 měr ro dichotomická data Analýza dat 27/II 72
73 Děkuji Vám za ozornost Analýza dat 27/II 73
Klasifikace pomocí shlukové analýzy. Hana Řezanková
Klasifikace pomocí shlukové analýzy Hana Řezanková Vysoká škola ekonomická v Praze Cíle klasifikace a shlukové analýzy Cílem klasifikace je zařadit adit buď některé z objektů nebo všechny v objekty do
Úvodem Dříve les než stromy 3 Operace s maticemi
Obsah 1 Úvodem 13 2 Dříve les než stromy 17 2.1 Nejednoznačnost terminologie 17 2.2 Volba metody analýzy dat 23 2.3 Přehled vybraných vícerozměrných metod 25 2.3.1 Metoda hlavních komponent 26 2.3.2 Faktorová
Univerzita Pardubice FAKULTA CHEMICKO TECHNOLOGICKÁ
Univerzita Pardubice FAKULA CHEMICKO ECHNOLOGICKÁ MEODY S LAENNÍMI PROMĚNNÝMI A KLASIFIKAČNÍ MEODY SEMINÁRNÍ PRÁCE LICENČNÍHO SUDIA Statistické zracování dat ři kontrole jakosti Ing. Karel Dráela, CSc.
3.2 Metody s latentními proměnnými a klasifikační metody
3. Metody s latentními roměnnými a klasifikační metody Otázka č. Vyočtěte algoritmem IPALS. latentní roměnnou z matice A[řádek,slouec]: A[,]=, A[,]=, A[3,]=3, A[,]=, A[,]=, A[3,]=0, A[,3]=6, A[,3]=4, A[3,3]=.
Analýza dat z dotazníkových šetření. Zdrojová data: dotazník http://www.vyplnto.cz/realizovane-pruzkumy/konzumace-ryb-a-rybich-vyrob/
Analýza dat z dotazníkových šetření Cvičení 3. - Jednorozměrné třídění Zdrojová data: dotazník http://www.vyplnto.cz/realizovane-pruzkumy/konzumace-ryb-a-rybich-vyrob/ - Seznamte se s dotazníkem a strukturou
Metody analýzy dat I. Míry a metriky - pokračování
Metody analýzy dat I Míry a metriky - pokračování Literatura Newman, M. (2010). Networks: an introduction. Oxford University Press. [168-193] Zaki, M. J., Meira Jr, W. (2014). Data Mining and Analysis:
Analýza dat z dotazníkových šetření
Analýza dat z dotazníkových šetření Cvičení 6. Rozsah výběru Př. Určete minimální rozsah výběru pro proměnnou věk v souboru dovolena, jestliže 95% interval spolehlivost průměru proměnné nemá být širší
1.1 Úvod... 1 1.2 Data... 1. 3 Statistická analýza dotazníkových dat 8. Literatura 10
MÍRY STATISTICKÉ VAZBY, VÝBĚROVÁ ŠETŘENÍ, STATISTICKÁ ANALÝZA DOTAZNÍKOVÝCH DAT Obsah 1 Statistická data 1 1.1 Úvod.......................................... 1 1. Data...........................................
Algoritmy pro shlukování prostorových dat
Algoritmy pro shlukování prostorových dat Marta Žambochová Katedra matematiky a informatiky Fakulta sociálně ekonomická Univerzita J. E. Purkyně v Ústí nad Labem ROBUST 21. 26. leden 2018 Rybník - Hostouň
Shluková analýza dat a stanovení počtu shluků
Shluková analýza dat a stanovení počtu shluků Autor: Tomáš Löster Vysoká škola ekonomická v Praze Ostrava, červen 2017 Osnova prezentace Úvod a teorie shlukové analýzy Podrobný popis shlukování na příkladu
PSY117/454 Statistická analýza dat v psychologii Přednáška 10
PSY117/454 Statistická analýza dat v psychologii Přednáška 10 TESTY PRO NOMINÁLNÍ A ORDINÁLNÍ PROMĚNNÉ NEPARAMETRICKÉ METODY... a to mělo, jak sám vidíte, nedozírné následky. Smrť Analýza četností hodnot
Mnohorozměrná statistická data
Statistika II Katedra ekonometrie FVL UO Brno kancelář 69a, tel. 973 442029 email:jiri.neubauer@unob.cz Statistický znak, statistický soubor Jednotlivé objekty nebo subjekty, které jsou při statistickém
5 Vícerozměrná data - kontingenční tabulky, testy nezávislosti, regresní analýza
5 Vícerozměrná data - kontingenční tabulky, testy nezávislosti, regresní analýza 5.1 Vícerozměrná data a vícerozměrná rozdělení Při zpracování vícerozměrných dat se hledají souvislosti mezi dvěma, případně
Obsah Úvod Kapitola 1 Než začneme Kapitola 2 Práce s hromadnými daty před analýzou
Úvod.................................................................. 11 Kapitola 1 Než začneme.................................................................. 17 1.1 Logika kvantitativního výzkumu...........................................
Shluková analýza. Jiří Militky. Analýza experimentálních dat V. Červeně označené slide jsou jen pro doplnění informací a nezkouší se.
Červeně označené slide jsou jen pro doplnění informací a nezkouší se. Shluková analýza Jiří Militky Analýza experimentálních dat V Klasifikace objektů Rozdělení objektů do shluků dle jejich podobnosti
IBM SPSS Exact Tests. Přesné analýzy malých datových souborů. Nejdůležitější. IBM SPSS Statistics
IBM Software IBM SPSS Exact Tests Přesné analýzy malých datových souborů Při rozhodování o existenci vztahu mezi proměnnými v kontingenčních tabulkách a při používání neparametrických ů analytici zpravidla
Testování hypotéz a měření asociace mezi proměnnými
Testování hypotéz a měření asociace mezi proměnnými Testování hypotéz Nulová a alternativní hypotéza většina statistických analýz zahrnuje různá porovnání, hledání vztahů, efektů Tvrzení, že efekt je nulový,
A-PDF Split DEMO : Purchase from to remove the watermark
A-PDF Split DEMO : Purchase from www.a-pdf.com to remove the watermark KDE STUDENTI HLEDAJÍ INFORMACE Marta Žambochová Adresa: FSE UJEP, KMS, Moskevská 54, CZ-400 96, Ústí nad Labem E-mail: marta.zambochova@ujep.cz
Vícerozměrné statistické metody
Vícerozměrné statistické metody Shluková analýza Jiří Jarkovský, Simona Littnerová FSTA: Pokročilé statistické metody Typy shlukových analýz Shluková analýza: cíle a postupy Shluková analýza se snaží o
Základy pravděpodobnosti a statistiky. Popisná statistika
Základy pravděpodobnosti a statistiky Popisná statistika Josef Tvrdík Přírodovědecká fakulta, katedra informatiky josef.tvrdik@osu.cz konzultace v úterý 14.10 až 15.40 hod. Příklad ze života Cimrman, Smoljak/Svěrák,
Grafický a číselný popis rozložení dat 3.1 Způsoby zobrazení dat Metody zobrazení kvalitativních a ordinálních dat Metody zobrazení kvan
1 Úvod 1.1 Empirický výzkum a jeho etapy 1.2 Význam teorie pro výzkum 1.2.1 Konstrukty a jejich operacionalizace 1.2.2 Role teorie ve výzkumu 1.2.3 Proces ověření hypotéz a teorií 1.3 Etika vědecké práce
Metody s latentními proměnnými a klasifikační metody
Univerzita Pardubice Fakulta chemicko-technologická Katedra analytické chemie etody s latentními roměnnými a klasifikační metody Ing. Roman Slavík V Bohumíně 4.4. ŽDB a.s. Příklad č. Vyočtěte algoritmem
Dynamické programování
ALG Dynamické rogramování Nejdelší rostoucí odoslounost Otimální ořadí násobení matic Nejdelší rostoucí odoslounost Z dané oslounosti vyberte co nejdelší rostoucí odoslounost. 5 4 9 5 8 6 7 Řešení: 4 5
ANALÝZA DAT V R 7. KONTINGENČNÍ TABULKA. Mgr. Markéta Pavlíková Katedra pravděpodobnosti a matematické statistiky MFF UK.
ANALÝZA DAT V R 7. KONTINGENČNÍ TABULKA Mgr. Markéta Pavlíková Katedra pravděpodobnosti a matematické statistiky MFF UK www.biostatisticka.cz PŘEHLED TESTŮ rozdělení normální spojité alternativní / diskrétní
Vícerozměrné statistické metody
Vícerozměrné statistické metody Podobnosti a vzdálenosti ve vícerozměrném prostoru, asociační matice II Jiří Jarkovský, Simona Littnerová Vícerozměrné statistické metody Práce s asociační maticí Vzdálenosti
Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz
Pravděodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@niax.cz Pravděodobnost a matematická statistika 2010 1.týden (20.09.-24.09. ) Data, tyy dat, variabilita, frekvenční analýza
V praxi pracujeme s daty nominálními (nabývají pouze dvou hodnot), kategoriálními (nabývají více
9 Vícerozměrná data a jejich zpracování 9.1 Vícerozměrná data a vícerozměrná rozdělení Při zpracování vícerozměrných dat, hledáme souvislosti mezi dvěmi, případně více náhodnými veličinami. V praxi pracujeme
Stav Svobodný Rozvedený Vdovec. Svobodná 37 10 6. Rozvedená 8 12 8. Vdova 5 8 6
1. Příklad Byly sledovány rodinné stavy nevěst a ženichů při uzavírání sňatků a byla vytvořena následující tabulka četností. Stav Svobodný Rozvedený Vdovec Svobodná 37 10 6 Rozvedená 8 12 8 Vdova 5 8 6
Mnohorozměrná statistická data
Mnohorozměrná statistická data Ekonometrie Jiří Neubauer Katedra ekonometrie FVL UO Brno kancelář 69a, tel. 973 442029 email:jiri.neubauer@unob.cz Jiří Neubauer (Katedra ekonometrie UO Brno) Mnohorozměrná
MATEMATICKÁ STATISTIKA. Katedra matematiky a didaktiky matematiky Technická univerzita v Liberci
MATEMATICKÁ STATISTIKA Dana Černá http://www.fp.tul.cz/kmd/ Katedra matematiky a didaktiky matematiky Technická univerzita v Liberci Matematická statistika Matematická statistika se zabývá matematickým
Vícerozměrné metody. PSY117/454 Statistická analýza dat v psychologii Přednáška 12. Schematický úvod
PSY117/454 Statistická analýza dat v psychologii Přednáška 12 Vícerozměrné metody Schematický úvod Co je na slově statistika tak divného, že jeho vyslovení tak často způsobuje napjaté ticho? William Kruskal
Státnice odborné č. 20
Státnice odborné č. 20 Shlukování dat Shlukování dat. Metoda k-středů, hierarchické (aglomerativní) shlukování, Kohonenova mapa SOM Shlukování dat Shluková analýza je snaha o seskupení objektů do skupin
Statistické metody v ekonomii. Ing. Michael Rost, Ph.D.
Statistické metody v ekonomii Ing. Michael Rost, Ph.D. Jihočeská univerzita v Českých Budějovicích Shluková analýza Shluková analýza je souhrnným názvem pro celou řadu výpočetních algoritmů, jejichž cílem
Některé potíže s klasifikačními modely v praxi. Nikola Kaspříková KMAT FIS VŠE v Praze
Některé potíže s klasifikačními modely v praxi Nikola Kaspříková KMAT FIS VŠE v Praze Literatura J. M. Chambers: Greater or Lesser Statistics: A Choice for Future Research. Statistics and Computation 3,
Kontingenční tabulky, korelační koeficienty
Statistika II Katedra ekonometrie FVL UO Brno kancelář 69a, tel. 973 442029 email:jiri.neubauer@unob.cz Mějme kategoriální proměnné X a Y. Vytvoříme tzv. kontingenční tabulku. Budeme tedy testovat hypotézu
Karta předmětu prezenční studium
Karta předmětu prezenční studium Název předmětu: Číslo předmětu: 545-0250 Garantující institut: Garant předmětu: Ekonomická statistika Institut ekonomiky a systémů řízení RNDr. Radmila Sousedíková, Ph.D.
Zpracování studie týkající se průzkumu vlastností statistických proměnných a vztahů mezi nimi.
SEMINÁRNÍ PRÁCE Zadání: Data: Statistické metody: Zpracování studie týkající se průzkumu vlastností statistických proměnných a vztahů mezi nimi. Minimálně 6 proměnných o 30 pozorováních (z toho 2 proměnné
Modifikace algoritmu FEKM
Modifikace algoritmu FEKM Marta Žambochová Katedra matematiky a informatiky Fakulta sociálně ekonomická Univerzita J. E. Purkyně v Ústí nad Labem ROBUST 9. 14. září 2012 Němčičky Motivace Potřeba metod
Rozhodovací stromy Marta Žambochová
Rozhodovací stromy Marta Žambochová Obsah: 1 Úvod... Algoritmy ro vytváření rozhodovacích stromů... 3.1 Algoritmus CART... 3.1.1 lasifikační stromy... 3.1. Regresní stromy... 4. Algoritmus ID3... 4.3 Algoritmus
Analýza dat na PC I.
CENTRUM BIOSTATISTIKY A ANALÝZ Lékařská a Přírodovědecká fakulta, Masarykova univerzita Analýza dat na PC I. Popisná analýza v programu Statistica IBA výuka Základní popisná statistika Popisná statistika
Způsobilost. Data a parametry. Menu: QCExpert Způsobilost
Zůsobilost Menu: QExert Zůsobilost Modul očítá na základě dat a zadaných secifikačních mezí hodnoty různých indexů zůsobilosti (caability index, ) a výkonnosti (erformance index, ). Dále jsou vyočítány
ANALÝZA ZÁVISLOSTI. Martina Litschmannová
ANALÝZA ZÁVISLOSTI Martina Litschmannová Obsah přednášky Analýza závislosti dvou kategoriálních proměnných Analýza závislosti v kontingečních tabulkách Analýza závislosti v asociačních tabulkách Simpsonův
STATISTICKÉ METODY. (kombinovaná forma, 8.4., 20.5. 2012) Matěj Bulant, Ph.D., VŠEM
STATISTICKÉ METODY A DEMOGRAFIE (kombinovaná forma, 8.4., 2.5. 22) Matěj Bulant, Ph.D., VŠEM Řekli o statistice Věřím ouze těm statistikám, které jsem sám zfalšoval. Tři stuně lži - lež, hnusná lež, statistika.
Klasifikační metody pro genetická data: regularizace a robustnost
Odd medicínské informatiky a biostatistiky Ústav informatiky AV ČR, vvi Práce vznikla za finanční podpory Nadačního fondu Neuron na podporu vědy Klasifikační metody pro genetická data Regularizovaná klasifikační
ADDS cvičení 7. Pavlína Kuráňová
ADDS cvičení 7 Pavlína Kuráňová Analyzujte závislost věku obyvatel na místě kde nejčastěji tráví dovolenou. (dotazník dovolená, sloupce Jaký je Váš věk a Kde nejčastěji trávíte dovolenou) Analyzujte závislost
UNIVEZITA PARDUBICE FAKULTA EKONOMICKO SPRÁVNÍ. Předzpracování ekonomických dat pomocí metod shlukové analýzy. Pavel Novák
UNIVEZITA PARDUBICE FAKULTA EKONOMICKO SPRÁVNÍ Předzpracování ekonomických dat pomocí metod shlukové analýzy Pavel Novák Bakalářská práce 2009 Prohlašuji: Tuto práci jsem vypracoval samostatně. Všechny
Obsah. Statistika Zpracování informací ze statistického šetření Charakteristiky úrovně, variability a koncentrace kvantitativního znaku
Obsah Statistika Zpracování informací ze statistického šetření Charakteristiky úrovně, variability a koncentrace kvantitativního znaku Roman Biskup (zapálený) statistik ve výslužbě, aktuálně analytik v
Zpracování podkladů pro praktickou část distanční opory pro předmět KZMSA - část hierarchické shlukování Jan Míčka
Univerzita Pardubice Fakulta ekonomicko-správní Zpracování podkladů pro praktickou část distanční opory pro předmět KZMSA - část hierarchické shlukování Jan Míčka Bakalářská práce 009 Tuto práci jsem
Multivariátní porovnání dat - klastrová (shluková) analýza
Multivariátní porovnání dat - klastrová (shluková) analýza - bez apriorních předpokladů Shluková analýza Shluková analýza - cluster analysis úvod - definice princip algoritmy výsledky Shluková analýza
Třídění statistických dat
2.1 Třídění statistických dat Všechny muže ve městě rozdělíme na 2 skupiny: A) muži, kteří chodí k holiči B) muži, kteří se holí sami Do které skupiny zařadíme holiče? prof. Raymond M. Smullyan, Dr. Math.
Přednáška XI. Asociace ve čtyřpolní tabulce a základy korelační analýzy
Přednáška XI. Asociace ve čtyřpolní tabulce a základy korelační analýzy Relativní riziko a poměr šancí Princip korelace dvou náhodných veličin Korelační koeficienty Pearsonůva Spearmanův Korelace a kauzalita
Kontingenční tabulky. (Analýza kategoriálních dat)
Kontingenční tabulky (Analýza kategoriálních dat) Agenda Standardní analýzy dat v kontingenčních tabulkách úvod, KT, míry diverzity nominálních veličin, některá rozdělení chí kvadrát testy, analýza reziduí,
Spokojenost se životem
SEMINÁRNÍ PRÁCE Spokojenost se životem (sekundárních analýza dat sociologického výzkumu Naše společnost 2007 ) Předmět: Analýza kvantitativních revize Šafr dat I. Jiří (18/2/2012) Vypracoval: ANONYMIZOVÁNO
Profilování vzorků heroinu s využitím vícerozměrné statistické analýzy
Profilování vzorků heroinu s využitím vícerozměrné statistické analýzy Autor práce : RNDr. Ivo Beroun,CSc. Vedoucí práce: prof. RNDr. Milan Meloun, DrSc. PROFILOVÁNÍ Profilování = klasifikace a rozlišování
Kontingenční tabulky, korelační koeficienty
Statistika II Katedra ekonometrie FVL UO Brno kancelář 69a, tel 973 442029 email:jirineubauer@unobcz Budeme předpokládat, že X a Y jsou kvalitativní náhodné veličiny, obor hodnot X obsahuje r hodnot (kategorií,
Statistická analýza jednorozměrných dat
Statistická analýza jednorozměrných dat Prof. RNDr. Milan Meloun, DrSc. Univerzita Pardubice, Pardubice 31.ledna 2011 Tato prezentace je spolufinancována Evropským sociálním fondem a státním rozpočtem
Zpracování náhodného výběru. Ing. Michal Dorda, Ph.D.
Zpracování náhodného výběru popisná statistika Ing. Michal Dorda, Ph.D. Základní pojmy Úkolem statistiky je na základě vlastností výběrového souboru usuzovat o vlastnostech celé populace. Populace(základní
Přednáška 10. Analýza závislosti
Přednáška 10 Analýza závislosti Analýza závislosti dvou kategoriálních proměnných Analýza závislosti v kontingečních tabulkách Analýza závislosti v asociačních tabulkách Simpsonův paradox Analýza závislosti
2. Základní typy dat Spojitá a kategoriální data Základní popisné statistiky Frekvenční tabulky Grafický popis dat
2. Základní typy dat Spojitá a kategoriální data Základní popisné statistiky Frekvenční tabulky Grafický popis dat Anotace Realitu můžeme popisovat různými typy dat, každý z nich se specifickými vlastnostmi,
Popisná statistika. Statistika pro sociology
Popisná statistika Jitka Kühnová Statistika pro sociology 24. září 2014 Jitka Kühnová (GSTAT) Popisná statistika 24. září 2014 1 / 31 Outline 1 Základní pojmy 2 Typy statistických dat 3 Výběrové charakteristiky
SHLUKOVÁ ANALÝZA KRAJŮ ČESKÉ REPUBLIKY DLE VYBRANÝCH CHARAKTERISTIK ZEMĚDĚLSTVÍ V PROGRAMU STATISTICA
SHLUKOVÁ ANALÝZA KRAJŮ ČESKÉ REPUBLIKY DLE VYBRANÝCH CHARAKTERISTIK ZEMĚDĚLSTVÍ V PROGRAMU STATISTICA CLUSTER ANALYSIS OF REGIONS OF CZECH REPUBLIC BY SELECTED CHARACTERISTICS OF AGRICULTURE IN PROGRAM
Cronbachův koeficient α nová adaptovaná metoda uvedení vlastností položkové analýzy deskriptivní induktivní parametrické
Československá psychologie 0009-062X Metodologické požadavky na výzkumné studie METODOLOGICKÉ POŽADAVKY NA VÝZKUMNÉ STUDIE Výzkumné studie mají přinášet nová konkrétní zjištění získaná specifickými výzkumnými
Pojem a úkoly statistiky
Katedra ekonometrie FVL UO Brno kancelář 69a, tel. 973 442029 email:jiri.neubauer@unob.cz Pojem a úkoly statistiky Statistika je věda, která se zabývá získáváním, zpracováním a analýzou dat pro potřeby
Příprava dat a) Kontrola dat
Příprava dat a) Kontrola dat 2 Sběr data? Příprava dat Předpoklady o datech Software obsahuje nástroje pro: Detekci chybějících dat a dat mimo stanovených rozsah Detekci odlehlých a extrémních hodnot Překodování
Měření závislosti statistických dat
5.1 Měření závislosti statistických dat Každý pořádný astronom je schopen vám předpovědět, kde se bude nacházet daná hvězda půl hodiny před půlnocí. Ne každý je však téhož schopen předpovědět v případě
Metody sociálních výzkumů. Velmi skromný úvod do statistiky. Motto: Jsou tři druhy lži-lež prostá, lež odsouzeníhodná a statistika.
Metody sociálních výzkumů Velmi skromný úvod do statistiky. Motto: Jsou tři druhy lži-lež prostá, lež odsouzeníhodná a statistika. Statistika Význam slova-vychází ze slova stát, s jeho administrativou
MĚŘENÍ STATISTICKÝCH ZÁVISLOSTÍ
MĚŘENÍ STATISTICKÝCH ZÁVISLOSTÍ v praxi u jednoho prvku souboru se často zkoumá více veličin, které mohou na sobě různě záviset jednorozměrný výběrový soubor VSS X vícerozměrným výběrovým souborem VSS
SOFTWARE STAT1 A R. Literatura 4. kontrolní skupině (viz obr. 4). Proto budeme testovat shodu středních hodnot µ 1 = µ 2 proti alternativní
ŘEŠENÍ PRAKTICKÝCH ÚLOH UŽITÍM SOFTWARE STAT1 A R Obsah 1 Užití software STAT1 1 2 Užití software R 3 Literatura 4 Příklady k procvičení 6 1 Užití software STAT1 Praktické užití aplikace STAT1 si ukažme
STATISTICKÉ NÁSTROJE A JEJICH VYUŽITÍ PŘI SEGMENTACI TRHU STATISTICAL TOOLS AND THEIR UTILIZATION DURING THE PROCESS OF MARKETING SEGMENTATION
STATISTICKÉ NÁSTROJE A JEJICH VYUŽITÍ PŘI SEGMENTACI TRHU STATISTICAL TOOLS AND THEIR UTILIZATION DURING THE PROCESS OF MARKETING SEGMENTATION Anna Čermáková Michael Rost Abstrakt Cílem příspěvku bylo
INDUKTIVNÍ STATISTIKA
10. SEMINÁŘ INDUKTIVNÍ STATISTIKA 3. HODNOCENÍ ZÁVISLOSTÍ HODNOCENÍ ZÁVISLOSTÍ KVALITATIVNÍ VELIČINY - Vychází se z kombinační (kontingenční) tabulky, která je výsledkem třídění druhého stupně KVANTITATIVNÍ
6. Lineární regresní modely
6. Lineární regresní modely 6.1 Jednoduchá regrese a validace 6.2 Testy hypotéz v lineární regresi 6.3 Kritika dat v regresním tripletu 6.4 Multikolinearita a polynomy 6.5 Kritika modelu v regresním tripletu
4 STATISTICKÁ ANALÝZA VÍCEROZMĚRNÝCH DAT
4 SAISICKÁ ANALÝZA VÍCEROZMĚRNÝCH DA V technické biologické ale také lékařské praxi se často vedle informací obsažených v náhodném skaláru ξ vyskytují i informace obsažené v náhodném vektoru ξ s m složkami
Korelační a regresní analýza. 1. Pearsonův korelační koeficient 2. jednoduchá regresní analýza 3. vícenásobná regresní analýza
Korelační a regresní analýza 1. Pearsonův korelační koeficient 2. jednoduchá regresní analýza 3. vícenásobná regresní analýza Pearsonův korelační koeficient u intervalových a poměrových dat můžeme jako
PRAVDĚPODOBNOST A STATISTIKA. Metoda momentů Metoda maximální věrohodnosti
SP3 Odhady arametrů PRAVDĚPODOBNOST A STATISTIKA Metoda momentů Metoda maimální věrohodnosti SP3 Odhady arametrů Metoda momentů Vychází se z: - P - ravděodobnostní rostor - X je náhodná roměnná s hustotou
ANALÝZA A KLASIFIKACE DAT. Institut biostatistiky a analýz
ANALÝZA A KLASIFIKACE DAT prof. Ing. Jiří Holčík,, CSc. VII. VOLBA A VÝBĚR PŘÍZNAKŮ ZAČÍNÁME kolik a jaké příznaky? málo příznaků možná chyba klasifikace; moc příznaků možná nepřiměřená pracnost, vysoké
Základy popisné statistiky. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
Základy popisné statistiky Anotace Realitu můžeme popisovat různými typy dat, každý z nich se specifickými vlastnostmi, výhodami, nevýhodami a vlastní sadou využitelných statistických metod -od binárních
ZX510 Pokročilé statistické metody geografického výzkumu. Téma: Měření síly asociace mezi proměnnými (korelační analýza)
ZX510 Pokročilé statistické metody geografického výzkumu Téma: Měření síly asociace mezi proměnnými (korelační analýza) Měření síly asociace (korelace) mezi proměnnými Vztah mezi dvěma proměnnými existuje,
Předmluva S o u h rn... 89
Obsah Předmluva... 17 1 Ú v o d... 2 1 1.1 Empirický výzkum a jeho etap y... 23 1.2 Význam teorie pro v ý zk u m... 27 1.2.1 Konstrukty a jejich operacionalizace... 27 1.2.2 Role teorie ve v ý zk u m u...
VÝCHODISKA A PŘÍSTUPY K VYUŽITÍ
České vysoké učení technické v Praze FAKULTA ELEKTROTECHNICKÁ Katedra ekonomiky, manažerství a humanitních věd VÝCHODISKA A PŘÍSTUPY K VYUŽITÍ MATEMATICKÝCH METOD V MARKETINGU Odborná studie Doktorand:
AVDAT Mnohorozměrné metody, metody klasifikace Shluková analýza
AVDAT Mnohorozměrné metody, metody klasifikace Shluková analýza Josef Tvrdík Katedra informatiky Přírodovědecká fakulta Ostravská univerzita Shluková analýza Cílem shlukové analýzy je nalézt v datech podmnožiny
Stručný úvod do vybraných zredukovaných základů statistické analýzy dat
Stručný úvod do vybraných zredukovaných základů statistické analýzy dat Statistika nuda je, má však cenné údaje. Neklesejme na mysli, ona nám to vyčíslí. Z pohádky Princové jsou na draka Populace (základní
Pořízení licencí statistického SW
Pořízení licencí statistického SW Zadavatel: Česká školní inspekce, Fráni Šrámka 37, 150 21 Praha 5 IČO: 00638994 Jednající: Mgr. Tomáš Zatloukal Předpokládaná (a maximální cena): 1.200.000 vč. DPH Typ
Formální konceptuální analýza
moderní metoda analýzy dat 14. října 2011 Osnova Informatika 1 Informatika 2 3 4 Co je to informatika? Co je to informatika? Computer science is no more about computers than astronomy is about telescopes.
Cíl Vyhodnotit současný stav migračně prostorové diferenciace území ČR a migrační tendence na základě údajů za obce ČR
Cíl Vyhodnotit současný stav migračně prostorové diferenciace území ČR a migrační tendence na základě údajů za obce ČR Data Obce ČR 2011 (Veřejná databáze ČSÚ) SPSS IBM, ArcGIS Proměnné: intenzita migračního
Dobývání znalostí z textů text mining
Dobývání znalostí z textů text mining Text mining - data mining na nestrukturovaných textových dokumentech 2 možné přístupy: Předzpracování dat + běžné algoritmy pro data mining Speciální algoritmy pro
Vícerozměrné statistické metody
Vícerozměrné statistické metody Vícerozměrné statistické rozdělení a testy, operace s vektory a maticemi Jiří Jarkovský, Simona Littnerová FSTA: Pokročilé statistické metody Vícerozměrné statistické rozdělení
Cvičení ze statistiky - 3. Filip Děchtěrenko
Cvičení ze statistiky - 3 Filip Děchtěrenko Minule bylo.. Dokončili jsme základní statistiky, typy proměnných a začali analýzu kvalitativních dat Tyhle termíny by měly být známé: Histogram, krabicový graf
Nehierarchické shlukování
Základní informace Následující text je součástí učebních textů předmětu Vícerozměrné statistické metody a je určen zejména pro studenty Matematické biologie. Může být ovšem přínosný i pro další studenty
Hledání optimální polohy stanic a zastávek na tratích regionálního významu
Hledání optimální polohy stanic a zastávek na tratích regionálního významu Václav Novotný 31. 10. 2018 Anotace 1. Dopravní obsluha území tratěmi regionálního významu 2. Cíle výzkumu a algoritmus práce
VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ BRNO UNIVERSITY OF TECHNOLOGY
VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ BRNO UNIVERSITY OF TECHNOLOGY FAKULTA ELEKTROTECHNIKY A KOMUNIKAČNÍCH TECHNOLOGIÍ ÚSTAV AUTOMATIZACE A MĚŘÍCÍ TECHNIKY FACULTY OF ELECTRICAL ENGINEERING AND COMMUNICATION
II. Statistické metody vyhodnocení kvantitativních dat Gejza Dohnal
Základy navrhování průmyslových experimentů DOE II. Statistické metody vyhodnocení kvantitativních dat Gejza Dohnal! Testování statistických hypotéz kvalitativní odezva kvantitativní chí-kvadrát test homogenity,
Statistika pro geografy
Statistika pro geografy 2. Popisná statistika Mgr. David Fiedor 23. února 2015 Osnova 1 2 3 Pojmy - Bodové rozdělení četností Absolutní četnost Absolutní četností hodnoty x j znaku x rozumíme počet statistických
Robust 2014, 19. - 24. ledna 2014, Jetřichovice
K. Hron 1 C. Mert 2 P. Filzmoser 2 1 Katedra matematické analýzy a aplikací matematiky Přírodovědecká fakulta, Univerzita Palackého, Olomouc 2 Department of Statistics and Probability Theory Vienna University
Statgraphics v. 5.0 STATISTICKÁ INDUKCE PRO JEDNOROZMĚRNÁ DATA. Martina Litschmannová 1. Typ proměnné. Požadovaný typ analýzy
Dichotomická proměnná (0-1) Spojitá proměnná STATISTICKÁ INDUKCE PRO JEDNOROZMĚRNÁ DATA Typ proměnné Požadovaný typ analýzy Ověření variability Předpoklady Testy, resp. intervalové odhad Test o rozptylu
Fakulta chemicko-technologická Katedra analytické chemie. 3.2 Metody s latentními proměnnými a klasifikační metody
Fakulta chemicko-technologická Katedra analytické chemie 3.2 Metody s latentními proměnnými a klasifikační metody Vypracoval: Ing. Tomáš Nekola Studium: licenční Datum: 21. 1. 2008 Otázka 1. Vypočtěte
NUMERICKÁ KLASIFIKACE. David Zelený Zpracování dat v ekologii společenstev
NUMERICKÁ KLASIFIKACE http://wfc3.gsfc.nasa.gov PROČ MÁ SMYSL VĚCI KLASIFIKOVAT? vlnová délka (~ ekologický gradient) 172 http://wfc3.gsfc.nasa.gov PROČ MÁ SMYSL VĚCI KLASIFIKOVAT? vlnová délka (~ ekologický
Základy biostatistiky II. Veřejné zdravotnictví 3.LF UK - II
Základy biostatistiky II Veřejné zdravotnictví 3.LF UK - II Teoretické rozložení-matematické modely rozložení Naměřená data Výběrové rozložení Teoretické rozložení 1 e 2 x 2 Teoretické rozložení-matematické
Úkol 1.: Testování nezávislosti nominálních veličin V roce 1950 zkoumali Yule a Kendall barvu očí a vlasů u 6800 mužů.
Téma 10: Analýza závislosti dvou nominálních veličin Úkol 1.: Testování nezávislosti nominálních veličin V roce 1950 zkoumali Yule a Kendall barvu očí a vlasů u 6800 mužů. barva očí barva vlasů světlá
KGG/STG Statistika pro geografy
KGG/STG Statistika pro geografy 9. Korelační analýza Mgr. David Fiedor 20. dubna 2015 Analýza závislostí v řadě geografických disciplín studujeme jevy, u kterých vyšetřujeme nikoliv pouze jednu vlastnost
Fakulta chemicko-technologická Katedra analytické chemie. Licenční studium Statistické zpracování dat při managementu jakosti. Semestrální práce:
UNIVERZITA PARDUBICE Fakulta chemicko-technologická Katedra analytické chemie Licenční studium Statistické zpracování dat při managementu jakosti Semestrální práce: METODY S LATENTNÍMI PROMĚNNÝMI A KLASIFIKAČNÍ