SHLUKOVÁ ANALÝZA KATEGORIÁLNÍCH DAT



Podobné dokumenty
Klasifikace pomocí shlukové analýzy. Hana Řezanková

Úvodem Dříve les než stromy 3 Operace s maticemi

Univerzita Pardubice FAKULTA CHEMICKO TECHNOLOGICKÁ

3.2 Metody s latentními proměnnými a klasifikační metody

Analýza dat z dotazníkových šetření. Zdrojová data: dotazník

Metody analýzy dat I. Míry a metriky - pokračování

Analýza dat z dotazníkových šetření

1.1 Úvod Data Statistická analýza dotazníkových dat 8. Literatura 10

Algoritmy pro shlukování prostorových dat

Shluková analýza dat a stanovení počtu shluků

PSY117/454 Statistická analýza dat v psychologii Přednáška 10

Mnohorozměrná statistická data

5 Vícerozměrná data - kontingenční tabulky, testy nezávislosti, regresní analýza

Obsah Úvod Kapitola 1 Než začneme Kapitola 2 Práce s hromadnými daty před analýzou

Shluková analýza. Jiří Militky. Analýza experimentálních dat V. Červeně označené slide jsou jen pro doplnění informací a nezkouší se.

IBM SPSS Exact Tests. Přesné analýzy malých datových souborů. Nejdůležitější. IBM SPSS Statistics

Testování hypotéz a měření asociace mezi proměnnými

A-PDF Split DEMO : Purchase from to remove the watermark

Vícerozměrné statistické metody

Základy pravděpodobnosti a statistiky. Popisná statistika

Grafický a číselný popis rozložení dat 3.1 Způsoby zobrazení dat Metody zobrazení kvalitativních a ordinálních dat Metody zobrazení kvan

Metody s latentními proměnnými a klasifikační metody

Dynamické programování

ANALÝZA DAT V R 7. KONTINGENČNÍ TABULKA. Mgr. Markéta Pavlíková Katedra pravděpodobnosti a matematické statistiky MFF UK.

Vícerozměrné statistické metody

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz

V praxi pracujeme s daty nominálními (nabývají pouze dvou hodnot), kategoriálními (nabývají více

Stav Svobodný Rozvedený Vdovec. Svobodná Rozvedená Vdova 5 8 6

Mnohorozměrná statistická data

MATEMATICKÁ STATISTIKA. Katedra matematiky a didaktiky matematiky Technická univerzita v Liberci

Vícerozměrné metody. PSY117/454 Statistická analýza dat v psychologii Přednáška 12. Schematický úvod

Státnice odborné č. 20

Statistické metody v ekonomii. Ing. Michael Rost, Ph.D.

Některé potíže s klasifikačními modely v praxi. Nikola Kaspříková KMAT FIS VŠE v Praze

Kontingenční tabulky, korelační koeficienty

Karta předmětu prezenční studium

Zpracování studie týkající se průzkumu vlastností statistických proměnných a vztahů mezi nimi.

Modifikace algoritmu FEKM

Rozhodovací stromy Marta Žambochová

Analýza dat na PC I.

Způsobilost. Data a parametry. Menu: QCExpert Způsobilost

ANALÝZA ZÁVISLOSTI. Martina Litschmannová

STATISTICKÉ METODY. (kombinovaná forma, 8.4., ) Matěj Bulant, Ph.D., VŠEM

Klasifikační metody pro genetická data: regularizace a robustnost

ADDS cvičení 7. Pavlína Kuráňová

UNIVEZITA PARDUBICE FAKULTA EKONOMICKO SPRÁVNÍ. Předzpracování ekonomických dat pomocí metod shlukové analýzy. Pavel Novák

Obsah. Statistika Zpracování informací ze statistického šetření Charakteristiky úrovně, variability a koncentrace kvantitativního znaku

Zpracování podkladů pro praktickou část distanční opory pro předmět KZMSA - část hierarchické shlukování Jan Míčka

Multivariátní porovnání dat - klastrová (shluková) analýza

Třídění statistických dat

Přednáška XI. Asociace ve čtyřpolní tabulce a základy korelační analýzy

Kontingenční tabulky. (Analýza kategoriálních dat)

Spokojenost se životem

Profilování vzorků heroinu s využitím vícerozměrné statistické analýzy

Kontingenční tabulky, korelační koeficienty

Statistická analýza jednorozměrných dat

Zpracování náhodného výběru. Ing. Michal Dorda, Ph.D.

Přednáška 10. Analýza závislosti

2. Základní typy dat Spojitá a kategoriální data Základní popisné statistiky Frekvenční tabulky Grafický popis dat

Popisná statistika. Statistika pro sociology

SHLUKOVÁ ANALÝZA KRAJŮ ČESKÉ REPUBLIKY DLE VYBRANÝCH CHARAKTERISTIK ZEMĚDĚLSTVÍ V PROGRAMU STATISTICA

Cronbachův koeficient α nová adaptovaná metoda uvedení vlastností položkové analýzy deskriptivní induktivní parametrické

Pojem a úkoly statistiky

Příprava dat a) Kontrola dat

Měření závislosti statistických dat

Metody sociálních výzkumů. Velmi skromný úvod do statistiky. Motto: Jsou tři druhy lži-lež prostá, lež odsouzeníhodná a statistika.

MĚŘENÍ STATISTICKÝCH ZÁVISLOSTÍ

SOFTWARE STAT1 A R. Literatura 4. kontrolní skupině (viz obr. 4). Proto budeme testovat shodu středních hodnot µ 1 = µ 2 proti alternativní

STATISTICKÉ NÁSTROJE A JEJICH VYUŽITÍ PŘI SEGMENTACI TRHU STATISTICAL TOOLS AND THEIR UTILIZATION DURING THE PROCESS OF MARKETING SEGMENTATION

INDUKTIVNÍ STATISTIKA

6. Lineární regresní modely

4 STATISTICKÁ ANALÝZA VÍCEROZMĚRNÝCH DAT

Korelační a regresní analýza. 1. Pearsonův korelační koeficient 2. jednoduchá regresní analýza 3. vícenásobná regresní analýza

PRAVDĚPODOBNOST A STATISTIKA. Metoda momentů Metoda maximální věrohodnosti

ANALÝZA A KLASIFIKACE DAT. Institut biostatistiky a analýz

Základy popisné statistiky. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek

ZX510 Pokročilé statistické metody geografického výzkumu. Téma: Měření síly asociace mezi proměnnými (korelační analýza)

Předmluva S o u h rn... 89

VÝCHODISKA A PŘÍSTUPY K VYUŽITÍ

AVDAT Mnohorozměrné metody, metody klasifikace Shluková analýza

Stručný úvod do vybraných zredukovaných základů statistické analýzy dat

Pořízení licencí statistického SW

Formální konceptuální analýza

Cíl Vyhodnotit současný stav migračně prostorové diferenciace území ČR a migrační tendence na základě údajů za obce ČR

Dobývání znalostí z textů text mining

Vícerozměrné statistické metody

Cvičení ze statistiky - 3. Filip Děchtěrenko

Nehierarchické shlukování

Hledání optimální polohy stanic a zastávek na tratích regionálního významu

VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ BRNO UNIVERSITY OF TECHNOLOGY

II. Statistické metody vyhodnocení kvantitativních dat Gejza Dohnal

Statistika pro geografy

Robust 2014, ledna 2014, Jetřichovice

Statgraphics v. 5.0 STATISTICKÁ INDUKCE PRO JEDNOROZMĚRNÁ DATA. Martina Litschmannová 1. Typ proměnné. Požadovaný typ analýzy

Fakulta chemicko-technologická Katedra analytické chemie. 3.2 Metody s latentními proměnnými a klasifikační metody

NUMERICKÁ KLASIFIKACE. David Zelený Zpracování dat v ekologii společenstev

Základy biostatistiky II. Veřejné zdravotnictví 3.LF UK - II

Úkol 1.: Testování nezávislosti nominálních veličin V roce 1950 zkoumali Yule a Kendall barvu očí a vlasů u 6800 mužů.

KGG/STG Statistika pro geografy

Fakulta chemicko-technologická Katedra analytické chemie. Licenční studium Statistické zpracování dat při managementu jakosti. Semestrální práce:

Transkript:

SHLUKOVÁ ANALÝZA KATEGORIÁLNÍCH DAT Hana Řezanková Vysoká škola ekonomická v Praze htt://nb.vse.cz/~rezanka Analýza dat 27/II

Obsah Metody shlukové analýzy Shlukování objektů Shlukování roměnných Shlukování binárních dat Shlukování kategorií Možnosti rogramových systémů Analýza dat 27/II 2

Metody shlukové analýzy Literatura knihy: Řezanková, H., Húsek, D., Snášel, V.: Shluková analýza dat. Professional Publishing, Praha 27, 96 s. Řezanková, H. Analýza dat z dotazníkových šetření.. vyd. Professional Publishing, Praha 27, 22 s. vyjde 3. 2. 27 Hebák, P. a kol. Vícerozměrné statistické metody [3]. 2. vyd. Informatorium, Praha 27. 272 s. Analýza dat 27/II 3

Metody shlukové analýzy Literatura sborníky: Řezanková, H.: Klasifikace omocí shlukové analýzy. Sborník řednášek ze semináře Analýza dat 23/II, TriloByte Statistical Software, Pardubice 24, s. 9-35. Řezanková, H.: Shlukování a velké soubory dat. Sborník řednášek ze semináře Analýza dat 24/II, TriloByte Statistical Software, Pardubice 25, s. 7-9. Analýza dat 27/II 4

Metody shlukové analýzy Shluková analýza je ostu formulovaný jako rocedura, omocí níž objektivně seskuujeme jedince do skuin na základě jejich odobnosti a odlišnosti (zkráceně R. C. Tryon, 939). Cílem shlukové analýzy je nalézt skuiny objektů (v širším smyslu) tak, aby dva objekty z téže skuiny si byly odobnější než dva objekty z různých skuin. Analýza dat 27/II 5

Metody shlukové analýzy Klasifikace tradičních metod: metody rozkladu (artitioning) ro disjunktní shluky (se zadaným očtem shluků) iterativní relokační (řemísťovací) algoritmy metody matematického rogramování grafické zobrazování omocí minimální kostry hybridní klasifikace metody založené na hustotě metody ro řekrývající se shluky Analýza dat 27/II 6

Metody shlukové analýzy Klasifikace tradičních metod: Analýza dat 27/II 7

Metody shlukové analýzy Klasifikace tradičních metod: metody rozkladu shluky evné shlukování,4,2,3,3,3,5 objekty fuzzy shlukování,8,,,4,3,3 částečné fuzzy shlukování,2,3,5 Analýza dat 27/II 8

Metody shlukové analýzy Metody hierarchické shlukové analýzy: monotetické divizivní (S-PLUS) olytetické aglomerativní divizivní (S-PLUS) modifikované metody dvourozměrné shlukování (STATISTICA, SYSTAT) dvoukroková shluková analýza (SPSS) ROCK (RObust Clustering using links) Analýza dat 27/II 9

Metody shlukové analýzy Vstuní data: m-rozměrná ozorování (matice vzorů attern matrix) matice X, rvky x il m roměnných (znaků). znak 2. znak. objekt 2. objekt matice vzdáleností/odobností (matice blízkostí - roximity matrix). objekt 2. objekt. objekt 2. objekt kontingenční tabulka (tabulka četností) X / Y. kategorie 2. kategorie. kategorie 2. kategorie Analýza dat 27/II

Metody shlukové analýzy Měření odobnosti u kategoriálních dat Kategoriální roměnné (znaky, atributy): obor hodnot tvořen kategoriemi dichotomické (symetrické a asymetrické) vícekategoriální nominální (nelze určit ořadí) vícekategoriální ordinální (záleží na ořadí) kvantitativní (lze očítat vzdálenost, není třeba zvláštní ostu) Analýza dat 27/II

Metody shlukové analýzy Měření odobnosti u dichotomických dat obvykle binární data (hodnoty jsou a ) symetrické asymetrické (jedna hodnota důležitější, obvykle ) Postu: běžné míry (ro symetrické) seciální míry (zaměřené na určitý ty) Analýza dat 27/II 2

Metody shlukové analýzy Měření odobnosti u nominálních dat jediná míra ro odobnost objektů (koeficient rosté shody) různé míry ro odobnost roměnných (viz dále) S m l ij S m ijl Škola P P2 P3 řevedení na binární data OA SPŠ SOU Analýza dat 27/II 3

Metody shlukové analýzy Měření odobnosti u ordinálních dat kódovat kategorie od hodnoty jedna a transformace do intervalu ; řevedení na binární data Odezva P P2 P3 žádná slabá střední silná různé míry ro odobnost roměnných (viz dále) Analýza dat 27/II 4

Shlukování objektů Dichotomické roměnné seciální míry hierarchická shluková analýza (stejné jako ro shlukování roměnných) seciální metody monotetická shluková analýza (S-PLUS) Kaufman, L., Rousseeuw, P.: Finding Grous in Data: An Introduction to Cluster Analysis. Wiley, Hoboken 25. Algoritmus MONA (MONothetic Analysis) Analýza dat 27/II 5

Shlukování objektů Algoritmus MONA (MONothetic Analysis) Kategorie znaku x k Kategorie znaku x l a kl b kl c kl d kl q kl a kl d q l q kl k l kl b kl c kl k, 2,, m l, 2,, m rozdělení objektů odle roměnné, ro níž max l (q l ). Analýza dat 27/II 6

Analýza dat 27/II 7 Shlukování objektů Vlastnosti zvířat: Ritter, H. J., Kohonen, T.: Self-Oganizing Semantic Mas. Biological Cybernetics, 6, 989, 24 254. kráva zebra kůň lev tygr kočka vlk es liška orel jestřáb sova husa kachna sleice holub lave létá běhá loví eří hříva koyta srst 4_nohy 2_nohy velké střední malé Zvíře

Shlukování objektů Algoritmus MONA (MONothetic Analysis) Analýza dat 27/II 8

Shlukování objektů Nominální roměnné insirace v třídícím algoritmu (Hartigan): ro každou roměnnou stanovena rahová hodnota shluky jsou vymezeny olíčky vícerozměrné kontingenční tabulky mezi všemi roměnnými Hartigan, J. A.: Clustering Algorithms. John Wiley & Sons, New York 975. Analýza dat 27/II 9

Nominální roměnné Shlukování objektů koeficient rosté shody (STATISTICA) S ijl x il x jl a S ijl jinak řevedení na binární data seciální metody k-modů, k-histogramů, ROCK, CACTUS další ostuy (jiné míry v nových metodách) míra věrohodnostního tyu (log-likelihood) v dvoukrokové shlukové analýze (SPSS) S m l ij S m ijl Analýza dat 27/II 2

Shlukování objektů Metody k-modů, k-histogramů vycházejí z metody k-růměrů, obecně k-centroidů. Centroid je definován jako vektor, ro který latí, že součet vzdáleností jednotlivých objektů ve shluku k tomuto vektoru je minimální (oužije-li se euklidovská vzdálenost, ak je centroidem vektor růměrů a jde o metodu k-růměrů). D m 2 E ( xi, x j ) ( xil x jl ) l x i x j Analýza dat 27/II 2

Shlukování objektů Metody k-modů, k-histogramů Každá l-tá roměnná nabývá hodnot v lu (u, 2,, K l ). Každý shluk je rerezentován m-rozměrným vektorem údajů, který obsahuje buď modální (nejčetněji zastouené) kategorie jednotlivých roměnných (v metodě k-modů), nebo údaje o četnostech kategorií jednotlivých roměnných (v metodě k-histogramů). Používají se řitom seciální míry neodobnosti. Huang, Z.: Extensions to the k-means algorithm to clustering large data sets with categorical values. Data Mining and Knowledge Discovery, 2, 998, 283-34. Analýza dat 27/II 22

Shlukování objektů Metoda ROCK (RObust Clustering using links) založena na rinciu hierarchického shlukování nejdříve se rovede náhodný výběr objektů, které se shlukují do ožadovaného očtu shluků, o čemž následuje řiřazení zbylých objektů (jako v CURE) využívá koncet grafu, ojmy sousedi a vazby Jaccardův koeficient odobnosti ro binární data Guha, S., Rastogi, R., Shim, K. : ROCK: A robust clustering algorithm for categorical attributes. Information Systems, 25(5), 2, 345-366. Analýza dat 27/II 23

Shlukování objektů Metoda CACTUS (CAtegorical ClusTering Using Summaries) atří k metodám založeným na mřížce založena na myšlence solečného výskytu určitých kategorií různých roměnných zda je očet výskytů kategorií v kt a v lu dvou různých roměnných k a l větší než očekávaná četnost Ganti, V., Gehrke, J., Ramakrishnan, R.: CACTUS Clustering categorical data using summaries. Proceedings of the 5th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, ACM Press, San Diego 999, 73-83. Analýza dat 27/II 24

Shlukování objektů Dvoukroková shluková analýza (sytém SPSS) shlukovací vlastnosti CF (Cluster Features), CF-strom míra věrohodnostního tyu (log-likelihood) variabilita ve shlucích se zjišťuje omocí entroie H gl K l u n n glu g n ln n Zhang, T., Ramakrishnan, R., Livny, M.: BIRCH: An efficient data clustering method for very large databases. ACM SIGMOD Record, 25(2), 996, 3-4. glu g Analýza dat 27/II 25

Shlukování objektů Newman, D.J., Hettich, S., Blake, C.L., Merz, C.J.: UCI Reository of machine learning databases. Irvine, CA: University of California, 998 [htt://www.ics.uci.edu/~mlearn/mlreository. html]. Analýza dat 27/II 26

Shlukování objektů Dvoukroková shluková analýza (sytém SPSS) Cluster Distribution v5 Cluster Total 2 3 4 5 Combined % of N Combined % of Total 737 2,4% 2,4% 635 2,% 2,% 296 6,% 6,% 728 2,3% 2,3% 728 2,3% 2,3% 824,%,% 824,% Cluster 2 3 4 5 Combined f t Frequency Percent Frequency Percent 433 3,2% 34 9,% 29 6,% 344 39,8% 296 27,3%,% 728 36,4%,%,% 728 5,2% 4748,% 3376,% Cluster 2 3 4 5 Combined v3 f g s y Frequency Percent Frequency Percent Frequency Percent Frequency Percent 568 24,5% 4,% 876 34,3% 289 8,9% 24,3%,% 86 3,9% 579 7,8% 648 27,9%,%,% 648 2,%,%,% 864 33,8% 864 26,6% 864 37,2%,%,% 864 26,6% 232,% 4,% 2556,% 3244,% Analýza dat 27/II 27

Shlukování objektů Ordinální roměnné kódovat kategorie od hodnoty jedna a transformace do intervalu ; řevést na binární data oužít seciální metody k-mediánů Analýza dat 27/II 28

Shlukování objektů Metoda k-mediánů (SYSTAT) vychází z metody k-centroidů (jde o k-shlukování) Centroid je definován jako vektor, ro který latí, že součet vzdáleností jednotlivých objektů ve shluku k tomuto vektoru je minimální. Použije-li se manhattanská vzdálenost, ak je centroidem vektor mediánů a jde o metodu k-mediánů). D B ( x i, x j ) m l x il x jl x i x j Analýza dat 27/II 29

Shlukování roměnných Nominální roměnné koeficient rosté shody S kli x ik x il a S kli jinak koeficient neshody seciální míry odobnosti řevedení na binární data S kl D kl S kl n i S n kli Analýza dat 27/II 3

Shlukování roměnných Newman, D.J., Hettich, S., Blake, C.L., Merz, C.J.: UCI Reository of machine learning databases. Irvine, CA: University of California, 998 [htt://www.ics.uci.edu/~mlearn/mlreository. html]. Analýza dat 27/II 3

Shlukování roměnných Nominální roměnné koeficient neshody ca-shae sore-rint-color ca-color odor habitat oulation gill-color ca-surface gill-size bruises ring-tye stalk-shae gill-attachment veil-color ring-number gill-sacing stalk-surfacr-above-ring stalk-surface-below-ring stalk-color-above-ring stalk-color-below-ring Stromový diagram ro 2 roměnných Úlné sojení Procentuální neshoda,,2,4,6,8, Vzdálenost sojení Analýza dat 27/II 32

Shlukování roměnných Seciální míry odobnosti vycházejí z kontingenční tabulky Znak Y Znak X. kategorie. kategorie j-tá kategorie S-tá kategorie Celkem n n j n S n i-tá kategorie n i n ij n is n i R-tá kategorie n R n Rj n RS n R Celkem n n j n S n Analýza dat 27/II 33

Shlukování roměnných Seciální míry odobnosti vycházejí z kontingenční tabulky Znak Y Znak X Celkem. kategorie i-tá kategorie R-tá kategorie. kategorie j-tá kategorie S-tá kategorie Celkem i R j ij R j S is i RS S R Analýza dat 27/II 34

Shlukování roměnných Seciální míry odobnosti ro nominální roměnné vycházejí z rinciu analýzy roztylu a oměru determinace S Y X var( Y, X var( Y ) ) var( Y ) var( Y var( Y ) X ) S Y X var( Y ) R i i var( Y ) var( Y x i ) var ( Y ) var( Y, X ) var( Y X ) Analýza dat 27/II 35

Shlukování roměnných Měření variability nominálních roměnných Četnost Znak X absolutní relativní kumulativní relativní x n P x i n i x K n K i K P i Celkem n x Analýza dat 27/II 36

Shlukování roměnných Měření variability nominálních roměnných variační oměr v n /n nominální roztyl nomvar (Giniho koeficient) entroie H K i K i 2 i K i i ln i ( i Mo ( i )) Mo Analýza dat 27/II 37

Analýza dat 27/II 38 Shlukování roměnných Míry závislosti nominálních roměnných variační oměr v /n Mo Mo n λ Mo Mo Mo ) ( ) ( ) ( Y v x Y v Y v i i R i i i R i i X Y Mo Mo Mo Mo Mo Mo R i i R i i Goodmanova- -Kruskalova λ

Shlukování roměnných Míry odobnosti nominálních roměnných PRE P{} - P{2} P{} P{} ( Mo ) P{2} ( Σ imo ) Goodmanova- -Kruskalova λ P{ } 2 ( ) Mo Mo R S P{2} i Mo 2 i j Moj λ sym R S imo i j Moj 2 Mo Mo Mo Mo Analýza dat 27/II 39

Analýza dat 27/II 4 Shlukování roměnných Míry závislosti nominálních roměnných entroie K i i i H ln S j j j S j i ij i ij R i i S j j j i R i i X Y Y H x Y H Y H U ln ln ln ) ( ) ( ) ( informační koeficient (koeficient nejistoty) S j j j R i S j R i S j ij ij j j i i X Y U ln ln ln ln ) ( ) ( ) ( ) ( Y H XY H Y H X H

Analýza dat 27/II 4 Shlukování roměnných Míry odobnosti nominálních roměnných informační koeficient (koeficient nejistoty) ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( 2 XY H Y H X H X H XY H Y H X H Y H U sym ( ) ) ( ) ( ) ( ) ( ) ( 2 Y H X H XY H Y H X H

Shlukování roměnných Míry odobnosti ordinálních roměnných Searmanův koeficient ořadové korelace n( n ) Míry založené na očtech konkordantních a diskordantních árů r S 6 n ( x l l 2 y l ) 2 Analýza dat 27/II 42

Shlukování roměnných Míry odobnosti ordinálních roměnných Míry založené na očtech konkordantních a diskordantních árů C očet konkordantních árů D očet diskordantních árů T X očet árů, které obsahují stejnou hodnotu roměnné X, ale různou hodnotu Y T Y očet árů, které obsahují stejnou hodnotu roměnné Y, ale různou hodnotu X Analýza dat 27/II 43

Shlukování roměnných Míry odobnosti ordinálních roměnných Goodmanova-Kruskalova γ γ C C D D Kendallovo τ b τ b C D ( C D TX )( C D TY ) Kendallovo τ c Stuartovo τ c τ c 2q( C 2 n ( q D) ) q min{r, S} Analýza dat 27/II 44

Analýza dat 27/II 45 Shlukování roměnných Míry odobnosti ordinálních roměnných Somersovo d Y X Y T D C D C d ( ) ( ) Y X X Y sym T T D C D C D C T D C D C T D C d 2 2 2

Shlukování roměnných Hodnoty Kendallova τ b ro dvojice roměnných Blues Musicals Classical Jazz Ra Heavy Metal Blues or R & B Music,,7,5,49,6,2 Broadway Musicals,7,,4,22,3 -, Classical Music,5,4,,23, -, Jazz Music,49,22,23,,6, Ra Music,6,3,,6,,35 Heavy Metal Music,2 -, -,,,35, Analýza dat 27/II 46

Shlukování roměnných Ordinální roměnné koeficient τ b Stromový diagram ro 6 roměnných Úlné sojení Odlišnosti z matice Blues Jazz Musicals Classical Ra Heavy Metal,4,5,6,7,8,9,, Vzdálenost sojení Analýza dat 27/II 47

Shlukování binárních dat Stejné míry odobnosti (neodobnosti) ro objekty i roměnné Kategorie objektu x j Kategorie objektu x i a c b d Analýza dat 27/II 48

Shlukování binárních dat míry ro symetrické a asymetrické roměnn nné míry odobnosti, neodobnosti a vzdálenosti koeficienty shody, odmíněné ravděodobnosti odobnosti míry ro hodnocení ředovědí a ostatní míry, které jsou funkcemi oměru šancí,, míry, m které jsou funkcemi korelačního koeficientu, a ostatní Analýza dat 27/II 49

Shlukování binárních dat Koeficient souhlasu (ro symetrická binární data) Jaccardův koeficient (ro asymetrická binární data) a a d b c d a a b c Diceův (Czekanowského) koeficient (ro asymetrická binární data) Russelův a Raoův RR (ro asymetrická binární data) 2a 2a b c a a b c d Analýza dat 27/II 5

Shlukování binárních dat Sokalův a Sneathův koeficient, SoSn 2( a d) 2( a d) b c Rogersův a Tanimotoův koef., RT a a d d 2( b c) Analýza dat 27/II 5

Shlukování binárních dat Funkce oměru šancí Poměr šancí ψ ad bc Yuleovo Q Q ad ad bc bc ad ad / bc / bc ψ ψ Yuleův koeficient vazby Y ad ad bc bc ψ ψ Analýza dat 27/II 52

Shlukování binárních dat Míry ro hodnocení ředovědí Goodmanova-Kruskalova λ Anderbergovo D t t2 2( a b c d ) t 2 2( a t t2 b c d ) t max(a, b) max(c, d) max(a, c) max(b, d) t 2 max(a c, b d) max(a b, c d) Analýza dat 27/II 53

Shlukování binárních dat Míry ro ordinální roměnné Goodmanova-Kruskalova γ γ C C D D ad ad bc bc Q Kendallovo τ b τ b C D ( C D TY )( C D TX ) ad bc ( ad bc ab cd )( ad bc ac bd ) Analýza dat 27/II 54

Shlukování binárních dat Míry ro kvantitativní roměnné Koeficient asociace (korelační koeficient) ad bc r XY ( a b)( a c)( b d )( c d ) τ r b XY Analýza dat 27/II 55

Shlukování binárních dat Míry vzdálenosti a neodobnosti Euklidovská vzdálenost Binární čtvercová euklidovská vzdálenost Hammingova vzdálenost Binární Lanceova a Williamsova nemetrická míra neodobnosti b c b c b c 2a b c Analýza dat 27/II 56

Shlukování binárních dat Dendrogram olytetické aglomerativní shlukování Stromový diagram ro 6 říadů Úlné sojení Euklidovská vzdálenost holub sleice kachna husa sova jestřáb orel liška vlk es kočka tygr lev kůň zebra kráva,,5,,5 2, 2,5 3, 3,5 Vzdálenost sojení Analýza dat 27/II 57

Shlukování binárních dat Banner lot olytetické divizivní shlukování Analýza dat 27/II 58

Shlukování binárních dat Vícerozměrné škálování,8 Bodový graf 2D Konečná konfigurace, dimenze vs. dimenze 2,6,4 HUSA KACHNA SLEPICE KRÁVA ZEBRA KŮN Dimenze 2,2, -,2 HOLUB JESTŘÁB SOVA KOČKA TYGR LEV -,4 -,6 OREL LIŠKA PES VLK -,8 -,4 -,2 -, -,8 -,6 -,4 -,2,,2,4,6,8,,2,4 Dimenze Analýza dat 27/II 59

Shlukování kategorií Míry neodobnosti kategorií Pearsonova chí-kvadrát statistika χ S 2 S 2 nij mij ) ( ni j m 2 i j ) j Koeficient φ i ij i j mij ni ni ( m ij ϕ m j i j 2 χ n i n i m i j n n i ( n n ( n i ij n n n i ) i j ) Analýza dat 27/II 6

Shlukování kategorií Matice neodobností (chí-kvadrát míra) ro oblasti interview na základě úrovně vzdělání Region 2 3 4 5 6 7 8 9 :New England, 2,8 3,32 2,65 3,33 4,76,9,95 2,6 2:Middle Atlantic 2,8,,55,3,9 3,82,32 2,2,56 3:E. Nor Central 3,32,55,,44 2,62 5,6,62 2,48 2,25 4:W. Nor Central 2,65,3,44,,56 3,66,23,88,6 5:South Atlantic 3,33,9 2,62,56, 3,6 2,8 2,42 2,53 6:E. Sou Central 4,76 3,82 5,6 3,66 3,6, 4,39 3,54 4,6 7:W. Sou Central,9,32,62,23 2,8 4,39,,3,8 8:Mountain,95 2,2 2,48,88 2,42 3,54,3,,5 9:Pacifik 2,6,56 2,25,6 2,53 4,6,8,5, Analýza dat 27/II 6

Shlukování kategorií Dendrogram olytetické aglomerativní shlukování Stromový diagram ro 9 objektů Úlné sojení Odlišnosti z matice NEW ENGL W. SOU C PACIFIC MOUNTAIN MIDDLE A SOUTH A E. NOR C W. NOR C E. SOU C 2 3 4 5 6 Vzdálenost sojení Analýza dat 27/II 62

Shlukování kategorií Jiné metody (grafické zobrazování) Koresondenční analýza Vícerozměrné škálování Analýza dat 27/II 63

Shlukování kategorií Výsledky růzkumu cestovní kanceláře Count Ty zájezdu Celkem hory obyt s výlety oznávací zájezd turistika Otimální ubytování aartman bungalov hotel stan Celkem 6 9 5 59 79 89 28 23 33 353 3 28 66 8 6 8 8 27 59 2 68 244 85 69 Matice neodobností (míra chí-kvadrát) Case :hory 2:obyt s výlety 3:oznávací zájezd 4:turistika This is a dissimilarity matrix Proximity Matrix Chi-square between Sets of Frequencies 2:obyt 3:oznávací :hory s výlety zájezd 4:turistika, 3,2 3,368 3,62 3,2,,7 9,65 3,368,7, 3,367 3,62 9,65 3,367, Analýza dat 27/II 64

Shlukování kategorií Matice neodobností (míra chí-kvadrát) Case :hory 2:obyt s výlety 3:oznávací zájezd 4:turistika This is a dissimilarity matrix Proximity Matrix Chi-square between Sets of Frequencies 2:obyt 3:oznávací :hory s výlety zájezd 4:turistika, 3,2 3,368 3,62 3,2,,7 9,65 3,368,7, 3,367 3,62 9,65 3,367, Postu ři shlukování (jednoduché sojení) Agglomeration Schedule Stage 2 3 Stage Cluster First Cluster Combined Aears Cluster Cluster 2 Coefficients Cluster Cluster 2 Next Stage 3 4 3,367 2 3 3,368 3 2 9,65 2 Analýza dat 27/II 65

Shlukování kategorií Výsledky růzkumu cestovní kanceláře Count Ty zájezdu Celkem hory obyt s výlety oznávací zájezd turistika Otimální ubytování aartman bungalov hotel stan Celkem 6 9 5 59 79 89 28 23 33 353 3 28 66 8 6 8 8 27 59 2 68 244 85 69 Matice neodobností (míra chí-kvadrát) Proximity Matrix Case aartman bungalov hotel stan Matrix File Inut aartman bungalov hotel stan, 5,439,97,52 5,439, 8,2 5,97,97 8,2, 3,754,52 5,97 3,754, Analýza dat 27/II 66

Shlukování kategorií Matice neodobností (míra chí-kvadrát) Proximity Matrix Case aartman bungalov hotel stan Matrix File Inut aartman bungalov hotel stan, 5,439,97,52 5,439, 8,2 5,97,97 8,2, 3,754,52 5,97 3,754, Postu ři shlukování (růměrné sojení) Agglomeration Schedule Stage 2 3 Stage Cluster First Cluster Combined Aears Cluster Cluster 2 Coefficients Cluster Cluster 2 Next Stage 3,97 3 2 4 5,97 3 2 9,427 2 Analýza dat 27/II 67

Shlukování kategorií Vícerozměrné škálování Common Sace Common Sace Dimension 2,2,, -, -,2 -,3 hory turistika oznávací_zájezd -,5,,5 Dimension obyt_s_výlety, Dimension 2,2,, -, -,2 -,3 -,4 -, hotel aartman bungalov -,5,,5 Dimension stan, Analýza dat 27/II 68

Shlukování kategorií Koresondenční analýza Symmetrical Normalization Otimální ubytování Ty zájezdu,5 turistika Dimension 2,,5, -,5 hory -,5 bungalov aartman stan obyt s výlety hotel oznávací zájezd -, -,5,,5, Dimension Analýza dat 27/II 69

Možnosti rogramových systémů Seciální míry ro hierarchickou shlukovou analýzu, res. k-shlukování (růměry, mediány) Koef. neshody (STATISTICA, SYSTAT ro HSA) Míra ro ordinální roměnné ro HSA a k-shluk. SYSTAT (gama) Míry ro binární data ro HSA SPSS (26 měr) STATISTICA (korelační koeficient koef. asociace) SYSTAT (Jaccardův koeficient, Anderbergovo D, RR, SoSn, RT, gama Yulovo Q, korel. koeficient) Analýza dat 27/II 7

Možnosti rogramových systémů Míry ro různé tyy roměnných (včetně nominálních) ve seciální metodě Míra věrohodnostního tyu ve dvoukrokové shlukové analýze (SPSS) Míry ro shlukování kategorií ro HSA Chí-kvadrát, fí-kvadrát (SPSS, SYSTAT i ro k-shlukování, tj. k-růměrů a k-mediánů) Seciální metody Monotetická shluková analýza (S-PLUS) Metoda k-mediánů (SYSTAT) Analýza dat 27/II 7

Možnosti rogramových systémů Vytvoření matice odobností (neodobností) SPSS: Pearsonův a Searmanův korelační koeficient, Kendallovo τ b SYSTAT: koef. fí, Cramérovo V, kontingenční koef., Goodmanova-Kruskalova λ, koef. nejistoty, Pearsonův a Searmanův korelační koeficient, Kendallovo τ b, Stuartovo τ c, Goodmanova- Kruskalova γ, 3 měr ro dichotomická data Analýza dat 27/II 72

Děkuji Vám za ozornost Analýza dat 27/II 73