Klasifikace pomocí shlukové analýzy. Hana Řezanková

Podobné dokumenty

Úvodem Dříve les než stromy 3 Operace s maticemi

SHLUKOVÁ ANALÝZA KATEGORIÁLNÍCH DAT

Vícerozměrné statistické metody

Vícerozměrné statistické metody

Cvičná bakalářská zkouška, 1. varianta

5 Vícerozměrná data - kontingenční tabulky, testy nezávislosti, regresní analýza

NADSTAVBOVÝ MODUL MOHSA V1

Mnohorozměrná statistická data

Testování hypotéz a měření asociace mezi proměnnými

Státnice odborné č. 20

Obsah Úvod Kapitola 1 Než začneme Kapitola 2 Práce s hromadnými daty před analýzou

Shluková analýza. Jiří Militky. Analýza experimentálních dat V. Červeně označené slide jsou jen pro doplnění informací a nezkouší se.

Shluková analýza dat a stanovení počtu shluků

Mnohorozměrná statistická data

Základy popisné statistiky. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek

VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ BRNO UNIVERSITY OF TECHNOLOGY

SHLUKOVÁ ANALÝZA KRAJŮ ČESKÉ REPUBLIKY DLE VYBRANÝCH CHARAKTERISTIK ZEMĚDĚLSTVÍ V PROGRAMU STATISTICA

PSY117/454 Statistická analýza dat v psychologii Přednáška 10

Profilování vzorků heroinu s využitím vícerozměrné statistické analýzy

ANALÝZA DAT V R 7. KONTINGENČNÍ TABULKA. Mgr. Markéta Pavlíková Katedra pravděpodobnosti a matematické statistiky MFF UK.

Pojem a úkoly statistiky

UNIVEZITA PARDUBICE FAKULTA EKONOMICKO SPRÁVNÍ. Předzpracování ekonomických dat pomocí metod shlukové analýzy. Pavel Novák

Grafický a číselný popis rozložení dat 3.1 Způsoby zobrazení dat Metody zobrazení kvalitativních a ordinálních dat Metody zobrazení kvan

Základy pravděpodobnosti a statistiky. Popisná statistika

6. Testování statistických hypotéz. KGG/STG Zimní semestr 6. Testování statistických hypotéz

Vícerozměrné metody. PSY117/454 Statistická analýza dat v psychologii Přednáška 12. Schematický úvod

AVDAT Mnohorozměrné metody, metody klasifikace Shluková analýza

NUMERICKÁ KLASIFIKACE. David Zelený Zpracování dat v ekologii společenstev

ZX510 Pokročilé statistické metody geografického výzkumu. Téma: Měření síly asociace mezi proměnnými (korelační analýza)

ANALÝZA A KLASIFIKACE DAT. Institut biostatistiky a analýz

4 STATISTICKÁ ANALÝZA VÍCEROZMĚRNÝCH DAT

Zpracování podkladů pro praktickou část distanční opory pro předmět KZMSA - část hierarchické shlukování Jan Míčka

Renáta Bednárová STATISTIKA PRO EKONOMY

ZX510 Pokročilé statistické metody geografického výzkumu

Příklad 2: Určení cihlářských surovin na základě chemické silikátové analýzy

Kontingenční tabulky, korelační koeficienty

Třídění statistických dat

Statistické metody v ekonomii. Ing. Michael Rost, Ph.D.

MATEMATICKÁ STATISTIKA. Katedra matematiky a didaktiky matematiky Technická univerzita v Liberci

Analýza dat na PC I.

5. Odhady parametrů. KGG/STG Zimní semestr

2. Základní typy dat Spojitá a kategoriální data Základní popisné statistiky Frekvenční tabulky Grafický popis dat

Matematika pro ekonomiku

Statistika pro geografy

Fakulta chemicko-technologická Katedra analytické chemie. 3.2 Metody s latentními proměnnými a klasifikační metody

Popisná statistika. Komentované řešení pomocí MS Excel

Stručný úvod do vybraných zredukovaných základů statistické analýzy dat

Základy biostatistiky II. Veřejné zdravotnictví 3.LF UK - II

Základy popisné statistiky

Popisná statistika kvantitativní veličiny

Kontingenční tabulky. (Analýza kategoriálních dat)

Pravděpodobnost v závislosti na proměnné x je zde modelován pomocí logistického modelu. exp x. x x x. log 1

Popisná statistika. Statistika pro sociology

Cronbachův koeficient α nová adaptovaná metoda uvedení vlastností položkové analýzy deskriptivní induktivní parametrické

charakteristiky KGG/STG Zimní semestr Základní statistické charakteristiky, Teoretická rozdělení 1

Statistika. Diskrétní data. Spojitá data. Charakteristiky polohy. Charakteristiky variability

Zpracování náhodného výběru. Ing. Michal Dorda, Ph.D.

2. Statistická terminologie a vyjadřovací prostředky Statistická terminologie. Statistická jednotka

Vícerozměrné analýzy a jejich využití

Algoritmy pro shlukování prostorových dat

Matematika III. 27. listopadu Vysoká škola báňská - Technická univerzita Ostrava. Matematika III

Úvod do dobývání. znalostí z databází

Mgr. Karla Hrbáčková, Ph.D. Základy kvantitativního výzkumu

MĚŘENÍ STATISTICKÝCH ZÁVISLOSTÍ

UNIVERZITA OBRANY Fakulta ekonomiky a managementu. Aplikace STAT1. Výsledek řešení projektu PRO HORR2011 a PRO GRAM

PŘÍLOHA A SCHOOL BURNOUT INVENTORY PŮVODNÍ VERZE

Epidemiologické ukazatele. lních dat. analýza kategoriáln. Prof. RNDr. Jana Zvárová, DrSc. Záznam epidemiologických dat. a I E

ZÁKLADNÍ STATISTICKÉ CHARAKTERISTIKY

Spokojenost se životem

Fakulta chemicko technologická Katedra analytické chemie

Statistika, Biostatistika pro kombinované studium Letní semestr 2011/2012. Tutoriál č. 4: Exploratorní analýza. Jan Kracík

STATISTIKA. Inovace předmětu. Obsah. 1. Inovace předmětu STATISTIKA Sylabus pro předmět STATISTIKA Pomůcky... 7

Příklad 2: Obsah PCB v játrech zemřelých lidí. Zadání: Data: Program:

Nehierarchické shlukování

Cíl Vyhodnotit současný stav migračně prostorové diferenciace území ČR a migrační tendence na základě údajů za obce ČR

Statistická analýza jednorozměrných dat

METODOLOGIE I - METODOLOGIE KVANTITATIVNÍHO VÝZKUMU

Pracovní adresář. Nápověda. Instalování a načtení nového balíčku. Importování datového souboru. Práce s datovým souborem

Univerzita Pardubice. Fakulta ekonomicko-správní

Statistika. cílem je zjednodušit nějaká data tak, abychom se v nich lépe vyznali důsledkem je ztráta informací!

Statistické vyhodnocování ankety pilotního projektu Kvalita výuky na Západočeské univerzitě v Plzni

Úkol 1.: Testování nezávislosti nominálních veličin V roce 1950 zkoumali Yule a Kendall barvu očí a vlasů u 6800 mužů.

Shluková analýza. 1 Úvod Formulace úlohy Typy metod shlukové analýzy... 2

VYHODNOCOVÁNÍ KVANTITATIVNÍCH DAT (ÚVOD DO PROBLEMATIKY) Metodologie pro ISK

(supervizovaného učení), jako je regrese a klasifikace. V takové situaci pozorujeme jak soubor vlastností

Číselné charakteristiky

Název testu Předpoklady testu Testová statistika Nulové rozdělení. ( ) (p počet odhadovaných parametrů)

Zpracování vícerozměrných dat pomocí analýzy shluků Multidimensional Data Processing by Cluster Analysis

analýza kategoriáln lních dat Prof. RNDr. Jana Zvárová, DrSc. Záznam epidemiologických dat Epidemiologické ukazatele

EKOLOGICKÁ PODOBNOST (ECOLOGICAL RESEMBLANCE) David Zelený Zpracování dat v ekologii společenstev

Čtvercové matice. Čtvercová matice je taková matice, jejíž počet řádků je roven počtu jejích sloupců

Pro zvládnutí této kapitoly budete potřebovat 4-5 hodin studia.

Metody analýzy dat I. Míry a metriky - pokračování

Pokročilé neparametrické metody. Klára Kubošová

Zápočtová práce STATISTIKA I

Kartografické stupnice. Přednáška z předmětu Tematická kartografie (KMA/TKA) Otakar Čerba Západočeská univerzita

Metody sociálních výzkumů. Velmi skromný úvod do statistiky. Motto: Jsou tři druhy lži-lež prostá, lež odsouzeníhodná a statistika.

Test dobré shody v KONTINGENČNÍCH TABULKÁCH

Univerzita Pardubice 8. licenční studium chemometrie

Navrhování experimentů a jejich analýza. Eva Jarošová

Transkript:

Klasifikace pomocí shlukové analýzy Hana Řezanková Vysoká škola ekonomická v Praze

Cíle klasifikace a shlukové analýzy Cílem klasifikace je zařadit adit buď některé z objektů nebo všechny v objekty do skupin. Shlukování: nemáme me žádné informace o existenci skupin a chceme klasifikovat všechny v sledované objekty (chceme vytvořit shluky). Shluková analýza je postup formulovaný jako procedura, pomocí níž objektivně seskupujeme jedince do skupin na základz kladě jejich podobnosti a odlišnosti (zkrácen ceně R. C. Tryon,, 939). 2

Statistické metody pro shlukování Shluková analýza Faktorová analýza Optimáln lní škálování (kategoriáln lní data) Vícerozměrné škálování Korespondenční analýza 3

Shluková analýza nejvýznamnější literatura JARDINE, N., SIBSON, R.: Mathematical Taxonomy.. John Wiley & Sons, New York 97. SNEATH, P. H. A., SOKAL, R. R.: Numerical Taxonomy.. W. H. Freeman & Company, San Francisco,, 973. HARTIGAN, J.A.: Clustering Algorithms.. John Wiley & Sons, New York, 975. GORDON, A. D.: Classification, 2nd ed. Chapman & Hall/CRC, London, 999. 4

Shluková analýza česká literatura LUKASOVÁ,, A., ŠARMANOVÁ,, M.: Metody shlukové analýzy.. SNTL, Praha 985. HEBÁK, P., HUSTOPECKÝ J.: Vícerozměrné statistické metody s aplikacemi,, SNTL/ALFA, Praha, 987. KAHOUNOVÁ,, J.: Měření podobnosti struktur.. Skripta. VŠE, V Praha, 994. 5

Struktura dat pro statistickou analýzu () Příklad vstupní datové matice o rozsahu n x p (objekty x proměnné) Termy Dokumenty abnormalita pacient tlak D 3 5 0 D2 0 2 4 6

Metody shlukové analýzy předměty shlukování: objekty (dokumenty), proměnn nné (termy), objekty i proměnn nné současn asně, kategorie určit ité proměnn nné na základz kladě dvourozměrn rné tabulky četností, kategorie dvou proměnných současn asně. 7

Struktura dat pro statistickou analýzu (2) Příklad dvourozměrné tabulky četností o rozsahu r x c Počet bodů Typ školy 0 24 25 49 50 74 75 00 gymnázium 0 5 20 25 obchodní akademie 4 8 20 2 SPŠ 2 20 8 4 SOU 20 5 5 0 8

Struktura dat pro statistickou analýzu (3) Příklad matice podobností proměnných o rozsahu p x p (obdobně: matice nepodobností (odlišností) objektů o rozsahu n x n, matice podobností objektů o rozsahu n x n, matice nepodobností kategorií o rozsahu r x r nebo c x c). Termy Termy abnormalita pacient tlak abnormalita 0,2 0,5 pacient 0,2 0,3 tlak 0,5 0,3 9

Metody shlukové analýzy klasifikace: hierarchický přístupp stup: aglomerativní polytetický přístup, divizivní monotetický přístup, divizivní polytetický přístup, dvourozměrn rné aglomerativní shlukování; nehierarchický přístup: algoritmus k průměrů (iterativní relokační), fuzzy shluková analýza. 0

Typy výstupů shlukové analýzy Grafické (např. dendrogram), číselné (přiřazen azení čísla shluku každému objektu), a to jako text (číslo( objektu a číslo shluku) nebo nový sloupec v datovém m editoru se vstupními údaji (pouze pro objekty), příp. p p. hodnoty ve speciáln lním m tabulkovém m editoru.

Zjišťov ování podobností a odlišnost ností () Volba míry m (ne)podobnosti závisz visí na typu proměnných nných,, rozlišujeme proměnn nné nomináln lní (profese, typ školy), ordináln lní (hodnocení výrobku), poměrov rové (počet členů domácnosti), intervalové (teplota ve o C), binárn rní (symetrické a asymetrické). 2

Zjišťov ování podobností a odlišnost ností (2) Klasifikace proměnných 3

Zjišťov ování podobností a odlišnost ností (3) Míry podobnosti, nepodobnosti a vzdálenosti; pro vzdálenosti mezi objekty x i, x j, x m platí: d ij 0 d ii = 0 d ij = d ji d ij + d jm d im i, j, m <; n>. 4

Vzdálenosti mezi objekty () 5

Vzdálenosti mezi objekty (2) 6

Míry vzdálenosti (pro kvantitativní data) Euclidean(x i, x j ): p l = ( x il - x jl 2 ) Power(x i, x j, q, r): r p x il - x jl l= q Minkowského metrika (r = q), Hemmingova vzdálenost (r = q = ), euklidovská vzdálenost (r = q = 2), Čebyševova vzdálenost (r = q ). 7

Míry vzdálenosti x2 obvod vnitřního čtverce Hemmingova vzdálenost (manhattanská metrika, m. městských bloků), kružnice euklidovská vzdálenost, obvod vnějšího čtverce Čebyševova vzdálenost. x 8

Míry podobnosti pro kvantitativní data () Korelační koeficient (podobnost proměnných) s kl = s lk ;s ll = r kl = n ( x i= ik xk )( x il n 2 n ( x i= ik x k ) i= ( x x il l ) x l ) 2 Kosinová míra (podobnost objektů) p 2 ( ) p x ( ) il x jl Využívána např. pro zjišťování podobnosti dokumentů D = [0 0 0 0 ] D2 = [0 0 0 0 ] l= p l= x il x jl l= 2 9

Kosinová míra grafické znázorn zornění 20

Míry podobnosti pro kvantitativní data (2) Jaccardův koeficient Diceův koeficient Czekanowského koeficient p l= p p p 2 2 ( xil ) + ( x jl ) l= l= l= 2 p l= x x il x p p 2 ( xil ) + ( x jl ) il x l= l= 2 l p = p l = min( ( x il jl x il + x, x jl jl ) 2 jl ) x il x jl 2

Převod měr m r podobnosti na míry m nepodobnosti Pro korelační koeficient dva přístupy p (podle interpretace hodnoty ): jestliže e hodnota reprezentuje maximáln lní nesouhlas, platí vztah d kl = r kl ; pokud jsou hodnoty a uvažov ovány ekvivalentně 2 jako maximáln lní souhlas, pak d kl = r kl, případnp padně d kl = r kl. Podle první varianty můžm ůžeme převp evést kosinovou míru m sledující podobnost dvou objektů,, tj. d ij = Cosine(x i, x ), j stejně jako Jaccardův, Diceův či Czekanowského koeficient. 22

23 23 Standardizace dat Standardizace dat l l il il s x x z - = l il il s x z = ) ( min ) ( max il i il i il il x x x z = Z-skóry ) ( max il i il il x x z = ) ( min ) ( max ) ( min - il i il i il i il il x x x x z = = = n i il il il x x z

Míry podobnosti pro binárn rní data () Označení četností v kontingenční (asociační) tabulce pro dva objekty Kat. objektu x i 0 Kategorie objektu x j 0 a b c d 24

Míry podobnosti pro binárn rní data (2) míry pro symetrické a asymetrické proměnn nné, míry podobnosti, nepodobnosti a vzdálenosti, koeficienty shody, podmíněné pravděpodobnosti, podobnosti, míry m pro hodnocení předpovědí a ostatní, míry, které jsou funkcemi poměru šancí,, míry, m které jsou funkcemi korelačního koeficientu, a ostatní. 25

Míry podobnosti pro binárn rní data (3) Koeficient souhlasu (pro symetrická binární data) a a + b + + d c + d Jaccardův koeficient (pro asymetrická binární data) a a + b + c Diceův (Czekanowského) koeficient (pro asymetrická binární data) 2a 2a + b + c 26

Míry podobnosti pro binárn rní data (4) funkce poměru šancí Poměr šancí α kl = ad bc = a / b c / d Odvození: a /( a + b) c /( c + d ) : b d /( a /( a + + b) b) = ad bc Yuleovo Q Q kl = ad ad + bc bc = ad ad / / bc bc + = α α kl kl + Yuleův koeficient vazby Y kl = ad ad + bc bc = α α kl kl + 27

Míry podobnosti pro binárn rní data (5) míra pro hodnocení předpovědí Goodmanova a Kruskalova lambda t t2 2( a + b + c + d ) t 2 t = max(a, b) + max(c, d) + max(a, c) + max(b, d) t 2 = max(a + c, b + d) + max(a + b, c + d) 28

Míry podobnosti pro binárn rní data (6) odvození koeficientu lambda Kat. objektu x k 0 Kategorie objektu x l 0 a b c d a + c b + d a + b c + d n = a + b + c + d 2 možné případy: (i) x l je statisticky nezávislá na x k nebo (ii) x l je funkcí x k obdobně pro závislost x k na x l, (iii) a (iv) λ lk = ((n max(a+c, b+d)) (n (max(a, b) + max(c, d)))) / (n max(a+c, b+d)) = (max(a, b) + max(c, d) max(a+c, b+d)) / (n max(a+c, b+d)) λ kl = ((n max(a+b, c+d)) (n (max(a, c) + max(b, d)))) / (n max(a+b, c+d)) = (max(a, c) + max(b, d) max(a+b, c+d)) / (n max(a+b, c+d)) 29

Míry podobnosti pro binárn rní data (7) funkce měr m r pro ordináln lní proměnn nné Sledování dvou proměnných u všech dvojic objektů: a) u. objektu obě hodnoty větší než u 2. objektu konkordantní pár b) u. objektu jedna hodnota větší a jedna menší diskordantní pár c) hodnoty u první proměnné stejné, u druhé různé vázaný pár ke k-té proměnné d) hodnoty u první proměnné různé, u druhé stejné vázaný pár k l-té proměnné Symbol P Q T k T l Význam počet konkordantních párůp počet diskordantních párů počet párůp vázaných ke k počet párůp vázaných k l Výpočet pro 2 x 2 ad bc ab + cd ac + bd 30

Míry podobnosti pro binárn rní data (8) funkce měr m r pro ordináln lní proměnn nné x k 0 0 x l 0 0 n ij a b c d 3

Míry podobnosti pro binárn rní data (9) funkce měr m r pro ordináln lní proměnn nné Goodman-Kruskalova gama Kendallovo tau-b τ b kl = γ = P Q P + Q = ad ad bc + bc = kl Q kl P Q ad bc = ( P + Q + T )( P + Q + T ) ( ad + bc + ab + cd )( ad + bc + ac + bd k l ) Koeficient asociace (korelační koeficient) ad bc r kl = ( a + b)( a + c)( b + d )( c + d ) τb kl = r kl 32

Míry nepodobnosti a vzdálenosti pro binárn rní data Binární Lanceova a Williamsova nemetrická míra nepodobnosti b + c 2a + b + c Euklidovská vzdálenost Binární čtvercová euklidovská vzdálenost = Hammingova vzdálenost b + c b + c 33

Míra podobnosti pro nomináln lní data Koeficient souhlasu s ij p = l = p g ijl g ijl = x il = x jl a g ijl = 0 v ostatních případech Koeficient nesouhlasu (míra nepodobnosti) d ij = s ij 34

Převedení nomináln lních a ordináln lních proměnných na skupinu pomocných binárn rních proměnných Škola P P2 P3 OA 0 0 SPŠ 0 0 SOU 0 0 Odezva P P2 P3 žádná 0 0 0 slabá 0 0 střední 0 silná 35

Míry pro data různých r typů d ij p l = = p w l = Váha w ijl nabývá hodnot 0 (jestliže hodnota x il nebo x jl chybí nebo jsou obě tyto hodnoty rovny nule a l-tá proměnná je asymetrická binární) nebo (jinak). Míra nepodobnosti d ijl závisí na typu l-té proměnné: x l je binární nebo nominální: d ijl = 0 x il = x jl d ijl = v ostatních případech; x l je měřena na intervalové škále, pak je absolutní hodnota z rozdílu hodnot dělena variačním rozpětím l-té proměnné; x l je ordinální nebo je měřena na poměrové škále, pak jsou hodnoty nahrazeny pořadím, které je převedeno do <0;>. ijl w d ijl ijl 36

Analýza v případp padě výskytu chybějících údajů Vynechání páru hodnot (je třeba t použít váhy, viz předchozp edchozí snímek pro data různých typů), vynechání řádku,, kde chybí údaj, nahrazení chybějícího ho údaje aritmetickým průměrem rem (v případp padě kvantitativních dat), vypočítaným nejlépe z blízkých objektů. 37

Míry nepodobnosti kódůk kategoriáln lní proměnn nné Chí-kvadrát míra d( a, b) = ( n E( n E( n ) m ac ac m + c= c= ac )) 2 ( n bc E( n E( n ) bc bc )) 2 E( n ac ) ( ) m n ( n + n ) = c= ac ac m n + = m c ac c= n bc bc E( n bc ) ( ) m n ( n + n ) = c= bc ac m n + = m c ac c= n bc bc m m Koeficient fí φ = d( a, b) / ( n + ) c= ac n c= bc 38

Monotetická shluková analýza () Míra asociace χ 2 kl = 2 ( akldkl bklckl ) ( akl + bkl + ckl + dkl ) ( a + b )( c + d )( a + c )( b + d ) kl kl kl kl kl kl kl kl Pro l-tou proměnnou: 2 2 2 2 2 χ l = χl + χl2 + + χl, l + χl, l +... +... + χlp 2 Jestliže maxχ l 2 l χ 2 0,95 ( p ) pak podle proměnné, pro níž je hodnota největší, rozdělíme skupinu objektů do dvou podskupin. 39

Monotetická shluková analýza (2) Termy M M2 M3 M4 M5 M6 M7 M8 M9 M0 M M2 M3 M4 x.j abnormalities 0 0 0 0 0 0 0 0 0 0 0 0 2 age 0 0 0 0 0 0 0 0 0 0 0 0 2 behavior 0 0 0 0 0 0 0 0 0 0 0 0 2 blood 0 0 0 0 0 0 0 0 0 0 0 0 2 close 0 0 0 0 0 0 0 0 0 0 0 0 2 culture 0 0 0 0 0 0 0 0 0 0 4 depressed 0 0 0 0 0 0 0 0 0 0 4 discharged 0 0 0 0 0 0 0 0 0 0 0 3 disease 0 0 0 0 0 0 0 0 0 0 0 0 2 fast 0 0 0 0 0 0 0 0 0 0 4 generation 0 0 0 0 0 0 0 0 0 0 0 0 2 oestrogen 0 0 0 0 0 0 0 0 0 0 0 0 2 patients 0 0 0 0 0 0 0 0 0 0 4 pressure 0 0 0 0 0 0 0 0 0 0 0 0 2 rats 0 0 0 0 0 0 0 0 0 0 0 0 2 respect 0 0 0 0 0 0 0 0 0 0 0 0 2 rise 0 0 0 0 0 0 0 0 0 0 0 0 2 study 0 0 0 0 0 0 0 0 0 0 0 3 40

Monotetická shluková analýza (3) graf ze systému S-PLUSS M M2 M8 M9 M3 M4 M5 M6 M7 M M0 M2 M3 M4 fast culture rats discharged close abnormalities generation age abnormalities behavior blood patients depressed 0 2 3 4 5 Separation step 4

Aglomerativní hierarchická shluková analýza Aglomerativní algoritmy pro zjišťov ování (ne)podobností mezi shluky (v každém m kroku se spojují 2 shluky, které jsou nejpodobnější ší): metoda průměrn rné vazby pro mezishlukové vzdálenosti, metoda průměrn rné vazby pro vnitroshlukové vzdálenosti, metoda nejbližší šího souseda (prosté vazby), metoda nejvzdálen lenějšího souseda (úplné vazby), centroidní metoda, mediánov nová metoda (vážen ená centroidní), Wardova metoda (spojují se shluky, u nichž je přírůstek p celkového vnitroskupinového součtu čtverců odchylek jednotlivých hodnot od shlukového ho průměru ru minimáln lní). 42

Aglomerativní hierarchická shluková analýza Metoda nejbližší šího souseda: v. kroku: d(c, i C ) j = d ij ve 2. a další ších krocích: ch: d(c i U C, j C m ) = min(d(c, i C m ), d(c, j C m )) 43

Hierarchická shluková analýza Objekt 2 757 3 325 292 4 305 38 290 5 725 796 640 98 6 634 785 49 8 293 7 250 565 305 80 025 232 Objekt 2 3 4 5 6 Převzato: A.D.Gordon, Classification. 44

Hierarchická shluková analýza podobnost objektů (dokumentů) Dendrogram (systém STATISTICA) 45

Hierarchická shluková analýza podobnost kategorií Počet bodů Typ školy 0 24 25 49 50 74 75 00 gymnázium 0 5 20 25 obchodní akademie 4 8 20 2 SPŠ 2 20 8 4 SOU 20 5 5 0 46

Hierarchická shluková analýza podobnost kategorií Dendrogram (výstup z programového systému SPSS) 47

Metoda k-průměrů Objekty jsou rozděleny do k shluků (k nutno zadat) náhodně nebo na základz kladě nějaké další informace, pro každý shluk je vypočítán centroid, zkoumají se postupně všechny objekty: pokud mám zkoumaný objekt nejblíže e k vlastnímu centroidu,, je ponechán n v původním m shluku, v opačném m případp padě je přemístěn n do shluku, k jehož centroidu má nejblíže, e, pro nově vytvořen ené shluky opět t vypočítáme centroidy, celý postup je opakován n tak dlouho, dokud dochází k přesunům. 48

Metoda k-průměrů graf ze systému STATGRAPHICS 49

Fuzzy shluková analýza Metoda vychází z matice nepodobností, pro každý objekt x i a shluk v je počítána míra m u iv. Míra příslup slušnosti musí vyhovovat následujn sledujícím m podmínk nkám:. u iv 0 pro všechna v i =,, n a všechna v v =,, k, k 2. = u = v iv pro všechna i =,, n, Míry u iv definovány ny pomocí minimalizace účelové funkce f: f = k v= n 2 u i, j= iv n j= 2 u u 2 jv 2 jv d ij 50

Fuzzy shluková analýza ukázka výstupu ze systému S-PLUSS Membership coefficients: [,] [,2] [,3] [,4] 0.8377726 0.0486079 0.052558 0.0604 2 0.3667240 0.889442 0.27007 0.32483246 3 0.294982 0.4938528 0.497793 0.22933729 4 0.70340032 0.08802592 0.0422263 0.04354 5 0.3050055 0.763648 0.3749543 0.4844654 6 0.206533 0.744265 0.027046 0.5689008 7 0.03225 0.54440036 0.096395 0.24274258 8 0.06246509 0.2382456 0.045478 0.76856856 9 0.352762 0.8685795 0.295047 0.6892572 0 0.05342565 0.0578222 0.84769237 0.0406976 0.7760270 0.25803546 0.40407748 0.6028437 2 0.0745083 0.686755 0.0935752 0.4579649 3 0.07726509 0.57746 0.05076239 0.7562006 4 0.06748244 0.066235 0.8756495 0.04873909 5 0.2354 0.5677724 0.6300407 0.0098329 6 0.78325272 0.0654768 0.06543273 0.08584288 7 0.3857560 0.37094200 0.32385376 0.6662864 8 0.09865274 0.36006945 0.08654006 0.45473775 5

Fuzzy shluková analýza interpretace výstupu Group : abnormalities,, age, blood,, close, disease, respect Group 2: 2 behavior, depressed,, generation, oestrogen,, rise, study Group 3: close, disease, fast,, generation, pressure, rats,, rise Group 4: age, culture, discharged, patients, study 52

Dvourozměrn rná shluková analýza Příklad: tři t i proměnn nné,, přičemp emž dvě z nich jsou kategoriáln lní.. Pro každou kombinaci jejich kódůk známe pouze jednu hodnotu třett etí proměnn nné,, jejíž hodnoty jsou pouze 0 a. Vychází se z toho, že e na počátku je každý řádek i každý sloupec samostatným shlukem. Nejprve je pro každý pár p řádků vypočítána vzdálenost (b + c) / (a + b + c + d), obdobně pro sloupce. Je spojen pár p r nejpodobnější ších řádků nebo sloupců. Proces pokračuje do stavu, kdy je výsledkem pouze jeden řádek a jeden sloupec. Matice musí být uspořádána tak, aby shluky byly reprezentovány ny jako spojité bloky. 53

Dvourozměrn rná shluková analýza graf ze systému STATISTICA Výsledky dvojrozměrného spojování BLOOD AGE BEHAVIOR DISEASE FAST RISE CULTURE DEPRESSE PATIENTS M M4 M3 M2 M8 M5 M6 M0 M2 M7 M M3 M4 M9 54

Příklad. () Podobnost objektů (dokumentů) 55

Příklad. (2) Podobnost objektů (dokumentů) Vícerozměrné škálování (systém STATISTICA) 56

Příklad 2. () Shlukování binárn rních proměnných Datový soubor tv-survey.sav (systém SPSS) Name any bored critics peers writers director cast Label Any reason There are no other popular shows on at that time The critics still give the show good reviews Other people still watch the show The original screen writers stay with the show The original directors stay with the show The original cast stays with the show 57

Příklad 2. (2) Použit ití faktorové analýzy (SPSS) Rotated Component Matrix a Any reason There are no other popular shows on at that time The critics still give the show good reviews Other people still watch the show The original screenwriters stay with the show The original directors stay with the show The original cast stays with the show Extraction Method: Principal Component Analysis. Rotation Method: Varimax with Kaiser Normalization. Component 2 0,899303 0,20478 0,908244 0,250 0,893847 0,257246 0,877289 0,26878 0,274888 0,823797 0,29060 0,804388 0,7079 0,870635 a Rotation converged in 3 iterations. 58

Příklad 2. (3) Použit ití shlukové analýzy (SPSS) Míra podobnosti = korelační koeficient 59

Příklad 2. (4) Použit ití shlukové analýzy (SPSS) Míra podobnosti = Lance-and-Williams Nonmetric Measure 60

Příklad 2. (5) Použit ití vícerozměrného škálování () 6

Příklad 2. (6) Použit ití vícerozměrného škálování (2) 62

Příklad 3. () Shlukování proměnných Datový soubor GSS93 subset.sav (systém SPSS) Proměnn nná Bigband Blugrass Country Blues Musicals Classicl Folk Jazz Opera Rap Hvymetal Význam Bigband Music Bluegrass Music Country Western Music Blues or R & B Music Broadway Musicals Classical Music Folk Music Jazz Music Opera Rap Music Heavy Metal Music 63

Příklad 3. (2) Shluková analýza (STATISTICA) 64

Příklad 3. (3) Vícerozměrné škálování (SPSS) 65

Příklad 3. (4) Vícerozměrné škálování (SPSS) 66

Příklad 3. (5) Kategoriáln lní analýza hlavních komponent (SPSS) 67

Příklad 3. (6) Korespondenční analýza (SPSS) 68

Příklad 4. () Údaje o dokumentech (Berry( Berry) Termy M M2 M3 M4 M5 M6 M7 M8 M9 M0 M M2 M3 M4 x.j abnormalities 0 0 0 0 0 0 0 0 0 0 0 0 2 age 0 0 0 0 0 0 0 0 0 0 0 0 2 behavior 0 0 0 0 0 0 0 0 0 0 0 0 2 blood 0 0 0 0 0 0 0 0 0 0 0 0 2 close 0 0 0 0 0 0 0 0 0 0 0 0 2 culture 0 0 0 0 0 0 0 0 0 0 4 depressed 0 0 0 0 0 0 0 0 0 0 4 discharged 0 0 0 0 0 0 0 0 0 0 0 3 disease 0 0 0 0 0 0 0 0 0 0 0 0 2 fast 0 0 0 0 0 0 0 0 0 0 4 generation 0 0 0 0 0 0 0 0 0 0 0 0 2 oestrogen 0 0 0 0 0 0 0 0 0 0 0 0 2 patients 0 0 0 0 0 0 0 0 0 0 4 pressure 0 0 0 0 0 0 0 0 0 0 0 0 2 rats 0 0 0 0 0 0 0 0 0 0 0 0 2 respect 0 0 0 0 0 0 0 0 0 0 0 0 2 rise 0 0 0 0 0 0 0 0 0 0 0 0 2 study 0 0 0 0 0 0 0 0 0 0 0 3 69

Příklad 4. (2) výsledek faktorové analýzy 70

Příklad 4. (3) Fuzzy shluková analýza (S-PLUS) Membership coefficients: [,] [,2] [,3] [,4] 0.8377726 0.0486079 0.052558 0.0604 2 0.3667240 0.889442 0.27007 0.32483246 3 0.294982 0.4938528 0.497793 0.22933729 4 0.70340032 0.08802592 0.0422263 0.04354 5 0.3050055 0.763648 0.3749543 0.4844654 6 0.206533 0.744265 0.027046 0.5689008 7 0.03225 0.54440036 0.096395 0.24274258 8 0.06246509 0.2382456 0.045478 0.76856856 9 0.352762 0.8685795 0.295047 0.6892572 0 0.05342565 0.0578222 0.84769237 0.0406976 0.7760270 0.25803546 0.40407748 0.6028437 2 0.0745083 0.686755 0.0935752 0.4579649 3 0.07726509 0.57746 0.05076239 0.7562006 4 0.06748244 0.066235 0.8756495 0.04873909 5 0.2354 0.5677724 0.6300407 0.0098329 6 0.78325272 0.0654768 0.06543273 0.08584288 7 0.3857560 0.37094200 0.32385376 0.6662864 8 0.09865274 0.36006945 0.08654006 0.45473775 7

Příklad 4. (4) Fuzzy shluková analýza (S-PLUS) Group : abnormalities,, age, blood,, close, disease, respect Group 2: 2 behavior, depressed,, generation, oestrogen,, rise, study Group 3: close, disease, fast,, generation, pressure, rats,, rise Group 4: age, culture, discharged, patients, study 72

Příklad 4. (5) Vícerozměrné škálování (STATISTICA) Dimenze 2,6,4,2,0 0,8 0,6 0,4 0,2 0,0-0,2-0,4-0,6-0,8 -,0 -,2 RISE Bodový graf 2D Konečná konfigurace, dimenze vs. dimenze 2 OESTROGE DEPRESSE RATS FAST STUDY PRESSURE CLOSE PATIENTS CULTURE DISCHARG DISEASE AGE BLOOD BEHAVIOR GENERATI ABNORMAL RESPECT -,4-2,0 -,5 -,0-0,5 0,0 0,5,0,5 Dimenze 73