Klasifikace pomocí shlukové analýzy. Hana Řezanková

Rozměr: px
Začít zobrazení ze stránky:

Download "Klasifikace pomocí shlukové analýzy. Hana Řezanková"

Transkript

1 Klasifikace pomocí shlukové analýzy Hana Řezanková Vysoká škola ekonomická v Praze

2 Cíle klasifikace a shlukové analýzy Cílem klasifikace je zařadit adit buď některé z objektů nebo všechny v objekty do skupin. Shlukování: nemáme me žádné informace o existenci skupin a chceme klasifikovat všechny v sledované objekty (chceme vytvořit shluky). Shluková analýza je postup formulovaný jako procedura, pomocí níž objektivně seskupujeme jedince do skupin na základz kladě jejich podobnosti a odlišnosti (zkrácen ceně R. C. Tryon,, 939). 2

3 Statistické metody pro shlukování Shluková analýza Faktorová analýza Optimáln lní škálování (kategoriáln lní data) Vícerozměrné škálování Korespondenční analýza 3

4 Shluková analýza nejvýznamnější literatura JARDINE, N., SIBSON, R.: Mathematical Taxonomy.. John Wiley & Sons, New York 97. SNEATH, P. H. A., SOKAL, R. R.: Numerical Taxonomy.. W. H. Freeman & Company, San Francisco,, 973. HARTIGAN, J.A.: Clustering Algorithms.. John Wiley & Sons, New York, 975. GORDON, A. D.: Classification, 2nd ed. Chapman & Hall/CRC, London,

5 Shluková analýza česká literatura LUKASOVÁ,, A., ŠARMANOVÁ,, M.: Metody shlukové analýzy.. SNTL, Praha 985. HEBÁK, P., HUSTOPECKÝ J.: Vícerozměrné statistické metody s aplikacemi,, SNTL/ALFA, Praha, 987. KAHOUNOVÁ,, J.: Měření podobnosti struktur.. Skripta. VŠE, V Praha,

6 Struktura dat pro statistickou analýzu () Příklad vstupní datové matice o rozsahu n x p (objekty x proměnné) Termy Dokumenty abnormalita pacient tlak D D

7 Metody shlukové analýzy předměty shlukování: objekty (dokumenty), proměnn nné (termy), objekty i proměnn nné současn asně, kategorie určit ité proměnn nné na základz kladě dvourozměrn rné tabulky četností, kategorie dvou proměnných současn asně. 7

8 Struktura dat pro statistickou analýzu (2) Příklad dvourozměrné tabulky četností o rozsahu r x c Počet bodů Typ školy gymnázium obchodní akademie SPŠ SOU

9 Struktura dat pro statistickou analýzu (3) Příklad matice podobností proměnných o rozsahu p x p (obdobně: matice nepodobností (odlišností) objektů o rozsahu n x n, matice podobností objektů o rozsahu n x n, matice nepodobností kategorií o rozsahu r x r nebo c x c). Termy Termy abnormalita pacient tlak abnormalita 0,2 0,5 pacient 0,2 0,3 tlak 0,5 0,3 9

10 Metody shlukové analýzy klasifikace: hierarchický přístupp stup: aglomerativní polytetický přístup, divizivní monotetický přístup, divizivní polytetický přístup, dvourozměrn rné aglomerativní shlukování; nehierarchický přístup: algoritmus k průměrů (iterativní relokační), fuzzy shluková analýza. 0

11 Typy výstupů shlukové analýzy Grafické (např. dendrogram), číselné (přiřazen azení čísla shluku každému objektu), a to jako text (číslo( objektu a číslo shluku) nebo nový sloupec v datovém m editoru se vstupními údaji (pouze pro objekty), příp. p p. hodnoty ve speciáln lním m tabulkovém m editoru.

12 Zjišťov ování podobností a odlišnost ností () Volba míry m (ne)podobnosti závisz visí na typu proměnných nných,, rozlišujeme proměnn nné nomináln lní (profese, typ školy), ordináln lní (hodnocení výrobku), poměrov rové (počet členů domácnosti), intervalové (teplota ve o C), binárn rní (symetrické a asymetrické). 2

13 Zjišťov ování podobností a odlišnost ností (2) Klasifikace proměnných 3

14 Zjišťov ování podobností a odlišnost ností (3) Míry podobnosti, nepodobnosti a vzdálenosti; pro vzdálenosti mezi objekty x i, x j, x m platí: d ij 0 d ii = 0 d ij = d ji d ij + d jm d im i, j, m <; n>. 4

15 Vzdálenosti mezi objekty () 5

16 Vzdálenosti mezi objekty (2) 6

17 Míry vzdálenosti (pro kvantitativní data) Euclidean(x i, x j ): p l = ( x il - x jl 2 ) Power(x i, x j, q, r): r p x il - x jl l= q Minkowského metrika (r = q), Hemmingova vzdálenost (r = q = ), euklidovská vzdálenost (r = q = 2), Čebyševova vzdálenost (r = q ). 7

18 Míry vzdálenosti x2 obvod vnitřního čtverce Hemmingova vzdálenost (manhattanská metrika, m. městských bloků), kružnice euklidovská vzdálenost, obvod vnějšího čtverce Čebyševova vzdálenost. x 8

19 Míry podobnosti pro kvantitativní data () Korelační koeficient (podobnost proměnných) s kl = s lk ;s ll = r kl = n ( x i= ik xk )( x il n 2 n ( x i= ik x k ) i= ( x x il l ) x l ) 2 Kosinová míra (podobnost objektů) p 2 ( ) p x ( ) il x jl Využívána např. pro zjišťování podobnosti dokumentů D = [ ] D2 = [ ] l= p l= x il x jl l= 2 9

20 Kosinová míra grafické znázorn zornění 20

21 Míry podobnosti pro kvantitativní data (2) Jaccardův koeficient Diceův koeficient Czekanowského koeficient p l= p p p 2 2 ( xil ) + ( x jl ) l= l= l= 2 p l= x x il x p p 2 ( xil ) + ( x jl ) il x l= l= 2 l p = p l = min( ( x il jl x il + x, x jl jl ) 2 jl ) x il x jl 2

22 Převod měr m r podobnosti na míry m nepodobnosti Pro korelační koeficient dva přístupy p (podle interpretace hodnoty ): jestliže e hodnota reprezentuje maximáln lní nesouhlas, platí vztah d kl = r kl ; pokud jsou hodnoty a uvažov ovány ekvivalentně 2 jako maximáln lní souhlas, pak d kl = r kl, případnp padně d kl = r kl. Podle první varianty můžm ůžeme převp evést kosinovou míru m sledující podobnost dvou objektů,, tj. d ij = Cosine(x i, x ), j stejně jako Jaccardův, Diceův či Czekanowského koeficient. 22

23 23 23 Standardizace dat Standardizace dat l l il il s x x z - = l il il s x z = ) ( min ) ( max il i il i il il x x x z = Z-skóry ) ( max il i il il x x z = ) ( min ) ( max ) ( min - il i il i il i il il x x x x z = = = n i il il il x x z

24 Míry podobnosti pro binárn rní data () Označení četností v kontingenční (asociační) tabulce pro dva objekty Kat. objektu x i 0 Kategorie objektu x j 0 a b c d 24

25 Míry podobnosti pro binárn rní data (2) míry pro symetrické a asymetrické proměnn nné, míry podobnosti, nepodobnosti a vzdálenosti, koeficienty shody, podmíněné pravděpodobnosti, podobnosti, míry m pro hodnocení předpovědí a ostatní, míry, které jsou funkcemi poměru šancí,, míry, m které jsou funkcemi korelačního koeficientu, a ostatní. 25

26 Míry podobnosti pro binárn rní data (3) Koeficient souhlasu (pro symetrická binární data) a a + b + + d c + d Jaccardův koeficient (pro asymetrická binární data) a a + b + c Diceův (Czekanowského) koeficient (pro asymetrická binární data) 2a 2a + b + c 26

27 Míry podobnosti pro binárn rní data (4) funkce poměru šancí Poměr šancí α kl = ad bc = a / b c / d Odvození: a /( a + b) c /( c + d ) : b d /( a /( a + + b) b) = ad bc Yuleovo Q Q kl = ad ad + bc bc = ad ad / / bc bc + = α α kl kl + Yuleův koeficient vazby Y kl = ad ad + bc bc = α α kl kl + 27

28 Míry podobnosti pro binárn rní data (5) míra pro hodnocení předpovědí Goodmanova a Kruskalova lambda t t2 2( a + b + c + d ) t 2 t = max(a, b) + max(c, d) + max(a, c) + max(b, d) t 2 = max(a + c, b + d) + max(a + b, c + d) 28

29 Míry podobnosti pro binárn rní data (6) odvození koeficientu lambda Kat. objektu x k 0 Kategorie objektu x l 0 a b c d a + c b + d a + b c + d n = a + b + c + d 2 možné případy: (i) x l je statisticky nezávislá na x k nebo (ii) x l je funkcí x k obdobně pro závislost x k na x l, (iii) a (iv) λ lk = ((n max(a+c, b+d)) (n (max(a, b) + max(c, d)))) / (n max(a+c, b+d)) = (max(a, b) + max(c, d) max(a+c, b+d)) / (n max(a+c, b+d)) λ kl = ((n max(a+b, c+d)) (n (max(a, c) + max(b, d)))) / (n max(a+b, c+d)) = (max(a, c) + max(b, d) max(a+b, c+d)) / (n max(a+b, c+d)) 29

30 Míry podobnosti pro binárn rní data (7) funkce měr m r pro ordináln lní proměnn nné Sledování dvou proměnných u všech dvojic objektů: a) u. objektu obě hodnoty větší než u 2. objektu konkordantní pár b) u. objektu jedna hodnota větší a jedna menší diskordantní pár c) hodnoty u první proměnné stejné, u druhé různé vázaný pár ke k-té proměnné d) hodnoty u první proměnné různé, u druhé stejné vázaný pár k l-té proměnné Symbol P Q T k T l Význam počet konkordantních párůp počet diskordantních párů počet párůp vázaných ke k počet párůp vázaných k l Výpočet pro 2 x 2 ad bc ab + cd ac + bd 30

31 Míry podobnosti pro binárn rní data (8) funkce měr m r pro ordináln lní proměnn nné x k 0 0 x l 0 0 n ij a b c d 3

32 Míry podobnosti pro binárn rní data (9) funkce měr m r pro ordináln lní proměnn nné Goodman-Kruskalova gama Kendallovo tau-b τ b kl = γ = P Q P + Q = ad ad bc + bc = kl Q kl P Q ad bc = ( P + Q + T )( P + Q + T ) ( ad + bc + ab + cd )( ad + bc + ac + bd k l ) Koeficient asociace (korelační koeficient) ad bc r kl = ( a + b)( a + c)( b + d )( c + d ) τb kl = r kl 32

33 Míry nepodobnosti a vzdálenosti pro binárn rní data Binární Lanceova a Williamsova nemetrická míra nepodobnosti b + c 2a + b + c Euklidovská vzdálenost Binární čtvercová euklidovská vzdálenost = Hammingova vzdálenost b + c b + c 33

34 Míra podobnosti pro nomináln lní data Koeficient souhlasu s ij p = l = p g ijl g ijl = x il = x jl a g ijl = 0 v ostatních případech Koeficient nesouhlasu (míra nepodobnosti) d ij = s ij 34

35 Převedení nomináln lních a ordináln lních proměnných na skupinu pomocných binárn rních proměnných Škola P P2 P3 OA 0 0 SPŠ 0 0 SOU 0 0 Odezva P P2 P3 žádná slabá 0 0 střední 0 silná 35

36 Míry pro data různých r typů d ij p l = = p w l = Váha w ijl nabývá hodnot 0 (jestliže hodnota x il nebo x jl chybí nebo jsou obě tyto hodnoty rovny nule a l-tá proměnná je asymetrická binární) nebo (jinak). Míra nepodobnosti d ijl závisí na typu l-té proměnné: x l je binární nebo nominální: d ijl = 0 x il = x jl d ijl = v ostatních případech; x l je měřena na intervalové škále, pak je absolutní hodnota z rozdílu hodnot dělena variačním rozpětím l-té proměnné; x l je ordinální nebo je měřena na poměrové škále, pak jsou hodnoty nahrazeny pořadím, které je převedeno do <0;>. ijl w d ijl ijl 36

37 Analýza v případp padě výskytu chybějících údajů Vynechání páru hodnot (je třeba t použít váhy, viz předchozp edchozí snímek pro data různých typů), vynechání řádku,, kde chybí údaj, nahrazení chybějícího ho údaje aritmetickým průměrem rem (v případp padě kvantitativních dat), vypočítaným nejlépe z blízkých objektů. 37

38 Míry nepodobnosti kódůk kategoriáln lní proměnn nné Chí-kvadrát míra d( a, b) = ( n E( n E( n ) m ac ac m + c= c= ac )) 2 ( n bc E( n E( n ) bc bc )) 2 E( n ac ) ( ) m n ( n + n ) = c= ac ac m n + = m c ac c= n bc bc E( n bc ) ( ) m n ( n + n ) = c= bc ac m n + = m c ac c= n bc bc m m Koeficient fí φ = d( a, b) / ( n + ) c= ac n c= bc 38

39 Monotetická shluková analýza () Míra asociace χ 2 kl = 2 ( akldkl bklckl ) ( akl + bkl + ckl + dkl ) ( a + b )( c + d )( a + c )( b + d ) kl kl kl kl kl kl kl kl Pro l-tou proměnnou: χ l = χl + χl2 + + χl, l + χl, l χlp 2 Jestliže maxχ l 2 l χ 2 0,95 ( p ) pak podle proměnné, pro níž je hodnota největší, rozdělíme skupinu objektů do dvou podskupin. 39

40 Monotetická shluková analýza (2) Termy M M2 M3 M4 M5 M6 M7 M8 M9 M0 M M2 M3 M4 x.j abnormalities age behavior blood close culture depressed discharged disease fast generation oestrogen patients pressure rats respect rise study

41 Monotetická shluková analýza (3) graf ze systému S-PLUSS M M2 M8 M9 M3 M4 M5 M6 M7 M M0 M2 M3 M4 fast culture rats discharged close abnormalities generation age abnormalities behavior blood patients depressed Separation step 4

42 Aglomerativní hierarchická shluková analýza Aglomerativní algoritmy pro zjišťov ování (ne)podobností mezi shluky (v každém m kroku se spojují 2 shluky, které jsou nejpodobnější ší): metoda průměrn rné vazby pro mezishlukové vzdálenosti, metoda průměrn rné vazby pro vnitroshlukové vzdálenosti, metoda nejbližší šího souseda (prosté vazby), metoda nejvzdálen lenějšího souseda (úplné vazby), centroidní metoda, mediánov nová metoda (vážen ená centroidní), Wardova metoda (spojují se shluky, u nichž je přírůstek p celkového vnitroskupinového součtu čtverců odchylek jednotlivých hodnot od shlukového ho průměru ru minimáln lní). 42

43 Aglomerativní hierarchická shluková analýza Metoda nejbližší šího souseda: v. kroku: d(c, i C ) j = d ij ve 2. a další ších krocích: ch: d(c i U C, j C m ) = min(d(c, i C m ), d(c, j C m )) 43

44 Hierarchická shluková analýza Objekt Objekt Převzato: A.D.Gordon, Classification. 44

45 Hierarchická shluková analýza podobnost objektů (dokumentů) Dendrogram (systém STATISTICA) 45

46 Hierarchická shluková analýza podobnost kategorií Počet bodů Typ školy gymnázium obchodní akademie SPŠ SOU

47 Hierarchická shluková analýza podobnost kategorií Dendrogram (výstup z programového systému SPSS) 47

48 Metoda k-průměrů Objekty jsou rozděleny do k shluků (k nutno zadat) náhodně nebo na základz kladě nějaké další informace, pro každý shluk je vypočítán centroid, zkoumají se postupně všechny objekty: pokud mám zkoumaný objekt nejblíže e k vlastnímu centroidu,, je ponechán n v původním m shluku, v opačném m případp padě je přemístěn n do shluku, k jehož centroidu má nejblíže, e, pro nově vytvořen ené shluky opět t vypočítáme centroidy, celý postup je opakován n tak dlouho, dokud dochází k přesunům. 48

49 Metoda k-průměrů graf ze systému STATGRAPHICS 49

50 Fuzzy shluková analýza Metoda vychází z matice nepodobností, pro každý objekt x i a shluk v je počítána míra m u iv. Míra příslup slušnosti musí vyhovovat následujn sledujícím m podmínk nkám:. u iv 0 pro všechna v i =,, n a všechna v v =,, k, k 2. = u = v iv pro všechna i =,, n, Míry u iv definovány ny pomocí minimalizace účelové funkce f: f = k v= n 2 u i, j= iv n j= 2 u u 2 jv 2 jv d ij 50

51 Fuzzy shluková analýza ukázka výstupu ze systému S-PLUSS Membership coefficients: [,] [,2] [,3] [,4]

52 Fuzzy shluková analýza interpretace výstupu Group : abnormalities,, age, blood,, close, disease, respect Group 2: 2 behavior, depressed,, generation, oestrogen,, rise, study Group 3: close, disease, fast,, generation, pressure, rats,, rise Group 4: age, culture, discharged, patients, study 52

53 Dvourozměrn rná shluková analýza Příklad: tři t i proměnn nné,, přičemp emž dvě z nich jsou kategoriáln lní.. Pro každou kombinaci jejich kódůk známe pouze jednu hodnotu třett etí proměnn nné,, jejíž hodnoty jsou pouze 0 a. Vychází se z toho, že e na počátku je každý řádek i každý sloupec samostatným shlukem. Nejprve je pro každý pár p řádků vypočítána vzdálenost (b + c) / (a + b + c + d), obdobně pro sloupce. Je spojen pár p r nejpodobnější ších řádků nebo sloupců. Proces pokračuje do stavu, kdy je výsledkem pouze jeden řádek a jeden sloupec. Matice musí být uspořádána tak, aby shluky byly reprezentovány ny jako spojité bloky. 53

54 Dvourozměrn rná shluková analýza graf ze systému STATISTICA Výsledky dvojrozměrného spojování BLOOD AGE BEHAVIOR DISEASE FAST RISE CULTURE DEPRESSE PATIENTS M M4 M3 M2 M8 M5 M6 M0 M2 M7 M M3 M4 M9 54

55 Příklad. () Podobnost objektů (dokumentů) 55

56 Příklad. (2) Podobnost objektů (dokumentů) Vícerozměrné škálování (systém STATISTICA) 56

57 Příklad 2. () Shlukování binárn rních proměnných Datový soubor tv-survey.sav (systém SPSS) Name any bored critics peers writers director cast Label Any reason There are no other popular shows on at that time The critics still give the show good reviews Other people still watch the show The original screen writers stay with the show The original directors stay with the show The original cast stays with the show 57

58 Příklad 2. (2) Použit ití faktorové analýzy (SPSS) Rotated Component Matrix a Any reason There are no other popular shows on at that time The critics still give the show good reviews Other people still watch the show The original screenwriters stay with the show The original directors stay with the show The original cast stays with the show Extraction Method: Principal Component Analysis. Rotation Method: Varimax with Kaiser Normalization. Component 2 0, , , ,250 0, , , , , , , , ,7079 0, a Rotation converged in 3 iterations. 58

59 Příklad 2. (3) Použit ití shlukové analýzy (SPSS) Míra podobnosti = korelační koeficient 59

60 Příklad 2. (4) Použit ití shlukové analýzy (SPSS) Míra podobnosti = Lance-and-Williams Nonmetric Measure 60

61 Příklad 2. (5) Použit ití vícerozměrného škálování () 6

62 Příklad 2. (6) Použit ití vícerozměrného škálování (2) 62

63 Příklad 3. () Shlukování proměnných Datový soubor GSS93 subset.sav (systém SPSS) Proměnn nná Bigband Blugrass Country Blues Musicals Classicl Folk Jazz Opera Rap Hvymetal Význam Bigband Music Bluegrass Music Country Western Music Blues or R & B Music Broadway Musicals Classical Music Folk Music Jazz Music Opera Rap Music Heavy Metal Music 63

64 Příklad 3. (2) Shluková analýza (STATISTICA) 64

65 Příklad 3. (3) Vícerozměrné škálování (SPSS) 65

66 Příklad 3. (4) Vícerozměrné škálování (SPSS) 66

67 Příklad 3. (5) Kategoriáln lní analýza hlavních komponent (SPSS) 67

68 Příklad 3. (6) Korespondenční analýza (SPSS) 68

69 Příklad 4. () Údaje o dokumentech (Berry( Berry) Termy M M2 M3 M4 M5 M6 M7 M8 M9 M0 M M2 M3 M4 x.j abnormalities age behavior blood close culture depressed discharged disease fast generation oestrogen patients pressure rats respect rise study

70 Příklad 4. (2) výsledek faktorové analýzy 70

71 Příklad 4. (3) Fuzzy shluková analýza (S-PLUS) Membership coefficients: [,] [,2] [,3] [,4]

72 Příklad 4. (4) Fuzzy shluková analýza (S-PLUS) Group : abnormalities,, age, blood,, close, disease, respect Group 2: 2 behavior, depressed,, generation, oestrogen,, rise, study Group 3: close, disease, fast,, generation, pressure, rats,, rise Group 4: age, culture, discharged, patients, study 72

73 Příklad 4. (5) Vícerozměrné škálování (STATISTICA) Dimenze 2,6,4,2,0 0,8 0,6 0,4 0,2 0,0-0,2-0,4-0,6-0,8 -,0 -,2 RISE Bodový graf 2D Konečná konfigurace, dimenze vs. dimenze 2 OESTROGE DEPRESSE RATS FAST STUDY PRESSURE CLOSE PATIENTS CULTURE DISCHARG DISEASE AGE BLOOD BEHAVIOR GENERATI ABNORMAL RESPECT -,4-2,0 -,5 -,0-0,5 0,0 0,5,0,5 Dimenze 73

SHLUKOVÁ ANALÝZA KATEGORIÁLNÍCH DAT

SHLUKOVÁ ANALÝZA KATEGORIÁLNÍCH DAT SHLUKOVÁ ANALÝZA KATEGORIÁLNÍCH DAT Hana Řezanková Vysoká škola ekonomická v Praze htt://nb.vse.cz/~rezanka Analýza dat 27/II Obsah Metody shlukové analýzy Shlukování objektů Shlukování roměnných Shlukování

Více

Matematika pro ekonomiku

Matematika pro ekonomiku Pojistná matematika 14.10.2011 1 I. POJISTNÁ MATEMATIKA Pojistná matematika 2 Základní odvětví: životní pojištění, do něhož spadá výplata předem sjednané částky v případě smrti nebo dožití se určitého

Více

Úvodem Dříve les než stromy 3 Operace s maticemi

Úvodem Dříve les než stromy 3 Operace s maticemi Obsah 1 Úvodem 13 2 Dříve les než stromy 17 2.1 Nejednoznačnost terminologie 17 2.2 Volba metody analýzy dat 23 2.3 Přehled vybraných vícerozměrných metod 25 2.3.1 Metoda hlavních komponent 26 2.3.2 Faktorová

Více

IBM SPSS Statistics Base

IBM SPSS Statistics Base IBM Software Base Spolehněte se na rozhodnutí a výsledky, které jsou založené na analýzách IBM SPSS Statistics poskytuje nástroje pro řešení statistických úloh a analytických problémů jak v komerčních

Více

Vícerozměrné statistické metody

Vícerozměrné statistické metody Vícerozměrné statistické metody Smysl a cíle vícerozměrné analýzy dat a modelování, vztah jednorozměrných a vícerozměrných statistických metod Jiří Jarkovský, Simona Littnerová Průběh výuky 13 přednášek

Více

Průzkumová analýza jednorozměrných dat (Teorie)

Průzkumová analýza jednorozměrných dat (Teorie) Míra nezaměstnanosti *%+ 211 Průzkumová analýza jednorozměrných dat (Teorie) Míra nezaměstnanosti *%+ (okres Opava, červen 21) Rozsah 77 Průměr 11,5 Minimum 5,5 Dolní kvartil 8,4 5 1 15 2 Medián 9,9 Horní

Více

APLIKACE NÁSTROJE PASW SPSS 18.0 BASE V TRŽNÍ

APLIKACE NÁSTROJE PASW SPSS 18.0 BASE V TRŽNÍ Úvod a záměr práce APLIKACE NÁSTROJE PASW SPSS 18.0 BASE V TRŽNÍ SEGMENTACI Autor: Mgr. Ing. David Vít Faulta eletrotechnicá ČVUT v Praze, atedra eonomiy, manažerství a humanitních věd 1. Úvod a záměr

Více

Počítačová analýza vícerozměrných dat v oborech přírodních, technických a společenských věd

Počítačová analýza vícerozměrných dat v oborech přírodních, technických a společenských věd Počítačová analýza vícerozměrných dat v oborech přírodních, technických a společenských věd Prof. RNDr. Milan Meloun, DrSc. (Univerzita Pardubice, Pardubice) 20.-24. června 2011 Tato prezentace je spolufinancována

Více

UNICORN COLLEGE BAKALÁŘSKÁ PRÁCE

UNICORN COLLEGE BAKALÁŘSKÁ PRÁCE UNICORN COLLEGE Katedra ekonomiky a managementu BAKALÁŘSKÁ PRÁCE Aplikace statistických metod v analýze preferencí absolventů vysokých škol Autor BP: Ladislav STRATIL Vedoucí BP: doc. Ing. Dagmar Blatná,

Více

Statistika jako obor. Statistika. Popisná statistika. Matematická statistika TEORIE K MV2

Statistika jako obor. Statistika. Popisná statistika. Matematická statistika TEORIE K MV2 Statistika jako obor Statistika Statistika je vědní obor zabývající se zkoumáním jevů hromadného charakteru. Tím se myslí to, že zkoumaný jev musí příslušet určité části velkého množství objektů (lidí,

Více

APLIKACE SHLUKOVÉ ANALÝZY V EKOLOGII

APLIKACE SHLUKOVÉ ANALÝZY V EKOLOGII ROBUST 2, 2 28 c JČMF 2 APLIKACE SHLUKOVÉ ANALÝZY V EKOLOGII MARIE BUDÍKOVÁ Abstrakt. In this paper, the basic principles of hierarchical cluster analysis are described.an example of calculation and application

Více

Cronbachův koeficient α nová adaptovaná metoda uvedení vlastností položkové analýzy deskriptivní induktivní parametrické

Cronbachův koeficient α nová adaptovaná metoda uvedení vlastností položkové analýzy deskriptivní induktivní parametrické Československá psychologie 0009-062X Metodologické požadavky na výzkumné studie METODOLOGICKÉ POŽADAVKY NA VÝZKUMNÉ STUDIE Výzkumné studie mají přinášet nová konkrétní zjištění získaná specifickými výzkumnými

Více

5 Vícerozměrná data - kontingenční tabulky, testy nezávislosti, regresní analýza

5 Vícerozměrná data - kontingenční tabulky, testy nezávislosti, regresní analýza 5 Vícerozměrná data - kontingenční tabulky, testy nezávislosti, regresní analýza 5.1 Vícerozměrná data a vícerozměrná rozdělení Při zpracování vícerozměrných dat se hledají souvislosti mezi dvěma, případně

Více

České vysoké učení technické v Praze. Fakulta elektrotechnická. Katedra kybernetiky

České vysoké učení technické v Praze. Fakulta elektrotechnická. Katedra kybernetiky České vysoké učení technické v Praze Fakulta elektrotechnická Katedra kybernetiky Diplomová práce Aplikace shlukovacích metod na časové řady se zaměřením na záznamy FHR 214 Bc. Tereza Janíčková I Prohlášení

Více

Statistické zpracování dotazníků v SPSS. Michal Čihák

Statistické zpracování dotazníků v SPSS. Michal Čihák Statistické zpracování dotazníků v SPSS Michal Čihák Autor: RNDr. Michal Čihák, Ph. D. Název: Statistické zpracování dotazníků v SPSS Rok a místo vydání: 2014, Hradec Králové Vydání: první Recenzoval:

Více

VYSOKÁ ŠKOLA EKONOMICKÁ V PRAZE FAKULTA INFORMATIKY A STATISTIKY

VYSOKÁ ŠKOLA EKONOMICKÁ V PRAZE FAKULTA INFORMATIKY A STATISTIKY VYSOKÁ ŠKOLA EKONOMICKÁ V PRAZE FAKULTA INFORMATIKY A STATISTIKY Diplomová práce Systém předzpracování dat pro dobývání znalostí z databází Vypracovala: Hana Kotinová Vedoucí práce: prof. Ing. Petr Berka,

Více

Univerzita Hradec Králové Fakulta informatiky a managementu Katedra informačních technologií

Univerzita Hradec Králové Fakulta informatiky a managementu Katedra informačních technologií Univerzita Hradec Králové Fakulta informatiky a managementu Katedra informačních technologií Aplikace strojového učení v oblasti e-komerce Diplomová práce Autor: Pavel Vraný Studijní obor: aplikovaná informatika

Více

Vysoká škola ekonomická v Praze. Fakulta financí a účetnictví

Vysoká škola ekonomická v Praze. Fakulta financí a účetnictví Vysoká škola ekonomická v Praze Fakulta financí a účetnictví Katedra bankovnictví a pojišťovnictví Diplomová práce Srovnání logistické regrese a rozhodovacích stromů při tvorbě skóringových modelů Ladislav

Více

ZPRACOVÁNÍ DAT V EKOLOGII SPOLEČENSTEV

ZPRACOVÁNÍ DAT V EKOLOGII SPOLEČENSTEV ZPRACOVÁNÍ DAT V EKOLOGII SPOLEČENSTEV OSNOVA PŘEDNÁŠKY Příprava dat pro numerické analýzy typy sbíraných dat, čištění dat, odlehlé body, transformace, standardizace, EDA Ekologická podobnost indexy podobnosti

Více

Metody řešení problematiky neúplných dat

Metody řešení problematiky neúplných dat Metody řešení problematiky neúplných dat Ing. David Pejčoch, DiS. Katedra informačního a znalostního inženýrství Fakulta informatiky a statistiky Vysoká škola ekonomická Nám. W. Churchilla 4 130 00 Praha

Více

Testování hypotéz a měření asociace mezi proměnnými

Testování hypotéz a měření asociace mezi proměnnými Testování hypotéz a měření asociace mezi proměnnými Testování hypotéz Nulová a alternativní hypotéza většina statistických analýz zahrnuje různá porovnání, hledání vztahů, efektů Tvrzení, že efekt je nulový,

Více

Klasifikace obchodních partnerů s využitím metod shlukové analýzy

Klasifikace obchodních partnerů s využitím metod shlukové analýzy Klasifikace obchodních partnerů s využitím metod shlukové analýzy Mária Režňáková 1 Abstrakt Předpokladem úspěšnosti podnikatelských subjektů je schopnost generovat příjmy v takové výši, která zajistí

Více

VYSOKÁ ŠKOLA POLYTECHNICKÁ JIHLAVA

VYSOKÁ ŠKOLA POLYTECHNICKÁ JIHLAVA VYSOKÁ ŠKOLA POLYTECHNICKÁ JIHLAVA Katedra matematiky STATISTIKA V SPSS Jana Borůvková, Petra Horáčková, Miroslav Hanáček 2014 Jana Borůvková, Petra Horáčková, Miroslav Hanáček STATISTIKA V SPSS 1. vydání

Více

Základy vytěžování dat

Základy vytěžování dat Základy vytěžování dat předmět A7Bb36vyd Vytěžování dat Filip Železný, Miroslav Čepek, Radomír Černoch, Jan Hrdlička katedra kybernetiky a katedra počítačů ČVUT v Praze, FEL Evropský sociální fond Praha

Více

KVANTITATIVNÍ METODY V PEDAGOGICKÉM VÝZKUMU

KVANTITATIVNÍ METODY V PEDAGOGICKÉM VÝZKUMU KVANTITATIVNÍ METODY V PEDAGOGICKÉM VÝZKUMU RADEK KRPEC CZ.1.07/2.2.00/29.0006 OSTRAVA, ČERVEN 2013 Studijní opora je jedním z výstupu projektu ESF OP VK. Číslo Prioritní osy: 7.2 Oblast podpory: 7.2.2

Více

Základní analýza dat. Úvod

Základní analýza dat. Úvod Základní analýza dat literatura: Hendl, J. 2006: Přehled statistických metod zpracování dat. Analýza a metaanalýza dat. Praha: Portál. Macháček, J. 2001: Studie k velkomoravské keramice. Metody, analýzy

Více

VYSOKÁ ŠKOLA POLYTECHNICKÁ JIHLAVA. Katedra matematiky STATISTICA ÚVOD DO ZPRACOVÁNÍ DAT. Jana Borůvková, Petra Horáčková, Miroslav Hanáček

VYSOKÁ ŠKOLA POLYTECHNICKÁ JIHLAVA. Katedra matematiky STATISTICA ÚVOD DO ZPRACOVÁNÍ DAT. Jana Borůvková, Petra Horáčková, Miroslav Hanáček VYSOKÁ ŠKOLA POLYTECHNICKÁ JIHLAVA Katedra matematiky STATISTICA ÚVOD DO ZPRACOVÁNÍ DAT Jana Borůvková, Petra Horáčková, Miroslav Hanáček 2013 Jana Borůvková, Petra Horáčková, Miroslav Hanáček STATISTICA

Více

Biostatistika a matematické metody epidemiologie - stručné studijní texty

Biostatistika a matematické metody epidemiologie - stručné studijní texty Biostatistika a matematické metody epidemiologie - stručné studijní texty Bohumír Procházka, SZÚ Praha 1 Co můžeme sledovat Pro charakteristiku nebo vlastnost, kterou chceme sledovat zvolíme termín jev.

Více

ˇ CESK E VYSOK E U ˇ CEN I TECHNICK E Fakulta jadern a a fyzik alnˇe inˇzen yrsk a DIPLOMOV A PR ACE 2006 Jan Vachulka

ˇ CESK E VYSOK E U ˇ CEN I TECHNICK E Fakulta jadern a a fyzik alnˇe inˇzen yrsk a DIPLOMOV A PR ACE 2006 Jan Vachulka ČESKÉ VYSOKÉ UČENÍ TECHNICKÉ Fakulta jaderná a fyzikálně inženýrská DIPLOMOVÁ PRÁCE 2006 Jan Vachulka ČESKÉ VYSOKÉ UČENÍ TECHNICKÉ Fakulta jaderná a fyzikálně inženýrská Katedra Matematiky Monitorování

Více

ŠKOLA POLYTECHNICKÁ JIHLAVA. Katedra ekonomických studií ZÁKLADY STATISTIKY DOTAZNÍKOVÉ ŠETŘENÍ STUDIJNÍ TEXT. Jana Borůvková

ŠKOLA POLYTECHNICKÁ JIHLAVA. Katedra ekonomických studií ZÁKLADY STATISTIKY DOTAZNÍKOVÉ ŠETŘENÍ STUDIJNÍ TEXT. Jana Borůvková ŠKOLA POLYTECHNICKÁ JIHLAVA Katedra ekonomických studií ZÁKLADY STATISTIKY DOTAZNÍKOVÉ ŠETŘENÍ STUDIJNÍ TEXT Jana Borůvková 2013 Jana Borůvková ZÁKLADY STATISTIKY DOTAZNÍKOVÉ ŠETŘENÍ 1. vydání ISBN 978-80-87035-80-1

Více