Vícerozměrná analýza dat

Transkript

1 Jiří Jarkovský

2 Plán n kurzu Každých 4 dní 4 vyučovací hodiny Ukončení zkouškou Písemná Zaměřená na principy a aplikace analýz Cíl kurzu Vysvětlit principy vícerozměrných analýz, jejich aplikaci v biologii a jejich interpretaci Přehled základního software Příklady na reálných datech

3 Náplň kurzu I Vícerozměná analýza dat smysl a cíle Příklady užití vícerozměrných analýz Výhody a nevýhody vícerozměrné analýzy dat Parametrická a neparametrická vícerozměrná statistika Statistické SW pro vícerozměrnou analýzu dat Podobnost a vzdálenost objektů ve vícerozměrném prostoru Metriky podobnosti a vzdálenosti a jejich úskalí Obecné metriky podobnosti a vzdálenosti Metriky podobnosti pro biologická společenstva problém double zero Asociační matice Struktura asociační matice Práce s asociační maticí Mantelův test Vícerozměrné statistické testy a rozložení Vícerozměrné normální rozložení Vícerozměrné charakteristiky - medoid Hottelingovo T, Wishartovo rozdělení Základy maticové algebry Typy matic a jejich využití při vícerozměrné analýze dat Matematické operace s maticemi Eigenvalues (vlastní čísla) a eigenvectory (vlastní vektory) matic

4 Náplň kurzu II Shluková analýza Kriteria posuzování výsledků shlukovacích metod Minimální vnitroshluková varibilita Maximální mezishluková variabilita Silhouette width Hierarchické aglomerativní shlukování Shlukovací algoritmy nearest neighbour (single linkage) farthest neighbour (complete linkage) UPGMA WPGMA UPGMC WPGMC Ward s method Hierarchické divizivní shlukování TWINSPAN Nehierarchické divizivní shlukování K-means clustering X-means clustering Partitioning around medoids (PAM)

5 Náplň kurzu III Ordinační analýzy Principy ordinačních analýz - redukce dimenzionality Eigenvektor Eigenvalue Základní typy ordinační analýzy a jejich užití PCA CA DCA CCA DCCA RDA MDS PCoA Kanonická korelace Analýza hlavních komponent PCA na základě euklidovské vzdálenosti PCA na základě korelací a kovariancí Normalised PCA Biplot a jeho interpretace Korespondenční analýza a její varianty CA, DCA, CCA, DCCA MDS a PCoA ordinační analýza na libovolné asociační matici

6 Software pro vícerozmv cerozměrnou rnou analýzu Klikací všeobecné SW Statistica SPSS SAS Specializované SW PcORD CANOCO PAST WEKA ORANGE SW pro microarray analýzu Nejrůznější utility na netu Univerzální SW R - ADE4 atd.

7 ffgf Základní statistické výpočty s vazbou na vícerozměrnou analýzu 7

8 Vztah klasické a vícerozmv cerozměrné statistiky využívá přístupů klasické statistiky Zároveň je citlivá i na jejich problémy Agregace dat přes sumární statistiku nebo kontingenční tabulky korespondenční analýza Korelace analýza hlavních komponent, faktorová analýza, diskriminační analýza!

9 Kontingenční tabulka Nákup Důchodový věk Ano Ne Σ Ano Ne Σ Kontingenční tabulka je používána pro hodnocení vztahu kategoriálních proměnných Kontingenční tabulka v obrázku b: 6% a: % c: 49% % Nákup: ANO 0 80 % Nákup: NE 84,4 5,6 d: 33% Důchodce Zemřelí Ekonomicky aktivní Žijící Důchodce Zemřelí Ekonomicky aktivní Žijící

10 Kontingenční tabulky princip analýzy Binomické jevy (/0) χ () pozorovaná očekávaná četnost - četnost = očekávaná četnost pozorovaná četnost - očekávaná četnost očekávaná četnost 0 I. jev II. jev Příklad lidí hází mincí rub: případů (R) líc: případů (L) Lze výsledek považovat za statisticky významně odlišný (nebo neodlišný) od očekávaného poměru R : L = :? Stejným způsobem, tedy hodnocením odchylek od očekávaného vyrovnaného počtu případů hodnotí data i korespondenční analýza

11 Korelační analýza Korelace - vztah (závislost) dvou znaků (parametrů) Y Y X Y X Korelace mezi parametry jsou základem faktorové analýzy a analýzy hlavních komponent, pokud vazby mezi parametry nejsou tyto metody postrádají smysl. X

12 Rizika korelační analýzy Problém rozložení hodnot Problém typu modelu Y Y r = 0,98 (p < 0,00) r = 0,76 (p < 0,03) X X Problém velikosti vzorku Y Y r = 0, (p < 0,008) r = 0,89 (p < 0,4) X X

13 ffgf Význam vícerozměrného hodnocení dat 3

14 Vícerozměrné vnímání skutečnosti nová kvalita analýzy dat x x x skupina skupina Vícerozměrný rný systém x n x x Klasická jednorozměrn rná analýza skup. skup. skup. skup.

15 Běžná sumarizace dat likviduje individualitu jedince? Průměr ± SE BĚŽNÁ STATISTICKÁ SUMARIZACE Zpřehlednění dat Neodliší původní měření

16 Vícerozměrné hodnocení s ohledem na individualitu! X X 3 X p X 3 X p W X 3 X p X X X X X

17 Vícerozměrné hodnocení nová kvalita Pouze kombinované parametry mají odpovídaj dající informační sílu X B B B B B B B B B A B B B B A B B B A A A A B B B B A A A B A A B A A A A A A A A A X příklad: X =

18 Vícerozměrné hodnocení vychází z jednoduchých principů X příklad: vícerozmv cerozměrná vzdálenost měření mezi dvěma objekty (body) X c = a b b = x -x = d X a = x -x = d X X X

19 Vícerozměrné modelování je strategickou disciplínou X X n technické parametry automobilu X n X p řidičovy schopnosti a jeho stav X p X rychlost, povrch, situace X X X 3 X 4 X 5 X p

20 ffgf Základní principy vícerozměrného hodnocení dat 0

21 Pojmy vícerozmv cerozměrných rných analýz Vícerozměrné metody: Název vícerozměrné vychází z typu vstupních dat, tato data jsou tvořena jednotlivými objekty (i.e. klienti) a každý z nich je charakterizován svými parametry (věk, příjem atd.) a každý z těchto parametrů můžeme považovat za jeden rozměr objektu. Maticová algebra: Základem práce s daty a výpočtů vícerozměrných metod je maticová algebra, matice tvoří jak vstupní, tak výstupní data a probíhají na nich výpočty. NxP matice: N objektů s p parametry pak vytváří tzv. NxP matici, kteráje prvním typem vstupu dat do vícerozměrných analýz. Asociační matice: Na základě těchto matic jsou počítány matice asociační na nichž pak probíhají další výpočty, jde o čtvercové matice obsahující informace o podobnosti nebo rozdílnosti (tzv. metriky) buď objektů (Q mode analýza) nebo parametrů (R mode analýza).měřítko podobnosti se liší podle použité metody a typu dat, některé metody umožňují použití uživatelských metrik.

22 Vstupní matice vícerozmv cerozměrných rných analýz NxP MATICE ASOCIAČNÍ MATICE Výpočet metriky podobností/ vzdáleností Hodnoty parametrů pro jednotlivé objekty Korelace, kovariance, vzdálenost, podobnost

23 Základní typy vícerozmv cerozměrných rných analýz SHLUKOVÁ ANALÝZA ORDINAČNÍ METODY vytváření shluků objektů na základě jejich podobnosti identifikace typů objektů zjednodušení vícerozměrného problému do menšího počtu rozměrů principem je tvorba nových rozměrů, které lépe vyčerpávají variabilitu dat

24 Typy vícerozmv cerozměrných rných analýz SHLUKOVÁ ANALÝZA ORDINAČNÍ METODY y Faktorové osy y x x podobnost

25 ffgf Asociační matice Vícerozměrná vzdálenost a podobnost 5

26 Seznam taxonů vícerozměrný rný popis společenstva enstva Na seznam taxonů lze pohlížet také jako seznam rozměrů společenstva Záznam o nalezených taxonech tak vlastně tvoří vícerozměrný popis daného společenstva Společenstva můžeme srovnávat podle jejich vzájemné pozice v n-rozměrném prostoru Pro srovnání společenstev lze teoreticky využít libovolnou metriku vícerozměrné podobnosti nebo vzdálenosti

27 Euklidovská vzdálenost Jde o základní metrické měřítko vzdálenosti a počítá vzdálenost objektů obdobně jako Pythagorova věta počítá přeponu pravoúhlého trojúhelníku. Metoda je citlivá na rozdílný rozsah hodnot vstupujících proměnných (vhodným řešením může být standardizace) a double zero problém. Nemá horní hranici hodnot. D p ( x, x ) = j= ( y j y j ) Jako další měřítko se používá také čtverec této vzdálenosti.. Jeho nevýhodou jsou semimetrické vlastnosti. D ( x, x ) p = j= ( y j j y ) y X D (X,X ) y X y y

28 Double zero problém m!!! V případě binárních metrik (druh se vyskytuje/nevyskytuje) není možné uvažovat stejnou váhu pro souhlas přítomnosti () a nepřítomnosti (00) taxonů (symetrický koeficient) Problémem využití všech typů metrik pro data abundancí spočívá v odlišném významu přítomnosti a nepřítomnosti taxonů Pokud se taxon nachází v obou srovnávaných společenstvech znamená to že společenstva si budou v tomto ohledu podobná, protože mají podmínky umožňující přítomnost taxonu Pokud se taxon nenachází ani v jednom ze dvou srovnávaných společenstev příčina může být nejrůznější double zero problem Pro odstranění tohoto problému je použito asymetrické hodnocení souhlasné přítomnosti () a nepřítomnosti (00) taxonů (asymetrické koeficienty)

29 Koeficienty podobosti (indexy podobnosti) V ekologii se využívá řada indexů podobnosti založených buď na přítomnosti/nepřítomnosti taxonů nebo na abundancích Binární koeficienty podobnosti Společenstvo Spol ečen stvo 0 a b 0 c d a, b, c, d = počet případů, kdy souhlasí binární charakteristika společenstev a abcd=p Symetrické binární koeficienty - není rozdíl mezi případem - a 0-0 Asymetrické binární koeficienty - rozdíl mezi případem - a 0-0 Více informací a další měření vzdáleností a podobností najdete v knize LEGENDRE, P. & LEGENDRE, L. (998). Numerical ecology. Elseviere Science BV, Amsterodam.

30 ffgf Symetrické binární koeficienty 30

31 Simple matching coefficient (Sokal & Michener, 958) Obvyklou metodou pro výpočet podobnosti mezi dvěma objekty je podíl počtu deskriptorů, které kódují objekt stejně, a celkového počtu deskriptorů. Při použití tohoto koeficientu předpokládáme, že není rozdíl mezi nastáním 0 a u deskriptorů. S ( x, x ) = a p d

32 Rogers & Tanimoto koeficient (960) Dává větší váhu rozdílům než podobnostem. S ( x, x ) = a a b d c d

33 Sokal Sokal & Sneath (963) & Sneath (963) Další čtyři navržené koeficienty obsahují double-zero, ale jsou navrženy tak, aby se snížil vliv double-zero: tento koeficient dává dvakrát větší váhu shodným deskriptorům než rozdílným; porovnává shody a rozdíly prostým podílem v měřítku jdoucím od 0 do nekonečna; porovnává shodné deskriptory se součty okrajů tabulky; je vytvořen z geometrických průměrů členů vztahujících se k a a d, podle koeficientu S5. d c b a d a x x S ), ( 3 = c b d a x x S = ), ( 4 = d c d d b d c a a b a a x x S 4 ), ( 5 ) )( ( ) )( ( ), ( 6 d c d b d c a b a a x x S =

34 Hammannův v koeficient S = a d b p c Yuleho koeficient S = ad ad bc bc Pearsonovo Φ (phi) φ = ad bc ( a b)( c d)( a c)( b d)

35 ffgf Asymetrické binární koeficienty 35

36 Jaccardův v koeficient (900, 90, 908) Všechny členy mají stejnou váhu a S 7 ( x, x ) = a b c

37 Sørensenův v koeficient (948) (Coincidence index, Dice(945)) varianta předchozího koeficientu dává dvojnásobnou váhu dvojitým prezencím, protože se může zdát, že přítomnost druhů je více informativní než jejich absence, která může být způsobena různými faktory a nemusí nutně odrážet rozdílnost prostředí. Prezence druhu na obou lokalitách je silným ukazatelem jejich podobnosti. S7 je monotónní k S8, proto podobnost pro dvě dvojice objektů vypočítaná podle S7 bude podobná stejnému výpočtu S8. Oba koeficienty se liší pouze vměřítku. Tento index byl poprvé použit Dicem v R- mode studii asociací druhů. Jiná varianta tohoto koeficientu dává duplicitním prezencím trojnásobnou váhu. S x, x 8 ( a ) = a b c S x, x 8 ( 3a ) = 3 a b c

38 Sokal & Sneath (963) navržen jako doplněk Rogers & Tanimotova koeficientu (S), dává dvojnásobnou váhu rozdílům ve jmenovateli. S 0 ( x, x ) = a a b d c

39 Russel & Rao (940) navržená míra umožňuje porovnání počtu duplicitních prezencí (v čitateli) proti celkovému počtu druhů, nalezených na všech lokalitách, zahrnujícím druhy, které chybějí (d) na obou uvažovaných lokalitách. S x, x ) = ( a p

40 Kulczynski (98) koeficient porovnávající duplicitní prezence s diferencemi S ( x, x ) = b a c

41 Binárn rní verze asymetrického kvantitativního Kulczynski koeficientu (98) Mezi svými koeficienty pro presence/absence data zmiňují Sokal & Sneath (963) tuto verzi kvantitativního koeficientu S8, kde jsou duplicitní prezence srovnávány se součty okrajů tabulky (ab) a (ac). S 3 ( x, x ) = a a b a a c

42 Ochiachi (957) použil jako míru podobnosti geometrický průměr poměrů a kpočtu druhů na každé lokalitě, tj. se součty okrajů tabulky (ab) a (ac), tento koeficient je obdobou S6, bez části, týkající se double-zero (d). S 4 ( x, x ) = ( a a b) ( a a c) = ( a a b)( a c)

43 Faith (983) V tomto koeficientu je neshoda (přítomnost na jedné a absence na druhé lokalitě) vážena proti duplicitní prezenci. Hodnota S6 klesá s růstem double-zero S 6 ( x, x ) = a d p /

44 ffgf Kvantitativní koeficienty 44

45 Klasické indexy podobnosti Sørensenův kvantitativní koeficient, kde an a bn jsou celkové počty jedinců v společenstvech A a B, jn je pak suma abundancí pokud se druh nachází v obou společenstvech, je počítána vždy z nižší abundance daného druhu ve společenstvu C jn = N ( an bn) Morisita-Horn index, kde an je celkový počet jedinců ve společenstvu A a an i počet jedinců druhu i ve společenstvu A (obdobně platí pro společenstvo B) C mh ( anibni ) = ( da db). an. bn da = an an i

46 Jednoduchý srovnávac vací koeficient (Sokal & Michener, 958) modifikovaný simple matching coefficient může být použit pro multistavové deskriptory - čitatel obsahuje počet deskriptorů, pro které jsou dva objekty ve stejném stavu např. je-li dvojice objektů popsána následujícími deseti multistavovými deskriptory: hodnota S,vypočítaná pro 0 multistavových deskriptorů bude S,(x,x) = 4 agreements/ 0 descriptors = 0.4 Podobným způsobem je možné rozšířit všechny binární koeficienty pro multistavové deskriptory. S x, x ) = ( agreements p Deskriptors Object x Object x Agreements Σ 4

47 Gowerův v obecný koeficient podobnosti (97) I. Gover navrhl obecný koeficient podobnosti, který může kombinovat různé typy deskriptorů. Podobnost mezi dvěma objekty je vypočítána jako průměr podobností, vypočítaných pro všechny deskriptory. Pro každý deskriptor j je hodnota parciální podobnosti s j mezi objekty x a x vypočítána následovně: S 5 ( x, x ) = p p j= Pro binární deskriptory sj= (shoda) nebo 0 (neshoda). Gower navrhl dvě formy tohoto koeficientu. Následující forma je symetrická, dává sj= double-zero. Druhá forma, Gowerův asymetrický koeficient S9 dává pro double-zero sj=0 Kvalitativní a semikvantitivní deskriptory jsou upraveny podle jednoduchého zaměňovacího pravidla, sj= při souhlasu a sj = 0 při nesouhlasu deskriptorů. Double zero jsou ošetřeny stejně jako v předchozím odstavci. Kvantitativní deskriptory (reálná čísla) jsou zpracovány následovně: pro každý deskriptor se nejprve vypočte rozdíl mezi stavy obou objektů který je poté vydělen největším rozdílem (Rj), nalezeným pro daný deskriptor mezi všemi objekty ve studii (nebo v referenční populaci doporučuje se vypočítat největší diferenci Rj každého deskriptoru j pro celou populaci, aby byla zajištěna konzistence výsledků pro všechny parciální studie). s j

48 Gowerův v obecný koeficient podobnosti (97) II. normalizovaná vzdálenost může být odečtena od aby byla transformována na podobnost: s = j y j R j y Gowerův koeficent může být nastaven tak, aby zahrnoval přídavný flexibilní prvek: žádné porovnání není vypočítáno u deskriptorů, u nichž chybí informace buď u jednoho, nebo u druhého objektu. Toto zajišťuje člen wj, nazývaný Kroneckerovo delta, popisující přítomnost/nepřítomnost informace v obou objektech: je-li informace o deskriptoru yj přítomna u obou objektů (wj=), jinak (wj=0), tento koeficient nabývá hodnot podobnosti mezi 0 a (největší podobnost objektů). Dalšímožnostíje váženírůzných deskriptorů prostým přiřazením čísla v rozsahu 0- wj. S j j= 5 ( x, x ) = p p w j= j w s j j

49 ffgf Různé vícerozměrné metriky vzdáleností 49

50 Euklidovská vzdálenost Jde o základní metrické měřítko vzdálenosti a počítá vzdálenost objektů obdobně jako Pythagorova věta počítá přeponu pravoúhlého trojúhelníku. Metoda je citlivá na rozdílný rozsah hodnot vstupujících proměnných (vhodným řešením může být standardizace) a double zero problém. Nemá horní hranici hodnot. D p ( x, x ) = j= ( y j y j ) Jako další měřítko se používá také čtverec této vzdálenosti.. Jeho nevýhodou jsou semimetrické vlastnosti. D ( x, x ) p = j= ( y j j y ) y X D (X,X ) y X y y

51 Průměrn rná vzdálenost Euklidovská vzdálenost je přepočítána na počet parametrů (druhů vpřípadě vzdálenosti společenstev odběrů). D ( x, x ) p p = j= ( y j j y ) D ( x, x ) = D

52 Chord distance (Orlóci, 967) Odstraňuje double zero problém a vliv rozdílného počtu jedinců druhů ve vzorcích při výpočtu Euklidovské vzdálenosti. Její maximální hodnota je druhá odmocnina ze dvou a minimum 0. Při výpočtu počítá pouze s poměry druhů vrámci jednotlivých vzorků. Jde vlastně o Euklidovskou vzdálenost počítanou pro vektory vzorků standardizované na délku, nebo je možný přímý výpočet už zahrnující standardizaci. Vnitřní část výpočtu je vlastně cosinus úhlu svíraného vektory, zápis vzorce je možný i v této formě. D ( x 3, x ) = p j= p j= y y j j y j p j= y j D3 = ( cosθ )

53 Geodetická metrika Počítá délku výseče jednotkové kružnice mezi normalizovanými vektory (viz. Chord distance). D 4 ( x, x ) D (, = arccos 3 x x )

54 Mahalanobisova vzdálenost (Mahalanobis 936) Jde o obecné měřítko vzdálenosti beroucí v úvahu korelaci mezi parametry a je nezávislá na rozsahu hodnot parametrů. Počítá vzdálenost mezi objekty v systému souřadnic jehož osy nemusí být na sebe kolmé. V praxi se používá pro zjištění vzdálenosti mezi skupinami objektů. Jsou dány dvě skupiny objektů w a w o n a n počtu objektů a popsané p parametry: D ` 5 ( w, w ) = dv d d Kde je vektor o délce p rozdílů mezi průměry p parametrů v obou skupinách. V je vážená disperzní matice (matice kovariancí parametrů) uvnitř skupin objektů. V = [( n ) S ( n ) S ] n n kde S a S jsou disperzní matice jednotlivých skupin. Vektor měří rozdíl mezi p- rozměrnými průměry skupin a V vkládá do rovnice kovarianci mezi parametry.

55 Minkowskeho metrika Je obecnou formou výpočtu vzdálenosti podle zadaného koeficientu může odpovídat např. Euklidovské nebo Manhattanské metrice. Se stoupající koeficientem umocňování stoupá významnost větších rozdílů. Existuje ještě obecnější forma, kdy koeficient umocňování a odmocňování je zadáván zvlášť. D 6 x, x ) = j= [ ] p r y y r ( j j

56 Manhattanská vzdálenost Jde vlastně o součet rozdílů jednotlivých parametrů popisujících objekty p D7 ( x, x ) = j= y j y j

57 Mean character difference (Czekanowski 909) Manhattanská vzdálenost přepočítaná na počet parametrů. p p D8 ( x, x ) = j= y j y j

58 Whittaker Whittakerův asocia v asociační index (Whittaker index (Whittaker 95) 95) Je dobře použitelný pro data abundancí, každý druh je nejprve transformován ve svůj podíl ve společenstvu, následující výpočet je opět obdobou Manhattanské vzdálenosti. Jeho hodnota je 0 v případě identických proporcí druhů. Stejný výsledek lze získat i jako součet nejmenších podílů v rámci obou vzorků. j p j j ij p j j p j y y y y x x D 9 ), ( = = = = = = j p j j y y x x D 9 min ), (

59 Canberra metric (Lance & Williams 966) Varianta Manhattanské vzdálenosti (před výpočtem musí být odstraněny double zero a není jimy tedy ovlivněna). Stejný rozdíl mezi početnými druhy ovlivňuje vzdálenost méně než mezi druhy vzácnějšími. D0 ( x, x ) = p y = ( ) j y j y j y j j Stephenson et al. (97) a Moreau & Legendre (979) použili tuto metriku jako součást koeficientu podobnosti S( x, x ) = D p 0

60 Koeficient divergence Obdobná metrika jako D0 ale založená na Euklidovské vzdálenosti a vztažená na počet parametrů. D ( x, x ) = p p j = y y j j y y j j

61 Coefficient of racial likeness (Pearson 96) Umožňuje srovnávat skupiny objektů podobně jako Mahalanobisova vzdálenost, ale na rozdíl od ní neeliminuje vliv korelace parametrů. Dvě skupiny objektů w a w jsou charakterizovány (průměr y parametrů ve skupinách) a (rozptyl ij parametrů ve s skupinách). ij D p = p j= s n ( y y ) j j ( w, w ) p j j s n

62 χ metrika (Roux & Reyssac 975) První ze skupiny metrik založených na χ pro výpočet vzdáleností odběrů založených na abundancích druhů nebo jiných frekvenčních datech (nejsou přípustné žádné záporné hodnoty). Data původní matice abundancí/frekvencí Y jsou nejprve přepočítána do matice poměrných frekvencí (součty frekvencí v řádcích (odběry) jsou rovny ). Jako dodatečné charakteristiky uplatňované při výpočtu jsou spočteny součty řádků yi a sloupců yj celé! matice n(i) odběrů x p(j) druhů. y Y = ij y i y ij y i p ( x, x ) = j= [ y j ] y Výpočet odstraňuje problém double zero. Nejjednodušším výpočtem je obdoba Euklidovské vzdálenosti y y která je dále vážena součty jednotlivých druhů D j y y j D p j j 5 ( x, x ) = j= y j y y y y

63 χ vzdálenost (Lébart & Fénelon F 97) Výpočet je podobný χ metrice, ale vážení je prováděno relativní četností řádku v matici místo jeho absolutního součtu, při výpočtu se užívá parametr y (celkový součet matice). Je využívána také při výpočtu vztahů řádků a sloupců kontingenční tabulky. D p y p j y j y j y j 6 ( x, x ) = = y j= y j y y j= y j y y y

64 Hellingerova vzdálenost (Rao 995) Koeficient související s D5 a D6. D p ( = 7 x, x ) y y y j y j j=

65 Analýza hlavních komponent Faktorová analýza

66 Principy analýzy hlavních komponent I Vstupní data: Spojité nebo dummy proměnné popisující jednotlivé respondenty Výstupy analýzy Vztahy všech původních faktorů v jednoduchém xy grafu Pozice respondentů v prostoru jednoduchá identifikace segmentů a vlivů faktorů na různé skupiny Kritické problémy analýzy Odlehlé hodnoty Zcela nezávislé proměnné není zde žádná duplicitní informace k vysvětlení

67 Principy analýzy hlavních komponent II Proměnné jsou vzájemně korelovány, tedy část informace v souboru je duplicitní Analýza odstraní duplicitu z dat a zobrazí pouze unikátní informaci y Faktorové osy y x. Faktorová osa vyčerpá nejvíce celkové variability x

68 Vstupy výpočtu PCA Vstupní tabulka spojitých dat WORK TRANSPORT HOUSEHOLD C HI LDREN SHOPPING PERSONAL CARE Nezbytnost analýzy vztahu proměnných analýza předpokladů. ME AL SLEEP TV

69 Výstupy analýzy hlavních komponent.0 SHOPPING PERSONAL CARE Factor : 3.3% HOUSEHOLD CHILDREN TV TRANSPOR Pozice faktoru = míra vazby parametru s danou osou (-,) Důležitá pro interpretaci SLEEP MEAL Factor : 45.87% Množství vyčerpané variability (informační hodnota osy)

70 Výstupy analýzy hlavních komponent Factor : 3.3% UWY UWE UWW MWW MWU MWY EWW SWW SWU EWU EWE MWE SWE SWY EWY Pozici respondenta.0 lze vysvětlit pomocí grafu faktorů. EMY EMU EME MMY MMU MME Factor : 3.3% HOUSEHOLD CHILDREN SLEEP SHOPPING MEAL PERSONAL CARE TV TRANSPOR EMW MMW Factor : 45.87% Pozice respondenta ve faktorovém prostoru Factor : 45.87% Množství vyčerpané variability (informační hodnota osy)

71 Faktorová analýza Čím se liší od analýzy hlavních komponent?,0 Jediným rozdílem je rotace proměnných tak aby se vytvořené faktorové osy daly dobře interpretovat Výhodou je lepší interpretace vztahu původních proměnných Component Plot Component Plot in Rotated Space Nevýhodou je prostor pro subjektivní názor analytika,0 accel Component 0,5 0,0 weight engine horse Component 0,5 0,0 horse engine weight -0,5-0,5 -,0 -,0 accel -,0-0,5 0,0 0,5,0 Component -,0-0,5 0,0 0,5,0 Component

72 Korespondenční analýza

73 Principy korespondenční analýzy Vstupní data: Tabulka obsahující souhrny proměnných (počty, průměry) za skupiny respondentů Výstupy analýzy Vztahy všech původních faktorů a/nebo skupin respondentů v jednoduchém xy grafu Kritické problémy analýzy Skupiny s malým počtem hodnot mohou být zatíženy značným šumem a náhodnou chybou Obtížná interpretace velkého množství malých skupin respondentů

74 Principy korespondenční analýzy Korespondenční analýza hledá, které kombinace řádků a sloupců hodnocené tabulky nejvíce přispívají k její variabilitě Realita Teoretická vyrovnano st Vs.

75 Výstupy korespondenční analýzy Kvalita Vzájemná pozice faktorů a skupin respondentů: vzájemnou pozici lze interpretovat Dimension ; Eigenvalue:.003 (37.% of Inertia) DuPont Oblíbenost firmy BASF DowAgroScience Dostupnost výrobků Bayer Reklama Cena výrobků Syngenta Variabilita vyčerpaná danou faktorovou osou Dimension ; Eigenvalue: (48.54% of Inertia)

76 Shluková analýza

77 Principy shlukové analýzy Vstupní data: Tabulka spojitých nebo kategoriálních dat popisujících respondenty nebo jejich skupiny Výstupy analýzy Tzv. dendrogram popisující vazby mezi respondenty nebo parametry Rozdělení respondentů nebo parametrů do daného počtu skupin Kritické problémy analýzy Velké množství parametrů nebo respondentů v dendrogramu je obtížně interpretovatelné Analýza je silně závislá na zvolení vhodné metriky vzdáleností Analýza je silně závislá na shlukovacím algoritmu

78 Postup výpočtu hierarchické shlukové analýzy Vstupní datová tabulka Matice vzdáleností! Výběr vhodné metriky vzdáleností je klíčový pro výsledek shlukové analýzy různé typy proměnných vyžadují různé metriky vzdáleností! Shlukovací pravidlo je dalším velmi důležitým krokem při shlukové analýze a může změnit její Kvalita Dostupnost výrobků Cena výrobků Oblíbenost firmy Reklama Complete Linkage Dendrogram schéma podobnosti respondentů nebo parametrů Institut biostatistiky Linkage Distance a analýz

79 Některé základní metriky vzdálenosti Euklidovská vzdálenost d ij = p k = ( x ik Vážená euklidovská vzdálenost d ij = p k = w x jk ) i,j označení objektů d ij vzdálenost objektů i a j p počet parametrů k k-tý parametr w k váha parametru k k ( x ik x jk ) Minkowski (power distance) d ij = p λ k = x -celéčíslo = Manhattan (city block) = Euklidovská vzdálenost Chebychev d ij = max ik x ik x jk x jk λ

80 Euklidovská vzdálenost jako základní vícerozměrná metrika Jde o základní metrické měřítko vzdálenosti a počítá vzdálenost objektů obdobně jako Pythagorova věta počítá přeponu pravoúhlého trojúhelníku. Metoda je citlivá na rozdílný rozsah hodnot vstupujících proměnných (vhodným řešením může být standardizace) a double zero problém. Nemá horní p hranici hodnot. D x, x ) ( y y ( = j= j j ) Jako další měřítko se používá také čtverec této p vzdálenosti.. Jeho nevýhodou D ( x jsou semimetrické, x ) = ( ) j= y j y j X vlastnosti. y D (X,X ) y X y y

81 Příklady shlukovacích ch algoritmů centroid Na tuto vzdálenost se ptá single linkage Na tuto vzdálenost se ptá complete linkage Další metody počítají s průměrnou vzdáleností všech objektů shluků nebo vzdáleností centroidů (vzdálenost může být vážena velikostí shluků). Wardova metoda se snaží minimalizovat variabilitu uvnitř shluků.

82 Nehierarchické shlukování Respondenti jsou na základě zadaného počtu shluků rozděleni podle kritéria maximální homogenity shluků Rizika analýzy Při špatném odhadu počtu shluků dává metoda chybné výsledky Výpočet je možný pouze na Euklidovských vzdálenostech y y se všemi jejich omezeními x x

83 Diskriminační analýza

84 Principy diskriminační analýzy Vstupní data: Tabulka spojitých dat popisujících respondenty Respondenti jsou rozděleni do předem daných skupin Výstupy analýzy Seznam parametrů významně rozlišujících různé skupiny respondentů Zobrazení pozice respondentů v diskriminačním prostoru Model pro zařazení nových respondentů do skupin Kritické problémy analýzy Odlehlé hodnoty a asymetrické rozložení uvnitř skupin respondentů Silná korelace mezi prediktory Nutná expertní znalost významu parametrů Pro tvorbu diskriminačních modelů pro praktické

85 Principy diskriminační analýzy Analýza nachází takovou kombinaci vstupních parametrů, která odděluje od sebe skupiny respondentů y d = u y u y y

86 Výstupy diskriminační analýzy Význam parametrů pro klasifikaci 5 Predikční schopnost modelu Root Root Pozice v diskriminační m prostoru

87 Ordinační analýzy a jejich srovnání Analýza hlavních komponent, faktorová analýza, korespondenční analýza a diskriminační analýza se snaží zjednodušit vícerozměrnou strukturu dat výpočtem souhrnných os Metody se liší v logice tvorby těchto os Maximální variabilita (analýza hlavních komponent, korespondenční analýza) Maximální interpretovatelnost os (faktorová analýza) Maximální diskriminace skupin (diskriminační analýza)