Výstupy z výukové jednotky. 2. Princip faktorové analýzy

Podobné dokumenty
Faktorová analýza (FACT)

AVDAT Mnohorozměrné metody metody redukce dimenze

Úvod do vícerozměrných metod. Statistické metody a zpracování dat. Faktorová a komponentní analýza (Úvod do vícerozměrných metod)

Statistické metody a zpracování dat. IX Faktorová a komponentní analýza (Úvod do vícerozměrných metod) Petr Dobrovolný

Faktorová analýza. Ekonometrie. Jiří Neubauer. Katedra ekonometrie FVL UO Brno kancelář 69a, tel

ZX510 Pokročilé statistické metody geografického výzkumu

Fakulta chemicko-technologická Katedra analytické chemie. 3.2 Metody s latentními proměnnými a klasifikační metody

Faktorová analýza Osnova

Příklad 2: Obsah PCB v játrech zemřelých lidí. Zadání: Data: Program:

Profilování vzorků heroinu s využitím vícerozměrné statistické analýzy

Regresní analýza 1. Regresní analýza

1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.

Regresní a korelační analýza

Regresní a korelační analýza

Univerzita Pardubice 8. licenční studium chemometrie

Faktorová analýza příklad. Obrázek 1 Ukázka části vstupních dat

Úvodem Dříve les než stromy 3 Operace s maticemi

Statistická analýza jednorozměrných dat

Maticí typu (m, n), kde m, n jsou přirozená čísla, se rozumí soubor mn veličin a jk zapsaných do m řádků a n sloupců tvaru:

Univerzita Pardubice Fakulta chemicko technologická Katedra analytické chemie Licenční studium Management systému jakosti

Kanonická korelační analýza

SEMESTRÁLNÍ PRÁCE. Určení vnitřní struktury analýzou vícerozměrných dat. Ing. Pavel Bouchalík

Korelace. Komentované řešení pomocí MS Excel

Faktorová analýza. PSY252 Statistická analýza dat v psychologii II

2 Zpracování naměřených dat. 2.1 Gaussův zákon chyb. 2.2 Náhodná veličina a její rozdělení

Univerzita Pardubice Chemicko-technologická fakulta Katedra analytické chemie

Univerzita Pardubice. Fakulta chemicko-technologická. Katedra analytické chemie. Semestrální práce. Licenční studium

POLYNOMICKÁ REGRESE. Jedná se o regresní model, který je lineární v parametrech, ale popisuje nelineární závislost mezi proměnnými.

S E M E S T R Á L N Í

Regresní a korelační analýza

Časové řady, typy trendových funkcí a odhady trendů

Zpracování digitalizovaného obrazu (ZDO) - Popisy III

Počítačová analýza vícerozměrných dat v oborech přírodních, technických a společenských věd

Analýza hlavních komponent

Úlohy nejmenších čtverců

Fakulta chemicko technologická Katedra analytické chemie

6. Lineární regresní modely

Aplikovaná numerická matematika

Časové řady, typy trendových funkcí a odhady trendů

Definice 13.1 Kvadratická forma v n proměnných s koeficienty z tělesa T je výraz tvaru. Kvadratická forma v n proměnných je tak polynom n proměnných s

11 Analýza hlavních komponet

Měření závislosti statistických dat

Vektory a matice. Obsah. Aplikovaná matematika I. Carl Friedrich Gauss. Základní pojmy a operace

KORELACE. Komentované řešení pomocí programu Statistica

KGG/STG Statistika pro geografy

AVDAT Mnohorozměrné metody, metody klasifikace

Statistika. Regresní a korelační analýza Úvod do problému. Roman Biskup

8. Normální rozdělení

Pearsonův korelační koeficient

Vliv realizace, vliv přesnosti centrace a určení výšky přístroje a cíle na přesnost určovaných veličin

Vícerozměrné statistické metody

AVDAT Klasický lineární model, metoda nejmenších

Pravděpodobnost v závislosti na proměnné x je zde modelován pomocí logistického modelu. exp x. x x x. log 1

POPISNÁ STATISTIKA Komentované řešení pomocí programu Statistica

Stavový model a Kalmanův filtr

Testování hypotéz o parametrech regresního modelu

Vícerozměrná rozdělení

Testování hypotéz o parametrech regresního modelu

Příklad 2: Určení cihlářských surovin na základě chemické silikátové analýzy

Tomáš Karel LS 2012/2013

Náhodný vektor a jeho charakteristiky

AVDAT Geometrie metody nejmenších čtverců

Regresní a korelační analýza

4. Aplikace matematiky v ekonomii

3.4 Určení vnitřní struktury analýzou vícerozměrných dat

RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr.

Jednofaktorová analýza rozptylu

NÁHODNÝ VEKTOR. 4. cvičení

Teorie informace a kódování (KMI/TIK) Reed-Mullerovy kódy

, Brno Hanuš Vavrčík Základy statistiky ve vědě

PRAVDĚPODOBNOST A STATISTIKA

Regresní a korelační analýza

Přednáška 13 Redukce dimenzionality

LIDSKÉ ZDROJE JAKO PŘEDPOKLAD REGIONÁLNÍHO ROZVOJE

Korelační a regresní analýza. 1. Pearsonův korelační koeficient 2. jednoduchá regresní analýza 3. vícenásobná regresní analýza

Ilustrační příklad odhadu LRM v SW Gretl

Obsah Úvod Kapitola 1 Než začneme Kapitola 2 Práce s hromadnými daty před analýzou

Vícerozměrné statistické metody

= = 2368

Lineární regrese. Komentované řešení pomocí MS Excel

MATEMATICKÉ PRINCIPY VÍCEROZMĚRNÉ ANALÝZY DAT

Value at Risk. Karolína Maňáková

4 STATISTICKÁ ANALÝZA VÍCEROZMĚRNÝCH DAT

KGG/STG Statistika pro geografy

Regresní analýza. Ekonometrie. Jiří Neubauer. Katedra ekonometrie FVL UO Brno kancelář 69a, tel

Porovnání dvou výběrů

ANOVA. Semestrální práce UNIVERZITA PARDUBICE. Fakulta chemicko-technologická Katedra analytické chemie

UNIVERZITA PARDUBICE

Statistická analýza jednorozměrných dat

LEKCE 11 FAKTOROVÁ ANALÝZA

Náhodné veličiny jsou nekorelované, neexistuje mezi nimi korelační vztah. Když jsou X; Y nekorelované, nemusí být nezávislé.

VYBRANÉ PARTIE Z NUMERICKÉ MATEMATIKY

Zpracování náhodného vektoru. Ing. Michal Dorda, Ph.D.

MÍRY ZÁVISLOSTI (KORELACE A REGRESE)

Závislost obsahu lipoproteinu v krevním séru na třech faktorech ( Lineární regresní modely )

MODEL TVÁŘECÍHO PROCESU

Vzorová prezentace do předmětu Statistika

MĚŘENÍ STATISTICKÝCH ZÁVISLOSTÍ

Statistika II. Jiří Neubauer

Transkript:

Faktorová analýza Faktorová analýza je vícerozměrná statistická metoda, jejíž podstatou je rozbor struktury vzájemných závislostí proměnných na základě předpokladu, že jsou tyto závislosti důsledkem působení určitého menšího počtu v pozadí stojících nezměřitelných faktorů, které jsou nazývány společné faktory (nebo faktory, common factors, factors). Cílem faktorové analýzy je tedy redukce počtu proměnných (neboli charakterizování sady p proměnných menším počtem společných faktorů) a odhalení struktury vztahů mezi proměnnými. Faktorová analýza vznikla v oblasti psychologie a byla po dlouhou dobu používána téměř výhradně v tomto oboru. V posledních desetiletích ovšem pronikla i do dalších vědních oborů a našla uplatnění i v biologii a medicíně. Faktorovou analýzu lze do určité míry považovat za rozšíření metody hlavních komponent (PCA) [odkaz na http://portal.matematickabiologie.cz/index.php?pg=analyza-a-hodnocenibiologickych-dat--vicerozmerne-metody-pro-analyzu-dat--ordinacni-analyzy--analyza-hlavnichkomponent-pca], ale na rozdíl od PCA vychází ze snahy vysvětlit závislosti proměnných. Mezi nedostatky PCA patří, že je závislá na změnách měřítka proměnných (normování dat hraje roli v tom smyslu, že kovarianční matice vede k jinému řešení než korelační matice). Přístup faktorové analýzy umožňuje tento nedostatek odstranit, ale má jiné slabiny. Problémy ve faktorové analýze můžou spočívat v nejednoznačnosti odhadů faktorových parametrů (tedy závislost výsledků faktorové analýzy na použité rotaci) a v nutnosti specifikovat počet společných faktorů (common factors) před provedením analýzy. Předností faktorové analýzy je větší úspornost a obecnost. Stejně jako u PCA je i u faktorové analýzy problémem při interpretaci faktorů, pokud proměnné nemají vícerozměrné normální rozdělení Výstupy z výukové jednotky Student: umí definovat podstatu faktorové analýzy, umí popsat model faktorové analýzy, umí definovat společné znaky i rozdíly faktorové analýzy a analýzy hlavních komponent, umí definovat rozdíly různých metod rotace faktorů, umí interpretovat výsledek faktorové analýzy podle numerických výsledků.. Princip faktorové analýzy Na rozdíl od analýzy hlavních komponent (PCA), jejíž hlavním cílem je vysvětlit maximum variability dat, se faktorová analýza snaží vysvětlit kovarianci mezi proměnnými. Faktorová analýza předpokládá, že pozorované proměnné jsou lineární kombinací hypotetických proměnných - faktorů. Ve faktorové analýze se tedy vysvětluje vzájemná lineární závislost pozorovaných proměnných existencí menšího počtu nepozorovatelných faktorů zvaných společné faktory (common factors) a dalších zdrojů variability nazývaných chybové či specifické faktory (nebo též rušivé či reziduální složky). Společné faktory vyvolávají korelace mezi proměnnými, zatímco chybové faktory pouze přispívají k rozptylu jednotlivých pozorovaných proměnných. Předmětem zájmu faktorové analýzy jsou především společné faktory. Základem faktorové 1

analýzy je předpoklad, že pozorované kovariance (resp. korelace) mezi proměnnými jsou výsledkem působení společných faktorů a ne vzájemného vztahu mezi proměnnými. 3. Porovnání faktorové analýzy a analýzy hlavních komponent V první řadě připomeňme nutnou podmínku pro použití faktorové analýzy nebo analýzy hlavních komponent, a tou jsou korelace mezi původními proměnnými. Faktorovou analýzu ani PCA nemá smysl použít, když jsou původní proměnné nekorelované. Faktorová analýza pak nemá co objasnit a PCA povede k hlavním komponentám totožným s původními proměnnými. Faktorová analýza pracuje podobně jako PCA s korelační nebo kovarianční maticí a nalézá první hlavní faktor tak, aby vysvětloval největší část rozptylu datové matice. Další faktory jsou konstruovány takovým způsobem, aby byly nezávislé, čili nekorelované, a vyčerpávaly sestupně maximum celkového rozptylu. Faktorová analýza se pokouší objasnit kovariance a korelace původních proměnných pomocí několika málo společných faktorů, zatímco PCA objasňuje pouze rozptyl původních proměnných. Výpočet u PCA je přímočarý, jednoduchý. U faktorové analýzy je výpočet faktorového skóre daleko komplexnější a byla pro něj navržena řada postupů. Rozdíl mezi faktorovou analýzou a analýzou hlavních komponent je i v posledním kroku analýzy. U faktorové analýzy jsou faktory rotovány tak, aby co nejjednodušeji popisovaly proměnné, tj. aby byly co nejblíže situovány co největšímu počtu původních proměnných. To je dosaženo v situacích, kdy jsou hlavní faktory co nejblíže skupině silně korelovaných proměnných. V těchto situacích můžou být hlavní faktory do určité míry korelovány (viz níže neortogonální rotace faktorů). 4. Model faktorové analýzy Předpokládejme, že x T = (x 1, x,..., x p ) T je jeden objekt popsaný p pozorovanými proměnnými. Obecný model faktorové analýzy předpokládá, že existuje m v pozadí stojících společných faktorů F 1, F,..., F m, kterých je méně než p. Potom můžeme daný objekt zapsat jako lineární kombinaci společných faktorů následujícím způsobem x 1 = l11f1 + l1 F +... + l1m Fm + e1 = l1f1 + lf +... + lm Fm + e x... x = l F + l F +... + l F + e p p1 1 p pm m p, (1) kde F 1, F,... F m jsou společné faktory, které vyvolávají korelace mezi p původními proměnnými. Tyto faktory mají nulovou střední hodnotu a jednotkový rozptyl. V modelu se dále vyskytují chybové složky e 1, e,... e p, označované jako specifické faktory, které přispívají k rozptylu jednotlivých proměnných. Koeficienty l ik nazýváme faktorové váhy nebo zátěže (factor loadings) i-té proměnné na j-tém společném faktoru F j, i=1,...,p, j=1,...,m. Jinak řečeno, faktorové zátěže l ij lze za předpokladu stejných měřících jednotek interpretovat jako příspěvek j- tého faktoru i-té vysvětlované proměnné. Faktorové zátěže tedy představují (při splnění určitých podmínek řešení) kovariance či korelace mezi původními a novými proměnnými. Uvedený faktorový model můžeme přepsat v maticové podobě jako T X = FL + E, ()

kde X je datová matice rozměru nxp, F je matice rozměru nxm, jejíž sloupce jsou jednotlivé společné faktory F 1, F,... F m, L je matice faktorových zátěží rozměru pxm a E je matice chyb s rozměrem nxp, jejíž sloupce jsou jednotlivé specifické faktory e 1, e,... e p. Pro ortogonální faktorový model lze kovarianční matici S vstupujících proměnných (tedy sloupců datové matice X), jejíž rozměr je pxp, napsat ve formě tzv. základní faktorové věty ve tvaru T S = LL + Γ, (3) kde LL T je kovarianční matice sloupců matice FL T, přičemž (FL T ) T (FL T ) =L F T FL T = LL T, protože kovarianční matice společných faktorů F T F je jednotková matice z důvodu, že faktory jsou nekorelované a mají jednotkový rozptyl. Matice Γ je kovarianční matice chybových faktorů a nazývá se matice jedinečností. Je to diagonální matice, protože předpokládáme nekorelované chyby. Faktorový model nám tedy umožní rozdělení rozptylu původních proměnných (diagonální prvky matice S) na dvě části, a to na část vysvětlenou společnými faktory (diagonální prvky matice LL T ) označovanou jako komunalita (communality) a část nevysvětlenou společnými faktory (diagonální prvky matice jedinečností Γ ) označovanou jako jedinečnost. Komunalita i-té proměnné h i (tedy i-tý diagonální prvek matice LL T ) vyjadřuje míru proměnlivosti a je vahou, s jakou jednotlivé společné faktory přispívají do rozptylu dané proměnné. Lze ji vyjádřit jako h i = l i1 + l i +...+ l im, tedy jako součet druhých mocnin faktorových zátěží. Jedinečnost i-té proměnné (Γ i ) bývá dále rozdělována na specificitu Γ is a nespolehlivost Γ in. Specifita představuje tu část variability, kterou nelze vysvětlit ani chybou experimentu, ani společnými faktory, zatímco nespolehlivost představuje experimentální chybu při měření faktorů. Uvedený způsob rozkladu variability představuje základní hledisko pro klasifikaci metod faktorové analýzy. Metoda hlavních komponent je zvláštním případem faktorové analýzy, kdy je matice jedinečností Γ nulová, a tudíž se předpokládá, že prostřednictvím hlavních komponent lze proměnlivost zdrojové matice beze zbytku reprodukovat. Jde tedy o vhodnou ortogonální transformaci, která beze zbytku zachovává všechnu původní proměnlivost. Hovoříme pak z hlediska faktorové analýzy o úplné komponentní analýze. Jestliže při reprodukci pomocí hlavních komponent reprodukujeme pouze podstatnou část proměnlivosti (ale ne všechnu), jedná se o neúplnou komponentní analýzu. Pro odhad parametrů faktorového modelu se často používá analýza hlavních komponent. Pomocí hlavních komponent si můžeme daný objekt zapsat pomocí p x1 = a11 y1 + a1 y +... + a1 p y p x = a1 y1 + a y +... + a p y p... x = a y + a y +... + a p1 1 p pp p. y (4) Naším cílem je však nalezení pouze m společných faktorů (m<p), proto je pomocí PCA nalezeno jen prvních m hlavních komponent (y j, j=1,...,m), které zahrnují největší podíl rozptylu všech původních proměnných. Stanovení hodnoty m může probíhat na základě expertní znalosti, procenta vyčerpané variability danými komponentami, sutinového grafu (scree plot) či Kaiserova-Gutmanova kritéria. Hlavní komponenty jsou následně modifikovány do faktorového modelu. Aby byl rozptyl společných faktorů jednotkový, vydělí se každá hlavní komponenta její směrodatnou odchylkou s jj (což je diagonální prvek matice S) a vznikne tak společný faktor 3

F j = y s, (5) j jj z něhož můžeme vyjádřit j-tou hlavní komponentu jako y = F s. (6) j j jj Po dosazení do (4) a použití pouze prvních m komponent, přičemž zbylé komponenty shrneme do chybových složek (specifických faktorů) e i následujícím způsobem e i = am 1, i Fm+ 1 sm+ 1, m+ 1 +... + a pi Fp s pp +, (7) dostáváme 1 = l11f1 + l1 F +... + l1m Fm + e1 = l1f1 + lf +... + lm Fm + e x x... x = l F + l F +... + l F + e p p1 1 p pm m p, (8) což je faktorový model totožný s (1), přičemž faktorové zátěže lze vyjádřit jako l = a. Tím jsme transformovali hlavní komponenty na faktory. Protože naším cílem je nejen nalezení společných faktorů, jejichž počet je menší než počet původních proměnných, ale i jejich dobrá interpretace, provedeme v následujícím kroku rotaci faktorů. ij ij s jj 5. Rotace faktorů Přestože první fáze faktorové analýzy probíhá stejně jako PCA, interpretace výsledků je jiná než při PCA, což je způsobeno právě rotací faktorů ve druhé fázi analýzy. Rotace faktorů slouží k usnadnění jejich interpretace. Cílem je lokalizace souřadnicové soustavy do prostoru společných faktorů tak, aby byla dosažena nejjednodušší struktura, tj. řešení, kde některé faktorové zátěže jsou maximalizovány a jiné minimalizovány. Pro rotaci faktorů existuje několik možností (Obrázek 1). Rotace faktorů může být ortogonální (orthogonal) nebo neortogonální (non-orthogonal, oblique). Ortogonální rotace zachovává nezávislost faktorů, které jsou tedy nekorelované. U neortogonální rotace se nové faktory stávají do určité míry korelované. Nejznámější metody ortogonální rotace jsou varimax (variance maximazing) a quartimax. Rotace varimax je nejběžnější možností rotace. Maximalizuje sumu rozptylů všech faktorů. Quartimax rotace minimalizuje počet faktorů potřebných k vysvětlení všech proměnných. Při této rotaci má každá proměnná vysokou váhu jenom pro jeden faktor a nízké váhy pro všechny ostatní faktory. Obě tyto rotace mohou být použity s normalizací vah faktorů nebo bez této normalizace. 4

a b F c F F 1 F 1 Obrázek 1 a. Nerotovaný prostor, b. Ortogonální rotace v prostoru dvou faktorů F1 a F, c. Neortogonální rotace stejné situace. 6. Příklad Faktorovou analýzu představíme na příkladu hodnocení životní spokojenosti respondentů. Jde o datový soubor factor.sta, který je součástí ukázkových příkladů v softwaru STATISTICA (Tabulka 1). Tabulka 1 Část vstupní tabulky k analýze hodnocení životní spokojenosti respondentů. Hodnoty spokojenosti s prací, koníčky a domácností byly zaznamenány u 100 respondentů (zde pouze ukázka prvních 10 respondentů). V posledních dvou řádcích je uveden průměr a směrodatná odchylka jednotlivých proměnných. ID Prace1 Prace Prace3 Konicky1 Konicky Doma1 Doma Doma3 Ruzne1 Ruzne 1 105,1 101,7 115,1 101,0 95, 100,3 101,7 85,6 104,0 110,3 77,0 7,9 77,5 7,7 61,6 93,9 95,4 88,6 70,1 7,0 3 86,0 8, 78,9 78,0 91,7 86,8 108,1 93,3 86,0 70,7 4 91,4 106,1 95,6 90,9 111,5 100, 86,1 93,8 101, 8,7 5 113,7 9,0 99,1 79,3 98,4 104,0 83,3 69,6 8,8 70,0 6 86,6 87,8 67,7 93,7 78,0 99,8 97,3 108,6 91,4 79,8 5

7 95,1 94,5 98,1 94,5 97,4 93,7 99, 96,4 90,7 86,7 8 113,5 104,6 105,6 101,0 10,3 87,4 96,7 86,6 93,1 11,7 9 104,5 97,3 94,1 88,5 98,1 97,8 99,6 99,8 99,4 105,9 10 104,6 97,9 85,8 8,5 90,4 104,7 95,1 99,7 77,6 6,0................................. Průměr 97,0 98, 98,9 98,0 100,1 99,5 101,6 101,4 99, 98, Sm.odch. 15,5 11,3 1,5 15,9 19,9 1,0 11,1 1,7 17,0 19,1 Řešení Před výpočtem faktorových zátěží je vhodné zkontrolovat, zda jsou původní proměnné korelovány. Kdyby byla korelace všech proměnných malá a statisticky nevýznamná, v datech by se skrytá struktura nevyskytovala a nemělo by tedy smysl faktorovou analýzu k jejímu hledání použít. Sílu korelace proměnných ověříme pomocí korelační matice (Tabulka ) a maticového grafu (Obr. ). Protože tabulka i graf ukazují, že jsou v datech silné korelace mezi některými proměnnými, použijeme faktorovou analýzu k nalezení skrytých faktorů. Tabulka Matice korelací původních proměnných. Prace1 Prace Prace3 Konicky1 Konicky Doma1 Doma Doma3 Ruzne1 Ruzne Prace1 1 0,65 0,65 0,60 0,5 0,14 0,15 0,14 0,61 0,55 Prace 0,65 1 0,73 0,69 0,70 0,14 0,18 0,4 0,71 0,68 Prace3 0,65 0,73 1 0,64 0,63 0,16 0,4 0,5 0,70 0,67 Konicky1 0,60 0,69 0,64 1 0,80 0,54 0,63 0,58 0,90 0,84 Konicky 0,5 0,70 0,63 0,80 1 0,51 0,50 0,48 0,81 0,76 Doma1 0,14 0,14 0,16 0,54 0,51 1 0,66 0,59 0,50 0,4 Doma 0,15 0,18 0,4 0,63 0,50 0,66 1 0,73 0,64 0,59 Doma3 0,14 0,4 0,5 0,58 0,48 0,59 0,73 1 0,59 0,5 Ruzne1 0,61 0,71 0,70 0,90 0,81 0,50 0,64 0,59 1 0,84 Ruzne 0,55 0,68 0,67 0,84 0,76 0,4 0,59 0,5 0,84 1 Prace1 Prace Prace3 Konicky1 Konicky Doma1 Doma Doma3 Ruzne1 Ruzne 6

Obrázek Maticový graf vztahů původních proměnných. Jako metodu extrakce faktorů zvolíme analýzu hlavních komponent, tedy vytvoříme hlavní komponenty na základě výše uvedené korelační matice. Vlastní číslo prvního faktoru je 6,118 a rozptyl vysvětlený tímto faktorem je 61,%. Druhý faktor vysvětluje 18,0% rozptylu a zbylé faktory vždy méně než 5% celkového rozptylu (Obr 3). Další vlastní čísla jsou menší než jedna, podle Kaiserova-Guttmanova kritéria je tedy vhodné interpretovat pouze první dva faktory, protože jenom ty vysvětlují více rozptylu než původní proměnné. Z grafického znázornění vlastních čísel pomocí sutinového grafu (scree plot) na Obr. 3 však vyplývá, že došlo ke dvěma důležitým zlomům na křivce, a to pro dva a tři faktory. Z tohoto důvodu je možné doporučit řešení faktorové analýzy nejen pro dva faktory, jak tomu vyplynulo z Kaiserova-Guttmanova kritéria, ale i pro tři faktory. 7,0 6,5 6,0 6,118 5,5 5,0 4,5 Vlastní číslo 4,0 3,5 3,0,5,0 1,801 1,5 1,0 0,5 0,0 0,473 0,408 0,317 0,93 0,196 0,170 0,138 0,085 1 3 4 5 6 7 8 9 10 Obrázek 3 Sutinový graf znázorňující vlastní čísla příslušná jednotlivým faktorům. Podívejme se teď na faktorové zátěže. Uvedli jsme, že faktorové váhy (neboli zátěže) můžeme interpretovat jako korelace mezi faktory a proměnnými. Faktorové zátěže tedy představují nejdůležitější informaci pro interpretaci faktorů. V tabulce 3 jsou uvedeny faktorové zátěže nerotovaných faktorů. U prvního faktoru se nalézají nejvyšší faktorové zátěže, u druhého nižší, atd. Faktory s vyšším pořadovým číslem vysvětlují stále méně a méně variability v datech. Červeně jsou vyznačeny statisticky významné vztahy. Znaménko faktorové zátěže hraje roli jen v tom smyslu, že proměnné se zátěžemi s opačným znaménkem u toho samého faktoru mají k tomuto faktoru opačný vztah. Když všechny zátěže u faktoru vynásobíme hodnotou -1 (např. v našem případě u Faktoru 1), výsledek tímto nebude ovlivněn. Faktor Tabulka 3 Faktorové zátěže nerotovaných faktorů. Faktor 1 Faktor Faktor 3 Faktor 4 Faktor 9 Faktor 10 Prace1-0,653 0,514 0,30 0,439 0,080 0,004 Prace -0,757 0,495-0,079-0,1 0,104 0,01 Prace3-0,746 0,457-0,105 0,031-0,018 0,039 Konicky1-0,94-0,0 0,013 0,00-0,43 0,17 7

Konicky -0,876 0,05 0,100-0,35 0,089 0,018 Doma1-0,576-0,605 0,491-0,115 0,004-0,00 Doma -0,671-0,618-0,16 0,160 0,145 0,048 Doma3-0,64-0,574-0,69 0,153 0,007 0,001 Ruzne1-0,95 0,014-0,050 0,07-0,157-0,4 Ruzne -0,900 0,048-0,15-0,035 0,088-0,030 Vlastní číslo 6,118 1,801 0,473 0,408 0,138 0,085 Vysvětlená variabilita 0,61 0,180 0,047 0,041... 0,014 0,009 Přistupme nyní k rotaci faktorů. Aktuální orientace faktorů je náhodná a všechny rotace reprodukují korelace stejně dobře. Je zřejmé, že rotace faktorů bude taková, aby faktorová struktura byla nejjednodušeji interpretovatelná. Faktorové řešení má jednoduchou strukturu, když mají faktory vysoké zátěže pro určité proměnné, nízké zátěže pro jiné a když je málo proměnných s vysokou zátěží pro více než jeden faktor. Nejběžnější metoda rotace, kterou je možné dosáhnout jednoduché struktury výsledných dat, je rotace varimax. Jak jsme již uvedli, je nutno zvolit počet faktorů, které chceme rotovat, tj. zachovat a interpretovat. Uvedli jsme, že podle Kaiserova-Guttmanova kritéria je vhodný počet faktorů dva, ovšem podle sutinového grafu můžeme zvolit také tři faktory. V našem příkladu tedy zvolíme počet faktorů tři a metodu rotace varimax. Výsledkem faktorové analýzy jsou tři faktory, jejichž zátěže jsou uvedeny v Tabulce 4. Vysoké faktorové zátěže prvního faktoru byly u všech proměnných kromě proměnných spokojenosti doma. Druhý faktor měl vysoké hodnoty faktorové zátěže pro dvě proměnné spokojenosti doma, třetí faktor pouze jedinou vysokou faktorovou zátěž pro jednu proměnnou spokojenosti doma. V tomto případě, kdy pouze jedna proměnná vykazuje vysokou hodnotu faktorové zátěže na třetím faktoru, je vhodné přehodnotit zachování tří faktorů a zvolit pouze dva faktory. Tabulka 4 Faktorové zátěže třech rotovaných faktorů (metoda rotace varimax). Faktor 1 Faktor Faktor 3 Prace1 0,840-0,157 0,7 Prace 0,899 0,119-0,049 Prace3 0,866 0,15-0,057 Konicky1 0,731 0,50 0,318 Konicky 0,76 0,371 0,337 Doma1 0,100 0,47 0,864 Doma 0,148 0,84 0,385 Doma3 0,147 0,858 0,36 Ruzne1 0,759 0,518 0,53 Ruzne 0,736 0,55 0,136 Vlastní číslo 4,495,59 1,305 Vysvětlená variabilita 0,450 0,59 0,131 Byla tedy následně provedena rotace varimax pro dva faktory (Tabulka 5). Při zachování dvou faktorů vykazuje první faktor vysoké zátěže pro proměnné spokojenosti při práci, spokojenosti s koníčky a spokojenosti v dalších (různých) oblastech. Proměnné spokojenosti doma dosahují nejmenších zátěží. Druhý faktor vykazuje nejvyšší zátěže proměnných spokojenosti doma a nejnižší zátěže pro spokojenost v práci. Ostatní proměnné leží přibližně 8

uprostřed. Faktorové zátěže všech proměnných můžeme zobrazit v dvourozměrném grafu (Obrázek 4). Interpretace faktorů je zcela zřejmá, první faktor můžeme interpretovat jako spokojenost při práci (Faktor 1) a druhý faktor jako spokojenost doma (Faktor ). Spokojenost s koníčky a spokojenost v dalších oblastech života mají vztah s oběma faktory. Spokojenost při práci a spokojenost doma jsou na sobě nezávislé, obě ovšem přispívají ke spokojenosti s koníčky a spokojenosti v dalších aspektech života. Tabulka 5 Faktorové zátěže dvou rotovaných faktorů (metoda rotace varimax). Faktor 1 Faktor Prace1 0,831-0,019 Prace 0,90 0,059 Prace3 0,871 0,083 Konicky1 0,740 0,583 Konicky 0,731 0,484 Doma1 0,097 0,830 Doma 0,166 0,897 Doma3 0,168 0,844 Ruzne1 0,769 0,561 Ruzne 0,749 0,50 Vlastní číslo 4,56 3,358 Vysvětlená variabilita 0,456 0,336 1,0 0,8 Doma1 Doma Doma3 Faktor 0,6 0,4 Konicky1 Ruzne1 Konicky Ruzne 0, 0,0 Prace3 Prace Prace1 0,0 0,1 0, 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1,0 Faktor 1 Obrázek 4 Zobrazení faktorových zátěží v dvourozměrném řešení, metoda rotace varimax. Na tomto místě můžeme přistoupit ke zhodnocení spolehlivosti dvourozměrné reprezentace původních proměnných. Jak už jsme výše uvedli, první dva faktory vysvětlují 79% celkové variability. Z matice reziduálních korelací (Tabulka 6) vidíme, jak dobře dvourozměrné řešení faktorové analýzy reprodukuje pozorovanou korelační matici původních proměnných. Hodnoty v matici reziduí představují korelaci proměnných, která není vysvětlena dvourozměrným řešením faktorové analýzy. Prvky na diagonále matice představují směrodatnou odchylku, která nemohla 9

být vysvětlena. Tato hodnota je rovna odmocnině z jedna mínus příslušná komunalita dvou faktorů (komunalita proměnné je rozptyl, který může být vysvětlen příslušným počtem faktorů). Tabulka 6 Reziduální korelace. Prace1 Prace Prace3 Konicky1 Konicky Doma1 Doma Doma3 Ruzne1 Ruzne Prace1 0,31-0,10-0,07-0,01-0,08 0,08 0,0 0,01-0,0-0,06 Prace -0,10 0,18-0,06-0,01 0,01 0,01-0,0 0,03-0,0-0,0 Prace3-0,07-0,06 0,4-0,06-0,05 0,01 0,0 0,04-0,0-0,0 Konicky1-0,01-0,01-0,06 0,11-0,0-0,0-0,01-0,03 0,01 0,00 Konicky -0,08 0,01-0,05-0,0 0,3 0,03-0,06-0,05-0,0-0,04 Doma1 0,08 0,01 0,01-0,0 0,03 0,30-0,10-0,13-0,04-0,06 Doma 0,0-0,0 0,0-0,01-0,06-0,10 0,17-0,05 0,01 0,0 Doma3 0,01 0,03 0,04-0,03-0,05-0,13-0,05 0,6-0,0-0,03 Ruzne1-0,0-0,0-0,0 0,01-0,0-0,04 0,01-0,0 0,09-0,0 Ruzne -0,06-0,0-0,0 0,00-0,04-0,06 0,0-0,03-0,0 0,19 Z tabulky 6 vidíme, že reziduální korelace nejsou větší než 0,13 nebo menší než -0,13. To jsou velice příznivé hodnoty potvrzující (společně s 79% vysvětlenou variabilitou) spolehlivé dvourozměrné řešení. Na závěr uvedeme komunality a koeficienty faktorového skóre (Tabulka 7). Připomeňme, že komunality proměnných představují část rozptylu vysvětlenou daným počtem faktorů. Rotace faktorového prostoru nemá na komunality žádný vliv. Velice nízké komunality jedné nebo více proměnných naznačují, že tyto proměnné nejsou dostatečně dobře vysvětleny daným modelem. Koeficienty faktorových skóre představují váhy, které se použijí k výpočtu faktorového skóre z proměnných. Můžou být použity v dalších analýzách. Tabulka 7 Komunality a faktorové skóre Komunality Koef. faktorových skóre Z 1 faktoru Z faktorů R^ Faktor 1 Faktor Prace1 0,690 0,690 0,560 0,57-0,164 Prace 0,814 0,818 0,735 0,64-0,145 Prace3 0,758 0,765 0,654 0,50-0,130 Konicky1 0,547 0,887 0,866 0,116 0,10 Konicky 0,535 0,769 0,739 0,13 0,063 Doma1 0,009 0,698 0,541-0,16 0,35 Doma 0,07 0,833 0,739-0,118 0,340 Doma3 0,08 0,741 0,584-0,108 0,318 Ruzne1 0,591 0,906 0,884 0,19 0,087 Ruzne 0,561 0,813 0,779 0,134 0,067 7. Seznam použité literatury [1] Hebák, P., Hustopecký, J., Pecáková, I., Průša, M., Řezanková, H., Svobodová, A., Vlach, P. Vícerozměrné statistické metody (3).. přepracované vydání, Informatorium, Praha, ISBN 9788073330019 (007) 10

[] Legendre, P., Legendre, L. Numerical Ecology, nd Engl. Ed., Elsevier, Amsterdam, ISBN 044489494. (1998) [3] Manly, B.F.J. Multivariate Statistical Methods. Second edition. Chapman & Hall. 3 pp. (1994) [4] Meloun, M., Militký, J. Kompendium statistického zpracování dat. Metody a řešené úlohy včetně CD. Academia. 766pp. (00). [5] StatSoft, Inc. STATISTICA (data analysis software system), version 1. www.statsoft.com. (013) 11

Obsah Faktorová analýza... 1 Výstupy z výukové jednotky... 1. Princip faktorové analýzy... 1 3. Porovnání faktorové analýzy a analýzy hlavních komponent... 4. Model faktorové analýzy... 5. Rotace faktorů... 4 6. Příklad... 5 7. Seznam použité literatury...10 1