Faktorová analýza (FACT)

Podobné dokumenty
Kanonická korelační analýza

Výstupy z výukové jednotky. 2. Princip faktorové analýzy

Počítačová analýza vícerozměrných dat v oborech přírodních, technických a společenských věd

Profilování vzorků heroinu s využitím vícerozměrné statistické analýzy

AVDAT Mnohorozměrné metody metody redukce dimenze

Úvod do vícerozměrných metod. Statistické metody a zpracování dat. Faktorová a komponentní analýza (Úvod do vícerozměrných metod)

Statistické metody a zpracování dat. IX Faktorová a komponentní analýza (Úvod do vícerozměrných metod) Petr Dobrovolný

Příklad 2: Obsah PCB v játrech zemřelých lidí. Zadání: Data: Program:

Fakulta chemicko-technologická Katedra analytické chemie. 3.2 Metody s latentními proměnnými a klasifikační metody

AVDAT Klasický lineární model, metoda nejmenších

Regresní analýza 1. Regresní analýza

Regresní a korelační analýza

Závislost obsahu lipoproteinu v krevním séru na třech faktorech ( Lineární regresní modely )

AVDAT Geometrie metody nejmenších čtverců

vzorek vzorek

SEMESTRÁLNÍ PRÁCE 3.5 Klasifikace analýzou vícerozměrných dat

UNIVERZITA PARDUBICE Fakulta chemicko-technologická Katedra analytické chemie Nám. Čs. Legií 565, Pardubice

Univerzita Pardubice 8. licenční studium chemometrie

Testování předpokladů pro metodu chain-ladder. Seminář z aktuárských věd Petra Španihelová

Vyhodnocení průměrných denních analýz kalcinátu ananasového typu. ( Metoda hlavních komponent )

3.4 Určení vnitřní struktury analýzou vícerozměrných dat

POLYNOMICKÁ REGRESE. Jedná se o regresní model, který je lineární v parametrech, ale popisuje nelineární závislost mezi proměnnými.

PŘÍKLAD 4.5 Chromatografická analýza farmakologických sloučenin Byly měřeny hodnoty R F pro 20 sloučenin s 18 eluenty. Žádné eluční činidlo však nepro

Úvodem Dříve les než stromy 3 Operace s maticemi

Regresní a korelační analýza

Faktorová analýza. Ekonometrie. Jiří Neubauer. Katedra ekonometrie FVL UO Brno kancelář 69a, tel

Stanovení manganu a míry přesnosti kalibrace ( Lineární kalibrace )

Regresní a korelační analýza

x T 1 matici & S 1 kovarianční matici &

Regresní a korelační analýza

Faktorová analýza Osnova

Regresní a korelační analýza

Semestrální práce. 3.1 Matematické principy analýzy vícerozměrných dat

Náhodné veličiny jsou nekorelované, neexistuje mezi nimi korelační vztah. Když jsou X; Y nekorelované, nemusí být nezávislé.

Regresní a korelační analýza

AVDAT Mnohorozměrné metody, metody klasifikace

Afinita je stručný název pro afinní transformaci prostoru, tj.vzájemně jednoznačné afinní zobrazení bodového prostoru A n na sebe.

Příklad 2: Určení cihlářských surovin na základě chemické silikátové analýzy

UNIVERZITA PARDUBICE Fakulta chemicko-technologická Katedra analytické chemie

Interpolace, ortogonální polynomy, Gaussova kvadratura

1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.

KGG/STG Statistika pro geografy

Náhodné vektory a matice

Statistická analýza jednorozměrných dat

Univerzita Pardubice Fakulta chemicko technologická Katedra analytické chemie Licenční studium Management systému jakosti

Odhalení skryté struktury a vnitřních vazeb dat metodami vícerozměrné statistické analýzy

Univerzita Pardubice. Fakulta chemicko-technologická. Katedra analytické chemie. Semestrální práce. Licenční studium

Univerzita Pardubice Fakulta chemicko technologická Katedra analytické chemie Licenční studium chemometrie

Zpracování náhodného vektoru. Ing. Michal Dorda, Ph.D.

MATEMATICKÉ PRINCIPY VÍCEROZMĚRNÉ ANALÝZY DAT

6. Lineární regresní modely

6. Lineární regresní modely

MÍRY ZÁVISLOSTI (KORELACE A REGRESE)

11 Analýza hlavních komponet

Statistická analýza jednorozměrných dat

(Cramerovo pravidlo, determinanty, inverzní matice)

SEMESTRÁLNÍ PRÁCE. Leptání plasmou. Ing. Pavel Bouchalík

KGG/STG Statistika pro geografy

ZX510 Pokročilé statistické metody geografického výzkumu

Univerzita Pardubice Chemicko-technologická fakulta Katedra analytické chemie

UNIVERZITA PARDUBICE Fakulta chemicko-technologická Katedra analytické chemie Nám. Čs. Legií 565, Pardubice

Časové řady, typy trendových funkcí a odhady trendů

Diskriminační analýza hodnocení rozdílů mezi 2 nebo více skupinami objektů charakterizovanými více znaky

Předpoklad o normalitě rozdělení je zamítnut, protože hodnota testovacího kritéria χ exp je vyšší než tabulkový 2

Příklad 1. Korelační pole. Řešení 1 ŘEŠENÉ PŘÍKLADY Z MV2 ČÁST 13

Definice 13.1 Kvadratická forma v n proměnných s koeficienty z tělesa T je výraz tvaru. Kvadratická forma v n proměnných je tak polynom n proměnných s

4EK213 Lineární modely. 4. Simplexová metoda - závěr

4 STATISTICKÁ ANALÝZA VÍCEROZMĚRNÝCH DAT

Aplikovaná numerická matematika

Statistická analýza jednorozměrných dat

ANOVA. Semestrální práce UNIVERZITA PARDUBICE. Fakulta chemicko-technologická Katedra analytické chemie

PRAVDĚPODOBNOST A STATISTIKA

PRAVDĚPODOBNOST A STATISTIKA

Testování hypotéz o parametrech regresního modelu

Testování hypotéz o parametrech regresního modelu

Vícerozměrné statistické metody

5 Vícerozměrná data - kontingenční tabulky, testy nezávislosti, regresní analýza

1. Číselné posloupnosti - Definice posloupnosti, základní vlastnosti, operace s posloupnostmi, limita posloupnosti, vlastnosti limit posloupností,

Zpracování digitalizovaného obrazu (ZDO) - Popisy III

y = 0, ,19716x.

a vlastních vektorů Příklad: Stanovte taková čísla λ, pro která má homogenní soustava Av = λv nenulové (A λ i I) v = 0.

Časové řady, typy trendových funkcí a odhady trendů

You created this PDF from an application that is not licensed to print to novapdf printer (

Příloha č. 1 Grafy a protokoly výstupy z adstatu

Derivace funkcí více proměnných

Jarqueův a Beryho test normality (Jarque-Bera Test, JB test)

SEMESTRÁLNÍ PRÁCE. Určení vnitřní struktury analýzou vícerozměrných dat. Ing. Pavel Bouchalík

Korelační a regresní analýza. 1. Pearsonův korelační koeficient 2. jednoduchá regresní analýza 3. vícenásobná regresní analýza

SEMESTRÁLNÍ PRÁCE. Klasifikace analýzou vícerozměrných dat. Ing. Pavel Bouchalík

Plánování experimentu

X = x, y = h(x) Y = y. hodnotám x a jedné hodnotě y. Dostaneme tabulku hodnot pravděpodobnostní

Pravděpodobnost a aplikovaná statistika

Úlohy k přednášce NMAG 101 a 120: Lineární algebra a geometrie 1 a 2,

Náhodný vektor a jeho charakteristiky

Semestrální práce. 2. semestr

CVIČNÝ TEST 5. OBSAH I. Cvičný test 2. Mgr. Václav Zemek. II. Autorské řešení 6 III. Klíč 17 IV. Záznamový list 19

Přednáška XI. Asociace ve čtyřpolní tabulce a základy korelační analýzy

8 Coxův model proporcionálních rizik I

VYBRANÉ PARTIE Z NUMERICKÉ MATEMATIKY

Transkript:

Faktorová analýza (FAC) Podobně jako metoda hlavních komponent patří také faktorová analýza mezi metody redukce počtu původních proměnných. Ve faktorové analýze předpokládáme, že každou vstupující proměnnou můžeme vyjádřit jako lineární kombinaci nevelkého počtu společných skrytých faktorů a jediného chybového faktoru. Na rozdíl od komponentní analýzy se při faktorové analýze snažíme vysvětlit závislost proměnných. K nevýhodám metody patří zejména nutnost zadat počet společných faktorů ještě před prováděním vlastní analýzy. Předpokládáme-li, že x ( x 1, x,..., x m ) je jeden objekt pozorovaných proměnných s korelační R nebo kovarianční maticí C, potom můžeme všechny objekty X, rozměru n m zapsat jako model faktorové analýzy (FAC) ve tvaru x 1 l 11 f 1 l 1 f... l 1m f m C 1, x l 1 f 1 l f... l m f m C,... x n l n1 f 1 l n f... l nm f m C n, kde f 1, f,..., fm jsou faktory, které vyvolávají korelace mezi proměnnými a C 1, C,..., Cnjsou chybové faktory, které přispívají k rozptylu jednotlivých proměnných. Koeficienty lik nazýváme faktorové zátěže i-tého objektu u k-tého společného faktoru fka představují prvky matice faktorových zátěží. Model můžeme přepsat v maticové podobě jako x = Lf + ε. Pro ortogonální faktorový model lze kovarianční matici vektoru vstupujících proměnných čili sloupců zdrojové matice napsat ve formě tzv. základní faktorové věty ve tvaru C = LL + Γ, kde L je matice faktorových zátěží, dálell představuje vlastně kovarianční matici vektoru Lf akonečně Γ je matice jedinečností. Matice jedinečností Γ čili kovarianční matice chybových faktorů je matici diagonální, protože chyby předpokládáme nekorelované. Uvědomíme-li si dále, že diagonální prvky matice Γ představují rozptyly jednotlivých sloupců zdrojové matice, lze psát S = H + Γ kde S je diagonální matice rozptylů faktorů. Proměnlivost každého faktoru, vyjádřenou sloupcem zdrojové matice, můžeme rozdělit na součet dvou složek: komunalitu H, kterápředstavuje proměnlivost společnou všem faktorům a jedinečnost Γ, kterápředstavuje část proměnlivosti čili rozptylu, nevysvětlenou faktory. Komunalita H vyjadřuje míru proměnlivosti a jsou vahou, s jakou jednotlivé faktory přispívají do rozptylu odpovídající proměnné. Čtverec komunality je suma faktorových zátěží faktorů. Jedinečnost Γ bývá dále rozdělována na část specifity Γ a část nespolehlivosti Γ. Specifita představuje tu část proměnlivosti, kterou nelze vysvětlit ani chybou experimentu ani společnými faktory, zatímco nespolehlivost představuje experimentální chybu přiměření faktorů. Uvedený způsob rozkladu proměnlivosti představuje základní hledisko pro klasifikaci metod faktorové analýzy. Metoda hlavních komponent je zvláštním případem faktorové analýzy, kdy je model definován tvarem S = H a předpokládá se, že prostřednictvím hlavních komponent lze proměnlivost zdrojové matice beze zbytku reprodukovat. Jde tedy o vhodnou ortogonální transformaci, která zachovává všechnu původní proměnlivost, a to beze zbytku. Hovoříme pak z hlediska faktorové analýzy o úplné komponentní analýze. Jestliže při reprodukci pomocí hlavních komponent reprodukujeme pouze podstatnou část proměnlivosti (ale ne všechnu), jedná se ve faktorové analýze o neúplnou komponentní analýzu. Pro odhad parametrů faktorového modelu se často užívá metody hlavních komponent, která je aplikována na redukovanou kovarianční matici. Předpokládá se, že jsou známy nějaké počáteční odhady chybových rozptylů, které s n

jsou odečítány od diagonálních prvků výběrové korelační matice R. akto upravenou kovariační matici rozkládáme na součin matic LL 1 1, kde L1 představuje výchozí matici odhadů faktorových zátěží. Postup pokračuje iterativně aponěkolika krocích konverguje ke konečné matici odhadů faktorových zátěží. Pokud neznáme výchozí odhady chybových rozptylů (resp. komunalit), je možné určit speciálním postupem. Porovnání FAC a PCA: 1. Obě metody nemá cenu použít, když jsou původní proměnné x j, j = 1,..., m, nekorelované. FAC pak nemá co objasnit a PCA povede k hlavním komponentám totožným s původními proměnnými.. FAC postuluje model pro data, PCA nikoliv. 3. FAC se pokouší objasnit kovariance a korelace původních proměnných pomocí několika málo společných faktorů. PCAobjasňuje pouze rozptyl původních proměnných. 4. PCA: když zvýšíme počet použitých proměnných A o1naa+1, původní komponenty se nezmění. FAC: když přidáme další faktor, ostatní faktory se podstatně změní. 5. PCA: výpočet je přímočarý, jednoduchý. FAC: výpočet faktorového skore je daleko komplexnější a byla pro něj navržena řada postupů. 6. Obyčejně není žádný vztah mezi hlavními komponentami PC a korelační maticí R anebo kovarianční maticí C. Vzorová úloha 4.3. Vyčíslení faktorů z korelační matice Spearman (1904) analyzoval známky 00 žáků ze tří předmětů. Po vyčíslení korelační matice R uvažoval jeden faktor anásledující faktorový model: x 1 = λ1 f+u1 x = λ f+u x 3 = λ3 f+u3 V tomto případě můžeme pojmenovat faktor f jako všeobecnou inteligenci žáka a specifické proměnné u,u,u 1 3 mají malé rozptyly, když jsou dotyčné proměnné xi těsně spjaty s faktorem f. Zkorelační matice plyne, že λ1λ = 0.83, λ1λ 3= 0.78, λλ 3= 0.67, u 1 =1-λ1 u =1-λ u 3 =1-λ3 a řešenímvyjde λ = 0.99, λ = 0.84, λ = 0.79, 1 3 u = 0.83, u = 0.78, u = 0.67. 1 3 Vzorováúloha 4.4 Postup faktorové analýzy Na úloze B4.0 Účinky neuroleptik při tlumení rozličných psychóz si ukážeme pomůcky vícerozměrné analýzy dat. Kanalýze užijeme také škálovaná data. Řešení: byl použit program NCSS000. Výstup metody Factor Analysis programu NCSS000 pro nestandardizovaná data úlohy B40 obsahuje: 1. Popisné statistiky měr polohy a rozptýlení: Proměnná n x s Komunalita H B40X1 0 0.05 33.89997 1.004443 B40X 0 18.6 33.8436 1.00517 B40X3 0.95 5.06019 0.883469 B40X4 0 10.35 36.64951 0.846859 Klasické odhady parametrů polohy a rozptýlení pro jednotlivé proměnné informují o faktu,že proměnné byly správně vybrány. Komunalita ukazuje jak dobře jetatoproměnná predikována vybranými faktory.

. (a) Korelační matice: Proměnná B40X1 B40X B40X3 B40X4 B40X1 1.000000 0.99059 0.835934 0.844519 B40X 0.99059 1.000000 0.786439 0.851776 B40X3 0.835934 0.786439 1.000000 0.83784 B40X4 0.844519 0.851776 0.83784 1.000000 φ = 0.857883, Ln(Det R ) = -7.336319, Bartlettův test = 13.49, SV = 6, Spočtená hladina významnosti α = 0.000000 abulka přináší korelace k posouzení celkové korelační struktury dat. Je zde několik případů vysokého korelačního koeficientu. Jsou-li všechny korelace nízké, menší naž 0.3, není žádný důvod k užití faktorové analýzy. Gleason- Staelinova míra redundance φ = 0.8579 je veliká. Měří sílu vztahu mezi proměnnými. Nulová hodnota φ značí nulovou korelaci mezi proměnnými, zatímco hodnoty blízké jedné indikují silnou korelaci. I když je φ < 0.5, stále ještě může být nějaká struktura v datech. Vzorec k vyčíslení Gleason-Staelinovy míry φ se užívá vzorec φ j m i1 jm j1 r ij m m(m 1) Ln(Det*R*) značí přirozený logaritmus determinantu korelační matice. Při použití kovariance půjde o přirozený logaritmus determinantu kovariační matice. Bartlettův test, SV, Spočtená hladina významnosti α: jde o Bartlettův test sféricity k testování nulové hypotézy, že korelační matice je jednotková matice, všechny mimodiagonální prvky jsou nuly. Je-li velikost spočtené hladiny významnosti α větší než zadaná hodnota 0.05, neměli bychom aplikovat faktorovou analýzu ani metodu hlavních komponent na tato data. est platí pro velké výběry (n>150) a užívá χ rozdělení s m(m-1)/ stupni volnosti: test lze užít pouze pro korelační nikoliv však kovarianční matici. estační kritérium je vyčísleno vztahem χ (11 m 6n) 6 ln *R*. (b) Čarový diagram absolutních hodnot korelační matice: Proměnná B40X1 B40X B40X3 B40X4 B40X1 B40X B40X3 B40X4. Diagram zobrazuje absolutní hodnotykorelací a ukazuje největší a nejmenší korelaci proměnných. 3. Vyšetření indexového grafu úpatí vlastních čísel (Scree Plot): Vlastní číslo Individualní Kumulativní Kumulativní Index λi procento procento čarový graf úpatí 1 3.507191 93.9 93.9 0.18768 5.0 98.94 3 0.045168 1.1 100.15 4-0.005689-0.15 100.00 Jde o vlastní čísla matice LL. Často se užívají jako rozlišovací kritérium při výběru počtu faktorů. Užívá se těch faktorů, jejichž vlastní čísla jsou větší než 1. Suma vlastních čísel je rovna počtu proměnných. Odtud platí, že první faktor obsahuje informaci, obsaženou v 3.507191 původních proměnných. Zatímco všechna vlastní čísla jsou v PCA kladná,vlastní číslavefac mohou být i záporná. Obyčejně se tyto faktoryvypouští a analýza se potom opakuje.

Individuální procento: první sloupec přináší procento celkové proměnlivosti v proměnných, vystižené tímto faktorem a druhý sloupec pak Kumulativní procento. Kumulativní čarový graf úpatí určí hranu, index, rovnající se počtu užitých faktorů. 4. (a) Vlastní vektory pro jednotlivé faktory: Proměnná Faktor1 Faktor Faktor3 B40X1-0.557-0.361706 0.5370 B40X -0.519584-0.545676-0.3611 B40X3-0.473506 0.69071 0.400954 B40X4-0.47954 0.304046-0.713566 Jde o vlastní vektory matice LL. (b) Čarový diagram absolutních hodnot vlastních vektorů pro jednotlivé faktory: Proměnná Faktor1 Faktor Faktor3 B40X1 B40X B40X3 B40X4 Diagram absolutních hodnot vlastních vektorů umožňuje rychle posoudit velikost vlastních vektorů, totiž která původní proměnná x silně koreluje s dotyčnýmfaktorem.akseznázorní struktura obou faktorů. j 5. (a) Faktorové váhy pro jednotlivé faktory: Proměnná Faktor1 Faktor Faktor3 B40X1-0.983619-0.156677 0.111301 B40X -0.973051-0.36365-0.05001 B40X3-0.886759 0.99778 0.08513 B40X4-0.89806 0.131701-0.15165 abulka numericky znázorňuje korelace mezi proměnnými a faktory. (b) Čarový diagram absolutních hodnot faktorových vah pro jednotlivé faktory: Proměnná Faktor1 Faktor Faktor3 B40X1 B40X B40X3 B40X4 Diagram znázorňuje absolutní hodnotu faktorových zátěží avyjadřuje korelační strukturu jednotlivých původních proměnných s dotyčnými faktory. Faktor je obyčejně ovlivněn všemi původními proměnnými. Faktor1 je nejvíce ovlivněn B40x1 a B40x. Faktor pak nejvíce B40x3 a také B40x a nejméně proměnnými B40x1 a B40x4.

6. Graf faktorových vah: Obr. 4.1 Graf faktorových vah pro 0 objektů a 4 proměnné B40X1, B40X, B40X3, B40X4 pro data úlohy B40. SAGRAPHICS. Proměnné B40X1 a B40X leží v diagramu blízko sebe, a proto silně korelují.proměnné B40X3 a B40X4 jsou poněkud dál od sebe, proto méně korelují. Méně korelují se zbývajícími dvěma proměnnými B40X1 a B40X, jsou totiž umístěny daleko od nich. 7. Příspěvky daného faktoru do komunality: Proměnná Faktor1 Faktor Faktor3 Kommunalita B40X1 0.967507 0.04548 0.01388 1.004443 B40X 0.94688 0.055869 0.0050 1.00517 B40X3 0.786341 0.089867 0.00761 0.883469 B40X4 0.806515 0.017345 0.0998 0.846859 Komunalita představuje podíl proměnlivosti proměnné, vyjádřené dotyčným faktorem. Je podobná hodnotě R, kterou dostaneme, když budeme původní proměnné regresovat vybranými faktory. abulka obsahuje příspěvek daného faktoru do komunality. Diagram přináší příspěvky vybraných faktorů do komunality. 8. Faktorová skóre jednotlivých faktorů: Proměnná Faktor1 Faktor Faktor3 B40X1-0.804579-0.8350396.464167 B40X -0.774445-1.59754-1.11144 B40X3-0.58401 1.59773 1.886601 B40X4-0.56063 0.701941-3.357533 V tabulce jsou koeficienty, které jsou užity k vytvoření faktorového skóre. Faktorová skóre jsou hodnoty faktorů pro jednotlivé řádky dat. yto koeficienty skóre jsou podobné vlastním vektorům. Protože byly předem normovány, přináší skóre jednotkový rozptyl a nikoliv roven vlatním číslům. o způsobuje, že každý z faktorů má stejný rozptyl. Uživatel můžepoužíttatoskóre, jestliže chcevypočítat faktorové skóre pro nové řádky, jež nebyly zatímzařazeny do analýzy.

9. Rozptylový diagram faktorového skóre: diagram ukazuje na závislost faktoru proti faktoru. Prvních k faktorů (kde k je počet největších vlastních čísel) ukazuje na hlavní strukturu, která byla nalezena v datech. Zbytek faktorů ukazuje odlehlé hodnoty a lineární závislosti. Obr. 4.13 Rozptylový diagram faktorových skore pro 0 objektů a4proměnné B40X1, B40X, B40X3, B40X4 ze standardizovaných dat úlohy B40, SAGRAPHICS. Kromě tří objektů 7, 11a15leží zbývajících 17 objektů vjediném shluku. Objekty 7, 11 a 15 tvoří každý samostatný shluk. Co do podobnosti ve čtyřech vlastnostech, vystižených dvěma hlavními komponentami v rovině lze hovořit o 4 shlucích: první 15 Metitepine, druhý 7 Pifluthixol, třetí 11 Haloperidol, čtvrtý zbytek.