Faktorová analýza. Ekonometrie. Jiří Neubauer. Katedra ekonometrie FVL UO Brno kancelář 69a, tel

Podobné dokumenty
Testování hypotéz o parametrech regresního modelu

Testování hypotéz o parametrech regresního modelu

Analýza hlavních komponent

Regresní analýza. Ekonometrie. Jiří Neubauer. Katedra ekonometrie FVL UO Brno kancelář 69a, tel

Základy teorie odhadu parametrů bodový odhad

AVDAT Mnohorozměrné metody metody redukce dimenze

Časové řady, typy trendových funkcí a odhady trendů

Časové řady, typy trendových funkcí a odhady trendů

Bodové a intervalové odhady parametrů v regresním modelu

Statistika II. Jiří Neubauer

AVDAT Geometrie metody nejmenších čtverců

AVDAT Náhodný vektor, mnohorozměrné rozdělení

Matematika III 10. týden Číselné charakteristiky střední hodnota, rozptyl, kovariance, korelace

Výběrové charakteristiky a jejich rozdělení

Definice 13.1 Kvadratická forma v n proměnných s koeficienty z tělesa T je výraz tvaru. Kvadratická forma v n proměnných je tak polynom n proměnných s

10. cvičení z PST. 5. prosince T = (n 1) S2 X. (n 1) s2 x σ 2 q χ 2 (n 1) (1 α 2 ). q χ 2 (n 1) 2. 2 x. (n 1) s. x = 1 6. x i = 457.

Charakterizace rozdělení

Úlohy nejmenších čtverců

Náhodný vektor a jeho charakteristiky

Náhodné veličiny jsou nekorelované, neexistuje mezi nimi korelační vztah. Když jsou X; Y nekorelované, nemusí být nezávislé.

AVDAT Klasický lineární model, metoda nejmenších

Odhad parametrů N(µ, σ 2 )

Výstupy z výukové jednotky. 2. Princip faktorové analýzy

LINEÁRNÍ MODELY. Zdeňka Veselá

1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.

Úvod do analýzy časových řad

Regresní analýza 1. Regresní analýza

Mnohorozměrná statistická data

jevu, čas vyjmutí ze sledování byl T j, T j < X j a T j je náhodná veličina.

7. Analýza rozptylu.

Testování hypotéz testy o tvaru rozdělení. Jiří Neubauer. Katedra ekonometrie, FVL, UO Brno kancelář 69a, tel

Odhad parametrů N(µ, σ 2 )

Regresní a korelační analýza

PRAVDĚPODOBNOST A STATISTIKA

MATEMATICKÉ PRINCIPY VÍCEROZMĚRNÉ ANALÝZY DAT

Pravděpodobnost a statistika, Biostatistika pro kombinované studium. Jan Kracík

Mnohorozměrná statistická data

Aplikovaná numerická matematika

Poznámky k předmětu Aplikovaná statistika, 4. téma

Regresní a korelační analýza

Kontingenční tabulky, korelační koeficienty

Analýza rozptylu. Ekonometrie. Jiří Neubauer. Katedra kvantitativních metod FVL UO Brno kancelář 69a, tel

Poznámky k předmětu Aplikovaná statistika, 4. téma

Definice 7.1 Nechť je dán pravděpodobnostní prostor (Ω, A, P). Zobrazení. nebo ekvivalentně

EUKLIDOVSKÉ PROSTORY

odpovídá jedna a jen jedna hodnota jiných

MATEMATICKÁ STATISTIKA. Katedra matematiky a didaktiky matematiky Technická univerzita v Liberci

Modely stacionárních časových řad

Testování předpokladů pro metodu chain-ladder. Seminář z aktuárských věd Petra Španihelová

n = 2 Sdružená distribuční funkce (joint d.f.) n. vektoru F (x, y) = P (X x, Y y)

Regresní a korelační analýza

PRAVDĚPODOBNOST A STATISTIKA

Normální rozložení a odvozená rozložení

8 Coxův model proporcionálních rizik I

15. T e s t o v á n í h y p o t é z

Přijímací zkouška na navazující magisterské studium 2017

MATICE. a 11 a 12 a 1n a 21 a 22 a 2n A = = [a ij]

Zpracování náhodného vektoru. Ing. Michal Dorda, Ph.D.

1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.

Úvod do vícerozměrných metod. Statistické metody a zpracování dat. Faktorová a komponentní analýza (Úvod do vícerozměrných metod)

15. T e s t o v á n í h y p o t é z

3 Bodové odhady a jejich vlastnosti

Pravděpodobnost a aplikovaná statistika

z Matematické statistiky 1 1 Konvergence posloupnosti náhodných veličin

Vlastnosti odhadů ukazatelů způsobilosti

Faktorová analýza (FACT)

Odhady Parametrů Lineární Regrese

12. cvičení z PST. 20. prosince 2017

Ekonometrie. Jiří Neubauer

Pravděpodobnost a statistika (BI-PST) Cvičení č. 7

NMAI059 Pravděpodobnost a statistika

Lineární zobrazení. 1. A(x y) = A(x) A(y) (vlastnost aditivity) 2. A(α x) = α A(x) (vlastnost homogenity)

Vícerozměrná rozdělení

Statistická analýza jednorozměrných dat

Statistické metody a zpracování dat. IX Faktorová a komponentní analýza (Úvod do vícerozměrných metod) Petr Dobrovolný

Bodové a intervalové odhady parametrů v regresním modelu

Statistika II. Jiří Neubauer

Ekonometrie. Jiří Neubauer, Jaroslav Michálek

STATISTICKÁ VAZBA. 1.1 Statistická vazba Charakteristiky statistické vazby dvou náhodných veličin Literatura 9

Úvodem Dříve les než stromy 3 Operace s maticemi

Statistika a spolehlivost v lékařství Charakteristiky spolehlivosti prvků I

Testování statistických hypotéz

Vlastní čísla a vlastní vektory

9 Kolmost vektorových podprostorů

4EK211 Základy ekonometrie

Faktorová analýza Osnova

Problematika analýzy rozptylu. Ing. Michael Rost, Ph.D.

Chyby měření 210DPSM

vyjádřete ve tvaru lineární kombinace čtverců (lineární kombinace druhých mocnin). Rozhodněte o definitnosti kvadratické formy κ(x).

Charakteristika datového souboru

KGG/STG Statistika pro geografy

Parametry hledáme tak, aby součet čtverců odchylek byl minimální. Řešením podle teorie je =

Jiří Neubauer. Katedra ekonometrie, FVL, UO Brno kancelář 69a, tel

Markovské metody pro modelování pravděpodobnosti

MATEMATICKÁ STATISTIKA - XP01MST

1 Linearní prostory nad komplexními čísly

12. cvičení z PSI prosince (Test střední hodnoty dvou normálních rozdělení se stejným neznámým rozptylem)

5. T e s t o v á n í h y p o t é z

Statistika. Regresní a korelační analýza Úvod do problému. Roman Biskup

Transkript:

Ekonometrie Jiří Neubauer Katedra ekonometrie FVL UO Brno kancelář 69a, tel. 973 442029 email:jiri.neubauer@unob.cz J. Neubauer, J. Michálek (Katedra ekonometrie UO) 1 / 27

úvod Na sledovaných objektech se často zjišťují hodnoty většího počtu statistických znaků nebo proměnných, ty jsou obvykle mezi sebou korelovány. Lze si představit, že korelace mezi jednotlivými proměnnými jsou způsobeny vlivem nějakého menšího počtu nepřímo měřitelných společných faktorů, které ovlivňují hodnoty sledovaných proměnných. Každý z těchto faktorů může ovlivnit hodnoty pozorování každé ze zkoumaných proměnných. Cílem faktorové analýzy pak je tyto faktory odhadnout, odhadnout počet statisticky významných faktorů a konečně odhadnout hodnoty každého z faktorů pro každý sledovaný objekt, tedy popsat objekty pomocí nalezených faktorů. V tomto směru je faktorová analýza metodou pro snížení rozsahu dat. Navíc sledováním realizací společných faktorů u jednotlivých objektů mohou být identifikovány výjimečné objekty. J. Neubauer, J. Michálek (Katedra ekonometrie UO) 2 / 27

Ortogonální faktorový model Ortogonální faktorový model Ve faktorovém modelu předpokládáme, že p-rozměrný sloupcový náhodný vektor sledovaných proměnných X = (X 1,..., X p) se střední hodnotou µ a varianční maticí Σ lineárně závisí na m-rozměrném náhodném vektoru společných faktorů F = (F 1,..., F m) a p-rozměrném vektoru specifických faktorů ɛ = (ɛ 1,..., ɛ p). Maticově lze faktorový model zapsat X µ = LF + ɛ, kde L je matice typu p m. Speciálně pro i-tou proměnnou X i platí X i µ i = l i1 F 1 + l i2 F 2 + + l im F m + ɛ i. V uvedeném modelu popisuje koeficient l ij vliv faktoru F j na proměnnou X i, a proto se matice L nazývá matice faktorových zátěží. J. Neubauer, J. Michálek (Katedra ekonometrie UO) 3 / 27

Ortogonální faktorový model Ortogonální faktorový model Vektor společných faktorů F a vektor specifických faktorů ɛ nelze přímo pozorovat. Aby bylo možné je odhadnout, jsou na ně kladeny následující předpoklady. 1 Střední hodnoty obou těchto vektorů jsou nulové, tj. E(F ) = 0, E(ɛ) = 0. 2 Variační matice vektoru F je jednotková, tj. var(f ) = I, a varianční matice vektoru ɛ je diagonální, tj. var(ɛ) = Ψ = diag(ψ 1,..., ψ p). 3 Vektory F a ɛ jsou nekorelované, tedy jejich kovarianční matice cov(ɛ, F ) = 0. Za uvedených předpokladů lze snadno odvodit, že (X µ)(x µ) = (LF + ɛ)(lf + ɛ) = (LF + ɛ)((lf ) + ɛ ) = = LF (LF ) + ɛ(lf ) + LF ɛ + ɛɛ, odkud pro varianční matici vektoru sledovaných proměnných X platí neboli var(x ) = E(X µ)(x µ) = LE(FF )L + E(ɛF )L + LE(F ɛ ) + E(ɛɛ ) = = LL + Ψ, D(X i ) = li1 2 + li2 2 + + lim 2 + ψ i, i = 1, 2,..., p, C(X i, X k ) = l i1 l k1 + l i2 l k2 + + l im l km, i, k = 1, 2,..., p, i k. (1) J. Neubauer, J. Michálek (Katedra ekonometrie UO) 4 / 27

Ortogonální faktorový model Ortogonální faktorový model Dále platí, že kovarianční matice vektorů X a F je rovna matici faktorových zátěží L, tj. neboli cov(x, F ) = E[(X µ)f ] = E[(LF + ɛ)f ] = E[LFF + ɛf ] = = LE(FF ) + E(ɛF ) = L, C(X i, F j ) = l ij, i = 1, 2,... p, j = 1, 2,... m. V této souvislosti pak říkáme, že uvedená vyjádření varianční matice var(x) a kovarianční matice cov(x, F ) popisují kovarianční strukturu ortogonálního faktorového modelu. Model X µ = LF + ɛ je lineární vzhledem ke společným faktorům. Je-li vztah mezi X a faktory jiný než lineární, popis kovarianční struktury LL + Ψ uvedený v (1) nebude odpovídající. J. Neubauer, J. Michálek (Katedra ekonometrie UO) 5 / 27

Ortogonální faktorový model Ortogonální faktorový model Ta část rozptylu proměnné X i, která je vysvětlená pomocí m společných faktorů, se nazývá komunalita ( communality ), příspěvek specifického faktoru k této variabilitě je označován jako specifický rozptyl, tedy σ }{{} ii = l i1 2 + li2 2 + + lim 2 + ψ i }{{}}{{} D(X i ) = komunalita + specifický rozptyl (2) Pro i-tou komunalitu h 2 i lze psát a rozptyl D(X i ) vyjádřit ve tvaru h 2 i = l 2 i1 + l 2 i2 + + l 2 im, σ ii = h 2 i + ψ i, i = 1, 2,..., p. Je-li dán ortogonální faktorový model, je třeba pomocí opakovaných nezávislých pozorování odhadnout matici faktorových zátěží L a dále najít odhady hodnot společných faktorů F 1... F p pro každou statistickou jednotku. J. Neubauer, J. Michálek (Katedra ekonometrie UO) 6 / 27

Ortogonální faktorový model Ortogonální faktorový model Matice faktorových zátěží L a vektor společných faktorů F nejsou v daném ortogonálním modelu určeny jednoznačně. Pro libovolnou ortogonální transformací vektoru společných faktorů F získáme nový vektor společných faktorů F = T F (zde T je ortogonální matice typu m m, tj. TT = T T = I ) a novou matici faktorových zátěží L = LT, které opět splňují předpoklady modelu, neboť X µ = LTT F + ɛ = L F + ɛ, var(x ) = LTT L + Ψ = L L + Ψ. Jak bude dále naznačeno, lze uvedenou nejednoznačnost modelu s výhodou použít při interpretaci výsledků. J. Neubauer, J. Michálek (Katedra ekonometrie UO) 7 / 27

Geometrická interpretace Geometrická interpretace Bylo nasimulováno 500 pozorování trojrozměrného náhodného vektoru X z normálního rozdělení s nulovou střední hodnotou a nediagonální varianční maticí Σ. Na obr. 1 jsou jednotlivá pozorování znázorněna body. Z obrázku je vidět, jaká je variabilita dat. V každém směru se souřadnice jednotlivých pozorování nacházejí přibližně v rozmezí od 4 do 4. Úsečky v 1 představují směry vlastních vektorů e 1, e 2 a e 3 varianční matice Σ. Jejich délky jsou úměrné vlastním číslům λ 1, λ 2 a λ 3 varianční matice Σ, λ 1 > λ 2 > λ 3. Elipsy v rovinách os znázorňují vrstevnice hustot příslušných dvourozměrných marginálních rozdělení. J. Neubauer, J. Michálek (Katedra ekonometrie UO) 8 / 27

Geometrická interpretace Geometrická interpretace Obrázek: Simulovaná data před transformací J. Neubauer, J. Michálek (Katedra ekonometrie UO) 9 / 27

Geometrická interpretace Geometrická interpretace Když zvolíme novou souřadnou soustavu tak, že osa x bude ve směru vlastního vektoru e 1, osa y ve směru vlastního vektoru e 2 a osa z ve směru vlastního vektoru e 3 a všech 500 simulovaných bodů znázorníme v této nové souřadné soustavě, dostaneme situaci znázorněnou na obr. 2. Z tohoto obrázku je dobře patrné, že největší variabilita znázorněných bodů je ve směru nové osy x. Při tom není možné najít jiný směr, v němž by byla větší variabilita dat, než ve směru osy x, tedy ve směru určeném vlastním vektorem e 1. Vektor e 2, který udává směr nové osy y, zároveň udává směr, kolmý na osu x, v němž je opět největší variabilita ze všech těchto kolmých směrů. Konečně se ukazuje, že ve směru osy z, tedy ve směru vlastního vektoru v 3, je variabilita ze všech těchto tří směrů nejmenší. Variabilita znázorněných bodů ve směru vlastního vektoru v i je úměrná vlastnímu číslu λ i a pro celkovou variabilitu vektoru X platí σ 2 T (X ) = σ 2 1 + σ 2 2 + σ 2 3 = λ 1 + λ 2 + λ 3, zde σ 2 i = D(X i ). J. Neubauer, J. Michálek (Katedra ekonometrie UO) 10 / 27

Geometrická interpretace Geometrická interpretace Obrázek: Simulovaná data po transformaci do báze tvořené vlastními vektory varianční matice J. Neubauer, J. Michálek (Katedra ekonometrie UO) 11 / 27

Odhadování parametrů modelu Odhadování parametrů modelu Předpokládejme, že je předem znám pevný počet faktorů m. Při odhadování parametrů modelu vycházíme z náhodného výběru X 1,..., X n z rozdělení náhodného vektoru X. Tento výběr je často před zpracováním standardizován, takže předpokládáme, že výsledný výběr je pak z rozdělení standardizované náhodné veličiny Y = (Diag (Σ)) 1/2 (X µ), pro kterou lze faktorový model přepsat následovně Y = LF + ɛ, var(y) = cor(x ) = LL + Ψ. Z tohoto náhodného výběru nejdříve stanovíme výběrový průměr X jako odhad vektoru střední hodnoty µ dále odhadneme korelační matici cor(x ) výběrovou korelační maticí R. Pokud mimodiagonální prvky matice R nejsou malé, tj. pokud jsou složky náhodného vektoru X silně korelované, má smysl hledat společné faktory. V opačném případě by totiž hlavní roli hrály pouze specifické faktory. Z kovarianční struktury ortogonálního faktorového modelu vyplývá, že při faktorové analýze hledáme rozklad varianční matice Σ náhodného vektoru X na symetrickou, pozitivně definitní matici LL a diagonální matici Ψ. J. Neubauer, J. Michálek (Katedra ekonometrie UO) 12 / 27

Odhadování parametrů modelu Metoda založená na hlavních komponentách Mějme varianční matici Σ a jí odpovídající dvojice vlastních čísel a vlastních vektorů (λ i, e i ), λ 1 λ 2 λ p 0, potom ji lze vyjádřit jako Σ = λ 1e 1e 1 + λ 2e 2e 2 + + λ pe pe p = λ1e 1 ( λ1e = 1 λ2e 2 ) λ2e 2 λpe p. λpe p Uvedený rozklad se nazývá spektrální dekompozice. J. Neubauer, J. Michálek (Katedra ekonometrie UO) 13 / 27

Odhadování parametrů modelu Metoda založená na hlavních komponentách Tímto lze popsat faktorový model mající tolik faktorů kolik proměnných (m = p) a specifické rozptyly ψ i = 0 pro všechna i, lze tedy psát Σ = (p p) L (p p) L + 0 = (p p) (p p) LL (3) Faktorové zátěže ( factor loadings ) j-tého faktoru jsou až na λ j rovny j-té hlavní komponentě. Reprezentace matice Σ popsaná v (3) je sice přesná, nicméně obsahuje stejný počet faktorů kolik je proměnných. Cílem bude najít model, který vystihuje kovarianční strukturu pomocí několika málo faktorů. Jednou z možností je zanedbání posledních p m členů ve spektrálním rozkladu, pokud odpovídající vlastní čísla jsou malá. λ1e 1 Σ =. ( ) λ1e λ2e 2 1 λ2e 2 λme m = L L (p m)(m p). λme m (4) J. Neubauer, J. Michálek (Katedra ekonometrie UO) 14 / 27

Odhadování parametrů modelu Metoda založená na hlavních komponentách Přibližné vyjádření popsané v (4) předpokládá, že specifické faktory ɛ lze zanedbat. Pokud tyto specifické faktory do modelu zahrneme, lze psát λ1e 1 Σ =. ( λ1e LL + Ψ = 1 λ2e 2 ) λ2e 2 ψ 1 0 0 0 ψ 2 0 λme m +......... 0 0 ψ p λme m kde pro rozptyly ψ i specifických faktorů platí ψ i = σ ii m j=1 l 2 ij pro i = 1, 2,..., p. (5) J. Neubauer, J. Michálek (Katedra ekonometrie UO) 15 / 27

Odhadování parametrů modelu Metoda založená na hlavních komponentách Předtím, než uvedený postup aplikujeme na data (náhodný výběr), obvykle se provádí centrování odečtením výběrového průměru, případně standardizace proměnných. Výběrová kovarianční matice S takto standardizovaných proměnných je rovna výběrové korelační matici původních dat R. Mějme výběrovou kovarianční matici S, (ˆλ 1, ê 1), (ˆλ 2, ê 2),..., (ˆλ p, ê p), jsou dvojice vlastních čísel a vektorů této matice splňující ˆλ 1 ˆλ 2 ˆλ p. Předpokládejme, že m < p je počet společných faktorů. Odhad matice faktorových zátěží je dán výrazem ˆL = ( ˆλ 1ê 1 ˆλ 2ê 2 ˆλ mê m ). Odhady specifických rozptylů jsou diagonální prvky matice S ˆLˆL ˆψ 1 0 0 0 ˆψ2 0 ˆΨ =........, 0 0 ˆψp Komunality lze odhadnou ze vztahu ĥ 2 i = ˆl 2 i1 + ˆl 2 i2 + + ˆl 2 im. ˆψ i = s ii m ˆl ij. j=1 J. Neubauer, J. Michálek (Katedra ekonometrie UO) 16 / 27

Odhadování parametrů modelu Odhady metodou maximální věrohodnosti Jestliže předpokládáme, že společné faktory F a specifické faktory ɛ mají normální rozdělení, lze pro jejich odhady použít metodu maximální věrohodnosti. Věrohodnostní funkce má tvar L(µ, Σ) = (2π) np 2 Σ n 2 e 1 2 tr[σ 1 ( n j=1 (x j x)(x j x) +n(x µ)(x µ) )] = = (2π) (n 1)p 2 Σ n 1 2 e 1 2 tr[σ 1 ( n j=1 (x j x)(x j x) )] (6) (2π) p 2 Σ 1 2 e n 2 (x µ) Σ 1 (x µ). Věrohodnostní funkce (6) závisí na L a Ψ prostřednictvím Σ = LL + Ψ. Tento model není zcela jednoznačně definovaný vzhledem k možným volbám matice L. K modelu se obvykle přidá podmínka L Ψ 1 L = je diagonální matice. Maximálně věrohodné odhady ˆL a ˆΨ se získají numerickou maximalizací (6). Odhady komunalit jsou tvaru ĥ 2 i = ˆl 2 i1 + ˆl 2 i2 + + ˆl 2 im. J. Neubauer, J. Michálek (Katedra ekonometrie UO) 17 / 27

Odhadování parametrů modelu Odhady metodou maximální věrohodnosti Pokud jsou proměnné standardizované, podobně jako tomu bylo u metody hlavních komponent, máme Z = V 1/2 (X µ), potom kovarianční matice je rovna matici korelační a platí ρ = V 1/2 ΣV 1/2 = (V 1/2 L)(V 1/2 L) + V 1/2 ΨV 1/2. Matice faktorových zátěží odpovídající ρ má tvar L z = V 1/2 L a matice specifických rozptylů je rovna Ψ z = V 1/2 ΨV 1/2. Maximálně věrohodný odhad ρ je potom dán výrazem ˆρ = ( ˆV 1/2 ˆL)( ˆV 1/2 ˆL) + ˆV 1/2 ˆΨ ˆV 1/2 = = ˆL z ˆL z + ˆΨ z Poznámka: Počítačové programy obvykle provádějí standardizaci proměnných, faktorizovaná je tedy výběrová korelační matice R. Díky tomu získáme maximálně věrohodné odhady ˆL z a ˆΨ z. Maximálně věrohodné odhady matice faktorových zátěží a specifických rozptylů odpovídající matici n 1 S jsou ˆL = ˆV 1/2 ˆL n z a ˆΨ = ˆV 1/2 ˆΨ z ˆV 1/2, neboli ˆl ij = ˆl z,ij ˆσii a ˆψ i = ˆψ z,i ˆσ ii, kde ˆσ ii v tomto případě neznačí výběrový rozptyl, ale rozptyl momentový. J. Neubauer, J. Michálek (Katedra ekonometrie UO) 18 / 27

Stanovení počtu faktorů Stanovení počtu faktorů Obecně počet faktorů není známý. Uvažujme reziduální matici S (ˆLˆL + ˆΨ) získanou aproximací výběrové kovarianční matice S. Diagonální prvky jsou nulové, a pokud jsou i ostatní prvky matice malé, lze usoudit, že zvolený počet faktorů m je dostatečný. Pro jeho stanovení se při metodě hlavních komponent užívá podíl variability vysvětlené pomocí zvoleného počtu faktorů a celkové variability. Podíl j-tého faktoru na celkové výběrové variabilitě je ˆλ j s 11 + s 22 + + s pp = ˆλ j ˆλ 1 + ˆλ 2 + + ˆλ p, kde ˆλ i, ˆλ 1 ˆλ 2 ˆλ p jsou vlastní čísla matice S. Máme-li m faktorů, pak jejich relativní příspěvek k celkové variabilitě je m ˆλ m ˆλ j=1 j j=1 j p i=1 s = p ii ˆλ. i=1 i Snahou je nalézt takový počet faktorů m, při kterém je tento podíl dostatečně blízký 1. J. Neubauer, J. Michálek (Katedra ekonometrie UO) 19 / 27

Stanovení počtu faktorů Stanovení počtu faktorů U metody maximální věrohodnosti je možné podíl j-tého faktoru na celkové variabilitě vyjádřit zlomkem ˆl 2 1j + ˆl 2 2j + + ˆl 2 pj s 11 + s 22 + + s pp Za předpokladu normality lze odvodit test adekvátnosti modelu s m společnými faktory. Jedná se o test věrohodnostním poměrem a je založen a testovací statistice 2 ln ( ) n/2 ˆΣ [ ] + n tr( ˆΣ 1 S n) p S n kde ˆΣ = ˆLˆL + ˆΨ, ˆL, ˆΨ jsou odhady matic L a Ψ získané metodou maximální věrohodnosti a S n = n 1 S. Tato testovací statistika má asymptoticky rozdělení n χ2 (ν) se stupni volnosti ν = 1 [(p 2 m)2 (p + m)]. Lze dokázal, že výraz tr( ˆΣ 1 S n) p = 0, za předpokladu, že ˆΣ = ˆLˆL + ˆΨ je maximálně věrohodný odhad Σ = LL + Ψ. Dostáváme tedy testovací statistiku ( ) ˆΣ n ln. (7) S n J. Neubauer, J. Michálek (Katedra ekonometrie UO) 20 / 27

Stanovení počtu faktorů Stanovení počtu faktorů Je-li realizace této statistiky větší než příslušný kvantil χ 2 rozdělení, pak zamítáme hypotézu o dostatečném počtu faktorů. Aproximaci rozdělení testovací statistiky χ 2 rozdělením lze zpřesnit nahrazením n v testovací statistice (7) hodnotou n 1 (2p + 4m + 5)/6. Vzhledem k tomu, že stupně volnosti jsou kladné, pro použití testu musí platit nerovnost m < 1 2 (2p + 1 8p + 1). J. Neubauer, J. Michálek (Katedra ekonometrie UO) 21 / 27

Rotace faktorů Rotace faktorů Lepší interpretaci faktorů je možno získat po provedení ortogonální transformace společných faktorů. Takovou ortogonální transformací (rotací) neporušíme předpoklady modelu. Je-li ˆL odhad p m matice faktorových zátěží, potom ˆL = ˆLT, kde TT = T T = I, je p m matice rotovaných faktorových zátěží. Navíc odhadnuté kovarianční (nebo korelační) matice zůstávají nezměněny, neboť ˆLˆL + ˆΨ = ˆLTT ˆL + ˆΨ = ˆL ˆL + ˆΨ. (8) Z rovnice (8) lze usoudit, že reziduální matice S n ˆLˆL ˆΨ = S n ˆL ˆL ˆΨ zůstávají nezměněny. Totéž platí pro specifické rozptyly ˆψ i a komunality ĥ2 i. J. Neubauer, J. Michálek (Katedra ekonometrie UO) 22 / 27

Rotace faktorů Rotace faktorů Původní matice faktorových zátěží nemusí být snadno interpretovatelná. V praxi je obvyklé provádět takovou rotaci, která umožní snadnější interpretaci. V ideálním případě docílit toho, aby každá proměnná byla silně zastoupena v jednom faktoru a v ostatních faktorech se již téměř nevyskytovala. Jedním z nejčastěji používaných kritérií optimální ortogonální transformace je varimax kritérium. Definujme l ij = ˆl ij /ĥ i jako rotované koeficienty škálované pomocí druhých odmocnin komunalit. Cílem je najít takovou ortogonální transformaci T, která maximalizuje výraz ) 2 ] V = 1 p [ m p j=1 i=1 l 4 ij 1 p ( p Po nalezení matice T přenásobíme získané zátěže l ij konstantami ĥi a získáme potřebné zátěže ˆl ij. Varimax kritérium tedy minimalizuje počet proměnných vysvětlovaných jedním faktorem. i=1 l 2 ij. J. Neubauer, J. Michálek (Katedra ekonometrie UO) 23 / 27

Odhad společných faktorů Odhad společných faktorů Při faktorové analýze se pozornost obvykle zaměřuje na parametry faktorového modelu, nicméně odhady hodnot společných faktorů, které se nazývají faktorové skóry, mohou být také užitečné. Tyto hodnoty jsou často používány pro diagnostické účely, případně jako vstupy pro následující analýzy. Faktorové skóry nejsou odhady neznámých parametrů v obvyklém smyslu, jsou to odhady hodnot nepozorovaných náhodných faktorů F j, j = 1, 2,..., n. Faktorové skóry ˆf j tedy jsou odhady f j získané pro F j. Považujeme-li nyní získané odhady matic L a Ψ za skutečné pevné hodnoty, můžeme odhadnout společné faktory buď váženou metodou nejmenších čtverců, nebo metodou regresní. J. Neubauer, J. Michálek (Katedra ekonometrie UO) 24 / 27

Odhad společných faktorů Odhad společných faktorů vážená metoda nejmenších čtverců Předpokládejme, že vektor středních hodnot µ, matice faktorových zátěží L a matice specifických rozptylů jsou ve faktorovém modelu známé, tedy X µ = L (p 1) (p 1) F + ɛ (p m)(m 1) (p 1) Považujme specifické faktory za chybové složky ɛ = (ɛ 1, ɛ 2,..., ɛ p). Protože rozptyly D(ɛ i ) = ψ i, i = 1, 2,..., p, nemusí být stejné, použijeme pro odhad společných faktorů váženou metodu nejmenších čtverců. Součet čtverců vážený převrácenými hodnotami rozptylů je p ɛ 2 i = ɛ Ψ 1 ɛ = (x µ Lf ) Ψ(x µ Lf ). (9) ψ i i=1 Minimalizací výrazu (9) lze získat odhad ˆf = (ˆL ˆΨ 1 ˆL) 1 ˆL ˆΨ 1 (X j µ). (10) J. Neubauer, J. Michálek (Katedra ekonometrie UO) 25 / 27

Odhad společných faktorů Odhad společných faktorů vážená metoda nejmenších čtverců Dosazením odhadů do (10) získáme faktorové skóry ve tvaru ˆf j = (ˆL ˆΨ 1 ˆL) 1 ˆL ˆΨ 1 (X j X ), j = 1, 2..., n. V případě, že byla faktorizována korelační matice, jsou faktorové skóry dány vztahem ˆf j = (ˆL z ) 1 1 ˆΨ z ˆL z ˆL 1 z ˆΨ z z j, j = 1, 2..., n, kde z j jsou standardizované proměnné a ˆρ = ˆL z ˆL z + ˆΨ z. Faktorové skóry mají nulovou střední hodnotu a nulovou výběrovou kovarianci. J. Neubauer, J. Michálek (Katedra ekonometrie UO) 26 / 27

Odhad společných faktorů Odhad společných faktorů regresní metoda Regresní metoda vede k odhadu ˆf j = ˆL (ˆLˆL + ˆΨ) 1 (Xj X ), j = 1, 2,..., n. Z důvodu snížení efektu možného nesprávného určení počtu faktorů v modelu, je někdy místo matice ˆΣ = ˆLˆL + ˆΨ použita matice výběrová kovarianční matice S. Odhady potom mají tvar ˆf j = ˆL S 1 (X j X ), j = 1, 2,..., n. Byla-li faktorizována korelační matice, potom ˆf j = ˆL R 1 z, j = 1, 2,..., n. J. Neubauer, J. Michálek (Katedra ekonometrie UO) 27 / 27