Identifikace Implicitní kovarianční matice t Pravidlo...8. Odhad parametrů...14

Podobné dokumenty
AVDAT Klasický lineární model, metoda nejmenších

8 Coxův model proporcionálních rizik I

Pojem endogenity a exogenity

4EK211 Základy ekonometrie

4EK211 Základy ekonometrie

AVDAT Geometrie metody nejmenších čtverců

4EK211 Základy ekonometrie

4EK211 Základy ekonometrie

Statistika. Regresní a korelační analýza Úvod do problému. Roman Biskup

1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.

Úvodem Dříve les než stromy 3 Operace s maticemi

Obsah Úvod Kapitola 1 Než začneme Kapitola 2 Práce s hromadnými daty před analýzou

Tomáš Karel LS 2012/2013

Zadání Máme data hdp.wf1, která najdete zde: Bodová předpověď: Intervalová předpověď:

Jednofaktorová analýza rozptylu

Regresní a korelační analýza

PRAVDĚPODOBNOST A STATISTIKA

Testování hypotéz o parametrech regresního modelu

Testování hypotéz o parametrech regresního modelu

V praxi pracujeme s daty nominálními (nabývají pouze dvou hodnot), kategoriálními (nabývají více

Příklad 1. Korelační pole. Řešení 1 ŘEŠENÉ PŘÍKLADY Z MV2 ČÁST 13

Regresní a korelační analýza

Regresní analýza 1. Regresní analýza

Klasická a robustní ortogonální regrese mezi složkami kompozice

Vícerozměrné metody. PSY117/454 Statistická analýza dat v psychologii Přednáška 12. Schematický úvod

4EK211 Základy ekonometrie

Matematika (CŽV Kadaň) aneb Úvod do lineární algebry Matice a soustavy rovnic

0.1 Úvod do lineární algebry

Náhodné veličiny jsou nekorelované, neexistuje mezi nimi korelační vztah. Když jsou X; Y nekorelované, nemusí být nezávislé.

Grafický a číselný popis rozložení dat 3.1 Způsoby zobrazení dat Metody zobrazení kvalitativních a ordinálních dat Metody zobrazení kvan

Statistická analýza jednorozměrných dat

JEDNOVÝBĚROVÉ TESTY. Komentované řešení pomocí programu Statistica

{ } ( 2) Příklad: Test nezávislosti kategoriálních znaků

= = 2368

Cronbachův koeficient α nová adaptovaná metoda uvedení vlastností položkové analýzy deskriptivní induktivní parametrické

0.1 Úvod do lineární algebry

Úvod do problematiky měření

4EK211 Základy ekonometrie

Testování hypotéz a měření asociace mezi proměnnými

12. cvičení z PSI prosince (Test střední hodnoty dvou normálních rozdělení se stejným neznámým rozptylem)

Měření závislosti statistických dat

Problematika analýzy rozptylu. Ing. Michael Rost, Ph.D.

1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.

5 Vícerozměrná data - kontingenční tabulky, testy nezávislosti, regresní analýza

6 Vícerovnicové ekonometrické soustavy 1

Optimalizace provozních podmínek. Eva Jarošová

Lineární regrese. Komentované řešení pomocí MS Excel

Tomáš Karel LS 2012/2013

Stavový model a Kalmanův filtr

ANALÝZA DAT V R 7. KONTINGENČNÍ TABULKA. Mgr. Markéta Pavlíková Katedra pravděpodobnosti a matematické statistiky MFF UK.

Statistické metody v marketingu. Ing. Michael Rost, Ph.D.

Testy dobré shody Máme dvě veličiny, u kterých bychom chtěli prokázat závislost, TESTY DOBRÉ SHODY (angl. goodness-of-fit tests)

PRAVDĚPODOBNOST A STATISTIKA

Regresní analýza. Ekonometrie. Jiří Neubauer. Katedra ekonometrie FVL UO Brno kancelář 69a, tel

LINEÁRNÍ MODELY. Zdeňka Veselá

Úlohy nejmenších čtverců

Diagnostika regrese pomocí grafu 7krát jinak

Ilustrační příklad odhadu LRM v SW Gretl

SEMESTRÁLNÍ PRÁCE. Leptání plasmou. Ing. Pavel Bouchalík

11. cvičení z PSI prosince hodnota pozorovaná četnost n i p X (i) = q i (1 q), i N 0.

5EN306 Aplikované kvantitativní metody I

1 Řešení soustav lineárních rovnic

12. cvičení z PST. 20. prosince 2017

Regrese. používáme tehdy, jestliže je vysvětlující proměnná kontinuální pokud je kategoriální, jde o ANOVA

Vektory a matice. Obsah. Aplikovaná matematika I. Carl Friedrich Gauss. Základní pojmy a operace

Časové řady, typy trendových funkcí a odhady trendů

Metoda backward výběru proměnných v lineární regresi a její vlastnosti

Maticí typu (m, n), kde m, n jsou přirozená čísla, se rozumí soubor mn veličin a jk zapsaných do m řádků a n sloupců tvaru:

PSY117/454 Statistická analýza dat v psychologii seminář 9. Statistické testování hypotéz

Testování hypotéz. 1. vymezení základních pojmů 2. testování hypotéz o rozdílu průměrů 3. jednovýběrový t-test

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz

Odhady Parametrů Lineární Regrese

Matematické modelování Náhled do ekonometrie. Lukáš Frýd

EKONOMETRIE 7. přednáška Fáze ekonometrické analýzy

2 Zpracování naměřených dat. 2.1 Gaussův zákon chyb. 2.2 Náhodná veličina a její rozdělení

11 Analýza hlavních komponet

Praktikum z ekonometrie Panelová data

Sever Jih Západ Plechovka Točené Sever Jih Západ Součty Plechovka Točené Součty

Zpracování náhodného vektoru. Ing. Michal Dorda, Ph.D.

Opravená data Úloha (A) + (E) Úloha (C) Úloha (B) Úloha (D) Lineární regrese

Bodové a intervalové odhady parametrů v regresním modelu

AVDAT Mnohorozměrné metody metody redukce dimenze

4. Aplikace matematiky v ekonomii

4EK211 Základy ekonometrie

Časové řady, typy trendových funkcí a odhady trendů

Pearsonův korelační koeficient

Pravděpodobnost v závislosti na proměnné x je zde modelován pomocí logistického modelu. exp x. x x x. log 1

MÍRY ZÁVISLOSTI (KORELACE A REGRESE)

2 Hlavní charakteristiky v analýze přežití

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

1. Přednáška. Ing. Miroslav Šulai, MBA

Příklad 1. Řešení 1 ŘEŠENÉ PŘÍKLADY Z MV2 ČÁST 11

Faktorová analýza. PSY252 Statistická analýza dat v psychologii II

RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr.

Korelační a regresní analýza. 1. Pearsonův korelační koeficient 2. jednoduchá regresní analýza 3. vícenásobná regresní analýza

Cvičení ze statistiky - 8. Filip Děchtěrenko

KGG/STG Statistika pro geografy

Pokročilejší metody: výběr. Začínáme otázkami na povahu vysvětlované proměnné a končíme otázkami na povahu vysvětlujících proměnných

5EN306 Aplikované kvantitativní metody I

Transkript:

Obsah Předmluva...1 1. Teoretická část...2 1.1. Specifikace modelu...2 1.1.1. Diagram cest...3 1.1.2. Zápis modelu...4 1.1.3. Rekurzívní a nerekurzívní modely stukturálních rovnic...6 1.2. Identifikace...6 1.2.1. Implicitní kovarianční matice...6 1.2.2. t Pravidlo...8 1.3. Odhad parametrů...8 1.3.1. Metoda maximální věrohodnosti...9 1.3.2. Ostatní metody...9 1.4. Koeficienty shody...9 1.4.1. Chí-kvadrát test ( test)...10 1.4.2. GFI, AGFI...10 1.4.3. RMSEA...11 2. Praktická část...12 2.1. Stabilita odcizení (Stability of Alienation)...12 2.2. Identifikace...14 2.3. Odhad parametrů...14 2.4. Koeficienty shody...15 Závěr...16 Seznam použité literatiry...17 Seznam tabulek...18 Seznam obrázků a diagramů...22

Předmluva Většina výzkumníků používající statistiku vychází z hlediska modelování jednotlivých pozorování [1]. Například, v mnohorozměrné regresi nebo analýze ANOVA (analýza rozptylu) se dozvídáme, že regresní koeficienty nebo odhady rozptylu chyb pochází z minimalizace součtu čtverců rozdílů předpovězených a pozorovaných proměnných pro každý případ. Analýza reziduí (Residual Analysis) zobrazuje rozdíly mezi odhadnutými a pozorovanými hodnotami pro každý člen výběru. Metody modelování strukturálními rovnicemi nabízí reorientaci. Postupy kladou důraz spíše na kovarianci než na jednotlivé případy. Místo minimalizující funkce pozorovaných a předpovězených hodnot, minimalizujeme rozdíl mezi výběrovou kovariancí a kovariancí odhadnutou z modelu. Pozorovaná kovariance mínus odhadnutá kovariance tvoří reziduum. Zásadním předpokladem pro postupy pomocí strukturálních rovnic je skutečnost, že kovarianční matice pozorovaných proměnných je funkce souboru parametrů. V případě, že je model správný a parametry jsou známé, populační matice rozptylu bude přesně reprodukována. Rovnice, která dává formální podobu tomuto zásadnímu předpokladu vypadá takto: (0.1) V rovnici (0.1) (sigma) je populační kovarianční matice pozorovaných proměnných, (théta) je vektor obsahující parametry modelu, a je kovarianční matice zapsaná jako funkce. Jednoduchost této rovnice jen předčí její obecnosti. To umožňuje sjednotit velmi mnoho metod, používaných v sociální vědě. Regresní analýza, konfirmační faktorová analýza, analýza rozptylu a jiné jsou speciálními případy rovnice (0.1). 1

1. Teoretická část Modely strukturálních rovnic (Structural Equation Models, zkráceně SEM), nebo se jim také říká modely souběžných rovnic (Simultaneous Equation Models), jsou vícerozměrnými regresními modely, ale na rozdíl od tradičních lineárních modelů, se odezvová (výstupní) proměnná může objevit v jedné regresní rovnici v SEM jako nezávislá (vstupní) proměnná v druhé rovnici [2]. Proměnné mohou ovlivňovat jedna druhou vzájemně, a to buď přímo nebo prostřednictvím jiných proměnných. Tyto strukturální rovnice jsou určeny pro reprezentaci příčinných vztahů mezi proměnnými v modelu. 1.1. Specifikace modelu Na nejzákladnější úrovni je model statistickým vyjádřením vztahů mezi proměnnými [1]. Takže se celý model skládá ze systému strukturálních rovnic. Rovnice obsahují náhodné proměnné, strukturální parametry a někdy nenáhodné proměnné. Tři typy náhodných proměnných jsou latentní, pozorované a rušené/chybné proměnné. Nenáhodné proměnné jsou vysvětlující proměnné, jejichž hodnota zůstává stejná při opakovaném náhodném výběru. Jsou méně běžné než náhodné vysvětlující proměnné. Latentní (skryté) proměnné (Latent Variables), nebo se jim také říká konstrukty nebo faktory, jsou proměnné, které nejsou přímo pozorované nebo změřené, a proto jsou odvozeny od souboru proměnných, které měříme pomocí testů, průzkumů a tak dále. Pozorované (Obseved Variables), měřené nebo indikatorní proměnné jsou souborem proměnných, které používáme k definování nebo odvození latentních proměnných nebo konstruktů. Proměnné, latentní a pozorované, mohou být také definovány buď jako endogenní (Endogenous Variables) nebo exogenní proměnné (Exogenous Variables) [2]. Endogenní proměnná je proměnná, jejíž hodnoty jsou určeny (generovány) systémem či jeho modelem. Je odezvovou (výstupní) proměnnou, a obecně existuje jedna strukturální rovnice pro každou endogenní proměnnou v SEM. Může se také objevit jako vysvětlující v jiné strukturální rovnici. Exogenní proměnná je proměnná, jejíž hodnoty jsou determinovány mimo modelovaný systém, a která daný systém ovlivňuje. V strukturálních modelech se objevují pouze jako vysvětlující proměnné (vstupní). Má se za to, že jsou měřeny bez 2

chyb (stejně jako nezávislé proměnné v obecném regresním modelu se považují jako bezchybné). Strukturální chyby (Structural Errors, Disturbances) představují souhrnná vynechaná působení (vztahy) mezi engogenními proměnnými, spolu s chybou měření (a možná i vnitřní náhodou) endogenních proměnných. Existuje jedna chybná proměnná pro každou endogenní proměnnou, a tudíž pro každou strukturální rovnici. Předpokládá se, že chybná proměnná má nulovou střední hodnotu a že je nezávislá na exogenních proměnných. Obecně se nepředpokládá, že různé chyby jsou na sobě nezávislé, ačkoli v jednotlivých modelech tyto předpoklady mohou existovat. Vztahy mezi proměnnými jsou shrnuty v strukturálních parametrech (Structural Parameters, Regression Coefficients). Strukturální parametry jsou neměnné konstanty, které poskytují příčinné vztahy mezi proměnnými. Pro další práci se strukturálními rovnicemi zavedeme následující značení [2]: - Endogenní proměnné: - Exogenní proměnné: - Chyby: - Strukturální koeficienty: vliv exogenní proměnné na endogenní proměnnou, na : (gama) vliv endogenní proměnné na jinou endogenní proměnnou, na : (beta) - Kovariance mezi: dvěma exogenními proměnnými, a : dvěma chybnými proměnnými, a : 1.1.1. Diagram cest Diagram cest (Path Diagram) je obrázkovým znázorněním systému simultánních rovnic. Jednou z hlavních výhod diagramu cest je to, že představuje obraz o vztazích, u kterého je ten předpoklad, že drží. Pro většinu výzkumníků tento obrázek může představovat vztahy jasněji než rovnice. Pro pochopení diagramu cest je potřeba zadefinovat symboly, které se v něm používají. Zápis, který dále používám pochází z [1]. Tabulka 1.1 představuje zásadní symboly. Pozorované proměnné jsou umistěné do obdélníků nebo čtverců. Nepozorované nebo latentní proměnné včetně chyb jsou uzavřené do kružnic nebo elips. Jednosměrná šipka představuje přimý vliv jedné proměnné na druhou. Každá taková šipka je označená strukturálním 3

koeficientem. Na diagramu cest lze endogenní proměnné snadno odlišit od exogenních proměnných, protože šipky směrují k nim, zatímco exogenní proměnné se objevují pouze na ocasech směrující šipky. Obousměrná šipka představuje kovarianci, a to buď mezi exogenními proměnnými, nebo mezi chybami. Řeckými písmenky jsou značeny nepozorované proměnné, včetně latentních proměnných, strukturálních chyb, chyb měření, kovariancí a strukturálních parametrů. Latinská písmenka představují pozorované proměnné. 1.1.2. Zápis modelu Strukturální rovnice modelu mohou být načteny přímo z diagramu cest. Systém strukturálních rovnic má dva hlavní podsystémy: model latentních proměnných (Latent Variable Model) a hodnotící model (Measurement Model). 1.1.2.1. Model latentních proměnných Model latentních proměnných zarhuje strukturální rovnice, které shrnují vztahy mezi latentními proměnnými. Někdy se této části modelu říká strukturální submodel. Maticově můžeme tento submodel zapsat následovně [1]: (1.1) Začneme první proměnnou, ( eta ) je vektor latentních endogenních náhodných proměnných o velikosti m 1. Vektor ( ksi ) je vektor o velikosti n 1, a představuje n exogenních latentních proměnných. Chyby v rovnicích nebo vychýlení jsou představovány ( zeta ), vektorem o velikosti m 1. je spojená s každou, pro i běžící od 1 do m. Vektor obvykle obsahuje náhodné proměnné. Koeficientní matice jsou ( beta ) a ( gama ). Matice je matice koeficientů pro latentní endogenní proměnné, jejíž prvky jsou, kde i a j odpovídají řádkovým a sloupcovým pozicím. Model předpokládá, že je regulární, to jest existuje. Na hlavní diagonále matice jsou vždy nuly. To se týká rovnice, pro kterou je odstraněna z pravé strany i-té rovnice, pro kterou je to závislá proměnná. Předpokládá se, že proměnná není bezprostředním a okamžitým vlivem sama o sobě. Nulové prvky v matici také ukazují na absensi vlivu jedné latentní proměnné na druhou. Matice je koeficientová matice pro latentní exogenní proměnné o velikosti m n, jejíž prvky jsou. Dvě kovarianční matice jsou součástí modelu latentních proměnných, jež obsahují rozptyly proměnných na hlavní diagonále a kovariance mezi všemi dvojcemi proměnných mimo hlavní diagonálu. Kovarianční matice latentních exogenních 4

proměnných (neboli ) o velikosti n n je ( fí ), s prvky. Jako všechny kovarianční matice, je symetrická. Kovarianční matice chyb v rovnicích je matice o velikosti m m ( psí ), mající prvky. Celé shrnutí všech proměnných je zapsáno do Tabulky 1.2. 1.1.2.2. Hodnotící model Hodnotící model obsahuje strukturální rovnice, které představují vztah mezi latentními a pozorovanými proměnnými. Rovnice pro hodnotící model mohou být zapsány maticově jako (1.2) (1.3) Rovnice (1.2) a (1.3) jsou také ukazány v Tabulce 1.3, která představuje zápis pro hodnotící model [1]. Náhodné proměnné v představují indikátory latentních exogenních proměnných ( ). Náhodné proměnné v představují indikátory latentních endogenních proměnných ( ). Obecně, je o velikosti q 1 (kde q je počet indikátorů, počet exogenních proměnných), je o velikosti p 1 (kde p je počet indikátorů, počet endogenních proměnných) Matice ( lambda ) a obsahují parametry, které jsou strukturálními koeficienty spojující latentní a pozorované proměnné. Velikost matice je q n (kde n je počet ) a velikost matice je p m (kde m je počet ). Koeficienty jsou velikosti očekáváné změny pozorované proměnné při změně latentní proměnné o jednotku. Tyto koeficienty jsou regresními koeficienty pro vliv latentních proměnných na pozorované proměnné (také se jim říká anglicky Factor Loadings (faktorové váhy)). Vektor chyb při měření pro je ( delta ), a má velikost q 1. Vektor chyb pro je ( epsilon ), který má velikost p 1. Předpokladáme, že a mají nulovou střední hodnotu, a že jsou nekorelované s,,, a také že a jsou nekorelované pro všechny i a j. Dvě kovarianční matice ( théta ) a, jsou kovariačními maticemi pro chyby při měření. Hlavní diagonály obsahují rozptyly odpovídajících jednotek, mimo hlavní diagonálu jsou kovariance pro různé jednotky. Matice je o velikosti q q a má rozptyly a kovariance chyb pro proměnné. Matice je matice velikosti p p, a obsahuje rozptyly a kovariance chyb proměnné. 5

1.1.3. Rekurzívní a nerekurzívní modely stukturálních rovnic Důležitým druhem modelu strukturálních rovnic je takzvaný rekurzivní model [1,2,4,5], který má dvě definující vlastnosti: - Různé proměnné chyb jsou nezávislé (nebo alespoň nekorelované) - Kauzalita v modelu je jednosměrná: nejsou oboustranné cesty (Reciprocal Path) a zpětnovazební smyčky (Feedback Loop) - jsou znázorněny na Obrázku 1.1. Jinak řečeno, matice pro rekurzivní model strukturálních rovnic je dolní trojúhelníková matice, zatímco kovarianční matice chyb je diagonální. Model, který není rekurzivním modelem se nazývá nerekurzivní model. 1.2. Identifikace Identifikace je tématem týkající se všech modelů strukturálních rovnic [1]. Pokud parametr strukturální rovnice může být odhadnut, říká se, že parametr je identifikovaný. V opačném případě je parametr neidentifikovaný. Pokud je možný více než jeden odhad - parametr je nad-identifikovaný (overidentified), v opačném případě jde o pod-identifikovaný parametr (underidentified) [2,4]. 1.2.1. Implicitní kovarianční matice Jak už bylo řečeno na začátku, zásadní předpoklad obecného modelu strukturálních rovnic je (1.4) kde je populační kovarianční matice mezi a, a je kovarianční matice zapsaná jako funkce volných parametrů modelu v [1]. Rovnice (1.4) značí, že každý prvek kovarianční matice je funkcí jednoho nebo více parametrů modelu. Vztah k je základním pro pochopení identifikace a hodnocení modelu. Vypočteme ve třech krocích: (1) kovarianční matice, (2) kovarianční matice mezi a, a (3) kovariační matice. Model: - Submodel latentních proměnných - Hodnotící submodel (1.5) (1.6) 6

(1.7) Takže naše kovarianční matice je: (1) (1.8) Za dosadíme rovnici z modelu do rovnice (1.8) a dostaneme (1.9) kde je kovarianční matice, je kovarianční matice. Analogicky spočítáme a (2) (1.10) a znovu použíjeme rovnici (3) (1.11) (1.12) Poté dáme dohromady rovnice (1.9), (1.11) a (1.12), takže kovarianční matice jako funkce parametrů modelu je: ( ) ( ) (1.13) Parametry, jejichž hodnoty bychom měli odnadnout, jsou ve vektoru. Vektor obsahuje t volných parametrů z matic,, a. Rovnice vztahu a je. Pokud neznámý parametr v může být zapsán jako funkce jednoho nebo více prvků matice, tak je parametr identifikovaný. Pokud všechny neznámé parametry v jsou identifikované, tak model je identifikovaný. Předpokládá se, že a jsou regulární. Alternativní definice identifikace začíná tím, že uvažujeme dva vektory a o velikosti t 1, každý z nich obsahuje specifické hodnoty neznámých parametrů v. 7

Můžeme sestavit implicitní kovarianční matice, a, pro každý vektor řešení. Pokud je model identifikovaný, všechna a řešení kde musí být. Jestliže pro dvojice vektorů a platí, že a, není identifikovaná. 1.2.2. t Pravidlo Nejjednodušší test, který lze použít, je nutnou, ale nikoliv postačující podmínkou identifikace, je t-pravidlo [1,2]. Tato nutná podmínka je zcela obecná a může být aplikována na všechny modely. Spočívá v tom, že počet volných parametrů v modelu nemůže být větší než počet rozptylů a kovariancí mezi pozorovanými proměnnými: (1.14) kde je počet pozorovaných proměnných a je počet volných parametrů v. Pokud počet neznámých překročí počet rovnic, pak identifikace není možná. 1.3. Odhad parametrů Postupy odhadnutí pochází ze vztahu kovarianční matice pozorovaných proměnných k strukturálním parametrům. ( ) (1.15) Jestli model strukturálních rovnic je správný a populační parametry jsou známé, tak se bude rovnat. Označme výběrovou kovarianční matici. znamená kovarianční matici, s vektorem místo (tj. ). Residuální matice ( ) indikuje jak blízká je matice k. Abychom věděli, kdy jsou naše odhady co nejbližší, potřebujeme funkci, kterou pak budeme minimalizovat. Pro tento účel lze použít mnoho různých vyhovujících funkcí. Vyhovující funkce jsou založené na výběrové kovarianční matici a implicitní kovarianční matici struturálních parametrů. Hodnota vyhovující funkce pro je. Vyhovující funkce má následující vlastnosti [1]: (1) je skalární, (2), (3), právě když, a (4) je spojitá v a. 8

Existuje několik všeobecných a hodně specifických postupů odhadu parametrů v modelu strukturálních rovnic. Patří mezi ně metoda nejmenších čtverců a metoda maximální věrohodnosti. 1.3.1. Metoda maximální věrohodnosti Nejpoužívanější vyhovující funkce pro obecné modely strukturálních rovnic je funkce maximální věrohodnosti (Maximum Likelihood function) [1,2,3,4]. Vyhovující funkce, která má být minimalizována je (1.16) Obecně, předpokládáme, že a jsou pozitivně definitní, což znamená, že jsou regulární. Abychom ověřili, že je nula [1], když, nahradíme za a do rovnice maximální věrohodnosti (1.16). V takovém případě (1.17) kde, a je nula. Tudíž, když máme model, který dokonale odhaduje hodnoty výběrové kovarianční matice, dokonalá shoda je indikovaná nulou. Odhady metodou maximální věrohodnosti jsou nestranné a konzistentní pro velké výběry. 1.3.2. Ostatní metody Jako druhá z nejpoužívanějších metod je metoda nejmenších čtverců, která minimalizuje druhou odmocninu rozdílů mezi výběrovou maticí a kovarianční maticí. Ostatní metody jsou modifikacemi těchto dvou základních modelů. 2SLS (Two-Stage Least Squares) je dvoustupňová metoda nejmenších čtverců. FIML (Full- Information likelihood) je metoda maximální věrohodnosti s plnou informaci, je docela podobná [1,2,3,4]. 1.4. Koeficienty shody Kovarianční struktura je. Celkové míry vhodnosti modelu pomáhají zjistit, zda je platný, a pokud ne, pomáhají změřit rozdíl od. Vzhledem k tomu, že a jsou populačními parametry, nejsou k dispozici, proto výzkumníci testují jejich výběrový protějšek a [1]. je výběrová kovarianční matice, a je implicitní kovarianční matice spočítaná odhadem vektoru, který minimalizuje. Označme jako. 9

Koeficienty odhadu posuzují blízkost k, tato blízkost se měří různými způsoby. 1.4.1. Chí-kvadrát test ( test) Důležitým aspektem odhadu je skutečnost, že test poskytuje celkové modelové shody pro nad-identifikované modely. Asymptotické rozdělení je rozdělení s stupní volnosti, kde t je počet volných parametrů a je hodnota vyrovnané funkce spočtená v posledním odhadu [1]. Nulová hypotéza pro chí-kvadrát test je. Protože je ekvivalentní hypotéza, chí-kvadrát test je souběžný test, kdy všechna rezidua v jsou nuly. To znamená, že nad-identifikovaná omezení jsou správná. Zamítnutí znamená, že aspoň jedno omezení je chybné a že. Chí-kvadrát testuje nulovou hypotézu, že omezení na implikované modelem jsou platné (t.j. ). Kritériem srovnání je dokonalá shoda matice, která je rovná. Hladina pravděpodobnosti spočteného chí-kvadrátu je pravděpodobnost získání hodnoty větší než hodnota získána, pokud je správná. Čím větší je pravděpodobnost, tím blížší je shoda k dokonalé shodě. Ad hoc míra vhodnosti je odhad chí-kvadrátu dělený jeho stupněmi volnosti. Odůvodnění je, že očekávaná hodnota náhodné veličiny chí-kvadrátu je počet jeho stupní volnosti. Takže odhaduje, kolikrát je větší odhad chí-kvadrátu než očekávaná hodnota, když aproximuje náhodné veličiny chí-kvadrátu. Neexistuje jednoznačná odpověď na to, co představuje dobrou shodu, doporučení se pohybují v rozmezí poměru 3, 2, nebo méně, až do 5. 1.4.2. GFI, AGFI Goodness of fit index (GFI) a upravený GFI (Adjusted GFI) pro : (1.18) [ ] (1.19) měří relativní počet rozptylů a kovariancí v, které jsou odhadnuty. upraví stupni volnosti modelu relativně k počtu proměnných. Oba z koeficientů jsou maximální, když. Obvykle jsou větší než nula, ale mohou být také záporné [1,4]. 10

1.4.3. RMSEA Jeden koeficient, který je více atraktivní než jiné, je RMSEA (Root Mean- Squared Error Aproximation) [4], který je odhadem relativní shody modelu k saturačnímu modelu populace, a počítá se jako: ( ) (1.20) Malé hodnoty RMSEA znamenají, že shoda modelu je blízká stejně jako saturační model. RMSEA 0.05 je obvykle vzata jako dobrá shoda s datami. 11

2. Praktická část Rekurzivní modely jsou zvláště užitečné pro analýzu dat z dlouhodobých studií (Longitudinal Study) v psychologii, vzdělání a sociologii [5]. Charakteristickým rysem návrhu dlouhodobého výzkumu je to, že stejná měřítka jsou používána pro stejné lidé jednou nebo víckrát. Účelem dlouhodobého výzkumu je stanovit změny, které nastaly mezi vyšetřeními, a vysvětlit tyto změny určitými podkladovými charakteristikami a událostmi, existujícími, nebo ke kterým došlo před prvním vyšetřením, a/nebo různou léčbou a vývojem, které nastaly po prvním vyšetření. Často, když se stejné proměnné používají opakovaně, je tendence korelování chyb měření proměnných v průběhu času kvůli specifickým faktorům, paměti nebo jiným efektům (vlivům). 2.1. Stabilita odcizení (Stability of Alienation) Budeme se zabývat modelem strukturálních rovnic s latentními exogenními a engodenními proměnnými. Wheaton, Muthén, Alwin a Summer (1977) přišli s výzkumnou prací, zabývající se stabilitou v čase postojů, jako třeba odcizení (Alienation), a vztahu s podkladovými proměnnými (Background Variables) jako je vzdělání a zaměstnání. Data byla získána od 932 osob ve dvou venkovských oblastech v Illinois, ve třech místech v čase: 1966, 1967,1971. Proměnné, použíté pro účely tohoto příkladu, jsou rozpětí afázii (Anomia) a nemohoucnosti (Powerlessness), jež jsou považovány za ukazatele odcizení. V tomto příkladě používáme data pouze z let 1967 a 1971. Podkladové proměnné jsou vzdělání respodenta (Respodent s education) - (dokončené roky studia) a socioekonomický index (SEI), které jsou považovány za ukazatele socioekonomického statusu respodenta (SES). Výběrová kovarianční matice šesti pozorovaných proměnných je dána v Tabulce 2.1 [3,5]. Model, kterým se budeme zabývat je znázorněn na Obrázku 2.1 [5]. Čtyři jednosměrové šipky na horní části obrázku představují chyby při měření proměnné Afázie 67, Nemohoucnost 67, Afázie 71 a Nemohoucnost 71 v tomto pořadí. Obousměrná šipka na horní části diagramu znamená, že některé chyby při měření jsou korelované. Kovariance mezi dvěma chybami pro každou proměnnou může být interpretována jako specifický rozptyl chyb. Z diagramu cest 2.1 můžeme zapsat model pomocí strukturálních rovnic. Model se skládá ze submodelu latentních proměnných, který má dvě rovnice pro dvě 12

latentní endogenní proměnné (Odcizení 67 a Odcizení 71), a hodnotícího submodelu, který má rovnice pro šest indikátorů latentních proměnných. - Submodel latentních proměnných: - Hodnotící submodel: Nebo maticově tento model můžeme přepsat následovně: - Submodel latentních proměnných: ( ) ( ) ( ) ( ) ( ) (2.1) - Hodnotící submodel: ( ) ( ) ( ) ( ) (2.2) kde ( ) ( ) ( ) (2.3) ( ), ( ), ( ),, ( ) ( ), ( ), ( ), ( ), ( ), ( ), ( ),, ( ), ( ) 13

Matice modelu je horní trojúhelníková, a je diagonální, takže podmínky pro rekurzivní model jsou splněny. 2.2. Identifikace Parametry v jsou globálně identifikovány, pokud neexistují žádné vektory a takové, že, s výjimkou. Kovarianční struktura implikuje rovnic. Pokud prvek může být vyjádřen jako funkce jednoho nebo více prvku matice, tak to určí identifikaci. Jestli všechny prvky splňují tuto podmínku, tak je model identifikován. Matice pozorovaných proměnných je: ( ) (2.4) Vektor neznámých parametrů: ( ) Jako nutná, ale nikoliv postačující podmínka pro identifikaci je t-pravidlo: (2.5) kde t je počet volných prvků v. Prvky implikují rovnic, pokud počet neznámých překročí počet rovnic, pak není identifikace možná. Model na Obrázku 2.1 a rovnice modelu ukazují, že vektor má 17 prvků a je 21. Takže t-pravidlo je splněno. 2.3. Odhad parametrů Předpokladem našeho modelu je. Potřebujeme zvolit tak, aby byla co nejblíž k, kde je výběrová kovarianční matice pozorovaných proměnných. Použíjeme metodu maximální věrohodnosti: (2.6) Náš problém vyřešíme v programu R [2,3]. Je široce používán, zejména u statistiků, a v současnosti má rozsáhlé možnosti. Balíček sem poskytuje základní možnosti modelování stukturálními rovnicemi, včetně možnosti zkoušet strukturální 14

rovnice v modelech s pozorovanými proměnnými metodami 2SLS a FIML za předpokladu mnohorozměrného normálního rozdělení. V programu R, odhadnutí metodou maximální věrohodnost řešíme pomocí funcke sem [2,3,4]. Pro ni potřebujeme zadefinovat model, to jest zadefinovat existující vztahy mezi proměnnými. Také potřebujeme zadefinovat výběrovou kovarianční matici pro data, které jsou dány v Tabulce 2.1. Kovarianční matice je zapsána jako dolní-trojúhelníková vzhledem k symetrii kovarianční matice. Sem akceptuje dolní trojúhelníkové, horní trojúhelníkové nebo symetrické kovarianční matice. Celkový zdrojový kód najdeme v Příloze 1. Odhadnuté hodnoty jsou ukázány v Tabulce 2.2. 2.4. Koeficienty shody Poměr je blízký k 1. ( je 4,7302/4 = 1.18255) Počet stupní volnosti je 21 17, neboli 4. Pravděpodobnost získání hodnoty větší než získaná hodnota, pokud je správná, je kolem 0,3. Na hladině 0,05 nemůžeme zamítnout nulovou hypotézu. Model má dostatečně dobrou shodu. Goodness of fit index (GFI) ukazuje, že model popisuje 99,831% reality. Adjusted GFI (AGFI) je kolem 1 (0,99115). Hodnota RMSEA je 0,014003, což je docela málo, a je menší než 0,05. Celkově můžeme konstatovat, že odhadnuté parametry dostatečně dobře popisují náš model. 15

Závěr Proč je strukturální modelování populární? Existuje několik příčin popularity metody SEM [6]. Prvním důvodem je ten fakt, že výzkumníci si stále více uvědomují nutnost použití více pozorovaných proměnných, aby lépe pochopili svoji oblast vědeckého zkoumání. Základní statistické metody používají pouze omezený počet proměnných, které nemohou pracovat se složitějšími teoriemi na etapě vývoje (počáteční etapě). SEM umožňuje komplexní jevy statisticky modelovat a testovat. Druhou příčinou je vyšší spolehlivost zjištěných výsledků z měřících instrumentů. Konkrétně, chyba měření se stala hlavním problémem v mnoha oborech, ale chyba měření a statistická analýza byly řešeny zvlášť. Techniky strukturálního modelování berou v úvahu chybu měření v průběhu statistické analýzy dat. SEM analýza zahrnuje skryté a pozorované proměnné, stejně jako chybu měření v některých modelech SEM. Dalším důvodem je to, jak strukturální modelování dospělo během posledních 30 let, zejména schopnost analyzovat více pokročilé teoretické SEM modely. Výzkumníci mohou analyzovat složité teoretické modely komplexních jevů pomocí víceúrovňového modelování strukturálními rovnicemi a oceňování pomocí více skupinových SEM modelů. Konečně, SEM softwarové programy se staly uživatelsky příjemnější. Dříve, do roku 1993, uživatelé LISREL museli zadat programní syntax pro jejich modely pomocí Řecké a maticové notace. Byla potřeba složitých programových požadavků a znalostí syntaxe SEM. Dnes většina SEM softwarových programů už má zabudovaný programní syntax a jsou snazší pro používání. 16

Seznam použité literatiry [1] Bollen, Keneth. A. (1989). Structural Equations With Latent Variables. Wiley, New York. [2] Fox, John (2006). An Introduction to Structural Equation Modelling - Lecture Notes. Zdroj: http://socserv.mcmaster.ca/jfox/courses/oxford-2006/semsnotes.pdf Datum zveřejnění: 7.3.2006. Datum přístupu: 31.7.2012. Department of Sociology, McMaster University, Hamilton, Ontario, Canada. [3] Fox, John (2006). Structural Equation Modeling With the sem Package in R. Technical report. McMaster University, Hamilton, Ontario, Canada. [4] Fox, John (2002). Structural Equation Models. Appendix to An R and S- PLUS companion to Applied Regression. Technical report. McMaster University, Hamilton, Ontario, Canada. [5] Joreskog, Karl G. and Sorbom, Dag (1996). LISREL 8: User's Reference Guide. Scientific Software International, Chicago. [6] Schumacker, Randall E. and Lomax, Richard G.(2004), A Beginner s Guide to Structural Equation Modeling (2nd Edition). :Lawrence Erlbaum Associates, Inc., Mahwah, New Jersey. [7] Wheaton, B., Muthén, B., Alwin, D. F., & Summers, G. F. (1977). Assessing reliability and stability in panel models. In D. R. Heise (Ed.), Sociological methodology 1977. Jossey-Bass, San Francisco. 17

Seznam tabulek (Tabulka 1.1) Zásadní symboly používané v analýze cest Obdélník nebo čtverec značí pozorovanou proměnnou Kružnice nebo elipsa značí nepozorovanou nebo latentní proměnnou, a také chyby Jednosměrná přímá šipka znamená, že proměnná, která je v ocasu šipky ovlivňuje proměnnou, která je v hlavičce šipky Zakřivená obousměrná šipka označuje neanalyzované spojení mezi dvěma proměnnými Obousměrná šipka spojující dvě proměnné označuje zpětnovazební vztah nebo vzájemné působení 18

(Tabulka 1.2) Zápis pro model latentních (nepozorovaných) proměnných Strukturální rovnice pro model latentních proměnných Předpoklady je nekorelované s je regulární Symbol Název Dimenze Definice Proměnné eta m 1 latentní endogenní proměnné ksí n 1 latentní exogenní proměnné zeta m 1 latentní chyby v rovnicích Koeficienty beta m m gama m n koeficientní matice pro latentní endogenní proměnné koeficientní matice pro latentní exogenní proměnné Kovarianční matice fí n n (kovarianční matice ) psí m m (kovarianční matice ) 19

(Tabulka 1.3) Zápis pro hodnotící model Strukturální rovnice pro hodnotící model Předpoklady,, je nekorelované s,a, a je nekorelované s, Symbol Název a Dimenze Definice Proměnné p 1 pozorované indikátory pro q 1 pozorované indikátory pro epsilon p 1 chyby při měření pro delta q 1 chyby při měření pro Koeficienty lambda x p m koeficienty vlivu lambda y q n koeficienty vlivu na na Kovarianční matice théta-epsilon p p (kovarianční matice ) théta-delta q q (kovarianční matice ) (Tabulka 2.1) Kovarianční matice pro model stability odcizení Afázie 67 11.834 Nemohoucnost 67 6.947 9.364 Afázie 71 6.819 5.091 12.532 Nemohoucnost 71 4.783 5.028 7.495 9.986 Vdělání -3.839-3.889-3.841-3.625 9.610 SEI -21.899-18.831-21.748-18.775 35.522 450.288 20

(Tabulka 2.2) Odhady parametrů pro model Stability Odcizení. Parametr Odhad Standardní chyba 0.97873 0.061607 0.92207 0.059529 5.21949 0.422395-0.57501 0.056432-0.22677 0.052355 0.60705 0.051048 4.84668 0.468102 4.08761 0.404770 6.80565 0.650035 2.80435 0.507879 264.88139 18.155584 4.73577 0.453829 2.56610 0.403742 4.40391 0.515860 3.07318 0.434910 1.62469 0.314041 0.33906 0.261449 21

Seznam obrázků a diagramů (Obrázek 1.1) Obousměrné šipky a zpětnovazební smyčky nejsou povoleny v rekurzivních modelech Obousměrná šipka Zpětnovazební smyčka y k y k y k y k y k (Obrázek 2.1) Diagram cest pro model stability odcizení 1 2 3 4 y 1 : Afázie 67 y 2 : Nemohoucnost 67 y 3 : Afázie 71 y 4 : Nemohoucnost 71 1 1 1 2 1: Odcizení 67 2: Odcizení 71 1 1 2 2 : SES 1 3 x 1 : Vzdělání x 2 : SEI 1 2 22