Vícerozměrné metody. PSY117/454 Statistická analýza dat v psychologii Přednáška 12. Schematický úvod

Podobné dokumenty
Analýza rozptylu. PSY117/454 Statistická analýza dat v psychologii Přednáška 12. Srovnávání více než dvou průměrů

Cronbachův koeficient α nová adaptovaná metoda uvedení vlastností položkové analýzy deskriptivní induktivní parametrické

Grafický a číselný popis rozložení dat 3.1 Způsoby zobrazení dat Metody zobrazení kvalitativních a ordinálních dat Metody zobrazení kvan

Úvodem Dříve les než stromy 3 Operace s maticemi

Korelační a regresní analýza. 1. Pearsonův korelační koeficient 2. jednoduchá regresní analýza 3. vícenásobná regresní analýza

Faktorová analýza. PSY252 Statistická analýza dat v psychologii II

Obsah Úvod Kapitola 1 Než začneme Kapitola 2 Práce s hromadnými daty před analýzou

AVDAT Mnohorozměrné metody, metody klasifikace

Profilování vzorků heroinu s využitím vícerozměrné statistické analýzy

Vyhodnocení průměrných denních analýz kalcinátu ananasového typu. ( Metoda hlavních komponent )

{ } ( 2) Příklad: Test nezávislosti kategoriálních znaků

ZX510 Pokročilé statistické metody geografického výzkumu

Pravděpodobnost v závislosti na proměnné x je zde modelován pomocí logistického modelu. exp x. x x x. log 1

RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr.

Pokročilé neparametrické metody. Klára Kubošová

Vícerozměrné statistické metody

Příklad 2: Obsah PCB v játrech zemřelých lidí. Zadání: Data: Program:

MĚŘENÍ STATISTICKÝCH ZÁVISLOSTÍ

Prostorová variabilita

Analýza rozptylu. opakovaná měření faktoriální analýza rozptylu analýza kovariance vícerozměrná analýza rozptylu

Fakulta chemicko-technologická Katedra analytické chemie. Licenční studium Statistické zpracování dat při managementu jakosti. Semestrální práce:

Regrese. používáme tehdy, jestliže je vysvětlující proměnná kontinuální pokud je kategoriální, jde o ANOVA

Aplikovaná statistika v R - cvičení 3

Diskriminační analýza hodnocení rozdílů mezi 2 nebo více skupinami objektů charakterizovanými více znaky

Pokročilé neparametrické metody. Klára Kubošová

Fakulta chemicko technologická Katedra analytické chemie

Tomáš Karel LS 2012/2013

Statistická analýza jednorozměrných dat

Státnice odborné č. 20

Shluková analýza dat a stanovení počtu shluků

ANALÝZA DAT V R 5. ZÁKLADNÍ STATISTICKÉ TESTY. Mgr. Markéta Pavlíková Katedra pravděpodobnosti a matematické statistiky MFF UK.

Téma 9: Vícenásobná regrese

Explorační faktorová analýza - analýza hlavních komponent

Hledání optimální polohy stanic a zastávek na tratích regionálního významu

ANALÝZA DAT V R 3. POPISNÉ STATISTIKY, NÁHODNÁ VELIČINA. Mgr. Markéta Pavlíková Katedra pravděpodobnosti a matematické statistiky MFF UK

4 STATISTICKÁ ANALÝZA VÍCEROZMĚRNÝCH DAT

Vícerozměrné statistické metody

Radoslav Škapa Modelování pomocí strukturálních rovnic: úspěšný nástroj pro pochopení chování zákazníků?

Úvodní seminář Přehled metod, typy znaků

Statgraphics v. 5.0 STATISTICKÁ INDUKCE PRO JEDNOROZMĚRNÁ DATA. Martina Litschmannová 1. Typ proměnné. Požadovaný typ analýzy

Statistické metody v ekonomii. Ing. Michael Rost, Ph.D.

Analýzy regionálního trhu práce v České republice Analysis of regional labour market in Czech Republic

Sociologický výzkum (stručný úvod) Michal Peliš

Fakulta chemicko-technologická Katedra analytické chemie. 3.2 Metody s latentními proměnnými a klasifikační metody

Regresní a korelační analýza

MÍRY ZÁVISLOSTI (KORELACE A REGRESE)

DRG systém klasifikuje případy akutní hospitalizační péče do DRG skupin DRG skupiny = nákladově homogenní a klinicky příbuzné skupiny případů

Mgr. Karla Hrbáčková, Ph.D. Základy kvantitativního výzkumu

5 Vícerozměrná data - kontingenční tabulky, testy nezávislosti, regresní analýza

Cvičení 12: Binární logistická regrese

Vysoká škola báňská technická univerzita Ostrava. Fakulta elektrotechniky a informatiky

10. Předpovídání - aplikace regresní úlohy

Statistika. Regresní a korelační analýza Úvod do problému. Roman Biskup

ANALÝZA DAT V R 7. KONTINGENČNÍ TABULKA. Mgr. Markéta Pavlíková Katedra pravděpodobnosti a matematické statistiky MFF UK.

Statistické testování hypotéz II

STATISTICKÉ METODY; ZÍSKÁVÁNÍ INFORMACÍ Z DRUHOVÝCH A ENVIRONMENTÁLNÍCH DAT

Předmluva S o u h rn... 89

Testování hypotéz o parametrech regresního modelu

Statistické zkoumání faktorů výšky obyvatel ČR

1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.

Regresní a korelační analýza

AVDAT Klasický lineární model, metoda nejmenších

PRAVDĚPODOBNOST A STATISTIKA

Induktivní statistika. z-skóry pravděpodobnost

Cíle korelační studie

PRAVDĚPODOBNOST A STATISTIKA

3.4 Určení vnitřní struktury analýzou vícerozměrných dat

ZX510 Pokročilé statistické metody geografického výzkumu. Téma: Měření síly asociace mezi proměnnými (korelační analýza)

Tomáš Karel LS 2012/2013

4ST201 STATISTIKA CVIČENÍ Č. 10

Univerzita Pardubice Fakulta chemicko technologická Katedra analytické chemie Licenční studium Management systému jakosti

LEKCE 11 FAKTOROVÁ ANALÝZA

SEMESTRÁLNÍ PRÁCE. Leptání plasmou. Ing. Pavel Bouchalík

různé typy přehledových studií integrativní typ snaha o zobecnění výsledků z množství studií

INDUKTIVNÍ STATISTIKA

KONFIRMAČNÍ FAKTOROVÁ ANALÝZA. STANDA JEŽEK FSS:PSY stan&apps.fss.muni.cz

Klíčová slova prediktory absolvování studia medicíny, logistická regrese, ROC křivky

Testování hypotéz. 1. vymezení základních pojmů 2. testování hypotéz o rozdílu průměrů 3. jednovýběrový t-test

You created this PDF from an application that is not licensed to print to novapdf printer (

Cvičení ze statistiky - 3. Filip Děchtěrenko

1. Číselné posloupnosti - Definice posloupnosti, základní vlastnosti, operace s posloupnostmi, limita posloupnosti, vlastnosti limit posloupností,

Testování hypotéz o parametrech regresního modelu

Pořízení licencí statistického SW

Měření závislosti statistických dat

Cvičná bakalářská zkouška, 1. varianta

PRAVDĚPODOBNOST A STATISTIKA

Kategorická data METODOLOGICKÝ PROSEMINÁŘ II TÝDEN 7 4. DUBNA dubna 2018 Lukáš Hájek, Karel Höfer Metodologický proseminář II 1

4EK211 Základy ekonometrie

Kontingenční tabulky, korelační koeficienty

Segmentace návštěvníků

TLOUŠŤKOVÁ A VÝŠKOVÁ STRUKTURA A JEJÍ MODELOVÁNÍ

Plánování experimentu

Moderní a alternativní metody výuky pohledem datových analýz. Mgr. Jakub Lysek, Ph.D. a Mgr. Michal Soukop

Algoritmy pro shlukování prostorových dat

SEMESTRÁLNÍ PRÁCE 3.5 Klasifikace analýzou vícerozměrných dat

Tématické okruhy pro státní závěrečné zkoušky. Navazující magisterské studium. studijní obor "Management kvality"

Korelace. Komentované řešení pomocí MS Excel

6. Lineární regresní modely

STATISTIKA A INFORMATIKA - bc studium OZW, 1.roč. (zkušební otázky)

Transkript:

PSY117/454 Statistická analýza dat v psychologii Přednáška 12 Vícerozměrné metody Schematický úvod Co je na slově statistika tak divného, že jeho vyslovení tak často způsobuje napjaté ticho? William Kruskal

Přehled vícerozměrných metod Analýza závislostí Modelujeme vliv nezávislých proměnných na závislé Vícerozměrná lineární regrese a strukturní modelování Faktoriální ANOVA a MANOVA Diskriminační analýza (Logistická regrese) externální, strukturní Klasifikace a struktura dat internální Hledáme strukturu vzájemných vztahů mezi proměnnými či jedinci s cílem je klasifikovat popř. redukovat složitost Explorační faktorová analýza Shluková analýza AJ: multivariate techniques

ZÁVISLOSTI 1 Vícerozměrná lineární regrese Jak dobře lze předpovědět inteligenci dítěte z inteligence otce, matky, vzdělání otce a vzdělání matky? Který z uvedených prediktorů má nejvyšší predikční sílu? Y = a + b 1 X 1 + b 2 X 2 + + b n X n 1 intervalová závislá n intervalových nezávislých prediktorů Oproti jednoduché lineární regresi je zde novinkou nutnost vypořádat se se vztahy mezi prediktory (čím menší tím lépe). Pro možnost srovnávání predikční síly prediktorů zavedena standardizovaná verze koeficientu b n: β n (beta) AJ: multiple regression

ZÁVISLOSTI 1 Vícerozměrná lineární regrese IQ otec b 1 IQ matka b 2 b 3 IQ dítě Vzdělání O b 4 Vzdělání M

ZÁVISLOSTI 2 Strukturní modelování SEM, LISREL Velmi obecné rozšíření regresního modelu o více závislých včetně vztahů mezi nimi zohlednění vztahů (korelací) mezi prediktory latentní (neměřené) proměnné Y 1 = a + b 11 X 1 + b 12 X 2 + + b 1n X n +cy 2 Y 2 = a + b 21 X 1 + b 22 X 2 + + b 2n X n +cy 1 ažy m m intervalových závislých n intervalových prediktorů Ověřují se jím složité hypotézy, které mají obecný tvar: Odpovídají vztahy mezi daty specifikovanému modelu? AJ: structural equation modeling, latent variables

ZÁVISLOSTI 2 Strukturní modelování SEM, LISREL Vzdělání a socioekonomický index predikují stabilitu anomie a bezmoci mezi lety 1967 a 1971. Vážený součet vzdělání a socioekonomického indexu dává SES latentníproměnnou. Podobně anomie a bezmoc jsou složkami latentní proměnné pocit odcizení.

ZÁVISLOSTI 3 Faktoriální ANOVA Jak ovlivňují inteligenci dítěte jeho pohlaví, etnická příslušnost otce, matky, vzdělání otce a vzdělání matky? Který z uvedených faktorů má největší vliv na inteligenci dítěte? Y = X 1 + X 2 + + X n + interakce 1 intervalová závislá n kategoriálních nezávislých faktorů Lze zde uvažovat o kombinovaném vlivu 2(či více) faktorů - interakce Pro možnost srovnávání velikosti vlivu faktorů používáme ukazatel velikosti účinku η 2,ω 2.

ZÁVISLOSTI 4 Vícerozm. ANOVA: MANOVA Jak ovlivňují inteligenci a školní výkon dítěte jeho pohlaví, etnická příslušnost otce, matky, vzdělání otce a vzdělání matky? Který z uvedených faktorů má největší vliv na inteligenci dítěte? Y 1 + Y 2 + + Y m = X 1 + X 2 + + X n + interakce m intervalových závislých n kategoriálních nezávislých faktorů Jde o rozšíření faktoriální ANOVY, testuje, zda se skupiny dané nezávislými proměnnými liší u alespoň jedné závislé (H 0 ).

ZÁVISLOSTI 5 Diskriminační analýza Známe-li schopnost rodičů intonovat, vzdělání rodičů a příjem rodičů, dokážeme predikovat, zda je jejich 15letý syn diskant, hoper, technař, nebo goth? Který z uvedených prediktorů má největší predikční sílu? Y = b 1 X 1 + b 2 X 2 + + b n X n 1 kategoriální závislá s 2 a více hodnotami n intervalových nezávislých prediktorů Má-li závislá pouze 2 hodnoty, jde o logistickou regresi. AJ: discriminant analysis, logistic regression

KLASIFIKACE 1 Faktorová analýza I. - Použití Účelem FA je redukce většího množství proměnných na menší množství proměnných faktorů nesoucích podstatné množství informace (varibility). Typickým nasazením je analýza dotazníkových položek s cílem zjistit, které lze sečíst do jednoho skóru. Kromě explorační FA existuje i konfirmační FA (součást SEM) Předpoklady FA Kvalitní korelace v matici (tj. předpoklady použití r splněny) Velikost vzorku N > (10 * počet faktorovaných proměnných) Rozložení proměnných symetrické, blízké normálnímu AJ: factor analysis, factor, exploratory FA (=FA), confirmatory FA (=CFA)

KLASIFIKACE 1 Faktorová analýza II. - Princip Jde o analýzu korelační matice. Proměnné, které spolu vysoce korelují, pravděpodobně měří totéž. Mohou tedy být nahrazeny jedinou proměnnou, která je jejich lineární kombinací (váženým součtem) faktorem. Váhy v tom váženém součtu jsou faktorové náboje. Dobrá struktura je požadavek na jasnost faktorové matice. Každá položka by měla vysoko (více než -+0,7) skórovat v právě jednom faktoru, každý faktor by měl obsahovat dva nebo více vysokých faktorových nábojů. Korelač ní matice P1 P2 P3 P4 Faktorová matice P1 P2 P3 P4 P1 1 -,14,74,08 F1,73,47,87,58 P2 P3 -,14,74 1,19,19 1,59,17 F2 -,60,77 -,35,66 P4,08,59,17 1 h 2,89,81,87,77 AJ: correlation matrix, factor loading, good structure

KLASIFIKACE 2 Shluková analýza I. - Použití Účelem shlukové analýzy je kategorizovat objekty typicky respondenty (za objekty lze považovat po transpozici datové matice i proměnné) výsledkem je empirická typologie, nejistá zobecnitelnost Objekty kategorizujeme podle jejich vlastností - hodnot ve vstupních proměnných např. kategorizujeme lidi podle věku a pohlaví v takovém případě bychom měli získat 4 kategorie (shluky) chlapce, muže, dívky a ženy Objekty jsou kategorizovány na základě podobnosti existují různé ukazatele podobnosti (např. vzdálenost v n- rozměrném prostoru, kde n = počet vstupních proměnných) maximem podobnosti je stejnost - identita AJ: cluster analysis, similarity indices (measures),

KLASIFIKACE 2 Shluková analýza II. - Princip Analýza se skládá z neustálého opakování následujícího kroku: Najdi 2 nejpodobnější objekty a vytvoř z nich shluk vytvoř shluk = utvoř z nich skupinu, kt. bude dále vystupovat jako pomyslný průměrný objekt vytvořený ze 2 původních objektů po několika opakováních již budou shlukovány shluky vytvořené v předchozích krocích (do větších shluků) Postup končí, když jsou všechny případy v jednom velkém shluku Takto vzniká hierarchická struktura připomínající strom na jedné straně n objektů, které se postupným slučováním nakonec slučují až do jednoho velkého shluku grafickou podobou této struktury je dendrogram Na základě výsledků se rozhodujeme, které shluky jsou smysluplné a které ne pro posouzení používáme běžná kategorizační pravidla, tj. chceme aby objekty ve shluku si byly velmi (kvalitativně) podobné a co nejvíce se odlišovaly od objektů v ostatních shlucích

KLASIFIKACE 2 Shluková analýza III. - Praktické 1. Jaký ukazatel podobnosti objektů využít? musí odpovídat úrovni měření dat 2. Jak definovat podobnost shluků (cluster method) např. vzdálenost průměrů (středů) shluků (centroid), nebo vzdálenost nejbližších prvků často se používátzv. Wardovametoda 3. Kolik shluků chceme? jen málo formálních pravidel a i ta jsou přibližná rozhodnutí je dáno smysluplností shluků 4. Jaká data potřebujeme na velikosti vzorku příliš nezáleží (záleží na účelu klasifikace) počet vstupních proměnných (vlastností) držíme na minimu (<10) vstupní proměnné by spolu ideálně neměly moc korelovat

Shrnutí Vícerozměrné analýzy jsou realističtější můžeme zařadit do analýzy vše, co je relevantní realističnost = složitost Velmi obecné hypotézy. vztahy mezi nezávislými co má vlastně vliv? mnoho možností při specifikování modelu Více proměnných vyžaduje větší vzorky a obvykle i lepší měření (více prostoru pro to, aby se projevil každý defekt) Je dobré vyhledat pomoc zkušenějších. Je dobré při plánování výzkumu vědět, co lze a co nelze spočítat, co je snadné a co bude asi těžké.