Analýza kvantitativních dat II. Standardizace v kontingenční tabulce kontrola vlivu 3 faktoru



Podobné dokumenty
Kontingenční tabulky analýza kategoriálních dat: Úvod. Třídění 2. stupně

Spokojenost se životem

Testování hypotéz a měření asociace mezi proměnnými

Excel mini úvod do kontingenčních tabulek

Kategorická data METODOLOGICKÝ PROSEMINÁŘ II TÝDEN 7 4. DUBNA dubna 2018 Lukáš Hájek, Karel Höfer Metodologický proseminář II 1

Korelace. Komentované řešení pomocí MS Excel

Program Statistica Base 9. Mgr. Karla Hrbáčková, Ph.D.

Návod na statistický software PSPP část 2. Kontingenční tabulky

Kontingenční tabulka: vztahy mezi kategorizovanými znaky - míry asociace/korelace, znaménkové schéma

Analýza kvantitativních dat II. 2. Vztahy mezi kategorizovanými znaky v kontingenční tabulce

Obsah Úvod Kapitola 1 Než začneme Kapitola 2 Práce s hromadnými daty před analýzou

Metodologie pro Informační studia a knihovnictví 2

Cvičení ze statistiky - 9. Filip Děchtěrenko

{ } ( 2) Příklad: Test nezávislosti kategoriálních znaků

Analýza dat z dotazníkových šetření

Korelační a regresní analýza. 1. Pearsonův korelační koeficient 2. jednoduchá regresní analýza 3. vícenásobná regresní analýza

Statistické testování hypotéz II

ZX510 Pokročilé statistické metody geografického výzkumu. Téma: Měření síly asociace mezi proměnnými (korelační analýza)

Popisná statistika. Komentované řešení pomocí MS Excel

Aplikovaná statistika v R - cvičení 2

Metodologie pro ISK 2, jaro Ladislava Z. Suchá

PSY117/454 Statistická analýza dat v psychologii Přednáška 10

KGG/STG Statistika pro geografy

Jana Vránová, 3. lékařská fakulta UK

Mgr. Karla Hrbáčková, Ph.D. Základy kvantitativního výzkumu

KORELACE. Komentované řešení pomocí programu Statistica

= = 2368

Testování hypotéz. 1. vymezení základních pojmů 2. testování hypotéz o rozdílu průměrů 3. jednovýběrový t-test

Testování hypotéz. Testování hypotéz o rozdílu průměrů t-test pro nezávislé výběry t-test pro závislé výběry

Příklad 1. Korelační pole. Řešení 1 ŘEŠENÉ PŘÍKLADY Z MV2 ČÁST 13

JEDNOVÝBĚROVÉ TESTY. Komentované řešení pomocí programu Statistica

Ilustrační příklad odhadu LRM v SW Gretl

5 Vícerozměrná data - kontingenční tabulky, testy nezávislosti, regresní analýza

Lineární regrese. Komentované řešení pomocí MS Excel

Tomáš Karel LS 2012/2013

Příprava souboru dat a analýza

Testování hypotéz. Testování hypotéz o rozdílu průměrů t-test pro nezávislé výběry t-test pro závislé výběry

PSY117/454 Statistická analýza dat v psychologii seminář 9. Statistické testování hypotéz

ANALÝZA DAT V R 7. KONTINGENČNÍ TABULKA. Mgr. Markéta Pavlíková Katedra pravděpodobnosti a matematické statistiky MFF UK.

INDUKTIVNÍ STATISTIKA

VYHODNOCOVÁNÍ KVANTITATIVNÍCH DAT (ÚVOD DO PROBLEMATIKY) Metodologie pro ISK

POPISNÁ STATISTIKA Komentované řešení pomocí programu Statistica

Korelační a regresní analýza

4ST201 STATISTIKA CVIČENÍ Č. 7

Testy dobré shody Máme dvě veličiny, u kterých bychom chtěli prokázat závislost, TESTY DOBRÉ SHODY (angl. goodness-of-fit tests)

Seminář 6 statistické testy

TECHNICKÁ UNIVERZITA V LIBERCI

Úvod do analýzy rozptylu

Protokol č. 1. Tloušťková struktura. Zadání:

Pearsonův korelační koeficient

ADDS cvičení 7. Pavlína Kuráňová

Základy biostatistiky II. Veřejné zdravotnictví 3.LF UK - II

Metodologie pro Informační studia a knihovnictví 2

Výzkum sociální změny

Kontrola: Sečteme-li sloupec,,četnost výskytu musí nám vyjít hodnota rozsahu souboru (našich 20 žáků)

LEKCE 5 STATISTICKÁ INFERENCE ANEB ZOBECŇOVÁNÍ VÝSLEDKŮ Z VÝBĚROVÉHO NA ZÁKLADNÍ SOUBOR

Kontingenční tabulky, korelační koeficienty

MÍRY ZÁVISLOSTI (KORELACE A REGRESE)

SEMESTRÁLNÍ PRÁCE. Leptání plasmou. Ing. Pavel Bouchalík

Regresní a korelační analýza

Tomáš Karel LS 2012/2013

Jana Vránová, 3.lékařská fakulta UK, Praha. Hypotézy o populacích

Test dobré shody v KONTINGENČNÍCH TABULKÁCH

12. cvičení z PST. 20. prosince 2017

Seminář 6 statistické testy

LEKCE02a ANALÝZA ROZLOŽENÍ KATEGORIZOVANÝCH DAT vzorový výsledek cvičení

Stav Svobodný Rozvedený Vdovec. Svobodná Rozvedená Vdova 5 8 6

Regresní a korelační analýza

Téma 9: Vícenásobná regrese

LEKCE 6 ZÁKLADY TESTOVÁNÍ HYPOTÉZ

Statistické metody uţívané při ověřování platnosti hypotéz

Mann-Whitney U-test. Znaménkový test. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek

DVOUVÝBĚROVÉ A PÁROVÉ TESTY Komentované řešení pomocí programu Statistica

Statgraphics v. 5.0 STATISTICKÁ INDUKCE PRO JEDNOROZMĚRNÁ DATA. Martina Litschmannová 1. Typ proměnné. Požadovaný typ analýzy

Grafický a číselný popis rozložení dat 3.1 Způsoby zobrazení dat Metody zobrazení kvalitativních a ordinálních dat Metody zobrazení kvan

Pravděpodobnost v závislosti na proměnné x je zde modelován pomocí logistického modelu. exp x. x x x. log 1

1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.

Jednovýběrové testy. Komentované řešení pomocí MS Excel

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz

STATISTICKÉ TESTY VÝZNAMNOSTI

Zpracování studie týkající se průzkumu vlastností statistických proměnných a vztahů mezi nimi.

Vícerozměrné statistické metody

Vysoká škola báňská technická univerzita Ostrava. Fakulta elektrotechniky a informatiky

Příklad: Test nezávislosti kategoriálních znaků

Mannův-Whitneyův(Wilcoxonův) test pořadová obdoba dvouvýběrového t-testu. Statistika (MD360P03Z, MD360P03U) ak. rok 2007/2008

Kontingenční tabulky, korelační koeficienty

Testy nezávislosti kardinálních veličin

Kurz SPSS: Jednoduchá analýza dat. Jiří Šafr

Tabulka 1. Výběr z datové tabulky

Třídění statistických dat

Intervalové odhady. Interval spolehlivosti pro střední hodnotu v N(µ, σ 2 ) Interpretace intervalu spolehlivosti. Interval spolehlivosti ilustrace

Jednofaktorová analýza rozptylu

Testování hypotéz. 1 Jednovýběrové testy. 90/2 odhad času

Metodologie pro Informační studia a knihovnictví 2

Statistická a věcná významnost. Statistická významnost. Historie hypotézy a testů. Hypotézy a statistické testy.

Tisková zpráva. Zájem o politiku a názory na podílení se občanů na rozhodování - únor /5

Statistická analýza jednorozměrných dat

Hodnocení kvality vzdělávání září 2018

Transkript:

UK FHS Historická sociologie (LS 2013+) Analýza kvantitativních dat II. Standardizace v kontingenční tabulce kontrola vlivu 3 faktoru Jiří Šafr jiri.safr(zavináč)seznam.cz poslední aktualizace 13.1. 2015

OBSAH Připomenutí principu kontingenčních tabulek s tříděním třetího stupně Princip přímé standardizace v kontingenční tabulce (převážení podle kontrolního faktoru) Příklad 1: Sebeúcta dítěte podle náboženské orientace rodiny při kontrole vzdělání otce Příklad 2: Militantnost v boji za lidská práva podle náboženskosti při kontrole vzdělání Výpočet redukce vlivem kontrolní proměnné/ faktoru Příklad 3: Vzdělanostní aspirace podle typu školy/čtvrti při kontrole vlivu vzdělání rodičů Příklad 4 s ukázkou v SPSS: Chození do kina podle vzdělání s kontrolou vlivu věku, ve verzi: a) standardizace v konting. tab. (pro kategoriální znaky) b) parciální korelace (pro ordinální/kardinální znaky) 2

Nejprve připomenutí principu: Tabulky třídění třetího stupně Podrobněji viz http://metodykv.wz.cz/akd1_kontg_tab3st_uvod.ppt

Testování/ kontrola vlivu dalšího faktoru Vytvořením samostatných tabulek podle kategorií třetí proměnné je testovaný faktor (třetí proměnná) udržován na konstantní hodnotě. souvislost mezi původními proměnnými je očištěna od zkreslujícího vlivu této další proměnné. 4

Testování vlivu dalšího faktoru Porovnáme intenzitu souvislosti v původní tabulce se souvislosti zjištěnou v nových tabulkách s kontrolou 3 faktoru. Když v nových tabulkách souvislost mezi původními daty zmizí/ je podstatně oslabena souvislost v původní tabulce je funkcí třetího faktoru 5

Třídění 3 st.: kontrola vlivu 3 proměnné: interpretace a uspořádání tabulky Souvisí účast ve volbách s věkem, i při kontrole vlivu vzdělání? Základní vzdělání Střední vzdělání Vysokoškolské vzdělání < 39 let 40-59 > 60 let < 39 let 40-59 > 60 let < 39 let 40-59 > 60 let Volil 18% 24% 32% 36% 34% 49% 40% 50% 70% Nevolil 82 76 68 64 66 51 60 50 30 Celkem 100 % 100 % 100 % 100 % 100 % 100 % 100 % 100 % 100 % N (109) (202) (45) (97) (271) (139) (27) (62) (50) Rozdíly mezi krajními kategoriemi věku: 14 % 13 % 30 % Ptáme se: Zatímco v případě ZŠ a SŠ jsou rozdíly mezi nejmladšími a nejstaršími stejné, tak u VŠ je rozdíl větší. Vzdělání tedy do vztahu mezi volební účastí a věkem částečně intervenuje. 1. Nacházíme rozdíly v X (věk) a Y (volil) uvnitř kategorií kontrolní proměnné Z (vzdělání)? Porovnáme s tabulkou třídění 2. st. Pro X a Y. 2. Jsou rozdíly mezi krajními kategoriemi X (věk) v rámci kategorií kontrolní proměnné Z (vzdělání) stejné? 6

Dalším krokem pak může být Přímá standardizace vztahu podle třetí proměnné

Přímá standardizace v kontingenční tabulce Navazujeme na elaboraci kontrolu vlivu Standardizace je metoda původně používaná v demografii, kdy jde o kontrolu proměny nějaké struktury (kontrolovanou proměnnou je tak vlastně čas skrze vliv proměny struktury např. z hlediska věku) Princip viz přednášku Standardizace intenzitních údajů http://metodykv.wz.cz/standardizace.ppt Tento princip jde aplikovat i na kontingenční tabulku (nebo tabulku průměrů v podskupinách) Ukazujeme tzv. čistý vztah dvou proměnných při kontrole vlivu třetí proměnné 8

Přímá standardizace v kontingenční tabulce Princip: převážení dle kategorií třetí proměnné, čímž kontrolujeme její vliv ukazujeme vztah dvou kategoriálních proměnných, jako kdyby hodnoty třetí byly v celé populaci stejné Porovnáme původní s hypotetickou - převáženou tabulkou (v níž je vztah X a Y jako kdyby v kategoriích X-nezávislá měla stejné rozložení v kategoriích Z) Jde o analogický postup k parciálním korelacím v případě tří kardinálních (ordinálních) znaků. 9

Příklad1 Sebeúcta dítěte podle náboženské orientace rodiny (s kontrolou vlivu Vzdělání otce) Rosenberg, M. 1962. Test Factor Standardization as a Method of Interpretation. Social Forces 41(1): 53-61. Text je dostupný na http://metodykv.wz.cz/sf1962_rosenberg_test_factor_standardization.pdf

Výsledek: Původní (hrubý) a Standardizovaný (čistý) vztah tabulku původního vztahu X a Y parcializujeme pro kategorie faktoru M (kontrolní proměnné) Standardizujme (převážíme) políčka dle struktury faktoru M (zde vzdělání otce) Porovnáme hrubou a čistou míru X a Y 11 Zdroj: [Rosenberg 1962]

Náboženskost a Sebeúcta, kontrola vzdělání otce: Standardizace/vážení Váhy (vzdělání otce) Váhy (podíl vzdělanostních kategorií třídění 1.st.) spočítáme z absolutních četností pro katolíky (Vys. sebeúcta): 0,1579 * 0,681 = 0,1075 Standardizace převážení dle vzdělání otce váha hodnota v daném poli Zdroj: [Rosenberg 1962] 12

Pokračování tabulky Tabulka má 6 panelů pro vzdělání Zdroj: [Rosenberg 1962] 13

Váhy: podíl (pravděpodobnost) vzdělanostních kategorií otce 8th Grade or Less Some High School High School Graduate Some College College Graduate Post-Graduate Celkem 0,1579 0,2488 0,2891 0,1019 0,1312 0,0712 1,000 14

Přímá standardizace: Vážený čistý procentní rozdíl Váhy získáme z tabulky z absolutních četností (viz další příklad) Máme-li původní mikro-data, můžeme je rychle spočítat pomocí třídění 1. stupně. Ukazujeme Vážený čistý procentní rozdíl a porovnáme ho s hrubým rozdílem (původní vztah bez kontroly) Redukce v pozorovaném vztahu dvou proměnných, způsobené zavedením 3 proměnné Spočítáme váženou sumu % závislé proměnné (zde sebeúcty) napříč kategoriemi kontrolního faktoru (vzdělání otce) 15

Postup standardizace podle testového faktoru Váhy: spočítáme podíly v každé testové kategorii (zde vzdělání otce), = marginální součet / celkovým počtem případů (pro všechny pole platí součet 1 resp. 100%) Pro první pole (8th Grade): 360 + 39 + 193 = 592 tj. 15,79% resp. 0,1579 - to je naše váha pro kat. vzdělání I. Násobíme každou kategorii v políčku odpovídajícím podílem testového faktoru, tj. váhou Pro první pole High Self-esteem: 0,1579 * 0,681 a 0,1579 * 0,718 a 0,1579 * 0,648 a 0,1579 * 0,258 atd. Podobně pro všechna pole každého panelu tabulky. Parciální standardizované údaje sepíšeme do nové tabulky: Pro Jews (vysoká sebeúcta): 0,1134 + 0,157 + 2154 + 0,083 + 0,1153 + 0,589 = 75,8 atd. (viz další snímek) 16

+ pro další tři panely tabulky 17

Vážený podíl: pro High Self-Esteem Vážený podíl získáme jako součet převážených hodnot pro vzdělanostní kategorie v kategoriích náboženské orientace rodin: pro High Self-Esteem 8th Grade or Less Some High School High School Graduate Some College College Graduate Post-Graduate celkem Catholic 0,1075 0,1704 0,2073 0,0722 0,0886 0,0519 0,698 Jewish 0,1134 0,1757 0,2154 0,0803 0,1153 0,0519 0,752 Protestant 0,1023 0,1791 0,1659 0,0712 0,0926 0,0525 0,664 18

Příklad1: Sebeúcta Porovnání hrubého a čistého % rozdílu mezi kategoriemi nezávislé proměnné Hrubý rozdíl (nevážený) mezi Katolíky a Židy je v nejvyšší úrovni sebeúcty 7,8% (69,7-77,5) Čistý (vážený pro vzdělání) je 6 % (69,8-75,8) To zde odpovídá 23 % redukci po kontrole vzdělání (1-(6/7,8)) 19

Příklad 2. Religiozita a militantnost v boji za občanská práva mezi afroameričany v USA (60. léta) se standardizací podle vzdělání [Treiman 2009: 30-33] Kapitola 2. More on the tables Text je dostupný na http://metodykv.wz.cz/crosstabs_treiman2009_vybk2.pdf Úloha a tabulky jsou z původního článku Gary T. Marxe [1967]. Religion: Opiate or Inspiration of Civil Rights Militancy Among Negroes?

Religiozita a militantnost - radikalita v boji za lidská práva (operacionalizace) Religiozita měřena pomocí kombinace 3 otázek (frekvence návštěv bohoslužeb, ortodoxnosti přesvědčení, význam víry) sloučené do proměnné se 4 hodnotami. Militantnost v otázce boje za lidská práva měřena pomocí 7 otázek na protesty za občanská práva (názory, ochota účastnit se atd.) index konvenční militantnosti, který byl posléze rekódován na 2 kategorie (militantní/nemilitantní) 21

Militantnost podle Religiozity bivariátní vztah, který nás zajímá Po sloučení kategorií Not Very Religious a Not at All Religious Very Religious Somew. Relig Not very Relig. + Not at All Relig. Total Militant Nonmilitant Total N 27 73 100 % (230) 30 70 100 % (532) 48 52 100 % (231) 22 (993)

Militantnost podle vzdělání (třídění 2.stupně) 23

Militantnost podle religiozity a vzdělání: základní tabulka třídění 3. stupně s panely pro kontrolní proměnnou (zde vzdělání) V = Very religious, S = Somewhat religious, N = Not religious 24

Zjednodušená prezentace předchozí tabulky: pouze % Militantních + otočeno o 90 st. viz předchozí snímek Závislý znak je dichotomický, proto, u % Militantních dopočet do 100 = % nemilitantních. úsporná forma prezentace v tabulce 25

Z ní získáme spočteme váhy: (protože nemáme původní mikro-data a nemůžeme počítat rovnou jen frekvenci vzdělání) Pokud by absolutní četnosti nebyly uvedeny u každé buňky, spočítáme si je nejprve na základě % z celkového N 1. Celkový počet případů = (108 + 96 + + 49) =993 pro ZŠ (Grammar school) je počet (108 + 201 + 44) = 353 atd. 2. Určíme váhy (podíly ve vzdělanostních kategoriích): pro ZŠ (Grammar school): 353 / 993 = 0,356 pro SŠ (High school): 504 / 993 = 0,508 pro VŠ (College): 136 / 993 = 0,137 Součet pro váhy je 1 (po zaokrouhlení). 26

A vážíme standardizujeme: V principu rušíme kontrolní faktor všichni jsou jako kdyby stejně vzdělaní Váhy (podíly vzdělání): ZŠ (Grammar School) 0,356 SŠ (High School) 0,508 VŠ (College) 0,137 Váhy: ZŠ SŠ VŠ pro Velmi silně věřící (very religious): 17 % *0,356 + 34 %*0,508 +38 % *0,137 = 29 % pro Částečně věřící: 22 % *0,356 + 32 %*0,508 +48 % *0,137 = 31 % pro Velmi slabě věřící a nevěřící: 32 % *0,356 + 47 %*0,508 +62 % *0,137 = 45 % Standardizované čisté podíly porovnáme s původními hrubými 27

Militantnost podle religiozity: Hrubá míra, čistá standardizovaná a procentní rozsah mezi krajními kategoriemi nezávislého znaku REDUKCE vlivem kontrolní proměnné/ faktoru: (1 (Čistý rozdíl / Hrubý rozdíl))*100 Pozor platí pouze pro ordinální znaky porovnáváme krajní kategorie. Hrubé (nevážené) četnosti Hrubý (nevážený) % rozdíl mezi krajními kategoriemi Vážený % rozdíl mezi krajními kategoriemi Rozsah procent mezi krajními kategoriemi nezávislé proměnné pro vztah bez a s kontrolou faktoru (zde vzdělání): 21 % hrubý rozdíl oproti 16 % čistému rozdílu (s kontrolou vzdělání) odpovídá 24 % redukci díky vlivu vzdělání (=(1-(16/21))*100). Lze tak říci, že vzdělání vysvětluje cca ¼ vztahu mezi religiozitou a militantností. Ale pozor: Předpokladem této interpretace je ordinalita kategorií nezávislé proměnné (zde 28 religiozita) a monotónnost vztahu závislé a nezávislé proměnné. [Treiman 2009: 29-31]

Redukce efektu vysvětlující proměnné po kontrole vlivu kontrolní proměnné (faktoru) REDUKCE vlivem kontrolní proměnné (faktoru) rozdíl hrubý (původní bez kontroly) a čistý (po převážení kontrolním faktorem) pro krajní kategorie nezávislé proměnné (min a max): (1 (Čistý rozdíl / Hrubý rozdíl))*100 K jaké redukci vztahu mezi závislou a nezávislou proměnnou dochází díky vlivu kontrolní proměnné. Pozor platí pouze pro ordinální znaky, tj. tam kde porovnáváme krajní kategorie a pro monotónní vztah (tj. plynulá proměna hodnot závislé proměnné mezi kategoriemi nezávislé ordinální proměnné). 29

Přímá standardizace pro kontrolu vlivu dvou proměnných Kontrolovat můžeme souběžně i vliv dvou proměnných, např. vzájemný vztah vzdělání a kategorií věku Váhy budou kombinací vzájemného podílu kontrolních proměnných (zde např. vzdělání a věk). Získáme je jejich vzájemnou kontingenční tabulkou, kde budou procenta z celku (% of total) 30

Příklad 3. Vzdělanostní aspirace žáků 8.-9.tříd ZŠ mezi dvěma typy škol, při kontrole vlivu vzdělání rodičů [Šafr, Kalný 2012] Data z výzkumu žáků 8. a 9 tříd ve školním roce 2010/11 z odlišného prostředí čtyř základních škol, z nichž dvě se nacházely v lokalitách zasažených sociálním vyloučením a dvě v residenčních oblastech s majoritní populací.

Vzdělanostní aspirace žáku podle typu ZŠ a vzdělání rodičů Aspirace žáka Typ školy (lokalita) Sociálně vyloučená lokalita Majoritní populace Celkem max. Vyučení 42% 32% 36% min. SŠ-maturita 58% 68% 64% Celkem 100% 100% 100% Cramérovo V = 0,101 Na SŠ s maturitou aspiruje na školách v sociálně vyloučených lokalitách méně dětí naž na školách v lokalitách s majoritní populací. bivariátní vztah, který nás zajímá Aspirace žáka Vzdělání rodičů (vyšší) ZŠ/VYUČ SŠ/VŠ Celkem max. Vyučení 55% 30% 35% min. SŠ-maturita 45% 70% 65% Celkem 100% 100% 100% Cramérovo V = 0,208 Na aspirace má také vliv vzdělání rodičů: ve vzdělanějších rodinách jsou aspirace dětí vyšší. Vliv vzdělání rodiny (CV= 0,21) je větší než v případě typu školy (CV=0,10). potencionálně intervenující faktor, jehož vliv chceme ověřit a kontrolovat 32

Zároveň ale Vzdělání rodičů Typ školy (lokalita) Sociálně vyloučená lokalita Majoritní populace Celkem max. Vyučení 25% 14% 19% min. SŠ-maturita 75% 86% 81% Celkem 100% 100% 100% Cramérovo V = 0,148 Na školy v sociálně vyloučených lokalitách chodí více dětí s nižším vzděláním rodičů. Nejsou odlišné vzdělanostní aspirace na rozdílných typech škol způsobeny právě (pouze) odlišným vzdělanostním zázemím rodin žáků? (a tudíž nikoliv sociálním/institucionálním prostředím školy) Pokud ano, do jaké míry? (na základě poznatků teorie zde předpokládáme, že formativní vliv na aspirace má primárně rodina) (1.) Třídění 3. stupně (kontingenční tabulka a asociační koeficienty) a (2.) standardizace podílu aspirací (na min. SŠ-maturita) mezi dvěma typy škol podle vzdělání rodiny (max. Vyučení / min. SŠ) 33

1. Třídění 3. stupně: Vzdělanostní aspirace žáků podle typu školy a vzdělání rodičů: uspořádání tabulek Výstup z SPSS pro kontingenční tabulku 3. stupně vypadá takto (panely dle vzdělání rodičů jsou pod sebou lze přehodit pomocí Pivoting Trays): Výstup z SPSS upravíme (pomocí Pivoting Trays nebo v Excelu) pro klasický formát, kde kontrolní proměnná (vzdělání rodičů) je v panelech Aspirace žáka Soc.vylouč. lokalita Vzdělání rodičů ZŠ/VYUČ SŠ/VŠ Majoritní populace Soc.vylouč. lokalita Majoritní populace SŠ/VŠ 45% 44% 63% 75% ZŠ/VY 55% 56% 37% 25% Vzdělání rodičů je zde kontrolní proměnná, proto je v panelech tabulky Ideální je úsporný 3-dimenzionální formát tabulky: (s ním dále pracujeme při vážení) vynechána % pro aspirace na ZŠ/VY (tvoří dopočet do 100 %) Otočeno o 90 st. Podíl žáků aspirujících min. na maturitu podle typu školy a vzdělání rodičů Typ školy Vzdělání rodičů ZŠ/VY SŠ/VŠ Soc.vylouč. lokalita 45% 63% Majoritní populace 44% 75% Alternativně úsporná 3-dimenzionální tabulka otočena o 90 st. Vzdělání rodičů Typ školy (lokalita) Sociálně vyloučená lokalita Majoritní populace ZŠ/VYUČ 45% 44% SŠ/VŠ 63% 75% 34

Vzdělanostní aspirace žáků podle typu školy a vzdělání rodičů: interpretace Aspirace žáka Soc.vylouč. lokalita Vzdělání rodičů ZŠ/VYUČ Majoritní populace Soc.vylouč. lokalita SŠ/VŠ Majoritní populace SŠ/VŠ 45% 44% 63% 75% ZŠ/VY 55% 56% 37% 25% Cramérovo V 0,010 0,133 Rozdíl mezi vzděláním rodičů (s/bez maturity) mezi panely tabulky: ve školách ze sociálně vyloučených lokalit: 45 63 = 18 % bodů ve školách z lokalit s majoritní populací : 44 75 = 31 % bodů Rozdíly mezi typy škol jsou v kategoriích vzdělání rodičů odlišné: pro nižší vzdělání rodičů (ZŠ/VY) nezáleží na typu školy (koeficient asociace CrV=0), zatímco u vyššího vzdělání rodičů (SŠ/VŠ) je ve školách z lokalit s majoritní populací vyšší podíl zájmu o maturitní obory (SŠ/VŠ) (CrV=0,13). interakční efekt vzdělání rodičů a typu školy (byť relativně slabý): nejvyšší aspirace mají žáci z výše vzdělaných rodin a v prostředí škol z lokalit s majoritní populací. Možné sociologické interpretace: Podmínkou nutnou k osvojení si aspirací je vzdělání rodičů, načež záleží na škole, kam děti rodiče pošlou (respektive v případě škol z lokalit se sociálně znevýhodněnými žáky se nesnaží, aby tam jejich děti nezůstaly ). Prostředí školy v lokalitách s majoritní populací se uplatňuje pouze v případě žáků z rodin s vyšším vzděláním: kvalita výuky a aspirace spolužáků (celková hladina ve třídě/škole) pravděpodobně zvyšuje jejich aspirace na maturitu. 35 Pozor ovšem, neznáme mnoho okolností podmínek, za kterých mechanismus působí (zda žáci přímo bydlí / nebydlí v sociálně znevýhodněné lokalitě, zda rodiče školu vybírali nebo ne, jaká je forma výuky na školách atd.).

Standardizace převážení aspirací na SŠ/VŠ v typech škol podle vzdělání rodičů Váhy: máme-li mikro-data získáme je z třídění 1. stupně (Frequencies v SPSS), jinak je musíme spočítat z absolutních četností (viz předchozí příklad 2.) Vzdělání rodičů Validní % VÁHY ZŠ/VYUČ 18,7 0,187 SŠ/VŠ 81,3 0,813 celkem 100% 1 Tabulka 3. stupně % aspirujících na maturitu podle typu školy a vzdělání rodičů s hrubým (neváženým) vztahem: Typ školy Vzdělání rodičů ZŠ/VY SŠ/VŠ Soc.vylouč. lokalita 45% 63% Majoritní populace 44% 75% Standardizace (převážení dle vzdělání rodičů): Typ školy Vzdělání rodičů Vážený Hrubý ZŠ/VY SŠ/VŠ podíl podíl Soc.vylouč. lokalita 0,187 * 45% + 0,813 * 63% = 59,5% 58,4% Majoritní populace 0,187 * 44% + 0,813 * 75% = 69,3% 68,2% rozdíl mezi typem škol: 9,82 % oproti 9,75 %, odpovídá -0,1 % rozdílu díky vlivu vzdělání rodičů (=(1-(9,82/9,75)). Lze tedy říci, že vzdělání rodiny k vysvětlení vztahu mezi typem školy a vzdělanostními aspiracemi nic nepřidává. Zřejmě tedy prostředí školy působí nezávisle na rodině, tj. navíc nad vliv rodiny. Interpretace je to ale značně omezená, neznáme mnoho dalších podmínek. Celkem 9,82% 9,75% Typ školy (lokalita) Sociálně Aspirace žáka Majoritní vyloučená populace lokalita Celkem max. Vyučení 42% 32% 36% 36 min. SŠ-maturita 58% 68% 64% 100% 100% 100%

Poznámky k příkladům 1, 2, 3 Př. 1 Sebeúcta dětí: závislý znak Sebeúcta je ordinální (má 3 kategorie), nezávislý Náboženská orientace rodiny je nominální a kontrolní faktor Vzdělání otce je ordinální (6 kategorií). Tabulka je uvedena v pravděpodobnostech (nikoliv %). Protože nezávislý znak je nominální, porovnáván je hrubý-čistý % rozsah vždy navzájem pro dvě kategorie (nábož. orient. rodiny: např. Katolíci-Židé, Katolíci-Protestanti ) Př. 2 Militantnost afroameričanů: závislý znak Militantnost je dichotomický (má 2 kategorie), nezávislý Náboženskost je ordinální a kontrolní faktor Vzdělání je ordinální (3 kategorie). Proto porovnání hrubého-čistého % rozsahu je provedeno pro krajní kategorie (Velmi silně věřící - Velmi slabě věřící/nevěřící). Váhy pro vzdělání zde byly spočítány přímo z tabulky. Př. 1 Aspirace dětí: závislý znak Vzdělanostní aspirace je dichotomický (má 2 kategorie), nezávislý Typ školy je nominální (2 kategorie) a kontrolní faktor Vzdělání rodiny je nominální (2 kategorie).k dispozici byla mikro-data (v SPSS), proto jsme váhu určili snadno pomocí třídění 1. stupně pro vzdělání rodičů. Porovnání % rozsahu ukazuje, že rozdíl mezi hrubým a čistým podílem zde není (-0,1%). 37

Jak na to s tabulkami z SPSS: úprava tabulek třídění 3. stupně A ještě jeden příklad (č. 4): Chození do kina podle vzdělání při kontrole vlivu věku a) kategoriální verze znaků přímá standardizace v kont. tabulce b) číselná (ordinální/kardinální) verze znaků parciální korelace

Krok 1. bivariátní vztah: Chození do kina podle vzdělání Kino vzd3 Vzdělání (3k.) ZŠ+VY SŠ VŠ Total 0 93,5% 85,2% 86,2% 89,7% 1 min.1x za měsíc 6,5% 14,8% 13,8% 10,3% Total 100,0% 100,0% 100,0% 100,0% Pokud jde o ordinální znak má smysl sledovat pro krajní kategorie nezávislé proměnné (zde vzdělání) hrubý % rozdíl. Zde ovšem pozor, vztah není monotónní(!): SŠ a VŠ chodí stejně často. U nominálního znaku porovnáváme jednotlivé kategorie mezi sebou (viz příklad se Sebeúctou dítěte podle náboženské orientace rodiny: protestantská/ židovská/katolická). Hrubý rozdíl v krajních kategoriích vzdělání: 6,5% 13,8% = 7,3 % Poznámka: Původní ordinální proměnná Chození do kina q1_b byla nejprve dichotomizována na: 1= chodí min.1x za měsíc a 0 = méně často. 39 Zdroj: data ISSP 2007, ČR

2. krok. třídění 3.stupně přidáme do panelu kontrolní faktor (věk) V SPSS pro třídění 3.stupně dostaneme tuto tabulku: panely s kategoriemi kontrolní proměnné (zde věk) jsou pod sebou. CROSSTABS Kino BY vzd3 BY vek3 /CEL COL. Pro rychlý výpočet nám to stačí označíme si pouze ty buňky, které použijeme pro vážení, pro standardní presentaci tabulky v textu ji ale musíme upravit. 40

Úprava tabulky tř. 3. st. v SPSS Chceme panely (s kontrolní proměnnou) vedle sebe. Pivoting trays (rozkliknout tabulku) a poměrně dost složitě myší přetáhneme proměnné, tak jak je chceme: 1. vzdělaní v COLUMN o řádek dolů, 2. pak nad něj přetáhneme věk původní stav naše úprava 41

Příprava tabulky třídění 3. st. z SPSS pro standardizaci Výsledkem je tato tabulka, kde je panelizován kontrolní faktor (věk) uvnitř něj sou kategorie nezávislé proměnné (vzdělání) Tuto tabulku je vhodné ještě zjednodušit promazat negativní kategorie, tvoří dopočet do 100 % (zde 0 - Nechodí do kina) A pak případně pootočit o 90 st. 42

A nebo jiné zadání pořadí proměnných v CROSSTABS rovnou pro standardizaci Musíme ale ještě promazat negativní kategorie (0 nechodí do kina) a nebo stačí příslušný řádek si označit a můžeme začít vážit 43

Rychle upravená předchozí tabulka z SPSS a samotné vážení-standardizace v Excelu upravená (promazaná) tabulka, ze které již můžeme snadno vážit-standardizovat podle věku: vek3 Váhy: tř. 1.stupně pro věk kontrolní faktor (% dělíme 100 pravděpodobnost) FREQ vek3. Vzdělání 19-29 30-49 50+ ZŠ+VY kino 1 33% 5% 2% SŠ kino 1 36% 11% 5% VŠ kino 1 31% 13% 9% Celkem kino 1 34% 8% 3% Vážíme-standardizujeme podle věku. Váhy věku zde máme přímo spočítané % věku: 10-29let = 0,18 30-49 let = 0,30 50+let = 0,52 pro ZŠ+VY: 33 * 0,18 + 5 * 0,30 + 2 * 0,52 = 8,2 pro SŠ: 36 * 0,18 + 11* 0,30 + 5 * 0,52 = 13,8 pro VŠ: 31 * 0,18 + 13 * 0,30 + 9 * 0,52 = 13,8 Čistý rozdíl (vážený podle věku) mezi krajními kategoriemi vzdělání: 8,2 13,8 = 5,6% 44

V Excelu (výstup z SPSS) kino * vzd3 Vzdělání (3k.) Crosstabulation % within vzd3 Vzdělání (3k.) vzd3 Vzdělání (3k.) 1 ZŠ+VY 2 SŠ 3 VŠ Total kino 0 93,50% 85,20% 86,20% 89,70% 1 6,50% 14,80% 13,80% 10,30% Total 100,00% 100,00% 100,00% 100,00% kino * vzd3 Vzdělání (3k.) * vek3 Crosstabulation % within vzd3 Vzdělání (3k.) vzd3 Vzdělání (3k.) vek3 1 ZŠ+VY 2 SŠ 3 VŠ Total standardizace 1 19-29 kino 0 67,50% 63,90% 69,20% 65,60% pro 0,179 1 32,50% 36,10% 30,80% 34,40% věk Total 100,00% 100,00% 100,00% 100,00% 2 30-49 kino 0 95,20% 89,50% 87,50% 92,00% 0,3 1 4,80% 10,50% 12,50% 8,00% Total 100,00% 100,00% 100,00% 100,00% 3 50+ kino 0 98,20% 94,90% 91,20% 96,80% 0,52 1 1,80% 5,10% 8,80% 3,20% Total 100,00% 100,00% 100,00% 100,00% hrubý čistý 1 ZŠ+VY 6,50% 8,19% 2 SŠ 14,80% 3 VŠ 13,80% 13,84% rozd 1a3-7,30% -5,65% rozdil -1,65% 45

Velikost redukce ve vztahu (kino x vzdělání) způsobená kontrolním faktorem (věk) Rozdíl mezi krajními kategoriemi vzdělání ZŠ+VY a VŠ: Čistý (vážený podle věku) = 5,6 % Hrubý (původní bivariátní) = 7,3 % Rozdíl Hrubý Čistý = (7,3 5,6) = 1,7 % Redukce díky vlivu věku ( jaký podíl ve vztahu chození do kina a vzdělání jde na vrub věku): = (1 (5,6 /7,3) = 0,233 = 23 % Lze tak říci, že věk vysvětluje cca ¼ vztahu mezi chozením do kina a vzděláním. Ale pozor: Předpokladem této interpretace je monotónnost vztahu závislé a nezávislé proměnné a tomu tak zde nebylo: prakticky totiž není rozdíl mezi chozením do kina u SŠ (14,8 %) a VŠ (13,8 %). Výsledek tak zde platí spíše pro dichotomii vzdělání s/ bez 46 maturity (ZŠ+VY vs. SŠ+VŠ).

Řešení b) pro kardinální znaky parciální korelace kino vzdělání při kontrole vlivu věku (původní kardinální/ordinální verze proměnných) Původní (bivariátní) korelace Parciální (+ kontrola věku) korelace Rozložení závislé proměnné je výrazně nesymetrické a odchyluje se od normálního rozložení. Použití korelací je tak zde problematické (a už vůbec nesprávné je použití Pearsonova R). Původní korelace mezi chozením do kina a věkem R=0,24 zavedením kontroly vlivu věku klesá na R=0,18. Po kontrole vlivu věku došlo k poklesu Pearsonova korelačního koeficientu R o 25,2 % =(1-0,178/0,238). A správně bychom měli ještě ověřit, zda je tento pokles statisticky významný (platný i v celé populaci), viz dále Z-test (nebo výpočet intervalů spolehlivosti). PARTIAL CORR q1_b WITH vzd4 BY vek /STATISTICS CORR. Zdroj: Data ISSP 2007 (Poznámka: proměnná q1_b má maximum 5=nikdy, proto je zde vypočtená korelace záporná.) 47

Parciální korelace Při výpočtu parciální korelace můžeme kontrolovat i vliv více proměnných souběžně. Krom běžného statistického testu nenulovosti parciálního korelačního koeficientu v populaci (H0: R=0), viz předchozí výstup z SPSS, lze také testovat, zda skutečně k poklesu (nebo případně vzestupu) u parciální korelace došlo (Ra- Rb), tj. platí, že rozdíl mezi Ra (původní bivariátní korelace) a Rb (parciální s kontrolou 3. proměnné) platí i v celé populaci (výpočet pomocí z-testu viz dále). Více o korelacích najdete v prezentaci (včetně výpočtu parciální korelace dosazením původních bivariátních korelací do vzorce, a to i pro neparametrické-pořadové korelace) Korelace a asociace: vztahy mezi kardinálními/ ordinálními znaky http://metodykv.wz.cz/akd2_korelace.ppt Úlohu lze také řešit pomocí vícerozměrné regresní analýzy, kde jsou možnosti mnohem bohatší. Viz presentaci Regresní analýza, analýza rozptylu (úvod) http://metodykv.wz.cz/akd2_regrese.ppt 48

Parciální korelace: z-test statistické významnosti změny korelačního koeficientu po zavedení kontrolní proměnné Pokud chceme zobecnit výsledky parciální korelace, měli bychom ještě provést test, zda se parciální korelační koeficient (tj. s kontrolou vzdělání) statisticky významně lišší od původního bivariátního (zero-order) (pouze vztah kino-vzdělání). K tomu lze využít např. web-kalkulátor Significance of the Difference Between Two Correlation Coefficients http://vassarstats.net/rdiff.html (alternativně lze spočítat intervaly spolehlivosti pro Ra Rb) H0: Ra = Rb výsledek se zavedením kontroly pro třetí proměnnou nezměnil Původní (bivariátní) Parciální (+ kontrola věku) Vzhledem k tomu, že předpokládáme pokles korelace, testujeme jednostrannou alternativu hypotézy (one-tailed). Zde je tedy nulová hypotéza H0: Ra > Rb. Hodnota z je menší než 1,96, tj. dosažená hladina významnosti p je menší než 0,05 nulovou hypotézu nemůžeme zamítnout platí tedy, že na zvolené hl. α 5% nelze tvrdit, že by došlo k poklesu korelace mezi chozením do kina a vzděláním, zavedením kontroly pro věk. Nicméně zde je výsledek poměrně hraniční a z věcného 49 hlediska pokles korelace lze smysluplně interpretovat.

Literatura Rosenberg, M. 1962. Test Factor Standardization as a Method of Interpretation. Social Forces 41(1): 53-61. Marx, G. T. 1967. Religion: Opiate or Inspiration of Civil Rights Militancy Among Negroes? American Sociological Review 32 (1): 64-72. Šafr, J., B. Kalný. 2012 (v recenzi). Vzdělanostně profesní aspirace žáků z rodin ohrožených sociálním vyloučením. in Sborník z 4. mezinárodní konference Dilemata sociální pedagogiky v postmoderním světě, Institut mezioborových studií Brno, 19. 20. dubna 2012. Treiman, Donald J. 2009. Quantitative data analysis: doing social research to test ideas. San Francisco: Jossey-Bass. 50