Zpracování dat antropologických výzkumů AAV Mgr. Patrik Galeta, Mgr. Vladimír Sládek, Ph.D. ZS 2007 galeta@ksa.zcu.cz Př.: ČT, 11.10 12.40, HJ308 www.oba.zcu.cz/personalia/pg.php Cv.: ČT, 09.20 10.50, HJ308 konz. hod.: ČT, 13.45 14.45, TY111b www.oba.zcu.cz/vyuka/aav/aav.htm Anotace Kurz Zpracování dat antropologických výzkumů (AAV) je úvodem ke kvantitativním výzkumům. Důraz klademe především na pochopení podstaty problému a získání správných návyků při vyhodnocování dat. Během kurzu se seznámíte se základy metodologie kvantitativních analýz, typy dat, grafickými a číselnými způsoby popisu struktury dat, konceptem populace, výběru a testování hypotéz. V první části kurzu se naučíte, jak z nepřehledných vstupních dat vytvořit přehledné a pochopitelné souhrnné informace. V druhé části kurzu pochopíte, jakým způsobem lze z chování řádově stovek respondentů výběrových šetření odhadnout chování řádově miliónů lidí z celé populace. Budete schopni odlišit vliv náhody od významných trendů. Pro absolvování kurzu nevyžadujeme nadstandardní matematické znalosti, výuku vedeme intuitivní formou. Problémy budeme vysvětlovat na příkladech blízkých studentům sociální a kulturní antropologie a archeologie. Rozsah výuky Výuka předmětu je rozvržena do 13 týdnů. Přednáška v délce dvou vyučovacích hodin je každý týden, cvičení v délce dvou vyučovacích hodin je každý druhý týden. Ve cvičení jste rozděleni do sudé a liché skupiny, a to podle seznamu na STAGu. Sudá i lichá skupina bude cvičení navštěvovat podle Rozpisu přednášek (viz níže), ne tedy podle toho, zda je aktuálně sudý nebo lichý týden. Formát výuky Kurz je veden standardní přednáškovou formou se cvičením. Na každé cvičení si povinně noste kalkulačku. Vlastní notebook, který si na cvičení přineste, bude výhodou. Účast na přednáškách a cvičeních není povinná. Případnou neúčastí ztratíte možnost podílet se na výuce a ovlivnit průběh kurzu, významně se sníží Vaše schopnost pochopit princip probírané látky a zvýší se pravděpodobnost nutnosti naučení se látky nazpaměť bez pochopení souvislostí. Příprava na výuku Podmínkou pobytu na cvičení je domácí příprava na takové úrovni, abyste byli schopni aplikovat poznatky z přednášek, dokázali samostatně řešit příklady, aktivně se účastnit diskuze a odpovídat na otázky vyučujících. Ukončení kurzu Kurz je hodnocen zápočtem. Hodnocení zápočtu sestává ze třech částí: testu, závěrečné práce a aktivity studenta podle následující procentuální váhy. 1. Test (40 %): Řádný termín testu bude zhruba v polovině semestru a prověří znalosti dosud probrané látky. Opravný termín testu bude na konci semestru a budou v něm ověřeny
znalosti celé probrané látky. Testy se budou skládat ze slovních a početních příkladů. Hodnoceno bude pochopení principu problému, návrh adekvátního způsobu hodnocení dat a schopnost interpretovat výsledky. Nebudete muset dlouze a složitě počítat. Uspějete, pokud pochopíte souvislosti a budete logicky přemýšlet. Naučení se nazpaměť k dobrému výsledku nevede. Bude vypsán jeden řádný termín a jeden opravný termín testu, žádné další termíny vypsány nebudou. Absolvování testů není povinné. U testu máte povoleno mít s sebou pouze psací potřeby, kalkulačku a statistické tabulky. 2. Závěrečná práce (50 %): Prověří látku probranou během celého semestru. Závěrečná práce bude psána formou vědeckého článku se standardním členěním kapitol (Úvod, Cíl a hypotézy, Materiál, Metody, Výsledky, Diskuze, Závěr, Seznam literatury a Vstupní data) v rozsahu 3-10 stran. Téma a vstupní data si vyberete sami podle svého zájmu a odborného zaměření. Podle potřeby můžete výběr Téma konzultovat s vyučujícími. Požadovaná struktura, termín a způsob odevzdání závěrečné práce upřesníme během semestru. Závěrečné práce, které odevzdáte po termínu, nemůžeme akceptovat. 3. Aktivita (10 %): Vyžadujeme, abyste byli předem připraveni na téma cvičení nebo přednášky. Kladně se hodnotí jakékoliv projevy aktivity, například schopnost odpovídat na otázky vyučujících, podněty a rozvíjení diskuze, návrh témat, problémů a početních příkladů na cvičeních a přednáškách, vyhledání zajímavé literatury, článků, software, internetových zdrojů, inovace, podněty atd. Aktivita studenta bude hodnocena subjektivně vyučujícími, přičemž dáváme přednost diskuzím nad odbornými problémy během semestru před diskuzemi nad oprávněností závěrečného hodnocení aktivity studenta. Hodnocení kurzu 65,0 % a více započteno 0-64,9 % nevyhověl (a) Základní literatura Doporučujeme Vám tři výborné učebnice zpracování dat. V každé z nich najdete oporu pro všechna témata přednášek. Můžete proto používat pouze jednu z nich. Kombinací zdrojů ale dosáhnete většího pochopení. Jak to už bývá, některá témata jsou perfektně vysvětlena v jedné knize, jiná v druhé nebo třetí. Agresti A, and Finlay B (1997) Statistical methods for the social sciences. Upper Saddle River, N.J.: Prentice Hall. Vyzkoušený zdroj. Komu nebudou vyhovovat učebnice biostatistiky Sokal, Rohlf (1995) nebo Zar (1999), ať už z vážných důvodů nebo z principu, volí tuto knihu. Sokal, R. R., Rohlf, F. J. (1995). Biometry. The principles and practice of statistics in biological research. 3 rd edition, New York: W. H. Freeman and company. Základní učebnice kurzu. V knize najdete 70 % obsahu přednášek. Kvalitní odborný text, který přečtete stejně dychtivě jako Bulgakovovy romány. Pokud budete listovat bez předsudků, dosáhnete nenásilnou intuitivní formou pochopení i složitých konceptů. Jinými slovy, máte možnost sami sebe přesvědčit, že pochopení všech složitých úloh lze dosáhnout jejich rozdělením do mnoha malých banálních problémů. Zar, J. H. (1999). Biostatistical analysis. 4 rd edition, New Jersey: Prentice Hall. Druhá základní učebnice kurzu. Učebnice je stejně dobrá jako Sokal, Rohlf (1995). Její výhodou je členění kapitol zřetelně podle témat tak, jak jsme v Evropě zvyklí. Každý problém je dokumentován na vzorových početních příkladech. 2
Bernard, H. R. (1995). Research Methods in Anthropology. Qualitative and Quantitative Approaches. 2nd Ed. Oxford: Altamira Press. Kniha klasika kvantitativních a kvalitativních výzkumů ve společenských vědách. Rozsah přednášek sice příliš nepokrývá, ale může Vás přesvědčit v jiných tématech. Disman, M. (2002). Jak se vyrábí sociologická znalost. Praha: Nakladatelství Karolinum. Výborná kniha, díky které ztratíte ostych před hodnocením dat a statistickým uvažováním. Vhodná do dopravních prostředků či na začátek přednášky, než vyučující nachystají dataprojektor. Hendl, J. (2004) Přehled statistických metod zpracování dat. Praha: Portál. Povedená učebnice hodnocení dat v češtině. Ačkoliv z této knihy příliš nepřednášíme, najdete v ní většinu témat kurzu. Určitě v ní najdete české ekvivalenty anglických statistických termínů. Trochu méně pochopitelnější než Agresti, Finlay (1997), Sokal, Rohlf (1995) nebo Zar (1999). Informace ke kurzu Všechny informace ke kurzu AAV jsou vystaveny na internetové adrese: www.oba.zcu.cz/vyuka/aav/aav.htm Na této adrese budou také zveřejňovány aktuální informace pro studenty. Aktuální informace na těchto stránkách považujeme pro Vás za závazné a nebudeme je zveřejňovat na jiných místech, např. na stránkách KSA. Případné obsahové a technické nedostatky stránek kurzu hlaste prosím ihned na adresu galeta@ksa.zcu.cz, pomůžete udržet stránky v použitelném stavu. Etické normy studia a ochrana duševního vlastnictví jiných autorů Po celou dobu trvání kurzu jste povinni dodržovat etické normy studia a pracovat v souladu s pravidly ochrany duševního vlastnictví jiných autorů. Bližší informace viz Upozornění studentům vydaného dne 28. 1. 2005 proděkanem pro studijní záležitosti. V případě, že porušíte etické normy, vyhrazujeme si právo test či závěrečnou práci nehodnotit. Nejasnosti a dotazy konzultujte s vyučujícími. 3
Rozpis přednášek a cvičení 1. týden 27. 9. 2007 Přednáška: Zahájení kurzu. Kvantitativní a kvalitativní výzkumy. Měření Kvantitativní a kvalitativní výzkumy, čísla vs. slova, testování hypotéz vs. porozumění sociální situace, deduktivní a induktivní přístup k řešení vědeckých problémů, součinnost kvantitativních a kvalitativních výzkumů. Jednotka výzkumu, proměnná, slovní a číselné hodnoty proměnných, pojmové (conceptual) a pracovní (operational) zavedení proměnných. Typy proměnných, poměrové, intervalové, ordinální a kategoriální proměnné, spojitá a diskrétní data, kvantitativní a kvalitativní data. Disman (2002): 12 14, 55 71, 284 296 Bernard (1995): 1 50 Bernard (2000): 29 52 Sokal, Rohlf (1995): 10 19 Zar (1999): 1-6 Agresti, Finlay (1997): 12 17, 45-67 Cvičení: Výuka odpadá 2. týden 04. 10. 2007 Přednáška: Číselné způsoby popisu dat Míry polohy, aritmetický průměr, jiné průměry, medián, modus. Míry rozptylu, rozsah, rozptyl, směrodatná odchylka, variační koeficient. Grafické vs. číselné způsoby popisu struktury dat. Zásady správného uvádění výsledků. Zar (1999): 20-40 Sokal, Rohlf (1995): 39 51 Disman (2002): 180 201 Agresti, Finlay (1997): 45-67 Cvičení: Tabulkové a grafické způsoby popisu dat Sudá i lichá skupina. Cvičení proběhne výjimečně formou přednášky. Zápis dat ve formě tabulek, řádky a sloupce tabulky, záhlaví a tělo tabulky, pravidla zápisu hodnot proměnných, číselné kódování slovních hodnot proměnných, desetinná čárka, počet desetinných míst. Četnostní tabulky kvalitativních a kvantitativních dat, absolutní četnost, relativní četnost, absolutní kumulativní četnost, relativní kumulativní četnost, součet. Grafické zobrazení struktury kvalitativních dat, sloupcový diagram, výsečový diagram. Grafické zobrazení struktury kvantitativních dat, histogram, krabicový diagram, stem-and-leaf plot; sloupcový diagram vs. histogram. 4
Pojem rozdělení proměnné. Zar (1999): 6-15 Sokal, Rohlf (1995): 19 32 Agresti, Finlay (1997): 35-44 Bernard (1995): 403 416 3. týden 11. 10. 2007 Přednáška: Diskrétní proměnné a jejich rozdělení Základní pojmy pravděpodobnostního počtu, sčítání a násobení pravděpodobností. Rozdělení diskrétní proměnné, binomické rozdělení a jeho parametry, binomický rozvoj. Pozorované četnosti, očekávané četnosti, odchylky od očekávaných frekvencí, clumping, repulsion, interpretace příčin odchylek od očekávaných četností. Příklady využití vlastností binomického rozdělení. Sokal, Rohlf (1995): 61 81 Cvičení: Grafické a číselné způsoby popisu dat 4. týden 18. 10. 2007 Přednáška: Spojité proměnné a jejich rozdělení Normální rozdělení a jeho parametry, šikmost, špičatost. Biologické opodstatnění normálního rozdělení, geny malého účinku. Standardizace dat, standardizované normální rozdělení, statistické tabulky. Kvantily, percentily. Příklady využití normálního rozdělení. Sokal, Rohlf (1995): 98 123 Zar (1999): 65-76 Agresti, Finlay (1997): 80 94 Cvičení: Grafické a číselné způsoby popisu dat, ukázka software Sudá skupina. 5. týden 25. 10. 2007 Přednáška: Odhady populačních parametrů a intervaly spolehlivosti I Populace, vzorek z populace, reprezentativnost vzorku, náhodný výběr. Populační parametry a jejich nepoznatelnost, zobecnění vlastností vzorku na populaci, odhad pomocí charakteristik náhodného vzorku, spolehlivost odhadu. 5
Intuitivní odvození principu intervalu spolehlivosti průměru, konstrukce rozdělení výběrových průměrů, standardní chyba průměru, Studentovo rozdělení. Sokal, Rohlf (1995): 8-10, 52-53, 127 152 Zar (1999): 16-19, 76-79, 99-105 Agresti, Finlay (1997): 94 141 Disman (2002): 92-115 Bernard (1995): 71-101 Cvičení: Spojité proměnné a jejich rozdělení 6. týden 01. 11. 2007 Přednáška: Odhady populačních parametrů a intervaly spolehlivosti II Přesnost a spolehlivost odhadu pomocí intervalu spolehlivosti, jak velký výběr potřebujeme, vztah velikosti vzorku a přesnosti a spolehlivosti odhadu. Grafické vyjádření intervalů spolehlivosti, krabicový diagram. Odvození a konstrukce rozdělení směrodatné odchylky, Pearsonovo rozdělení, interval spolehlivosti pro směrodatnou odchylku. Sokal, Rohlf (1995): 127 152 Zar (1999): 110-112 Agresti, Finlay (1997): 94 141 Cvičení: Spojité proměnné a jejich rozdělení Sudá skupina. 7. týden 08. 11. 2007 Přednáška: Test, řádný termín Cvičení: Odhady populačních parametrů a intervaly spolehlivosti I 8. týden 15. 11. 2007 Přednáška: Testování hypotéz I (jednovýběrové testy) Základní pojmy testování hypotéz, nulová hypotéza H 0, alternativní hypotéza H A, chyba I a II druhu, hladina významnosti, síla testu. Jak velkou chybu I a II druhu připustit, vztah chyb I a II druhu, velikost vzorku a chyba I a II druhu. Srovnání populačního parametru a charakteristik jednoho vzorku. 6
Jednovýběrový test pro průměr (one-sample t-test). Vliv velikosti souboru. Jednostranné a oboustranné testy. Jednovýběrový test pro relativní četnosti (one-sample binomial test). Obecný postup při srovnání populačního parametru a charakteristik jednoho vzorku. Zar (1999): 79-86, 91 98 Agresti, Finlay (1997): 154 209 Sokal, Rohlf (1995): 157 179 Disman (2002): 74 89 Cvičení: Odhady populačních parametrů a intervaly spolehlivosti I Sudá skupina. 9. týden 22. 11. 2007 Přednáška: Testování hypotéz I (jednovýběrové testy) Cvičení: Testování hypotéz I 10. týden 29. 11. 2007 Přednáška: Testování hypotéz II (dvouvýběrové testy) Srovnání charakteristik dvou vzorků, dvouvýběrové testy, nepárové a párové uspořádání testů. Dvouvýběrový t-test pro průměr s nepárovým a párovým uspořádáním. Dvouvýběrový t-test pro relativní četnosti. Obecný postup při srovnání charakteristik dvou vzorků. Zar (1999): 122 129 Agresti, Finlay (1997): 210 233 Cvičení: Testování hypotéz I Sudá skupina. 11. týden 06. 12. 2007 Přednáška: Test dobré shody a kontingenční tabulky Test dobré shody pro dvě kategorie, očekávané četnosti, pozorované četnosti, statistika χ 2, předpoklady použití testu. Test dobré shody pro více kategorií, test dobré shody a velikost výběru. Aditivní vlastnost statistiky χ 2, rozdělení dat do podcelků a následná interpretace, korekce na kontinuitu. Struktura kontingenční tabulky, pozorované četnosti, součty četností v řádcích a sloupcích tabulky, výpočet očekávaných četností. 7
Výpočet statistiky χ 2, předpoklady použití kontingenčních tabulek, velikost výběru. Kontingenční tabulky 2 2, Fisherův exaktní test. Zar (1999): 461 469, 486 491 Agresti, Finlay (1997): 248 265 Cvičení: Testování hypotéz II 12. týden 13. 12. 2007 Přednáška: Shrnutí Cvičení: Testování hypotéz II Sudá skupina 13. týden 21. 12. 2007 Přednáška: Test, opravný termín Cvičení: Konzultace podle zájmu Sudá i lichá skupina 8
Harmonogram kurzu N datum cvičení lichá skupina cvičení sudá skupina přednáška 1 27.09. Výuka odpadá Zahájení kurzu. Kvantitativní a kvalitativní výzkumy, měření 2 04.10. Tabulkové a grafické způsoby popisu dat 3 11.10. Grafické a číselné způsoby popisu dat, ukázka software Tabulkové a grafické způsoby popisu dat 4 18.10. Grafické a číselné způsoby popisu dat, ukázka software 5 25.10. Spojité proměnné a jejich rozdělení 6 01.11. Spojité proměnné a jejich rozdělení 7 08.11. Odhady populačních parametrů a intervaly spolehlivosti I 8 15.11. Odhady populačních parametrů a intervaly spolehlivosti I Číselné způsoby popisu dat Diskrétní proměnné a jejich rozdělení Spojité proměnné a jejich rozdělení Odhady populačních parametrů a intervaly spolehlivosti I Odhady populačních parametrů a intervaly spolehlivosti II Test, řádný termín Testování hypotéz I 9 22.11. Testování hypotéz I Testování hypotéz I 10 29.11. Testování hypotéz I Testování hypotéz II 11 06.12. Testování hypotéz II Test dobré shody a kontingenční tabulky 12 13.12. Testování hypotéz II Souhrn 13 20.12. Konzultace podle zájmu Konzultace podle zájmu Test, opravný termín Vyučující si vyhrazují právo ve vážných případech změnit program kurzu. 9