Mgr. Karla Hrbáčková, Ph.D. Základy kvantitativního výzkumu



Podobné dokumenty
Program Statistica Base 9. Mgr. Karla Hrbáčková, Ph.D.

, Brno Hanuš Vavrčík Základy statistiky ve vědě

UNIVERZITA OBRANY Fakulta ekonomiky a managementu. Aplikace STAT1. Výsledek řešení projektu PRO HORR2011 a PRO GRAM

STATISTIKA A INFORMATIKA - bc studium OZW, 1.roč. (zkušební otázky)

POPISNÁ STATISTIKA Komentované řešení pomocí programu Statistica

Vzorová prezentace do předmětu Statistika

Testování hypotéz. Analýza dat z dotazníkových šetření. Kuranova Pavlina

Analýza dat na PC I.

KORELACE. Komentované řešení pomocí programu Statistica

Cvičení 12: Binární logistická regrese

ZÁKLADNÍ STATISTICKÉ CHARAKTERISTIKY

MÍRY ZÁVISLOSTI (KORELACE A REGRESE)

Charakteristika datového souboru

DVOUVÝBĚROVÉ A PÁROVÉ TESTY Komentované řešení pomocí programu Statistica

INDUKTIVNÍ STATISTIKA

Stručný úvod do vybraných zredukovaných základů statistické analýzy dat

Číselné charakteristiky

5. Závislost dvou náhodných veličin různých typů (kategoriální a metrická veličina)

23. Matematická statistika

Statistické metody uţívané při ověřování platnosti hypotéz

Pearsonův korelační koeficient

Testování hypotéz a měření asociace mezi proměnnými

Základy popisné statistiky. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek

Zpracování náhodného výběru. Ing. Michal Dorda, Ph.D.

Zápočtová práce STATISTIKA I

Normální (Gaussovo) rozdělení

ANALÝZA DAT V R 3. POPISNÉ STATISTIKY, NÁHODNÁ VELIČINA. Mgr. Markéta Pavlíková Katedra pravděpodobnosti a matematické statistiky MFF UK

4ST201 STATISTIKA CVIČENÍ Č. 7

RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr.

Matematika III. 27. listopadu Vysoká škola báňská - Technická univerzita Ostrava. Matematika III

Tomáš Karel LS 2012/2013

Kategorická data METODOLOGICKÝ PROSEMINÁŘ II TÝDEN 7 4. DUBNA dubna 2018 Lukáš Hájek, Karel Höfer Metodologický proseminář II 1

PSY117/454 Statistická analýza dat v psychologii Přednáška 10

SAMOSTATNÁ STUDENTSKÁ PRÁCE ZE STATISTIKY

Metody sociálních výzkumů. Velmi skromný úvod do statistiky. Motto: Jsou tři druhy lži-lež prostá, lež odsouzeníhodná a statistika.

JEDNOVÝBĚROVÉ TESTY. Komentované řešení pomocí programu Statistica

Určujeme neznámé hodnoty parametru základního souboru. Pomocí výběrové charakteristiky vypočtené z náhodného výběru.

Statistické metody - nástroj poznání a rozhodování anebo zdroj omylů a lží

Metodologie pro Informační studia a knihovnictví 2

Analýza dat z dotazníkových šetření

a) Základní informace o souboru Statistika: Základní statistika a tabulky: Popisné statistiky: Detaily

Statistika, Biostatistika pro kombinované studium Letní semestr 2011/2012. Tutoriál č. 4: Exploratorní analýza. Jan Kracík

Statistické testování hypotéz II

Neparametrické metody

Vysoká škola báňská technická univerzita Ostrava. Fakulta elektrotechniky a informatiky

Testování statistických hypotéz

Statistika. Diskrétní data. Spojitá data. Charakteristiky polohy. Charakteristiky variability

Tabulka 1. Výběr z datové tabulky

Jana Vránová, 3. lékařská fakulta UK

Úvod do statistické metodologie

4. Zpracování číselných dat

Testování statistických hypotéz. Ing. Michal Dorda, Ph.D.

Normální (Gaussovo) rozdělení

= = 2368

Testování hypotéz. Testování hypotéz o rozdílu průměrů t-test pro nezávislé výběry t-test pro závislé výběry

Třídění statistických dat

Metodologie pro ISK II

TESTOVÁNÍ HYPOTÉZ STATISTICKÁ HYPOTÉZA Statistické testy Testovací kritérium = B B > B < B B - B - B < 0 - B > 0 oboustranný test = B > B

Název testu Předpoklady testu Testová statistika Nulové rozdělení. ( ) (p počet odhadovaných parametrů)

Základy pravděpodobnosti a statistiky. Popisná statistika

Obsah Úvod Kapitola 1 Než začneme Kapitola 2 Práce s hromadnými daty před analýzou

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz

Testování hypotéz. 1. vymezení základních pojmů 2. testování hypotéz o rozdílu průměrů 3. jednovýběrový t-test

TECHNICKÁ UNIVERZITA V LIBERCI SEMESTRÁLNÍ PRÁCE

Statistika pro geografy

Grafický a číselný popis rozložení dat 3.1 Způsoby zobrazení dat Metody zobrazení kvalitativních a ordinálních dat Metody zobrazení kvan

Základy popisné statistiky

Praktická statistika. Petr Ponížil Eva Kutálková

Mann-Whitney U-test. Znaménkový test. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Aplikovaná statistika v R - cvičení 2

Základy biostatistiky II. Veřejné zdravotnictví 3.LF UK - II

TEST Z TEORIE EXPLORAČNÍ ANALÝZA DAT

Katedra matematické analýzy a aplikací matematiky, Přírodovědecká fakulta, UP v Olomouci

Co je to statistika? Úvod statistické myšlení. Základy statistického hodnocení výsledků zkoušek. Petr Misák

RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr.

4EK211 Základy ekonometrie

STATISTIKA. Inovace předmětu. Obsah. 1. Inovace předmětu STATISTIKA Sylabus pro předmět STATISTIKA Pomůcky... 7

Tomáš Karel LS 2012/2013

Korelační a regresní analýza

Testování statistických hypotéz. Ing. Michal Dorda, Ph.D. 1

Aplikovaná statistika v R

Stručný úvod do testování statistických hypotéz

METODOLOGIE I - METODOLOGIE KVANTITATIVNÍHO VÝZKUMU

ADDS cviceni. Pavlina Kuranova

KGG/STG Statistika pro geografy

ZX510 Pokročilé statistické metody geografického výzkumu. Téma: Měření síly asociace mezi proměnnými (korelační analýza)

Popisná statistika. Statistika pro sociology


Test dobré shody v KONTINGENČNÍCH TABULKÁCH

Mnohorozměrná statistická data

Otázky k měření centrální tendence. 1. Je dáno rozložení, ve kterém průměr = medián. Co musí být pravdivé o tvaru tohoto rozložení?

TECHNICKÁ UNIVERZITA V LIBERCI EKONOMICKÁ FAKULTA

Tomáš Karel LS 2012/2013

VŠB Technická univerzita Ostrava Fakulta elektrotechniky a informatiky SMAD

Korelace. Komentované řešení pomocí MS Excel

Transkript:

Mgr. Karla Hrbáčková, Ph.D. Základy kvantitativního výzkumu

K čemu slouží statistika Popisuje velké soubory dat pomocí charakteristických čísel (popisná statistika). Hledá skryté zákonitosti v souborech dat (explorační statistika). S pomocí teorie pravděpodobnosti ověřuje platnost hypotéz.

Statistický software Uživatelsky příjemný (Statistica 8, MiniTab) Profesionální (SPSS, SAS)

Typy dat Kategorizované proměnné (do jaké kategorie respondent nebo případ patří) a) nominální (nemá smysl pořadí kategorií) b) ordinální (uspořádání, které vychází z logiky kategorií, lze seřadit vzestupně nebo sestupně) Číselné proměnné (informace, kde se primárně ptáme na nějaké číslo) a) intervalová b) poměrová (vyjádřena číselně sama o sobě)

Typy dat Nominální i. muž, žena ii. vesnice, město iii. absolvoval, neabsolvoval Ordinální i. 1, 2, 3, 4, 5 ii. silně souhlasím, souhlasím, nesouhlasím, silně nesouhlasím Intervalová i. 10, 12, 15, 17, 20 bodů v testu Poměrová i. 12, 18, 22, 38, 54 let ii. 55, 6 kg

Proměnné V případě, že má výzkumný problém dvě proměnné, určujeme závisle a nezávisle proměnnou. Nezávisle proměnná (proměnná, která je příčinou změny) Závisle proměnná (proměnná, jejíž hodnoty se změnily vlivem nezávisle proměnné) Jaký vliv má interaktivnost výuky na míru osvojených znalostí?

Data nám slouží k přesnému výběru statistické metody Jestliže jsou obě proměnné nominální nebo ordinální, použijeme kontingenční tabulku (chí-kvadrát), např. rozdíly v postoji ke škole (pozitivní, negativní) mezi chlapci a dívkami Jestliže je jedna proměnná nominální a druhá metrická (poměrová, intervalová), použijeme t-test, např. rozdíly v EQ u studentů prvních a posledních ročníků gymnázií Jestliže je jedna proměnná metrická a druhá nominální s více kategoriemi (nebo ordinální), použijeme analýzu rozptylu, např. rozdíly v testu tvořivosti v různých věkových kategoriích Jestliže jsou obě proměnné metrické nebo ordinální a zjišťujeme závislost, použijeme test korelace

Popisná statistika Jaká je úspěšnost žáků 5. třídy ZŠ Vsetín Ohrada v matematice? Školní úspěšnost operačně definujeme jako známku z testu matematických znalostí. Vzorek bude tvořit 22 žáků 5. třídy 1, 1, 2, 4, 3, 3, 3, 2, 4, 1, 3, 2, 1, 5, 1, 1, 2, 4, 3, 2, 3, 3 (viz pracovní sešit.xls) Co můžeme o těchto datech říci?

Popis střední hodnoty Popis né statis tiky (pracovni_data2) Proměnná N platných Průměr Minimum Maximum Sm.odch. Známka z testu MA 22 2,454545 1,000000 5,000000 1,184313

Tabulka četností Známka Četnost n i Relativní četnost f i Kumulativní četnost 1 6 0,273 6 2 5 0,227 11 3 7 0,318 18 4 3 0,136 21 5 1 0,046 22 22 1,000

Histogram četností 8 7 6 Histogram z Známka z testu MA pracovni_data 4v*22c Známka z testu MA = 22*1*normal(x; 2,4545; 1,1843) 7; 32% 6; 27% Počet pozorování 5 4 3 5; 23% 3; 14% 2 1 1; 5% 0 1 2 3 4 5 Známka z testu MA

Výsečový graf Výsečový graf z Známka z testu MA pracovni_data 4v*22c 5; 1; 5% 4; 3; 14% 1; 6; 27% 3; 7; 32% 2; 5; 23% Známka z testu MA

Spojnicový graf 5,5 Spojnicový graf z Známka z testu MA pracovni_data 4v*22c 5,0 4,5 4,0 Známka z testu MA 3,5 3,0 2,5 2,0 1,5 1,0 0,5 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23

Krabicový graf 5,5 Krabicový graf z Známka z testu MA pracovni_data2 8v*22c 5,0 4,5 4,0 3,5 3,0 2,5 2,0 1,5 1,0 0,5 Známka z testu MA Medián = 2,5 25%-75% = (1, 3) Rozsah neodleh. = (1, 5) Odlehlé Extrémy

Charakteristiky centrální tendence Čísla, která nejlépe zastupují celý soubor dat I. Aritmetický průměr (data metrická) II. Modus (data nominální) III. Medián (data ordinální)

Výpočet střední hodnoty Průměr intervalový popis střední hodnoty Medián prostřední hodnota z řady hodnot seřazených podle velikosti (nad mediánem leží 50% dat a pod mediánem 50% dat) Modus ta hodnota, která se v daném souboru dat vyskytuje nejčastěji 1,1,1,1,1,1,2,2,2,2,2,3,3,3,3,3,3,3,4,4,4,5

Příklad Výsledky IQ testu 96, 96, 97, 99, 100, 101, 102, 104, 195. Modus (nejfrekventovanější skóre) 96 Medián (prostřední skóre) 100 Průměr (aritmetický průměr) 110,6 V tomto případě centrální hodnotu nejlépe vystihuje medián.

Výpočet průměru Známka Četnost n i n. x i 1 6 6 2 5 10 3 7 21 4 3 12 5 1 5 22 54

Míra variability (charakteristika rozptýlení) Průměr nám nemusí poskytovat komplexní informace o souboru. 1, 1, 1, 5, 5, 5 nebo 3, 3, 3, 3, 3, 3 Rozptyl míra rozptýlení, zda mezi průměry jsou či nejsou významné rozdíly. Směrodatná odchylka druhá odmocnina z rozptylu, jak jsou data rozptýlena od průměru, ukazatel vstupních dat.

Rozptyl a směrodatná odchylka Data 8, 12, 12, 12, 13, 16, 17, 18, 18 Zakreslení dat na číselnou osu (zjišťuji průměrnou vzdálenost od průměru). Vychází nula, jak tedy postupovat? Průměrný součet čtverců odchylek od aritmetického průměru. Jaký je matematický postup výpočtu rozptylu (průměrné odchylky od průměru)?

Výpočet rozptylu a směrodatné odchylky x x 2 1-2 4 1-2 4 1-2 4 5 2 4 5 2 4 5 2 4 r=3 s 2 =4 x x 2 3 0 0 3 0 0 3 0 0 3 0 0 3 0 0 3 0 0 r=3 s 2 =0

Příklad Dva soubory dat se stejným průměrem (data2, testy v páté a šesté třídě. Co nám říká směrodatná odchylka? Jak vypadá distribuce dat? Popis né statis tiky (pracovni_data2) Prom ěnná N platných Prům ěr Minim um Maxim um Sm.odch. TEST5 22 20,00000 16,00000 23,00000 2,070197 TEST6 22 20,00000 8,00000 31,00000 7,131419 K čemu je nám znalost směrodatné odchylky v praxi?

Příklad Petr je student sedmé třídy a v testu z JČ získal 40 bodů, v test z MA získal 30 bodů. Co můžeme říct o srovnání jeho znalostí z obou předmětů? Předmět Počet bodů Průměr Směrodatná odchylka Jazyk český 40 35 10 Matematika 30 25 2 JČ o půl směrodatné odchylky nad průměrem MA o 2,5 směrodatné odchylky nad průměrem

Otázky Jak jsem uspěl v případě, že jsem napsal test hodně špatně, ale směrodatná odchylka bodů v testu je velká? Jak jsem uspěl v případě, že jsem napsal test hodně špatně a směrodatná odchylka bodů v testu je malá? Jak jsem uspěl v případě, že jsem napsal test hodně dobře a směrodatná odchylka bodů v testu je velká? Jak jsem uspěl v případě, že jsem napsal test hodně dobře a směrodatná odchylka bodů v testu je malá?

Otázky Jak jsem uspěl v testech ve srovnání s ostatními spolužáky? Počet bodů Průměr Směrodatná odchylka Matematika 87 75 13 Literatura 16 13 2 Všeobecné znalosti 31 34 6 Vím, jak si vedu ve srovnání s ostatními, můžu to i vyčíslit tzv. percentily nebo z skóre.

Směrodatná odchylka 68,27%, 95,4%, 99,73% -1 +1 r = průměr Hodnoty, kterých může studovaná proměnná nabývat rozptyl

Interval spolehlivosti Odhadujeme skutečnou hodnotu (průměr) základního souboru na základě výběru (výzkumný vzorek). Odhad se může měnit, my ho neznáme (jelikož jsme jej nezměřili na celé populaci), proto určujeme intervalový odhad. S předem zvolenou pravděpodobností obsahuje skutečnou střední hodnotu v populaci. 11.800 Kč 12.800 Kč

Testování hypotéz Při testování hypotéz (relační a kauzální výzkumné problémy) formulujeme dvě vzájemně si odporující hypotézy H 0 nulová hypotéza, jednoduché tvrzení o neexistenci vztahu H A tzv. alternativní hypotéza, negace nulové hypotézy

Postup Stanovení nulové a alternativní hypotézy. Volba matematicko-statistické metody vedoucí k rozhodnutí ve prospěch H 0 nebo H A. Volba spolehlivosti. Kritérium pro rozhodnutí (signifikance).

Testová statistika chí-kvadrát test (kontingenční tabulka) t-test koeficient korelace analýza rozptylu

Spolehlivost Před samotným testováním volíme spolehlivost, s jakou budeme chtít pracovat. Standardně se stanovuje 95%. Povolujeme riziko max. 5%, že uděláme chybu.

Rizika chybných rozhodnutí skutečnost H 0 H A H 0 OK Chyba 1. druhu H A Chyba 2. druhu OK

Signifikance Nejpodstatnější hodnota. Pravděpodobnost toho, že zamítneme nulovou hypotézu, ačkoliv ona platí. Předem jsme si stanovili, že chceme pracovat s pravděpodobností 95%. Signifikance nám toto riziko vyčísluje. Hodnota mezi 0 a 1.

Signifikance p < 0,05 zamítám H 0 p > 0,05 nezamítám H 0 riziko by bylo větší než 5%

Chí-kvadrát Test nezávislosti chí-kvadrát Rozdíly ve známce z matematického testu u dívek a chlapců H 0 : P CH = P D H A : P CH P D p < 0,05, zamítáme nulovou hypotézu Zjistili jsme statisticky významný rozdíl v úspěšnosti u dívek a chlapců.

Test nezávislosti chí-kvadrát Kontingenční tabulka (pracovni_data2) Četnost označených buněk > 10 (Marginální součty nejsou označeny) Známka z testu MA pohlaví D pohlaví CH Řádk. součty 1 6 0 6 2 5 0 5 3 1 6 7 4 1 2 3 5 0 1 1 Vš.skup. 13 9 22 Souhrnná tab.: Očekávané četnos ti (pracovni_data2) Četnost označených buněk > 10 Pears onův chí-kv. : 15,6964, sv=4, p=,003456 Známka z testu MA pohlaví D pohlaví CH Řádk. součty 1 3,54545 2,454545 6,00000 2 2,95455 2,045455 5,00000 3 4,13636 2,863636 7,00000 4 1,77273 1,227273 3,00000 5 0,59091 0,409091 1,00000 Vš.skup. 13,00000 9,000000 22,00000

Korelační analýza Zkoumá vzájemný vztah kvantitativních proměnných Soubor TESTY Nejčastěji se používá Pearsonův koeficient korelace r. Nabývá hodnot od -1 do 1. Záporné hodnoty značí nepřímou závislost, kladné přímou, nula značí nezávislost.

Korelace Proměnná Známka z testu MA Známka z testu PŘ Korelace (pracovni_data2) Označ. korelace js ou významné na hlad. p <,05000 N=22 (Celé případy vynechány u ChD) Průměry Sm.odch. Známka z testu Známka z testu MA PŘ 2,454545 1,184313 1,000000 0,918770 2,318182 1,086119 0,918770 1,000000 Bodový graf: Známka z testu MA vs. Známka z testu PŘ (Celé příp. vynech. u ChD) Známka z testu PŘ =,25000 +,84259 * Známka z testu MA Korelace : r =,91877 8 4 0 Známka z testu PŘ 5,0 4,5 4,0 3,5 3,0 2,5 2,0 1,5 1,0 0,5 0,0 0 1 2 3 4 5 6 0 4 8 Známka z testu MA 95% hladina spolehlivosti

T- testy Zda ženy dosahují stejného skóre v testu jako muži. H 0 : P M = P Ž (ženy dosahují stejných výsledků jako muži) H A : P M P Ž T- test nezávislé dle skupin p < 0,05, zamítáme nulovou hypotézu

T-testy t-testy; grupováno: pohlaví (pracovni_s es it3) Skup. 1: M Skup. 2: Ž Průměr Průměr t sv p Proměnná M Ž test 9,166667 15,11111-4,63412 46 0,000030 18 Krabicový graf : test 16 14 test 12 10 8 6 M pohlaví Ž Průměr Průměr±SmCh Průměr±1,96*SmCh

ANOVA Zajímá nás vliv více nominálních proměnných na kvantitativní proměnnou. H 0 mezi skupinami není statisticky významný rozdíl H A mezi skupinami je statisticky významný rozdíl Zda má prospěch vliv na výsledek v testu.

Graf Anova 20 Kategoriz. krabicový graf: test 18 16 14 test 12 10 8 6 C D E F A B prospěch Průměr Průměr±SmCh Průměr±1,96*SmCh

Analýza rozptylu Analýza rozptylu (pracovni_s esi t3) Označ. efekty jsou význ. na hlad. p <,05000 SČ SV PČ SČ SV PČ F p Prom ěnná efekt efekt efekt chyba chyba chyba test 665,6992 5 133,1398 333,5508 42 7,941686 16,76468 0,000000

Předpoklady Základním předpokladem pro volbu testu je normalita H 0 : Data pochází z normálního rozdělení H A : Data nepochází z normálního rozdělení Pokud nesplňuje normalitu, musíme použít neparametrický test Základní statistiky, tabulky četností - normalita - histogram

Test normality Proměnná Testy normality N max D K-S Lilliefors otázka 1 240 0,311871 p <,01 p <,01