Statistická analýza dat v psychologii

Podobné dokumenty
ČETNOSTI A ROZLOŽENÍ ČETNOSTÍ

Popisná statistika. úvod rozdělení hodnot míry centrální tendence míry variability míry šikmosti a špičatosti grafy

Statistika. Diskrétní data. Spojitá data. Charakteristiky polohy. Charakteristiky variability

Popisná statistika. úvod rozdělení hodnot míry centrální tendence míry variability míry šikmosti a špičatosti grafy

veličin, deskriptivní statistika Ing. Michael Rost, Ph.D.

Základy popisné statistiky. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek


Matematika III. 27. listopadu Vysoká škola báňská - Technická univerzita Ostrava. Matematika III

ZÁKLADNÍ STATISTICKÉ CHARAKTERISTIKY

Statistika pro geografy

Zpracování náhodného výběru. Ing. Michal Dorda, Ph.D.

Statistika, Biostatistika pro kombinované studium Letní semestr 2011/2012. Tutoriál č. 4: Exploratorní analýza. Jan Kracík

Metodologie pro ISK II

ANALÝZA DAT V R 2. POPISNÉ STATISTIKY. Mgr. Markéta Pavlíková Katedra pravděpodobnosti a matematické statistiky MFF UK.

Metodologie pro Informační studia a knihovnictví 2

Číselné charakteristiky

Statistické metody. Martin Schindler KAP, tel , budova G. naposledy upraveno: 9.

Metodologie pro Informační studia a knihovnictví 2

Popisná statistika. Jaroslav MAREK. Univerzita Palackého

Základní analýza dat. Úvod

Základy popisné statistiky

Popisná statistika. Statistika pro sociology

PSY Statistická analýza dat v psychologii Přednáška 3. Transformace skórů a kvantily normálního rozložení

Praktická statistika. Petr Ponížil Eva Kutálková

Deskriptivní statistika (kategorizované proměnné)

Otázky k měření centrální tendence. 1. Je dáno rozložení, ve kterém průměr = medián. Co musí být pravdivé o tvaru tohoto rozložení?

Základy pravděpodobnosti a statistiky. Popisná statistika

Charakteristiky kategoriálních veličin. Absolutní četnosti (FREQUENCY)

Popisná statistika kvantitativní veličiny

Analýza dat na PC I.

Úloha č. 2 - Kvantil a typická hodnota. (bodově tříděná data): (intervalově tříděná data): Zadání úlohy: Zadání úlohy:

STATISTICKÉ CHARAKTERISTIKY

Informační technologie a statistika 1

2. Základní typy dat Spojitá a kategoriální data Základní popisné statistiky Frekvenční tabulky Grafický popis dat

LEKCE 02a UNIVARIAČNÍ ANALÝZA KATEGORIZOVANÝCH DAT

Zápočtová práce STATISTIKA I

Obsah. Statistika Zpracování informací ze statistického šetření Charakteristiky úrovně, variability a koncentrace kvantitativního znaku

POPISNÁ STATISTIKA Komentované řešení pomocí programu Statistica

Statistika s Excelem aneb Máme data. A co dál? Martina Litschmannová Katedra aplikované matematiky, FEI, VŠB-TU Ostrava

Jevy a náhodná veličina

Náhodná proměnná. Náhodná proměnná může mít rozdělení diskrétní (x 1. , x 2. ; x 2. spojité (<x 1

Zpracování náhodného výběru. Ing. Michal Dorda, Ph.D.

Statistika. cílem je zjednodušit nějaká data tak, abychom se v nich lépe vyznali důsledkem je ztráta informací!

ÚVOD, ČETNOSTI A ROZLOŽENÍ ČETNOSTÍ

Statistická analýza dat v psychologii. Věci, které můžeme přímo pozorovat, jsou téměř vždy pouze vzorky. Alfred North Whitehead

Úvod do kurzu. Moodle kurz. (a) (b) heslo pro hosty: statistika (c) skripta na pravděpodobnost

1.1 Dva základní typy statistiky Popisná statistika (descriptive statistics) Inferenční statistika (inferential statistics)

Stručný úvod do vybraných zredukovaných základů statistické analýzy dat

Charakteristika datového souboru

TECHNICKÁ UNIVERZITA V LIBERCI SEMESTRÁLNÍ PRÁCE

PSY117/454 Statistická analýza dat v psychologii přednáška 8. Statistické usuzování, odhady

Číselné charakteristiky a jejich výpočet

Metody sociálních výzkumů. Velmi skromný úvod do statistiky. Motto: Jsou tři druhy lži-lež prostá, lež odsouzeníhodná a statistika.

Cvičení ze statistiky. Filip Děchtěrenko ZS 2012/2013

Základní statistické charakteristiky

Matematika III. 29. října Vysoká škola báňská - Technická univerzita Ostrava. Matematika III

23. Matematická statistika

Aplikovaná statistika v R

MATEMATICKÁ STATISTIKA - XP01MST

Popisná statistika. Komentované řešení pomocí MS Excel

Charakterizace rozdělení

Deskriptivní statistika (kategorizované proměnné)

TEST Z TEORIE EXPLORAČNÍ ANALÝZA DAT

Výrobní produkce divizí Ice Cream Po lo ha plane t Rozložený výse ový 3D graf Bublinový graf Histogram t s tn e ídy

ANALÝZA DAT V R 3. POPISNÉ STATISTIKY, NÁHODNÁ VELIČINA. Mgr. Markéta Pavlíková Katedra pravděpodobnosti a matematické statistiky MFF UK

Kontingenční tabulky v Excelu. Představení programu Statistica

mezi studenty. Dále bychom rádi posoudili, zda dobrý výsledek v prvním testu bývá doprovázen dobrým výsledkem i v druhém testu.

Manuál pro zaokrouhlování

Nejčastější chyby v explorační analýze

Mgr. Karla Hrbáčková, Ph.D. Základy kvantitativního výzkumu

MATEMATIKA III V PŘÍKLADECH

PSY117/454 Statistická analýza dat v psychologii Přednáška 5 ZOBRAZENÍ DVOUROZMĚRNÝCH DAT KORELAČNÍ KOEFICIENT. Všichni žijeme v matrixu.

STATISTIKA VĚDA O USUZOVÁNÍ NA ZÁKLADĚ DAT. Patrícia Martinková Ústav informatiky AV ČR

JAK MODELOVAT VÝSLEDKY NÁH. POKUSŮ? Martina Litschmannová

Minimální hodnota. Tabulka 11

3. Základní statistické charakteristiky. KGG/STG Zimní semestr Základní statistické charakteristiky 1

MATEMATICKÁ STATISTIKA. Katedra matematiky a didaktiky matematiky Technická univerzita v Liberci

Seminarni prace. 2 3 stranky staci, dat nema byt 3 a nema jich byt pul milionu. k te seminarce

Kontrola: Sečteme-li sloupec,,četnost výskytu musí nám vyjít hodnota rozsahu souboru (našich 20 žáků)

Mnohorozměrná statistická data

Kategorická data METODOLOGICKÝ PROSEMINÁŘ II TÝDEN 7 4. DUBNA dubna 2018 Lukáš Hájek, Karel Höfer Metodologický proseminář II 1

Neparametrické metody

Základy popisné statistiky

Příloha podrobný výklad vybraných pojmů

Jak nelhat se statistikou? Martina Litschmannová Katedra aplikované matematiky, FEI, VŠB-TU Ostrava

Základní statistické pojmy

TECHNICKÁ UNIVERZITA V LIBERCI. Ekonomická fakulta. Semestrální práce. Statistický rozbor dat z dotazníkového šetření školní zadání

Pojem a úkoly statistiky

VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ. FAKULTA STROJNÍHO INŽENÝRSTVÍ Ústav materiálového inženýrství - odbor slévárenství

Grafický a číselný popis rozložení dat 3.1 Způsoby zobrazení dat Metody zobrazení kvalitativních a ordinálních dat Metody zobrazení kvan

Metodologie pro Informační studia a knihovnictví 2

Jiří Neubauer. Katedra ekonometrie, FVL, UO Brno kancelář 69a, tel

Mnohorozměrná statistická data

TECHNICKÁ UNIVERZITA V LIBERCI EKONOMICKÁ FAKULTA

Inferenční statistika - úvod. z-skóry normální rozdělení pravděpodobnost rozdělení výběrových průměrů

PRŮZKUMOVÁ ANALÝZA JEDNOROZMĚRNÝCH DAT Exploratory Data Analysis (EDA)

STATISTIKA 1. RNDr. K. Hrach, Ph.D. Zápočet: odevzdání seminární práce (úkoly na PC) Zkouška: písemná (bez kalkulačky, bez vzorců)

Náhodná veličina a rozdělení pravděpodobnosti

Transkript:

PSY117 2016 Statistická analýza dat v psychologii Přednáška 2 MÍRY CENTRÁLNÍ TENDENCE A VARIABILITY He uses statistics as a drunken man uses lampposts for support rather than illumination. Andrew Lang

Rozložení rozdělení, distribuce četností Měřené jevy jsou nějak rozděleny do kategorií (intervalů) a tyto kategorie jsou různě populární četné. Četnosti u reálných ordinálních a vyšších proměnných obvykle nebývají distribuovány nahodile jejich rozdělení zobrazené histogramem má popsatelný tvar. Rozdělení četností je tedy to, kolik relativně (či absolutně) máme kterých hodnot měřené proměnné. Typicky lze přibližně popsat slovy, např.: vyskytlo se hodně středních hodnot a relativně málo extrémních hodnot. Toto rozložení jevů na měřené škále je nejlépe vidět na grafech. Obvykle nějaké konkrétní rozložení očekáváme.

Tvar rozložení četností Normální Uniformní Počet vrcholů Unimodální, bimodální, multimodální Zešikmení Zešikmené zprava (pozitivně), efekt podlahy Zešikmené zleva (negativně), efekt stropu Strmost Leptokurtické, platykurtické (c) AJ: Stanislav frequency Ježek, distribution, Jan Širůček normal, rectangular, unimodal, bimodal, positively/negatively skewed, lepto(platy)kurtic, floor/ceiling effect

Normální (Gaussovo) rozložení Normální ve smyslu velmi běžné Tam, kde se setkává mnoho nezávislých vlivů. Ne vždy, nesouvisí s kvalitou dat. http://en.wikipedia.org/wiki/image:standard_deviation_diagram.png (c) Stanislav Ježek, Jan Širůček AJ: normal distribution, bell curve

Shrnutí První informací (statistikou), která nás zajímá je četnost výskytu jednotlivých hodnot (resp. hodnot uvnitř jednotlivých intervalů) Konfiguraci četností nazýváme rozložení (rozdělení). Rozložení popisujeme (=komunikujeme je) tabulkou četností graficky histogram, sloupcový diagram (pomocí percentilů) O typu, tvaru rozložení hodnot proměnné uvažujeme většinou graficky histogram, sloupcový diagram. Nejčastěji diskutovaným rozložením je tzv. normální rozložení. (c) Stanislav Ježek, Jan Širůček

f Stonek a list 3 0. 002 5 1. 00005 8 2. 00000000 2 3. 00 2 4. 00 3 5. 000 2 6. 00 1 7. 0 Stonek: jednotky Každý list: 1 případ

+ tvar rozložení (často implicitně) Nedalo by se rozložení hodnot proměnné popsat úsporněji než pomocí tabulky četností, histogramu? Kde na měřené škále se data nalézají? UKAZATEL CENTRÁLNÍ TENDENCE Jak moc jsou na ní rozptýlená? UKAZATEL VARIABILITY

Centrální tendence (=střední hodnoty, umístění) CT je jeden údaj, jímž se snažíme popsat rozložení četností jedné proměnné Kouzlo i zrádnost je právě v tom, že je to 1 údaj. CT udává průměrnou, typickou, reprezentativní, očekávanou hodnotu Co přesně tím míníme, záleží na tom, jakou míru CT se rozhodneme použít CT udává, kde na číselné ose si představujeme rozložení proměnné odtud ukazatel lokace, umístění

Modus, medián a průměr X ˆ, Modus - kategoriální typická hodnota X, Mo nejčastější hodnota, h. s nejvyšší četností jediná možnost u nominálních dat, u vyšších úrovní často užitečnou volbou Medián pořadová střední hodnota hodnota prvku uprostřed uspořádaného souboru, 50. percentil (P 50 ) při sudém počtu prvků je mediánem kterékoli číslo z intervalu mezi nejbližší vyšší a nejbližší nižší hodnotou (konsensuálně střed intervalu) pořadová data a výše ~ X, Md Aritmetický průměr deviační, odchylková, momentová střední h. jak ho znáte ze školy pouze intervalová a poměrová data velmi citlivý na extrémní hodnoty X, M, m hodnota, od které je součet kvadratických odchylek nejmenší. AJ: mode, median, mean

Jak spočítat Mo, Md, M Mo Md M vyčteme z tabulky četností Excel: =MODE(rozsah_s_daty_proměnné) kategorické p.: vyčteme z tabulky četností, nejsnáze kum. spojité p. --> intervalové četnosti --> interpolujeme formálně, je-li N liché, je to X k (k-tý prvek setříděné řady hodnot proměnné), kde k=(n+1)/2, je-li N sudé, je to průměr X k a X k+1, kde k=n/2 Excel: =MEDIAN(rozsah_s_daty_proměnné) =PERCENTIL(rozsah_s_daty_proměnné;0,5) Excel: =PRŮMĚR(rozsah_s_daty_proměnné)

Medián u intervalových četností f % cum % 0-0,99 3 11,5 11,5 1-1,99 4 19,2 30,8 2-2,99 9 30,8 61,5 3-3,99 2 7,7 69,2 7-7,99 1 3,8 100,0 Celkem 26 100,0 1. Identifikujeme interval, v němž kumulativní četnost přesáhne 50% 2-2,99 2. Četnost tohoto intervalu = f m = 9 3. Kumulativní četnost pro předchozí interval = f p =7 4. Horní mez předchozího intervalu = L p =1,99 5. Šířka intervalu = W = 1 6. Vypočítáme medián Md = L p + W(N/2-f p )/f m = = 1,99+1(26/2-7)/9 = 2,66 *Takto odhadnutý medián závisí na tom, jak jsou stanoveny hranice intervalů.

Mo=2 Md=2 M=2,68 Md=2,66 f Stonek a list 3 0. 002 5 1. 00005 8 2. 00000000 2 3. 00 2 4. 00 3 5. 000 2 6. 00 1 7. 0 Stonek: jednotky Každý list: 1 případ

Míry variability (rozptýlenosti) Druhé číslo, jímž popisujeme rozložení hodnot proměnné Udává, jak moc či málo jsou data na škále rozptýlená. Malá variabilita = většina hodnot v souboru je stejných nebo velmi blízkých Vysoká variabilita = hodnoty jsou velmi rozmanité (n. rozložení je bimodální)

Rozpětí, rozptyl, směrodatná ochylka Nominální statistika entropie nepoužívá se Pořadové statistiky (variační) rozpětí = X max X min (inter)kvartilové rozpětí = Q 3 Q 1, IQR (extrémně roste s velikostí vzorku) Odchylkové (deviační, momentové) statistiky založené na odchylkách od průměru: x = X m průměrná absolutní odchylka (Σ x / n) nepoužívá se průměrná odchylka na druhou rozptyl s 2, VAR(X) populační (Σx 2 / n) vs. výběrový (Σx 2 / (n 1)) součet odchylek na druhou = suma čtverců směrodatná odchylka (standardní odchylka) odmocnina rozptylu - návrat k původní jednotce s, SD AJ: measures of variability, entropy, rank-order, range, interquartile range, variance, standard deviation, sum of squares, square, square root HC: Chyba v komputačním vzorečku na rozptyl.

Jak spočítat ukazatele variability IQR = Q 3 -Q 1 Q 1 =X k *), kde k=(n+1)*0,25 zaokrouhleno dolů Q 3 =X k, kde k=(n+1)*0,75 zaokrouhleno dolů =PERCENTIL(rozsah_s_daty_proměnné; 0,25) resp. 0,75 U spojitých proměnných lze využít intervalového výpočtu jako u mediánu. SD/VAR 1. pro každý skór spočítáme deviační skór x i =X i -M 2. deviační skóry umocníme na druhou 3. druhé mocniny deviačních skórů sečteme a podělíme (N-1) 4. pro SD výsledek ještě odmocníme =VAR.VÝBĚR(rozsah_s_daty_proměnné) =SMODCH.VÝBĚR(rozsah_s_daty_proměnné) *) hodnota k-tého prvku seřazené řady hodnot proměnné X

Mo=2 Md=2 M=2,68 IQR=3 SD=1,97 f Stonek a list 3 0. 002 5 1. 00005 8 2. 00000000 2 3. 00 2 4. 00 3 5. 000 2 6. 00 1 7. 0 Stonek: jednotky Každý list: 1 případ

Ukazatele centrální tendence a variability - poznámky je třeba je umět spočítat ručně (a zopakovat si práci se sumačním symbolem Σ) i vážený průměr jak je ovlivní datové transformace přičtení konstanty a násobení konstantou vhodnost použití ukazatelů centrální tendence (Hendl s.95) AJ: weighted mean, add, multiply

Boxplot krabicový graf s anténami krabice je od Q 1 do Q 3 v krabici se značí medián antény jsou X min do X max, maximálně! však 1,5x délka krabice (kvartilového rozpětí) hodnoty vzdálenější se značí jako body odlehlé hodnoty hodnoty ještě vzdálenější (více než 3x délka krabice od Q 1 nebo Q 3 ) jsou někdy označovány jako extrémně odlehlé hodnoty

Boxplot - příklad

Popis rozložení pomocí percentilů X-tý percentil hodnota, pro kterou platí, že X % lidí (jevů) ve vzorku má/získalo tuto nebo menší hodnotu lze odečíst z kumulativního histogramu či patřičného sloupce tabulky četností Rozložení popisujeme 10., 20.,, 80.,90. percentilem obecně min, 25., 50., 75., max nejčastěji ( boxplot) min., 1., 5., 10., 25., 50., 75., 90., 95., 99. v normách Lze uvažovat v ještě menších částech rozložení než jsou procenta - obecně kvantily

Souhrn Kategoriální deskriptivy modus, (entropie) Pořadové deskriptivy medián, kvartily, percentily (a jiné kvantily) kvartilové rozpětí grafické znázornění rozložení pomocí pořadových deskriptiv - BOXPLOT Odchylkové (deviační), momentové deskriptivy aritmetický průměr rozptyl, směrodatná odchylka (k=2) zešikmení (k=3) = (Σx k )/ n špičatost (strmost) (k=4)

Volba popisných statistik Zvažujeme úroveň měření tvar rozložení symetrie, normalita cíl studie pouze popis X usuzování, porovnávání Podle komunikačních cílů Je-li cílem především deskripce dat(=rozložení), pak použijeme POŘADOVÉ ukazatele. Připojíme-li i odchylkové, nic nezkazíme. N, min, Q 1, Md, Q 3, max boxplot pro individuální skóry percentily Je-li cílem další usuzování, porovnávání apod., používáme ODCHYLKOVÉ ukazatele pokud to úroveň měření dovoluje N, m, s (N, M, SD) popis rozložení pro individuální skóry z-skóry

Prezentace deskriptiv ve studiích Vždy! Bez ohledu na to, jak složité statistiky následují. Popis rozložení Obvykle se neuvádějí tabulky četností a jejich grafické podoby, pokud ovšem není cílem studie právě statistická deskripce (např. manuál k testu inteligence). Tvar rozložení obvykle podle potřeby zmiňujeme verbálně ( přibližně normální, zleva zešikmené ). Většinou se řeší pouze normalita a odchylky od ní. Obvykle pouze pro proměnné, s nimiž pracujeme (interpretujeme...) Minimální triáda: N, m, s (či jejich pořadové ekvivalenty Q 1, Md, Q 3, IQR ) Vhodná pětice: N, X min, X max, m, s V případě potřeby: N, X min, X max, m, s, zešikmení, špičatost, zajímavé kvantily Obvykle na 2-3 významné číslice (1-2 desetinná místa) V českém textu česky, v anglickém anglicky! Pozor na konvence spojené s jazykem: značky, desetinné tečky, chybějící nuly Podoba tabulek je podchycena i normami, např. publikační manuál APA