ČETNOSTI A ROZLOŽENÍ ČETNOSTÍ

Podobné dokumenty
ÚVOD, ČETNOSTI A ROZLOŽENÍ ČETNOSTÍ

Statistická analýza dat v psychologii

Popisná statistika. úvod rozdělení hodnot míry centrální tendence míry variability míry šikmosti a špičatosti grafy

2. Základní typy dat Spojitá a kategoriální data Základní popisné statistiky Frekvenční tabulky Grafický popis dat

Popisná statistika. úvod rozdělení hodnot míry centrální tendence míry variability míry šikmosti a špičatosti grafy

Škály podle informace v datech:

Matematika III. 27. listopadu Vysoká škola báňská - Technická univerzita Ostrava. Matematika III

7. Rozdělení pravděpodobnosti ve statistice

Metody sociálních výzkumů. Velmi skromný úvod do statistiky. Motto: Jsou tři druhy lži-lež prostá, lež odsouzeníhodná a statistika.

veličin, deskriptivní statistika Ing. Michael Rost, Ph.D.

1. Kategoriální proměnná nominální: (Tabulka a graf četností) Př.: sloupec (PokudanoJakčasto) -> Analyze -> Descriptive statistics -> Frequencies

Metodologie pro Informační studia a knihovnictví 2

Statistika, Biostatistika pro kombinované studium Letní semestr 2011/2012. Tutoriál č. 4: Exploratorní analýza. Jan Kracík

Statistika. Diskrétní data. Spojitá data. Charakteristiky polohy. Charakteristiky variability

Základy pravděpodobnosti a statistiky. Popisná statistika

Zpracování náhodného výběru. Ing. Michal Dorda, Ph.D.

Analýza dat na PC I.

Metodologie pro Informační studia a knihovnictví 2

1.1 Dva základní typy statistiky Popisná statistika (descriptive statistics) Inferenční statistika (inferential statistics)

Statistika. Zpracování informací ze statistického šetření. Roman Biskup

LEKCE 02a UNIVARIAČNÍ ANALÝZA KATEGORIZOVANÝCH DAT

1. Pokud je proměnná nominální (např. etnicita), preferovanou grafickou podobou tabulky četností je a) sloupcový diagram b) histogram

PSY Statistická analýza dat v psychologii Přednáška 3. Transformace skórů a kvantily normálního rozložení

Deskriptivní statistika (kategorizované proměnné)

PSY117/454 Statistická analýza dat v psychologii Přednáška 5 ZOBRAZENÍ DVOUROZMĚRNÝCH DAT KORELAČNÍ KOEFICIENT. Všichni žijeme v matrixu.

Statistika. cílem je zjednodušit nějaká data tak, abychom se v nich lépe vyznali důsledkem je ztráta informací!

PSY117/454 Statistická analýza dat v psychologii. Zobrazení dvojrozměrných dat Bodový graf - Scatterplot Korelační koeficient

Metodologie pro Informační studia a knihovnictví 2

Pojem a úkoly statistiky

Popisná statistika. Statistika pro sociology

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Příprava souboru dat a analýza

Praktická statistika. Petr Ponížil Eva Kutálková

Metodologie pro ISK II


Tabulka 1. Výběr z datové tabulky

Mgr. Karla Hrbáčková, Ph.D. Základy kvantitativního výzkumu

Náhodná proměnná. Náhodná proměnná může mít rozdělení diskrétní (x 1. , x 2. ; x 2. spojité (<x 1

Otázky k měření centrální tendence. 1. Je dáno rozložení, ve kterém průměr = medián. Co musí být pravdivé o tvaru tohoto rozložení?

Obsah. Statistika Zpracování informací ze statistického šetření Charakteristiky úrovně, variability a koncentrace kvantitativního znaku

TECHNICKÁ UNIVERZITA V LIBERCI SEMESTRÁLNÍ PRÁCE

Třídění statistických dat

ANALÝZA DAT V R 3. POPISNÉ STATISTIKY, NÁHODNÁ VELIČINA. Mgr. Markéta Pavlíková Katedra pravděpodobnosti a matematické statistiky MFF UK

PSY117/454 Statistická analýza dat v psychologii Přednáška 10

Popisná statistika. Jaroslav MAREK. Univerzita Palackého

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz

POPISNÁ STATISTIKA Komentované řešení pomocí programu Statistica

Deskriptivní statistika (kategorizované proměnné)

Analýza dat z dotazníkových šetření. Zdrojová data: dotazník

2. Bodové a intervalové rozložení četností

Statistika pro geografy

Vzorová prezentace do předmětu Statistika

5EN306 Aplikované kvantitativní metody I

Základy popisné statistiky. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek

Analýza dat z dotazníkových šetření

Základy popisné statistiky

Počet pravděpodobnosti

VYUŽITÍ PRAVDĚPODOBNOSTNÍ METODY MONTE CARLO V SOUDNÍM INŽENÝRSTVÍ

Příloha podrobný výklad vybraných pojmů

Excel mini úvod do kontingenčních tabulek

Národní informační středisko pro podporu kvality

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Popisná statistika. Komentované řešení pomocí MS Excel

ANALÝZA DAT V R 2. POPISNÉ STATISTIKY. Mgr. Markéta Pavlíková Katedra pravděpodobnosti a matematické statistiky MFF UK.

Vytěžování znalostí z dat

Popisná statistika kvantitativní veličiny

Jana Vránová, 3. lékařská fakulta UK

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Induktivní statistika. z-skóry pravděpodobnost

Základní analýza dat. Úvod

STATISTIKA 1. Adam Čabla Katedra statistiky a pravděpodobnosti VŠE

Úvod do kurzu. Moodle kurz. (a) (b) heslo pro hosty: statistika (c) skripta na pravděpodobnost

Pearsonův korelační koeficient

Univerzita Karlova v Praze, Fakulta Humanitních Studií Obor Historická sociologie. Seminární práce: volný čas a sport

Vybraná rozdělení náhodné veličiny

Základy teorie pravděpodobnosti

Statistika. Program R. popisná (deskriptivní) statistika popis konkrétních dat. induktivní (konfirmatorní) statistika. popisná statistika

Zpracování studie týkající se průzkumu vlastností statistických proměnných a vztahů mezi nimi.

Statistika I (KMI/PSTAT)

Přednáška. Diskrétní náhodná proměnná. Charakteristiky DNP. Základní rozdělení DNP

Statistika s Excelem aneb Máme data. A co dál? Martina Litschmannová Katedra aplikované matematiky, FEI, VŠB-TU Ostrava

Mnohorozměrná statistická data

23. Matematická statistika

přesné jako tabulky, ale rychle a lépe mohou poskytnou názornou představu o důležitých tendencích a souvislostech.

TECHNICKÁ UNIVERZITA V LIBERCI

Program Statistica Base 9. Mgr. Karla Hrbáčková, Ph.D.

Název testu Předpoklady testu Testová statistika Nulové rozdělení. ( ) (p počet odhadovaných parametrů)

Náhodná veličina a rozdělení pravděpodobnosti

Aplikovaná statistika v R

5 Vícerozměrná data - kontingenční tabulky, testy nezávislosti, regresní analýza

Kategorická data METODOLOGICKÝ PROSEMINÁŘ II TÝDEN 7 4. DUBNA dubna 2018 Lukáš Hájek, Karel Höfer Metodologický proseminář II 1

Pomůcka pro cvičení: 3. semestr Bc studia

Výběrové charakteristiky a jejich rozdělení

PSY117/454 Statistická analýza dat v psychologii seminář 9. Statistické testování hypotéz

Analýza dat s využitím MS Excel

P13: Statistické postupy vyhodnocování únavových zkoušek, aplikace normálního, Weibullova rozdělení, apod.

Jarqueův a Beryho test normality (Jarque-Bera Test, JB test)

Simulace. Simulace dat. Parametry

Transkript:

PSY117/454 Statistická analýza dat v psychologii Přednáška 2 ČETNOSTI A ROZLOŽENÍ ČETNOSTÍ Je snadné lhát s pomocí statistiky. Je těžké říkat pravdu bez ní. Andrejs Dunkels; wikiquote

Jaké hodnoty máme v datech? Jaké hodnoty proměnné/ých se v datech vyskytují? Jaké různé odpovědi jsme získali na tu kterou otázku dotazníku? Jaké různé počty sledovaných chování se při pozorování vyskytly? Kolik kterých hodnot máme? - četnosti Je některých víc, jiných míň? Zdá se být v četnostech jednotlivých hodnot nějaký řád?

SPSS intervalové četnosti samo nedělá. Je třeba rekódovat hodnoty do intervalů (nová proměnná). K tomu např. fce Transform - Visual Binning.

OD DO 0,000000<=x<2,000000 2,000000<=x<4,000000 4,000000<=x<6,000000 6,000000<=x<8,000000 8,000000<=x<10,00000 10,00000<=x<12,00000 12,00000<=x<14,00000 14,00000<=x<16,00000 16,00000<=x<18,00000 18,00000<=x<20,00000 ChD Tabulka četností:p13: Kolik tak p?e?tete za m?s?c kn??ek (v?etn? e Četnost Kumulativní Rel.četnost Kumulativní četnost rel.četnost 16 16 17,77778 17,7778 47 63 52,22222 70,0000 14 77 15,55556 85,5556 4 81 4,44444 90,0000 1 82 1,11111 91,1111 3 85 3,33333 94,4444 0 85 0,00000 94,4444 0 85 0,00000 94,4444 2 87 2,22222 96,6667 0 87 0,00000 96,6667 3 90 3,33333 100,0000

Tabulka četností (frekvencí) hodnota/ interval (absolutní) četnost kumulativní četnost relativní četn. (%) kumulativní rel. č. Minimum / interval1 Hodnota2 / interval2 Maximum / posl. interv. N 100 Celkem N 100 : počet v Tab 3.2, hustota (jde o hustotu pravděpodobnosti), obr. 3.5 ne frekvence, ale procenta AJ: (absolute) frequencies, relative frequencies, percent, cumulative, value, interval (class), total, N=sample size V Excelu funkce ČETNOSTI. Zadává se zrádně: vybrat buňky, které mají obsahovat absolutní četnosti; napsat funkci a!!ukončit Ctrl+Shift+Enter.

Tabulka četností - poznámky Od nejmenší hodnoty po nejvyšší v 1. a 2. sl. obvykle zahrnuty chybějící hodnoty Pak se rozlišuje mezi platnými hodnotami a chybějícími hodnotami hodnoty kategorické proměnné, málo hodnot u metrické intervaly(třídy) metrické proměnné volba šířky intervalu (stojí za to vyzkoušet více) aby byl jejich počet přibližně N/10, <15, nebo 1+log 2 N (Sturgisovo pravidlo) stejná šířka všech intervalů Pojem odlehlá hodnota (outlier) Tabulka četností zobrazuje téměř všechna data Použitím intervalů již data mírně redukujeme AJ: minimum, maximum, valid values, valid percent, loutlier, interval (bin, class), interval size

Grafické podoby tabulky četností Kategorické proměnné sloupcový graf (diagram) koláčový diagram zřídkakdy, neukazuje rozložení Metrické proměnné histogram / stem-and-leaf rozdělení hodnot do intervalů AJ: bar chart, histogram, pie chart, frequency distribution

Sloupcový diagram

Sloupcový diagram s tříděním 75 Pohlaví dítěte mužské ženské 50 Count 25 0 1 - zcela jistě se nerozvedeme 4 7 - zcela jistě se rozvedeme Likelihood of divorce - 15 - father

?

Histogram

Diagram stonek a list Frequency Stem & Leaf 32,00 0. 00000000000000000000000000000000 18,00 1. 000000000000000000 14,00 2. 00000000000000 7,00 3. 0000000 2,00 4. 00 4,00 5. 0000 1,00 6. 0 1,00 7. 0 10,00 Extremes (>=8,0) Stem width: 1 Each leaf: 1 case(s) Větev list (jed. list1,000000, např. 6 5 = 6,500000 0 00000000000000000000000000000000 1 000000000000000000 2 00000000000000 3 0000000 4 00 5 0000 6 0 7 0 8 0 9 10 000000 11 12 13 14 15 000 min = 0,000000 max = 15,00000 Celk. N

Férové zobrazení dat Každý graf (i tabulka) musí být natolik přehledně popsán (nadpis + popisky uvnitř), aby byl srozumitelný i bez čtení textu Rozličné rady, např. Good, Hardin V zobrazení by nemělo být více dimenzí než v zobrazovaných datech (často zbytečný 3. rozměr) Popisky dat by neměly stínit datové body Rozsah škál by měl být volen smysluplně, aby byla plocha užitečně využita ( nulové body na škálách). Numerické osy naznačují spojité proměnné, u kategorií volme raději textové popisky. Nepropojujme datové body, jde-li o diskrétní škály, pokud nemá interpolace smysl, nebo pokud nemáme v úmyslu srovnání profilů

Rozložení rozdělení, distribuce četností Měřené jevy jsou nějak rozděleny do kategorií (intervalů) a tyto kategorie jsou různě populární četné. Četnosti u reálných ordinálních a vyšších proměnných obvykle nebývají distribuovány nahodile jejich rozdělení zobrazené histogramem má popsatelný tvar. Rozdělení četností je tedy to, kolik relativně (či absolutně) máme kterých hodnot měřené proměnné. Typicky lze přibližně popsat slovy, např.: vyskytlo se hodně středních hodnot a relativně málo extrémních hodnot. Toto rozložení jevů na měřené škále je nejlépe vidět na grafech. Obvykle nějaké konkrétní rozložení očekáváme.

Tvar rozložení četností Normální Uniformní Počet vrcholů Unimodální, bimodální, multimodální Zešikmení Zešikmené zprava (pozitivně), efekt podlahy Zešikmené zleva (negativně), efekt stropu Strmost Leptokurtické, platykurtické AJ: frequency distribution, normal, rectangular, unimodal, bimodal, positively/negatively skewed, lepto(platy)kurtic, floor/ceiling effect

Normální (Gaussovo) rozložení http://en.wikipedia.org/wiki/image:standard_deviation_diagram.png Normální ve smyslu velmi běžné Tam, kde se setkává mnoho nezávislých vlivů. Ne vždy, nesouvisí s kvalitou dat. AJ: normal distribution, bell curve

Poissonovo rozložení Rozložení řídkých událostí (ta lambda v grafu = frekvence za jednotku času) Děje-li se událost častěji, než 10x za časovou jednotku, která nás zajímá, je jeho dobrou aproximací normální rozložení. AJ: Poisson distribution

Kumulativní histogram

Popis rozložení pomocí percentilů X-tý percentil hodnota, pro kterou platí, že X % lidí (jevů) ve vzorku má/získalo tuto nebo menší hodnotu lze snadno odečíst z kumulativního histogramu či patřičného sloupce tabulky četností Typicky rozložení popisujeme 10., 20.,, 80.,90. percentilem obecně min, 25., 50., 75., max nejčastěji min., 1., 5., 10., 25., 50., 75., 90., 95., 99. v normách

Shrnutí První informací (statistikou), která nás zajímá je četnost výskytu jednotlivých hodnot (resp. hodnot uvnitř jednotlivých intervalů) Konfiguraci četností nazýváme rozložení (rozdělení). Rozložení popisujeme (=komunikujeme je) tabulkou četností graficky histogram, sloupcový diagram pomocí percentilů O typu, tvaru rozložení hodnot proměnné uvažujeme většinou graficky histogram, sloupcový diagram. Nej rozložením je tzv. normální rozložení. Byť tohle je 5. třída ZŠ už tady se podvádí.