Výběry z populace, příprava dat, popisné statistiky

Podobné dokumenty
Příprava souboru dat a analýza

Excel mini úvod do kontingenčních tabulek

Elementární analýza dat

Kurz SPSS: Jednoduchá analýza dat

Kontingenční tabulky analýza kategoriálních dat: Úvod. Třídění 2. stupně

VÝBĚR VZORKU V KVANTITATIVNÍM

Statistika, Biostatistika pro kombinované studium Letní semestr 2011/2012. Tutoriál č. 4: Exploratorní analýza. Jan Kracík

Základy pravděpodobnosti a statistiky. Popisná statistika

5EN306 Aplikované kvantitativní metody I

Spokojenost se životem

Základy popisné statistiky. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek

Analýza dat na PC I.

veličin, deskriptivní statistika Ing. Michael Rost, Ph.D.

Metodologie pro ISK II

Matematika III. 27. listopadu Vysoká škola báňská - Technická univerzita Ostrava. Matematika III

5EN306 Aplikované kvantitativní metody I

Číselné charakteristiky

Statistika. Základní pojmy a cíle statistiky. Roman Biskup. (zapálený) statistik ve výslužbě, aktuálně analytik v praxi ;-) roman.biskup(at) .

Popisná statistika. Komentované řešení pomocí MS Excel

Statistika. Diskrétní data. Spojitá data. Charakteristiky polohy. Charakteristiky variability

ZÁKLADNÍ STATISTICKÉ CHARAKTERISTIKY

Popisná statistika. Statistika pro sociology

Deskriptivní statistika (kategorizované proměnné)

Metody výběru ve výzkumech veřejného mínění

POPISNÁ STATISTIKA Komentované řešení pomocí programu Statistica

UNIVERZITA OBRANY Fakulta ekonomiky a managementu. Aplikace STAT1. Výsledek řešení projektu PRO HORR2011 a PRO GRAM

Kvantitativní metody výzkumu v praxi PRAKTIKUM. Příprava výzkumného projektu

Zpracování náhodného výběru. Ing. Michal Dorda, Ph.D.

Charakteristika datového souboru

Metodologie pro Informační studia a knihovnictví 2

Základy popisné statistiky

Zápočtová práce STATISTIKA I

TECHNICKÁ UNIVERZITA V LIBERCI SEMESTRÁLNÍ PRÁCE

Mgr. Karla Hrbáčková, Ph.D. Základy kvantitativního výzkumu

Metodologie pro Informační studia a knihovnictví 2


Kategorická data METODOLOGICKÝ PROSEMINÁŘ II TÝDEN 7 4. DUBNA dubna 2018 Lukáš Hájek, Karel Höfer Metodologický proseminář II 1

Úloha č. 2 - Kvantil a typická hodnota. (bodově tříděná data): (intervalově tříděná data): Zadání úlohy: Zadání úlohy:

2. Základní typy dat Spojitá a kategoriální data Základní popisné statistiky Frekvenční tabulky Grafický popis dat

LEKCE 02a UNIVARIAČNÍ ANALÝZA KATEGORIZOVANÝCH DAT

Statistika s Excelem aneb Máme data. A co dál? Martina Litschmannová Katedra aplikované matematiky, FEI, VŠB-TU Ostrava

Sociologický výzkum (stručný úvod) Michal Peliš

Obsah Úvod Kapitola 1 Než začneme Kapitola 2 Práce s hromadnými daty před analýzou

VYHODNOCOVÁNÍ KVANTITATIVNÍCH DAT (ÚVOD DO PROBLEMATIKY) Metodologie pro ISK

Popisná statistika. úvod rozdělení hodnot míry centrální tendence míry variability míry šikmosti a špičatosti grafy

Základy biostatistiky

Úvodem Dříve les než stromy 3 Operace s maticemi

Statistika. cílem je zjednodušit nějaká data tak, abychom se v nich lépe vyznali důsledkem je ztráta informací!

7. SEMINÁŘ DESKRIPTIVNÍ STATISTIKA

1. Kategoriální proměnná nominální: (Tabulka a graf četností) Př.: sloupec (PokudanoJakčasto) -> Analyze -> Descriptive statistics -> Frequencies

ANALÝZA DAT V R 3. POPISNÉ STATISTIKY, NÁHODNÁ VELIČINA. Mgr. Markéta Pavlíková Katedra pravděpodobnosti a matematické statistiky MFF UK

Praktická statistika. Petr Ponížil Eva Kutálková

Statistika pro geografy

Třídění statistických dat

STATISTICKÉ CHARAKTERISTIKY

METODY VÝZKUMU GENDEROVÉ PROBLEMATIKY

Náhodná proměnná. Náhodná proměnná může mít rozdělení diskrétní (x 1. , x 2. ; x 2. spojité (<x 1

STATISTIKA 1. RNDr. K. Hrach, Ph.D. Zápočet: 75% docházka na cvičení. + odevzdání seminární práce (úkoly na PC)

Metody sociálních výzkumů. Velmi skromný úvod do statistiky. Motto: Jsou tři druhy lži-lež prostá, lež odsouzeníhodná a statistika.

VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ. FAKULTA STROJNÍHO INŽENÝRSTVÍ Ústav materiálového inženýrství - odbor slévárenství

Grafický a číselný popis rozložení dat 3.1 Způsoby zobrazení dat Metody zobrazení kvalitativních a ordinálních dat Metody zobrazení kvan

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Výrobní produkce divizí Ice Cream Po lo ha plane t Rozložený výse ový 3D graf Bublinový graf Histogram t s tn e ídy

TECHNICKÁ UNIVERZITA V LIBERCI

, Brno Hanuš Vavrčík Základy statistiky ve vědě

Kurz SPSS: Jednoduchá analýza dat. Jiří Šafr

STATISTIKA A INFORMATIKA - bc studium OZW, 1.roč. (zkušební otázky)

Statistické metody - nástroj poznání a rozhodování anebo zdroj omylů a lží

STATISTIKA S EXCELEM. Martina Litschmannová MODAM,

Úvod do statistické metodologie

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Testování hypotéz a měření asociace mezi proměnnými

Aplikovaná statistika v R

Popisná statistika kvantitativní veličiny

Metodologie pro Informační studia a knihovnictví 2

Analýza dat z dotazníkových šetření. Zdrojová data: dotazník

Popisná statistika. úvod rozdělení hodnot míry centrální tendence míry variability míry šikmosti a špičatosti grafy

Statistická šetření - PROČ? Žádná věda není skutečnou vědou, není-li podložena matematickými principy. (L.da Vinci)

Renáta Bednárová STATISTIKA PRO EKONOMY

Regresní analýza 1. Regresní analýza

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz

Kontingenční tabulky v Excelu. Představení programu Statistica

Statistické metody. Martin Schindler KAP, tel , budova G. naposledy upraveno: 9.

Sněmovní volební model MEDIAN (listopad-prosinec 2012)

Informační technologie a statistika 1

ANALÝZA DAT V R 7. KONTINGENČNÍ TABULKA. Mgr. Markéta Pavlíková Katedra pravděpodobnosti a matematické statistiky MFF UK.

Škály podle informace v datech:

STATISTIKA 1. Adam Čabla Katedra statistiky a pravděpodobnosti VŠE

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Charakteristiky kategoriálních veličin. Absolutní četnosti (FREQUENCY)

STATISTIKA. Inovace předmětu. Obsah. 1. Inovace předmětu STATISTIKA Sylabus pro předmět STATISTIKA Pomůcky... 7

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

23. Matematická statistika

Mnohorozměrná statistická data

ANALÝZA DAT V R 2. POPISNÉ STATISTIKY. Mgr. Markéta Pavlíková Katedra pravděpodobnosti a matematické statistiky MFF UK.

Popisná statistika. Jaroslav MAREK. Univerzita Palackého

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Obsah. Statistika Zpracování informací ze statistického šetření Charakteristiky úrovně, variability a koncentrace kvantitativního znaku

Transkript:

UK FHS Řízení a supervize v sociálních a zdravotnických organizacích (ZS 2013) Kvantitativní metody výzkumu v praxi Výběry z populace, příprava dat, popisné statistiky Jiří Šafr jiri.safr(at)seznam.cz (poslední aktualizace 15.1.2014)

Obsah části 4a Sběr dat Typy sběru dotazníku Výběry z populací Příprava dat a základní analýza Vytváření souboru dat Tabulky Kontingenční tabulka Vlastnosti rozdělení znaků Jednoduché popisné statistiky Několik rad jak číst statistiky Základní typy grafů KMVP část 4a 2

Typy sběru dotazníku (opakovaní) vyplňovaný tazatelem osobní počítačové dotazování CAPI (Computer Assited Personal Interviewing) telefonní počítačové dotazovánícati (Computer Assited Telephone Interviewing) dotazování elektronickou poštou CAMI (Computer Assited Mailing Interviewing) hromadně vyplňovaný dotazník v jedné místnosti poštou distribuovaný dotazník (tam i zpět / zpět) anketa v tisku - není výběrem! KMVP část 4a 3

Výběry z populace Princip zobecnění na populaci: Populace (základní soubor) výběr/vzorek populace (zobecnění)

Kvalita výběru Chyba klesá s rostoucí velikostí vzorku a vzrůstající homogennosti populace získáme užší interval spolehlivosti. Velikost směrodatné chyby a intervalu spolehlivosti nezávisí na velikosti populace. KMVP část 4a 5

Typy výběrů Pravděpodobnostní - náhodné Prostý náhodný Vícestupňový náhodný Stratifikovaný náhodný Nepravděpodobnostní Kvótní výběr Systematický Úsudkem Nabalováním [Jeřábek 1993: 44] KMVP část 4a 6

Pravděpodobnostní náhodný výběr každý z populace má stejnou pravděpodobnost, že bude vybrán reprezentuje všechny známé i neznámé vlastnosti populace Při zkoumání vzácného jevu řídce vyskytujícího se v populaci nemusí náhodný výběr být tím nejlepším. [Babbie 1995: 207] KMVP část 4a 7

Prostý náhodný výběr vyžaduje nějakou oporu výběru seznam reprezentující základní soubor, ze kterého budeme vybírat (losovat). KMVP část 4a 8

KMVP část 4a 9 [Babbie 1995]

Vícestupňový náhodný výběr kroky: 1. Základní soubor rozdělíme do podsouborů (přirozená seskupení). 2. z nich vybereme skupiny (můžeme více kroků) 3. a v nich teprve jedince Příklad. Vybíráme postupně: 1. okresy 2. obce 3. volební okrsky 4. respondenty Respondent v domácnosti je také vybrán náhodně! Na rozdíl od stratifikovaného výběru jsou skupinky vzájemně zastupitelné. KMVP část 4a 10

Výhody vícestupňového náhodného výběru nepotřebujeme seznam celé populace (ten málokdy existuje) kompaktnější výběr (koncentrace do určitých regionů) šetří náklady na organizaci tazatelé neběhají po celé zemi. KMVP část 4a 11

Stratifikovaný (oblastní) náhodný výběr [Babbie 1995: 211] Populaci rozdělíme do homogenních skupin podle nějakého společného kritéria (např. školní třídy). V těchto skupinách provedeme náhodný výběr strata (oblasti): uvnitř homogenní, mezi sebou odlišné Výhodou je SNV je, že snižuje velikost směrodatné odchylky. Vhodný pro odhad rozdílů mezi skupinami KMVP část 4a 12

Nepravděpodobnostní výběry

Kvótní výběr výběr na základě splnění kritérií daných kvótou počet kvót max. 3-5 kvóty: nezávislé nebo vzájemných vazbách musí být viditelné lze použít jen na populaci, kterou dobře známe (kvantitativní statistická opora o populaci) obtížně dostupné skupiny lze nadhodnotit KMVP část 4a 14

Kvótní výběr Výhody: levnější než náhodný výběr rychlejší, operativnější není třeba pořizovat seznamy (oporu) základního souboru KMVP část 4a 15

Kvótní výběr Nevýhody: nelze stanovit výběrovou chybu a určit přesnost ukazatelů předpokladem je znalost základních informací o základním souboru je reprezentativní jen z hlediska znaků použitých v kvótách. KMVP část 4a 16

Systematický výběr částečně náhodný s náhodným počátkem založen na pevně zvoleném kroku výběru ze základního seznamu jednotek není zaručeno náhodné pořadí jednotek v souboru (může existovat skrytá pravidelnost v seznamu). KMVP část 4a 17

KMVP část 4a 18 [Babbie 1995]

Výběr nabalováním (snowball sampling) pro speciální, hůře dostupné populace jakmile se osoby opakují, výběr ukončíme KMVP část 4a 19

NEvýběry nereprezentují celou populaci! Živelný výběr street corner sampling Výběr toho, na koho narazíme jako první. Výběr úsudkem Záměrný výběr často znalcem jako průměrné jednotky nejednoznačnost nepřípustné! Anketa Dotazník v tisku / na internetu KMVP část 4a 20

Velikost výběrového vzorku Záleží na homogennosti populace a úrovni třídění, tj. kolik proměnných (a jaké - kolik mají kategorií) chceme v analýze postavit proti sobě. Princip dostatečného výběru pro adekvátní statistické zpracování: relevantní kategorie zastoupena v poli tabulky alespoň 5 případy. Pro tabulku 5 x 4 tedy nestačí celkem 20 případů, to by znak v populaci musel být homogenní. Pozor, respondenti musí být skutečně náhodně vybraní. Tedy ne jen ti, kdo byli ochotní odpovídat! KMVP část 4a 21

Velikost výběrového vzorku U velmi malých populací (do cca 50) neexistuje univerzální pravidlo velikosti výběrového vzorku. Neboť v každém případě je vzorek pro běžné statistické metody příliš malý. Proto je korektní šetřit celý základní soubor, nebo aplikovat kvalitativní metody výzkumu. Výběrový soubor z malé populace např. zaměstnanců nějakého podniku nebo obyvatel obce (nad cca 50 do cca 200-300 lidí), by velmi orientačně měl představovat cca 20 %, minimálně ale 30 případů. Nicméně, nejedná se o žádné pravidlo! Viz tabulku určování doporučené velikosti vzorku. [Gatnar, L.] KMVP část 4a 22

Tabulka na určování doporučené velikosti vzorku s 5% chybou vzorku pro 95% významnost (předpokládaná úroveň vzorku 50 %) [Hague 2003: 95] KMVP část 4a 23

Soubor dat

Případy (respondenti) Datová matice Proměnná Hodnoty KMVP část 4a 25

Vytváření souboru dat

Převod dotazníků na elektronický soubor dat 1. vytvoření kódovacího klíče (codebook) 2. kódování (dle kódovacího klíče) 3. nahrávání (datová matice - děrování ) 4. čištění dat 5. rekódování KMVP část 4a 27

Souhrnný index škála Nová proměnná, která vznikne z více otázek (proměnných). Je reliabilnější (přesněji měří zvolený koncept) a validnější (měří právě jen zvolený koncept). KMVP část 4a 28

Chybějící hodnoty označování a překódování Typy chybějících hodnot a jejich nejčastější kódování: neví (8 / 88) neodpověděl (9 / 99) netýká se Chybějící hodnoty (missing values) jsou nejčastěji vyloučeny z analýzy. KMVP část 4a 29

Varianty řešení pro neví vyloučit z analýzy kódovat jako missing value, např. hodnota 9 listwise deletion plošné vylučování případů tj. u všech znaků, pokud se u jednoho objevila chybějící hodnota V odůvodněných případech lze i překódovat např. na střední hodnotu. Př. Hodnocení prospěšnosti zavedení zimního času: 1 - uškodilo, 2 - uškodilo trochu, 3 - prospělo trochu, 4 - prospělo. Překódováno na: 1 - uškodilo, 2 - uškodilo trochu, 3 neví, 4 - prospělo trochu, 5 - prospělo. KMVP část 4a 30

Zmínit se o všech manipulacích (překódování apod.) s daty je nezbytné!

Tabulky aneb jak ověřovat hypotézy (u kategorizovaných znaků)

Pravidla pro tvorbu tabulek [Kreidl 2000] Tabulka musí mít název a popsané proměnné (řádky a sloupce). Vždy uvést zdroj dat. Uvést celkový počet případů (marginální distribuce absolutních četností). KMVP část 4a 33

V názvu tabulky uvést: typ tabulky např. Procentní distribuce... nebo... (%) proměnné zahrnuté v tabulce, např. Religiozita a Úroveň vzdělání z jakého vzorku pocházejí data rok sběru dat Př. Procento uživatelů marihuany podle dosaženého vzdělání, středoškoláci, 1997. KMVP část 4a 34

Pravidla pro tvorbu tabulek Samotná procenta říkají málo nebo nic. nezamlčovat absolutníčetnosti (stačí marginální = řádkové, sloupcové a celkový počet případů). V prvnířádce či sloupci uvést znak pro %, aby bylo jasné, že se jedná tabulku pro procenta. KMVP část 4a 35

Pravidla pro tvorbu tabulek Kontrolovat sama sebe tím, že vždy sečtete čísla v jednotlivých řádcích a sloupcích a porovnáte je se skutečnými marginálními četnostmi (z tabulek tř. 1st.). Celáčísla v % v tabulkách většinou bohatě stačí. 23,48 % 23 % [Kreidl 2000] KMVP část 4a 36

Třídění prvního stupně frekvence jedné proměnné VZD4 Vzdelani na 4 kategorie Valid Missin Total FrequencyPercent Percent Valid Percent 1 Zaklad 334 7,0 7,0 7,0 2 Vyuc,S 1571 33,1 33,1 40,2 3 Maturi 1934 40,8 40,8 81,0 4 VS 901 19,0 19,0 100,0 Total 4740 99,9 100,0 0 4,1 4744 100,0 [Zdroj: Deset let transformace, 1999] KMVP část 4a 37

PRIJR6 * VZD4 Vzdelani na 4 kategorie Crosstabulation Count PRIJR61,00 2,00 3,00 4,00 5,00 6,00 Total Třídění druhého stupně absolutníčetnosti frekvence jedné vs. druhé proměnné (kategorie příjmu podle vzdělání) VZD4 Vzdelani na 4 kategorie 1 Zakladni2 Vyuc,SO3 Maturita 4 VS Total 113 320 250 103 786 127 521 533 134 1315 15 255 341 136 747 10 192 308 186 696 1 51 107 107 266 23 78 91 192 266 1362 1617 757 4002 [Zdroj: Deset let transformace, 1999] KMVP část 4a 38

Třídění druhého stupně kontingenční tabulka relativníčetnosti PRIJR6 * VZD4 Vzdelani na 4 kategorie Crosstabulation % within VZD4 Vzdelani na 4 kategorie VZD4 Vzdelani na 4 kategorie 1 Zakladni2 Vyuc,SO3 Maturita 4 VS Total PRIJR61,00 42,5% 23,5% 15,5% 13,6% 19,6% 2,00 47,7% 38,3% 33,0% 17,7% 32,9% 3,00 5,6% 18,7% 21,1% 18,0% 18,7% 4,00 3,8% 14,1% 19,0% 24,6% 17,4% 5,00,4% 3,7% 6,6% 14,1% 6,6% 6,00 1,7% 4,8% 12,0% 4,8% Total 100,0% 100,0% 100,0% 100,0% 100,0% [Zdroj: Deset let transformace, 1999] KMVP část 4a 39

Nejprve příklad: Procenta v tabulce. Porovnání subpopulací KMVP část 4a 40

[Babbie 1995: 386-387] KMVP část 4a 41

KMVP část 4a 42

Marginálníčetnosti Relativní sloupcovéčetnosti = součet v každém sloupci reprezentuje 100% Relativnířádkovéčetnosti = součet v každém řádku reprezentuje 100% KMVP část 4a 43

Interpretace a uspořádání tabulek závislá proměnná = je v hypotéze ovlivňována, způsobována (nejčastěji je v řádcích) nezávislá(é) proměnná = vysvětluje, ovlivňuje závislou V kategoriích nezávislé proměnné ukazujeme kompletní (100 %) distribuci závislé proměnné. Pozor! Směr kauzality je vždy věcí teorie, nelze ji určit z dat samotných. [Kreidl 2000] KMVP část 4a 44

Uspořádání kontingenční tabulky sloupcová procenta: V kategoriích nezávislé proměnné ukazujeme kompletní (100 %) distribuci závislé proměnné. ZÁVISLÁ vysvětlovaná proměnná NEZÁVISLÁ vysvětlující proměnná Pohlaví Spokojenost Muž Žena Celkový součet 1 (nespokojen) 41 % (5) 22 % (2) 7 2 41 % (5) 11 % (1) 6 3 (spokojen) 16 % (2) 66 % (6) 8 Celkový součet 100 % (12) 100 % (9) 21 Nejčastěji bývá závislá proměnná nalevo vřádcích a nezávislá (vysvětlující) ve sloupcích (není to ale podmínkou, záleží na počtu kategorií, a jak se nám to vejde na stránku; lze o 90st. otočit). Vždy tak aby, v kategoriích nezávislé proměnné byla kompletní (100 %) distribuce závislé proměnné. KMVP část 4a 45

Nelogické uspořádání tabulky řádková procenta pro závislou (vysvětlovanou) proměnnou, která je v řádcích pohlaví spokojenost muž žena Celkový součet 1 (nespokojen) 5 (71 %) 2 (29 %) 7 (100 %) 2 5 (83 %) 1 (27 %) 6 (100 %) 3 (spokojen) 2 (25 %) 6 (75 %) 8 (100 %) Celkový součet 12 9 21 (100 %) Názory nemohou ovlivňovat pohlaví! Nicméně, tabulku lze mít s řádkovými procenty, pak ale musí být závislá proměnná (zde Spokojenost) ve sloupcích (jde tedy o předchozí tabulku ale otočenou o 90 st.) Vždy musí platit, že v kategoriích KMVP nezávislé část 4aproměnné ukazujeme kompletní 46 (100 %) distribuci závislé proměnné.

Interpretace tabulek Tabulky skoro vždy dělejte tak, aby vyjadřovaly podmíněnou pravděpodobnost, že respondent (věc) bude patřit do jednotlivých kategorií závislé proměnné, za předpokladu, že patří do dané kategorie nezávislé proměnné(ných). Procento je stým násobkem pravděpodobnosti. [Kreidl 2000] KMVP část 4a 47

Souvislost znaků v tabulce Kupení vysokých hodnot na diagonále tabulky naznačuje, že existuje souvislost mezi proměnnými. Souvislost ale může mít i jinou formu, např. v každém sloupci jsou pozorování nahromaděna do jediného pole, jehož pozice je pro každý sloupec jiná. KMVP část 4a 48

Porovnání podskupin 1. rozdělte případy do adekvátních podskupin (dle hypotéz, např. podle vzdělání) 2. popište proměnnou pro podskupiny pomocí zvolených statistik (např. medián, průměr, procenta) 3. srovnejte tyto údaje pro skupiny KMVP část 4a 49

Interpretace tabulek Při interpretaci procent obvykle stačí porovnávat extrémní hodnoty a ignorovat střední kategorie. Pokud jde o ordinální proměnné pak není dobré činit obsáhlé závěry na základě % uvnitř jednotlivých kategorií nezávislé proměnné. Smysluplné je dělat porovnání distribucí napříč kategoriemi nezávislé proměnné. Buďte opatrní a neberte názvy kategorií zas tak doslova. [Kreidl 2000] KMVP část 4a 50

Jednoduché popisné statistiky

Střední hodnoty: nominální znaky modus ordinální znaky medián (aritmetický průměr) intervalové znaky aritmetický průměr KMVP část 4a 52

Modus = kategorie s největšíčetností Medián = hodnota, která je ve prostředku všech pozorování seřazených podle hodnoty Aritmetický průměr = součet hodnot dělený počtem pozorování KMVP část 4a 53

Modus KMVP část 4a 54 [Babbie 1995]

Medián KMVP část 4a [Babbie 1995] 55

Průměr KMVP část 4a [Babbie 1995] 56

Charakteristiky variability Udávají koncentraci nebo rozptýlení kolem střední hodnoty. Rozptyl = součet kvadratických odchylek od průměru dělený rozsahem výběr zmenšeným o 1. Směrodatná odchylka = odmocnina z rozptylu. Ukazují na kvalitu průměru. KMVP část 4a 57

Výpočet směrodatné odchylky Příklad. Máme pozorování: 7 2 5 4 3 1 8 2 6 2 Součet řady = 40; n = 10; průměr = 40/10 = 4 Odchylky: 3-2 1 0-1 -3 4-2 2-2 součet odchylek je 9 9 = 0 čtverce odchylek: 9; 4; 1; 1; 0; 1; 9; 1; 6; 4; 4; 4 součet čtverců odchylek = 52 průměrnáčtvercová odchylka tj. rozptyl = 5,2 směrodatná odchylka (odmocnina z rozptylu) = 2,28 KMVP část 4a 58

Další popisné statistiky Minimum / maximum Rozpětí Kvantily: dolní a horní kvartil Koeficienty šikmosti KMVP část 4a 59

Vlastnosti rozdělení kardinálních (spojitých) znaků

Symetrie, variabilita [Hanousek, Charamza 1992: 21] KMVP část 4a 61

Šikmost a špičatost [Hanousek, Charamza 1992: 21] KMVP část 4a 62

Několik rad jak číst statistiky [Hanousek, Charamza 1993: 34-35]

Při čtení statistik pozor na: přesná čísla ve statistických zprávách procenta versus absolutníčísla srovnatelné údaje nezaměňovat ukazatele je porovnání vhodné? na výběry (nebyly-li provedeny profesionály) podobu otázek (znění) vlastní příprava zjišťování (experimentu) v nemocnici umírají lidéčastěji než doma [Hanousek, Charamza 1993: 34-35] celé viz soubor Pozor_statistika.pdf KMVP část 4a 64

Základní typy grafů Pro třídění 1. a 2. stupně

Třídění 1. stupně rozložení hodnot jednoho znaku (popisné statistiky a hypotéza 1.řádu)

Histogram pro kardinální (spojité) proměnné 1400 PRIJEM89 1200 1000 800 Frequency 600 400 200 0 5000 9000 17500 35000 62500 6500 12500 25000 45000 87500 PRIJEM89 KMVP část 4a 67

Barchart četnosti kategorií kategorizovaného znaku (zde nominální znak Kraj) KMVP část 4a 68

Alternativně: Koláčový graf (Pie chart), v % KMVP část 4a 69

Třídění 2. stupně a tedy i test hypotéz druhého řádu (hodnoty 1. proměnné podle hodnot 2. proměnné)

Barchart: pro třídění 2.stupně Kategoriální (nominální, ordinální) znaky Zájem o politiku podle pohlaví Odpovídá kontingenční tabulce KMVP část 4a 71

Barchart pro třídění 2.stupně Příklad: Zájem o politiku podle pohlaví Nezávislá proměnná Součet v kategoriích = 100 % Závislá proměnná KMVP část 4a 72 Zdroj: ISSP 2007

Bodový X-Y graf (scatter plot) Kardinální (spojité-číselné) znaky Sledování TV a věk 4,5 4 Odpovídá korelačnímu koeficientu (a regresní analýze) Sledování TV (počet hodin) 3,5 3 2,5 2 1,5 1 0,5 0 20 30 40 50 60 70 Věk KMVP část 4a 73

Spojitá (závislá) kategoriální (nezávislá) V principu porovnáváme průměry závislé spojité v kategoriích nezávislé proměnné proměnné (+ lze i kontrola rozptylu/směrodatné odchylky nebo interval spolehlivosti ve skupinách) Odpovídá analýze rozptylu (koeficientu EtaSq) KMVP část 4a 74

Literatura Babbie, E. (1995). The Practice of social Research. 7th Edition. Belmont: Wadsworth Disman, M. (1993): Jak se vyrábí sociologická znalost. Praha: Karolinum Hanousek J., Charamza P. (1992). Moderní metody zpracování dat Matematická statistika pro každého. Praha: Grada. Kreidl, M. (2000). Podklady ke kurzu Analýza kvantitativních dat. FSV UK, LS 2000-2001. Jeřábek, H. (1993): Úvod do sociologického výzkumu. Praha: Karolinum Poděkování za cenné konzultace RNDr. L. Gatnarovi. KMVP část 4a 75