Analýza kvantitativních dat II. Standardní chyby a intervaly spolehlivosti (1.)
|
|
- Miloslava Sedláková
- před 8 lety
- Počet zobrazení:
Transkript
1 UK FHS Historická sociologie (LS 2012+) Analýza kvantitativních dat II. Standardní chyby a intervaly spolehlivosti (1.) Jiří Šafr jiri.safr(at)seznam.cz Poslední aktualizace 23/11/2014
2 Obsah Logika měření ve výběrových šetřeních: chyby měření Principy inferenční statistiky a intervalového odhadu Co předchází výpočtu intervalu spolehlivosti: 1. Standardní (směrodatná) chyba K čemu je standardní chyba (SE)? SE pro kardinální znaky (průměr) a pro nominální (P resp. %) 2. koeficient spolehlivosti (z-values) - krátký exkurz do normálního rozložení a teorie pravděpodobnosti Využití CfI Výpočet CfI pro kvalitativní nominální proměnnou (tj. pro %) (Ne)možnosti výpočtu CfI v SPSS a alternativy Simultánní intervaly spolehlivosti Standardní chyba a intervaly spolehlivosti pro další parametry (korelační koeficient, medián, rozdíl podílů) 2
3 Chyby měření Při interpretaci a analýze výsledků z výběrových dat je třeba mít neustále na paměti, že vznikly zpracováním dat získaných z výběrového šetření (populace vzorek). všechny (publikované) údaje jsou pouze odhady zatížené určitou chybou a nikoliv přesná čísla. Tato chyba má dvě složky: výběrovou a nevýběrovou. 3
4 Nevýběrová chyba vyskytuje se u všech zjišťování (tedy i u vyčerpávajících cenzovních šetření) Vzniká z důvodu: špatné práce v případné fázi výzkumu (konceptualizace, operacionalizace) neochotou respondentů sdělovat úplné a přesné informace atd. validita nedokonalé metodiky, jejího nepřesného dodržování chybnými postupy při zpracování dat významně ovlivnit ji lze precizní prací ve všech fázích přípravy a průběhu šetření zhodnotit její vliv na výsledky je obtížné (možností je např. porovnání s údaji zjištěnými při úplném cenzu, pokud je máme k dispozici) (Dále se jí nebudeme zabývat.) 4
5 Výběrová chyba Populace výběr populace Vybírá se náhodně (bez vracení) pouze jeden výběrový soubor a údaje z něho reprezentují základní soubor (populaci). Chybu způsobenou volbou výběrového souboru lze s určitou předem zvolenou pravděpodobností vymezit na základě teorie výběrových šetření 5
6 Přesnost chyby měření S výběrovými šetřeními jsou v sociálních vědách spjaty tzv. výběrové a nevýběrové chyby. Nevýběrové chyby (nonsampling error): odmítnutí odpovědi, chyby při pořizování dotazníku. nelze kvantifikovat vychýlení odhadu. (ty se objevují i v případě šetření celé populace - cenzu) Výběrové chyby (sampling error): vznikající vztažením charakteristik výběrového souboru na celý základní soubor vliv: velikosti výběru, metody výběru, velikosti populace lze je interpretovat pomocí tzv. intervalů spolehlivosti = intervaly zkonstruované kolem bodového odhadu tak, že surčitou pravděpodobností skutečná hodnota odhadované charakteristiky (tj. v celé populaci) leží právě vtomto intervalu. Nejčastěji se u odhadů konstruuje 95% interval spolehlivosti v něm s 95% pravděpodobností leží skutečná hodnota odhadované charakteristiky (připouštíme 5 % 6 chybu)
7 Velikost výběrové chyby lze vyjádřit buď Standardní (směrodatnou) chybou - bodovým odhadem rozptylu/směrodatné odchylky nebo intervalem spolehlivosti pro odhad sledovaného ukazatele. Nejčastěji se okolo odhadu konstruuje tzv. 95 % interval spolehlivosti (vynásobením směrodatné odchylky odhadu kvantilem normovaného normálního rozdělení, tj. hodnotou 1,96). interval, ve kterém s 95 % pravděpodobností leží skutečná hodnota odhadované charakteristiky 7
8 Chyba měření Pravděpodobnostní výběry nikdy nedávají statistiky (změřené hodnoty ve vzorku) přesně odpovídající parametru (hodnotám v celé v populaci) T = M + e T = skutečná hodnota proměnné (v populaci) M = naměřená hodnota T e = je chyba měření 8
9 Intervaly spolehlivosti Tolerance chyb (margin of error) suma všech možných výběrových chyb, která kvantifikuje nejistotu výsledků měření pravděpodobnostní interval ± (např. 95% interval spolehlivosti určuje rozpětí kolem naměřené hodnoty) ovlivněno: velikostí výběru, metoda výběru, velikost populace 95 % (konfidenční) interval spolehlivosti jsme si jistí, že naše výběrová data z 95 % (tj. námi zvolená spolehlivost) budou obsahovat skutečnou hodnotu v celé populaci 9
10 Intervaly spolehlivosti (CI) princip intervalového odhadu Odhadujeme parametry základního souboru (populace) jsou-li nám známy pouze charakteristiky výběru Při intervalovém odhadování se charakteristika základního souboru popisuje pomocí intervalu, k níž se přidává pravděpodobnost, že odhad bude správný spolehlivost odhadu (1-α). Použití pro průměr, podíl (%), rozptyl, korelační koeficient Obecně CfI lze vyjádřit: Bodový odhad ± Koeficient spolehlivosti pro zvolenou hladinu x Směrodatná chyba odhadu Např. pro 95 % CfI a procentní údaj ohledně účasti ve volbách: Se spolehlivostí 95 % můžeme tvrdit, že podle zjištění výzkumu půjde volit 62,8 % (± 2,7 %) občanů, tj. v rozmezí 60,1 až 65,5 %. 10
11 Výsledky výběrových šetření jsou vždy jen odhadem skutečného parametru (v populaci). Jejich přesnost je závislá především na velikosti výběrového souboru a podílu hodnot daného znaku. Orientační pomůcka: pro vzorek z velké (národní) populace cca N=1000 se skutečné (populační) relativní četnosti (procenta) pohybují v těchto intervalech: Pozorované četnosti (%) Intervaly spolehlivosti 10 % nebo 90 % 20 % nebo 80 % 30 % nebo 70 % 40 % nebo 60 % 50 % ± 1,9 ± 2,5 ± 2,7 ± 3,0 ± 3,1 Zdroj: [Special Eurobarometer 337] My si ale dále ukážeme, jak to spočítat přesně a navíc pro jakoukoliv hodnotu a míru (%, průměr, rozdíl %, korelace, ) 11
12 Interval spolehlivosti Interval spolehlivosti volíme. Například zvolíme-li 95 %, znamená to, že parametr naměřený ve výběrovém souboru (např. průměr) se bude v celé populaci nacházet v daném intervalu. Nebo obráceně: Zvolená chyba (alpha) např. 5%, je pravděpodobnost, že průměr (nebo jiná míra) nebude v celé populaci (jejíž vlastnosti z výběru zjišťujeme) mezi spočítaným intervalem a to díky náhodě. 5% pravděpodobnost (type I error), znamená že naměřený rozdíl existuje (např., že lidé budou volit kandidáta X) oproti tomu, že naměřený rozdíl je ve skutečnosti způsoben tím, že vzorek je nereprezentativní. 12
13 Nejprve ujasnění pojmů (pro jistotu) Rozptyl je variance v hodnotách proměnné Směrodatná odchylka je odmocnina z rozptylu Standardní chyba (např. průměru) je vyjádřením nepřesnosti měření odhadu K jejímu odhadu můžeme použít právě směrodatnou odchylku (v případě průměru), výpočet viz dále 13
14 Princip inferenční statistiky - kardinální/číselné znaky distribuce průměru v náhodném výběru z populace Zdroj: [De Vaus 1986: 116] Ze vzorku víme, že průměrný příjem je 18tis$ ( bodový odhad), jaký je ale skutečný populační průměr (tj. v celém základním souboru)? Protože víme, že výběrový průměr je zatížen výběrovou chybou, nemůžeme se na tento bodový odhad spolehnout. Potřebujeme zjistit, jak přesně náš vzorek měří. Pokud máme náhodný výběr, odpověď nám dá teorie pravděpodobnosti. Pokud bychom provedli velké množství náhodných výběrů, budeme se postupně blížit ke skutečné 14 populační hodnotě průměrného příjmu. Rozložení hodnot ve vzorku se bude blížit tzv. normálnímu rozložení (Gaussově křivce).
15 Princip inferenční statistiky kategoriální znaky distribuce pravděpodobnosti (tj. %) v náhodném výběru z populace Zdroj: [De Vaus (1986) 2002: 304] Dtto ale pro podíl (procenta). Na ose X je podíl (relativní počet výskytu) odpovědí pro volbu konzervativní strany v mnoha náhodných výběrech. S rostoucím počtem opakovaných náhodných výběrů se odhadovaná hodnota % blíží skutečné hodnotě v populaci. 15
16 Binomické rozdělení Návštěva kostela NSR, červenec srpen 1956 % Pravidelná 30,3 Nepravidelná 24,6 Málokdy 28,6 Nikdy 16,5 Celkem 100,0 Náhodný výběr 4000 osob, se rozdělí na skupiny po 40 osobách, vznikne tak 100 dílčích náhodných výběrů. Toto rozdělení odpovídá jako při dotazování u 100 reprezentativních průřezů. Tyto dílčí náhodné výběry však nemají stejné procento osob, které chodí do kostela jen málokdy. Podle zákona velkých čísel musí přitom menší odchylky vystupovat častěji než velké. [Noelleová 1968: 115] Podíl 27,5 % osob, které málokdy navštěvuji kostel, tj. 11 ze 40 dotazovaných, vystupuje např. u 18 ze 100 dílčích náhodných výběrů, naproti tomu jen v jednom výběru je podíl 10 % = 4 ze 40 dotazovaných. Z křivky zvonovitého tvaru lze vyčíst, jaké rozdělení by se dalo očekávat v mezním případě, kdyby se neprošetřovalo pouze 100, ale libovolné množství dílčích náhodných výběrů. 16
17 Co předchází výpočtu intervalu spolehlivosti: 1. Standardní (směrodatná) chyba a jejímu výpočtu předchází výpočet rozptylu/směrodatné odchylky 2. koeficient spolehlivosti z-values (princip a odvození)
18 Standardní/směrodatná chyba odhadu parametru (např. průměru) Neboli obecně standardní chyba vzorku Kvantifikuje nepřesnost našeho měření pro průměr: StD Error (of mean) SE = pro podíl (%): StD Error (of proportion) SE = Pozn. Pravděpodobnost, tj. podíl (%) je vlastně průměrem počtu pozorování, takže SE pro pravděpodobnost počítáme v podstatě stejně jako SE pro průměr (Směrodatná odchylka podílu děleného odmocninou z velikosti výběru). 18
19 Standardní/směrodatná chyba Je menší pokud roste velikost výběrového souboru (roste přesnost odhadu parametru) Zvětšením výběru 2x se interval zmenší jen 1,41krát ( k-násobně), proto pro dvojnásobnou přesnost potřebujme čtyřnásobný rozsah výběru Obvykle nám stačí pokud je pravděpodobnost, že cca 2/3 naměřených hodnot leží v rozsahu hranice průměru nebo +/- 1 jejich vlastní standardní chyby (SE) 19
20 K čemu je standardní chyba (SE)? ukazuje, jak (ne)přesné jsou naše výsledky pro výpočet intervalu spolehlivosti k testování, zda se dva parametry liší k testu, zda se výběrová charakteristika statisticky významně liší od nuly v základním souboru (dělíme-li např. korelační koeficient r jeho SE a dostaneme-li číslo větší než 2, pak je s 95% pravděpodobností korelace nenulová, tj. existuje i v celé populaci) 20
21 Malý exkurz do rozložení pravděpodobnosti nejen k tomu abychom odvodili Z-hodnoty pro koeficient spolehlivosti (vlastnosti normálního rozložení využijeme ještě při testování hypotéz)
22 Normální rozložení rozsah oblastí pod křivkou Pravděpodobnosti pozorování náhodné proměnné Procenta plochy pod křivkou Pravděpodobnosti pozorování hodnot, odpovídají oblastem pod křivkou Násobky Směrodatné odchylky Rozdíl mezi 2 až 3 StD odpovídá 5 % plochy pod křivkou normálního rozložení. Pravděpodobnost, že se (hodnota) pozorování vyskytne: -nad bodem E je 0,025 -mezi body A a E je 0,95 95 % interval spolehlivosti Tato vlastnost normálního rozložení nám umožňuje činit odhad parametrů základního souboru, známe-li pouze charakteristiky výběru. 22
23 Směrodatná odchylka a (konfidenční) interval spolehlivosti Normální rozložení Násobky Směrodatné odchylky 23
24 z-values koeficient spolehlivosti (C) pro danou hladinu významnosti (α) tu si zvolíme, podle toho, jak přesně výsledky chceme prezentovat (nejčastěji 5 %) α = 5 % α = 1 % 2,5 % 2,5 % Násobky Směrodatné odchylky α 10% 5% 1% z α /2 z.1 z.05 z.025 z.01 z.005 z.001 z.0005 C
25 a zpět do výpočtu intervalu spolehlivosti
26 Interval spolehlivosti (předpoklady) Dále budeme uvažovat pouze dvoustranný interval spolehlivosti (existuje také jednostranný CfI, kdy určujeme buď jen horní nebo dolní hranici) pro prostý náhodný výběr a pro velké výběrové soubory (kde n > 30) Předpokládáme alespoň přibližně normální rozložení hodnot zkoumaného jevu (což dost často z principu nemusí být) 26
27 Připomenutí z AKD I. Intervaly spolehlivosti pro spojitou kardinální proměnnou průměr
28 Odhad parametru (např. průměru) v populaci na základě výběrového vzorku Standardní chyba průměru StD Error (of mean) SE = s 2 /n nebo SE = s/ n kde s 2 je rozptyl (ve výběrovém vzorku) nebo s je směrodatná odchylka 95 % konfidenční interval CI pro výběrový průměr X = X ± C * SE kde C = 1,96 (pro 95 % CI) z-hodnota Prezentujeme buď dvě čísla: průměr ± konfidenční interval nebo 28 tři čísla: dolní mez - průměr - horní mez.
29 Výpočet konfidenčního intervalu výběrového průměru Hypotetická populace Průměr v celé populaci μ = 8 jednotky hodnoty A 2 B 6 C 8 D 10 E 10 F 12 Např. věk dětí v ulici Náhodný výběr 2 jednotek (např. dětí v ulici) A (=2) a D (=10) Průměr ve výběru X = (2+10)/2 = 6 Rozptyl (s 2 ) je ve výběru 32 směrodatná odchylka (s) CI = X ± 1,96 * 4 = 6 ± 7,84-1,84 až 13,84 To znamená, že z námi vypočteného bodového odhadu průměrného věku ve výběru (6 let) můžeme usuzovat, že v celé populaci se jeho hodnota s přesností 95 % pohybuje v rozmezí -1,8 až 13,8. (Což je zde jistě neproduktivní informace.) 29
30 Rozdíl: populace / výběr, StD a SE Vek_AKD2_ xls
31 Využití CfI Deskriptivní pro popis (odhad) určitého parametru v populaci měřeného pomocí výběru s použitím intervalového odhadu (např. průměr, podíl kategorie) EXPLORE Porovnání rozdílů hodnot dvou či více proměnných testování hypotézy pomocí principu statistické indukce ( překrývají se hranice intervalů?), např. v grafech Error-Bar: A) vzájemné porovnání rozdílů hodnot (průměrů) u sady několika proměnných měřených na stejné škále (např. obliba 8 TV žánrů) B) Hodnoty průměrů jedné proměnné v podskupinách kategoriích vysvětlujícího znaku (např. průměr příjmu v kategoriích vzdělání). C) porovnání hodnoty s výsledky z jiného výzkumu (např. časově nebo z jiné země) 31
32 Porovnání rozdílů hodnot (průměrů) pomocí překryvu intervalů spolehlivosti A) Obliba 8 TV žánrů B) Příjem v podskupinách podle vzdělání Zdroj: Kultura 2011 Zdroj: CVVM GRAPH ERROR (CI) k31_a TO k31_h. GRAPH ERROR (CI) prijem BY vzd4. 32
33 V SPSS: interval spolehlivosti pro spojitou proměnnou průměr Např. v rámci EXPLORE (v syntaxu EXAMINE): EXAMINE proměnná. */ třídění 1.stupně včetně grafů. EXAMINE prijem /PLOT NONE /STATISTICS DESCRIPTIVES /CINTERVAL 95 /NOTOTAL. Poněkud nepřehledné, ve výstupu nejprve za celek, pak teprve podskupiny. V rámci MEANS dostaneme pouze standardní chybu průměru = SEMEAN. MEANS prijem /CELLS= MEAN COUNT STDDEV SEMEAN. */ pro třídění 1. ale i 2./3. stupně. Přehledněji dostaneme intervaly spolehlivosti pro třídění 2. stupně v jedné tabulce v rámci jednoduché analýzy rozptylu (One-way ANOVA): ONEWAY prijem BY vzd4 / STATISTICS=DESCRIPTIVES. Nebo graf pro průměry s CI v kategoriích další proměnné: GRAPH /ERRORBAR (CI 95)=prijem BY vzd4. 33
34 CI ve výstupu z EXPLORE resp. EXAMINE v třídění 2.stupně: závislá proměnná = příjem nezávislá proměnná = pohlaví (s30) Počítáme odděleně průměry s (S.E.) a CI v jejích kategoriích. EXAMINE proměnná. *třídění 1.stupně včetně grafů. Zdroj: data ISSP 2007 EXAMINE prijem BY s30 /PLOT NONE /STATISTICS DESCRIPTIVES /CINTERVAL 95 /NOTOTAL. * třídění 2. stupně a pouze hlavní statistiky. Pro více kategorií je to již poměrně nepraktické uspořádání, proto můžeme použít např.: ONEWAY prijem BY vzd4 / 34 STATISTICS=DESCRIPTIVES.
35 Graf chybových úseček (průměr s CI) v SPSS GRAPH /ERRORBAR (CI 95)=Var1 BY Var2. Var1 je spojitá (pro ní počítáme průměr) Var 2 je kategoriální (podskupiny) 35
36 CfI pro průměry v podskupinách ONEWAY prijem BY vzd4/ STATISTICS=DESCRIPTIVES. GRAPH ERROR (CI 95) prijem BY vzd4. 36
37 Rozdíl: ERRORBAR (graf chybových úseček) BOXPLOT (graf fousatých krabiček) BOXPLOT - graf fousatých krabiček znázornění rozložení (rozptýlení) dat: medián, kvartilové rozpětí (horní a dolní kvartil) a hranic odlehlých (Outliers = ) a vzdálených hodnot (Extremes = *). Jak pro populační tak pro výběrová data. ERRORBAR - graf chybových úseček znázornění průměru a jeho (zvoleného) intervalu spolehlivosti Pouze pro výběrová data. Vnitřní a vnější hradby (hranice velmi vysokých/ní zkých hodnot) Kvartilové rozpětí EXAMINE prijem BY s30 /PLOT=BOXPLOT /STATISTICS=NONE /NOTOTAL. GRAPH /ERRORBAR (CI 95) prijem BY s30. Zdroj: data ISSP
38 Intervaly spolehlivosti pro kvalitativní - nominální proměnnou četnosti (pravděpodobnost / procenta) pro jistotu: Procento je stým násobkem pravděpodobnosti, tj. p 0,1 = 10 % (takže p = 0,8 1-p = 0,2)
39 Interval spolehlivosti pro relativní četnost tj. pravděpodobnost (tj. % /100), binomický podíl Bodový odhad ± Koeficient spolehlivosti pro zvolenou hladinu (C) x Směrodatná chyba odhadu Pravděpodobnost jevu (bodový odhad) p = x/n Směrodatná chyba pravděpodobnosti SE = p(1 p)/n Interval spolehlivosti p ± z α/2 (SE) C pro 95 % spolehlivost α = 0,05; z α/2 = 1,96 Existuje 95 % spolehlivost, že naměřená hodnota ve výběru bude (v populaci) mezi hodnotami horní a dolní hranice. Máme-li proměnnou s více kategoriemi, pak počítáme p vždy jako dichotomii té které kategorie oproti součtu ostatních (např. vzdělání: VŠ / ostatní stupně (ZŠ+VY+SŠ). 39
40 Příklad: volební účast v r Zdroj: data ISSP
41 Příklad: volební účast v r Máme výběrový odhad pro proměnnou Volil2006 (katg. Volil / Nevolil) Směrodatná chyba pravděpodobnosti SE pro Volil: Pravděpodobnost Volil = 750/1196 = 0,628 Pravděpodobnost Nevolil = 446/1196 = 0,373 SE = 0,628(1 0,628)/1196 = 0,014 Odhad Volil bude ležet mezi 0,628 ± 1,96 (0,628)(0,373)/1196 0,628 ± 0,0274 nebo (0,6006; 0,6554) nebo 62,8 (± 2,7)% Zdroj: ISSP
42 Příklad: volební účast v r Voleb do Poslanecké sněmovny konaných ve dnech se účastnilo 64,47 % občanů (oficiální údaj z ČSÚ). Náš výběrový odhad (data ISSP 2007) pro 95 % CfI: 60,06 62,8 65,54 Pro 99 % CfI (kdy z α/2 = 2,326) 59,60 62,8 66,05 Pro 90 % CfI (kdy z α/2 = 1,645) 60,05 62,8 65,01 42
43 v SPSS CfI pro % standardně pouze v grafu BARCHART GRAPH /BAR(SIMPLE)=PCT BY q34 /INTERVAL CI(95.0). Zdroj: data ISSP
44 BARCHART pro % s CfI, klikací postup 44
45 Třídění druhého st. v BARCHARTu (s CI pro %) GRAPH /BAR(SIMPLE)=PCT BY q34 BY q38 /INTERVAL CI(95.0). Pro porovnání % volil v 2006 v podskupinách (zde dle členství v odborech) Zdroj: data ISSP
46 Na hotovou tabulku lze aplikovat skript Skript: Nebo jobíkem [Gwilym Pryce 2002] v syntaxu vyplníme hodnoty např. z FREQ nebo CROSSTAB Je to ten druhý Large-Sample Confidence Interval for a Single Population Proportion. Přepíšeme/vyplníme jen hodnotu n a p, můžeme také volit velikost CI a počet desetinných míst. Run MATRIX procedure: Confidence Interval for a Single Population Proportion n phat zstar SE Lower Upper 1196,000,627 1,960,014,600, END MATRIX Zdroj: data ISSP
47 1. In the output (on FREQ table) you can use (post)script Script can be downloaded from: This is most convenient way. However it needs to be stored in a computer and you need the appropriate version of the script fitting to your SPSS version, sometimes even some programming environment needs to be installed (Python), and also it is probably only in Czech. It doesn t exist in PSPP. Source: data ISSP 2007, CR 47
48 2. Syntax routine CI for proportion [Pryce 2002] Here we have to fill in results, e.g. from FREQ (univariate) or possibly CROSSTAB (bivariate). In fact there are four tests in this syntax. For univariate description it is the second test Large-Sample Confidence Interval for a Single Population Proportion. Fill in only values of n a p, you can also choose CI (originaly set to 99% CI) and decimals shown. * * * Large-Sample Confidence Interval for a Single Population Proportion. * (see Moore and McCabe (2001) Intro to the Practice of Statistics, p ). * *For the inverse normal computation, I use the approximation used by adapted from Abramowitz and Stegun, Handbook of Mathematical Functions, National Bureau of Standards MATRIX. COMPUTE n = {4040}. /* Enter the sample size here (change the number in curly brackets)*/ COMPUTE x = {2048}. /* Enter the number of "successes" (change the number in curly brackets)*/ COMPUTE CONFID = {0.99}. /* Enter the desired confidence level here */ *The remainder of the syntax calculates the Confidence Interval given the values for n and x which you have entered above. *NB you don't need to alter anything from here on. COMPUTE Q = 0.5 * (1-CONFID). COMPUTE A = ln(1/(q**2)). COMPUTE T_ = SQRT(A). COMPUTE zstar = T_ - (( ( *T_) + ( *T_**2))/ (1 + ( *T_) + ( *T_**2) + ( *T_**3))). COMPUTE phat = x/n. COMPUTE SE_phat = SQRT((phat*(1-phat))/n). COMPUTE m = zstar * SE_phat. COMPUTE LOWER = phat - m. COMPUTE UPPER = phat + m. COMPUTE ANSWER = {n, phat, zstar, SE_phat, Lower, Upper}. PRINT ANSWER / FORMAT "F10.5" /Title = "Confidence Interval for a Single Population Proportion" / CLABELS = n, phat, zstar, SE, Lower, Upper. END MATRIX. *NB if you want to obtain values to a greater (lesser) number of decimal places, change the format specified in the last but one line of the syntax. *e.g. if you want only 3 decimal places, change the format to "F10.3". * * The output: Run MATRIX procedure: Confidence Interval for a Single Population Proportion n phat zstar SE Lower Upper 1196,000,627 1,960,014,600, END MATRIX And don't forget, if you use this script (e.g. in diploma thesis) you should credit it, cite: Gwilym Pryce Large-Sample Confidence Interval for a Single Population Proportion. Inference for Proportions. Available at: 48 Source: data ISSP 2007, CR
49 Pro kontingenční tabulku CROSS s31 BY s21. A dosadíme do vzorce (jobíku) Zdroj: data ISSP 2007 Pro kategorii menší město : p dolní mez horní mez Rodinný domek 0,3266 0,2805 0,3727 Menší bytový dům 0,1482 0,1133 0,1832 Větší bytový dům 0,5251 0,4761 0,5742 CROSS s31 BY s21 /cel col. GRAPH /BAR(SIMPLE)=PCT BY s31 by s21/interval CI(95.0). 49
50 Kalkulátory intervalů spolehlivosti pro nominální znaky (%) ten bohužel nefunguje
51 Orientační pomůcka: Statistické rozpětí odchylek pro binominální rozdělení Hodnoty 2σ dvě směrodatné odchylky v % Stupeň významnosti 95,45 % n = rozsah náhodného výběru p = četnost znaku v základním souboru v % Zdroj: [Noelleová 1968: 118] 51
52 Úkol Spočítejte interval spolehlivosti pro podíl vysokoškolsky vzdělaných v ČR Porovnejte se skutečnou hodnotou v populaci (údaje ČSÚ pro 2007) promítnout řešení z AKD2_1_CfI_RESENI 52
53 Porovnání % rozdílů v třídění 2. stupně (binární proměnné) Zjednodušeně můžeme spočítat interval spolehlivosti pro podíl určité kategorie v podskupinách podle jiné proměnné nebo již existujících výsledků. Např. jednoduše dichotomicky: Volil (závislá proměnná) podle kategorií Křesťanská nábož. orientace (ano/ne; nezávislá p.) a porovnat, zda se hodnoty intervalového odhadu v podskupinách nepřekrývají. Přesnější je řešení pomocí CF samotného % rozdílu mezi těmito kategoriemi (p1-p2). To lze spočítat ručně (viz dále) a nebo dosazením do SPSS jobíku G. Pryce [2002] kde použijeme poslední (4.) test Large-sample Confidence Intervals for Comparing for two population proportions. Pokud spočítaný interval spolehlivosti rozdílu neprochází 0 (tj. nezasahuje nulu = v populaci není nulový), lze tvrdit, že % rozdíl subkategorií (p1-p2) je statisticky významný, tj. platí se zvolenou chybou pro celou populaci. Tento postup lze aplikovat i na kontingenční tabulku s více kategoriemi postupně počítáme CI pro rozdíly vždy dvou 53 hodnot/kategorií. Zde však nastává problém vícenásobného porovnání (viz dále).
54 Comparing for two population proportions (dichotomised variables in crosstabulation) We can compute confidence interval for proportion of specific value/category within subgroups or for already existing results. For example, dichotomised variables: Voted (dependent var) along categories of Religion (Christian/otherwise) (independent var) and to compare, whether interval estimates within categories of Religion overlap or not. More exact and easier it is via computing CF of % difference between the proportions/categories If the confidence interval of the proportion difference is not including 0 (i.e. it is not zero within the whole population), we can assert, that % difference between the (sub)categories is statistically significant (at given p), i.e. it holds true with given statistical error for whole population. You can compute it by hand (for formula see later) or using SPSS syntax routine by G. Pryce [2002] use the last (4.) test Large-sample Confidence Intervals for Comparing for two population proportions. This method can be applied to a crosstabulation with more categories step by step focusing on one by one value/category comparison. 54
55 Comparing for two population proportions SPSS syntax routine by G. Pryce [2002] Here we have to fill in results, e.g. from FREQ (univariate) or possibly CROSSTAB (bivariate). In fact there are four tests in this syntax. For comparing for two population proportions it is the fourth test Largesample Confidence Intervals for Comparing for two population proportions. Fill in only values of n1, n2 and p1, p2, you can also choose CI (originally set to 90% CI) and decimals shown. * * * Large-sample Confidence Intervals for Comparing for two population proportions. * (see Moore and McCabe (2001) Intro to the Practice of Statistics, p ). * *For the inverse normal computation, I use the approximation used by adapted from Abramowitz and Stegun, Handbook of Mathematical Functions, National Bureau of Standards MATRIX. COMPUTE n1 = {1222}. /* Enter the first sample size here (change the number in curly brackets)*/ COMPUTE n2 = {1222}. /* Enter the second sample size here (change the number in curly brackets)*/ COMPUTE x1 = {958}. /* Enter the number of "successes" for sample 1 here (change the nb in curly brackets)*/ COMPUTE x2 = {1016}. /* Enter the number of "successes" for sample 2 here (change the nb in curly brackets)*/ COMPUTE CONFID = {0.95}. /* Enter the desired confidence level here */ *The remainder of the syntax calculates the Confidence Interval given the values for n and x which you have entered above. *NB you don't need to alter anything from here on. COMPUTE Q = 0.5 * (1-CONFID). COMPUTE A = ln(1/(q**2)). COMPUTE T_ = SQRT(A). COMPUTE zstar = T_ - (( ( *T_) + ( *T_**2))/ (1 + ( *T_) + ( *T_**2) + ( *T_**3))). COMPUTE p1hat = x1/n1. COMPUTE p2hat = x2/n2. COMPUTE SE_phat = SQRT(((p1hat*(1-p1hat))/n1) + (p2hat*(1-p2hat))/n2)). COMPUTE m = zstar * SE_phat. COMPUTE LOWER = (p1hat - p2hat) - m. COMPUTE UPPER = (p1hat - p2hat) + m. COMPUTE diffp1p2 = p1hat - p2hat. COMPUTE ANSWER = {n1, n2, diffp1p2, zstar, SE_phat, Lower, Upper}. PRINT ANSWER / FORMAT "F10.5" /Title = "Confidence Interval for Comparing 2 Proportions" / CLABELS = n1, n2, diffp1p2, zstar, SE, Lower, Upper. END MATRIX. The output: Example: Non-participation in Run MATRIX procedure: Confidence Interval for Comparing 2 Proportions n1 n2 diffp1p2 zstar SE Lower Upper 1222, , , ,96039, , , END MATRIX Sport clubs and Culture association [ISSP 2007, CR] Sport (q13_a) = 958 Culture: (q13_b) = 1016 TOTAL = The result: the CI is not crossing 0 the difference 4,7 % points is statistically significant (at p < 5%). And don't forget, if you use this script (e.g. in diploma thesis) you should credit it, cite: Gwilym Pryce Large-Sample Confidence Interval for a Single Population Proportion. Inference for Proportions. Available at: 55
56 Or you can use Web Calculator for Confidence Interval for the Difference Between Two Independent Proportions 56
57 Simultánní intervaly spolehlivosti pro četnosti Dosud jsme činili samostatné závěry, ale chceme-li zhodnotit několik četností zároveň, musíme zajistit, aby všechny parametry byly pokryty předem požadovanou spolehlivostí. Pro souběžný závěr o několika četnostech proto zpřísníme celkovou spolehlivost C na z α / S kde S = počet četnostní pro něž chceme simultánní intervaly spolehlivosti Např. pro 4 četnosti, při požadované α = 0,05: z α / 4 =z α / 0,0125 = 0,02497 tj. přibližně 2,5 Viz tabulky kritických hodnot standardního normálního testu pro simultánní testování. [Řehák, Řeháková 1986: 64-65] 57
58 Další možnosti využití Intervalu spolehlivosti
59 Standardizace kardinálních proměnných na z-skóre Užitečná transformace data pro porovnání proměnných měřených na různých škálách (rozpětí) Jak na to viz Dimenze pro-čtenářského klimatu a čtení v dětství v závislosti na vzdělání rodičů, průměry z-skórů, věková kohorta narozených nadprůměr Průměr škál (=0) podprůměr Zdroj: [Gorčíková, Šafr 2012: 75] Dostupnost/nápodoba Interakce/komunikace Četl/a v dětství Příklad: dvě odlišné dimenze pročtenářského klimatu v rodině a čtení v dětství (3 průměry) podle vzdělání rodičů Závislé proměnné (dimenze pročtenářského klimatu a čtení) jsou spojitékardinální a protože byly měřeny na škálách s odlišným rozpětím jsou standardizované na z-skóry, tj. mají stejnou metriku-rozsah (průměr =0 a StD=1) můžeme porovnávat jejich relativní(!) intenzitu napříč vzdělanostními kategoriemi a to i uvnitř nich, nikoliv ale celkovou hodnotu jako takovou mezi sebou (tj. v třídění 1. stupně).
Obsah Úvod Kapitola 1 Než začneme Kapitola 2 Práce s hromadnými daty před analýzou
Úvod.................................................................. 11 Kapitola 1 Než začneme.................................................................. 17 1.1 Logika kvantitativního výzkumu...........................................
VíceLEKCE 5 STATISTICKÁ INFERENCE ANEB ZOBECŇOVÁNÍ VÝSLEDKŮ Z VÝBĚROVÉHO NA ZÁKLADNÍ SOUBOR
LEKCE 5 STATISTICKÁ INFERENCE ANEB ZOBECŇOVÁNÍ VÝSLEDKŮ Z VÝBĚROVÉHO NA ZÁKLADNÍ SOUBOR Ve většině případů pracujeme s výběrovým souborem a výběrové výsledky zobecňujeme na základní soubor. Smysluplné
VíceMetodologie pro Informační studia a knihovnictví 2
Metodologie pro Informační studia a knihovnictví 2 Modul 9: Úvod do induktivní statistiky Obsah Induktivní statistika... 2 Kdy můžeme zobecňovat?... 2 Logika statistické indukce... 3 Proč nelze jednoduše
VíceAKDII. - Seminární práce. revize Jiří Šafr (6/2/2014) Sociologie volného času
AKDII., ZS 2013 ANONYMIZOVÁNO AKDII. - Seminární práce revize Jiří Šafr (6/2/2014) Chybí název (nadpis), který by charakterizoval téma (výzkumnou otázku) Sociologie volného času V západním světě se v poslední
VícePravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz
Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz Pravděpodobnost a matematická
VícePravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.
Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz Pravděpodobnost a matematická statistika 010 1.týden (0.09.-4.09. ) Data, typy dat, variabilita, frekvenční analýza
VíceSeminář 6 statistické testy
Seminář 6 statistické testy Část I. Volba správného testu Chceme zjistit, zda se Ježkovy a Širůčkovy seminární skupiny liší ve výsledcích v. průběžné písemce ze statistiky. Chceme zjistit, zda 1. průběžná
VíceTestování hypotéz a měření asociace mezi proměnnými
Testování hypotéz a měření asociace mezi proměnnými Testování hypotéz Nulová a alternativní hypotéza většina statistických analýz zahrnuje různá porovnání, hledání vztahů, efektů Tvrzení, že efekt je nulový,
VíceZpracování studie týkající se průzkumu vlastností statistických proměnných a vztahů mezi nimi.
SEMINÁRNÍ PRÁCE Zadání: Data: Statistické metody: Zpracování studie týkající se průzkumu vlastností statistických proměnných a vztahů mezi nimi. Minimálně 6 proměnných o 30 pozorováních (z toho 2 proměnné
VíceZX510 Pokročilé statistické metody geografického výzkumu. Téma: Měření síly asociace mezi proměnnými (korelační analýza)
ZX510 Pokročilé statistické metody geografického výzkumu Téma: Měření síly asociace mezi proměnnými (korelační analýza) Měření síly asociace (korelace) mezi proměnnými Vztah mezi dvěma proměnnými existuje,
VíceTestování hypotéz. 1. vymezení základních pojmů 2. testování hypotéz o rozdílu průměrů 3. jednovýběrový t-test
Testování hypotéz 1. vymezení základních pojmů 2. testování hypotéz o rozdílu průměrů 3. jednovýběrový t-test Testování hypotéz proces, kterým rozhodujeme, zda přijmeme nebo zamítneme nulovou hypotézu
VíceLEKCE 6 ZÁKLADY TESTOVÁNÍ HYPOTÉZ
1 LEKCE 6 ZÁKLADY TESTOVÁNÍ HYPOTÉZ STATISTICKÉ HYPOTÉZY neboli formální výroky o: neznámých parametrech základního souboru, o tvaru rozložení četností, o statistických vztazích mezi soubory či proměnnými
VíceSeminář 6 statistické testy
Seminář 6 statistické testy Část I. Volba správného testu Chceme zjistit, zda se středeční a čtvrteční seminární skupiny liší ve výsledcích v 1. průběžné písemce ze statistiky. Chceme zjistit, zda 1. průběžná
VícePSY117/454 Statistická analýza dat v psychologii přednáška 8. Statistické usuzování, odhady
PSY117/454 Statistická analýza dat v psychologii přednáška 8 Statistické usuzování, odhady Výběr od deskripce k indukci Deskripce dat, odhad parametrů Usuzování = inference = indukce Počítá se s náhodným
VíceMetodologie pro ISK II
Metodologie pro ISK II Všechny hodnoty z daného intervalu Zjišťujeme: Centrální míry Variabilitu Šikmost, špičatost Percentily (decily, kvantily ) Zobrazení: histogram MODUS je hodnota, která se v datech
VíceZáklady biostatistiky II. Veřejné zdravotnictví 3.LF UK - II
Základy biostatistiky II Veřejné zdravotnictví 3.LF UK - II Teoretické rozložení-matematické modely rozložení Naměřená data Výběrové rozložení Teoretické rozložení 1 e 2 x 2 Teoretické rozložení-matematické
VíceKarta předmětu prezenční studium
Karta předmětu prezenční studium Název předmětu: Číslo předmětu: 545-0250 Garantující institut: Garant předmětu: Ekonomická statistika Institut ekonomiky a systémů řízení RNDr. Radmila Sousedíková, Ph.D.
VíceSpokojenost se životem
SEMINÁRNÍ PRÁCE Spokojenost se životem (sekundárních analýza dat sociologického výzkumu Naše společnost 2007 ) Předmět: Analýza kvantitativních revize Šafr dat I. Jiří (18/2/2012) Vypracoval: ANONYMIZOVÁNO
VíceAnalýza dat na PC I.
CENTRUM BIOSTATISTIKY A ANALÝZ Lékařská a Přírodovědecká fakulta, Masarykova univerzita Analýza dat na PC I. Popisná analýza v programu Statistica IBA výuka Základní popisná statistika Popisná statistika
VíceStatistická analýza dat v psychologii. Věci, které můžeme přímo pozorovat, jsou téměř vždy pouze vzorky. Alfred North Whitehead
PSY117/454 Statistická analýza dat v psychologii Přednáška 8 Statistické usuzování, odhady Věci, které můžeme přímo pozorovat, jsou téměř vždy pouze vzorky. Alfred North Whitehead Barevná srdíčka kolegyně
VíceTesty nezávislosti kardinálních veličin
Testy nezávislosti kardinálních veličin Komentované řešení pomocí programu R Ústav matematiky Fakulta chemicko inženýrská Vysoká škola chemicko-technologická v Praze Načtení vstupních dat Vstupní data
VíceÚKOL 2 1886 22 5,77 5,00 5 2,531,003,056 -,869,113
ÚKOL 2 Jméno a příjmení: UČO: Imatrik. ročník: Úkol 2.1: V souboru EVS99_cvicny.sav zjistěte, zdali rozložení názoru na to, kdo by měl být odpovědný za zajištění bydlení (proměnná q54h), je normální. Řešte
VíceUni- and multi-dimensional parametric tests for comparison of sample results
Uni- and multi-dimensional parametric tests for comparison of sample results Jedno- a více-rozměrné parametrické testy k porovnání výsledků Prof. RNDr. Milan Meloun, DrSc. Katedra analytické chemie, Universita
VíceAnalýza dat z dotazníkových šetření
Analýza dat z dotazníkových šetření Cvičení 6. Rozsah výběru Př. Určete minimální rozsah výběru pro proměnnou věk v souboru dovolena, jestliže 95% interval spolehlivost průměru proměnné nemá být širší
VíceLEKCE02a ANALÝZA ROZLOŽENÍ KATEGORIZOVANÝCH DAT vzorový výsledek cvičení
SOC1/ LEKCE : ANALÝZA ROZLOŽENÍ KATEGORIZOVANÝCH A SPOJITÝCH DAT: LEKCEa ANALÝZA ROZLOŽENÍ KATEGORIZOVANÝCH DAT vzorový výsledek cvičení CVIČENÍ.1: Je česká populace věřící, nebo nevěřící? Tuto otázku
VíceStatgraphics v. 5.0 STATISTICKÁ INDUKCE PRO JEDNOROZMĚRNÁ DATA. Martina Litschmannová 1. Typ proměnné. Požadovaný typ analýzy
Dichotomická proměnná (0-1) Spojitá proměnná STATISTICKÁ INDUKCE PRO JEDNOROZMĚRNÁ DATA Typ proměnné Požadovaný typ analýzy Ověření variability Předpoklady Testy, resp. intervalové odhad Test o rozptylu
VíceSTATISTICKÉ ODHADY Odhady populačních charakteristik
STATISTICKÉ ODHADY Odhady populačních charakteristik Jak stanovit charakteristiky rozložení sledované veličiny v základní populaci? Populaci většinou nemáme celou k dispozici, musíme se spokojit jen s
VíceKurz SPSS: Jednoduchá analýza dat. Jiří Šafr
Kurz SPSS: Jednoduchá analýza dat Jiří Šafr vytvořeno 29. 6. 2009 Dva základní typy statistiky 1. Popisná statistika: metody pro zjišťování a sumarizaci informací grfy, tabulky, popisné chrakteristiky
VíceIntervalové odhady. Interval spolehlivosti pro střední hodnotu v N(µ, σ 2 ) Interpretace intervalu spolehlivosti. Interval spolehlivosti ilustrace
Intervalové odhady Interval spolehlivosti pro střední hodnotu v Nµ, σ 2 ) Situace: X 1,..., X n náhodný výběr z Nµ, σ 2 ), kde σ 2 > 0 známe měli jsme: bodové odhady odhadem charakteristiky je číslo) nevyjadřuje
VíceADDS cviceni. Pavlina Kuranova
ADDS cviceni Pavlina Kuranova Testy pro dva nezávislé výběry Mannův Whitneyho test - Založen na Wilcoxnově statistice W - založen na pořadí jednotlivých pozorování (oba výběry spojeny do jednoho celku)
VíceLINEÁRNÍ REGRESE Komentované řešení pomocí programu Statistica
LINEÁRNÍ REGRESE Komentované řešení pomocí programu Statistica Vstupní data Data umístěná v excelovském souboru překopírujeme do tabulky ve Statistice a pojmenujeme proměnné, viz prezentace k tématu Popisná
VíceLineární regrese. Komentované řešení pomocí MS Excel
Lineární regrese Komentované řešení pomocí MS Excel Vstupní data Tabulka se vstupními daty je umístěna v oblasti A1:B11 (viz. obrázek) na listu cela data Postup Základní výpočty - regrese Výpočet základních
VíceJste aktivní sportovec?(pravidelně sportuji alespoň 2x týdně) Jakým sportovním činnostem se pravidelně věnujete? (alespoň 1 x za dva týdny v sezóně)
Seznam příloh Příloha 1 Dotazník sportovních aktivit... 1 Příloha 2 Homogenita souboru věk... 3 Příloha 3 Homogenita souboru pohlaví... 4 Příloha 4 4Elements Inventory a sportovní aktivita... 5 Příloha
VíceIntervalové odhady. Interval spolehlivosti pro střední hodnotu v N(µ, σ 2 ) Interpretace intervalu spolehlivosti. Interval spolehlivosti ilustrace
Intervalové odhady Interval spolehlivosti pro střední hodnotu v Nµ, σ 2 ) Situace: X 1,..., X n náhodný výběr z Nµ, σ 2 ), kde σ 2 > 0 známe měli jsme: bodové odhady odhadem charakteristiky je číslo) nevyjadřuje
VíceRanní úvahy o statistice
Ranní úvahy o statistice Neúplný návod ke čtení statistických výsledků Dušan Merta květen 2016 Co nás čeká 1 Základní pojmy 2 Testování hypotéz 3 Confidence interval 4 Odds ratio 2 / 26 Základní pojmy
VíceMetodologie pro Informační studia a knihovnictví 2
Metodologie pro Informační studia a knihovnictví 2 Modul 7: Třídění druhého stupně. Kontingenční tabulky Co se dozvíte v tomto modulu? Co je třídění druhého stupně Jak vytvořit a interpretovat kontingenční
VíceJEDNOVÝBĚROVÉ TESTY. Komentované řešení pomocí programu Statistica
JEDNOVÝBĚROVÉ TESTY Komentované řešení pomocí programu Statistica Vstupní data Data umístěná v excelovském souboru překopírujeme do tabulky ve Statistice a pojmenujeme proměnné, viz prezentace k tématu
VícePOPISNÁ STATISTIKA Komentované řešení pomocí programu Statistica
POPISNÁ STATISTIKA Komentované řešení pomocí programu Statistica Program Statistica I Statistica je velmi podobná Excelu. Na základní úrovni je to klikací program určený ke statistickému zpracování dat.
Více676 + 4 + 100 + 196 + 0 + 484 + 196 + 324 + 64 + 324 = = 2368
Příklad 1 Je třeba prověřit, zda lze na 5% hladině významnosti pokládat za prokázanou hypotézu, že střední doba výroby výlisku je 30 sekund. Přitom 10 náhodně vybraných výlisků bylo vyráběno celkem 540
VíceTECHNICKÁ UNIVERZITA V LIBERCI SEMESTRÁLNÍ PRÁCE
TECHNICKÁ UNIVERZITA V LIBERCI Ekonomická fakulta Studentská 2 461 17 Liberec 1 SEMESTRÁLNÍ PRÁCE STATISTICKÝ ROZBOR DAT Z DOTAZNÍKOVÝCH ŠETŘENÍ Gabriela Dlasková, Veronika Bukovinská Sára Kroupová, Dagmar
VíceTestování hypotéz. Testování hypotéz o rozdílu průměrů t-test pro nezávislé výběry t-test pro závislé výběry
Testování hypotéz Testování hypotéz o rozdílu průměrů t-test pro nezávislé výběry t-test pro závislé výběry Testování hypotéz Obecný postup 1. Určení statistické hypotézy 2. Určení hladiny chyby 3. Výpočet
VíceVymezení důležitých pojmů. nulová hypotéza, alternativní hypotéza testování hypotézy hladina významnosti (alfa) chyba I. druhu, chyba II.
Testování hypotéz 1. vymezení důležitých pojmů 2. testování hypotéz o rozdílu průměrů 3. jednovýběrový t-test 4. t-test pro nezávislé výběry 5. t-test pro závislé výběry Vymezení důležitých pojmů nulová
VíceInferenční statistika - úvod. z-skóry normální rozdělení pravděpodobnost rozdělení výběrových průměrů
Inferenční statistika - úvod z-skóry normální rozdělení pravděpodobnost rozdělení výběrových průměrů Pravděpodobnost postupy induktivní statistiky vycházejí z teorie pravděpodobnosti pravděpodobnost, že
VícePopisná statistika. Statistika pro sociology
Popisná statistika Jitka Kühnová Statistika pro sociology 24. září 2014 Jitka Kühnová (GSTAT) Popisná statistika 24. září 2014 1 / 31 Outline 1 Základní pojmy 2 Typy statistických dat 3 Výběrové charakteristiky
VíceČíselné charakteristiky
. Číselné charakteristiky statistických dat Průměrný statistik se během svého života ožení s 1,75 ženami, které se ho snaží vytáhnout večer do společnosti,5 x týdně, ale pouze s 50% úspěchem. W. F. Miksch
VíceIntervalové Odhady Parametrů
Parametrů Mgr. Rudolf B. Blažek, Ph.D. prof. RNDr. Roman Kotecký, DrSc. Katedra počítačových systémů Katedra teoretické informatiky Fakulta informačních technologií České vysoké učení technické v Praze
VíceZáklady popisné statistiky
Základy popisné statistiky Michal Fusek Ústav matematiky FEKT VUT, fusekmi@feec.vutbr.cz 8. přednáška z ESMAT Michal Fusek (fusekmi@feec.vutbr.cz) 1 / 26 Obsah 1 Základy statistického zpracování dat 2
VíceStatistické testování hypotéz II
PSY117/454 Statistická analýza dat v psychologii Přednáška 9 Statistické testování hypotéz II Přehled testů, rozdíly průměrů, velikost účinku, síla testu Základní výzkumné otázky/hypotézy 1. Stanovení
VíceStatistika, Biostatistika pro kombinované studium Letní semestr 2011/2012. Tutoriál č. 4: Exploratorní analýza. Jan Kracík
Statistika, Biostatistika pro kombinované studium Letní semestr 2011/2012 Tutoriál č. 4: Exploratorní analýza Jan Kracík jan.kracik@vsb.cz Statistika věda o získávání znalostí z empirických dat empirická
VíceZáklady popisné statistiky. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
Základy popisné statistiky Anotace Realitu můžeme popisovat různými typy dat, každý z nich se specifickými vlastnostmi, výhodami, nevýhodami a vlastní sadou využitelných statistických metod -od binárních
VíceJana Vránová, 3.lékařská fakulta UK, Praha. Hypotézy o populacích
Jana Vránová, 3.lékařská fakulta UK, Praha Hypotézy o populacích Příklad IQ test: Předpokládejme, že z nějakého důvodu ministerstvo školství věří, že studenti absolventi středních škol v Hradci Králové
VíceGrafický a číselný popis rozložení dat 3.1 Způsoby zobrazení dat Metody zobrazení kvalitativních a ordinálních dat Metody zobrazení kvan
1 Úvod 1.1 Empirický výzkum a jeho etapy 1.2 Význam teorie pro výzkum 1.2.1 Konstrukty a jejich operacionalizace 1.2.2 Role teorie ve výzkumu 1.2.3 Proces ověření hypotéz a teorií 1.3 Etika vědecké práce
VíceINDUKTIVNÍ STATISTIKA
10. SEMINÁŘ INDUKTIVNÍ STATISTIKA 3. HODNOCENÍ ZÁVISLOSTÍ HODNOCENÍ ZÁVISLOSTÍ KVALITATIVNÍ VELIČINY - Vychází se z kombinační (kontingenční) tabulky, která je výsledkem třídění druhého stupně KVANTITATIVNÍ
VíceANALÝZA DAT V R 3. POPISNÉ STATISTIKY, NÁHODNÁ VELIČINA. Mgr. Markéta Pavlíková Katedra pravděpodobnosti a matematické statistiky MFF UK
ANALÝZA DAT V R 3. POPISNÉ STATISTIKY, NÁHODNÁ VELIČINA Mgr. Markéta Pavlíková Katedra pravděpodobnosti a matematické statistiky MFF UK www.biostatisticka.cz POPISNÉ STATISTIKY - OPAKOVÁNÍ jedna kvalitativní
VíceUrčujeme neznámé hodnoty parametru základního souboru. Pomocí výběrové charakteristiky vypočtené z náhodného výběru.
1 Statistické odhady Určujeme neznámé hodnoty parametru základního souboru. Pomocí výběrové charakteristiky vypočtené z náhodného výběru. Odhad lze provést jako: Bodový odhad o Jedna číselná hodnota Intervalový
VíceTECHNICKÁ UNIVERZITA V LIBERCI EKONOMICKÁ FAKULTA
TECHNICKÁ UNIVERZITA V LIBERCI EKONOMICKÁ FAKULTA Semestrální práce Semestrální práce z předmětu Statistický rozbor dat z dotazníkového šetření Vypracoval: Bonaconzová, Bryknarová, Milkovičová, Škrdlová
Více4EK211 Základy ekonometrie
4EK211 Základy ekonometrie ZS 2015/16 Cvičení 7: Časově řady, autokorelace LENKA FIŘTOVÁ KATEDRA EKONOMETRIE, FAKULTA INFORMATIKY A STATISTIKY VYSOKÁ ŠKOLA EKONOMICKÁ V PRAZE 1. Časové řady Data: HDP.wf1
VíceKategorická data METODOLOGICKÝ PROSEMINÁŘ II TÝDEN 7 4. DUBNA dubna 2018 Lukáš Hájek, Karel Höfer Metodologický proseminář II 1
Kategorická data METODOLOGICKÝ PROSEMINÁŘ II TÝDEN 7 4. DUBNA 2018 4. dubna 2018 Lukáš Hájek, Karel Höfer Metodologický proseminář II 1 Typy proměnných nominální (nominal) o dvou hodnotách lze říci pouze
VíceStav Svobodný Rozvedený Vdovec. Svobodná 37 10 6. Rozvedená 8 12 8. Vdova 5 8 6
1. Příklad Byly sledovány rodinné stavy nevěst a ženichů při uzavírání sňatků a byla vytvořena následující tabulka četností. Stav Svobodný Rozvedený Vdovec Svobodná 37 10 6 Rozvedená 8 12 8 Vdova 5 8 6
VíceKorelační a regresní analýza. 1. Pearsonův korelační koeficient 2. jednoduchá regresní analýza 3. vícenásobná regresní analýza
Korelační a regresní analýza 1. Pearsonův korelační koeficient 2. jednoduchá regresní analýza 3. vícenásobná regresní analýza Pearsonův korelační koeficient u intervalových a poměrových dat můžeme jako
VícePříprava souboru dat a analýza
UK FHS Řízení a supervize v sociálních a zdravotnických organizacích (LS 2007) Kvantitativní metody výzkumu v praxi PRAKTIKUM část 2 Příprava souboru dat a analýza Jiří Šafr jiri.safr@seznam.cz vytvořeno
VíceMetody sociálních výzkumů. Velmi skromný úvod do statistiky. Motto: Jsou tři druhy lži-lež prostá, lež odsouzeníhodná a statistika.
Metody sociálních výzkumů Velmi skromný úvod do statistiky. Motto: Jsou tři druhy lži-lež prostá, lež odsouzeníhodná a statistika. Statistika Význam slova-vychází ze slova stát, s jeho administrativou
VíceTestování statistických hypotéz. Ing. Michal Dorda, Ph.D.
Testování statistických hypotéz Ing. Michal Dorda, Ph.D. Testování normality Př. : Při simulaci provozu na křižovatce byla získána data o mezerách mezi přijíždějícími vozidly v [s]. Otestujte na hladině
VíceANALÝZA DAT V R 7. KONTINGENČNÍ TABULKA. Mgr. Markéta Pavlíková Katedra pravděpodobnosti a matematické statistiky MFF UK.
ANALÝZA DAT V R 7. KONTINGENČNÍ TABULKA Mgr. Markéta Pavlíková Katedra pravděpodobnosti a matematické statistiky MFF UK www.biostatisticka.cz PŘEHLED TESTŮ rozdělení normální spojité alternativní / diskrétní
VíceNávrhy dalších možností statistického zpracování aktualizovaných dat
Návrhy dalších možností statistického zpracování aktualizovaných dat Při zjišťování disparit ve fyzické dostupnosti bydlení navrhuji použití těchto statistických metod: Bag plot; Krabicové grafy a jejich
VíceUNIVERZITA OBRANY Fakulta ekonomiky a managementu. Aplikace STAT1. Výsledek řešení projektu PRO HORR2011 a PRO GRAM2011 3. 11.
UNIVERZITA OBRANY Fakulta ekonomiky a managementu Aplikace STAT1 Výsledek řešení projektu PRO HORR2011 a PRO GRAM2011 Jiří Neubauer, Marek Sedlačík, Oldřich Kříž 3. 11. 2012 Popis a návod k použití aplikace
VíceNávod na statistický software PSPP část 2. Kontingenční tabulky
Návod na statistický software PSPP část 2. Kontingenční tabulky Jiří Šafr FHS UK poslední revize 31. srpna 2010 Logika kontingenčních tabulek... 2 Postup vytváření kontingenčních tabulek v PSPP (SPSS)....
VíceMATEMATICKO STATISTICKÉ PARAMETRY ANALYTICKÝCH VÝSLEDKŮ
MATEMATICKO STATISTICKÉ PARAMETRY ANALYTICKÝCH VÝSLEDKŮ Má-li analytický výsledek objektivně vypovídat o chemickém složení vzorku, musí splňovat určitá kriteria: Mezinárodní metrologický slovník (VIM 3),
VíceOpakování: Nominální proměnná více hodnotová odpověď.
Analýza dat z dotazníkových šetření Cvičení 4. - Zobecňování výběru na populaci Zdrojová data: dotazník http://www.vyplnto.cz/realizovane-pruzkumy/37771/ - Seznamte se s dotazníkem a strukturou otázek,
VíceNormální (Gaussovo) rozdělení
Normální (Gaussovo) rozdělení Normální (Gaussovo) rozdělení popisuje vlastnosti náhodné spojité veličiny, která vzniká složením různých náhodných vlivů, které jsou navzájem nezávislé, kterých je velký
VíceProgram Statistica Base 9. Mgr. Karla Hrbáčková, Ph.D.
Program Statistica Base 9 Mgr. Karla Hrbáčková, Ph.D. OBSAH KURZU obsluha jednotlivých nástrojů, funkce pro import dat z jiných aplikací, práce s popisnou statistikou, vytváření grafů, analýza dat, výstupní
VíceAnalýza rozptylu. PSY117/454 Statistická analýza dat v psychologii Přednáška 12. Srovnávání více než dvou průměrů
PSY117/454 Statistická analýza dat v psychologii Přednáška 12 Analýza rozptylu Srovnávání více než dvou průměrů If your experiment needs statistics, you ought to have done a better experiment. Ernest Rutherford
VíceTomáš Karel LS 2012/2013
Tomáš Karel LS 2012/2013 Doplňkový materiál ke cvičení z předmětu 4ST201. Na případné faktické chyby v této presentaci mě prosím upozorněte. Děkuji. Tyto slidy berte pouze jako doplňkový materiál není
VíceTechnická univerzita v Liberci
Technická univerzita v Liberci Ekonomická fakulta Analýza výsledků z dotazníkového šetření Jména studentů: Adam Pavlíček Michal Karlas Tomáš Vávra Anna Votavová Ročník: 2015/2016 Datum odevzdání: 13/05/2016
VíceJana Vránová, 3. lékařská fakulta UK
Jana Vránová, 3. lékařská fakulta UK Vznikají při zkoumání vztahů kvalitativních resp. diskrétních znaků Jedná se o analogii s korelační analýzou spojitých znaků Přitom předpokládáme, že každý prvek populace
VíceTestování statistických hypotéz
Testování statistických hypotéz Na základě náhodného výběru, který je reprezentativním vzorkem základního souboru (který přesně neznáme, k němuž se ale daná statistická hypotéza váže), potřebujeme ověřit,
VíceFisherův exaktní test
Katedra pravděpodobnosti a matematické statistiky Karel Kozmík Fisherův exaktní test 4. prosince 2017 Motivace Máme kontingenční tabulku 2x2 a předpokládáme, že četnosti vznikly z pozorování s multinomickým
VíceKGG/STG Statistika pro geografy
KGG/STG Statistika pro geografy 5. Odhady parametrů základního souboru Mgr. David Fiedor 16. března 2015 Vztahy mezi výběrovým a základním souborem Osnova 1 Úvod, pojmy Vztahy mezi výběrovým a základním
VíceManuál pro zaokrouhlování
Manuál pro zaokrouhlování k předmětu Pravděpodobnost a Statistika (PS) Michal Béreš, Martina Litschmannová 19. března 2019 Obsah 1 Úvod 2 2 Obecné poznámky 2 2.1 Typy zaokrouhlování...........................................
VíceKORELACE. Komentované řešení pomocí programu Statistica
KORELACE Komentované řešení pomocí programu Statistica Vstupní data I Data umístěná v excelovském souboru překopírujeme do tabulky ve Statistice a pojmenujeme proměnné, viz prezentace k tématu Popisná
Vícemarek.pomp@vsb.cz http://homel.vsb.cz/~pom68
Statistika B (151-0303) Marek Pomp ZS 2014 marek.pomp@vsb.cz http://homel.vsb.cz/~pom68 Cvičení: Pavlína Kuráňová & Marek Pomp Podmínky pro úspěšné ukončení zápočet 45 bodů, min. 23 bodů, dvě zápočtové
VíceJednofaktorová analýza rozptylu
I I.I Jednofaktorová analýza rozptylu Úvod Jednofaktorová analýza rozptylu (ANOVA) se využívá při porovnání několika středních hodnot. Často se využívá ve vědeckých a lékařských experimentech, při kterých
VíceTesty dobré shody Máme dvě veličiny, u kterých bychom chtěli prokázat závislost, TESTY DOBRÉ SHODY (angl. goodness-of-fit tests)
Testy dobré shody Máme dvě veličiny, u kterých bychom chtěli prokázat závislost, např. hmotnost a pohlaví narozených dětí. Běžný statistický postup pro ověření závislosti dvou veličin je zamítnutí jejich
VícePopisná statistika. Komentované řešení pomocí MS Excel
Popisná statistika Komentované řešení pomocí MS Excel Vstupní data Máme k dispozici data o počtech bodů z 1. a 2. zápočtového testu z Matematiky I v zimním semestru 2015/2016 a to za všech 762 studentů,
VíceTECHNICKÁ UNIVERZITA V LIBERCI. Ekonomická fakulta. Semestrální práce. Statistický rozbor dat z dotazníkového šetření školní zadání
TECHNICKÁ UNIVERZITA V LIBERCI Ekonomická fakulta Semestrální práce Statistický rozbor dat z dotazníkového šetření školní zadání Skupina: 51 Vypracovaly: Pavlína Horná, Nikola Loumová, Petra Mikešová,
VíceSTATISTICKÉ ZJIŠŤOVÁNÍ
STATISTICKÉ ZJIŠŤOVÁNÍ ÚVOD Základní soubor Všechny ryby v rybníce, všechny holky/kluci na škole Cílem určit charakteristiky, pravděpodobnosti Průměr, rozptyl, pravděpodobnost, že Maruška kápne na toho
VíceStatistické metody - nástroj poznání a rozhodování anebo zdroj omylů a lží
Statistické metody - nástroj poznání a rozhodování anebo zdroj omylů a lží Zdeněk Karpíšek Jsou tři druhy lží: lži, odsouzeníhodné lži a statistiky. Statistika je logická a přesná metoda, jak nepřesně
VíceÚstav matematiky Fakulta chemicko inženýrská Vysoká škola chemicko-technologická v Praze
Komentované řešení pomocí programu R Ústav matematiky Fakulta chemicko inženýrská Vysoká škola chemicko-technologická v Praze Popis vstupních dat Vstupní data pro úlohu (A) se nacházejí v souboru "glukoza.csv".
VícePravděpodobnost v závislosti na proměnné x je zde modelován pomocí logistického modelu. exp x. x x x. log 1
Logistická regrese Menu: QCExpert Regrese Logistická Modul Logistická regrese umožňuje analýzu dat, kdy odezva je binární, nebo frekvenční veličina vyjádřená hodnotami 0 nebo 1, případně poměry v intervalu
VíceHODNOCENÍ VÝKONNOSTI ATRIBUTIVNÍCH ZNAKŮ JAKOSTI. Josef Křepela, Jiří Michálek. OSSM při ČSJ
HODNOCENÍ VÝKONNOSTI ATRIBUTIVNÍCH ZNAKŮ JAKOSTI Josef Křepela, Jiří Michálek OSSM při ČSJ Červen 009 Hodnocení způsobilosti atributivních znaků jakosti (počet neshodných jednotek) Nechť p je pravděpodobnost
VícePSY117/454 Statistická analýza dat v psychologii Přednáška 10
PSY117/454 Statistická analýza dat v psychologii Přednáška 10 TESTY PRO NOMINÁLNÍ A ORDINÁLNÍ PROMĚNNÉ NEPARAMETRICKÉ METODY... a to mělo, jak sám vidíte, nedozírné následky. Smrť Analýza četností hodnot
Více{ } ( 2) Příklad: Test nezávislosti kategoriálních znaků
Příklad: Test nezávislosti kategoriálních znaků Určete na hladině významnosti 5 % na základě dat zjištěných v rámci dotazníkového šetření ve Šluknově, zda existuje závislost mezi pohlavím respondenta a
Více4EK211 Základy ekonometrie
4EK Základy ekonometrie Odhad klasického lineárního regresního modelu II Cvičení 3 Zuzana Dlouhá Klasický lineární regresní model - zadání příkladu Soubor: CV3_PR.xls Data: y = maloobchodní obrat potřeb
VíceMgr. Karla Hrbáčková, Ph.D. Základy kvantitativního výzkumu
Mgr. Karla Hrbáčková, Ph.D. Základy kvantitativního výzkumu K čemu slouží statistika Popisuje velké soubory dat pomocí charakteristických čísel (popisná statistika). Hledá skryté zákonitosti v souborech
VíceMetodologie pro ISK 2, jaro Ladislava Z. Suchá
Metodologie pro ISK 2, jaro 2014. Ladislava Z. Suchá Metodologie pro Informační studia a knihovnictví 2 Modul 7: Třídění druhého stupně. Kontingenční tabulky Co se dozvíte v tomto modulu? Co je třídění
VícePříklad 1. Korelační pole. Řešení 1 ŘEŠENÉ PŘÍKLADY Z MV2 ČÁST 13
Příklad 1 Máme k dispozici výsledky prvního a druhého testu deseti sportovců. Na hladině významnosti 0,05 prověřte, zda jsou výsledky testů kladně korelované. 1.test : 7, 8, 10, 4, 14, 9, 6, 2, 13, 5 2.test
Víceveličin, deskriptivní statistika Ing. Michael Rost, Ph.D.
Vybraná rozdělení spojitých náhodných veličin, deskriptivní statistika Ing. Michael Rost, Ph.D. Třídění Základním zpracováním dat je jejich třídění. Jde o uspořádání získaných dat, kde volba třídícího
VíceAplikovaná statistika v R
Aplikovaná statistika v R Filip Děchtěrenko Matematicko-fyzikální fakulta filip.dechterenko@gmail.com 15.5.2014 Filip Děchtěrenko (MFF UK) Aplikovaná statistika v R 15.5.2014 1 / 15 Co bude náplní našich
VíceCvičení ze statistiky - 7. Filip Děchtěrenko
Cvičení ze statistiky - 7 Filip Děchtěrenko Minule bylo.. Probrali jsme spojité modely Tyhle termíny by měly být známé: Rovnoměrné rozdělení Střední hodnota Mccalova transformace Normální rozdělení Přehled
Více