Program Statistica Base 9 Mgr. Karla Hrbáčková, Ph.D.
OBSAH KURZU obsluha jednotlivých nástrojů, funkce pro import dat z jiných aplikací, práce s popisnou statistikou, vytváření grafů, analýza dat, výstupní protokoly, statistické rozhodování a závislosti mezi proměnnými, test nezávislosti dvou kategoriálních znaků, t-testy, analýza rozptylu, základní neparametrické testy, korelační analýza, včetně příkladů použití.
Spuštění systému a vstupní tabulky Systém STATISTICA je možno spustit několika způsoby Okno aplikace STATISTICA má podobný vzhled jako jiné programy
Okno aplikace STATISTICA
Získávání vstupních dat Pokud jsou data již někde uložena, stačí je importovat do systému STATISTICA (seznam formátů, které mohou být v systému otevřeny lze najít v položce Soubory typu, dialogu Otevřít). V případě, že data shromažďujeme, můžeme tak činit prostřednictvím tabulky systému STATISTICA. Ukázka
Práce s daty ve vstupní tabulce Před analýzou dat je potřeba vždy ověřit, zda je datová tabulka v pořádku Ověřování dat (hodnoty/statistiky) Výběr podskupin dat
Zobrazování dat Výsečové grafy Výsečový graf z Pohlaví autoregulace_data 64v*708c Muž; 98; 14% Žena; 610; 86% Pohlaví
Výstupy, pracovní sešity a protokoly
Histogram a jiné grafy
Popisná statistika Statistika je nástroj, který slouží k popisu souboru dat a který napomáhá k odhalení zákonitostí mezi nimi. K dispozici musíme mít vždy nějaká měření. Typy vstupních znaků, se kterými statistika pracuje.
Typy dat Kategorizované proměnné (do jaké kategorie respondent nebo případ patří) - nominální (nemá smysl pořadí kategorií) - ordinální (uspořádání, které vychází z logiky kategorií, lze seřadit vzestupně nebo sestupně) Číselné proměnné (informace, kde se primárně ptáme na nějaké číslo) - intervalová - poměrová (vyjádřena číselně sama o sobě)
Míra závislosti mezi proměnnými Jestliže jsou obě proměnné nominální nebo ordinální, použijeme kontingenční tabulku (chí-kvadrát), např. rozdíly v postoji ke škole (pozitivní, negativní) podle jejich motivace (vnitřní, vnější). Jestliže je jedna proměnná nominální a druhá metrická (poměrová, intervalová), použijeme t-test, např. rozdíly v EQ u studentů prvních a posledních ročníků gymnázií. Jestliže je jedna proměnná metrická a druhá nominální s více kategoriemi (nebo ordinální), použijeme analýzu rozptylu, např. rozdíly v testu tvořivosti v různých věkových kategoriích. Jestliže jsou obě proměnné metrické nebo ordinální a zjišťujeme souvislost, použijeme test korelace.
Popisná statistika Datová tabulka určení typu dat (jak je nejvýhodněji zobrazit a popsat) Tabulky četností Kontingenční tabulky Popisné statistiky Popis né statistiky (autoregulace_data) Proměnná N platných Průměr Minimum Maximum Sm.odch. Motivační orientace 708 3,188912 1,000000 6,750000 1,092185 Osobní zdatnos t 708 4,652807 2,187500 6,812500 0,887921 Metakognitivní strategie 708 4,228006 1,000000 7,000000 1,166537 Smys luplnost s tudia 708 4,854520 1,000000 7,000000 1,138008
Statistická indukce Těžiště moderní statistiky nespočívá v popisné statistice. V praxi je daleko užitečnější statistická indukce. Soubor metod navržených pro situace, kdy nemáme k dispozici kompletní informace o všech zkoumaných jednotkách. Umožňují nám zobecnit výběrová data na celou populaci, samozřejmě s určitou pravděpodobností.
Testování hypotéz Při testování hypotéz formulujeme dvě vzájemně si odporující hypotézy. Nulová hypotéza vyjadřuje náš konzervatismus, že např. lék neměl žádný efekt, že změna je jen dílem náhody.
Postup Stanovení nulové a alternativní hypotézy. Volba matematicko-statistické metody vedoucí k rozhodnutí ve prospěch H 0 nebo H A. Volba spolehlivosti. Kritérium pro rozhodnutí (signifikance).
Spolehlivost Před samotným testováním volíme spolehlivost, s jakou budeme chtít pracovat. Standardně se stanovuje 95%. Povolujeme riziko max. 5%, že uděláme chybu.
Signifikance Nejpodstatnější hodnota. Pravděpodobnost toho, že zamítneme nulovou hypotézu, ačkoliv ona platí. Předem jsme si stanovili, že chceme pracovat s pravděpodobností 95%. Signifikance nám toto riziko vyčísluje. Hodnota mezi 0 a 1, označujeme ji písmenem p. p < 0,05 zamítám H 0 p > 0,05 nezamítám H 0 riziko by bylo větší než 5%
Test nezávislosti chí-kvadrát Rozdíly v úspěšnosti studenta ve škole podle jeho motivace. H 0 : Ú AM = Ú NM H A : Ú AM Ú NM p < 0,05, zamítáme nulovou hypotézu Zjistili jsme statisticky významný rozdíl v úspěšnosti u motivovaných a nemotivovaných studentů (p = 0,001).
Souhrnná tabulka Souhrnná tab.: Očekávané četnos ti (pracovni_s es it3) Četnost označených buněk > 10 Pearsonův chí-kv. : 24,1252, sv=1, p=,000001 ús pěšnost motivace A motivace N Řádk. součty A 12,50000 11,50000 24,00000 B 12,50000 11,50000 24,00000 Vš.skup. 25,00000 23,00000 48,00000
T-test Zda ženy dosahují stejného skóre v testu jako muži. H 0 : P M = P Ž (ženy dosahují stejných výsledků jako muži) H A : P M P Ž T- test nezávislé dle skupin p < 0,05, zamítáme nulovou hypotézu t-testy; grupováno: pohlaví (pracovni_ses it3) Skup. 1: M Skup. 2: Ž Průměr Průměr t sv p Poč.plat Poč.plat. Sm.odch. Sm.odch. F-poměr p Proměnná M Ž M Ž M Ž Rozptyly Rozptyly test 9,166667 15,11111-4,63412 46 0,000030 12 36 4,108380 3,762809 1,192112 0,655650
T-test Zda studenti udělali pokrok v úspěšnosti z testu (mezi testem v úvodu semestru a po skončení semestru). H 0 : P T = P T2 (ženy dosahují stejných výsledků jako muži) H A : P T P T2 T- test pro závislé vzorky p < 0,05, zamítáme nulovou hypotézu
ANOVA Zajímá nás vliv kategoriálních proměnných (více než dvě kategorie nezávisle proměnné) na kvantitativní proměnnou. H 0 mezi skupinami není statisticky významný rozdíl H A mezi skupinami je statisticky významný rozdíl Zda se úroveň autoregulace učení liší podle oboru, který student studuje. Analýza rozptylu (autoregulace_data) Označ. efekty jsou význ. na hlad. p <,05000 SČ SV PČ SČ SV PČ F p Proměnná efekt efekt efekt chyba chyba chyba Celkem 14,86296 3 4,954320 372,2932 700 0,531847 9,315303 0,000005
ANOVA 4,8 Kategoriz. krabicový graf: Celkem: =mean(v11:v50) 4,7 4,6 4,5 Celkem 4,4 4,3 4,2 4,1 4,0 3,9 filologie soc.ped. učitelství ošetřovatelství Obor_kategorieI Průměr Průměr±SmCh Průměr±1,96*SmCh
Post-hoc testy Obor_kategorieI 1 {1} 2 {2} 3 {3} 4 {4} LSD test; proměnná: Celkem (autoregulace_data) Označ. rozdíly jsou významné na hlad. p <,05000 {1} {2} {3} {4} M=4,0659 M=4,4038 M=4,5097 M=4,1994 0,000002 0,002173 0,175376 0,000002 0,434757 0,016708 0,002173 0,434757 0,042040 0,175376 0,016708 0,042040
Korelační analýza Korelační analýza zkoumá vzájemný vztah kvantitativních proměnných. Všechny proměnné mají stejné postavení a závislosti jsou považovány za oboustranné. Místo závislosti proto mluvíme o souvislost. K měření intenzity souvislosti se nejčastěji používá Pearsonův koeficient korelace označovaný písmenem r. Jde o charakteristiku, která nabývá hodnot mezi [-1, 1]. Záporné hodnoty značí nepřímou souvislost (když jedna veličina roste, druhá klesá), kladné hodnoty značí pozitivní souvislost (obě veličiny se pohybují stejným směrem). Je-li hodnota 0, znamená to, že mezi proměnnými neexistuje souvislost.
Korelační analýza Jaká je souvislost mezi oblastmi autoregulace učení studentů FHS? Proměnná Motivační orientace Osobní zdatnos t Metakognitivní strategie Smys luplnost s tudia Korelace (autoregulace_data) Označ. korelace js ou významné na hlad. p <,05000 N=708 (Celé případy vynechány u ChD) Průměry Sm.odch. Motivační Osobní Metakognitivní Smys luplnost orientace zdatnost strategie studia 3,188912 1,092185 1,000000 0,275658 0,364673 0,512013 4,652807 0,887921 0,275658 1,000000 0,254081 0,360801 4,228006 1,166537 0,364673 0,254081 1,000000 0,445250 4,854520 1,138008 0,512013 0,360801 0,445250 1,000000
Předpoklady použití testů Normalita dat (výběr pochází z normálního rozdělení) Statistika Základní statistiky Tabulky četností Normalita H 0 : Data pochází z normálního rozdělení H A : Data nepochází z normálního rozdělení Homogenita rozptylu (shodnost rozptylů) součástí t- testu a ANOVY (platí stejné hypotézy jako u normality)
Neparametrická statistika Pokud nejsou splněny předpoklady použití testů, musíme přistoupit k neparametrickému testování
Výběr neparametrického testu Jaké jsou rozdíly v úrovni autoregulace učení studentů mezi muži a ženami? Víme, že nejsou splněny požadavky pro použití testu. Systém nám nabízí možnosti použití testu.