POPISNÁ STATISTIKA Komentované řešení pomocí programu Statistica

Podobné dokumenty
Popisná statistika. Komentované řešení pomocí MS Excel

KORELACE. Komentované řešení pomocí programu Statistica

JEDNOVÝBĚROVÉ TESTY. Komentované řešení pomocí programu Statistica

DVOUVÝBĚROVÉ A PÁROVÉ TESTY Komentované řešení pomocí programu Statistica

LINEÁRNÍ REGRESE Komentované řešení pomocí programu Statistica

mezi studenty. Dále bychom rádi posoudili, zda dobrý výsledek v prvním testu bývá doprovázen dobrým výsledkem i v druhém testu.

Korelace. Komentované řešení pomocí MS Excel

Charakteristika datového souboru

Vzorová prezentace do předmětu Statistika

Popisná statistika. Komentované řešení pomocí programu R. Ústav matematiky Fakulta chemicko inženýrská Vysoká škola chemicko-technologická v Praze

Zápočtová práce STATISTIKA I

Dvouvýběrové a párové testy. Komentované řešení pomocí MS Excel

Statistika, Biostatistika pro kombinované studium Letní semestr 2011/2012. Tutoriál č. 4: Exploratorní analýza. Jan Kracík

Analýza dat na PC I.

TECHNICKÁ UNIVERZITA V LIBERCI SEMESTRÁLNÍ PRÁCE

Popisná statistika kvantitativní veličiny

UNIVERZITA OBRANY Fakulta ekonomiky a managementu. Aplikace STAT1. Výsledek řešení projektu PRO HORR2011 a PRO GRAM

Základy popisné statistiky. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek

4. Zpracování číselných dat

Statistika pro geografy

Statistika. Diskrétní data. Spojitá data. Charakteristiky polohy. Charakteristiky variability

ZÁKLADNÍ STATISTICKÉ CHARAKTERISTIKY

Obsah. Statistika Zpracování informací ze statistického šetření Charakteristiky úrovně, variability a koncentrace kvantitativního znaku

Zpracování náhodného výběru. Ing. Michal Dorda, Ph.D.

Praktická statistika. Petr Ponížil Eva Kutálková

Výrobní produkce divizí Ice Cream Po lo ha plane t Rozložený výse ový 3D graf Bublinový graf Histogram t s tn e ídy

Zpracování náhodného výběru. Ing. Michal Dorda, Ph.D.

Nejčastější chyby v explorační analýze

Mgr. Karla Hrbáčková, Ph.D. Základy kvantitativního výzkumu


veličin, deskriptivní statistika Ing. Michael Rost, Ph.D.

Matematika III. 27. listopadu Vysoká škola báňská - Technická univerzita Ostrava. Matematika III

Lineární regrese. Komentované řešení pomocí MS Excel

Úloha č. 2 - Kvantil a typická hodnota. (bodově tříděná data): (intervalově tříděná data): Zadání úlohy: Zadání úlohy:

VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ. FAKULTA STROJNÍHO INŽENÝRSTVÍ Ústav materiálového inženýrství - odbor slévárenství

MATEMATIKA III V PŘÍKLADECH

Metodologie pro ISK II

Úvod do kurzu. Moodle kurz. (a) (b) heslo pro hosty: statistika (c) skripta na pravděpodobnost

Statistika s Excelem aneb Máme data. A co dál? Martina Litschmannová Katedra aplikované matematiky, FEI, VŠB-TU Ostrava

VŠB Technická univerzita Ostrava Fakulta elektrotechniky a informatiky SMAD

Popisná statistika. Jaroslav MAREK. Univerzita Palackého

Popisná statistika. Statistika pro sociology

KONTINGENČNÍ TABULKY Komentované řešení pomocí programu Statistica

Odhady parametrů základního souboru. Cvičení 6 Statistické metody a zpracování dat 1 (podzim 2016) Brno, říjen listopad 2016 Ambrožová Klára

Zaokrouhlování: Směrodatná odchylka se zaokrouhluje nahoru na stanovený počet platných cifer. Míry

Číselné charakteristiky

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

STATISTIKA S EXCELEM. Martina Litschmannová MODAM,

VŠB Technická univerzita Ostrava Fakulta elektrotechniky a informatiky

Regresní a korelační analýza

TECHNICKÁ UNIVERZITA V LIBERCI EKONOMICKÁ FAKULTA

Číselné charakteristiky a jejich výpočet

Základy pravděpodobnosti a statistiky. Popisná statistika

Informační technologie a statistika 1

Náhodná proměnná. Náhodná proměnná může mít rozdělení diskrétní (x 1. , x 2. ; x 2. spojité (<x 1

Návrhy dalších možností statistického zpracování aktualizovaných dat

Základy popisné statistiky

Regresní a korelační analýza

STATISTIKA A INFORMATIKA - bc studium OZW, 1.roč. (zkušební otázky)

STATISTICKÉ CHARAKTERISTIKY

TEST Z TEORIE EXPLORAČNÍ ANALÝZA DAT

Protokol č. 1. Tloušťková struktura. Zadání:

Statistické vyhodnocování ankety pilotního projektu Kvalita výuky na Západočeské univerzitě v Plzni

Testy nezávislosti kardinálních veličin

Statistika. cílem je zjednodušit nějaká data tak, abychom se v nich lépe vyznali důsledkem je ztráta informací!

Předpoklad o normalitě rozdělení je zamítnut, protože hodnota testovacího kritéria χ exp je vyšší než tabulkový 2

Simulace. Simulace dat. Parametry

UNIVERZITA PARDUBICE Fakulta chemicko-technologická Katedra analytické chemie Nám. Čs. Legií 565, Pardubice

5. Závislost dvou náhodných veličin různých typů (kategoriální a metrická veličina)

Úloha E301 Čistota vody v řece testem BSK 5 ( Statistická analýza jednorozměrných dat )

, Brno Hanuš Vavrčík Základy statistiky ve vědě

KGG/STG Statistika pro geografy

STATISTICA Téma 6. Testy na základě jednoho a dvou výběrů

VŠB Technická univerzita Ostrava BIOSTATISTIKA

ANALÝZA DAT V R 3. POPISNÉ STATISTIKY, NÁHODNÁ VELIČINA. Mgr. Markéta Pavlíková Katedra pravděpodobnosti a matematické statistiky MFF UK

Metoda Monte Carlo a její aplikace v problematice oceňování technologií. Manuál k programu

Příloha podrobný výklad vybraných pojmů

Porovnání dvou výběrů

STATISTIKA. Inovace předmětu. Obsah. 1. Inovace předmětu STATISTIKA Sylabus pro předmět STATISTIKA Pomůcky... 7

Charakterizace rozdělení

SOUHRNNÁ ZPRÁVA PRO ŠKOLU Maturita nanečisto 2007 Výsledky zkoušek společné a profilové části maturitní zkoušky

Popisná statistika. úvod rozdělení hodnot míry centrální tendence míry variability míry šikmosti a špičatosti grafy

Kontingenční tabulky v Excelu. Představení programu Statistica

Mnohorozměrná statistická data

STATISTICKÉ ODHADY Odhady populačních charakteristik

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Univerzita Pardubice Fakulta chemicko-technologická Katedra analytické chemie STATISTICKÉ ZPRACOVÁNÍ EXPERIMENTÁLNÍCH DAT

Kvantily a písmenové hodnoty E E E E-02

ANALÝZA DAT V R 2. POPISNÉ STATISTIKY. Mgr. Markéta Pavlíková Katedra pravděpodobnosti a matematické statistiky MFF UK.

Základní statistické pojmy

Statistické metody. Martin Schindler KAP, tel , budova G. naposledy upraveno: 9.

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

přesné jako tabulky, ale rychle a lépe mohou poskytnou názornou představu o důležitých tendencích a souvislostech.

STATISTICA Téma 1. Práce s datovým souborem

KGG/STG Statistika pro geografy

Transkript:

POPISNÁ STATISTIKA Komentované řešení pomocí programu Statistica

Program Statistica I Statistica je velmi podobná Excelu. Na základní úrovni je to klikací program určený ke statistickému zpracování dat. Data lze jednoduše vložit z Excelu Otevřeme program Statistica. Zvolíme Tabulka dat. V okně Vytvořit nový dokument můžeme zvolit Počet proměnných (sloupců) 2 a Počet případů (řádků) 762 (jsou to rozměry našich dat) OK Metodou Copy Paste přeneseme data z Excelu

Program Statistica II Pojmenujeme si proměnné Levým tlačítkem myši dvakrát klikneme na Prom1, objeví se okno, kde si můžeme nazvat první proměnnou Stejně lze pojmenovat ostatní proměnné Výstupy z analýz lze ukládat do Pracovního sešitu, ze kterého se snadno přenášejí do vlastních prezentací

Program Statistica III Základní analýzy lze rychle spouštět pomocí ikony umístěné vlevo dole např. Č či

Program Statistica III Anebo nahoře v liště, např. či

Získaná data Máme k dispozici data o počtech bodů z prvního a druhého zápočtového testu z Matematiky I v zimním semestru 215/216, a to u všech 762 studentů, kteří psali oba testy. Zajímá nás, jak tyto písemky dopadly a zdali výsledky z prvního a druhého zápočtového testu spolu nějak souvisí.

Vybrané kvantily I Kvantily rozdělují uspořádaný soubor hodnot na dvě části dle předem zadaného poměru četností. Statistiky Základní statistiky/tabulky Detailní výsledky Zvolíme si, jaké charakteristiky chceme spočítat A dále Proměnné Vybrat vše OK Výpočet

Vybrané kvantily II Získáme přehledné výsledky Vidíme, že výsledky z druhé písemky jsou o trochu horší než z první písemky. Variabilita výsledků z obou písemek je však srovnatelná. Toto tvrzení bude zcela opodstatněné později na základě dalších charakteristik variability zde máme zatím spočtené kvartilové rozpětí rozdíl horního a dolního kvartilu, které je u obou písemek stejné.

Míry polohy Pro posouzení polohy (středního počtu bodů) použijeme dva ukazatele Aritmetický průměr (patří do třídy momentových charakteristik) Medián (kvantilová charakteristika) Postupem obdobným jako při hledání kvantilů, dostaneme: Na základě této analýzy (průměru i mediánu) vidíme, že výsledky z první zápočtové písemky jsou o něco lepší než z druhé písemky. Střední počet bodů u obou písemek je mírně pod padesát bodů.

Míry variability I Variabilitu (proměnlivost, míru rozptýlení) posoudíme pomocí těchto ukazatelů: Rozptyl (momentová charakteristika) Směrodatná odchylka (momentová charakteristika) Variační rozpětí (kvantilová charakteristika) Decilové rozpětí (kvantilová charakteristika) Kvartilové rozpětí (kvantilová charakteristika) Variační koeficient (relativní míra variability) Stejným postupem získáme tabulku s výsledky poslední sloupec Decilové rozpětí byl přidán do tabulky až nakonec a hodnoty dopočteny samostatně název sloupce Rozpětí byl přejmenován dle naší terminologie na Variační rozpětí

Míry variability II Momentové i kvantilové charakteristiky ukazují, že (absolutní) variabilita počtu bodů v obou testech je velmi podobná. V průměru se počet dosažených bodů od celkového průměru liší přibližně o 23 bodů (směrodatná odchylka). Bodové výsledky 8 % studentů se nachází v intervalu šířky 63 bodů (decilové rozpětí), počty bodů 5 % studentů jsou koncentrovány v intervalu šířky 35 bodů (kvartilové rozpětí). Relativní variabilita (směrodatná odchylka vztažena ku průměrnému počtu bodů) je u prvního testu trochu vyšší než u druhého testu, a to kvůli vyššímu průměru.

Míra (lineární) závislosti I Sílu lineární závislosti posoudíme pomocí Pearsonova korelačního koeficientu, který je odvozen od druhých momentů obou proměnných Zvolíme Statistiky Základní statistiky/tabulky Korelační matice 1 seznam proměn. Vybrat vše OK Výpočet Korelační koeficient je,679. Je označen červeně, protože je významně nenulový (na hladině významnosti 5 %). Kladná hodnota korelačního koeficientu svědčí o pozitivní lineární závislosti mezi počty bodů z prvního a druhého testu. Měl-li student nadprůměrný počet bodů v prvním testu, dá se očekávat, že měl i nadprůměrný počet bodů v druhém testu (a naopak).

Míra (lineární) závislosti II Nelze ovšem říci, že studenti se ve druhém testu nezhoršovali. Vzhledem k tomu, že průměrný počet bodů ve druhém testu je nižší než v prvním, mohli se studenti zhoršit i v případě pozitivní závislosti. Ta se totiž týká porovnání počtu bodů s průměrem! Posuzování intenzity závislosti podle velikosti korelačního koeficientu je arbitrární a v různých úlohách se může lišit. Často se však užívá obecné, empirické, pravidlo (viz tabulka vedle). Podle tohoto pravidla svědčí hodnota korelačního koeficientu,68 o relativně silné pozitivní závislosti, ne však perfektní závislosti. Znamená to tedy, že v některých případech se mohli studenti zhoršit i v porovnání s ostatními studenty (přesněji v porovnání s průměrem). Těchto případů však nebude mnoho.

Bodový graf Sílu i tvar závislosti dobře ilustruje bodový graf Grafy Bodové grafy Proměnné na osu x zvolíme 1. PP a na osu y 2. PP OK OK Bodový graf potvrzuje existenci relativně silné pozitivní lineární závislosti mezi počty bodů z prvního a druhého testu. Závislost však není perfektní někteří studenti se dosti zlepšili ve druhém testu (body vlevo nahoře), někteří zase zhoršili (body vlevo dole). Většina studentů je však soustředěna kolem regresní přímky. 2. PP Bodový graf z 2. PP proti 1. PP 2. PP = 7,4228+,6877*x 12 1 8 6 4 2-2 -2 2 4 6 8 1 12 1. PP

Krabicový graf (box plot) I Grafy Krabice nastavení 12 Krabicový graf z více proměnných Medián; Krabice: 25%-75%; Svorka: Rozsah neodleh. 1 8 6 4 2-2 1. PP 2. PP Medián 25%-75% Rozsah neodleh. Odlehlé Extrémy

Krabicový graf (box plot) II Krabicové grafy potvrzují naše předchozí úsudky na základě spočítaných charakteristik v prvním testu dosahovali studenti o trochu více bodů, variabilita je v obou testech srovnatelná. Došlo také k malé změně rozdělení počtu bodů (viz posun mediánu uvnitř krabice u druhého testu). Vzhledem k tomu, že počet bodů je shora omezen 1 a zespoda, nejsou v datech žádná odlehlá pozorování.

Histogram I Grafy Histogram nastavení Proměnné 1. PP OK OK, stejně pro 2. PP 14 Histogram z 1. PP 1. PP = 762*1*normal(x; 46,579; 23,2316) 14 Histogram z 2. PP 2. PP = 762*1*normal(x; 39,451; 23,53) 12 12 1 1 Počet pozorování 8 6 Počet pozorování 8 6 4 4 2 2-2 -1 1 2 3 4 5 6 7 8 9 1 11-2 -1 1 2 3 4 5 6 7 8 9 1 11 1. PP 2. PP

Histogram II Rozdělení počtu bodů v prvním testu je dosti symetrické kolem středu (lze pozorovat jen velmi mírné pozitivní zešikmení) a neliší se příliš od Gaussovy křivky (v obrázku vyznačena červeně). Rozdělení počtu bodů v druhém testu je více pozitivně zešikmené. Nalevo od střední hodnoty jsou body rozděleny mnohem rovnoměrněji než napravo, kde četnosti klesají podobně jako Gaussova křivka. Oproti prvnímu testu můžeme pozorovat u druhého testu výrazné navýšení počtu studentů s velmi malým počtem bodů ( 1), a to je také jeden z hlavních důvodů poklesu průměrného počtu bodů.

DALŠÍ GRAFICKÉ VÝSTUPY

Bodový graf s histogramy Grafy Grafy vstupních dat Bodový graf dle s histogramy či s krabicovými grafy 2 Bodový graf s histogramy z 2. PP proti 1. PP Histogram(1) = 762*1*normal(x; 46,579; 23,2316) Histogram(2) = 762*1*normal(x; 39,451; 23,53) Bodový graf = 7,4228+,6877*x Bodový graf s krabicemi z 2. PP proti 1. PP Bodový graf = 7,4228+,6877*x 1 12 12 1 1 8 8 2. PP 6 4 2. PP 6 4 2-2 2-4 -4-2 2 4 6 8 1 12 1. PP 1 2-2 -2 2 4 6 8 1 12 1. PP

Souhrnné výsledky Statistiky Základní statistiky/tabulky Základní statistiky/tabulky zvolíme všechny proměnné Grafy 1 Souhrn: 1. PP Souhrn: 2. PP Počet pozor. 3 25 2 15 1 5 K-S d=,4664, p<,1 ; Lilliefors p<,1 Očekávané normální Oček. normál. hodnota 4 3 2 1-1 -2 Normál. p-graf:1. PP Počet pozor. 3 25 2 15 1 5 K-S d=,4681, p<,1 ; Lilliefors p<,1 Očekávané normální Oček. normál. hodnota 4 3 2 1-1 -2 Normál. p-graf:2. PP -2 2 4 6 8 1-3 -2 2 4 6 8 1 12-2 2 4 6 8 1-3 -2 2 4 6 8 1 12 x <= hranice kategorie Hodnota x <= hranice kategorie Hodnota 1 1 Souhrnné statistiky:1. PP N platných=762, Průměr= 46,57866 Minimum=, Maximum=1, Sm.odch.= 23,231641 1. PP 8 6 4 Souhrnné statistiky:2. PP N platných=762, Průměr= 39,45131 Minimum=, Maximum=1, Sm.odch.= 23,5318 2. PP 8 6 4 2 2-2 Průměr = 46,579 Průměr±SmOdch = (23,3392, 69,825) Průměr±1,96*SmOdch = (1,368, 92,149) -2 Průměr = 39,451 Průměr±SmOdch = (15,921, 62,981) Průměr±1,96*SmOdch = (-6,6687, 85,569)