ZÁKLADNÍ STATISTICKÉ CHARAKTERISTIKY

Podobné dokumenty
Základní statistické charakteristiky

veličin, deskriptivní statistika Ing. Michael Rost, Ph.D.

Základy popisné statistiky. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek

Výrobní produkce divizí Ice Cream Po lo ha plane t Rozložený výse ový 3D graf Bublinový graf Histogram t s tn e ídy

STATISTICKÉ CHARAKTERISTIKY

Zápočtová práce STATISTIKA I

MATEMATIKA III V PŘÍKLADECH

Statistika. Diskrétní data. Spojitá data. Charakteristiky polohy. Charakteristiky variability

Číselné charakteristiky

3. Základní statistické charakteristiky. KGG/STG Zimní semestr Základní statistické charakteristiky 1

Popisná statistika. Jaroslav MAREK. Univerzita Palackého

Statistika pro geografy

Metodologie pro ISK II

Číselné charakteristiky a jejich výpočet

Charakteristika datového souboru

Stručný úvod do vybraných zredukovaných základů statistické analýzy dat


Úloha č. 2 - Kvantil a typická hodnota. (bodově tříděná data): (intervalově tříděná data): Zadání úlohy: Zadání úlohy:

Popisná statistika. úvod rozdělení hodnot míry centrální tendence míry variability míry šikmosti a špičatosti grafy

Praktická statistika. Petr Ponížil Eva Kutálková

Matematika III. 27. listopadu Vysoká škola báňská - Technická univerzita Ostrava. Matematika III

Aplikovaná statistika v R

Úvod do kurzu. Moodle kurz. (a) (b) heslo pro hosty: statistika (c) skripta na pravděpodobnost

Náhodná proměnná. Náhodná proměnná může mít rozdělení diskrétní (x 1. , x 2. ; x 2. spojité (<x 1

Základy popisné statistiky

MÍRY ZÁVISLOSTI (KORELACE A REGRESE)

Zpracování náhodného výběru. Ing. Michal Dorda, Ph.D.

Popisná statistika. úvod rozdělení hodnot míry centrální tendence míry variability míry šikmosti a špičatosti grafy

Základy pravděpodobnosti a statistiky. Popisná statistika

Popisná statistika. Komentované řešení pomocí MS Excel

Statistické metody. Martin Schindler KAP, tel , budova G. naposledy upraveno: 9.

POPISNÁ STATISTIKA Komentované řešení pomocí programu Statistica

Statistické vyhodnocování ankety pilotního projektu Kvalita výuky na Západočeské univerzitě v Plzni

TEST Z TEORIE EXPLORAČNÍ ANALÝZA DAT

Statistika. cílem je zjednodušit nějaká data tak, abychom se v nich lépe vyznali důsledkem je ztráta informací!

Obsah. Statistika Zpracování informací ze statistického šetření Charakteristiky úrovně, variability a koncentrace kvantitativního znaku

TECHNICKÁ UNIVERZITA V LIBERCI SEMESTRÁLNÍ PRÁCE

Minimální hodnota. Tabulka 11

Popisná statistika. Statistika pro sociology

Metodologie pro Informační studia a knihovnictví 2

Analýza dat na PC I.

TECHNICKÁ UNIVERZITA V LIBERCI. Ekonomická fakulta. Semestrální práce. Statistický rozbor dat z dotazníkového šetření školní zadání

Metodologie pro Informační studia a knihovnictví 2

Statistika, Biostatistika pro kombinované studium Letní semestr 2011/2012. Tutoriál č. 4: Exploratorní analýza. Jan Kracík

Mgr. Karla Hrbáčková, Ph.D. Základy kvantitativního výzkumu

Popisná statistika kvantitativní veličiny

Statistika I (KMI/PSTAT)

VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ. FAKULTA STROJNÍHO INŽENÝRSTVÍ Ústav materiálového inženýrství - odbor slévárenství

Statistická analýza dat v psychologii

Metody sociálních výzkumů. Velmi skromný úvod do statistiky. Motto: Jsou tři druhy lži-lež prostá, lež odsouzeníhodná a statistika.

Základy popisné statistiky

Jevy a náhodná veličina

Informační technologie a statistika 1

Základní analýza dat. Úvod

Deskriptivní statistika (kategorizované proměnné)

Výsledky základní statistické charakteristiky

Statistika - charakteristiky variability

MATEMATICKÁ STATISTIKA. Katedra matematiky a didaktiky matematiky Technická univerzita v Liberci

VNITROSKUPINOVÝ ROZPTYL. Je mírou variability uvnitř skupin Jiný název: průměr rozptylů Vypočítává se jako průměr rozptylů v jednotlivých skupinách

23. Matematická statistika

Předpoklad o normalitě rozdělení je zamítnut, protože hodnota testovacího kritéria χ exp je vyšší než tabulkový 2

Kontingenční tabulky v Excelu. Představení programu Statistica

Co je to statistika? Úvod statistické myšlení. Základy statistického hodnocení výsledků zkoušek. Petr Misák

Statistika jako obor. Statistika. Popisná statistika. Matematická statistika TEORIE K MV2

Matematika III. 29. října Vysoká škola báňská - Technická univerzita Ostrava. Matematika III

Mnohorozměrná statistická data

, Brno Hanuš Vavrčík Základy statistiky ve vědě

Výsledky základní statistické charakteristiky

Pravděpodobnost a statistika

Charakterizace rozdělení

STATISTIKA A INFORMATIKA - bc studium OZW, 1.roč. (zkušební otázky)

Mnohorozměrná statistická data

Předmět studia: Ekonomická statistika a analytické metody I, II

Cvičení ze statistiky. Filip Děchtěrenko ZS 2012/2013

STATISTIKA 1. Adam Čabla Katedra statistiky a pravděpodobnosti VŠE

ANALÝZA DAT V R 2. POPISNÉ STATISTIKY. Mgr. Markéta Pavlíková Katedra pravděpodobnosti a matematické statistiky MFF UK.

Průzkumová analýza dat

Základy biostatistiky

TECHNICKÁ UNIVERZITA V LIBERCI

Ukázka závěrečného testu

LEKCE 02a UNIVARIAČNÍ ANALÝZA KATEGORIZOVANÝCH DAT

METODOLOGIE I - METODOLOGIE KVANTITATIVNÍHO VÝZKUMU

TECHNICKÁ UNIVERZITA V LIBERCI EKONOMICKÁ FAKULTA

Nejčastější chyby v explorační analýze

Obecné momenty prosté tvary

Kartografické stupnice. Přednáška z předmětu Tematická kartografie (KMA/TKA) Otakar Čerba Západočeská univerzita

VŠB Technická univerzita Ostrava Fakulta elektrotechniky a informatiky SMAD

UKAZATELÉ VARIABILITY

Náhodná veličina a rozdělení pravděpodobnosti

Kontrola: Sečteme-li sloupec,,četnost výskytu musí nám vyjít hodnota rozsahu souboru (našich 20 žáků)

Výsledky základní statistické charakteristiky

Příprava souboru dat a analýza

Statistika. zpracování statistického souboru

zcela převažující druh průměru, který má uplatnění při řešení téměř všech úloh statistiky široké využití: v ekonomických

E(X) = np D(X) = np(1 p) 1 2p np(1 p) (n + 1)p 1 ˆx (n + 1)p. A 3 (X) =

PRŮZKUMOVÁ ANALÝZA JEDNOROZMĚRNÝCH DAT Exploratory Data Analysis (EDA)

VŠB Technická univerzita Ostrava Fakulta elektrotechniky a informatiky

Otázky k měření centrální tendence. 1. Je dáno rozložení, ve kterém průměr = medián. Co musí být pravdivé o tvaru tohoto rozložení?

Transkript:

zhanel@fsps.muni.cz

ZÁKLADNÍ STATISTICKÉ CHARAKTERISTIKY

METODY DESKRIPTIVNÍ STATISTIKY 1. URČENÍ TYPU ŠKÁLY (nominální, ordinální, metrické) a) nominální + ordinální neparametrické stat. metody b) metrické parametrické statistické metody 2. ROZLOŽENÍ ČETNOSTÍ ZNAKŮ (NORMÁLNÍ ČI JINÉ) a) normální parametrické statistické metody b) jiné neparametrické statistické metody 3. VÝPOČET ZÁKLADNÍCH STATISTICKÝCH CHARAKTERISTIK a) míry centrální tendence b) míry variability c) míry závislosti

DATA NOMINÁLNÍ ORDINÁLNÍ METRICKÁ MÍRY POLOHY MODUS MEDIÁN ARITMETICKÝ PRŮMĚR MÍRY VARIABILITY Entropie (uspořádanost) Kvartilové rozpětí Kvartilová odchylka Rozptyl Standardní odchylka Variační koeficient

2. 2 MÍRY POLOHY Míry polohy (neboli míry centrální tendence) charakterizují úroveň statistického souboru z hlediska polohy jeho střední hodnoty, zevšeobecňují, zastupují, reprezentují jednotlivé hodnoty sledovaného statistického znaku, umožňují srovnání polohy dvou či více rozdělení četností, srovnání střední úrovně dvou či více souborů. 18,3; 19,0; 22,6; 23,3; 25,2; 26,6; 27,2; 28,0; 31,3; 36,3

NEJČASTĚJI POUŽÍVANÉ MÍRY POLOHY 1. NOMINÁLNÍ STUPNICE (DATA) MODUS (Mo) označuje nejčastěji se vyskytující hodnotu statistického souboru (hodnota s největší četností). Modus je nejsnáze zjistitelná míra polohy. Soubor může mít jeden či více modů (soubor bimodální, soubor trimodální). Modus je použitelný pro nominální stupnice (a všechny vyšší).

četnost Rozdělení bimodální 250 200 150 100 50 0 0 5 10 15 20 25 hodnota znaku

2. ORDINÁLNÍ STUPNICE (DATA) MEDIÁN (Me) označuje prostřední člen variační řady (dělí výsledky seřazené podle velikosti na polovinu). Medián není citlivý na velikost etrémních (krajních) hodnot. Medián je použitelný pro ordinální stupnici (a vyšší). Ukázka výpočtu pro sudý a lichý počet dat: i : 6 7 7 8 8 8 8 9 9 10 (sudý počet) Mo = 8 Me = 8 i : 6 7 7 8 8 8 8 9 9 10 10 (lichý počet) Mo =? Me =? 18,3; 19,0; 22,6; 23,3; 25,2; 26,6; 27,2; 28,0; 31,3; 36,3

3. METRICKÉ STUPNICE (DATA) ARITMETICKÝ PRŮMĚR nejpoužívanější míra polohy. je použitelný (pouze!) pro metrické škály (stupnice). je to součet všech hodnot statistického souboru dělený rozsahem souboru (n). a) aritmetický průměr prostý (jednoduchý) 1 1 2 n n... n n i1 X - statistický znak n - rozsah souboru X i - hodnota statistického znaku - pozorování i

b) vážený aritmetický průměr užívá se u početnějších souborů, výpočet vychází z rozdělení četností, vážený se nazývá proto, že jednotlivým hodnotám znaku je přisuzována váha odpovídající počtu výskytů. m i i i m i i m m m w w w w w w w w 1 1 2 1 2 2 1 1...... W i váha (počet výskytů) n rozsah souboru (počet hodnot). m i w i n 1

b) aritmetický průměr vážený - příklad Přijímací řízení FTK 1991 1993 Výsledky testu běh na 100m 1991 (n = 350) AP = 13,0 1992 (n = 230) AP = 12,5 1993 (n = 120) AP = 12,0 1 w 1 w 1 2 w w 2 2...... w m m w Jaký je průměrný výkon v běhu na 100 m v letech 1991 1993???? 13,0 + 12,5 + 12,0 = 37,5/3 = 12,5??? m m i1 m i1 13,0 350 + 12,5 230 + 12,0 120 AP = = 12, 66 350 + 230 + 120 i w w i i

Poznámky v tzv. Gaussově normálním rozložení (rozdělení) četností (symetrickém) jsou hodnoty aritmetického průměru, modu a mediánu stejně velké. čím více se od sebe tyto hodnoty liší, tím více je rozdělení četností asymetrické (hovoříme o porušené normalitě rozložení četností). 34,13% 34,13% 13,59% 13,59% počet případů pod Gaussovou křivkou [%] 0,13% 2,14% 2,14% 0,13% -4-3 -2-1 0 1 2 3 4 směrodatné odchylky -4,0-3,0-2,0-1,0 0 1,0 2,0 3,0 4,0 z - body

PŘÍKLAD 3 Výpočet: modus, medián, aritmetický průměr. Hráč A B C D E F G H J K i 7 6 7 8 9 8 8 8 9 10 yi 4 8 6 8 7 8 7 4 8 10 Variační řada znaku i: 6, 7, 7, 8, 8, 8, 8, 9, 9, 10 Mo =? Me =? AP =? Vážený AP =? Mo = 8 Me = 8 AP = 8 Vážený AP = 8 SAMI: Variační řada znaku yi: 4, 8, 6, 8, 7, 8, 7, 4, 8, 10 Mo =? Me =? AP =? Vážený AP =? Mo = 8 Me = 7,5 AP = 7 Vážený AP = 7

Pomocí Ecelu Statistické funkce Výpočet: modus, medián, aritmetický průměr. MODE MEDIAN PRŮMĚR

2. 3 MÍRY VARIABILITY Popis statistického souboru pomocí měr polohy (tedy určení středních hodnot) není dostačující - viz příklad! Př. 1: 4, 5, 6 15/3=5 (AP 1) Př. 2: 1, 5, 9 15/3=5 (AP 2) 1 10 1 10

MÍRY VARIABILITY Míry variability, tedy přinášejí další důležité informace o vlastnostech souboru, v odborné literatuře jsou též označovány jako míry variace, rozptýlení, měnlivosti. Vlastnosti variability: charakterizují vyrovnanost jednotek souboru, ukazují, jak jsou hodnoty souboru rozptýleny, tedy jak se jednotlivé hodnoty znaku vzájemně liší. umožňují posoudit, do jaké míry je sledovaný soubor homogenní (stejnorodý) resp. heterogenní (nestejnorodý, různorodý).

Soubor homogenní Soubor heterogenní

2. 3. 1 KVANTILOVÉ MÍRY VARIABILITY KMV jsou využitelné pro stupnice ordinální a dále pro stupnice metrické v případech, kdy nelze prokázat normalitu rozložení četností dat (proč ne pro nominální stupnice?). NEJČASTĚJI POUŽÍVANÉ KVM VARIAČNÍ ŘADA = znaky statistického souboru seřazené podle velikosti. VARIAČNÍ ROZPĚTÍ =diference mezi největší a nejmenší hodnotou znaku statistického souboru tj. R= ma min KVANTIL=hodnota kvantitativního statistického znaku, která rozděluje (láme) variační řadu na jisté části.

PŘÍKLAD 4 Výpočet: variační řada, variační rozpětí. Hráč A B C D E F G H J K i 7 6 7 8 9 8 8 8 9 10 yi 4 8 6 8 7 8 7 4 8 10 VARIAČNÍ ŘADA znaků i 6, 7, 7, 8, 8, 8, 8, 9, 9, 10 VARIAČNÍ ROZPĚTÍ R = ma min R = 10 6 = 4 Sami totéž pro znaky y i VARIAČNÍ ŘADA znaků y i 4,4,6,7,7,8,8,8,8,10 VARIAČNÍ ROZPĚTÍ R = ma min R = 10 4 = 6

DRUHY KVANTILŮ (kvartil, decil, percentil) 1. KVARTIL (Y) kvartily rozdělují variační řadu na čtvrtiny, na 4 skupiny. KOLIK MÁME KVARTILŮ? Dolní kvartil (Q 1, 25 ) Horní kvartil (Q 3, 75 ) (Střední kvartil) = medián

VÝPOČET KVANTILŮ n p z z 100 0,5 p - pořadí kvantilu p n - rozsah souboru p Příklad : Urči dolní kvartil 25, přičemž počet hodnot v souboru je n = 40. 40 25 z p 100 0,5 10,5 tzn., že 10,5 hodnota (resp. průměr desáté a jedenácté hodnoty) v uspořádaném souboru představuje dolní kvartil 25 25 (10) 2 (11)

2. DECIL decily rozdělují variační řadu na desetiny, na 10 skupin o 10% rozsahu souboru. Označují se 10, 20, 90 3. PERCENTIL (PROCENTIL) percentily rozdělují variační řadu na setiny, na 100 skupin o 1% rozsahu. Označují se 1, 2, 99 DALŠÍ KVANTILOVÉ CHARAKTERISTIKY VARIABILITY KVANTILOVÉ ROZPĚTÍ kvartilové rozpětí 75 25 decilové rozpětí 90 10 percentilové rozpětí 99 1

KVANTILOVÉ ODCHYLKY a) kvartilová odchylka 75 25 Q = 2 b) decilová odchylka 90 10 Q = 2 c) percentilová odchylka 99 1 Q = 2 Měří varianci lépe než variační rozpětí, není ovlivněna etrémy. Je osminou rozpětí krajních decilů, záleží tedy na rozpětí prostředních 80% prvků souboru. Je devadesátiosminou rozpětí krajních percentilů.

2. 3. 2 MOMENTOVÉ MÍRY VARIABILITY Předchozí (kvantilové) míry variability udávají jen rozpětí, v němž se znaky pohybují. Vhodnějšími mírami variability jsou momentové míry variability (pokud je ovšem možné je vypočítat). Jsou to takové charakteristiky, které udávají (1) variaci ve smyslu vzájemné odlišnosti jednotlivých hodnot znaku (mezi sebou), (2) variaci ve smyslu odlišnosti jednotlivých hodnot znaku od průměru.

NEJČASTĚJI POUŽÍVANÉ MOMENTOVÉ MÍRY VARIABILITY 1. ROZPTYL s 2 = AP aritmetický průměr i hodnota znaku ( i - AP ) 2 n (pro rozsáhlé soubory) Rozptyl (s 2 ) je aritmetickým průměrem ze čtverců odchylek jednotlivých hodnot znaku od jejich aritmetického průměru. Rozptyl měří variaci ve smyslu odlišnosti jednotlivých hodnot znaku od průměru i ve smyslu vzájemné odlišnosti jednotlivých hodnot znaku.

2. SMĚRODATNÁ (STANDARDNÍ) ODCHYLKA (s) Symbolický tvar s = s 2 (var ) s = ( i - AP ) 2 n s s 2 ( i n 1 ) 2 (pro rozsáhlé soubory) Směrodatná odchylka (s) je kvadratickým průměrem odchylek jednotlivých hodnot znaku od aritmetického průměru.

3. VARIAČNÍ KOEFICIENT V = s AP V = 100 s AP Variační koeficient umožňuje provést srovnání variability dvou či více souborů, jejichž znaky jsou měřeny v různých jednotkách (cm, kg, sekundy, ), udává poměr směrodatné odchylky k aritmetickému průměru, přesněji řečeno udává, kolik % aritmetického průměru tvoří směrodatná odchylka.

PŘÍKLAD 5 Výpočet: rozptyl, směrodatná odchylka, variační koeficient Hráč A B C D E F G H J K i 7 6 7 8 9 8 8 8 9 10 yi 4 8 6 8 7 8 7 4 8 10 (1) Rozptyl AP=8 s2 = (7-8)2+(6-8)2+(7-8)2 (8-8)2+(9-8)2+(10-8)2 10 1+4+1+0+1+0+0+0+1+4 12 = = = 1,20 10 10

(2) Směrodatná odchylka s = s 2 = 1,09 = 1,1 Sami směrodatná odchylka znaků y i Variační koeficient V 1 s 1,09 s V 1 = = = 0,14 resp. V 1 =. 100 = 14 % AP 8 AP Sami - variační koeficient V 2 tj. znaků y i V 2 = 0,26 resp. V 2 = 26 % V 1 V 2 Interpretace

Pomocí Ecelu Statistické funkce Výpočet: rozptyl, směrodatná odchylka, variační koeficient VAR SMODCH VAR.VÝBĚR vypočte rozptyl výběru SMODCH.VÝBĚR vypočte směrodatnou odchylku výběru

Pomocí Ecelu Analýza dat Popisná statistika yi Stř. hodnota 7 Chyba stř. hodnoty 0,596285 Medián 7,5 Modus 8 Směr. odchylka 1,885618 Rozptyl výběru 3,555556 Špičatost -0,05776 Šikmost -0,49718 Rozdíl ma-min 6 Minimum 4 Maimum 10 Součet 70 Počet 10 Největší (1) 10 Nejmenší (1) 4 Hladina spolehlivosti (95,0%) 1,34889

Děkuji za pozornost