Základy popisné statistiky

Podobné dokumenty
Zpracování náhodného výběru. Ing. Michal Dorda, Ph.D.

veličin, deskriptivní statistika Ing. Michael Rost, Ph.D.

MATEMATICKÁ STATISTIKA. Katedra matematiky a didaktiky matematiky Technická univerzita v Liberci

Matematika III. 27. listopadu Vysoká škola báňská - Technická univerzita Ostrava. Matematika III

Statistika. Diskrétní data. Spojitá data. Charakteristiky polohy. Charakteristiky variability

Statistika I (KMI/PSTAT)

Popisná statistika. Statistika pro sociology

Mnohorozměrná statistická data

Výrobní produkce divizí Ice Cream Po lo ha plane t Rozložený výse ový 3D graf Bublinový graf Histogram t s tn e ídy

Popisná statistika kvantitativní veličiny

Statistika, Biostatistika pro kombinované studium Letní semestr 2011/2012. Tutoriál č. 4: Exploratorní analýza. Jan Kracík

Základy popisné statistiky. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek

Popisná statistika. Jaroslav MAREK. Univerzita Palackého

Statistika pro geografy

Základní statistické charakteristiky

Matematika III. 29. října Vysoká škola báňská - Technická univerzita Ostrava. Matematika III

Statistika. cílem je zjednodušit nějaká data tak, abychom se v nich lépe vyznali důsledkem je ztráta informací!

23. Matematická statistika

Statistika pro gymnázia

1.1 Dva základní typy statistiky Popisná statistika (descriptive statistics) Inferenční statistika (inferential statistics)

Charakteristika datového souboru

Mnohorozměrná statistická data

Informační technologie a statistika 1

Renáta Bednárová STATISTIKA PRO EKONOMY

Úvod do kurzu. Moodle kurz. (a) (b) heslo pro hosty: statistika (c) skripta na pravděpodobnost

Statistické metody. Martin Schindler KAP, tel , budova G. naposledy upraveno: 9.


Aplikovaná statistika v R

Jevy a náhodná veličina

Číselné charakteristiky

ZÁKLADNÍ STATISTICKÉ CHARAKTERISTIKY

Náhodná proměnná. Náhodná proměnná může mít rozdělení diskrétní (x 1. , x 2. ; x 2. spojité (<x 1

Pravděpodobnost a statistika

Praktická statistika. Petr Ponížil Eva Kutálková

Číselné charakteristiky a jejich výpočet

Metodologie pro ISK II

Analýza dat na PC I.

Obsah. Statistika Zpracování informací ze statistického šetření Charakteristiky úrovně, variability a koncentrace kvantitativního znaku

MATEMATIKA III V PŘÍKLADECH

TECHNICKÁ UNIVERZITA V LIBERCI

Zápočtová práce STATISTIKA I

Úloha č. 2 - Kvantil a typická hodnota. (bodově tříděná data): (intervalově tříděná data): Zadání úlohy: Zadání úlohy:

STATISTICKÉ CHARAKTERISTIKY

STATISTIKA 1. Adam Čabla Katedra statistiky a pravděpodobnosti VŠE

3. Základní statistické charakteristiky. KGG/STG Zimní semestr Základní statistické charakteristiky 1

TECHNICKÁ UNIVERZITA V LIBERCI SEMESTRÁLNÍ PRÁCE

Třídění statistických dat

Popisná statistika. úvod rozdělení hodnot míry centrální tendence míry variability míry šikmosti a špičatosti grafy

Náhodná veličina a rozdělení pravděpodobnosti

Deskriptivní statistika (kategorizované proměnné)

Statistika. zpracování statistického souboru

Metodologie pro Informační studia a knihovnictví 2

Předmět studia: Ekonomická statistika a analytické metody I, II

mezi studenty. Dále bychom rádi posoudili, zda dobrý výsledek v prvním testu bývá doprovázen dobrým výsledkem i v druhém testu.

TECHNICKÁ UNIVERZITA V LIBERCI. Ekonomická fakulta. Semestrální práce. Statistický rozbor dat z dotazníkového šetření školní zadání

Pojem a úkoly statistiky

UKAZATELÉ VARIABILITY

Základy popisné statistiky

Statistika. pro žáky 8. ročníku. úterý, 26. března 13

Metodologie pro Informační studia a knihovnictví 2

2. Základní typy dat Spojitá a kategoriální data Základní popisné statistiky Frekvenční tabulky Grafický popis dat

Základní statistické pojmy

Při statistickém zkoumání se snažíme udělat nějaký závěr ohledně vlastností celého statistického souboru

TEST Z TEORIE EXPLORAČNÍ ANALÝZA DAT

Kontingenční tabulky v Excelu. Představení programu Statistica

Statistika - charakteristiky variability

POPISNÁ STATISTIKA Komentované řešení pomocí programu Statistica

Seminarni prace. 2 3 stranky staci, dat nema byt 3 a nema jich byt pul milionu. k te seminarce

Jak nelhat se statistikou? Martina Litschmannová Katedra aplikované matematiky, FEI, VŠB-TU Ostrava

Základy pravděpodobnosti a statistiky. Popisná statistika

ADZ základní statistické funkce

Obecné momenty prosté tvary

Co je to statistika? Úvod statistické myšlení. Základy statistického hodnocení výsledků zkoušek. Petr Misák

Otázky k měření centrální tendence. 1. Je dáno rozložení, ve kterém průměr = medián. Co musí být pravdivé o tvaru tohoto rozložení?

STATISTICKÉ ODHADY Odhady populačních charakteristik

Cvičení ze statistiky. Filip Děchtěrenko ZS 2012/2013

Charakteristiky kategoriálních veličin. Absolutní četnosti (FREQUENCY)

PRAVDĚPODOBNOST A STATISTIKA

Základy biostatistiky

zcela převažující druh průměru, který má uplatnění při řešení téměř všech úloh statistiky široké využití: v ekonomických

Ekonomická statistika

Základy teorie pravděpodobnosti

7. Rozdělení pravděpodobnosti ve statistice

Výběrové charakteristiky a jejich rozdělení

Popisná statistika. Komentované řešení pomocí MS Excel

Tomáš Karel LS 2012/2013

Popisná statistika. úvod rozdělení hodnot míry centrální tendence míry variability míry šikmosti a špičatosti grafy

Protokol č. 1. Tloušťková struktura. Zadání:

2. Statistická terminologie a vyjadřovací prostředky Statistická terminologie. Statistická jednotka

Statistika jako obor. Statistika. Popisná statistika. Matematická statistika TEORIE K MV2

MATEMATICKÁ STATISTIKA - XP01MST

7. SEMINÁŘ DESKRIPTIVNÍ STATISTIKA

ANALÝZA DAT V R 2. POPISNÉ STATISTIKY. Mgr. Markéta Pavlíková Katedra pravděpodobnosti a matematické statistiky MFF UK.

Statistika s Excelem aneb Máme data. A co dál? Martina Litschmannová Katedra aplikované matematiky, FEI, VŠB-TU Ostrava

Příloha podrobný výklad vybraných pojmů

2. Bodové a intervalové rozložení četností

EXPERIMENTÁLNÍ MECHANIKA 2 Přednáška 5 - Chyby a nejistoty měření. Jan Krystek

Škály podle informace v datech:

Transkript:

Základy popisné statistiky Michal Fusek Ústav matematiky FEKT VUT, fusekmi@feec.vutbr.cz 8. přednáška z ESMAT Michal Fusek (fusekmi@feec.vutbr.cz) 1 / 26

Obsah 1 Základy statistického zpracování dat 2 Rozdělení četností 3 Charakteristiky souboru Michal Fusek (fusekmi@feec.vutbr.cz) 2 / 26

Popisná statistika Základy statistického zpracování dat Popisná statistika se zabývá shromažd ováním, tříděním a popisem souborů dat. Předmětem statistiky je také hledání zákonitostí v těchto datech a předpověd budoucího vývoje. Při statistickém šetření zkoumáme vlastnosti (statistické znaky) určité skupiny objektů: zaměstnanci (výkonnost, plat, znalost angličtiny) pokusné myši (reakce na podanou látku) výrobky (kvalita) Statistická jednotka - zkoumaný objekt Statistický soubor - množina všech statistických jednotek Michal Fusek (fusekmi@feec.vutbr.cz) 3 / 26

Základy statistického zpracování dat Cíl statistického zkoumání - získat poznatky o vlastnostech celého statistického souboru. Příklad Statistický soubor: množina všech občanů ČR. množina všech studentů na VUT. Chci zjistit, jaká část obyvatel (studentů VUT) sleduje seriál Ulice. Prakticky nemožné - omezíme se pouze na vybranou podmnožinu souboru. Podle rozsahu rozlišujeme dva typy statistických souborů: Základní soubor (populace) - obsahuje všechny vymezené jednotky. Výběrový soubor (výběr) - obsahuje pouze některé jednotky. Michal Fusek (fusekmi@feec.vutbr.cz) 4 / 26

Základy statistického zpracování dat Příklad Provádíme volební průzkum v ČR: Základní soubor - množina všech oprávněných voličů v ČR (>8,3 milionu, 2018). Výběrový soubor - vybraná skupina voličů v průzkumu (např. 1000 voličů). Vlastnosti výběrového souboru se snažíme zobecnit pro celý základní soubor. Výběr musí být reprezentativní! (tzv. náhodný výběr) Pokud se budeme ptát pouze bohatých lidí, volební model nedopadne dobře pro levicové strany se sociálním programem = nereprezentativní vzorek. Michal Fusek (fusekmi@feec.vutbr.cz) 5 / 26

Základy statistického zpracování dat Statistické znaky dělíme na: Kvantitativní - jsou popsané číselnou hodnotou: Spojité - mohou nabývat hodnot z určitého intervalu (spotřeba elektřiny). Diskrétní - mohou nabývat pouze hodnot z určité konečné nebo spočetné množiny (počet dětí v rodině). Kvalitativní - jsou popsány slovně. Podle počtu sledovaných statistických znaků získáme soubor: jednorozměrný (plat zaměstnance) dvourozměrný (výška a váha dítěte) vícerozměrný (obyvatel ČR: bydliště, datum a místo narození, zaměstnání, vzdělání, pohlaví, náboženství,...) Michal Fusek (fusekmi@feec.vutbr.cz) 6 / 26

Rozdělení četností Rozdělení četností - diskrétní znaky Předpokládejme, že v souboru o rozsahu n může sledovaný znak x nabývat k různých hodnot (variant) x 1, x 2,..., x k. Četnost varianty x i je počet výskytů této hodnoty ve sledovaném souboru a označíme ji n i, i = 1,..., k. Pak platí n 1 + n 2 + + n k = n. Příklad Ve třídě je 10 žáků, jejichž známky z matematiky na vysvědčení jsou 2, 5, 3, 2, 1, 1, 2, 4, 1, 3. n i...četnost výskytu známky i, i = 1, 2, 3, 4, 5 n 1 = 3, n 2 = 3, n 3 = 2, n 4 = 1, n 5 = 1 Michal Fusek (fusekmi@feec.vutbr.cz) 7 / 26

Rozdělení četností Co když chceme porovnat rozdělení četností znaku dvou souborů o různém rozsahu? Relativní četnost varianty x i označíme jako Pro relativní četnosti platí Příklad f i = n i n. f 1 + + f k = n 1 n + nk n = n 1 + + n k n = 1. Ve třídě je 10 žáků, jejichž známky z matematiky na vysvědčení jsou 2, 5, 3, 2, 1, 1, 2, 4, 1, 3. f i...relativní četnost výskytu známky i, i = 1, 2, 3, 4, 5 f 1 = 0,3, n 2 = 0,3, n 3 = 0,2, n 4 = 0,1, n 5 = 0,1 Michal Fusek (fusekmi@feec.vutbr.cz) 8 / 26

Rozdělení četností Kumulativní četnosti (absolutní nebo relativní) - udávají, kolik jednotek má hodnotu znaku menší nebo rovnou vybrané variantě x i. Varianta znaku Četnost Kumulativní četnost absolutní relativní absolutní relativní x 1 n 1 f 1 n 1 f 1 x 2 n 2 f 2 n 1 + n 2 f 1 + f 2..... x k n k f k n 1 + + n k = n f 1 + + f k = 1 Michal Fusek (fusekmi@feec.vutbr.cz) 9 / 26

Rozdělení četností Příklad Ve třídě je 10 žáků, jejichž známky z matematiky na vysvědčení jsou 2, 5, 3, 2, 1, 1, 2, 4, 1, 3. Varianta znaku Četnost Kumulativní četnost absolutní relativní absolutní relativní x 1 n 1 = 3 f 1 = 0,3 3 0,3 x 2 n 2 = 3 f 2 = 0,3 6 0,6 x 3 n 3 = 2 f 3 = 0,2 8 0,8 x 4 n 4 = 1 f 4 = 0,1 9 0,9 x 5 n 5 = 1 f 5 = 0,1 10 1 Michal Fusek (fusekmi@feec.vutbr.cz) 10 / 26

Rozdělení četností Příklad Zkoumáme věk 70 studentů nastupujících do 1. ročníku vysoké školy. Věk nabývá hodnot z množiny {18, 19, 20, 21, 22, 23}. Věk Počet Relativní Kumulativní Kumulativní studenta studentů četnost absolutní relativní x i n i f i četnost četnost 18 1 0,014 1 0,014 19 44 0,629 45 0,643 20 19 0,271 64 0,914 21 3 0,043 67 0,957 22 2 0,029 69 0,986 23 1 0,014 70 1,000 Michal Fusek (fusekmi@feec.vutbr.cz) 11 / 26

Jak data zobrazit? Rozdělení četností Spojnicový graf Sloupcový graf Co když diskrétní znak nabývá příliš mnoha různých hodnot? Hodnoty seskupíme do intervalů (viz spojité znaky). Michal Fusek (fusekmi@feec.vutbr.cz) 12 / 26

Rozdělení četností Rozdělení četností - spojité znaky Spojité znaky mohou nabývat jakékoli hodnoty z určitého intervalu. Hodnoty roztřídíme do intervalů - sestavíme intervalové rozdělení četností. Kolik intervalů mám zvolit? Sturgesovo pravidlo k. = 1 + log 2 n. = 1 + 3,3 log n. Příklad Zkoumáním průměrné spotřeby benzinu u 80 automobilů určité značky jsme získali hodnoty (v litrech na 100 km) v rozmezí 6,23 až 10,49. k = 1 + 3,3 log 80. = 7 Michal Fusek (fusekmi@feec.vutbr.cz) 13 / 26

Rozdělení četností Příklad Počet Relativní Kumulativní Kumulativní Interval aut četnost absolutní relativní n i f i četnost četnost 6; 6,5) 3 0,0375 3 0,0375 6,5; 7) 12 0,1500 15 0,1875 7; 7,5) 19 0,2375 34 0,4250 7,5; 8) 15 0,1875 49 0,6125 8; 8,5) 19 0,2375 68 0,8500 8,5; 9) 7 0,0875 75 0,9375 9; 9,5) 3 0,0375 78 0,9750 9,5; 10) 1 0,0125 79 0,9875 10; 10,5) 1 0,0125 80 1,0000 Michal Fusek (fusekmi@feec.vutbr.cz) 14 / 26

Jak data zobrazit? Rozdělení četností Histogram četností Normovaný histogram Normovaný histogram vznikne tak, že se relativní četnosti vydělí délkou dílčího intervalu. Michal Fusek (fusekmi@feec.vutbr.cz) 15 / 26

Charakteristiky souboru Charakteristiky polohy Popisují, kolem jakých hodnot se zkoumaný znak zhruba pohybuje. Máme-li soubor rozsahu n a zjištěné hodnoty znaku jsou x 1,..., x n, pak jejich aritmetický průměr je x = x 1 + + x n n = 1 n n x i. i=1 Aritmetický průměr znaku, který nabývá hodnot x 1, x 2,..., x k s četnostmi n i a relativními četnostmi f i, i = 1,..., k, lze vypočítat jako x = 1 n k x i n i = i=1 k x i f i. i=1 Michal Fusek (fusekmi@feec.vutbr.cz) 16 / 26

Charakteristiky souboru Co když zkoumáme spojitý znak a známe pouze rozložení intervalových četností? Můžeme spočítat aritmetický průměr a za hodnoty znaku vzít středy intervalů (aritmetický průměr však nedostaneme úplně přesně). Příklad Vypočítáme průměrnou spotřebu benzínu pro hodnoty z předchozího příkladu. Využijeme-li intervalové rozložení četností a jako reprezentanta každého intervalu vezmeme jeho střed: x. = 1 80 (6,25 3 + 6,75 12 + + 9,75 1 + 10,25 1). = 7,74. Použijeme-li původní hodnoty: x = 1 80 (6,23 + 6,38 + 6,48 + ). = 7,78. Michal Fusek (fusekmi@feec.vutbr.cz) 17 / 26

Charakteristiky souboru Aritmetický průměr není vždy ideální Občas nemusí dát dobrou představu o typické úrovni hodnot souboru. Příklad Ve firmě pracuje 10 řadových pracovníků s platem 15 000 Kč, zatímco ředitel má 100 000 Kč. Průměrný plat je pak přibližně 22 727 Kč....zkuste to říct těm dole. Modus statistického znaku značíme ˆx a je to hodnota, která se v souboru vyskytuje nejčastěji. U spojitých znaků (známe-li intervalové rozdělení četností) stanovujeme tzv. modální interval. Michal Fusek (fusekmi@feec.vutbr.cz) 18 / 26

Charakteristiky souboru Medián Medián statistického znaku značíme x nebo též x 0,5. Je to prostřední hodnota ze souboru uspořádaného podle velikosti. Označíme-li prvky uspořádané podle velikosti jako x (1), x (2),..., x (n) a počet prvků n je liché číslo, pak je medián přímo prostřední hodnota, tj. x = x ( n+1 2 ). Je-li rozsah souboru n sudé číslo, je medián průměr ze dvou prostředních prvků, tj. x = 1 2 ( x ( n 2) + x ( n 2 +1) ). Michal Fusek (fusekmi@feec.vutbr.cz) 19 / 26

Charakteristiky souboru Příklad Určete medián, jestliže zjištěné hodnoty zkoumaného znaku jsou Řešení: 4, 7, 3, 5, 2, 4, 8, 6, 3, 4, 7, 2, 4, 5, 5. Setříděním podle velikosti dostaneme 2, 2, 3, 3, 4, 4, 4, 4, 5, 5, 5, 6, 7, 7, 8. Hodnot je celkem 15, medián tedy bude osmá (prostřední) z nich, tj. x = 4. Michal Fusek (fusekmi@feec.vutbr.cz) 20 / 26

Charakteristiky souboru Kvantily Pro p (0, 1) je p-kvantil x p takové číslo, které odděluje nejmenších p 100 % hodnot statistického znaku od největších (1 p) 100 % hodnot. Speciální případy kvantilů: Medián x 0,5 dělí soubor seřazený podle velikosti zkoumaného znaku na poloviny. Kvartily x 0,25, x 0,5, x 0,75 dělí soubor na čtvrtiny. Hodnotu x 0,25 nazýváme první kvartil, druhý kvartil splývá s mediánem a hodnotu x 0,75 nazýváme třetí kvartil. Decily x 0,1,..., x 0,9 dělí soubor na desetiny. Mluvíme o prvním, druhém, až devátém decilu. Percentily x 0,01,..., x 0,99 dělí soubor na setiny. Michal Fusek (fusekmi@feec.vutbr.cz) 21 / 26

Charakteristiky souboru Charakteristiky variability Popisují rozptýlenost hodnot. Variační rozpětí je rozdíl největší a nejmenší hodnoty znaku, tedy R = x max x min. Nejjednodušší, ale i nejhrubší míra variability. Nevýhodou je vliv extrémních hodnot (naprostá většina hodnot může ležet v intervalu daleko užším). Mezikvartilové rozpětí je rozdíl třetího a prvního kvartilu: x 0,75 x 0,25. Michal Fusek (fusekmi@feec.vutbr.cz) 22 / 26

Charakteristiky souboru Rozptyl Rozptyl (populační, empirický) statistického znaku označíme sn 2 a definujeme jej jako ( ) sn 2 = 1 n (x i x) 2 1 n = xi 2 x 2, n n případně s 2 n = i=1 i=1 i=1 i=1 ( k k ) (x i x) 2 f i = xi 2 f i x 2, když znak nabývá hodnot x 1,..., x k s relativními četnostmi f i, i = 1,..., k. Aritmetický průměr čtverců odchylek jednotlivých hodnot znaku od aritmetického průměru. Výsledek je ve čtvercích použité měrné jednotky (ztěžuje interpretaci). Michal Fusek (fusekmi@feec.vutbr.cz) 23 / 26

Charakteristiky souboru Dva statistické znaky se stejným průměrem a různými rozptyly: Relativní četnosti pro znak s průměrem x =. 9 a rozptylem. = 1 s 2 n Relativní četnosti pro znak s průměrem x =. 9 a rozptylem. = 7 s 2 n Michal Fusek (fusekmi@feec.vutbr.cz) 24 / 26

Charakteristiky souboru Dříve představený (populační) rozptyl podhodnocuje skutečný rozptyl celé populace - vychýlený odhad. Proto se zavádí výběrový rozptyl (důležitější než populační rozptyl) s 2 n. Výběrový rozptyl značíme s 2 a je definován jako ( ) s 2 = 1 n (x i x) 2 1 n = xi 2 n n 1 n 1 n 1 x 2, i=1 i=1 tedy mezi populačním a výběrovým rozptylem je vztah s 2 = n n 1 s2 n, Michal Fusek (fusekmi@feec.vutbr.cz) 25 / 26

Charakteristiky souboru Směrodatná odchylka Směrodatná odchylka s n je odmocnina z rozptylu, tedy s n = sn 2 = 1 n (x i x) n 2. i=1 Výběrová směrodatná odchylka s je odmocnina z výběrového rozptylu, tedy s = s 2 = 1 n (x i x) n 1 2. i=1 Je ve stejných jednotkách jako sledovaný znak (lepší interpretace než rozpyl). Michal Fusek (fusekmi@feec.vutbr.cz) 26 / 26