1 Popis statistických dat. 1.1 Popis nominálních a ordinálních znaků



Podobné dokumenty
Doc. Ing. Dagmar Blatná, CSc.

4.2 Elementární statistické zpracování Rozdělení četností

10.2 VÁŽENÝ ARITMETICKÝ PRŮMĚR

Statistické charakteristiky (míry)

Mendelova univerzita v Brně Statistika projekt

Tento odhad má rozptyl ( ) σ 2 /, kde σ 2 je rozptyl souboru, ze kterého výběr pochází. Má-li každý prvek i. σ 2 ( i. ( i

STATISTIKA. Základní pojmy

Digitální učební materiál

2. Vícekriteriální a cílové programování

Soustava momentů. k s. Je-li tedy ve vzorci obecného momentu s = 1, získáme vzorec aritmetického průměru.

Přednáška č. 2 náhodné veličiny

VÁŽENÝ ARITMETICKÝ PRŮMĚR S REÁLNÝMI VAHAMI

Deskriptivní statistika 1

Budeme pokračovat v nahrazování funkce f(x) v okolí bodu a polynomy, tj. hledat vhodné konstanty c n tak, aby bylo pro malá x a. = f (a), f(x) f(a)

Ilustrativní příklad ke zkoušce z B_PS_A léto 2014.

NEPARAMETRICKÉ METODY

Nejistoty měření. Aritmetický průměr. Odhad směrodatné odchylky výběrového průměru = nejistota typu A

Charakteristiky úrovně

Lineární regrese ( ) 2

Ilustrativní příklad ke zkoušce z B_PS_A léto 2013.

Statistika je vědní obor zabývající se zkoumáním jevů, které mají hromadný charakter.

Test dobré shody se používá nejčastěji pro ověřování těchto hypotéz:

Odhady parametrů základního souboru. Ing. Michal Dorda, Ph.D.

8.1.2 Vzorec pro n-tý člen

3. cvičení 4ST201 - řešení

Regrese. Aproximace metodou nejmenších čtverců ( ) 1 ( ) v n. v i. v 1. v 2. y i. y n. y 1 y 2. x 1 x 2 x i. x n

8.1.2 Vzorec pro n-tý člen

Statistika. Jednotlivé prvky této množiny se nazývají prvky statistického souboru (statistické jednotky).

P1: Úvod do experimentálních metod

[ jednotky ] Chyby měření

STATISTIKA. Statistika se těší pochybnému vyznamenání tím, že je nejvíce nepochopeným vědním oborem. H. Levinson

Odhady parametrů 1. Odhady parametrů

3. cvičení 4ST201. Míry variability

Úvod do korelační a regresní analýzy

6 Intervalové odhady. spočteme aritmetický průměr, pak tyto průměry se budou chovat jako by pocházely z normálního. nekonečna.

a další charakteristikou je četnost výběrového souboru n.

Pravděpodobnostní modely

Pro statistické šetření si zvolte si statistický soubor např. všichni žáci třídy (několika tříd, školy apod.).

PRAVDĚPODOBNOST A STATISTIKA

P2: Statistické zpracování dat

2 IDENTIFIKACE H-MATICE POPISUJÍCÍ VEDENÍ Z NAMĚŘENÝCH HODNOT

2. TEORIE PRAVDĚPODOBNOSTI

12. N á h o d n ý v ý b ě r

13 Popisná statistika

k(k + 1) = A k + B. s n = n 1 n + 1 = = 3. = ln 2 + ln. 2 + ln

1 STATISTICKÁ ŠETŘENÍ

9 Kombinatorika, teorie pravděpodobnosti a matematická statistika

1 EXPLORATORNÍ ANALÝZA PROMĚNNÝCH. Čas ke studiu kapitoly: 120 minut. Cíl: Po prostudování této kapitoly budete umět použít

BIVŠ. Pravděpodobnost a statistika

SOUKROMÁ VYSOKÁ ŠKOLA EKONOMICKÁ ZNOJMO. Statistika I. distanční studijní opora. Milan Křápek

S k l á d á n í s i l

Národní informační středisko pro podporu kvality

1 POPISNÁ STATISTIKA V PROGRAMU MS EXCEL

Odhady parametrů základního. Ing. Michal Dorda, Ph.D.

5.5. KOMPLEXNÍ ODMOCNINA A ŘEŠENÍ KVADRATICKÝCH A BINOMICKÝCH ROVNIC

S1P Popisná statistika. Popisná statistika. Libor Žák

1. Základy měření neelektrických veličin

3. Charakteristiky a parametry náhodných veličin

Mod(x) = 2, Med(x) = = 2

5. Lineární diferenciální rovnice n-tého řádu

APLIKOVANÁ STATISTIKA

Přednáška č. 10 Analýza rozptylu při jednoduchém třídění

Užití binomické věty

Univerzita Karlova v Praze Pedagogická fakulta

11. Časové řady Pojem a klasifikace časových řad

1 Měření závislosti statistických znaků. 1.1 Dvourozměrný statistický soubor

Závislost slovních znaků

11. Popisná statistika

Metody zkoumání závislosti numerických proměnných

Pro orientaci v této problematice jsme se seznámili s nkolika novými pojmy:

Generování dvojrozměrných rozdělení pomocí copulí

Výukový modul III.2 Inovace a zkvalitnění výuky prostřednictvím ICT

SP2 Korelační analýza. Korelační analýza. Libor Žák

ZÁKLADY PRAVDĚPODOBNOSTI A STATISTIKY

Chyby přímých měření. Úvod

- metody, kterými lze z napozorovaných hodnot NV získat co nejlepší odhady neznámých parametrů jejího rozdělení.

Komplexní čísla. Definice komplexních čísel

10.3 GEOMERTICKÝ PRŮMĚR

2. Znát definici kombinačního čísla a základní vlastnosti kombinačních čísel. Ovládat jednoduché operace s kombinačními čísly.

Interpolační křivky. Interpolace pomocí spline křivky. f 1. f 2. f n. x... x 2

8.2.1 Aritmetická posloupnost

Pravděpodobnost a aplikovaná statistika

Popisná statistika - zavedení pojmů. 1 Jednorozměrný statistický soubor s kvantitativním znakem

Elementární zpracování statistického souboru

Testování statistických hypotéz

Náhodné jevy, jevové pole, pravděpodobnost

jsou varianty znaku) b) při intervalovém třídění (hodnoty x

8. Základy statistiky. 8.1 Statistický soubor

Cvičení 6.: Výpočet střední hodnoty a rozptylu, bodové a intervalové odhady střední hodnoty a rozptylu

Spolehlivost a diagnostika

Statistika. Statistické funkce v tabulkových kalkulátorech MSO Excel a OO.o Calc

VY_52_INOVACE_J 05 01

Název školy: Gymnázium Jana Nerudy, škola hl. města Prahy. Předmět, mezipředmětové vztahy: matematika a její aplikace

Popisné (deskriptivní) metody. Statistické metody a zpracování dat. II. Popisné statistické metody. Rozdělení četností. Skupinové rozdělení četností

14. Korelace Teoretické základy korelace Způsoby měření závislostí pro různé typy dat

Základy statistiky. Zpracování pokusných dat Praktické příklady. Kristina Somerlíková

PRAVDĚPODOBNOST A STATISTIKA

MATICOVÉ HRY MATICOVÝCH HER

PŘÍKLAD NA VÁŽENÝ ARITMETICKÝ PRŮMĚR Z INTERVALOVÉHO ROZDĚLENÍ ČETNOSTI

3. Charakteristiky a parametry náhodných veličin

Transkript:

1 Pops statstcých dat 1.1 Pops omálích a ordálích zaů K zobrazeí rozděleí hodot omálích ebo ordálích zaů lze použít tabulu ebo graf rozděleí četostí. Tuto formu zobrazeí lze dooce použít pro číselé zay, poud počet obmě zau eí přílš vysoý (apř. počet dětí v domácost). Tabula rozděleí četostí (stručě tabula četostí) je specálím případem tabuly agregovaých údajů. Řády tabuly představují jedotlvé obměy zobrazovaého zau, zobrazeým agregovaým údajem jsou četost (počty) výsytu těchto obmě. ZNÁMKA POČET MATEMATIKA POČET STATISTIKA 1 12 18 2 35 37 3 61 54 4 18 17 CELKEM 126 126 Obr. 2.1 Uáza tabuly četostí rozděleí záme z matematy a statsty Četost (ědy zvaá absolutí četost, czím slovem frevece) obměy zau je rova celovému počtu výsytů této obměy v souboru. Poud je statstcý soubor tvoře jedotam a sledovaý za abývá růzých obmě (hodot), pa pro četost jedotlvých obmě 1, 2 až musí platt: 1 2 1 Kromě absolutích četostí se často uvádějí taé relatví četost p, teré vyjadřují, jaou část z celu (tj. celého souboru) tvoří jedoty s daou obměou zau. Obvyle se uvádějí v procetech (%). Relatví četost p spočítáte podle vzorce: p 100% Součet relatvích četostí všech obmě zau musí být rove 1, ebol 100%. 2

Pořadí jedotlvých obmě v tabulce rozděleí četostí se u omálích zau volí obvyle podle abecedy (podle ázvů obmě), u ordálích a metrcých zaů podle rostoucí hodoty. Posledí řáde tabuly četostí tvoří obvyle součet hodot (četostí) z jedotlvých řádů. Teto údaj je rove u absolutích četostí rozsahu souboru, u relatvích četostí je rove jedé. U ordálích zaů se ědy uvádějí taé umulatví četost. Kumulatví četost -té obměy je defováa jao součet četostí všech obmě zau, teré v daém uspořádáí mají hodotu žší ebo ejvýše rovu sledovaé obměě. Poud jsou jedotlvé obměy uspořádáy ve smyslu svých pořadových čísel, lze umulatví četost m vyjádřt jao: m... 1 2 j j 1 Obdobě jao relatví četost lze defovat relatví umulatví četost F jao relatví vyjádřeí umulatví četost obměy vůč počtu všech jedote souboru (apřílad relatví umulatví četost trojy vyjadřuje, jaá část studetů udělala zoušu). Platí tedy: F m 100% V programu Mcrosoft Ecel lze vytvořeí tabuly rozděleí četostí použít ástroj Kotgečí tabula. Teto ástroj vytvoří absolutí četost, ostatí typy četostí lze dopočítat pomocí výše uvedeých vzorců. KUMUL. ČETNOSTI VZDĚLÁNÍ ČETNOSTI abs. rel. abs. rel. záladí 4 16% 4 16% vyuče 5 20% 9 36% maturta 9 36% 18 72% VŠ 7 28% 25 100% CELKEM 25 100% Obr. 2.2 Tabula četostí statstcého zau vzděláí Názorou a často používaou formou zobrazeí četostí omálího ebo ordálího zau jsou grafy četostí: sloupcový graf četostí ebol hstogram; spojcový graf četostí ebol polygo; výsečový (oláčový) graf. 3

Výsečový graf je vhodý zejméa v případech, dy je počet obmě malý. V případě většího počtu obmě se stává epřehledým a je lepší zvolt sloupcový graf (hstogram). Te je aopa vhodý v případech, dy počet růzých obmě je mez 5 a 20. Na osu y lze vyášet absolutí relatví četost. Pro grafcé vyjádřeí četostí obmě ordálího zau se graf výsečový přílš ehodí, eboť ezdůrazňuje uspořádáí (ordaltu) zobrazovaého zau. Naopa velm vhodý je spojcový graf četostí, tazvaý polygo, eboť jeho spojce zázorňuje vývoj daého zau. Kromě grafů (prostých) četostí se vša vyjádřeí a zobrazeí průběhu ordálího zau používají grafy umulatvích četostí. Polygo umulatvích četostí se taé azývá podle svého autora Galtoova ogva, díy svému typcému tvaru taé součtová S řva. 10 8 6 4 2 0 Hstogram záladí vyuče maturta VŠ 100% 80% 60% 40% 20% 0% Galtoova ogva záladí vyuče maturta VŠ Obr. 2.3 Grafy rozděleí četostí statstcého zau vzděláí 1.2 Pops metrcých zaů Počet obmě metrcého (číselého) zau bývá často přílš velý a to, aby mohl být prezetová pomocí tabuly rozděleí četostí přímo. Pratcé zušeost uazují, že počet růzých obmě by eměl přeročt hodotu 20 (tj. < 20), avíc rozsahem souboru (počet jedote) by měl být alespoň 3 větší ež počet obmě. Představte s apřílad rozděleí měsíčích příjmů všech zaměstaců v Česé republce. Jejch příjmy mohou teoretcy abývat hodot od ěola tsíc Kč až po stovy tsíc Kč. Tabula rozděleí četostí by v taovém případě měla statsíce řáde, přčemž četost u většy hodot by byla velm malá čísla (často 0 ebo 1). Vypovídací schopost taové tabuly by byla pratcy ulová. Pro vyhodoceí metrcého statstcého zau s velým počtem obmě se proto používá metoda, př teré se rozdělí celý rozsah hodot zau a ěol stejě velých dsjutích tervalů tříd, se terým se dále pracuje obdobě jao s obměam ordálího zau. Tomuto rozděleí se obvyle říá tervalové rozděleí četostí. 4

Počet tříd (tervalů) je třeba volt ta, aby vzlé rozděleí četostí mělo dobrou vypovídací schopost. Poud se zvolí malý počet tříd, dojde př tříděí výrazé ztrátě formace o průběhu původího zau. Poud se aopa zvolí přílš velý počet tříd (s malým četostm), bude vzlé tervalové rozděleí epřehledé. Estují růzá emprcá doporučeí pro určeí počtu tříd, z chž ejzámější je zřejmě Sturgesovo pravdlo : 1 3,3 log Vypočteá hodota je pouze doporučeou, eí tedy žádé dogma, teré je uto dodržet. Odchyla sutečého počtu tříd od doporučeé hodoty o 2 třídy ahoru ebo dolů je tedy ještě přjatelá. Je-l urče počet tříd, může se staovt přblžá šířa tervalu (třídy) h podle vztahu: de: h ma m ma ejvyšší hodota statstcého zau m ejžší hodota statstcého zau Ve sutečost se tervaly (třídy) volí ta, aby byly splěy ásledující podmíy: počet tervalů emá být meší ež 5 a větší ež 20; hrace tervalů musí být dobře zapamatovatelá zaorouhleá čísla; tervaly musí jedozačě porývat celý obor hodot popsovaého zau; tervaly by měly být stejě šroé; oba rají tervaly rozděleí musí mít eulové četost. Aby byla splěa podmía jedozačého porytí oboru hodot proměé, musí mít sousedí tervaly společý hračí bod, přčemž ale tato hrace musí být jedozačě přřazea pouze jedomu z tervalů. KUMUL. ČETNOST ZNAK PLAT ČETNOST abs. rel. abs. rel. 5001-10000 15 62,5% 15 62,5% 10001-15000 3 12,5% 18 75,0% 15001-20000 2 8,3% 20 83,3% 20001-25000 0 0,0% 20 83,3% 25001-30000 2 8,3% 22 91,7% 30001-35000 1 4,2% 23 95,8% 35001-40000 1 4,2% 24 100,0% CELKEM 24 100,0% 5

Obr. 2.4 Tabula rozděleí četostí statstcého zau plat K vytvořeí tervalového rozděleí četostí lze v programu Mcrosoft Ecel použít ástroj Hstogram, terý je součástí Aalytcých ástrojů (z meu Nástroje / Aalýza dat). 1.3 Číselé míry a charatersty Rozložeí obmě statstcých zaů lze vyjádřt eje tabulou ebo grafem rozložeí četostí, ale taé vhodou ombací číselých charaterst. Tyto míry pa mohou být prezetováy samostatě, ebo jao agregátí uazatele v rámc tabuly ebo grafu. Větša charaterst uváděých v této aptole se bude vztahovat číselým, tedy metrcým proměým. Straou vša ezůstaou a charatersty, teré se používají popsu proměých valtatvích. Statstcé zay obvyle popsují dva záladí typy charaterst: míry polohy (úrově), teré určují typcé rozložeí hodot zau (umístěí obmě zau a číselé ose); míry varablty, teré určují varabltu ebol rozptyl hodot olem své typcé polohy. Míry polohy se saží ahradt celé rozložeí statstcého zau jedou hodotou, terá bude typcým reprezetatem zau, jeho pomyslým středem. Proto se těmto charaterstám říá taé středí hodoty. Záladím a ejrozšířeějším typem středí hodoty (pro číselé proměé) je artmetcý průměr. Zísáte ho ta, že sečteme všechy hodoty (obměy) číselého zau a součet vydělíte počtem hodot: de: 1 2... 1 artmetcý průměr jedotlvé hodoty zau ( 1, 2, až ) počet hodot zau (rozsah statstcého souboru) Poud máte statstcou proměou defováu pomocí tabuly rozděleí četostí, taže víte, že aždá obměa se v souboru vysytuje s četostí, můžete středí hodotu všech hodot zau vyjádřt pomocí vzorce pro vážeý artmetcý průměr: 6

de: 1 četost jedotlvých hodot zau Poud ahradíme jedotlvé hodoty zau středím hodotam jedotlvých tříd, lze teto vzorec použít taé pro výpočet středí hodoty zau v tervalovém rozděleí četostí. Poud v tervalovém rozděleí ezáte průměry tříd, můžete je odhadout pomocí středu tervalu. V tom případě vša vypočteý artmetcý průměr ebude přesý, půjde pouze o odhad sutečé hodoty. Artmetcý průměr se počítá ze všech hodot statstcého zau. Využívá tedy ejvíce formací o celém souboru (zau), a druhé straě je ovšem velm ctlvý a etrémí odchyly. Proto se v ěterých případech místo ěho používají další středí hodoty, teré jsou a etrémí výyvy méě ctlvé. Patří mez ě především medá a modus. Medá je defová jao prostředí hodota zau. Zameá to, že počet hodot meších ež medá a větších ež medá by se měl rovat. Hodota medáu metrcého zau se určí ásledujícím způsobem: 1. jedoty souboru se uspořádají podle sledovaého zau od ejmeší do ejvětší a očíslují se; 2. je-l rozsah souboru lchý, je střed souboru defová jedozačě (apř. př 25 prvcích souboru jde o 13. hodotu v pořadí), medá je rove přímo hodotě tohoto prostředího zau; 3. je-l rozsah souboru sudý, určí se medá jao artmetcý průměr dvou hodot, teré leží ejblíže pomyslému středu souboru (apř. u souboru o 20 jedotách je to 10. a 11. hodota). Medá lze použít jao středí hodotu taé u ordálích ečíselých zaů. Stačí hodoty tohoto zau uspořádat podle velost (výzamu) a ajít střed tato uspořádaého zau (vz postup výše). Tato určeý střed souboru lze terpretovat jao hodotu, terá je stejě vzdáleá od obou rajích jedote. Modus ˆ číselého (metrcého) zau je chápá jao hodota (obměa) s ejvyšší četostí, tedy hodota, terá se v souboru vysytuje ejčastěj. Modus lze samozřejmě určovat pouze tehdy, poud jej lze staovt jedozačě, tj. poud ejvyšší četost má pouze jeda obměa. U spojtých metrcých zaů (apř. plat, teplota ebo spotřeba automoblu) bývá aždá obměa zau dvduálí, proto u taových zaů emá smysl modus určovat. Modus je aopa obvyle jedou středí hodotou, terou lze určt u omálího ečíselého zau. V tomto případě epředstavuje a ta pomyslý střed souboru (zau), 7

jao spíše typcého reprezetata tohoto zau, tedy hodotu, terá chováí souboru ovlvňuje ejvíce. Uvedeé středí hodoty, ať jž jde o průměr, medá ebo modus, umožňují charaterzovat polohu statstcého zau. Vyjadřují pomyslý střed zoumaého zau, c vša eříají o rozložeí jedotlvých obmě olem tohoto středu tedy o varabltě zau. Čím větší je totž rozptýleost hodot olem pomyslého středu souboru, tím meší má tato středí hodota schopost reprezetovat celý za. Záladí míra rozptýleost (varablty) číselého statstcého zau je rozptyl 2. Jde vlastě o artmetcý průměr vypočteý z druhých moc odchyle hodot zau od jejch středí hodoty. Pro výpočet rozptylu tedy eí důležté, zda jsou tyto odchyly ladé ebo záporé: 2 1 2 V případě výběrového souboru vša uvedeý vzorec sutečou varabltu daého zau podhodocuje. Proto se místo ěho používá vztah pro tzv. výběrový rozptyl s 2 : s 2 1 1 2 Hodota 1 ve jmeovatel vzorce pro výběrový rozptyl se azývá stupeň volost. Neboť v pra se budete setávat především s výběrovým soubory, budete taé většou varabltu hodot zau vyjadřovat podle právě uvedeého vzorce pro výběrový rozptyl. Navíc u souborů s více ež 30 hodotam (tzv. velé soubory) jž eí mez oběma výpočty rozptylu pratcy žádý podstatý rozdíl. V pra se pro výpočet (výběrového) rozptylu s 2 obvyle používá upraveý vzorec: s 2 1 2 2 1 Př použtí tohoto vzorce se výrazě sžuje počet potřebých operací př výpočtu. Máme-l statstcý za zadaý pomocí tabuly četostí, lze varabltu určt pomocí vážeého rozptylu, tedy obdobě jao u artmetcého průměru. Pro výběrový rozptyl bude příslušý vzorec vypadat tato: 8

s 2 1 2 2 1 Problém astává teprve u tervalového rozděleí četostí. Poud bychom totž do výše uvedeého vzorce dosadl amísto hodot středí hodoty tervalů, vypočteme tímto způsobem pouze varabltu mez třídam, rozptyly hodot uvtř tervalů ebudou započtey. Výsledá varablta bude tedy podhodoceá. Nevýhodou použtí rozptylu jao uazatele varablty je sutečost, že rozměr tohoto uazatele je vyjádře ve druhé mocě rozměru hodot daého statstcého zau. Teto edostate vša odstraí další uazatel varablty, směrodatá odchyla s. Ta se vypočte jedoduše jao odmoca z rozptylu: s 1 2 2 1 Směrodatou odchylu lze terpretovat jao průměrou odchylu hodot zau od středí hodoty, případě jao průměrou odchylu (rozdíl) mez hodotam zau. Pro výpočet číselých charaterst statstcých zaů zadaých ve formě sezamu hodot (olv tedy tabuly četostí) estuje v Ecelu (verze 2010 a výše) ěol fucí, teré s yí uvedeme: PRŮMĚR MEDIAN MODE VAR.P VAR.S SMODCH.VÝBĚR.S artmetcý průměr medá modus rozptyl (záladího souboru) výběrový rozptyl výběrová směrodatá odchyla Souhré popsé údaje o statstcém zau můžeme zísat taé ajedou pomocí aalytcého ástroje Popsá statsta. 9

Vyzoušejte s sam 1. Tabula obsahuje rozděleí pracovíů podle platových tříd: TARIF PLAT POČET třída 6 16 400 213 třída 7 17 200 354 třída 8 18 000 289 třída 9 19 000 153 třída 10 20 000 87 třída 11 21 300 25 třída 12 22 600 4 a) Určete, jaého typu jsou statstcé zay platová třída a tarf plat. b) Doplňte tabulu o relatví a umulatví četost. c) Určete medá a modus zau platová třída. d) Určete středí hodotu a směrodatou odchylu zau tarfí plat. 2. Tabula obsahuje přehled o pravdelém měsíčím spořeí letů vescé ampelčy: MĚSÍČNÍ SPOŘENÍ POČET 0 až 200 5 200 až 400 9 400 až 600 12 600 až 800 11 800 až 1000 6 více ež 1000 2 a) Vypočtěte artmetcý průměr a medá zau měsíčí spořeí. b) Vypočtěte rozptyl a směrodatou odchylu. 10