Statistika pro gymnázia



Podobné dokumenty
Základy popisné statistiky

Statistika pro geografy

Popisná statistika. Jaroslav MAREK. Univerzita Palackého

Zpracování náhodného výběru. Ing. Michal Dorda, Ph.D.

23. Matematická statistika

veličin, deskriptivní statistika Ing. Michael Rost, Ph.D.

Matematika III. 27. listopadu Vysoká škola báňská - Technická univerzita Ostrava. Matematika III

Výrobní produkce divizí Ice Cream Po lo ha plane t Rozložený výse ový 3D graf Bublinový graf Histogram t s tn e ídy

Popisná statistika. Statistika pro sociology

Statistika, Biostatistika pro kombinované studium Letní semestr 2011/2012. Tutoriál č. 4: Exploratorní analýza. Jan Kracík

STATISTIKA 1. Adam Čabla Katedra statistiky a pravděpodobnosti VŠE

MATEMATICKÁ STATISTIKA. Katedra matematiky a didaktiky matematiky Technická univerzita v Liberci

Základy popisné statistiky. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek

Náhodná proměnná. Náhodná proměnná může mít rozdělení diskrétní (x 1. , x 2. ; x 2. spojité (<x 1

Statistika. Diskrétní data. Spojitá data. Charakteristiky polohy. Charakteristiky variability

Renáta Bednárová STATISTIKA PRO EKONOMY

Praktická statistika. Petr Ponížil Eva Kutálková

Mnohorozměrná statistická data

Zápočtová práce STATISTIKA I

MATEMATIKA III V PŘÍKLADECH

Základní statistické charakteristiky

Číselné charakteristiky a jejich výpočet

Charakteristika datového souboru

Číselné charakteristiky

Předmět studia: Ekonomická statistika a analytické metody I, II

Mnohorozměrná statistická data

Náhodná veličina a rozdělení pravděpodobnosti

Statistika I (KMI/PSTAT)

TECHNICKÁ UNIVERZITA V LIBERCI SEMESTRÁLNÍ PRÁCE

Analýza dat na PC I.

Základy teorie pravděpodobnosti

Komplexní čísla, Kombinatorika, pravděpodobnost a statistika, Posloupnosti a řady

ZÁKLADNÍ STATISTICKÉ CHARAKTERISTIKY

Popisná statistika. úvod rozdělení hodnot míry centrální tendence míry variability míry šikmosti a špičatosti grafy

Úvod do kurzu. Moodle kurz. (a) (b) heslo pro hosty: statistika (c) skripta na pravděpodobnost

1.1 Dva základní typy statistiky Popisná statistika (descriptive statistics) Inferenční statistika (inferential statistics)

Třídění statistických dat

3. Základní statistické charakteristiky. KGG/STG Zimní semestr Základní statistické charakteristiky 1


STATISTICKÉ CHARAKTERISTIKY

Pravděpodobnost a statistika

Popisná statistika. Komentované řešení pomocí MS Excel

Kombinatorika, pravděpodobnost a statistika, Posloupnosti a řady

Pojem a úkoly statistiky

Statistika. pro žáky 8. ročníku. úterý, 26. března 13

Informační technologie a statistika 1

Statistika. cílem je zjednodušit nějaká data tak, abychom se v nich lépe vyznali důsledkem je ztráta informací!

2. Základní typy dat Spojitá a kategoriální data Základní popisné statistiky Frekvenční tabulky Grafický popis dat

Statistické metody. Martin Schindler KAP, tel , budova G. naposledy upraveno: 9.

Matematika III. 29. října Vysoká škola báňská - Technická univerzita Ostrava. Matematika III

Cvičení ze statistiky. Filip Děchtěrenko ZS 2012/2013

Úloha č. 2 - Kvantil a typická hodnota. (bodově tříděná data): (intervalově tříděná data): Zadání úlohy: Zadání úlohy:

Statistika. zpracování statistického souboru

TECHNICKÁ UNIVERZITA V LIBERCI. Ekonomická fakulta. Semestrální práce. Statistický rozbor dat z dotazníkového šetření školní zadání

UKAZATELÉ VARIABILITY

2. Bodové a intervalové rozložení četností

Statistika jako obor. Statistika. Popisná statistika. Matematická statistika TEORIE K MV2

Pythagorova věta Pythagorova věta slovní úlohy. Mocniny s přirozeným mocnitelem mocniny s přirozeným mocnitelem operace s mocninami

Jevy a náhodná veličina

mezi studenty. Dále bychom rádi posoudili, zda dobrý výsledek v prvním testu bývá doprovázen dobrým výsledkem i v druhém testu.

Statistika - charakteristiky variability

7. Rozdělení pravděpodobnosti ve statistice

Pythagorova věta Pythagorova věta slovní úlohy

přesné jako tabulky, ale rychle a lépe mohou poskytnou názornou představu o důležitých tendencích a souvislostech.

Popisná statistika kvantitativní veličiny

Aplikovaná statistika v R

Metodologie pro ISK II

Základy pravděpodobnosti a statistiky. Popisná statistika

Charakteristiky kategoriálních veličin. Absolutní četnosti (FREQUENCY)

SAMOSTATNÁ STUDENTSKÁ PRÁCE ZE STATISTIKY

Semestrální projekt. do předmětu Statistika. Vypracoval: Adam Mlejnek Oponenti: Patrik Novotný Jakub Nováček Click here to buy 2

Základy popisné statistiky

Matematická statistika

2. Statistická terminologie a vyjadřovací prostředky Statistická terminologie. Statistická jednotka

TEST Z TEORIE EXPLORAČNÍ ANALÝZA DAT

TECHNICKÁ UNIVERZITA V LIBERCI

Škály podle informace v datech:

Statistika s Excelem aneb Máme data. A co dál? Martina Litschmannová Katedra aplikované matematiky, FEI, VŠB-TU Ostrava

Popisná statistika. úvod rozdělení hodnot míry centrální tendence míry variability míry šikmosti a špičatosti grafy

Statistika. Zpracování informací ze statistického šetření. Roman Biskup

Obecné momenty prosté tvary

Matematické modelování dopravního proudu

Průzkumová analýza dat

Základy statistiky. pracovní list. Základní škola Zaječí, okres Břeclav Školní 402, , příspěvková organizace

Protokol č. 1. Tloušťková struktura. Zadání:

Pracovní list č. 3 Charakteristiky variability

Zpracování náhodného výběru. Ing. Michal Dorda, Ph.D.

Jiří Neubauer. Katedra ekonometrie, FVL, UO Brno kancelář 69a, tel

STATISTIKA S EXCELEM. Martina Litschmannová MODAM,

, Brno Hanuš Vavrčík Základy statistiky ve vědě

Metodologie pro Informační studia a knihovnictví 2

Co je to statistika? Úvod statistické myšlení. Základy statistického hodnocení výsledků zkoušek. Petr Misák

Pracovní list slouží k procvičení statistiky. Žáci se především procvičí v základních pojmech, které se týkají statistiky.

Základy štatistiky. Charakteristiky štatistického znaku

Základy popisné statistiky

Mgr. Karla Hrbáčková, Ph.D. Základy kvantitativního výzkumu

Kontrola: Sečteme-li sloupec,,četnost výskytu musí nám vyjít hodnota rozsahu souboru (našich 20 žáků)

E(X) = np D(X) = np(1 p) 1 2p np(1 p) (n + 1)p 1 ˆx (n + 1)p. A 3 (X) =

Transkript:

Statistika pro gymnázia Pracovní verze učebního textu ZÁKLADNÍ POJMY Statistika zkoumá jevy (společenské, přírodní, technické) ve velkých statistických souborech. Prvky statistických souborů se nazývají statistické jednotky. Počet jednotek souboru se nazývá rozsah souboru. Vlastnosti statistických jednotek se vyjadřují pomocí statistických znaků. Shodnými znaky je vymezena příslušnost jednotky k danému statistickému souboru, předmětem šetření jsou znaky proměnlivé. Dělení statistických znaků: a) kvantitativní znaky jsou vyjádřeny číselnou velikostí; spojitý znak nabývá (v určitých mezích) jakékoliv reálné hodnoty, zatímco nespojitý (diskrétní) znak může nabýt jen některých (např. celočíselných) hodnot, b) kvalitativní znaky liší se kvalitou, popsány slovně; pokud může znak nabýt pouze dvou obměn, nazývá se alternativní znak. (Alternativní znaky lze ovšem snadno kvantifikovat přidělením logických hodnot 0 resp. 1.) Statistické zkoumaní se rozděluje do čtyř etap: (1) Plán zkoumání úkoly a obsah akce. Stanovení statistických jednotek a znaků. Příprava rozpočtu, pracovníků, formulářů, techniky. (2) Šetření úplné, nebo výběrové (stanovení výběrového souboru). (3) Zpracování výsledků kontrola, roztřídění, shrnutí údajů. Tvorba tabulek. (4) Rozbor získaných výsledků. POPIS JEDNOROZMĚRNÝCH ROZDĚLENÍ ČETNOSTÍ Popis četnosti kvantitativního znaku Nejprve se budeme zabývat pouze jediným kvantitativním statistickým znakem. Předpokládejme, že jsme šetřením statistického znaku x u n jednotek zjistili n hodnot znaku x i, kde i = 1, 2,..., n. Tento znak jak již víme může být buďto diskrétní, nebo spojitý. 1. Diskrétní znak Předpokládejme, že znak může nabýt právě r různých hodnot, které označíme V 1, V 2,..., V r. Výsledky zkoumání můžeme tedy uspořádat do tabulky, která bude mít r řádků a dva sloupce; v prvním sloupci budou podle hodnoty uspořádané varianty znaku (tj. V j, kde j = 1, 2,..., r), ve druhém sloupci pak číslo n j udávající, kolikrát se ve statistickém souboru daná hodnota znaku vyskytla. Toto číslo se nazývá absolutní četnost hodnoty V j. Relativní četností se rozumí

číslo relativní četnost se často násobí 100, pak je vyjádřena v procentech. ν j = n j n ; (1) Součet četností všech možných hodnot znaku se rovná počtu všech jednotek souboru, tedy r n j = n. (2) Součet relativních četností všech možných hodnot znaku se rovná jedné, tedy j=1 r ν j = n. (3) j=1 Vedle uvedené absolutní resp. relativní četnosti se zavádějí absolutní resp. relativní kumulativní četnosti, které informují kolik resp. jaký podíl jednotek souboru má hodnotu x i V j. Grafické znázornění: Na vodorovnou osu naneseme jednotlivé hodnoty znaku, na svislou osu četnosti. Poté vztyčíme kolmice k vodorovné ose, jejichž délka je úměrná příslušné četnosti. Spojením jejich koncových bodů vznikne polygon četnosti (spojnicový diagram). 2. Spojitý znak Spojitý znak může nabývá nekonečně mnoha hodnot z jistého intervalu omezeného nejmenší a největší hodnotou. Tento interval rozdělíme na několik dílčích intervalů (zpravidla stejné šíře), v nichž spočítáme příslušné četnosti podobně jako v předchozím případě. Doporučuje se, aby dílčích intervalů bylo 5 20; podle Sturgesova pravidla by počet intervalů měl být zhruba dán výrazem 1 + 3, 3 log n. Grafické znázornění: Zpravidla se užívá histogram. Jde o typ sloupcového diagramu, kde sloupce (obdélníky) tvořící diagram mají šířku rovnou šířce dílčích intervalů; výška odpovídá četnosti zjištěných hodnot v daném intervalu. Popis četnosti kvalitativního znaku Zjištěné údaje se uspořádají do tabulky, v níž se jednotlivým variantám znaku přiřadí jejich četnosti. Grafické znázornění: Kruhový (výsečový) diagram v tomto diagramu různým hodnotám znaku odpovídají kruhové výseče, jejichž plošné obsahy jsou úměrné četnostem. V další části textu se budeme zabývat již jen kvantitativními znaky. CHARAKTERISTIKY POLOHY Charakteristikami polohy se snažíme vystihnout úroveň, na níž se zhruba pohybují hodnoty kvantitativního znaku v daném souboru.

Aritmetický průměr, modus Jednoduchou charakteristikou polohy je aritmetický průměr definovaný vztahem: x = x 1 + x 2 + x 3 + + x n n = 1 n n x i. (4) i=1 Výpočet aritmetického průměru z tabulky četností je rychlejší než podle vzorce (4); musíme přitom každou hodnotu V j násobit její četností n j : x = 1 n r V j n j. (5) j=1 Výpočet aritmetického průměru z dílčích souborů. Předpokládejme, že se soubor skládá z dílčích souborů A, B, C, které mají počty jednotek n A, n B, n C a průměry x A, x B, x C. Potom x = x An A + x B n B + x C n C n A + n B + n C. (6) Takto počítaný průměr se nazývá vážený průměr. Obecně je vážený průměr čísel u 1, u 2,... u n s váhami v 1 > 0, v 2 > 0,..., v n > 0 dán vztahem ū = n j=1 u jv j n j=1 v ; (7) j vztah užívají studenti dr. Voršilkové a dr. Hrnčířové k výpočtu svých známek z matematiky. Vedle aritmetického průměru existuje ještě další, jednodušší charakteristika polohy: modus. Modus Mod(x) znaku x je hodnota V j tohoto znaku s největší četností. 1 ) Kvantily Kvantil x ϑ (čteme: ϑ-procentní kvantil) je hodnota kvantitativního znaku x, pro kterou platí, že nejméně ϑ % statistických jednotek má hodnotu tohoto znaku menší nebo rovnou x ϑ, a alespoň (100 ϑ) % jednotek nabývá hodnoty větší nebo rovné x ϑ. Nejčastěji užívané kvantily mají speciální názvy: dolní kvartil x 25 medián Med(x) := x 50 horní kvartil x 75 decily x 10, x 20,..., x 90 percentily x 1, x 2,..., x 99 Na základě výše uvedeného můžeme říci, že medián Med(x) znaku x je prostřední hodnota znaku, jsou-li hodnoty znaku uspořádány podle velikosti, neboť podle obecné definice kvantilu má nejméně 50 % statistických jednotek hodnotu znaku menší než medián a alespoň 50 % jednotek nabývá hodnoty větší nebo rovné mediánu. Přesněji: Je-li počet hodnot znaků n lichý, rovná 1 ) V některé literatuře se pro modus používá označení ˆx.

se medián prostřednímu, tj. n+1 2 -tému členu posloupnosti hodnot seřazených podle velikosti; je-li počet hodnot znaků n sudý, rovná se medián aritmetickému průměru dvou hodnot kolem středu, tzn. průměru n 2 -té hodnoty a n+1 2 -té hodnoty. Medián vhodnější charakteristika polohy než aritmetický průměr zejména v takovém souboru, kde některé hodnoty extrémně vybočují, a tím aritmetický průměr příliš zvyšují resp. snižují. CHARAKTERISTIKY VARIABILITY Charakteristika polohy je číslo, vyjadřující úroveň, kolem které jednotlivé hodnoty znaku kolísají. Velikost tohoto kolísání ( jak moc se jednotlivé hodnoty liší od průměru resp. mediánu ) vyjadřují charakteristiky variability (měnivosti, kolísavosti, rozptýlenosti). Charakteristiky variability související s aritmetickým průměrem Odchylkou i-té hodnoty znaku od aritmetického průměru rozumíme rozdíl x i x. Jak je patrné, odchylka je kladná resp. záporná podle toho, zda je i-tá hodnota znaku větší resp. menší než průměr. Sečteme-li odchylky všech hodnot daného znaku, musí protože jsou počítány z aritmetického průměru vyjít nula. Rozptyl s 2 je průměr druhých mocnin odchylek, tedy s 2 = 1 n n (x i x) 2. (8) i=1 Směrodatná odchylka s je odmocnina z rozptylu: s = s 2 = 1 n (x i x) n 2. (9) i=1 Poznámka pro všetečného čtenáře. Čtenář možná položí otázku, proč jsou uvedené veličiny zavedeny tak prapodivným způsobem. Pokusme se to vysvětlit: Bylo by přirozené vyjít od odchylek a spočítat jejich průměr. Jenže jak již víme součet odchylek je roven nule, proto i jejich průměr je roven 0. Je tedy třeba zbavit se záporných znamének. To je možné učinit vložením absolutní hodnoty do vzorce; absolutní hodnoty jsou však pro teoretické úvahy dosti nepohodlné. Byla proto dána přednost druhým mocninám odchylek, které jsou podobně jako absolutní hodnoty nezáporné. Tak byl zaveden pojem rozptyl. Nevýhodou rozptylu však je, že má jiný fysikální rozměr, než vyhodnocovaný statistický znak. (Zkoumáme-li např. délku L, má její rozptyl rozměr L 2, tedy rozměr obsahu.) Vše se však spraví, pokud vypočítaný rozptyl opět odmocníme. Tím jsme již došli k pojmu směrodatná odchylka. Problematikou chyb fysikálních měření se podrobně zabývá jiný autorův učební text. Charakteristiky variability související s mediánem Je-li poloha charakterizována mediánem, není dobré popisovat variabilitu souboru směrodatnou odchylkou, zavedenou pomocí aritmetického průměru. Raději užijeme mezikvartilovou odchylku. Mezikvartilová odchylka je definována pomocí dolního a horního kvartilu vztahem Q = 1 2 ( x 75 x 25 ). (10)

Tab. 1: Základní pojmy Tab. 2: Četnosti diskrétního znaku Tab. 4: Seřazení Vyšší kuchařská M. D. Rettigové, Praha-Bubny Četnosti jednotlivých známek 1 1 Žáci třídy 4. B Známka Četnost Rel. č. Rel. č. % KRČ ke (5) 2 1 Znám Dobro 1 3 0,10 10,00 10,00% 3 3 1 Jméno Body F ka M mila 2 4 0,13 13,33 23,33% 8 4 2 1 Adéla Bernardová 163,5 1 0 3 8 0,27 26,67 50,00% 24 5 2 2 Andrea Cvrkalová 136 2 0 4 14 0,47 46,67 96,67% 56 6 2 3 Anna Čurdová 90 4 1 5 1 0,03 3,33 100,00% 5 7 2 4 Dominika Futerová 122,5 3 0 Celkem 30 1,00 100 100,00% 96 8 3 5 Adam Hájek 85 4 0 Průměr 3,2 9 3 6 Eliška Jackmannová 109 3 1 10 3 7 Jan Kalát 135 2 1 Polygon četnosti 11 3 Četnost 8 Eva Kneysová 137,5 2 1 12 3 9 Ivana Kristenová 95 4 0 16 13 3 10 Jiří Kuc 106,5 3 0 14 14 3 12 11 Lukáš Kučera 77,5 4 0 15 3 10 12 Jana Kurelová 84,5 4 0 8 16 4 13 Jana Le Ha Hai 88 4 0 6 17 4 14 Jana Ličíková 92,5 4 0 4 18 4 15 Jitka Loumová 101,5 3 1 2 19 4 0 16 Kateřina Pavlíčková 90,5 4 0 20 4 1 2 3 4 5 17 Markéta Petružálková 145,5 2 0 21 4 Známky 18 Martina Piršelová 90 4 0 22 4 19 Michael Preisler 134 3 1 23 4 20 Pavel Pytloun 117 3 0 Tab. 3: Četnosti spojitého zn. 24 4 21 Michaela Romová 85,5 4 0 25 4 22 Michaela Rutová 56,5 5 1 Četnosti bodů v intervalech Dolní kvartil: 3 26 4 23 Monika Srpová 107,5 3 0 Třídy Četnost Rel. č. Medián: 3,5 27 4 24 Nikol Svobodová 100 3 0 75 1 0,03 Horní kvartil: 4 28 4 25 Veronika Šulcová 88 4 1 100 15 0,50 20. percentil 2 29 4 26 Nikola Švecová 163 1 0 125 6 0,20 Čtvrtý decil: 3 30 5 27 Petr Taibr 183 1 0 150 5 0,17 28 Phuong Třešňáková 79 4 0 175 2 0,07 Modus 4 29 Sandra Vondráčková 76 4 0 200 1 0,03 30 Petr Voženílek 96,5 4 1 Součet 30 1,00

Četnost 20 15 10 5 0 Histogram 75 100 125 150 175 200 Třídy dle počtu bodů Členství ve sboru Dobromila Tab. 6: Seřazení 1 80 ćlenka 2 90 3 90 4 90 nečlenka 5 90 6 90 7 90 Vyhodnocení kvalitativního znaku 8 100 9 100 Graf k tab. 3 10 100 11 100 12 100 Tab. 5: Příklad užití mediánu 13 100 14 110 Roční příjem pracovníků JZD v tis. Kč 15 110 Roční příjem 80 90 100 110 120 890 Součet Průměr 16 110 Četnost 1 6 6 5 1 1 20 17 110 k (5) 80 540 600 550 120 890 2780 139 18 110 19 120 20 890 Tab. 7: Charakteristiky variability související s průměrem Medián: 100 Opakované měření délky Dolní kvartil: 90 Číslo měření x Odchylka Čtv. odch. Horní kvartil: 110 1 2,09 0,03 0,0009 Q10 2 2,01-0,05 0,0025 3 2,11 0,05 0,0025 4 2,02-0,04 0,0016 5 2,03-0,03 0,0009 6 2,11 0,05 0,0025 7 2,1 0,04 0,0016 8 2,03-0,03 0,0009 9 2,05-0,01 0,0001 10 2,05-0,01 0,0001 Součet: 20,6 0 0,0136 Průměr: 2,06 Rozptyl: 0,0014 Směr. o. 0,0369