Zpracování náhodného výběru. Ing. Michal Dorda, Ph.D.



Podobné dokumenty
Matematika III. 27. listopadu Vysoká škola báňská - Technická univerzita Ostrava. Matematika III

Zpracování náhodného výběru. Ing. Michal Dorda, Ph.D.

Statistika, Biostatistika pro kombinované studium Letní semestr 2011/2012. Tutoriál č. 4: Exploratorní analýza. Jan Kracík

veličin, deskriptivní statistika Ing. Michael Rost, Ph.D.

Popisná statistika. Statistika pro sociology

Statistika. Diskrétní data. Spojitá data. Charakteristiky polohy. Charakteristiky variability

Základy popisné statistiky

Mnohorozměrná statistická data

Matematika III. 29. října Vysoká škola báňská - Technická univerzita Ostrava. Matematika III

Statistika pro geografy

Popisná statistika. Jaroslav MAREK. Univerzita Palackého

Statistika s Excelem aneb Máme data. A co dál? Martina Litschmannová Katedra aplikované matematiky, FEI, VŠB-TU Ostrava

Metodologie pro ISK II

Výrobní produkce divizí Ice Cream Po lo ha plane t Rozložený výse ový 3D graf Bublinový graf Histogram t s tn e ídy

23. Matematická statistika

Renáta Bednárová STATISTIKA PRO EKONOMY

Mnohorozměrná statistická data

MATEMATICKÁ STATISTIKA. Katedra matematiky a didaktiky matematiky Technická univerzita v Liberci

mezi studenty. Dále bychom rádi posoudili, zda dobrý výsledek v prvním testu bývá doprovázen dobrým výsledkem i v druhém testu.

Jevy a náhodná veličina

Číselné charakteristiky

TEST Z TEORIE EXPLORAČNÍ ANALÝZA DAT

Zápočtová práce STATISTIKA I

Základy popisné statistiky. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek

Analýza dat na PC I.

Obsah. Statistika Zpracování informací ze statistického šetření Charakteristiky úrovně, variability a koncentrace kvantitativního znaku

EXPLORATORNÍ ANALÝZA DAT. 7. cvičení


Pojem a úkoly statistiky

Základy pravděpodobnosti a statistiky. Popisná statistika

Statistika. cílem je zjednodušit nějaká data tak, abychom se v nich lépe vyznali důsledkem je ztráta informací!

Základní statistické charakteristiky

Popisná statistika. úvod rozdělení hodnot míry centrální tendence míry variability míry šikmosti a špičatosti grafy

Nejčastější chyby v explorační analýze

přesné jako tabulky, ale rychle a lépe mohou poskytnou názornou představu o důležitých tendencích a souvislostech.

STATISTICKÉ CHARAKTERISTIKY

2. Základní typy dat Spojitá a kategoriální data Základní popisné statistiky Frekvenční tabulky Grafický popis dat

Základní statistické pojmy

Charakteristika datového souboru

Náhodná proměnná. Náhodná proměnná může mít rozdělení diskrétní (x 1. , x 2. ; x 2. spojité (<x 1

Statistické metody. Martin Schindler KAP, tel , budova G. naposledy upraveno: 9.

3. Základní statistické charakteristiky. KGG/STG Zimní semestr Základní statistické charakteristiky 1

Popisná statistika kvantitativní veličiny

ZÁKLADNÍ STATISTICKÉ CHARAKTERISTIKY

2. Bodové a intervalové rozložení četností

Náhodná veličina a rozdělení pravděpodobnosti

STATISTIKA 1. Adam Čabla Katedra statistiky a pravděpodobnosti VŠE

Statistika pro gymnázia

Jak nelhat se statistikou? Martina Litschmannová Katedra aplikované matematiky, FEI, VŠB-TU Ostrava

Praktická statistika. Petr Ponížil Eva Kutálková

Číselné charakteristiky a jejich výpočet

Popisná statistika. úvod rozdělení hodnot míry centrální tendence míry variability míry šikmosti a špičatosti grafy

Metody sociálních výzkumů. Velmi skromný úvod do statistiky. Motto: Jsou tři druhy lži-lež prostá, lež odsouzeníhodná a statistika.

Statistika I (KMI/PSTAT)

Aplikovaná statistika v R

TECHNICKÁ UNIVERZITA V LIBERCI SEMESTRÁLNÍ PRÁCE

Úloha č. 2 - Kvantil a typická hodnota. (bodově tříděná data): (intervalově tříděná data): Zadání úlohy: Zadání úlohy:

POPISNÁ STATISTIKA Komentované řešení pomocí programu Statistica

Testování statistických hypotéz. Ing. Michal Dorda, Ph.D.

Úvod do kurzu. Moodle kurz. (a) (b) heslo pro hosty: statistika (c) skripta na pravděpodobnost

Popisná statistika. Komentované řešení pomocí MS Excel

VADÍ - NEVADÍ ANEB STATISTIKA KOLEM NÁS

Informační technologie a statistika 1

Obecné momenty prosté tvary

Charakteristiky kategoriálních veličin. Absolutní četnosti (FREQUENCY)

1.1 Dva základní typy statistiky Popisná statistika (descriptive statistics) Inferenční statistika (inferential statistics)

Popisná statistika v praxi aneb Je statistika nuda? Martina Litschmannová Katedra aplikované matematiky, FEI, VŠB-TU Ostrava

STATISTIKA 1. RNDr. K. Hrach, Ph.D. Zápočet: odevzdání seminární práce (úkoly na PC) Zkouška: písemná (bez kalkulačky, bez vzorců)

MATEMATIKA III V PŘÍKLADECH

Kontingenční tabulky v Excelu. Představení programu Statistica

UKAZATELÉ VARIABILITY

Otázky k měření centrální tendence. 1. Je dáno rozložení, ve kterém průměr = medián. Co musí být pravdivé o tvaru tohoto rozložení?

STATISTIKA S EXCELEM. Martina Litschmannová MODAM,

VŠB Technická univerzita Ostrava Fakulta elektrotechniky a informatiky SMAD

Třídění statistických dat

7. Rozdělení pravděpodobnosti ve statistice

Pravděpodobnost a statistika

ANALÝZA DAT V R 2. POPISNÉ STATISTIKY. Mgr. Markéta Pavlíková Katedra pravděpodobnosti a matematické statistiky MFF UK.

Základy popisné statistiky

Seminarni prace. 2 3 stranky staci, dat nema byt 3 a nema jich byt pul milionu. k te seminarce

Ekonomická statistika

Stručný úvod do vybraných zredukovaných základů statistické analýzy dat

Určete zákon rozložení náhodné veličiny, která značí součet ok při hodu a) jednou kostkou, b) dvěma kostkami, c) třemi kostkami.

Cvičení ze statistiky. Filip Děchtěrenko ZS 2012/2013

Komplexní čísla, Kombinatorika, pravděpodobnost a statistika, Posloupnosti a řady

Základní pojmy a cíle statistiky 1

VŠB Technická univerzita Ostrava Fakulta elektrotechniky a informatiky

Neparametrické metody

TECHNICKÁ UNIVERZITA V LIBERCI Ekonomická fakulta

ANALÝZA DAT V R 3. POPISNÉ STATISTIKY, NÁHODNÁ VELIČINA. Mgr. Markéta Pavlíková Katedra pravděpodobnosti a matematické statistiky MFF UK

, Brno Hanuš Vavrčík Základy statistiky ve vědě

Předmět studia: Ekonomická statistika a analytické metody I, II

Škály podle informace v datech:

MÁME DATA A CO DÁL? Martina Litschmannová

7. SEMINÁŘ DESKRIPTIVNÍ STATISTIKA

Statistická analýza dat v psychologii

Kombinatorika, pravděpodobnost a statistika, Posloupnosti a řady

Příloha podrobný výklad vybraných pojmů

Transkript:

Zpracování náhodného výběru popisná statistika Ing. Michal Dorda, Ph.D.

Základní pojmy Úkolem statistiky je na základě vlastností výběrového souboru usuzovat o vlastnostech celé populace. Populace(základní soubor) je souhrn všech existujících prvků, které sledujeme při statistickém šetření (např. při volebních průzkumech je populace tvořena všemi občany ČR s právem volit). Ing. Michal Dorda, Ph.D. 2

Základní pojmy Jelikož je počet prvků populace zpravidla vysoký, je proto z časových, ekonomických a jiných důvodů provedení vyčerpávajícího šetření(tedy šetření celé populace) nereálné. Proto se zpravidla prování výběrové šetření, tj. šetření na vybrané části populace výběr. Možností, jak výběr z populace provést, je více. Ing. Michal Dorda, Ph.D. 3

Základní pojmy Zpravidla provádíme náhodný výběr (každý prvek populace má stejnou šanci být do výběru zařazen). Údajům, které u souboru pozorujeme, říkáme proměnné(např. věk apod., značí se zpravidla velkými písmeny), jednotlivým hodnotám, kterých proměnná nabývá (nebo může nabývat), říkáme varianty proměnné. Ing. Michal Dorda, Ph.D. 4

Základní pojmy Proměnné můžeme rozdělit na proměnné: ) Kvalitativní varianty proměnné jsou vyjádřeny slovně (např. pohlaví, národnost apod.). 2) Kvantitativní varianty proměnné jsou vyjádřeny číselně (např. věk, hmotnost apod.). Podle rozsahu výběru n zpravidla rozlišujeme: ) Výběr malého rozsahu n <30. 2) Výběr velkého rozsahu n 30. Ing. Michal Dorda, Ph.D. 5

Základní pojmy Při zpracování náhodného výběru zavádíme pojem četnosti, přičemž rozeznáváme: ) Absolutní četnosti n i, 2) Relativní četnosti p i, 3) Kumulativní četnosti m i, 4) Relativní kumulativní četnosti F i. Ing. Michal Dorda, Ph.D. 6

Základní pojmy Absolutní četnost n i vyjadřuje, kolikrát se konkrétní varianta proměnné v i v souboru objevila. Označíme-li kpočet variant proměnné, které se v souboru vyskytly, pak musí platit: k i= n i = n. Varianty proměnné v i seřazené podle velikosti a jejich absolutní četnosti tvoří variační řadu. Ing. Michal Dorda, Ph.D. 7

Základní pojmy Relativní četnost p i je definována jako podíl četnosti n i a rozsahu souboru n, tedy: p i = ni n. Je zřejmé, že dále musí platit: k i= p i =. Ing. Michal Dorda, Ph.D. 8

Základní pojmy Kumulativní četnost m i je definována jako součet absolutních četností variant proměnné menší nebo rovno variantě v i, tedy: m i = n i. v v i Je zřejmé, že dále musí platit: m k = n, kumulativní četnost nejvyšší varianty proměnné je tedy rovna rozsahu souboru. Ing. Michal Dorda, Ph.D. 9

Základní pojmy Relativní kumulativní četnost F i je definována jako podíl kumulativní četnosti m i a rozsahu souboru n, tedy: Fi = m i. Je zřejmé, že dále musí platit: F k n =. Ing. Michal Dorda, Ph.D. 0

Základní pojmy Grafické nebo tabulkové znázornění seřazených variant proměnné a jejich kumulativních četností se nazývá distribuční funkce kumulativní četnosti, příp. empirická distribuční funkce. Ing. Michal Dorda, Ph.D.

Základní pojmy Nechť je v min minimální varianta proměnné, v max maximální varianta proměnné. Potom interval v min ;v max bývá označován jako variační obor proměnné. Rozdíl maximální a minimální varianty proměnné bývá označován jako variační rozpětí R: R = v max v min. Ing. Michal Dorda, Ph.D. 2

Výběrové charakteristiky Datový soubor získaný náhodným výběrem lze znázornit pomocí číselných charakteristik, které nazýváme výběrové charakteristiky, které zpravidla dělíme na: ) Míry polohy určují typické rozložení hodnot souboru. 2) Míry variability určují variabilitu (rozptyl) hodnot kolem své typické hodnoty. Ing. Michal Dorda, Ph.D. 3

Míry polohy Mezi základní míry polohy se řadí: ) Výběrový průměr x, 2) Modus Mod, 3) Výběrové kvantilyx p především mediánx 0,5. Ing. Michal Dorda, Ph.D. 4

Míry polohy Mějme náhodný výběr x, x 2,, x n. Výběrový průměr se nejčastěji stanovuje jako aritmetický průměr všech pozorování, tedy: x = n n i= x i. Pro aritmetický průměr platí: n ( x i x) = 0, i= součet všech odchylek pozorovaných hodnot od jejich aritmetického průměru je roven 0. Ing. Michal Dorda, Ph.D. 5

Míry polohy Ne vždy je ale vhodné použít aritmetický průměr. V případech, kdy pracujeme s proměnnou vyjadřující relativní změny, používáme geometrický průměr: x n = g x i i= n. Ing. Michal Dorda, Ph.D. 6

Míry polohy V případech, kdy pracujeme s proměnnou mající charakter části z celku, potom používáme harmonický průměr: x h = n i= n x i. Ing. Michal Dorda, Ph.D. 7

Míry polohy Modus je definován jako varianta proměnné s největší četností. Na rozdíl od průměru, který je pouze jeden, může mít statistický soubor více modů. Proměnnou s jedním modem nazýváme unimodální, proměnnou s dvěma mody bimodální. Ing. Michal Dorda, Ph.D. 8

Míry polohy Výběrový kvantil je obecně definován jako hodnota rozdělující výběrový soubor na dvě části první část obsahuje hodnoty, které jsou menší než daný kvantil, a druhá část obsahuje hodnoty které jsou rovny nebo větší než hodnota daného kvantilu. Kvantil x p nazýváme 00 p%-ní kvantil. Ing. Michal Dorda, Ph.D. 9

Míry polohy Rozeznáváme následují kvantily: ) Percentily x 0,0, x 0,02,, x 0,99. 2) Decily x 0,, x 0,2,, x 0,9. 3) Kvartily dolní kvartil x 0,25, medián x 0,5, horní kvartilx 0,75. Ing. Michal Dorda, Ph.D. 20

Míry polohy Postup při určování kvantilů: ) Datový soubor uspořádáme vzestupně podle velikosti. 2) Seřazeným pozorováním přiřadíme pořadí od do n. 3) 00 p%-ní kvantil je potom roven pozorování s pořadím z p, kde: z p = n p + 0,5. Není-li z p celé číslo, potom je příslušný kvantil roven aritmetickému průměru pozorování s pořadím [z p ] a [z p ] +, kde [z p ] označuje celou část čísla z p. Ing. Michal Dorda, Ph.D. 2

Míry variability Mezi základní míry variability se řadí: ) Výběrový rozptyl s 2. 2) Výběrová směrodatná odchylka s. 3) Variační koeficient V x. 4) Variační rozpětí R. 5) Interkvartilové rozpětí IQR. 6) Medián absolutních odchylek od mediánu MAD. Ing. Michal Dorda, Ph.D. 22

Míry variability Výběrový rozptyl je definován vztahem: s 2 = n n i= 2 ( x i x). Nevýhodou rozptylu je, že jeho jednotka je druhou mocninou jednotky proměnné. Proto zavádíme výběrovou směrodatnou odchylku definovanou vztahem: s = s 2 = n n i= 2 ( x i x). Ing. Michal Dorda, Ph.D. 23

Míry variability Chceme-li porovnat variabilitu proměnných vyjádřených v různých jednotkách, použijeme k tomu variační koeficient definovaný: V x = s. x Variační koeficient je bezrozměrný a vyjadřuje relativní míru variability proměnné. Variační rozpětí jsme již definovali jako: R = v max v min. Ing. Michal Dorda, Ph.D. 24

Míry variability Interkvartilové rozpětí je definováno jako rozdíl horního a dolního kvartilu: IQR = x 0 x,75 0,25. Medián absolutních odchylek od mediánu stanovíme následujícím postupem: ) Stanovíme absolutní odchylky jednotlivých pozorování od mediánu, tedy x i x 0,5. 2) Absolutní odchylky seřadíme vzestupně podle velikosti. 3) Známým způsobem nalezneme medián absolutních odchylek, čili MAD. Ing. Michal Dorda, Ph.D. 25

Identifikace odlehlých pozorování Odlehlým pozorováním rozumíme pozorování, které se mimořádně liší od ostatních hodnot a tím ovlivňují reprezentativnost výběru. Nyní se tedy zaměříme na způsoby, jak odlehlá pozorování identifikovat. Nejčastěji se uvádí tři způsoby: ) Pomocí tzv. vnitřních hradeb. 2) Pomocí z-souřadnice. 3) Pomocí x 0,5 -souřadnice (mediánová souřadnice). Ing. Michal Dorda, Ph.D. 26

Identifikace odlehlých pozorování ad ) Za odlehlé pozorování lze považovat hodnotu x i, která je od dolního, resp. od horního kvartilu vzdálena o více než,5 násobek interkvartilového rozpětí. Odlehlá pozorování tedy leží v intervalu: ( x,5 IQR) ( x +,5 IQR; ). ; 0,25 0, 75 Ing. Michal Dorda, Ph.D. 27

Identifikace odlehlých pozorování ad 2) Za odlehlé pozorování lze považovat hodnotu x i, jejíž absolutní hodnota z- souřadnice je větší než 3, přičemž z- souřadnice je definována: z souř. i = x i x s, z-souřadnice tedy udává, kolikrát je pozorování x i vzdáleno o hodnotu směrodatné odchylky od výběrového průměru. Ing. Michal Dorda, Ph.D. 28

Identifikace odlehlých pozorování ad 3) Za odlehlé pozorování lze považovat takovou hodnotu x i, jejíž absolutní hodnota x 0,5 -souřadnice je větší než 3, přičemž x 0,5 -souřadnice je definována: x 0,5 souř. i xi x0,5 =.,483 MAD Ing. Michal Dorda, Ph.D. 29

Zpracování rozsáhlého statistického souboru V případě, že máme rozsáhlý statistický soubor, sdružujeme jednotlivá pozorování do tříd. Zpravidla se volí konstantní šířka třídy (vyjma krajních tříd). Doporučuje se volit počet tříd v rozmezí 5 20. Každé pozorování musí být jednoznačně přiřazeno pouze do jedné třídy! Ing. Michal Dorda, Ph.D. 30

Zpracování rozsáhlého statistického souboru Pro stanovení počtu tříd existuje více pravidel, nejčastěji se setkáváme se Sturgesovým pravidlem, kterým stanovíme počet tříd k podle vztahu: k + 3,3 log n. Šířku třídy h potom stanovíme podle vztahu: R h, k kde R je variační rozpětí. Ing. Michal Dorda, Ph.D. 3

Zpracování rozsáhlého statistického souboru Všechna pozorování zahrnuta v třídě ijsou potom reprezentována jednou zástupnou hodnotou třídním znakemz i, který je aritmetickým průměrem dolní a horní hranice třídy, tvoří tedy střed třídy. Ing. Michal Dorda, Ph.D. 32

Zpracování rozsáhlého statistického souboru Máme-li statistický soubor zadán pouze pomocí tříd ia jejich třídními četnostmi n i, musíme pro výpočet základních výběrových charakteristik použít vztahy ve vážené formě: charakteristik použít vztahy ve vážené formě: Ing. Michal Dorda, Ph.D. 33 ( ) ( ).,, 2 2 2 = = = = = = k i i i k i i i k i i i x z n n s x z n n s z n n x

Grafické znázornění statistického souboru Základní typy grafů, které se používají: ) Koláčový (výsečový) graf. 2) Histogram. Koláčový graf prezentuje relativní četnosti jednotlivých variant proměnné. Používá se pro menší počet variant proměnné. Ing. Michal Dorda, Ph.D. 34

Grafické znázornění statistického souboru Histogram je sloupcový graf, kde na vodorovnou osu vynášíme jednotlivé varianty proměnné, resp. třídy v případě souboru rozděleného na třídy, jednotlivé četnosti (absolutní nebo relativní) jsou potom zobrazovány jako sloupce. Ing. Michal Dorda, Ph.D. 35

Grafické znázornění statistického souboru 8 Histogram frequency 6 4 2 0 0 4 8 2 6 20 24 Doba obsluhy Ing. Michal Dorda, Ph.D. 36

Grafické znázornění statistického souboru Krabicový graf je graf, který slouží k zakreslení základních výběrových charakteristik kvantitativní proměnné. x Odlehlé pozorování x max x min X 0,25 X 0,75 X 0,50 0 4 8 2 6 20 24 Doba obsluhy Ing. Michal Dorda, Ph.D. 37