Zpracování náhodného výběru. Ing. Michal Dorda, Ph.D.

Podobné dokumenty
Zpracování náhodného výběru. Ing. Michal Dorda, Ph.D.

Statistika. Diskrétní data. Spojitá data. Charakteristiky polohy. Charakteristiky variability

Matematika III. 27. listopadu Vysoká škola báňská - Technická univerzita Ostrava. Matematika III

Statistika, Biostatistika pro kombinované studium Letní semestr 2011/2012. Tutoriál č. 4: Exploratorní analýza. Jan Kracík

TEST Z TEORIE EXPLORAČNÍ ANALÝZA DAT

Popisná statistika. Statistika pro sociology

Charakteristika datového souboru

Statistika s Excelem aneb Máme data. A co dál? Martina Litschmannová Katedra aplikované matematiky, FEI, VŠB-TU Ostrava

Popisná statistika. Komentované řešení pomocí MS Excel

POPISNÁ STATISTIKA Komentované řešení pomocí programu Statistica

Popisná statistika. Jaroslav MAREK. Univerzita Palackého

Testování statistických hypotéz. Ing. Michal Dorda, Ph.D.

Statistika pro geografy

Metodologie pro ISK II

Úloha č. 2 - Kvantil a typická hodnota. (bodově tříděná data): (intervalově tříděná data): Zadání úlohy: Zadání úlohy:

Zápočtová práce STATISTIKA I

Nejčastější chyby v explorační analýze

Základy popisné statistiky. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek

Renáta Bednárová STATISTIKA PRO EKONOMY

MATEMATIKA III V PŘÍKLADECH

Obecné momenty prosté tvary

MATEMATICKÁ STATISTIKA. Katedra matematiky a didaktiky matematiky Technická univerzita v Liberci


Matematika III. 29. října Vysoká škola báňská - Technická univerzita Ostrava. Matematika III

Úvod do kurzu. Moodle kurz. (a) (b) heslo pro hosty: statistika (c) skripta na pravděpodobnost

Číselné charakteristiky a jejich výpočet

veličin, deskriptivní statistika Ing. Michael Rost, Ph.D.

Mnohorozměrná statistická data

Kombinatorika, pravděpodobnost a statistika, Posloupnosti a řady

VŠB Technická univerzita Ostrava Fakulta elektrotechniky a informatiky SMAD

TECHNICKÁ UNIVERZITA V LIBERCI SEMESTRÁLNÍ PRÁCE

Výrobní produkce divizí Ice Cream Po lo ha plane t Rozložený výse ový 3D graf Bublinový graf Histogram t s tn e ídy

Zaokrouhlování: Směrodatná odchylka se zaokrouhluje nahoru na stanovený počet platných cifer. Míry

EXPLORATORNÍ ANALÝZA DAT. 7. cvičení

Mnohorozměrná statistická data

Informační technologie a statistika 1

Aplikovaná statistika v R

Obsah. Statistika Zpracování informací ze statistického šetření Charakteristiky úrovně, variability a koncentrace kvantitativního znaku

mezi studenty. Dále bychom rádi posoudili, zda dobrý výsledek v prvním testu bývá doprovázen dobrým výsledkem i v druhém testu.

STATISTIKA S EXCELEM. Martina Litschmannová MODAM,

Statistika. cílem je zjednodušit nějaká data tak, abychom se v nich lépe vyznali důsledkem je ztráta informací!

TECHNICKÁ UNIVERZITA V LIBERCI. Ekonomická fakulta. Semestrální práce. Statistický rozbor dat z dotazníkového šetření školní zadání

23. Matematická statistika

Popisná statistika kvantitativní veličiny

UNIVERZITA OBRANY Fakulta ekonomiky a managementu. Aplikace STAT1. Výsledek řešení projektu PRO HORR2011 a PRO GRAM

Statistické metody. Martin Schindler KAP, tel , budova G. naposledy upraveno: 9.

ANALÝZA DAT V R 2. POPISNÉ STATISTIKY. Mgr. Markéta Pavlíková Katedra pravděpodobnosti a matematické statistiky MFF UK.

Návrhy dalších možností statistického zpracování aktualizovaných dat

Statistika I (KMI/PSTAT)

Základy popisné statistiky

3. Základní statistické charakteristiky. KGG/STG Zimní semestr Základní statistické charakteristiky 1

VADÍ - NEVADÍ ANEB STATISTIKA KOLEM NÁS

STATISTICKÉ CHARAKTERISTIKY

VŠB Technická univerzita Ostrava BIOSTATISTIKA

Číselné charakteristiky

1.1 Dva základní typy statistiky Popisná statistika (descriptive statistics) Inferenční statistika (inferential statistics)

Kontingenční tabulky v Excelu. Představení programu Statistica

Tomáš Karel LS 2012/2013

VŠB Technická univerzita Ostrava Fakulta elektrotechniky a informatiky

Náhodná proměnná. Náhodná proměnná může mít rozdělení diskrétní (x 1. , x 2. ; x 2. spojité (<x 1

Základní statistické charakteristiky

Určete zákon rozložení náhodné veličiny, která značí součet ok při hodu a) jednou kostkou, b) dvěma kostkami, c) třemi kostkami.

Neparametrické metody

Pracovní list č. 3 Charakteristiky variability

VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ. FAKULTA STROJNÍHO INŽENÝRSTVÍ Ústav materiálového inženýrství - odbor slévárenství

Škály podle informace v datech:

Otázky k měření centrální tendence. 1. Je dáno rozložení, ve kterém průměr = medián. Co musí být pravdivé o tvaru tohoto rozložení?

Jevy a náhodná veličina

Přednáška 5. Výběrová šetření, Exploratorní analýza

Základní analýza dat. Úvod

Komplexní čísla, Kombinatorika, pravděpodobnost a statistika, Posloupnosti a řady

PRŮZKUMOVÁ ANALÝZA JEDNOROZMĚRNÝCH DAT Exploratory Data Analysis (EDA)

Minimální hodnota. Tabulka 11

4. Zpracování číselných dat

Základy pravděpodobnosti a statistiky. Popisná statistika

Analýza dat na PC I.

Statistická analýza dat v psychologii

Zákon velkých čísel stanovení empirické pravděpodobnosti

Jednovýběrové testy. Komentované řešení pomocí MS Excel

Popisná statistika. úvod rozdělení hodnot míry centrální tendence míry variability míry šikmosti a špičatosti grafy

Písemná práce k modulu Statistika

Jak nelhat se statistikou? Martina Litschmannová Katedra aplikované matematiky, FEI, VŠB-TU Ostrava

Metodologie pro Informační studia a knihovnictví 2

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Praktická statistika. Petr Ponížil Eva Kutálková

Pojem a úkoly statistiky

IES FSV UK. Domácí úkol Pravděpodobnost a statistika I. Cyklistův rok

Statistika jako obor. Statistika. Popisná statistika. Matematická statistika TEORIE K MV2

, Brno Hanuš Vavrčík Základy statistiky ve vědě

přesné jako tabulky, ale rychle a lépe mohou poskytnou názornou představu o důležitých tendencích a souvislostech.

Manuál pro zaokrouhlování

Průzkumová analýza dat

VŠB Technická univerzita Ostrava

Popisná statistika. úvod rozdělení hodnot míry centrální tendence míry variability míry šikmosti a špičatosti grafy

Analýza dat s využitím MS Excel

Metodologie pro Informační studia a knihovnictví 2

Třídění statistických dat

Transkript:

Př. : Stanovte jednotlivé četnosti a číselné charakteristiky zadaného statistického souboru a nakreslete krabicový graf:, 8, 7, 43, 9, 47, 4, 34, 34, 4, 35. Statistický soubor seřadíme vzestupně podle velikosti a určíme jednotlivé četnosti.

v i n i p i m i F i 9 / / / / 7 / 3 3/ 34 / 5 5/ 35 / 6 6/ 4 / 7 7/ 4 / 8 8/ 43 / 9 9/ 47 / 0 0/ 8 / V tabulce jsou v prvním sloupci uvedeny jednotlivé varianty proměnné, v ostatních sloupcích jednotlivé četnosti. 3

Z tabulky dále vidíme, že: v min = 9, v max = 8. Variační rozpětí Rje tedy rovno: R = vmax vmin = 8 9 = 63. V tomto případě budeme výběrový průměr počítat jako aritmetický průměr: x n = n i= x i = ( 9 + + 7 + 34 + 34 +... + 8) = & 38,7. 4

Modus je ta varianta (příp. varianty) proměnné s největší četností. V našem případě máme modus Mod= 34. Přistupme nyní ke stanovení kvantilů. Výběrový soubor musíme uspořádat podle velikosti a každému pozorování přiřadíme jeho pořadí. Zaměřme se pouze na dolní kvartil, medián a horní kvartil. 5

Pro pořadí dolního kvartilu platí: z0,5 = 0,5 + 0,5 = 3,5, jelikož pořadí není celé číslo, bude dolním kvartilemaritmetický průměr 3. a 4. hodnoty: x 7 + 34 0,5 = = 30,5. x i Pořadí 9 7 3 34 4 34 5 35 6 4 7 4 8 43 9 47 0 8 6

Mediánem bude hodnota s pořadím: z0,5 = 0,5 + 0,5 = 6, mediánem bude tedy pozorování s pořadím 6, tedy: x 0,5 = 35. Pro horní kvartil platí: 4 + 43 z0,75 = 0,75 + 0,5 = 8,75 x0, 75 = = 4,5. 7

s Pro výběrový rozptyl můžeme psát: n = n i= [ ] = & 84,0. ( x i x) = ( 9 38,7) +... + ( 8 38,7) Výběrovou směrodatnou odchylku stanovíme: s = s = 84,0 = & 6,85. Pro variační koeficient platí: V x s 6,85 = = = & x 38,7 0,44 = 44%. 8

Na základě znalosti dolního a horního kvartilu můžeme stanovit interkvartilové rozpětí: IQR = x0,75 x0,5 = 4,5 30,5 =. Nyní přistupme ke stanovení mediánu absolutních odchylek od mediánu. Spočítáme tedy absolutní hodnoty odchylek jednotlivých pozorování od mediánu a stanovíme jejich medián. 9

x i Pořadí x i -x 0,5 Pořadí 9 6 0 3 9 7 3 8 7 34 4 3 34 5 35 6 0 4 7 6 4 4 8 7 5 43 9 8 6 47 0 8 8 47 z0,5 = 0,5 + 0,5 = 6, medián absolutních odchylek od mediánu bude tedy hodnota s pořadím 6, tedy: MAD = 8. 0

Nyní se pokusíme identifikovat odlehlá pozorování. ad ) Identifikace podle vnitřních hradeb: Dolní hradba x Horní hradba,5 IQR = 30,5,5 =,5. 0,5 = x 5,5 0,75 IQR = 4,5 +,5 = 60,5. Vidíme, že mimo vnitřní hradby leží pouze pozorování x = 8, může být tedy identifikováno jako odlehlé.

ad ) Identifikace pomocí z-souřadnice: Spočítejme z-souřadnici pro. pozorování: 9 38,7 z souř. = = &,7 z souř. 6,85 můžeme tedy tvrdit, že zleva nebudeme mít žádné odlehlé pozorování. Spočítejme z-souřadnici pro. pozorování: 8 38,7 z souř. = = &,57 z souř. 6,85 můžeme tedy tvrdit, že ani zprava nebudeme mít žádné odlehlé pozorování. 3, 3,

ad 3) Identifikace pomocí x 0,5 -souřadnice: Spočítejme x 0,5 -souřadnici pro. pozorování: x 9 35 souř. = = &,35 x0,5 souř.,483 8 0,5 zleva tedy nebudeme mít žádné odlehlé pozorování. Spočítejme x 0,5 -souřadnici pro. pozorování: x 8 35 souř. = = & 3,96 x0,5 souř.,483 8 0,5 > pozorování x = 8 může být identifikováno jako odlehlé. 3, 3, 3

Ověřme ještě mediánovou souřadnici 0. pozorování: x 47 35 souř. 0 = = &,0 x0,5 souř.,483 8 0,5 0. pozorování již odlehlé není, zprava už žádné další odlehlé pozorování nemáme. 3, 4

Nyní přistupme k nakreslení krabicového grafu. Při jeho sestavě budeme uvažovat s tím, že pozorování 8 jsme identifikovali jako odlehlé. 0 0 40 60 80 00 5

Př. : V systému hromadné obsluhy byla sledována doba obsluhy v [min]. Rozdělte získaný statistický soubor do tříd, vypočtěte základní číselné charakteristiky (výběrový průměr, rozptyl ve vážené formě) a data znázorněte pomocí histogramu. 6

Statistický soubor: 68, 7, 7, 78, 8, 8, 87, 9, 9, 9, 95, 97, 0, 0, 0, 03, 05, 05, 09, 0,,,,,, 4, 4, 4, 5, 6, 8, 9,,,, 4, 6, 3, 33, 37. Rozsah souboru n= 40. 7

Ze zadaného statistického souboru vyčteme, že nejnižší varianta proměnné v min = 68, nejvyšší varianta proměnné v max = 37, pro variační rozpětí tedy platí: R = vmax vmin = 37 68 = 69. Počet tříd odhadneme pomocí Sturgesova pravidla: k + 3,3 log n = + 3,3 log 40 = & 6,9 = & 6. 8

Šířku třídy stanovíme podle vztahu: h R k = 69 6 =,5 = &. Vynásobíme-li počet tříd kse stanovenou šířkou třídy h, dostaneme 7, tedy o 3 více než je variační rozpětí. Nyní musíme vhodně zvolit dolní hranici. třídy, zvolme ji o,5 nižší než je minimální varianta proměnné v min, tedy 66,5. 9

Index třídy Třída Třídní znak Četnost n i (66,5; 78,5 7,5 4 (78,5; 90,5 84,5 3 3 (90,5; 0,5 96,5 8 4 (0,5; 4,5 08,5 3 5 (4,5; 6,5 0,5 9 6 (6,5; 38,5 3,5 3 40 U jednotlivých tříd volíme interval zleva otevřený, zprava uzavřený, s takovým intervalem pracuje i Excel. 0

Nyní přistoupíme k výpočtu výběrového průměru a rozptylu ve vážené formě: x s k = n i z i = & n 40 = i= n k i= n i ( z x) i ( 4 7,5 + 3 84,5 +... + 3 3,5 ) = & 05,0,, = 40 [ ( ) ( ) ] 4 7,5 05,0 +... + 3 3,5 05,0 = & 73,4.

Jelikož se při výpočtu výběrového průměru a rozptylu ve vážené formě nahrazují všechna pozorování v jedné třídě jednou zástupnou hodnotou třídním znakem, dopouštíme se samozřejmě nepřesností, viz tabulka. Z původních dat Z roztřízených dat Výběrový průměr 05,68 05,0 Výběrový rozptyl 99,97 73,4

4 Histogram četností 0 8 6 4 0 (66,5; 78,5 (78,5; 90,5 (90,5; 0,5 (0,5; 4,5 (4,5; 6,5 (6,5; 38,5 3