2. Bodové a intervalové rozložení četností

Podobné dokumenty
Masarykova univerzita Ekonomicko-správní fakulta. Statistika 1. David Hampel

Pojem a úkoly statistiky

Zpracování náhodného výběru. Ing. Michal Dorda, Ph.D.

Statistika. Zpracování informací ze statistického šetření. Roman Biskup

Mnohorozměrná statistická data

Pro zvládnutí této kapitoly budete potřebovat 4-5 hodin studia.

Masarykova univerzita Ekonomicko správní fakulta. Statistika

Matematika III. 27. listopadu Vysoká škola báňská - Technická univerzita Ostrava. Matematika III

Základy popisné statistiky

Mnohorozměrná statistická data

přesné jako tabulky, ale rychle a lépe mohou poskytnou názornou představu o důležitých tendencích a souvislostech.

Statistika pro geografy

Renáta Bednárová STATISTIKA PRO EKONOMY

Základy popisné statistiky

Třídění statistických dat

Popisná statistika. Statistika pro sociology

7. Rozdělení pravděpodobnosti ve statistice

Základy teorie pravděpodobnosti

10. N á h o d n ý v e k t o r

Diskrétní náhodná veličina

Popisná statistika. Jaroslav MAREK. Univerzita Palackého

Praktická statistika. Petr Ponížil Eva Kutálková

Definice 7.1 Nechť je dán pravděpodobnostní prostor (Ω, A, P). Zobrazení. nebo ekvivalentně

23. Matematická statistika

MATEMATICKÁ STATISTIKA. Katedra matematiky a didaktiky matematiky Technická univerzita v Liberci

Zpracování náhodného výběru. Ing. Michal Dorda, Ph.D.

NÁHODNÝ VEKTOR. 4. cvičení

1. Náhodný vektor (X, Y ) má diskrétní rozdělení s pravděpodobnostní funkcí p, kde. p(x, y) = a(x + y + 1), x, y {0, 1, 2}.

Určete zákon rozložení náhodné veličiny, která značí součet ok při hodu a) jednou kostkou, b) dvěma kostkami, c) třemi kostkami.

Výběrové charakteristiky a jejich rozdělení

Kapitola Hlavička. 3.2 Teoretický základ měření

STATISTICA Téma 1. Práce s datovým souborem

Statistika, Biostatistika pro kombinované studium Letní semestr 2011/2012. Tutoriál č. 4: Exploratorní analýza. Jan Kracík

Statistika I (KMI/PSTAT)

Pracovní list č. 3 Charakteristiky variability

Vzorová prezentace do předmětu Statistika

1.3. Číselné množiny. Cíle. Průvodce studiem. Výklad

Náhodný vektor a jeho charakteristiky

Vektorové podprostory, lineární nezávislost, báze, dimenze a souřadnice

Popisná statistika. Komentované řešení pomocí MS Excel

veličin, deskriptivní statistika Ing. Michael Rost, Ph.D.

Zápočtová písemka z Matematiky III (BA04) skupina A

Jevy a náhodná veličina

I. D i s k r é t n í r o z d ě l e n í

Euklidovský prostor. Funkce dvou proměnných: základní pojmy, limita a spojitost.

Poznámky k předmětu Aplikovaná statistika, 4. téma

p(x) = P (X = x), x R,

Funkce a lineární funkce pro studijní obory

Funkce tangens. cotgα = = Předpoklady: B a. A Tangens a cotangens jsou definovány v pravoúhlém trojúhelníku: a protilehlá b přilehlá

Statistika pro gymnázia

Někdy lze výsledek pokusu popsat jediným číslem, které označíme X (nebo jiným velkým písmenem). Hodíme dvěma kostkami jaký padl součet?

Kontingenční tabulky v Excelu. Představení programu Statistica

Poznámky k předmětu Aplikovaná statistika, 4. téma

Derivace funkce. Přednáška MATEMATIKA č Jiří Neubauer

Náhodná veličina a její charakteristiky. Před provedením pokusu jeho výsledek a tedy ani sledovanou hodnotu neznáte. Proto je proměnná, která

Škály podle informace v datech:

Přijímací zkouška na navazující magisterské studium 2014

Seriál II.II Vektory. Výfučtení: Vektory

Popisná statistika. úvod rozdělení hodnot míry centrální tendence míry variability míry šikmosti a špičatosti grafy

1. Několik základních pojmů ze středoškolské matematiky. Na začátku si připomeneme následující pojmy:

Vybrané statistické metody. You created this PDF from an application that is not licensed to print to novapdf printer (

ANALÝZA DAT V R 3. POPISNÉ STATISTIKY, NÁHODNÁ VELIČINA. Mgr. Markéta Pavlíková Katedra pravděpodobnosti a matematické statistiky MFF UK

Jiří Neubauer. Katedra ekonometrie, FVL, UO Brno kancelář 69a, tel

Úvod do teorie odhadu. Ing. Michael Rost, Ph.D.

Funkce pro studijní obory

Matematické modelování dopravního proudu

Vektory a matice. Obsah. Aplikovaná matematika I. Carl Friedrich Gauss. Základní pojmy a operace

Pojmy z kombinatoriky, pravděpodobnosti, znalosti z kapitoly náhodná veličina, znalost parciálních derivací, dvojného integrálu.

UNIVERZITA OBRANY Fakulta ekonomiky a managementu. Aplikace STAT1. Výsledek řešení projektu PRO HORR2011 a PRO GRAM

AVDAT Náhodný vektor, mnohorozměrné rozdělení

Charakteristika datového souboru

Že tuto definici znáte, ale stále přesně nevíte, jak funkci chápat? Ukážeme si konkrétní příklad Definiční obor (množina A)

Základní pojmy a cíle statistiky 1

mezi studenty. Dále bychom rádi posoudili, zda dobrý výsledek v prvním testu bývá doprovázen dobrým výsledkem i v druhém testu.

B i n á r n í r e l a c e. Patrik Kavecký, Radomír Hamřík

Kapitola 2.: Diagnostické grafy a testy normality dat

3. LINEÁRNÍ FUNKCE, LINEÁRNÍ ROVNICE A LINEÁRNÍ NEROVNICE

Funkce - pro třídu 1EB

Charakteristiky kategoriálních veličin. Absolutní četnosti (FREQUENCY)

Funkce. Úkol: Uveďte příklady závislosti dvou veličin.

Statistika. Diskrétní data. Spojitá data. Charakteristiky polohy. Charakteristiky variability

Cílem kapitoly je opakování a rozšíření středoškolských znalostí v oblasti teorie množin.

Téma 22. Ondřej Nývlt

Matematika III. 29. října Vysoká škola báňská - Technická univerzita Ostrava. Matematika III

VEKTOR. Vymyslete alespoň tři příklady vektorových a skalárních fyzikálních veličin. vektorové: 1. skalární

Statistika I (KMI/PSTAT)

2. Základní typy dat Spojitá a kategoriální data Základní popisné statistiky Frekvenční tabulky Grafický popis dat

z Matematické statistiky 1 1 Konvergence posloupnosti náhodných veličin

PRŮŘEZOVÉ CHARAKTERISTIKY

Náhodná proměnná. Náhodná proměnná může mít rozdělení diskrétní (x 1. , x 2. ; x 2. spojité (<x 1

Q(y) dy = P(x) dx + C.

Diskrétní náhodná veličina. November 12, 2008

analytické geometrie v prostoru s počátkem 18. stol.

Newtonova metoda. 23. října 2012

a způsoby jejího popisu Ing. Michael Rost, Ph.D.

Zápočtová práce STATISTIKA I

Přednáška 3: Limita a spojitost

CVIČNÝ TEST 15. OBSAH I. Cvičný test 2. Mgr. Tomáš Kotler. II. Autorské řešení 6 III. Klíč 15 IV. Záznamový list 17

Transkript:

. Bodové a intervalové rozložení četností (Jak získat informace z datového souboru?) Po prostudování této kapitoly budete umět: konstruovat diagramy znázorňující rozložení četností vytvářet tabulky četností sestrojit grafy četnostní funkce, empirické distribuční funkce, hustoty četnosti a empirické intervalové distribuční funkce Nejprve se seznámíme s bodovým rozložením četností a ukážeme si, jak pomocí různých diagramů graficky znázornit bodové rozložení četností. Pro datový soubor známek z matematiky a angličtiny pak vytvoříme několik typů diagramů... Definice Nechť je dán jednorozměrný datový soubor. Jestliže počet variant znaku X není příliš velký, pak přiřazujeme četnosti jednotlivým variantám a hovoříme o bodovém rozložení četností... Definice Existuje několik způsobů, jak graficky znázornit bodové rozložení četností. Tečkový diagram: na číselné ose vyznačíme jednotlivé varianty znaku X a nad každou variantu nakreslíme tolik teček, jaká je její absolutní četnost. Polygon četnosti: je lomená čára spojující body, jejichž x-ová souřadnice je varianta znaku X a y-ová souřadnice je absolutní četnost této varianty. Sloupkový diagram: je soustava na sebe nenavazujících obdélníků, kde střed základny je varianta znaku X a výška je absolutní četnost této varianty. Výsečový graf: je kruh rozdělený na výseče, jejichž vnější obvod odpovídá absolutním četnostem variant znaku X. Dvourozměrný tečkový diagram: na vodorovnou osu vyneseme varianty znaku X, na svislou varianty znaku Y a do příslušných průsečíků nakreslíme tolik teček, jaká je absolutní četnost dané dvojice... Příklad Pro datový soubor z příkladu.5 sestrojte a) jednorozměrné tečkové diagramy pro znak X a znak Y b) polygony četností pro znak X a znak Y c) sloupkové diagramy pro znak X a znak Y d) výsečové diagramy pro znak X a znak Y

Řešení: ad a) Známka z M Známka z A ad b) 9 Polygon četností pro známky z matemati 8 Polygon četností známek z angličtiny 8 7 7 6 6 5 5 ad c) 9 Sloupkový diagram známek z matematiky 8 Sloupkový diagram známek z angličtiny 8 7 7 6 6 5 5 0 0 ad d) Výsečový diagram známek z matematiky Výsečový diagram známek z angličtiny

Ze všech těchto diagramů je vidět odlišný přístup zkoušejících ke studentům. Matematik nešetří jedničkami, ale místo trojky raději rovnou dává čtyřku. Naproti tomu angličtinář považuje trojku za typickou studentskou známu... Definice Nechť je dán jednorozměrný datový soubor, v němž znak X nabývá r variant. Pro j =,..., r definujeme: n j = N(X = x [j] ) absolutní četnost varianty x [j] ve výběrovém souboru p j = n n j relativní četnost varianty x [j] ve výběrovém souboru N j = N(X x [j] ) = n +... + n j absolutní kumulativní četnost prvních j variant ve výběrovém souboru N j F j = = p +... + p j relativní kumulativní četnost prvních j variant ve n výběrovém souboru Tabulka typu x [j] n j p j N j F j x [] n p N F M M M M M x [r] n r p r N r F r se nazývá variační řada. p j pro x = x[j], j =,..., r Funkce p(x) = se nazývá četnostní funkce. 0 jinak 0 pro x < x[] Funkce F(x) = Fj pro x[j] x < x[j + ], j =,..., r - se nazývá empirická pro x x[r] distribuční funkce..5. Příklad Pro datový soubor z příkladu.5 sestavte variační řadu pro znak X. Nakreslete grafy četnostní funkce a empirické distribuční funkce. Řešení: x [j] n j p j N j F j 7 0,5 7 0,5 0,5 0 0,50 0,0 0,60 8 0,0 0,00-0,00 - -

V některých datových souborech je počet variant znaku příliš veliký a použití bodového rozložení četností by vedlo k nepřehledným a roztříštěným výsledkům. V takových situacích používáme intervalové rozložení četností. Definujeme třídicí interval a jeho absolutní a relativní četnost, absolutní a relativní kumulativní četnost. Nově zavádíme četnostní hustotu třídicího intervalu. Uvedené četnosti zapisujeme do tabulky rozložení četností. Počet třídicích intervalů stanovujeme např. podle Sturgesova pravidla. Intervalové rozložení četností použijeme v příkladu s datovým souborem obsahujícím údaje o mezích plasticity a pevnosti 60 vzorků oceli..6. Definice Nechť je dán jednorozměrný datový soubor. Jestliže počet variant znaku X je blízký rozsahu souboru, pak přiřazujeme nikoliv jednotlivým variantám, ale celým intervalům hodnot. Hovoříme pak o intervalovém rozložení četnosti..7. Definice Číselnou osu rozložíme na intervaly typu (, u, ( u, u,..., ( u r, u r +, ( u, r + ) tak, aby okrajové intervaly neobsahovaly žádnou pozorovanou hodnotu znaku X. Užíváme označení: u, + j-tý třídicí interval znaku X, j =,..., r. ( j u j d j = u j+ u j délka j-tého třídicího intervalu znaku X u j + u j+ x [j] = střed j-tého třídicího intervalu znaku X Třídicí intervaly volíme nejčastěji stejně dlouhé. Jejich počet určíme např. pomocí Sturgesova pravidla: r = +, log 0 b, kde b je počet variant znaku X.

.8. Definice Nechť je dán jednorozměrný datový soubor rozsahu n. Hodnoty znaku X roztřídíme do r třídicích intervalů. Pro j =,..., r definujeme: n j = N(u j < X u j+ ) absolutní četnost j-tého třídicího intervalu ve výběrovém souboru p j = n n j relativní četnost j-tého třídicího intervalu ve výběrovém souboru f j = p d j j četnostní hustota j-tého třídicího intervalu ve výběrovém souboru N j = N(X u j+ ) = n +... + n j absolutní kumulativní četnost prvních j třídicích intervalů ve výběrovém souboru F j = n N j intervalů ve výběrovém souboru. Tabulka typu = p +... + p j relativní kumulativní četnost prvních j třídicích se nazývá tabulka rozložení četností..9. Příklad Z fiktivního základního souboru všech vzorků oceli odpovídajících všem myslitelným tavbám bylo do laboratoře dodáno 60 vzorků a zjištěny a hodnoty znaku X mez plasticity a Y mez pevnosti. Datový soubor má tvar: a) Pro znak X stanovte optimální počet třídicích intervalů dle Sturgesova pravidla. b) Sestavte tabulku rozložení četností.

Řešení: ad a) Znak X má 50 variant, tedy podle Sturgesova pravidla je optimální počet třídicích intervalů r = 7. Budeme tedy volit 7 intervalů stejné délky tak, aby v nich byly obsaženy všechny pozorované hodnoty znaku X, z nichž nejmenší je, největší 60; volba u = 0,..., u 8 = 70 splňuje požadavky. ad b) Ke grafickému znázornění intervalového rozložení četností slouží histogram. S jeho pomocí lze dobře vysvětlit, co znamená hustota četnosti, což je funkce zavedená pomocí četnostních hustot jednotlivých třídicích intervalů. S hustotou četnosti úzce souvisí intervalová empirická distribuční funkce (je všude spojitá, protože je funkcí horní meze integrálu z hustoty četnosti). Pro údaje o mezi plasticity oceli vytvoříme histogram a graf intervalové empirické distribuční funkce. Seznámíme se rovněž s vlastnostmi obou výše zmíněných funkcí... Definice Intervalové rozložení četností graficky znázorňujeme pomocí histogramu. Je to graf skládající se z r obdélníků, sestrojených nad třídicími intervaly, přičemž obsah j-tého obdélníku je roven relativní četnosti p j j-tého třídicího intervalu, j =,..., r. Histogram je shora omezen schodovitou čarou, která je grafem funkce zvané hustota f j pro u j < x u j+, j =, L, r četnosti: f(x) = 0 jinak Pomocí hustoty četnosti zavedeme intervalovou empirickou distribuční funkci: F(x) = f(t)dt. x -.5. Příklad Pro datový soubor z příkladu. nakreslete histogram pro znak X a pod histogram nakreslete graf intervalové empirické distribuční funkce. Řešení:

Shrnutí Není-li v jednorozměrném datovém souboru počet variant znaku příliš velký, pak přiřazujeme četnosti jednotlivým variantám znaku a hovoříme o bodovém rozložení četností. To lze znázornit graficky pomocí různých diagramů (např. tečkový diagram, sloupkový diagram atd.). Pokud zapíšeme četnosti do tabulky, dostaneme variační řadu. Pomocí relativních četností zavedeme četnostní funkci, pomocí kumulativních relativních četností empirickou distribuční funkci, která má schodovitý průběh. Pracujeme-li s dvourozměrným datovým souborem, zavádíme simultánní četnosti a zapisujeme je do kontingenční tabulky. Na okrajích kontingenční tabulky jsou uvedeny marginální četnosti, které se vztahují jen k jednomu znaku. Pomocí simultánních kumulativních relativních četností zavádíme simultánní četnostní funkci. Simultánní a marginální četnosti či četnostní funkce nám snadno umožní ověřit četnostní nezávislost dvou znaků v daném výběrovém souboru. Je-li se počet variant znaku srovnatelný s rozsahem souboru, použijeme raději intervalové rozložení četností, při němž přiřazujeme četnosti nikoli jednotlivým variantám, ale třídicím intervalům. Jejich počet určíme např. pomocí Sturgesova pravidla. Četnosti třídicích intervalů zapisujeme do tabulky rozložení četností. Relativní četnosti třídicích intervalů znázorňujeme pomocí histogramu. Schodovitá čára shora omezující histogram je grafem hustoty četnosti. Spojitým protějškem schodovité empirické distribuční funkce je intervalová empirická distribuční funkce zavedená jako funkce horní meze integrálu z hustoty četnosti. Kontrolní otázky a úkoly. Jaké grafy znázorňující rozložení četností znáte? Popište způsob jejich konstrukce.. Jak vzniká variační řada?. Jaké četnosti zapisujeme do kontingenční tabulky?. Kdy jsou v daném výběrovém souboru znaky četnostně nezávislé? 5. K čemu slouží Sturgesovo pravidlo? 6. (S) U 50 náhodně vybraných posluchačů a posluchaček VŠE v Praze byla zjišťována jejich hmotnost v kg (znak X) a jejich výška v cm (znak Y).

a) Pro znak X stanovte optimální počet třídicích intervalů podle Sturgesova pravidla, sestavte tabulku rozložení četnosti, nakreslete histogram a graf intervalové empirické distribuční funkce. b) Pro znak Y rovněž stanovte optimální počet třídicích intervalů podle Sturgesova pravidla. Pro vektorový znak (X, Y) sestavte kontingenční tabulku absolutních četností a nakreslete dvourozměrný tečkový diagram.