Fakulta dopravní PRAVDĚPODOBNOST A MATEMATICKÁ STATISTIKA. Doc. RNDr. Jana Novovičová, CSc. verze 12. dubna Vydavatelství ČVUT

Rozměr: px
Začít zobrazení ze stránky:

Download "Fakulta dopravní PRAVDĚPODOBNOST A MATEMATICKÁ STATISTIKA. Doc. RNDr. Jana Novovičová, CSc. verze 12. dubna 2006. Vydavatelství ČVUT"

Transkript

1 ČESKÉ VYSOKÉ UČENÍ TECHNICKÉ V PRAZE Fakulta dopravní PRAVDĚPODOBNOST A MATEMATICKÁ STATISTIKA Doc. RNDr. Jana Novovičová, CSc. verze 12. dubna 2006 Vydavatelství ČVUT

2 Lektor : Doc. Ing. Miloslav Vošvrda, CSc.

3 Předmluva Text je uspořádán tak, že první čtyři kapitoly jsou věnovány popisné statistice a počtu pravděpodobnosti, zbývající kapitoly pak základům matematické statistiky včetně regresní a korelační analýzy. Tradiční látka o regresi a korelaci je rozdělena na dvě části, první je věnována popisným metodám v regresi a korelaci, druhá statistické indukci. Seznam literatury obsahuje prameny použité při zpracování tohoto textu. Shrnutí důležitých vzorců je zařazeno na konci učebního textu jako příloha. Cílem tohoto učebního textu je vysvětlit základní statistické pojmy a metody a naučit se je aplikovat. Na začátku každé kapitoly je stručně popsáno o čem kapitola pojednává a jak obsah kapitoly souvisí s ostatní látkou v učebním textu. K výkladu nové látky jsou použity příklady. Obecná teorie je vykládána teprve poté, co se získá jasná představa o základních pojmech. Studenti dostanou základní vědecké poznatky, které jsou podrobněji vysvětlené ve speciálních textech. Podmínkou zvládnutí látky tohoto učebního textu je znalost základů matematické analýzy a elementární algebry. Z hlediska matematických výpočtů jsou ilustrační příklady co nejjednodušší, aby se studenti mohli soustředit na podstatu problému. Smyslem provádění ručních výpočtů je vypěstovat ve studentech cit pro význam statistických pojmů, nikoliv udělat z nich skvělé počtáře. Poděkování Moje vřelé poděkování patří především Ing. Pavlu Paclíkovi, PhD (od roku 2000 Delft University of Technology, Faculty of Electrical Engineering, Mathematics and Computer Science, The Netherlands), který zhotovil všechny obrázky, navrhl a realizoval technickou formu tohoto textu a poskytl cenné podněty a návrhy pramenící z jeho zkušeností ze studia na fakultě dopravní ČVUT. Praha, leden 2006 Doc.RNDr. Jana Novovičová, CSc. Ústav teorie informace a automatizace Akademie věd České republiky 3

4 Označení N N + množina nezáporných celých čísel množina přirozených čísel N m množina {1, 2,, m}, m N + R množina reálných čísel R + R k množina kladných reálných čísel množina k-rozměrných reálných vektorů [ n ] m celá část čísla n m A T transponspozice matice A I jednotková matice u T řádkový vektor, transpozice sloupcového vektoru u F : R R + F je zobrazení definované na množině R s hodnotami v množině R + t(ν) Studentovo t-rozdělení s ν stupni volnosti χ 2 (ν) χ 2 -rozdělení s ν stupni volnosti X N (µ, σ 2 ) náhodná veličina má normální rozdělení s parametry µ a σ 2 X N (µ, σ 2 ) náhodná veličina má přibližně normální rozdělení s parametry µ a σ 2 (a, b) {x R : a < x < b}, a b R (a, b {x R : a < x b}, a b R a, b {x R : a x b}, a b R 4

5 Obsah Předmluva 3 Označení 4 1 Podstata statistiky Dva základní typy statistiky Výběr a základní soubor Prostý náhodný výběr Jiné metody výběru Popisná statistika Veličiny a data Elementární zpracování statistických dat Třídění dat Statistické grafy Tvar rozdělení četností; symetrie a šikmost Popisné míry statistických souborů Kvantily Míry polohy Míry rozptýlenosti Míry šikmosti a špičatosti Počet pravděpodobnosti Pojem pravděpodobnosti Náhodné jevy Vztahy mezi jevy Vzájemně neslučitelné jevy Axiomatická definice pravděpodobnosti Pravidla pro počítání s pravděpodobnostmi Pravidlo o sčítání pravděpodobností Pravidlo pro pravděpodobnost opačného jevu Pravidlo o podmíněné pravděpodobnosti Pravidlo pro násobení pravděpodobností; nezávislost jevů Vzorec úplné pravděpodobnosti a Bayesův vzorec Jiné pohledy na pravděpodobnost

6 OBSAH 4 Náhodná veličina Náhodná veličina a její rozdělení Distribuční funkce a hustota Vícerozměrná rozdělení pravděpodobností Nezávislost náhodných veličin Charakteristiky náhodných veličin Střední hodnota Rozptyl Kvantily Kovariance a korelace Vektor středních hodnot, kovarianční matice Některá rozdělení pravděpodobností Diskrétní rozdělení Spojitá rozdělení Některé limitní věty Zákon velkých čísel Centrální limitní věty Náhodný výběr Pojem náhodného výběru Výběrové charakteristiky Rozdělení výběrových charakteristik Rozdělení výběrového průměru Rozdělení výběrového rozptylu Rozdělení výběrového podílu Nezávislé náhodné výběry Dva nezávislé výběry z normálního rozdělení nebo velké rozsahy výběrů Dva nezávislé výběry z alternativního rozdělení Párové náhodné výběry Základy teorie odhadu parametrů Bodové a intervalové odhady Vlastnosti bodových odhadů Nestranné odhady Konzistentní odhady Vydatnost odhadů Některé metody bodových odhadů Metoda momentů Metoda maximální věrohodnosti Intervaly spolehlivosti Sestrojení intervalu spolehlivosti Intervaly spolehlivosti pro střední hodnotu Intervaly spolehlivosti pro střední hodnotu při známém rozptylu Intervaly spolehlivosti pro střední hodnotu při neznámé směrodatné odchylce Intervaly spolehlivosti pro rozptyl

7 OBSAH 6.7 Intervaly spolehlivosti pro podíl Základy testování statistických hypotéz Podstata testování hypotéz Formulace hypotéz Volba testového kriteria Základní pojmy a terminologie Testová statistika, obor přijetí, obor zamítnutí, kritické hodnoty Chyba prvního a druhého druhu Závěry při testování hypotéz a jejich interpretace Kritický obor pro zadanou hladinu významnosti Formulace procesu testování hypotéz Klasický přístup k testování hypotéz P -hodnoty Přístup k testování hypotéz založený na P -hodnotě Některé testy parametrických hypotéz Test hypotézy o střední hodnotě µ Test hypotézy o rozptylu Testy hypotézy o podílu p Testy hypotéz o shodě dvou středních hodnot Testy hypotézy o shodě dvou středních hodnot pro nezávislé výběry Testy hypotézy pro dvě střední hodnoty užitím párových výběrů Test hypotézy o shodě dvou podílů při nezávislých výběrech Chí-kvadrát test dobré shody Chí-kvadrát test nezávislosti Regresní a korelační analýza Lineární rovnice s jednou nezávislou proměnnou Regresní rovnice Extrapolace Odlehlá a vlivná pozorování Koeficient determinace Lineární korelace Lineární regresní model Bodový odhad rozptylu σ Testy hypotéz a intervaly spolehlivosti pro parametr β Odhad a predikce Testy hypotéz o korelačním koeficientu Obecný regresní model Maticové vyjádření modelu lineární regrese Statistiské tabulky 146 Příloha i 7

8 8

9 Kapitola 1 Podstata statistiky Pod pojmem statistika si většina lidí představuje číselná fakta, jako například počet nezaměstnaných, ceny potravin, nebo množství uzavřených sňatků a rozvodů atd. Statistika (název z latinského slova status = stát) původně znamenala vědu zabývající se shromažd ováním, tříděním a tabelováním takovýchto dat. Statistika ale znamená mnohem více, než je obsaženo v této definici. Statistikové nejen data shromažd ují, třídí a tabelují, ale také analyzují za účelem formulování obecných závěrů a rozhodování. Na příklad politický analytik může použít údaje získané z části oprávněných voličů v ČR k predikci volebních preferencí všech oprávněných voličů celé ČR. Městské zastupitelstvo může rozhodnout o tom, kde postavit novou dálnici, na základě souhrnných zpráv o životním prostředí a demografických zpráv, které zahrnují různé statistické údaje. V této kapitole zavedeme základní terminologii, takže různé významy slova statistika budou zřejmější. 1.1 Dva základní typy statistiky Při statistických výzkumech nás zajímají hromadné jevy a procesy, tj. jevy a procesy vyskytující se u velkého počtu prvků. Tyto prvky nazýváme statistické jednotky a jsou to elementární jednotky statistického zkoumání. Mohou to být osoby (např. zaměstnanci podniku při sledování mezd), organizace (např. podniky při zkoumání výše výroby), věci, události, zvířata apod. Použijeme dobře známé příklady z oblasti sportu a z oblasti politických voleb k objasnění dvou základních typů statistiky: popisné statistiky a inferenční statistiky. Příklad 1.1 Popisná statistika V únoru 1998 se v Japonsku konaly zimní olympijské hry. Čeští hokejisté hráli celkem 6 zápasů, vyhráli 5 zápasů a prohráli 1 zápas. Práce lidí, kteří nashromáždili údaje o těchto zápasech i o hráčích (počet nastřílených gólů, průměrný počet gólů připadající na jeden zápas, průměrný věk hráčů a pod.), je ilustrací popisné statistiky. Formální vymezení termínu popisná statistika je dáno následující definicí 1.1. Definice 1.1 POPISNÁ STATISTIKA Popisná statistika se skládá z metod pro zjišt ování a sumarizaci informací. 9

10 KAPITOLA 1 PODSTATA STATISTIKY Popisná statistika zahrnuje konstrukci grafů, diagramů a tabulek a výpočet různých popisných charakteristik jako je aritmetický průměr, míry rozptýlenosti a percentily, jimiž se budeme zabývat kapitole 2. Inferenční statistika (nebo též statistická indukce) je ilustrována na příkladu 1.2. Příklad 1.2 Inferenční statistika Agentura STEM provedla v únoru 1998 v České republice průzkum volebních preferencí u 2000 oprávněných voličů. Zjistila, že 10% preferuje ODS, 29% ČSSD, 11% US atd. Výrok: V předčasných volbách v červnu 1998 zvítězí ČSSD a získá podporu od 25% voličů, kteří se zůčastní voleb, je výrokem inferenční statistiky. Politické volby poskytují příklad inferenční statistiky. Bylo by příliš nákladné a nerealistické dotazovat se všech voličů na jejich volební preference. Statistikové, kteří si přejí odhadnout mínění celé populace voličů ČR, se mohou dotázat jen pečlivě vybrané skupiny několika tisíc voličů. Taková skupina voličů se nazývá výběr z populace. Statistikové analyzují informace získané z výběru voličské populace, aby udělali závěry o volebních preferencích celé voličské populace. Inferenční statistika poskytuje metody pro formulování takových závěrů. Terminologie zavedená v kontextu politických voleb se běžně užívá ve statistice. Definice 1.2 ZÁKLADNÍ SOUBOR (POPULACE) A VÝBĚROVÝ SOUBOR (VÝBĚR) Základní soubor: Soubor všech statistických jednotek, které jsou předmětem statistické studie. Výběrový soubor: Část základního souboru, která sloužila k získání informací. Počet všech jednotek základního souboru nazýváme rozsah základního souboru, je konečný nebo spočetně nekonečný, zpravidla je velký. Počet všech jednotek výběrového souboru se nazývá rozsah výběrového souboru. Informace získané z výběrového souboru slouží k formulování závěru o základním souboru. Definice 1.3 INFERENČNÍ STATISTIKA Inferenční statistika se skládá z metod pro přijímání a měření spolehlivosti závěrů o populaci založených na informacích získaných z výběru z této populace. Popisná statistika a inferenční statistika jsou vzájemně propojeny. Téměř vždy je nutné použít metody popisné statistiky k organizování a sumarizaci informací získaných z výběru dříve než provedeme statistické vyhodnocování. Kromě toho předběžná popisná analýza výběru často odhalí rysy, které vedou k volbě (nebo k přehodnocení volby) vhodných inferenčních metod. Statistické zkoumání lze zpravidla rozdělit do několika etap. Jde o etapu statistického zjišt ování neboli šetření, statistického zpracování zjištěných údajů a konečně o etapu statistického vyhodnocování. Přestože nejdůležitější je etapa třetí, je nezbytným předpokladem její úspěšnosti, aby byly správně provedeny etapy předchozí. Předmětem těchto skript není první etapa statistického zkoumání (viz např. [10, 7]). 10

11 1.2 VÝBĚR A ZÁKLADNÍ SOUBOR 1.2 Výběr a základní soubor Jestliže informace potřebné k formulování závěrů o základním souboru nejsou k dispozici, je třeba provést studii k získání informací. Zhruba řečeno, existují dvě metody pro získání informací: vzít výběr nebo shromáždit údaje o celém základním souboru. Výběr je nejvíce rozšířený způsob, nebot je levnější a rychlejší než sledování celého základního souboru. Rozhodneme-li se pro výběr, je třeba rozhodnout, jakou metodu pro výběr ze základního souboru zvolíme. V úvahu musíme vzít skutečnost, že na základě informací získaných z výběru budeme dělat závěry o celém základním souboru. Tudíž rozhodující je, aby výběr byl reprezentativní, to znamená, že musí odrážet co možná nejvěrněji relevantní charakteristiky základního souboru, který je předmětem našeho zkoumání. Například by nemělo velký význam použít průměrnou výšku výběru hráčů basketbalu k formulování závěrů o průměrné výšce všech dospělých mužů v ČR. Prezidentské volby v roce 1936 v USA nám umožní uvědomit si, co se může stát, není-li výběr reprezentativní. Před volbami se snažili vydavatelé časopisu Literary Digest předpovědět výsledek prezidentských voleb. Tým pracovníků, zabývající se průzkumem, položil vybraným voličům otázku, zda budou volit kandidáta demokratů D. Roosvelta nebo kandidáta republikánů A. Landona. Na základě výsledků průzkumu časopis předpověděl snadné vítězství Landona. Skutečný výsledek voleb byl, že Roosvelt zvítězil s takovou převahou, jaká neměla obdoby v historii prezidentských voleb v USA. Co se stalo? Existují dva důvody proč průzkum selhal: (1) Výběr byl proveden mezi lidmi, kteří vlastnili automobil a měli telefon. V roce 1936 tato skupina voličů byla složena pouze ze zámožnějších lidí a taková skupina lidí tradičně volila republikány. (2) Jen asi 25% oslovených voličů odpovědělo na dotazník. Následkem toho byl výběr tak vychýlený a nereprezentativní, že jeho použití vedlo ke špatnému odhadu vítězství republikánů. Nejmodernější postupy pořizování výběru používají pravděpodobnostní výběry, při kterých náhodné rozhodování, například pomocí tabulek náhodných čísel, je využito pro rozhodnutí, které statistické jednotky základního souboru budou tvořit výběr, místo toho, aby se toto rozhodnutí ponechalo na lidském posouzení. Samozřejmě, že i v tomto případě můžeme dostat nereprezentativní výběr. Avšak pravděpodobnostní výběr vylučuje záměrnou jednostrannost výběru a dovoluje výzkumným pracovníkům kontrolovat možnost získání nereprezentativního výběru Prostý náhodný výběr Statistické inferenční metody, kterými se budeme v rámci těchto skript zabývat, jsou určeny pouze pro použití prostých (jednoduchých) náhodných výběrů. Definice 1.4 PROSTÝ NÁHODNÝ VÝBĚR Prostý náhodný výběr nebo jen náhodný výběr je takový náhodný výběr, kdy při jeho sestavování měla každá statistická jednotka základního souboru stejnou možnost být vybrána. Existují dva typy prostého náhodného výběru. Prostý náhodný výběr s vracením, ve kterém každá jednotka základního souboru může být vybrána více než jednou; jiný je prostý náhodný výběr bez vracení, ve kterém každá jednotka základního souboru může 11

12 KAPITOLA 1 PODSTATA STATISTIKY být vybrána nejvýše jednou. Pokud nebude řečeno jinak, budeme předpokládat, že prostý náhodný výběr je pořízen bez vracení. Prostý náhodný výběr je nejjednodušší způsob výběru statistických jednotek. Provádí se přímo a bez předběžných omezení. Proto lze ve výběru počítat se všemi myslitelnými např. n-člennými kombinacemi statistických jednotek. Prostý náhodný výběr má také některé nevýhody. Například nám neukáže dokonale strukturu základního souboru a může být nepraktický a drahý, jsou-li statistické jednotky geograficky široce roztroušeny. Uvedeme některé metody výběru, které jsou často vhodnější než prostý náhodný výběr Jiné metody výběru Jedna metoda výběru, kterou lze snadněji realizovat než prostý náhodný výběr, je systematický náhodný výběr. Lze ji uplatnit, jsou-li jednotky základního souboru seřazeny náhodně vzhledem ke sledovanému znaku. Tento výběr probíhá ve třech krocích: (1) Vydělíme rozsah základního souboru rozsahem výběru a výsledek zaokrouhlíme dolů na nejbližší celé číslo m; (2) pomocí tabulky náhodných čísel (nebo obdobného zařízení) určíme číslo k ležící mezi 1 a m; (3) z posloupnosti náhodně seřazených jednotek vybereme ty statistické jednotky základního souboru, které mají přiřazena čísla k, k + m, k + 2m,. Jiná alternativní metoda k prostému náhodnému výběru je tzv. výběr skupin. Tato metoda probíhá v následujících třech krocích: (1) Základní soubor se rozdělí do skupin (klastrů); provede se prostý náhodný výběr skupin; (3) všechny statistické jednotky skupiny vybrané v kroku (2) tvoří náhodný výběr. Tento typ výběru šetří peníze i čas, ale má určité nedostatky. V ideálním případě by vybraná skupina měla odrážet charakteristické rysy celého základního souboru. Avšak to se většinou nestane, skupina je obvykle stejnorodější, než základní soubor jako celek. Další metoda výběru známá jako stratifikovaný výběr je často spolehlivější než výběr skupin. Při realizaci stratifikovaného výběru je nejprve celý základní soubor rozdělen na několik dílčích souborů, oblastí, přičemž je snaha tvořit tyto podsoubory tak, aby obsahovaly pokud možno statistické jednotky stejných vlastností. Tím docílíme, že každá oblast je sama o sobě stejnorodějším celkem, než původní základní soubor. V každé oblasti se pak provede prostý náhodný výběr. Oblastmi mohou být např. univerzity tříděné podle zaměření, podniky tříděné podle určitých hledisek, domácnosti o různém počtu členů apod. Oblastní výběr je náročnější časově i finančně než prostý náhodný výběr, je-li však správně proveden, je účinnější a dává kvalitnější informace o základním souboru než prostý náhodný výběr. Vícestupňový náhodný výběr je kombinací všech předcházejících náhodných výběrů včetně prostého náhodného výběru. Problematika výběrových šetření je velice rozsáhlá a přesahuje rámec tohoto učebního textu. Více se lze dočíst ve specializované statistické literatuře. 12

13 Kapitola 2 Popisná statistika V této kapitole se budeme zabývat popisnou statistikou. Nejprve ukážeme, jak klasifikovat získané údaje podle typu, jak je uspořádat do tabulek a sumarizovat je pomocí grafického zobrazení. Pokračovat budeme zkoumáním charakteristik, které můžeme použít k popisu datových souborů. 2.1 Veličiny a data Vlastnosti statistických jednotek, které se mění od jedné jednotky ke druhé se nazývají statistické znaky nebo veličiny, případně proměnné. Zvolíme-li za statistickou jednotku osobu, lze tuto jednotku charakterizovat např. znaky: výška, váha, počet sourozenců, barva očí, nejvyšší dosažené vzdělání, rodinný stav apod. Statistické znaky můžeme rozdělit podle několika kritérií, zejména podle toho, jak lze vyjádřit jejich obměny. První tři výše zmíněné veličiny charakterizující osobu lze vyjádřit číselnou formou, poskytují tedy číselnou informaci a jsou příkladem kvantitativních veličin. Poslední tři veličiny poskytují informaci, která není číselná, je dána slovní definicí a tyto veličiny jsou příkladem kvalitativních veličin. Kvantitativní veličiny mohou být diskrétní (nespojité) nebo spojité. Diskrétní veličina je taková veličina, jejíž možné hodnoty tvoří konečnou nebo spočetně nekonečnou množinu čísel, obvykle množinu celých čísel. Počet sourozenců nějaké osoby je příkladem diskrétní veličiny. Spojité veličiny mohou nabývat v rámci určitého intervalu libovolných hodnot. Výška osoby je příklad spojité veličiny. Spojitá veličina je tudíž veličina, jejíž možné hodnoty tvoří nějaký číselný interval. Předchozí diskuse je shrnuta v definici 2.1. Definice 2.1 VELIČINY Veličina: Charakteristika, která se mění od jedné statistické jednotky ke druhé. Kvalitativní veličina: Veličina, kterou nelze vyjádřit číselně. Kvantitativní veličina: Veličina, kterou lze vyjádřit číselně. Diskrétní veličina: Kvantitativní veličina, jejíž možné hodnoty tvoří konečnou nebo spočetně nekonečnou množinu čísel. Spojitá veličina: Kvantitativní veličina, jejíž možné hodnoty tvoří nějaký číselný interval. Pozorováním nebo měřením hodnot veličiny na několika statistických jednotkách získáme vstupní data nebo jen data. Data jsou tudíž informace, které statistikové shromažd ují, třídí 13

14 KAPITOLA 2 POPISNÁ STATISTIKA a analyzují. Názvy kvalitativní, kvantitativní, diskrétní a spojité používáme rovněž k popisu dat stejně jako veličin: kvalitativní data jsou data získaná pozorováním, měřením kvalitativní veličiny, apod. Soubor všech pozorovaných hodnot sledovaného statistického znaku, které máme k dispozici, budeme nazývat datový soubor nebo množina dat. Množinu všech statistických jednotek, u nichž zkoumáme příslušné statistické znaky, nazýváme statistický soubor. Zjišt ujeme-li u každé statistické jednotky pouze jeden statistický znak, získáme soubor jednorozměrný. Zjišt ujeme-li u každé jednotky dva nebo více znaků a zkoumáme-li současně jejich vzájemné vztahy, získáme statistický soubor vícerozměrný. Statistický soubor všech jednotek, který je vlastním předmětem sledování, o němž chceme provádět závěry, se nazývá základní soubor nebo populace, jak jsme se již zmínili v kapitole Elementární zpracování statistických dat Třídění dat Výsledkem statistického šetření je zpravidla velké množství číselných údajů, které jsou většinou nepřehledné. Aby vynikly charakteristické rysy a zákonitosti analyzovaného souboru a aby se údaje staly přehlednými, musíme je setřídit. Tříděním tedy rozumíme rozdělení statistických jednotek souboru do takových skupin, aby co nejlépe vynikly charakteristické vlastnosti zkoumaných jevů. Třídění je tedy metoda pro uspořádání údajů do přehledné formy a také jejich zhuštění. Provádíme-li třídění pouze podle obměn jednoho statistického znaku, mluvíme o jednostupňovém třídění. Provádíme-li třídění podle více statistických znaků najednou, jde o třídění vícestupňové. Příklad 2.1 Třídění dat Získali jsme údaje o počtu dní zbývajících do splatnosti 40 krátkodobých úvěrů Tyto údaje jsou značně nepřehledné a ani zkušený pracovník z nich nezíská základní informace o rozdělení úvěrů podle doby zbývající do splatnosti. Rozdělením dat do skupin můžeme dosáhnout toho, že data se stanou mnohem přehlednější. Nejprve rozhodneme, jak velké třídy zvolíme. V tomto příkladu je vhodné rozdělit úvěry do tříd o délce 10 dní. Vzhledem k tomu, že nejmenší údaj je 36 a největší 99, rozdělením údajů do 10 tříd dostaneme třídy 30 39, 40 49, 50 59, 60 69, 70 79, 80 89, Dalším a posledním krokem při třídění dat je stanovení, jaký počet úvěrů připadá na každou třídu. Například počet úvěrů, pro které doba zbývající do splatnosti leží mezi dny je 10. Kdybychom provedli rozdělení do tříd 30 40, 40 50, atd., měli bychom problém, do které třídy zařadit například úvěr, kterému chybí 50 dní do splatnosti. Tento problém nevznikne při způsobu třídění uvedeném výše. Při třídění dat do tříd v příkladu 2.1 jsme se řidili určitými zásadami, které mají obecnou platnost. Uvedeme ty nejdůležitější. 1. Počet tříd nemá být příliš malý, aby to nevedlo k velmi zjednodušenému pohledu na vlastnosti souboru a neměl by být příliš velký, nebot by se mohlo stát, že se zpracování stane nepřehledným a zaniknou zákonitosti charakteristické pro daný soubor. 14

15 2.2 ELEMENTÁRNÍ ZPRACOVÁNÍ STATISTICKÝCH DAT Při určování počtu tříd se snažíme potlačit náhodné kolísání četností, ale zároveň nesmíme setřít charakteristické rysy. Na stanovení počtu tříd neexistuje jednotný názor ani obecný předpis. 2. Jednotlivé pozorované hodnoty znaku patří do jedné a jen jedné třídy. Tento problém je spojen s otázkou, jak určovat hranice tříd, aby bylo možné jednotlivé hodnoty zařadit do příslušných tříd jednoznačně. 3. Pokud je to možné, stanovíme shodnou šířku pro všechny třídy. V případě jednostupňového třídění tudíž uspořádáme údaje o zkoumaném kvantitativním znaku do rostoucí posloupnosti, rozdíl mezi maximální a minimální zjištěnou hodnotou znaku rozdělíme na určitý počet intervalů, které nazýváme třídní intervaly nebo třídy a mluvíme o intervalovém třídění. Každému intervalu přiřadíme počet statistických jednotek s hodnotou znaku, který patří do příslušné třídy. Rozdělení četností a relativních četností Počet statistických jednotek s hodnotou znaku, který patří do určité třídy, nazýváme absolutní četností nebo jen četností třídy. V příkladu 2.1 o krátkodobých úvěrech je číslo 10 četnost třídy 60 69, zatímco číslo 7 je četnost třídy a také třídy Podíl příslušné četnosti a rozsahu datového souboru se nazývá relativní (poměrná) četnost. Například relativní četnost třídy je 8/40 = 0.2. Poznamenejme, že součet relativních četností všech tříd je roven jedné. Tabulku, do které uspořádáváme četnosti resp. relativní četnosti, nazýváme tabulkou rozdělení četností resp. tabulkou rozdělení relativních četností. Chceme-li mezi sebou porovnávat různé datové soubory, lišicí se svým rozsahem, je vhodnější použít relativní četnosti než absolutní četnosti. Je to z toho důvodu, že relativní četnost je číslo mezi 0 a 1 a tudíž může být kriteriem pro porovnání. Dva datové soubory mající shodné rozdělení četností, budou mít shodné rozdělení relativních četností. Ale dva datové soubory mající shodné rozdělení relativních četností, budou mít shodné rozdělení četností jen v případě, že oba datové soubory mají stejný rozsah. Kromě uvedených dvou způsobů konstrukce rozdělení četností, konstruujeme též rozdělení kumulativních četností a kumulativních relativních četností, které podávají informaci o tom, kolik jednotek souboru, resp. jaká poměrná část souboru má hodnotu sledované veličiny menší nebo rovnu určité dané hodnotě. Například pro data z příkladu 2.1 zjistíme, že kumulativní četnost úvěrů s dobou splatnosti kratší než 50 dní je 3+1=4, takže 4 úvěry mají dobu splatnosti kratší než 50 dní. Dále zjistíme, že kumulativní relativní četnost úvěrů s dobou splatnosti kratší než 50 dní je 4/40 = 0.10, to znamená, že 10% úvěrů má dobu splatnosti menší než 50 dní. Terminologie používaná při třídění Vrat me se opět k příkladu 2.1. Uvažujme například třídu Nejmenší počet dní do splatnosti je 50. Tato hodnota se nazývá dolní hranice třídy. Největší doba splatnosti v této třídě je 59. Tato hodnota se nazývá horní hranice třídy. Prostřední hodnota třídy je ( )/2 = 54.5 a nazývá se střed třídy. Středy tříd nám umožňují reprezentaci jednotlivých tříd pomocí jediného čísla a někdy se používají při grafickém zobrazování a při počítání popisných měr. Šířka třídy získaná odečtením své dolní hranice od dolní hranice sousední vyšší třídy, je = 10 a nazývá se šířka třídy. 15

16 KAPITOLA 2 POPISNÁ STATISTIKA V definici 2.2 jsou shrnuty základní pojmy používané při třídění dat. Definice 2.2 POJMY POUŽÍVANÉ PŘI TŘÍDĚNÍ DAT Třídy: Skupiny, do kterých jednotlivá data rozdělujeme. Dolní hranice třídy: Nejmenší hodnota která patří do příslušné třídy. Horní hranice třídy: Největší hodnota, která patří do do příslušné třídy. Střed třídy: Střed příslušné třídy. Šířka třídy: Dolní hranici dané třídy odečteme od dolní hranice sousední vyšší třídy. Četnost třídy: Počet jednotlivých dat v dané třídě. Relativní četnost třídy: Podíl četnosti třídy a celkového počtu dat v datovém souboru. Kumulativní četnost: Součet četností všech tříd reprezentujících všechny hodnoty menší než horní hranice příslušné třídy. Kumulativní relativní četnost třídy: Podíl kumulativní četnosti a celkového počtu dat v souboru. Nyní uvedeme výpočetní vzorce pro četnosti. Necht {x 1,, x n } jsou pozorování určitého statistického znaku x, x j (a, b, j = 1,, n a = a 0 < a 1 < < a k = b. Interval (a, b rozdělíme na k disjunktních podintervalů (a i 1, a i, i = 1, 2,, k. Šířka i-té třídy je pak rozdíl mezi horní hranicí intervalu (a i 1, a i a horní hranicí sousedního intervalu (a i 2, a i 1. Četnost i-té třídy n i je počet pozorování x j, pro která platí a i 1 < x j a i. Tabulka 2.1 Rozdělení četností a kumulativních četností Interval Četnost Kumulativní četnost Střed absolutní relativní absolutní relativní třídy (a i 1, a i n i p i N i P i y i (a 0, a 1 n 1 p 1 n 1 p 1 y 1 (a 1, a 2 n 2 p 2 n 1 + n 2 p 1 + p 2 y (a k 1, a k n k p k k n k i p i Celkem k n i = n k p i = 1 y k Výpočetní vzorce pro četnosti a kumulativní četnosti Relativní četnost i-té třídy p i : Podíl četnosti n i i-té třídy a počtu n všech dat v datovém souboru. p i = n i n, k p i = 1. (2.1) Kumulativní četnost i-té třídy N i : Počet všech x j, pro která platí a 0 < x j a i : i N i = n r, 1 r k. (2.2) r=1 Kumulativní relativní četnost i-té třídy P i : Podíl kumulativní četnost i-té třídy, N i a počtu n všech dat v souboru. Nebo ekvivalentně, součet relativních četností všech tříd od 1. třídy až po i-tou třídu. i P i = p r, 1 r k. (2.3) r=1 16

17 2.2 ELEMENTÁRNÍ ZPRACOVÁNÍ STATISTICKÝCH DAT Tabulku, ve které jsou uvedeny třídy, četnosti, relativní četnosti, kumulativní četnosti, kumulativní relativní četnosti a středy tříd pro datový soubor budeme nazývat tabulkou intervalového třídění dat. Označme y i střed i-té třídy. Rozdělení četností a kumulativních četností je uvedeno v následující tabulce 2.1. Pro data z příkladu 2.1 nyní uvedeme tabulku intervalového třídění. Tabulka 2.2 Četnosti a kumulativní četnosti pro dobu splatnosti krátkodobých úvěrů Počet dní Četnost Relativní Kumulativní Kumul.relativní Střed do splatnosti (počet úvěrů) četnost četnost četnost třídy Celkem 40 1 Jednoduché třídění Každá třída, kterou jsme doposud použili při třídění dat, reprezentovala několik možných číselných hodnot. Při zpracování údajů diskrétního statistického znaku, který nabývá pouze určitého počtu obměn, je někdy vhodnější použít takové třídy, kdy všechny reprezentují jednu možnou číselnou hodnotu. Pak hovoříme o jednoduchém třídění. Máme-li k dispozici údaje o spojitém statistickém znaku, nebo o znaku, který je sice diskrétní, ale může nabývat velkého počtu nejrůznějších obměn, pak raději konstruujeme intervalové rozdělení četností. Příklad 2.2 Jednoduché třídění V jednom malém městě byl proveden průzkum počtu dětí školního věku v rodině. Bylo náhodně vybráno 15 rodin. Počet dětí školního věku v každé z 15 vybraných rodin je následující Uspořádáme tyto údaje do tabulky rozdělení četností. Počet dětí Četnost Kumulativní četnost školního věku absolutní relativní absolutní relativní Celkem Rozdělení četností pro kvalitativní data Pojmy jako dolní a horní hranice třídy nebo střed třídy jsou použitelné pro kvantitativní data, nejsou však vhodné pro kvalitativní data jako například při práci s údaji pro zařazování lidí do tříd podle toho, zda jde o muže nebo ženu. I v tomto případě však můžeme určovat četnosti a relativní četnosti. 17

18 KAPITOLA 2 POPISNÁ STATISTIKA Příklad 2.3 Rozdělení četností pro kvalitativní data 40 náhodně vybraných dospělých občanů bylo dotázáno, jakému dopravnímu prostředku dává přednost při cestách na dovolenou do zahraničí. Určete rozdělení četností pro data, která jsou uvedena v následující tabulce. (Osobní automobil (A), autobus (B), letadlo (L), ostatní (O)). O B A B B A B A L B B B A A A O O O B A A O L A L O B B A O O L B B B B B B A A Tabulka četností a relativních četností použití dopravních prostředků: Dopravní prostředek Četnost Relativní četnost Osobní automobil Autobus Letadlo Ostatní Celkem Statistické grafy Vedle statistických tabulek je důležitou formou zobrazování statistických údajů graf. Grafické zobrazení dává rychlou a přehlednou představu o tendencích a charakteristických rysech analyzovaných jevů. Grafy jsou také účinným popularizačním prostředkem statistických výsledků. Z hlediska konstrukce lze grafy rozdělit do různých skupin. O některých se zde zmíníme. Histogramy pro intervalové třídění Uvažujme pro ilustraci třídění doby splatnosti krátkodobých úvěrů (příklad 2.1). V tabulce 2.2 jsou data uspořádaná do tříd. Cílem je grafické zobrazení takto roztříděných dat. Jeden způsob jak zobrazit tato data, je sestrojit graf, v němž jsou třídy zobrazeny v pravoúhlé souřadnicové soustavě na vodorovnou osu a četnosti na svislou osu. Můžeme to udělat pomocí histogramu četností. Je na obr. 2.1(a). Obrázek 2.1 Histogramy pro počet dní po splatnosti krátkodobých úvěrů Četnost Relativní četnost Počet dní po splatnosti (a) histogram četností Počet dní po splatnosti (b) histogram relativních četností Výška každého sloupce je rovna četnosti třídy, kterou reprezentuje. Každý sloupek je umístěn 18

19 2.2 ELEMENTÁRNÍ ZPRACOVÁNÍ STATISTICKÝCH DAT mezi dolní hranici třídy a dolní hranici nejbližší vyšší třídy. Histogram četností zobrazuje četnosti tříd. K zobrazení relativních četností můžeme použít histogram relativních četností, který je podobný histogramu četností. Jediný rozdíl je v tom, že výška každého sloupku v tomto histogramu je rovna relativní četnosti třídy místo četnosti třídy. Histogram relativních četností pro data z příkladu 2.1 je na obr. 2.1(b). Poznamenejme, že tvary histogramu relativních četností na obr. 2.1(b) a histogramu četností na obr. 2.1(a) jsou shodné. Nyní uvedeme formální definice histogramu četností a histogramu relativních četností. Definice 2.3 HISTOGRAM ČETNOSTÍ A RELATIVNÍCH ČETNOSTÍ Histogram četností: Graf, který v pravoúhlé souřadnicové soustavě zobrazuje třídy na vodorovnou osu a četnosti tříd na svislou osu. Četnost každé třídy je reprezentována sloupcem, jehož výška je rovna četnosti třídy. Histogram relativních četností: Graf, který v pravoúhlém souřadnicové soustavě zobrazuje třídy na vodorovnou osu a relativní četnosti tříd na svislou osu. Relativní četnost každé třídy je reprezentována svislým sloupcem, jehož výška je rovna relativní četnosti třídy. Histogramy pro jednoduché třídění Konstrukce histogramu je trochu odlišná při jednoduchém třídění dat, kdy třídy jsou založeny pouze na jedné hodnotě statistického znaku. V tomto případě umístíme střed každého sloupce histogramu přímo do jediné číselné hodnoty, která reprezentuje třídu. Polygony četností a kumulativních četností Další velice často používané grafické znázornění četností je polygon četností. Polygon četností je graf, který vznikne tak, že v pravoúhlé souřadnicové soustavě spojíme úsečkami body o souřadnicích (y i, n i ), resp. (y i, p i ), kde y i je střed i-té třídy a n i resp. (p i ) je četnost i-té třídy resp. relativní četnost. Nahradímeli četnosti odpovídajícími kumulativními četnostmi, dostaneme polygon kumulativních četností. Pro údaje z příkladu 2.1 je polygon relativních četností a kumulativních relativních četností uveden na obr Bodové grafy Další typ grafického znázornění pro kvantitativní data je bodový graf. Bodové grafy používají jako grafické prostředky body umístěné v souřadnicové soustavě. Jsou zvláště užitečné pro znázornění relativní polohy jednoho údaje v souboru všech dat, která jsou k dispozici pro danou úlohu, nebo pro porovnání dvou nebo více datových souborů. Bodový graf pro data z příkladu 2.2 je na obrázku 2.3. Obrázek 2.2 Polygony četností 1.0 kumulativní četnost 0.9 relativní četnost Obrázek 2.3 Bodový graf

20 KAPITOLA 2 POPISNÁ STATISTIKA Z obrázku je patrné, že bodové grafy jsou podobné histogramům. Pokud provedeme jednoduché třídění dat, pak oba jsou vpodstatě identické. Konstrukce bodových grafů je jednodušší. Kruhové diagramy a sloupkové grafy Histogramy, polygony a bodové grafy slouží k znázorňování kvantitativních dat. Kvalitativní dat se zobrazují pomocí odlišné techniky. Dvě nejčastěji používané metody pro znázornění kvalitativních dat jsou kruhové diagramy nebo též nazývané koláčové grafy a sloupkové grafy. Kruhový diagram je kruh rozdělený na části ve tvaru kousků koláče, které získáme rozdělením středového úhlu kružnice úměrně k podílu jednotlivých částí zobrazovaného jevu vyjádřených v procentech. Sloupkový graf je podobný histogramu až na to, že jeho sloupky se nedotýkají jeden druhého. Kruhový diagram a sloupkový graf pro rozdělení relativních četností z příkladu 2.3 jsou znázorněny na obr. 2.4 (a) a (b). Obrázek 2.4 Dopravní preference autobus (40%) ostatní (20%) letadlo (10%) auto (30%) Relativní četnost auto autobus letadlo ostatní (a) kruhový diagram (b) sloupkový graf Stem-and-Leaf diagramy (stonek s listy, číslicový dendrogram) Stem-and-leaf diagram je obdoba histogramu četností. Konstrukce tohoto diagramu bývá často jednodušší než konstrukce histogramu četností a obecně zobrazuje více informací než histogram četností. Pro údaje v tabulce k příkladu 2.1 získáme tento diagram tak, že si nejprve vybereme z dat tzv. řídící číslice. Dostaneme tak čísla 3, 4,, 9 a zapíšeme je do 1. sloupce. Pak postupně procházíme data a napíšeme koncovou číslici každého čísla vpravo od řídící číslice. Řídící číslice se nazývají stems (stonky) a koncové číslice leaves (listy). Jiný tvar stem-and-leaf diagramu je tzv. uspořádaný stem-and-leaf diagram. V tomto diagramu jsou listy v každém řádku uspořádány od nejmenšího k největšímu. Stem-and-leaf diagram resp. uspořádaný stem-and-leaf diagram je zobrazen pro data v příkladu 2.1 na obr. 2.5 (a) resp. (b). 20

21 2.2 ELEMENTÁRNÍ ZPRACOVÁNÍ STATISTICKÝCH DAT Obrázek 2.5 Počet dní do splatnosti úvěru Stems Leaves Stems Leaves (a) stem-and-leaf diagram (b) uspořádaný stem-and-leaf diagram Tvar rozdělení četností; symetrie a šikmost Důležitým aspektem rozdělení četností datového souboru je jeho tvar. Později uvidíme, že tvar rozdělení četností hraje často důležitou roli při určení vhodné metody statistické analýzy. V odstavci jsme se seznámili s metodami grafického znázornění dat, mezi nimi s histogramy, polygony a diagramy. Při diskusi o tvarech rozdělení je vhodnější používat hladkou křivku jako aproximaci tvaru rozdělení. Například obr. 2.1 zobrazuje histogram relativních četností pro počet dní zbývajících do splatnosti krátkodobých úvěrů. Zároveň znázorňuje i hladkou křivku, která aproximuje tvar rozdělení. Tvary rozdělení četností Obrázek 2.6 na straně 22 zobrazuje některé běžné tvary rozdělení: tvar zvonu, trojúhelníkový, rovnoměrný (rektangulární), ve tvaru písmene J, tvaru obráceného J, vpravo sešikmené (vpravo protažené), vlevo sešikmené (vlevo protažené), bimodální, vícemodální. V praxi mají rozdělení jen zřídka tyto uvedené idealizované tvary. Modalita Zkoumáme-li tvar rozdělení, je vhodné zjistit počet vrcholů (nejvyšších bodů) stejné výšky. Rozdělení nazýváme jednovrcholové nebo unimodální, má-li jeden vrchol; dvouvrcholové nebo bimodální, má-li dva vrcholy; a vícevrcholové nebo multimodální, jestliže má tři nebo více vrcholů. Zvláštním případem bimodálního rozdělení je rozdělení U, které má vrcholy na dvou krajích. Rozdělení s výraznými vrcholy ale ne nutně stejné výšky označujeme v praxi často také jako bimodální nebo vícemodální. Poznámka: Počet vrcholů rozdělení četností větší než jeden má většinou původ v nestejnorodosti zkoumaného statistického souboru, z něhož bývá v takovém případě možné a většinou i nutné vytvořit vhodným roztříděním tolik statistických souborů, kolik mělo původní rozdělení četností vrcholů. Symetrie a šikmost Všimněme si, že každé ze tří rozdělení na obr. 2.6(a)-(c) má tu vlastnost, že je lze rozdělit na dvě části zrcadlově shodné. Taková rozdělení se nazývají symetrická. Bimodální rozdělení zobrazené na obr. 2.6(h) je také symetrické, ale neplatí to obecně pro bimodální a vícemodální rozdělení. Obr. 2.6(i) ukazuje nesymetrické třímodální rozdělení. 21

22 KAPITOLA 2 POPISNÁ STATISTIKA Při klasifikaci rozdělení podle tvaru si musíme být vědomi toho, že rozdělení vyskytující se v praxi, považujeme za symetrické i když není přesně symetrické. Obrázek 2.6 Tvary rozdělení (a) Tvar zvonu (b) Trojúhelník (c) Rovnoměrný (d) Obrácené J (e) Tvar J (f) Vpravo protažené (g) Vlevo protažené (h) Bimodální (i) Vícemodální Základní soubor a výběrová rozdělení Při jednoduchém náhodném výběru ze základního souboru očekáváme, že rozdělení relativních četností výběru bude podobné i když ne identické s rozdělením základního souboru. V praxi však většinou rozdělení základního souboru neznáme. Za těchto okolností můžeme použít rozdělení náhodného výběru ze základního souboru, abychom si udělali hrubou představu o rozdělení celého souboru dat. Jestliže tedy máme k dispozici náhodný výběr ze základního souboru, pak rozdělení relativních četností výběru bude aproximovat rozdělení relativních četností základního souboru. Čím větší bude rozsah výběru, tím lepší aproximace dosáhneme. 2.3 Popisné míry statistických souborů V odstavcích 2.1 a 2.2 jsme se začali zabývat popisnou statistikou. Dozvěděli jsme se, jak uspořádat data do tabulek a sumarizovat údaje pomocí grafů. Rozdělení četností poskytuje užitečnou informaci o struktuře zkoumaného souboru, ale popisovat a zejména porovnávat několik souborů pouze pomocí tabulek nebo grafů by bylo pracné. Z těchto důvodů se snažíme shrnout informaci obsaženou ve zjištěných údajích o statistickém znaku a vyjádřit ji v koncentrované formě pomocí určitých charakteristik. Při popisu statistických souborů nás zajímají především poloha (úroveň) rozdělení četností a variabilita (rozptýlenost). Méně 22

23 2.3 POPISNÉ MÍRY STATISTICKÝCH SOUBORŮ často se zaměřujeme na šikmost a špičatost. Čísla, která slouží k popisu datových souborů se nazývají popisné míry. V této části se budeme zabývat některými nejdůležitějšími popisnými mírami Kvantily Kvantil datového souboru je hodnota, která rozděluje soubor hodnot určité veličiny na dvě části - jedna obsahuje ty hodnoty, které jsou menší (nebo stejné) než kvantil, druhá část naopak obsahuje ty hodnoty, které jsou větší (nebo stejné) než kvantil. Přesněji řečeno, kvantil je hodnota určená tak, že hodnoty, které jsou menší a stejné tvoří určitou stanovenou část rozsahu statistického souboru, např. 1, 15, 50, 90% apod. zatímco hodnoty, které jsou větší a stejné tvoří zbývající část souboru tj. např. 99, 85, 50, 10% atd. Kvantil veličiny x, který odděluje zhruba 100p% malých hodnot znaku veličiny x (p je relativní četnost malých hodnot) od 100(1 p)% velkých hodnot veličiny x, označujeme x 100p a nazýváme ho 100p% kvantil veličiny x. Mezi další nejčastěji používané kvantily patří percentily, decily a kvartily. Percentily x 1, x 99 datového souboru rozdělují soubor na 100 stejných částí, a decily x 10,, x 90 rozdělují soubor na 10 stejných částí. Nejčastěji používané percentily jsou kvartily. Jsou celkem tři. Definice 2.4 KVARTILY Kvartily jsou hodnoty, které dělí uspořádaný statistický soubor na čtyři části, přičemž každá obsahuje 25% jednotek. Dolní kvartil x 25 odděluje zhruba 25% nejnižších hodnot veličiny od ostatních. Prostřední kvartil - medián ( x 50 ) rozděluje obor hodnot veličiny na dvě stejné části, z nichž každá obsahuje 50% jednotek. Horní kvartil x 75 je taková hodnota znaku, která odděluje zhruba 75% nejnižších hodnot veličiny od zbývajících 25%. Necht x 1, x 2,..., x n jsou pozorované hodnoty sledované veličiny x, které máme k dispozici a n je celkový počet pozorování. Uspořádejme pozorované hodnoty veličiny x do neklesající posloupnosti x (1) x (2)... x (n). Pak 100p% kvantil určíme pro 0 < p < 1 podle následujícího vzorce: { x([np]+1), pokud není np celé číslo x 100p = 1 (x 2 (np) + x (np+1) ) pro np celé. (2.4) Příklad 2.4 Ilustrace definice vybraných televizních diváků bylo požádáno, aby si týden zaznamenávali dobu věnovanou sledování televizních pořadů. Následují data uspořádaná podle velikosti Určete kvartily datového souboru. Řešení: Počet dat je sudý, takže prostřední kvartil je roven x 50 = ( )/2 = Dolní kvartil je roven prostřednímu kvartilu 50% nejnižších dat, to je x 25 = ( )/2 = 23. Horní kvartil je roven prostřednímu kvartilu 50% největších dat, to je x 75 = ( )/2 =

24 KAPITOLA 2 POPISNÁ STATISTIKA Míry polohy Popisné míry, které ukazují, kde leží střed nebo nejtypičtější hodnota datového souboru se nazývají míry polohy nebo míry úrovně. Nejdůležitější tři míry polohy jsou: aritmetický průměr, medián a modus. Termínem průměr budeme v dalším textu označovat aritmetický průměr. Průměr a medián můžeme použít pro kvantitativní data, zatímco modus může být použit jak pro kvantitativní tak i kvalitativní data. Průměr Nejčastěji používanou mírou polohy je průměr. Definice 2.5 PRŮMĚR DATOVÉHO SOUBORU Průměr datového souboru x je definován jako podíl součtu hodnot datového souboru a počtu jednotlivých hodnot datového souboru. Průměr x lze vypočítat podle vzorce x = 1 n x i. (2.5) n Označme y i, i = 1,..., k, 1 k n různé hodnoty sledované veličiny x a n i odpovídající četnosti, n necht značí rozsah výběrového souboru. Pak pro výpočet průměru použijeme vzorec k y i n i x = n = 1 k k y i n i = y i p i. (2.6) n i n Relativní četnosti p i udávají váhu, která je přisuzována jednotlivým různým hodnotám sledované veličiny. Průměr počítaný podle vzorce (2.6) nazýváme vážený aritmetický průměr. Aritmetický průměr má řadu vlastností, z nichž některé mají teoretický význam, jiné se dají s výhodou použít při jeho výpočtu. Uvedeme si je: Vlastnosti průměru: 1. Součet jednotlivých odchylek od průměru je nulový; tj. obecně platí n (x i x) = Přičteme-li ke každé hodnotě sledované veličiny tutéž konstantu c, zvýší se o tuto konstantu i aritmetický průměr: 1 n n (x i + c) = x + c. 3. Násobíme-li všechny hodnoty sledované veličiny stejnou konstantou c, je touto konstantou násoben i průměr: 1 n n cx i = c x. Příklad 2.5 Ilustrace definice 2.5 Poradenská firma zaměstnává několik starších konzultantů, jejichž týdenní plat je mezi 7000 a 9500 Kč a několik mladých konzultantů s týdenním platem od 3000 do 3500 Kč. Následující dvě tabulky udávají přehled týdenních výdělků (ve stovkách Kč) v červenci resp. v srpnu téhož roku. Vypočtěte průměr pro každý datový soubor. Jaký byl průměrný týdenní výdělek v červenci a v srpnu? Datový soubor I (ve stovkách Kč) Datový soubor II (ve stovkách Kč)

25 2.3 POPISNÉ MÍRY STATISTICKÝCH SOUBORŮ Řešení: Vzhledem k definici 2.5 dostáváme: Průměr datového souboru I = = a průměr datového souboru II = = Takže průměrný týdenní výdělek třinácti zaměstnanců poradenské firmy v datovém souboru I byl Kč a deseti zaměstnanců v datovém souboru II byl 3740 Kč. Medián Jinou často používanou mírou polohy je medián. Jak jsme se dověděli v odstavci 2.3.1, medián datového souboru je hodnota, která rozděluje soubor hodnot určité veličiny na dvě části-jedna obsahuje 50% těch hodnot, které jsou menší (nebo stejné) než medián, druhá část naopak obsahuje 50% hodnot, které jsou větší (nebo stejné) než medián. Definice 2.6 MEDIÁN DATOVÉHO SOUBORU Uspořádejme pozorované hodnoty sledované veličiny do neklesající posloupnosti. Jestliže rozsah datového souboru n je lichý, pak medián je hodnota, která leží právě uprostřed uspořádané posloupnosti hodnot. Jestliže rozsah datového souboru n je sudý, pak medián je průměr dvou hodnot, které leží uprostřed uspořádané posloupnosti hodnot. Ze vzorce 2.4 pro výpočet 100p% kvantilu plyne, že medián lze spočítat podle následujícího vzorce: { x([ n x 50 = 2 ]+1), pokud je n liché číslo 1 (x (2.7) 2 ( n 2 ) + x ( n 2 +1) ) pro n sudé. Příklad 2.6 Ilustrace definice 2.6 Uvažujme opět datové soubory I a II z příkladu 2.5. Určete medián pro oba soubory. Řešení: Použijeme definici 2.6. Nejprve data uspořádáme do neklesající posloupnosti: Počet dat v datovém souboru I je 13, to je liché číslo. Medián je tudíž roven sedmé hodnotě v uspořádané posloupnosti, to je hodnota 30. Medián týdenních platů 13 zaměstnanců je 3000 Kč. Podobně postupujeme i v případě datového souboru II. Data uspořádáme: Počet dat v datovém souboru II je 10, to je sudé číslo. Tudíž medián týdenních platů 10 zaměstnanců z datového souboru II je ( )/2 = 2500 Kč. Modus Poslední míra polohy, kterou se budeme zabývat, je modus. Definice 2.7 MODUS DATOVÉHO SOUBORU Modus datového souboru ˆx je každá hodnota, jejíž četnost výskytu je větší než 1 a je stejná nebo větší než četnost výskytu kterékoliv jiné hodnoty. Jestliže četnost žádné hodnoty v datovém souboru není větší než 1, pak říkáme, že datový soubor nemá modus. Jinak, každá hodnota, která má největší četnost se nazývá modus datového souboru. Datový soubor může mít tudíž víc než jeden modus. 25

Zpracování náhodného výběru. Ing. Michal Dorda, Ph.D.

Zpracování náhodného výběru. Ing. Michal Dorda, Ph.D. Zpracování náhodného výběru popisná statistika Ing. Michal Dorda, Ph.D. Základní pojmy Úkolem statistiky je na základě vlastností výběrového souboru usuzovat o vlastnostech celé populace. Populace(základní

Více

Základy popisné statistiky

Základy popisné statistiky Základy popisné statistiky Michal Fusek Ústav matematiky FEKT VUT, fusekmi@feec.vutbr.cz 8. přednáška z ESMAT Michal Fusek (fusekmi@feec.vutbr.cz) 1 / 26 Obsah 1 Základy statistického zpracování dat 2

Více

veličin, deskriptivní statistika Ing. Michael Rost, Ph.D.

veličin, deskriptivní statistika Ing. Michael Rost, Ph.D. Vybraná rozdělení spojitých náhodných veličin, deskriptivní statistika Ing. Michael Rost, Ph.D. Třídění Základním zpracováním dat je jejich třídění. Jde o uspořádání získaných dat, kde volba třídícího

Více

1.1 Dva základní typy statistiky Popisná statistika (descriptive statistics) Inferenční statistika (inferential statistics)

1.1 Dva základní typy statistiky Popisná statistika (descriptive statistics) Inferenční statistika (inferential statistics) 1. PODSTATA STATISTIKY Původní význam - pouhé sbírání čísel (název z latinského status = stát, použití k označení vědy zabývající se sběrem informací o státu - o počtu obyvatel, ekonomice,...) Dnešní pojetí

Více

23. Matematická statistika

23. Matematická statistika Projekt: Inovace oboru Mechatronik pro Zlínský kraj Registrační číslo: CZ.1.07/1.1.08/03.0009 23. Matematická statistika Statistika je věda, která se snaží zkoumat reálná data a s pomocí teorii pravděpodobnosti

Více

Matematika III. 27. listopadu Vysoká škola báňská - Technická univerzita Ostrava. Matematika III

Matematika III. 27. listopadu Vysoká škola báňská - Technická univerzita Ostrava. Matematika III Vysoká škola báňská - Technická univerzita Ostrava 27. listopadu 2017 Typy statistických znaků (proměnných) Typy proměnných: Kvalitativní proměnná (kategoriální, slovní,... ) Kvantitativní proměnná (numerická,

Více

Statistika, Biostatistika pro kombinované studium Letní semestr 2011/2012. Tutoriál č. 4: Exploratorní analýza. Jan Kracík

Statistika, Biostatistika pro kombinované studium Letní semestr 2011/2012. Tutoriál č. 4: Exploratorní analýza. Jan Kracík Statistika, Biostatistika pro kombinované studium Letní semestr 2011/2012 Tutoriál č. 4: Exploratorní analýza Jan Kracík jan.kracik@vsb.cz Statistika věda o získávání znalostí z empirických dat empirická

Více

Statistika pro geografy

Statistika pro geografy Statistika pro geografy 2. Popisná statistika Mgr. David Fiedor 23. února 2015 Osnova 1 2 3 Pojmy - Bodové rozdělení četností Absolutní četnost Absolutní četností hodnoty x j znaku x rozumíme počet statistických

Více

Popisná statistika. Statistika pro sociology

Popisná statistika. Statistika pro sociology Popisná statistika Jitka Kühnová Statistika pro sociology 24. září 2014 Jitka Kühnová (GSTAT) Popisná statistika 24. září 2014 1 / 31 Outline 1 Základní pojmy 2 Typy statistických dat 3 Výběrové charakteristiky

Více

Číselné charakteristiky a jejich výpočet

Číselné charakteristiky a jejich výpočet Katedra ekonometrie, FVL, UO Brno kancelář 69a, tel. 973 442029 email:jiri.neubauer@unob.cz charakteristiky polohy charakteristiky variability charakteristiky koncetrace charakteristiky polohy charakteristiky

Více

Jiří Neubauer. Katedra ekonometrie, FVL, UO Brno kancelář 69a, tel

Jiří Neubauer. Katedra ekonometrie, FVL, UO Brno kancelář 69a, tel Katedra ekonometrie, FVL, UO Brno kancelář 69a, tel. 973 442029 email:jiri.neubauer@unob.cz Výsledky některých náhodných pokusů jsou přímo vyjádřeny číselně (např. při hodu kostkou padne 6). Náhodnou veličinou

Více

Mnohorozměrná statistická data

Mnohorozměrná statistická data Statistika II Katedra ekonometrie FVL UO Brno kancelář 69a, tel. 973 442029 email:jiri.neubauer@unob.cz Statistický znak, statistický soubor Jednotlivé objekty nebo subjekty, které jsou při statistickém

Více

ZÁKLADNÍ STATISTICKÉ CHARAKTERISTIKY

ZÁKLADNÍ STATISTICKÉ CHARAKTERISTIKY zhanel@fsps.muni.cz ZÁKLADNÍ STATISTICKÉ CHARAKTERISTIKY METODY DESKRIPTIVNÍ STATISTIKY 1. URČENÍ TYPU ŠKÁLY (nominální, ordinální, metrické) a) nominální + ordinální neparametrické stat. metody b) metrické

Více

Mnohorozměrná statistická data

Mnohorozměrná statistická data Mnohorozměrná statistická data Ekonometrie Jiří Neubauer Katedra ekonometrie FVL UO Brno kancelář 69a, tel. 973 442029 email:jiri.neubauer@unob.cz Jiří Neubauer (Katedra ekonometrie UO Brno) Mnohorozměrná

Více

Popisná statistika. Jaroslav MAREK. Univerzita Palackého

Popisná statistika. Jaroslav MAREK. Univerzita Palackého Popisná statistika Jaroslav MAREK Univerzita Palackého Přírodovědecká fakulta Katedra matematické analýzy a aplikací matematiky Tomkova 40, 779 00 Olomouc Hejčín tel. 585634606 marek@inf.upol.cz pondělí

Více

7. Rozdělení pravděpodobnosti ve statistice

7. Rozdělení pravděpodobnosti ve statistice 7. Rozdělení pravděpodobnosti ve statistice Statistika nuda je, má však cenné údaje, neklesejte na mysli, ona nám to vyčíslí Jednou z úloh statistiky je odhad (výpočet) hodnot statistického znaku x i,

Více

UNIVERZITA OBRANY Fakulta ekonomiky a managementu. Aplikace STAT1. Výsledek řešení projektu PRO HORR2011 a PRO GRAM2011 3. 11.

UNIVERZITA OBRANY Fakulta ekonomiky a managementu. Aplikace STAT1. Výsledek řešení projektu PRO HORR2011 a PRO GRAM2011 3. 11. UNIVERZITA OBRANY Fakulta ekonomiky a managementu Aplikace STAT1 Výsledek řešení projektu PRO HORR2011 a PRO GRAM2011 Jiří Neubauer, Marek Sedlačík, Oldřich Kříž 3. 11. 2012 Popis a návod k použití aplikace

Více

Popisná statistika kvantitativní veličiny

Popisná statistika kvantitativní veličiny StatSoft Popisná statistika kvantitativní veličiny Protože nám surová data obvykle žádnou smysluplnou informaci neposkytnou, je žádoucí vyjádřit tyto ve zhuštěnější formě. V předchozím dílu jsme začali

Více

Renáta Bednárová STATISTIKA PRO EKONOMY

Renáta Bednárová STATISTIKA PRO EKONOMY Renáta Bednárová STATISTIKA PRO EKONOMY ZÁKLADNÍ STATISTICKÉ POJMY Statistika Statistický soubor Statistická jednotky Statistický znak STATISTIKA Vědní obor, který se zabývá hromadnými jevy Hromadné jevy

Více

Statistika pro gymnázia

Statistika pro gymnázia Statistika pro gymnázia Pracovní verze učebního textu ZÁKLADNÍ POJMY Statistika zkoumá jevy (společenské, přírodní, technické) ve velkých statistických souborech. Prvky statistických souborů se nazývají

Více

MATEMATICKÁ STATISTIKA - XP01MST

MATEMATICKÁ STATISTIKA - XP01MST MATEMATICKÁ STATISTIKA - XP01MST 1. Úvod. Matematická statistika (statistics) se zabývá vyšetřováním zákonitostí, které v sobě obsahují prvek náhody. Zpracováním hodnot, které jsou výstupem sledovaného

Více

Zápočtová práce STATISTIKA I

Zápočtová práce STATISTIKA I Zápočtová práce STATISTIKA I Obsah: - úvodní stránka - charakteristika dat (původ dat, důvod zpracování,...) - výpis naměřených hodnot (v tabulce) - zpracování dat (buď bodové nebo intervalové, podle charakteru

Více

Praktická statistika. Petr Ponížil Eva Kutálková

Praktická statistika. Petr Ponížil Eva Kutálková Praktická statistika Petr Ponížil Eva Kutálková Zápis výsledků měření Předpokládejme, že známe hodnotu napětí U = 238,9 V i její chybu 3,3 V. Hodnotu veličiny zapíšeme na tolik míst, aby až poslední bylo

Více

Statistika. Diskrétní data. Spojitá data. Charakteristiky polohy. Charakteristiky variability

Statistika. Diskrétní data. Spojitá data. Charakteristiky polohy. Charakteristiky variability I Přednáška Statistika Diskrétní data Spojitá data Charakteristiky polohy Charakteristiky variability Statistika deskriptivní statistika ˆ induktivní statistika populace (základní soubor) ˆ výběr parametry

Více

Inženýrská statistika pak představuje soubor postupů a aplikací teoretických principů v oblasti inženýrské činnosti.

Inženýrská statistika pak představuje soubor postupů a aplikací teoretických principů v oblasti inženýrské činnosti. Přednáška č. 1 Úvod do statistiky a počtu pravděpodobnosti Statistika Statistika je věda a postup jak rozvíjet lidské znalosti použitím empirických dat. Je založena na matematické statistice, která je

Více

I. D i s k r é t n í r o z d ě l e n í

I. D i s k r é t n í r o z d ě l e n í 6. T y p y r o z d ě l e n í Poznámka: V odst. 5.5-5.10 jsme uvedli příklady náhodných veličin a jejich distribučních funkcí. Poznali jsme, že se od sebe liší svým typem. V příkladech 5.5, 5.6 a 5.8 jsme

Více

Číselné charakteristiky

Číselné charakteristiky . Číselné charakteristiky statistických dat Průměrný statistik se během svého života ožení s 1,75 ženami, které se ho snaží vytáhnout večer do společnosti,5 x týdně, ale pouze s 50% úspěchem. W. F. Miksch

Více

p(x) = P (X = x), x R,

p(x) = P (X = x), x R, 6. T y p y r o z d ě l e n í Poznámka: V odst. 5.5-5.10 jsme uvedli příklady náhodných veličin a jejich distribučních funkcí. Poznali jsme, že se od sebe liší svým typem. V příkladech 5.5, 5.6 a 5.8 jsme

Více

Náhodná proměnná. Náhodná proměnná může mít rozdělení diskrétní (x 1. , x 2. ; x 2. spojité (<x 1

Náhodná proměnná. Náhodná proměnná může mít rozdělení diskrétní (x 1. , x 2. ; x 2. spojité (<x 1 Náhodná proměnná Náhodná proměnná může mít rozdělení diskrétní (x 1, x 2,,x n ) spojité () Poznámky: 1. Fyzikální veličiny jsou zpravidla spojité, ale změřené hodnoty jsou diskrétní. 2. Pokud

Více

Pravděpodobnost a aplikovaná statistika

Pravděpodobnost a aplikovaná statistika Pravděpodobnost a aplikovaná statistika MGR. JANA SEKNIČKOVÁ, PH.D. 2. KAPITOLA PODMÍNĚNÁ PRAVDĚPODOBNOST 3. KAPITOLA NÁHODNÁ VELIČINA 9.11.2017 Opakování Uveďte příklad aplikace geometrické definice pravděpodobnosti

Více

MATEMATICKÁ STATISTIKA. Katedra matematiky a didaktiky matematiky Technická univerzita v Liberci

MATEMATICKÁ STATISTIKA.   Katedra matematiky a didaktiky matematiky Technická univerzita v Liberci MATEMATICKÁ STATISTIKA Dana Černá http://www.fp.tul.cz/kmd/ Katedra matematiky a didaktiky matematiky Technická univerzita v Liberci Matematická statistika Matematická statistika se zabývá matematickým

Více

Statistické metody - nástroj poznání a rozhodování anebo zdroj omylů a lží

Statistické metody - nástroj poznání a rozhodování anebo zdroj omylů a lží Statistické metody - nástroj poznání a rozhodování anebo zdroj omylů a lží Zdeněk Karpíšek Jsou tři druhy lží: lži, odsouzeníhodné lži a statistiky. Statistika je logická a přesná metoda, jak nepřesně

Více

Popisná statistika. úvod rozdělení hodnot míry centrální tendence míry variability míry šikmosti a špičatosti grafy

Popisná statistika. úvod rozdělení hodnot míry centrální tendence míry variability míry šikmosti a špičatosti grafy Popisná statistika úvod rozdělení hodnot míry centrální tendence míry variability míry šikmosti a špičatosti grafy Úvod užívá se k popisu základních vlastností dat poskytuje jednoduché shrnutí hodnot proměnných

Více

PRAVDĚPODOBNOST A STATISTIKA 1 Metodický list č 1.

PRAVDĚPODOBNOST A STATISTIKA 1 Metodický list č 1. Metodický list č 1. Název tématického celku: Elementární statistické zpracování 1 - Kolekce a interpretace statistických dat, základní pojmy deskriptivní statistiky. Cíl: Základním cílem tohoto tematického

Více

Statistika I (KMI/PSTAT)

Statistika I (KMI/PSTAT) Statistika I (KMI/PSTAT) Cvičení druhé aneb Kvantily, distribuční funkce Statistika I (KMI/PSTAT) 1 / 1 Co se dnes naučíme Po absolvování této hodiny byste měli být schopni: rozumět pojmu modus (modální

Více

TECHNICKÁ UNIVERZITA V LIBERCI SEMESTRÁLNÍ PRÁCE

TECHNICKÁ UNIVERZITA V LIBERCI SEMESTRÁLNÍ PRÁCE TECHNICKÁ UNIVERZITA V LIBERCI Ekonomická fakulta Studentská 2 461 17 Liberec 1 SEMESTRÁLNÍ PRÁCE STATISTICKÝ ROZBOR DAT Z DOTAZNÍKOVÝCH ŠETŘENÍ Gabriela Dlasková, Veronika Bukovinská Sára Kroupová, Dagmar

Více

Základy popisné statistiky

Základy popisné statistiky Kapitola Základy popisné statistiky Všude kolem nás se setkáváme se shromažd ováním velkého počtu údajů o nejrůznějších objektech Mohou to být národohospodářské údaje o vývoji ekonomiky dané země sbírané

Více

Pojem a úkoly statistiky

Pojem a úkoly statistiky Katedra ekonometrie FVL UO Brno kancelář 69a, tel. 973 442029 email:jiri.neubauer@unob.cz Pojem a úkoly statistiky Statistika je věda, která se zabývá získáváním, zpracováním a analýzou dat pro potřeby

Více

Základní statistické charakteristiky

Základní statistické charakteristiky Základní statistické charakteristiky Základní statistické charakteristiky slouží pro vzájemné porovnávání statistických souborů charakteristiky = čísla, pomocí kterých porovnáváme Základní statistické

Více

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz Pravděpodobnost a matematická statistika 2010 1.týden (20.09.-24.09. ) Data, typy dat, variabilita, frekvenční analýza

Více

a způsoby jejího popisu Ing. Michael Rost, Ph.D.

a způsoby jejího popisu Ing. Michael Rost, Ph.D. Podmíněná pravděpodobnost, náhodná veličina a způsoby jejího popisu Ing. Michael Rost, Ph.D. Podmíněná pravděpodobnost Pokud je jev A vázán na uskutečnění jevu B, pak tento jev nazýváme jevem podmíněným

Více

Výběrové charakteristiky a jejich rozdělení

Výběrové charakteristiky a jejich rozdělení Katedra ekonometrie, FVL, UO Brno kancelář 69a, tel. 973 442029 email:jiri.neubauer@unob.cz Statistické šetření úplné (vyčerpávající) neúplné (výběrové) U výběrového šetření se snažíme o to, aby výběrový

Více

Základy teorie pravděpodobnosti

Základy teorie pravděpodobnosti Základy teorie pravděpodobnosti Náhodná veličina Roman Biskup (zapálený) statistik ve výslužbě, aktuálně analytik v praxi ;-) roman.biskup(at)email.cz 12. února 2012 Statistika by Birom Základy teorie

Více

1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.

1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004. Prostá regresní a korelační analýza 1 1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004. Problematika závislosti V podstatě lze rozlišovat mezi závislostí nepodstatnou, čili náhodnou

Více

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz Pravděpodobnost a matematická statistika 2010 1.týden (20.09.-24.09. ) Data, typy dat, variabilita, frekvenční analýza

Více

Úvodem Dříve les než stromy 3 Operace s maticemi

Úvodem Dříve les než stromy 3 Operace s maticemi Obsah 1 Úvodem 13 2 Dříve les než stromy 17 2.1 Nejednoznačnost terminologie 17 2.2 Volba metody analýzy dat 23 2.3 Přehled vybraných vícerozměrných metod 25 2.3.1 Metoda hlavních komponent 26 2.3.2 Faktorová

Více

10. cvičení z PST. 5. prosince T = (n 1) S2 X. (n 1) s2 x σ 2 q χ 2 (n 1) (1 α 2 ). q χ 2 (n 1) 2. 2 x. (n 1) s. x = 1 6. x i = 457.

10. cvičení z PST. 5. prosince T = (n 1) S2 X. (n 1) s2 x σ 2 q χ 2 (n 1) (1 α 2 ). q χ 2 (n 1) 2. 2 x. (n 1) s. x = 1 6. x i = 457. 0 cvičení z PST 5 prosince 208 0 (intervalový odhad pro rozptyl) Soubor (70, 84, 89, 70, 74, 70) je náhodným výběrem z normálního rozdělení N(µ, σ 2 ) Určete oboustranný symetrický 95% interval spolehlivosti

Více

STATISTIKA 1. Adam Čabla Katedra statistiky a pravděpodobnosti VŠE

STATISTIKA 1. Adam Čabla Katedra statistiky a pravděpodobnosti VŠE STATISTIKA 1 Adam Čabla Katedra statistiky a pravděpodobnosti VŠE KONTAKTY WWW: sites.google.com/site/adamcabla E-mail: adam.cabla@vse.cz Telefon: 777 701 783 NB367 na VŠE, konzultační hodiny: Pondělí

Více

5 Vícerozměrná data - kontingenční tabulky, testy nezávislosti, regresní analýza

5 Vícerozměrná data - kontingenční tabulky, testy nezávislosti, regresní analýza 5 Vícerozměrná data - kontingenční tabulky, testy nezávislosti, regresní analýza 5.1 Vícerozměrná data a vícerozměrná rozdělení Při zpracování vícerozměrných dat se hledají souvislosti mezi dvěma, případně

Více

Téma 22. Ondřej Nývlt

Téma 22. Ondřej Nývlt Téma 22 Ondřej Nývlt nyvlto1@fel.cvut.cz Náhodná veličina a náhodný vektor. Distribuční funkce, hustota a pravděpodobnostní funkce náhodné veličiny. Střední hodnota a rozptyl náhodné veličiny. Sdružené

Více

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz Pravděpodobnost a matematická statistika 2010 1.týden (20.09.-24.09. ) Data, typy dat, variabilita, frekvenční analýza

Více

marek.pomp@vsb.cz http://homel.vsb.cz/~pom68

marek.pomp@vsb.cz http://homel.vsb.cz/~pom68 Statistika B (151-0303) Marek Pomp ZS 2014 marek.pomp@vsb.cz http://homel.vsb.cz/~pom68 Cvičení: Pavlína Kuráňová & Marek Pomp Podmínky pro úspěšné ukončení zápočet 45 bodů, min. 23 bodů, dvě zápočtové

Více

Charakteristika datového souboru

Charakteristika datového souboru Zápočtová práce z předmětu Statistika Vypracoval: 10. 11. 2014 Charakteristika datového souboru Zadání: Při kontrole dodržování hygienických norem v kuchyni se prováděl odběr vzduchu a pomocí filtru Pallflex

Více

Informační technologie a statistika 1

Informační technologie a statistika 1 Informační technologie a statistika 1 přednášející: konzul. hodiny: e-mail: Martin Schindler KAP, tel. 48 535 2836, budova G po dohodě martin.schindler@tul.cz naposledy upraveno: 21. září 2015, 1/33 Požadavek

Více

Statistické metody. Martin Schindler KAP, tel , budova G. naposledy upraveno: 9.

Statistické metody. Martin Schindler KAP, tel , budova G. naposledy upraveno: 9. Statistické metody Matematika pro přírodní vědy přednášející: konzul. hodiny: e-mail: Martin Schindler KAP, tel. 48 535 2836, budova G po dohodě martin.schindler@tul.cz naposledy upraveno: 9. ledna 2015,

Více

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz Pravděpodobnost a matematická

Více

POPISNÁ STATISTIKA Komentované řešení pomocí programu Statistica

POPISNÁ STATISTIKA Komentované řešení pomocí programu Statistica POPISNÁ STATISTIKA Komentované řešení pomocí programu Statistica Program Statistica I Statistica je velmi podobná Excelu. Na základní úrovni je to klikací program určený ke statistickému zpracování dat.

Více

Náhodná veličina a její charakteristiky. Před provedením pokusu jeho výsledek a tedy ani sledovanou hodnotu neznáte. Proto je proměnná, která

Náhodná veličina a její charakteristiky. Před provedením pokusu jeho výsledek a tedy ani sledovanou hodnotu neznáte. Proto je proměnná, která Náhodná veličina a její charakteristiky Náhodná veličina a její charakteristiky Představte si, že provádíte náhodný pokus, jehož výsledek jste schopni ohodnotit nějakým číslem. Před provedením pokusu jeho

Více

Regresní analýza 1. Regresní analýza

Regresní analýza 1. Regresní analýza Regresní analýza 1 1 Regresní funkce Regresní analýza Důležitou statistickou úlohou je hledání a zkoumání závislostí proměnných, jejichž hodnoty získáme při realizaci experimentů Vzhledem k jejich náhodnému

Více

X = x, y = h(x) Y = y. hodnotám x a jedné hodnotě y. Dostaneme tabulku hodnot pravděpodobnostní

X = x, y = h(x) Y = y. hodnotám x a jedné hodnotě y. Dostaneme tabulku hodnot pravděpodobnostní ..08 8cv7.tex 7. cvičení - transformace náhodné veličiny Definice pojmů a základní vzorce Je-li X náhodná veličina a h : R R je měřitelná funkce, pak náhodnou veličinu Y, která je definovaná vztahem X

Více

Dobývání znalostí. Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze

Dobývání znalostí. Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze Dobývání znalostí Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze Dobývání znalostí Pravděpodobnost a učení Doc. RNDr. Iveta Mrázová,

Více

Základy popisné statistiky. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek

Základy popisné statistiky. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Základy popisné statistiky Anotace Realitu můžeme popisovat různými typy dat, každý z nich se specifickými vlastnostmi, výhodami, nevýhodami a vlastní sadou využitelných statistických metod -od binárních

Více

mezi studenty. Dále bychom rádi posoudili, zda dobrý výsledek v prvním testu bývá doprovázen dobrým výsledkem i v druhém testu.

mezi studenty. Dále bychom rádi posoudili, zda dobrý výsledek v prvním testu bývá doprovázen dobrým výsledkem i v druhém testu. Popisná statistika Slovní popis problému Naším cílem v této úloze bude stručně a přehledně charakterizovat rozsáhlý soubor dat - v našem případě počty bodů z prvního a druhého zápočtového testu z matematiky.

Více

4ST201 STATISTIKA CVIČENÍ Č. 7

4ST201 STATISTIKA CVIČENÍ Č. 7 4ST201 STATISTIKA CVIČENÍ Č. 7 testování hypotéz parametrické testy test hypotézy o střední hodnotě test hypotézy o relativní četnosti test o shodě středních hodnot testování hypotéz v MS Excel neparametrické

Více

Popisná statistika. Komentované řešení pomocí MS Excel

Popisná statistika. Komentované řešení pomocí MS Excel Popisná statistika Komentované řešení pomocí MS Excel Vstupní data Máme k dispozici data o počtech bodů z 1. a 2. zápočtového testu z Matematiky I v zimním semestru 2015/2016 a to za všech 762 studentů,

Více

Určujeme neznámé hodnoty parametru základního souboru. Pomocí výběrové charakteristiky vypočtené z náhodného výběru.

Určujeme neznámé hodnoty parametru základního souboru. Pomocí výběrové charakteristiky vypočtené z náhodného výběru. 1 Statistické odhady Určujeme neznámé hodnoty parametru základního souboru. Pomocí výběrové charakteristiky vypočtené z náhodného výběru. Odhad lze provést jako: Bodový odhad o Jedna číselná hodnota Intervalový

Více

Náhodný vektor a jeho charakteristiky

Náhodný vektor a jeho charakteristiky Náhodný vektor a jeho číselné charakteristiky 1 Náhodný vektor a jeho charakteristiky V následující kapitole budeme věnovat pozornost pouze dvourozměřnému náhodnému vektoru, i když uvedené pojmy a jejich

Více

Testování statistických hypotéz

Testování statistických hypotéz Testování statistických hypotéz 1 Testování statistických hypotéz 1 Statistická hypotéza a její test V praxi jsme nuceni rozhodnout, zda nějaké tvrzeni o parametrech náhodných veličin nebo o veličině samotné

Více

Statistika. Základní pojmy a cíle statistiky. Roman Biskup. (zapálený) statistik ve výslužbě, aktuálně analytik v praxi ;-) roman.biskup(at) .

Statistika. Základní pojmy a cíle statistiky. Roman Biskup. (zapálený) statistik ve výslužbě, aktuálně analytik v praxi ;-) roman.biskup(at) . Statistika Základní pojmy a cíle statistiky Roman Biskup (zapálený) statistik ve výslužbě, aktuálně analytik v praxi ;-) roman.biskup(at)email.cz 12. února 2012 Statistika by Birom Statistika Pojmy a cíle

Více

2 Zpracování naměřených dat. 2.1 Gaussův zákon chyb. 2.2 Náhodná veličina a její rozdělení

2 Zpracování naměřených dat. 2.1 Gaussův zákon chyb. 2.2 Náhodná veličina a její rozdělení 2 Zpracování naměřených dat Důležitou součástí každé experimentální práce je statistické zpracování naměřených dat. V této krátké kapitole se budeme věnovat určení intervalů spolehlivosti získaných výsledků

Více

Testování hypotéz testy o tvaru rozdělení. Jiří Neubauer. Katedra ekonometrie, FVL, UO Brno kancelář 69a, tel

Testování hypotéz testy o tvaru rozdělení. Jiří Neubauer. Katedra ekonometrie, FVL, UO Brno kancelář 69a, tel Katedra ekonometrie, FVL, UO Brno kancelář 69a, tel. 973 442029 email:jiri.neubauer@unob.cz Statistickou hypotézou se rozumí určité tvrzení o parametrech rozdělení zkoumané náhodné veličiny (µ, σ 2, π,

Více

Stručný úvod do vybraných zredukovaných základů statistické analýzy dat

Stručný úvod do vybraných zredukovaných základů statistické analýzy dat Stručný úvod do vybraných zredukovaných základů statistické analýzy dat Statistika nuda je, má však cenné údaje. Neklesejme na mysli, ona nám to vyčíslí. Z pohádky Princové jsou na draka Populace (základní

Více

Náhodné chyby přímých měření

Náhodné chyby přímých měření Náhodné chyby přímých měření Hodnoty náhodných chyb se nedají stanovit předem, ale na základě počtu pravděpodobnosti lze zjistit, která z možných naměřených hodnot je více a která je méně pravděpodobná.

Více

Chyby měření 210DPSM

Chyby měření 210DPSM Chyby měření 210DPSM Jan Zatloukal Stručný přehled Zdroje a druhy chyb Systematické chyby měření Náhodné chyby měření Spojité a diskrétní náhodné veličiny Normální rozdělení a jeho vlastnosti Odhad parametrů

Více

Pravděpodobnost a statistika

Pravděpodobnost a statistika Pravděpodobnost a statistika Teorie pravděpodobnosti popisuje vznik náhodných dat, zatímco matematická statistika usuzuje z dat na charakter procesů, jimiž data vznikla. NÁHODNOST - forma existence látky,

Více

Pravděpodobnost a statistika, Biostatistika pro kombinované studium. Jan Kracík

Pravděpodobnost a statistika, Biostatistika pro kombinované studium. Jan Kracík Pravděpodobnost a statistika, Biostatistika pro kombinované studium Letní semestr 2017/2018 Tutoriál č. 2:, náhodný vektor Jan Kracík jan.kracik@vsb.cz náhodná veličina rozdělení pravděpodobnosti náhodné

Více

TECHNICKÁ UNIVERZITA V LIBERCI

TECHNICKÁ UNIVERZITA V LIBERCI TECHNICKÁ UNIVERZITA V LIBERCI Ekonomická fakulta Semestrální práce Statistický rozbor dat z dotazníkového šetření Počet stran: 10 Datum odevzdání: 13. 5. 2016 Pavel Kubát Obsah Úvod... 3 1 Charakterizujte

Více

Střední hodnota a rozptyl náhodné. kvantilu. Ing. Michael Rost, Ph.D.

Střední hodnota a rozptyl náhodné. kvantilu. Ing. Michael Rost, Ph.D. Střední hodnota a rozptyl náhodné veličiny, vybraná rozdělení diskrétních a spojitých náhodných veličin, pojem kvantilu Ing. Michael Rost, Ph.D. Príklad Předpokládejme že máme náhodnou veličinu X která

Více

Úvod do teorie odhadu. Ing. Michael Rost, Ph.D.

Úvod do teorie odhadu. Ing. Michael Rost, Ph.D. Úvod do teorie odhadu Ing. Michael Rost, Ph.D. Náhodný výběr Náhodným výběrem ze základního souboru populace, která je popsána prostřednictvím hustoty pravděpodobnosti f(x, θ), budeme nazývat posloupnost

Více

Teorie pravěpodobnosti 1

Teorie pravěpodobnosti 1 Teorie pravěpodobnosti 1 1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004. Náhodný jev a pravděpodobnost Každou zákonitost sledovanou v přírodě lze zjednodušeně charakterizovat jako

Více

E(X) = np D(X) = np(1 p) 1 2p np(1 p) (n + 1)p 1 ˆx (n + 1)p. A 3 (X) =

E(X) = np D(X) = np(1 p) 1 2p np(1 p) (n + 1)p 1 ˆx (n + 1)p. A 3 (X) = Základní rozdělení pravděpodobnosti Diskrétní rozdělení pravděpodobnosti. Pojem Náhodná veličina s Binomickým rozdělením Bi(n, p), kde n je přirozené číslo, p je reálné číslo, < p < má pravděpodobnostní

Více

Vektory a matice. Obsah. Aplikovaná matematika I. Carl Friedrich Gauss. Základní pojmy a operace

Vektory a matice. Obsah. Aplikovaná matematika I. Carl Friedrich Gauss. Základní pojmy a operace Vektory a matice Aplikovaná matematika I Dana Říhová Mendelu Brno Obsah 1 Vektory Základní pojmy a operace Lineární závislost a nezávislost vektorů 2 Matice Základní pojmy, druhy matic Operace s maticemi

Více

2. Bodové a intervalové rozložení četností

2. Bodové a intervalové rozložení četností . Bodové a intervalové rozložení četností (Jak získat informace z datového souboru?) Po prostudování této kapitoly budete umět: konstruovat diagramy znázorňující rozložení četností vytvářet tabulky četností

Více

STATISTICKÉ CHARAKTERISTIKY

STATISTICKÉ CHARAKTERISTIKY STATISTICKÉ CHARAKTERISTIKY 1 Vytvořeno s podporou projektu Průřezová inovace studijních programů Lesnické a dřevařské fakulty MENDELU v Brně (LDF) s ohledem na discipliny společného základu (reg. č. CZ.1.07/2.2.00/28.0021)

Více

Obsah. Statistika Zpracování informací ze statistického šetření Charakteristiky úrovně, variability a koncentrace kvantitativního znaku

Obsah. Statistika Zpracování informací ze statistického šetření Charakteristiky úrovně, variability a koncentrace kvantitativního znaku Obsah Statistika Zpracování informací ze statistického šetření Charakteristiky úrovně, variability a koncentrace kvantitativního znaku Roman Biskup (zapálený) statistik ve výslužbě, aktuálně analytik v

Více

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz Pravděpodobnost a matematická statistika 2010 1.týden (20.09.-24.09. ) Data, typy dat, variabilita, frekvenční analýza

Více

MÍRY ZÁVISLOSTI (KORELACE A REGRESE)

MÍRY ZÁVISLOSTI (KORELACE A REGRESE) zhanel@fsps.muni.cz MÍRY ZÁVISLOSTI (KORELACE A REGRESE) 2.5 MÍRY ZÁVISLOSTI 2.5.1 ZÁVISLOST PEVNÁ, VOLNÁ, STATISTICKÁ A KORELAČNÍ Jednorozměrné soubory - charakterizovány jednotlivými statistickými znaky

Více

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz Pravděpodobnost a matematická statistika 010 1.týden (0.09.-4.09. ) Data, typy dat, variabilita, frekvenční analýza

Více

AKM CVIČENÍ. Opakování maticové algebry. Mějme matice A, B regulární, potom : ( AB) = B A

AKM CVIČENÍ. Opakování maticové algebry. Mějme matice A, B regulární, potom : ( AB) = B A AKM - 1-2 CVIČENÍ Opakování maticové algebry Mějme matice A, B regulární, potom : ( AB) = B A 1 1 ( A ) = ( A ) ( A ) = A ( A + B) = A + B 1 1 1 ( AB) = B A, kde A je řádu mxn a B nxk Čtvercová matice

Více

KGG/STG Statistika pro geografy

KGG/STG Statistika pro geografy KGG/STG Statistika pro geografy 5. Odhady parametrů základního souboru Mgr. David Fiedor 16. března 2015 Vztahy mezi výběrovým a základním souborem Osnova 1 Úvod, pojmy Vztahy mezi výběrovým a základním

Více

Analýza dat na PC I.

Analýza dat na PC I. CENTRUM BIOSTATISTIKY A ANALÝZ Lékařská a Přírodovědecká fakulta, Masarykova univerzita Analýza dat na PC I. Popisná analýza v programu Statistica IBA výuka Základní popisná statistika Popisná statistika

Více

Porovnání dvou výběrů

Porovnání dvou výběrů Porovnání dvou výběrů Menu: QCExpert Porovnání dvou výběrů Tento modul je určen pro podrobnou analýzu dvou datových souborů (výběrů). Modul poskytuje dva postupy analýzy: porovnání dvou nezávislých výběrů

Více

Statistika jako obor. Statistika. Popisná statistika. Matematická statistika TEORIE K MV2

Statistika jako obor. Statistika. Popisná statistika. Matematická statistika TEORIE K MV2 Statistika jako obor Statistika Statistika je vědní obor zabývající se zkoumáním jevů hromadného charakteru. Tím se myslí to, že zkoumaný jev musí příslušet určité části velkého množství objektů (lidí,

Více

STATISTIKA A INFORMATIKA - bc studium OZW, 1.roč. (zkušební otázky)

STATISTIKA A INFORMATIKA - bc studium OZW, 1.roč. (zkušební otázky) STATISTIKA A INFORMATIKA - bc studium OZW, 1.roč. (zkušební otázky) 1) Význam a využití statistiky v biologických vědách a veterinárním lékařství ) Rozdělení znaků (veličin) ve statistice 3) Základní a

Více

NÁHODNÝ VEKTOR. 4. cvičení

NÁHODNÝ VEKTOR. 4. cvičení NÁHODNÝ VEKTOR 4. cvičení Náhodný vektor Náhodným vektorem rozumíme sloupcový vektor X=(X, X,, X n ) složený z náhodných veličin X, X,, X n, který je charakterizován sdruženým rozdělením pravděpodobnosti.

Více

Předmět studia: Ekonomická statistika a analytické metody I, II

Předmět studia: Ekonomická statistika a analytické metody I, II Předmět studia: Ekonomická statistika a analytické metody I, II Typ a zařazení předmětu: povinný předmět bakalářského studia, 1. ročník Rozsah předmětu: 2 semestry, celkem 24/0 hodin v kombinované formě

Více

Vybraná rozdělení náhodné veličiny

Vybraná rozdělení náhodné veličiny 3.3 Vybraná rozdělení náhodné veličiny 0,16 0,14 0,12 0,1 0,08 0,06 0,04 0,02 0 Rozdělení Z 3 4 5 6 7 8 9 10 11 12 13 14 15 Život je umění vytvářet uspokojivé závěry na základě nedostatečných předpokladů.

Více