1 EXPLORATORNÍ ANALÝZA PROMĚNNÝCH. Čas ke studiu kapitoly: 120 minut. Cíl: Po prostudování této kapitoly budete umět použít

Podobné dokumenty
Doc. Ing. Dagmar Blatná, CSc.

Tento odhad má rozptyl ( ) σ 2 /, kde σ 2 je rozptyl souboru, ze kterého výběr pochází. Má-li každý prvek i. σ 2 ( i. ( i

Ilustrativní příklad ke zkoušce z B_PS_A léto 2014.

4.2 Elementární statistické zpracování Rozdělení četností

Mendelova univerzita v Brně Statistika projekt

1 EXPLORATORNÍ ANALÝZA PROMNNÝCH. as ke studiu kapitoly: 120 minut. Cíl: Po prostudování této kapitoly budete umt použít

11. Popisná statistika

Ilustrativní příklad ke zkoušce z B_PS_A léto 2013.

1 Popis statistických dat. 1.1 Popis nominálních a ordinálních znaků

5.5. KOMPLEXNÍ ODMOCNINA A ŘEŠENÍ KVADRATICKÝCH A BINOMICKÝCH ROVNIC

2 EXPLORATORNÍ ANALÝZA

Odhady parametrů základního. Ing. Michal Dorda, Ph.D.

Test dobré shody se používá nejčastěji pro ověřování těchto hypotéz:

Odhady parametrů základního souboru. Ing. Michal Dorda, Ph.D.

Nejistoty měření. Aritmetický průměr. Odhad směrodatné odchylky výběrového průměru = nejistota typu A

Chyby přímých měření. Úvod

Úvod do korelační a regresní analýzy

Statistika. Jednotlivé prvky této množiny se nazývají prvky statistického souboru (statistické jednotky).

a další charakteristikou je četnost výběrového souboru n.

[ jednotky ] Chyby měření

S1P Popisná statistika. Popisná statistika. Libor Žák

, jsou naměřené a vypočtené hodnoty závisle

BIVŠ. Pravděpodobnost a statistika

Testování statistických hypotéz

1.1 Rozdělení pravděpodobnosti dvousložkového náhodného vektoru

Spolehlivost a diagnostika

VY_52_INOVACE_J 05 01

Deskriptivní statistika 1

Metody zkoumání závislosti numerických proměnných

SOUKROMÁ VYSOKÁ ŠKOLA EKONOMICKÁ ZNOJMO. Statistika I. distanční studijní opora. Milan Křápek

jsou varianty znaku) b) při intervalovém třídění (hodnoty x

Pro statistické šetření si zvolte si statistický soubor např. všichni žáci třídy (několika tříd, školy apod.).

6 Intervalové odhady. spočteme aritmetický průměr, pak tyto průměry se budou chovat jako by pocházely z normálního. nekonečna.

Generování dvojrozměrných rozdělení pomocí copulí

ZÁKLADY PRAVDĚPODOBNOSTI A STATISTIKY

9. Základní statistické pojmy.

P1: Úvod do experimentálních metod

Přednáška č. 2 náhodné veličiny

Odhady parametrů 1. Odhady parametrů

14. Korelace Teoretické základy korelace Způsoby měření závislostí pro různé typy dat

P2: Statistické zpracování dat

Náhodné jevy, jevové pole, pravděpodobnost

Základy statistiky. Petr Kladivo

11. Časové řady Pojem a klasifikace časových řad

POPISNÁ STATISTIKA. Předmět popisné statistiky

STATISTIKA. Statistika se těší pochybnému vyznamenání tím, že je nejvíce nepochopeným vědním oborem. H. Levinson

3. Hodnocení přesnosti měření a vytyčování. Odchylky a tolerance ve výstavbě.

Úvod do teorie měření

odhady parametrů. Jednostranné a oboustranné odhady. Intervalový odhad střední hodnoty, rozptylu, relativní četnosti.

9. Měření závislostí ve statistice Pevná a volná závislost

Statistika je vědní obor zabývající se zkoumáním jevů, které mají hromadný charakter.

APLIKOVANÁ STATISTIKA

LABORATORNÍ CVIČENÍ Z FYZIKY. Měření objemu tuhých těles přímou metodou

7 LIMITNÍ VĚTY. Čas ke studiu kapitoly: 70 minut. Cíl:

9.3.5 Korelace. Předpoklady: 9304

1. Základy měření neelektrických veličin

1 POPISNÁ STATISTIKA V PROGRAMU MS EXCEL

12. N á h o d n ý v ý b ě r

Statistické charakteristiky (míry)

- metody, kterými lze z napozorovaných hodnot NV získat co nejlepší odhady neznámých parametrů jejího rozdělení.

FUNKCÍ JEDNÉ REÁLNÉ PROMĚNNÉ PRVNÍ DIFERENCIÁL

Univerzita Karlova v Praze Pedagogická fakulta

13 Popisná statistika

Přednáška č. 10 Analýza rozptylu při jednoduchém třídění

Popisná statistika - zavedení pojmů. 1 Jednorozměrný statistický soubor s kvantitativním znakem

Střední hodnoty. Aritmetický průměr prostý Aleš Drobník strana 1

1.1 Definice a základní pojmy

Pravděpodobnost a aplikovaná statistika

12. Neparametrické hypotézy

Statistika - vícerozměrné metody

Interpolační křivky. Interpolace pomocí spline křivky. f 1. f 2. f n. x... x 2

STATISTICKÉ MINIMUM PRO STUDENTY BAKALÁŘSKÉHO STUDIA NA TECHNICKÝCH OBORECH BOHUMIL MINAŘÍK

1.3. ORTOGONÁLNÍ A ORTONORMÁLNÍ BÁZE

8.2.1 Aritmetická posloupnost

8. Základy statistiky. 8.1 Statistický soubor

8.2.1 Aritmetická posloupnost I

6. Posloupnosti a jejich limity, řady

8 NELINEÁRNÍ REGRESNÍ MODELY

veličiny má stejný řád jako je řád poslední číslice nejistoty. Nejistotu píšeme obvykle jenom jednou

6. P o p i s n á s t a t i s t i k a

Momenty a momentové charakteristiky

OVMT Přesnost měření a teorie chyb

1 Měření závislosti statistických znaků. 1.1 Dvourozměrný statistický soubor

Náhodný výběr 1. Náhodný výběr

UNIVERZITA JANA EVANGELISTY PURKYNĚ V ÚSTÍ NAD LABEM PEDAGOGICKÁ FAKULTA Katedra tělesné výchovy

Pravděpodobnostní modely

TĚŽIŠTĚ A STABILITA. Těžiště tělesa = bod, kterým stále prochází výslednice tíhových sil všech jeho hmotných bodů, ať těleso natáčíme jakkoli

Téma 11 Prostorová soustava sil

Lineární regrese ( ) 2

NEPARAMETRICKÉ METODY

Soustava momentů. k s. Je-li tedy ve vzorci obecného momentu s = 1, získáme vzorec aritmetického průměru.

PRAVDĚPODOBNOST A STATISTIKA

PRAVDĚPODOBNOST A STATISTIKA

Intervalové odhady parametrů některých rozdělení.

České vysoké učení technické v Praze. Fakulta dopravní. Semestrální práce. Statistika

U. Jestliže lineární zobrazení Df x n n

MATICOVÉ HRY MATICOVÝCH HER

Časová hodnota peněz. Metody vyhodnocení efektivnosti investic. Příklad

Chyby měření: 1. hrubé chyby - nepozornost, omyl, únava pozorovatele... - významně převyšuje rozptyl náhodné chyby 2. systematické chyby - chybné

Základy statistiky. Zpracování pokusných dat Praktické příklady. Kristina Somerlíková

Transkript:

EXPLORATORNÍ ANALÝZA PROMĚNNÝCH Čas ke studu kaptoly: mut Cíl: Po prostudováí této kaptoly budete umět použít základí pojmy eploratorí (popsé) statstky typy datových proměých statstcké charakterstky a grafckou demostrac kvaltatvích proměých statstcké charakterstky a grafckou demostrac kvattatvích proměých - -

Výklad: Původím posláím statstky bylo zjšťováí údajů o populac a základě výběrového souboru. Pod pojmem populace přtom rozumějte souhr všech estujících prvků, které sledujeme př statstckém výzkumu. Například:. Provádíme-l stat. výzkum týkající se výšky 5-t letých dívek, populac tvoří všechy dívky, které mají právě 5 let.. Zkoumáme-l pevost la L5 vyrobeých frmou LANOS, budeme za populac považovat všecha laa L5 vyrobea frmou LANOS Vzhledem k tomu, že rozsah (počet prvků) populace je obvykle vysoký, provádí se většou tzv. výběrová šetřeí, kdy se amísto celé populace zkoumá pouze její část. Zkoumaá část populace se azývá výběr, popř. výběrový soubor. Otázkou je jak staovt takový výběr, aby byl skutečě reprezetatví, tj. aby parametry výběru (apř. průměr) dostatečě přesě reprezetovaly parametry populace. Je s zkuste představt k jakým výsledkům bychom došl př předvolebím průzkumu prováděém a vzorku volčů, který bychom získal v domovech důchodců, popř. a schůzích mladých kozervatvců. Estuje ěkolk způsobu jak výběr provést. Abychom se vyvaroval opomeutí ěkterých prvků populace, zvolíme tzv. áhodý výběr, v ěmž každý prvek populace má stejou šac být zařaze do výběru. Je zřejmé, že výběrové šetřeí emůže být kdy tak přesé jako průzkum celé populace. Proč jej tedy preferujeme?. Úspora času a fačích prostředků (zejméa u rozsáhlé populace). Destruktví testováí (ěkteré testy pevost la, žvotost zářvek, obsah cholesterolu v krv, atd. vedou k destrukc zkoumaých prvků; zamyslete se sam k čemu by vedlo testováí celé populace) 3. Nedostupost celé populace (př srováváí působeí faktorů okolí a dědčých zaků poskytují ejlepší formace detcká dvojčata jak je všecha sehat a přesvědčt ke spoluprác?) Nyí tedy víte, že statstkové dokáž popsat celou populac a základě pozatků z výběru, proto přejdeme k základím výběrovým šetřeím ebol k eploratorí aalýze (eploratory data aalyss EDA). Údajům, které u souboru sledujeme budeme říkat proměé a jejch jedotlvým hodotám varaty proměé. Eploratorí (popsá) statstka bývá prvím krokem k odhaleí formací skrytých ve velkém možství proměých a jejch varat. To zameá uspořádáí proměých do ázorější formy a jejch pops ěkolka málo hodotam, které by obsahovaly co ejvětší možství formací obsažeých v původím souboru. Vzhledem k tomu, že způsob zpracováí proměých závsí především a jejch typu, sezámíme se yí se základím děleím proměých do růzých kategorí. Toto děleí je prezetováo a ásledujícím obrázku: - 3 -

Typy proměých Kvaltatví proměá (kategorálí, sloví...) Děleí podle možost uspořádáí varat Děleí podle počtu varat Nomálí proměá (elze uspořádat) Ordálí proměá (lze uspořádat) Alteratví proměá ( varaty) Možá proměá (více ež varaty) Kvattatví proměá (umercká, číselá...) Dskrétí proměá Spojtá proměá Proměá kvaltatví její varaty jsou vyjádřey slově a podle vztahu mez jedotlvým hodotam se dělí a dvě základí podskupy: Proměá omálí (jmeá) abývá rovoceých varat; elze je porovávat a seřadt (apř. pohlaví, árodost, začka hodek...) Proměá ordálí tvoří přechod mez kvaltatvím a kvattatvím proměým; jedotlvým varatám lze přřadt pořadí a vzájemě je porovávat ebo seřadt (apř. zámka ve škole, velkost oděvů (S, M, L, XL)) Jým způsobem děleí kvaltatvích proměých je děleí podle počtu varat, jchž proměé mohou abývat: Proměá alteratví abývá pouze dvou růzých varat (apř. pohlaví...) Proměá možá abývá více ež dvou růzých varat (apř. vzděláí, jméo, barva očí...) Proměá kvattatví je vyjádřea číselě a dělí se a: Proměá dskrétí abývá koečého ebo spočetého možství varat (apř. zámka z matematky) - 4 -

- Proměá dskrétí koečá abývá koečého počtu varat (apř. zámka z matematky) - Proměá dskrétí spočetá abývá spočetého možství varat (apř. věk v letech, výška v cetmetrech, váha v klogramech...) Proměá spojtá - abývá lbovolé hodoty z ebo z ějaké podmožy (apř. výška, hmotost, vzdáleost měst...) Průvodce studem: Tak, defce máme za sebou, proto můžeme přejít k věcem praktčtějším. Představte s stuac, že máte k dspozc statstcký soubor o poměrě velkém rozsahu a stojíte před otázkou co s ím, jak jej co ejvýstžěj popsat a zázort. Číselé hodoty, kterým takovýto rozsáhlý soubor ahradíme, posthují základí vlastost tohoto souboru a my jm budeme říkat statstcké charakterstky (statstky). V ásledujících kaptolách se dozvíte jak určt statstcké charakterstky pro růzé typy proměých a jak rozsáhlejší statstcké soubory zázort. A jdeme a to! Výklad:. Statstcké charakterstky kvaltatvích proměých V tuto chvíl jž víte, že kvaltatví (sloví) proměá má dva základí typy omálí a ordálí... Nomálí proměá Nomálí proměá abývá v rámc souboru růzých avšak rovoceých varat. Počet těchto varat ebývá přílš vysoký, a proto prví statstckou charakterstkou, kterou k jejímu popsu použjeme je četost. Četost (absolutí četost, frequecy) je defováa jako počet výskytu daé varaty kvaltatví proměé. V případě, že kvaltatví proměá ve statstckém souboru o rozsahu hodot abývá k růzých varat, jejchž četost ozačíme,,, k, musí zřejmě platt:... k k - 5 -

Chceme-l vyjádřt jakou část souboru tvoří proměé s daou varatou, použjeme pro pops proměé relatví četost. Relatví četost p (relatve frequecy) je defováa jako: p, popř. p % (Druhý vzorec použjeme v případě, chceme-l relatví četost vyjádřt v procetech.) Pro relatví četost musí platt: k p p k p p Př zpracováí kvaltatví proměé je vhodé četost relatví četost uspořádat do tzv. tabulky rozděleí četost (frequecy table): TABULKA ROZDĚLENÍ ČETNOSTI Hodoty Absolutí četost Relatví četost p p p k Celkem k k k p k p Posledí charakterstkou, kterou s pro pops omálí proměé uvedeme je modus. Modus defujeme jako ázev varaty proměé vykazující ejvyšší četost. Modus tedy můžeme chápat jako typckého reprezetata souboru. V případě, že se ve statstckém souboru vyskytuje více varat s mamálí četost, modus eurčujeme... Grafcké zázorěí kvaltatví proměé Pro větší ázorost aalýzy proměých se ve statstce často užívají grafy. Pro omálí proměou jsou to tyto dva typy: Hstogram (sloupcový graf, bar chart) Výsečový graf (koláčový graf, pe chart) - 6 -

Hstogram je klasckým grafem, v ěmž a jedu osu vyášíme varaty proměé a a druhou osu jejch četost. Jedotlvé hodoty četost jsou pak zobrazey jako sloupce (obdélíky, popř. úsečky, hraoly, kužely...) 5 5 5 Výborý Chvaltebý Dobrý Dostatečý 8 6 4 8 6 4 Výborý Chvaltebý Dobrý Dostatečý 8 6 4 8 6 4 Výborý Chvaltebý Dobrý Dostatečý 8 6 4 8 6 4 Výborý Chvaltebý Dobrý Dostatečý 8 6 4 8 6 4 Dostatečý Dobrý Chvaltebý Výborý Výborý Chvaltebý Dobrý Dostatečý 5 5 5 Výsečový graf prezetuje relatví četost jedotlvých varat proměé, přčemž jedotlvé relatví četost jsou úměrě reprezetováy plocham příslušých kruhových výsečí. (Změou kruhu a elpsu dojde k trojrozměrému efektu.) 8 5 8 5 Výborý Chvaltebý Výborý Chvaltebý Dobrý Dobrý Dostatečý Dostatečý 8 5 8 5 Výborý Chvaltebý Výborý Chvaltebý Dobrý Dobrý Dostatečý Dostatečý - 7 -

POZOR!!! V případě výsečového grafu s dejte zvláští pozor a pops grafu. Jedotlvé výseče estačí ozačt relatvím četostm bez uvedeí četost absolutích, popř. bez uvedeí celkového počtu pozorováí, to by mohlo vést k mateí (ať už záměrému ebo echtěému) toho, jemuž je graf urče. Zamyslete se ad ásledující ukázkou. Příklad k zamyšleí: Mulý týde jsme zpracoval aketu týkající se ázoru a zavedeí školého a vysokých školách. Výsledky prezetuje ásledující graf: PROTI 5% PRO 5% Co vy a to? Zajímavé výsledky, že? A věřte, evěřte pravdvé. A teď graf doplíme tak, jak jsme Vám to doporučl: PRO PROTI Co s myslíte yí? Z druhého grafu je patré, že byl dotazováí dva ldé jede byl pro a jede prot. Jaká je vypovídací schopost takovéto akety? Jaký je yí Váš ázor a prezetovaé výsledky? A závěr? Vy vytvářejte pouze takové grafy, jejchž terpretace je zcela jasá a je-l Vám výsečový graf bez uvedeí absolutích četostí předkládá, ptejte se vždy, zda je důvod v ezalost autora č zda je to jeho záměr. Průvodce studem: Teď přšel čas a ověřeí toho, zda jste porozuměl předcházejícímu výkladu. Následující příklad se pokuste vyřešt samostatě, ukázkové řešeí použjte ke kotrole svého postupu. - 8 -

Počet automoblů Řešeý příklad: Níže uvedeá data představují částečý výsledek zazameaý př průzkumu zatížeí jedé z ostravských křžovatek, a to barvu projíždějících automoblů. Data vyhodoťte a grafcky zázorěte. Řešeí: červeá modrá červeá zeleá modrá červeá červeá bílá zeleá zeleá modrá červeá Je zřejmé, že se jedá o kvaltatví (sloví) proměou a vzhledem k tomu, že barvy automoblů emá smysl seřazovat a porovávat, můžeme kostatovat, že se jedá o proměou omálí. Pro její pops tedy zvolíme tabulku četostí, určíme modus a barvu projíždějících automoblů zázoríme prostředctvím hstogramu a výsečového grafu. TABULKA ROZDĚLENÍ ČETNOSTI Barvy Absolutí četost Relatví četost projíždějících automoblů p červeá 5 5, 4 modrá 3 3, 5 bílá, 8 zeleá 3 3, 5 Celkem, Modus = červeá (tj. v zazameaém vzorku se vyskytlo ejvíce červeých automoblů) Barvy projíždějících automoblů Barvy projíždějících automoblů 6 5 4 3 zeleá 5% bílá 8% červeá 4% červeá modrá bílá zeleá Barv y modrá 5% Celkem bylo sledováo automoblů - 9 -

Výklad:..3 Ordálí proměá Dále budeme pokračovat popsem ordálí proměé. Ordálí proměá, stejě jako omálí, abývá v rámc souboru růzých slovích varat, avšak tyto varaty jsou seřadtelé, tj. můžeme určt, která je meší a která je větší. Pro pops ordálí proměé se používají stejé statstcké charakterstky a grafy jako pro pops omálí proměé (četost, relatví četost, modus + hstogram, výsečový graf) rozšířeé o další dvě charakterstky (kumulatví četost, kumulatví relatví četost) posthující uspořádáí ordálí proměé. Kumulatví četost m defujeme jako počet hodot proměé, které abývají varaty žší ebo rové -té varatě. Uvažte apř. proměou zámka ze statstky, která abývá varat: výborý, velm dobrý, dobrý, eprospěl, pak apř. kumulatví četost pro varatu dobrý bude rova počtu studetů, kteří ze statstky získal zámku dobrý ebo lepší. Jsou-l jedotlvé varaty uspořádáy podle své velkost ( m j j ), platí: k Je tedy zřejmé, že kumulatví četost k-té ( ejvyšší ) varaty je rova rozsahu proměé. m k Druhou specálí charakterstkou určeou pouze pro ordálí proměou je kumulatví relatví četost. Kumulatví relatví četost F vyjadřuje jakou část souboru tvoří hodoty abývající -té a žší varaty. F p j j což eí c jého ež relatví vyjádřeí kumulatví četost: F m - 3 -

Kumulatví četost Obdobě jako u omálí proměé, můžeme u ordálí proměé prezetovat statstcké charakterstky pomocí tabulky rozděleí četost. Ta obsahuje ve srováí s tabulkou rozděleí četostí pro omálí proměou avíc hodoty kumulatvích a kumulatvích relatvích četostí. Hodoty Absolutí četost TABULKA ROZDĚLENÍ ČETNOSTI Kumulatví četost Relatví četost Relatví kumulatví četost m p F m m m p p F F p p p F p k Celkem k k m k k k p k F k Fk pk k ----- ----- p..4 Grafcké zázorěí ordálí proměé Co se týče grafcké prezetace ordálí proměé, zmíl jsme jž hstogram a výsečový graf. A jede z těchto grafů však ezazameává uspořádáí jedotlvých varat. K tomu ám slouží polygo kumulatvích (resp. kumulatvích relatvích) četostí, popř. Paretův graf. Polygo kumulatvích četostí (Galtoova ogva, S křvka) je spojcovým grafem, v ěmž se a vodorovou osu vyáší jedotlvé varaty proměé v pořadí od ejmeší do ejvětší a a svslou osu příslušé hodoty kumulatvích četostí. Všměte s, směrce (sklo) polygou kumulatvích četostí je tím žší, čím žší je četost jedotlvých varat. 4 8 6 4 Galtoova ogva zámek ze statstky Výborý Chvaltebý Dobrý Dostatečý Zámky - 3 -

Paretův graf je v techckých dscplíách často užívaým grafem tvořeým spojeím hstogramu a polygou kumulatvích četostí, v ěmž se a vodorovou osu vyáší jedotlvé varaty proměé v pořadí od té s ejvětším po tu s ejmeším výzamem. Průvodce studem: A zovu s můžete ověřt, zda dokážete správě aplkovat abyté vědomost. Řešeý příklad: Následující data představují velkost trček prodaých př výprodej frmy TRIKO. S, M, L, S, M, L, XL, XL, M, XL, XL, L, M, S, M, L, L, XL, XL, XL, L, M a) Data vyhodoťte a grafcky zázorěte. b) Určete kolk procet ldí s kouplo trčko velkost ejvýše L. Řešeí: ada) Zřejmě se jedá o kvaltatví (sloví) proměou a vzhledem k tomu, že velkost trček lze seřadt, jde o proměou ordálí. Pro její pops proto použjeme tabulku četostí pro ordálí proměou, v íž varaty velkost trček budou seřazey od ejmeší po ejvětší (S, M. L, XL) a modus. - 3 -

Velkost trček TABULKA ROZDĚLENÍ ČETNOSTI Absolutí četost Kumulatví četost Relatví četost Relatví kumulatví četost m p F S 3 3 3, 4 3, 4 M 6 3 6 9 6, 7 9, 4 L 6 9 6 5 6, 7 5, 68 XL 7 5 7 7, 3, Celkem -----, ----- Modus = XL (ejvíce ldí s kouplo trčko velkost XL) Grafcký výstup bude tvořt hstogram, výsečový graf a polygo kumulatvích četostí (jelkož se ejedá o techcká data, Paretův graf vytvářet ebudeme). Grafcký výstup: Prodaá trka XL 3% S 4% L 7% M 7% Hstogram Celkem bylo prodáo trček Galtoova ogva, S-křvka adb) Na tuto otázku ám dá odpověď relatví kumulatví četost pro varatu L, která určuje jaká část prodaých trček byla velkost L a žších. Tj. 68% zákazíků s kouplo trčko velkost L a meší. - 33 -

Výklad:. Statstcké charakterstky kvattatvích proměých Pro pops kvattatví proměé můžeme použít většu statstckých charakterstk užívaých pro pops proměé ordálí (četost, relatví četost, kumulatví četost, kumulatví relatví četost), což doplíme dalším dvěm skupam charakterstk: a míry polohy ty určují typcké rozložeí hodot proměé (jejch rozmístěí a číselé ose) míry varablty určující varabltu (rozptyl) hodot kolem své typcké polohy.. Míry polohy a varablty Sad ejpoužívaějším míram polohy jsou průměry proměých. Průměry představují průměrou ebo typckou hodotu výběrového souboru. Zřejmě ejzámějším průměrem pro kvattatví proměou je Artmetcký průměr Jeho hodotu získáme pomocí zámého vztahu:! kde:... jedotlvé hodoty proměé... rozsah výběrového souboru (počet hodot proměé) Poměrě zámé jsou vlastost artmetckého průměru:.!, ebol: součet všech odchylek hodot proměé od jejch artmetckého průměru je rove ule, což zameá, že artmetcký průměr kompezuje vlv áhodých chyb a proměou.! a :! a a ebol: přčteme-l ke všem hodotám proměé stejé číslo, zvětší se o toto číslo rověž artmetcký průměr - 34 -

3. b :!! b b ebol: vyásobíme-l všechy hodoty proměé stejým číslem, zvětší se stejým způsobem rověž artmetcký průměr Přestože to tak a prví pohled vypadá, artmetcký průměr eí vždy pro výpočet průměru výběrového souboru ejvhodější. Pracujeme-l, apříklad, s proměou představující relatví změy (růstové dey, ceové dey...), používáme tzv. geometrcký průměr. Pro výpočet průměru v případech, kdy proměá má charakter část z celku (úlohy o společé prác...), používáme průměr harmocký. Vzhledem k tomu, že průměr se staovuje ze všech hodot proměé, ese mamum formací o výběrovém souboru. Na druhé straě je však velm ctlvý a tzv. odlehlá pozorováí, což jsou hodoty, které se mmořádě lší od ostatích a dokáží proto vychýlt průměr atolk, že přestává daý výběr reprezetovat. K detfkac odlehlých pozorováí se vrátíme pozděj. Mez míry polohy, které jsou a odlehlých pozorováích méě závslé, patří Modus Pozor! V případě modu budeme rozlšovat mez dskrétí a spojtou kvattatví proměou. Pro dskrétí proměou defujeme modus jako hodotu ejčetější varaty proměé (podobě jako u kvaltatví proměé). Naprot tomu u spojté proměé považujeme za modus ˆ hodotu kolem íž je ejvětší kocetrace hodot proměé. Pro určeí této hodoty využjeme shorth, což je ejkratší terval, v ěmž leží alespoň 5% hodot proměé (v případě výběru o rozsahu k k (sudý počet hodot), leží v shorthu k hodot což je 5% (/) hodot proměé, v případě výběru o rozsahu k k (lchý počet hodot), leží v shorthu k hodot - což je o ½ více ež je 5% hodot proměé (/+½)). Modus pak defujeme jako střed shorthu. Z předcházejících defc vyplývá, že délka shorthu (horí mez dolí mez) je jedozačě dáa, to však eplatí pro jeho umístěí a tudíž a pro modus. Pokud lze modus určt jedozačě, mluvíme o umodálí proměé, má-l proměá dva mody, azýváme j bmodálí. Estece dvou a více modu ve výběru obvykle sgalzuje esourodost (heterogetu) hodot proměé. Tuto esourodost bývá možé odstrat rozděleím souboru a podsoubory - roztříděím podle ěkterého jého zaku (apř. bmodálí zak výška člověka lze roztřídt podle pohlaví a dva umodálí zaky výška že a výška mužů). - 35 -

Průvodce studem: Zdála se Vám pasáž o modu kvattatví proměé přílš složtá? Pokusíme se j yí procvčt a jedoduchém příkladu, který Vám sad případé ejasost ozřejmí. Řešeý příklad: Následující data představují věk hudebíků vystupujících a přehlídce dechových orchestrů. Proměou věk považujte za spojtou. Určete průměr, shorth a modus věku hudebíků. 8 7 43 9 47 4 34 34 4 35 Řešeí: a) Určeí průměru: V tomto případě jedozačě použjeme artmetcký průměr (zdůvoděí sad eí uté):! 8 7 43 9 47 4 34 34 4 35 38,7 let Průměrý věk hudebíka vystupujícího a přehlídce dechových orchestrů je 38,7 let. Prohléděte s ještě jedou zadaá data a promyslete s akolk je průměrý věk reprezetatví statstkou daého výběru (odlehlá pozorováí). b) Určeí shorthu: Náš výběrový soubor má hodot, z čehož vyplývá, že v shorthu bude ležet 6 z ch (rozsah souboru je (lchý počet hodot), 5% z toho je 5,5 (5,5 hodoty se špatě určuje, že?) a ejblžší vyšší přrozeé číslo je 6 ebol: /+½ = / +/ = / = 6). A další postup? Proměou seřadíme Určíme délky všech 6-t čleých tervalů, v chž 5 Nejkratší z těchto tervalů prohlásíme za shorth (délka tervalu = 5 ) - 36 -

Orgálí data Seřazeá data Délky 6-t čleých tervalů 9 6 (= 35 9) 8 9 (= 4 ) 7 7 5 (= 4 7) 43 34 9 (= 43 34) 9 34 3 (= 47 34) 47 35 47 (= 8 35) 4 4 34 4 34 43 4 47 35 8 Z tabulky je zřejmé, že ejkratší terval má délku 9, čemuž odpovídá jedý terval: 34 ; 43. Shorth = 34 ; 43, což můžeme terpretovat apř. tak, že polova hudebíků je ve věku 34 až 43 let (jde přtom o ejkratší terval ze všech možých). c) Určeí modu: Modus je defová jako střed shorthu: 34 43 ˆ 38,5 Modus = 38,5 let, tj. typcký věk hudebíka vystupujícího a přehlídce dechových orchestrů je 38,5 let. Výklad: Pro podrobější vyjádřeí rozložeí hodot proměé v rámc souboru slouží statstky azývaé výběrové kvatly. Výběrové kvatly Výběrové kvatly jsou statstky, které charakterzují polohu jedotlvých hodot v rámc proměé. Podobě jako modus, jsou výběrové kvatly rezstetí (odolé) vůč odlehlým pozorováím. Obecě je výběrový kvatl (dále je kvatl) defová jako hodota, která rozděluje výběrový soubor a dvě část prví z ch obsahuje hodoty, které jsou meší ež daý kvatl; druhá část obsahuje hodoty, které jsou větší ebo rovy daému kvatlu. Pro určeí kvatlu je proto uté výběr uspořádat od ejmeší hodoty k ejvětší. Kvatl proměé, který odděluje p% meších hodot od zbytku souboru, tj. od (-p)% hodot, azýváme p %-ím kvatlem a začíme jej p. V pra se ejčastěj setkáváme s těmto kvatly: - 37 -

Kvartly Dolí kvartl,5 = 5%-í kvatl (rozděluje datový soubor tak, že 5% hodot je meších ež teto kvartl a zbytek, tj. 75% větších (ebo rových)) Medá,5 = 5%-í kvatl (rozděluje datový soubor tak, že polova (5%) hodot je meších ež medá a polova (5%) hodot větších (ebo rových)) Horí kvartl,75 = 75%-í kvatl (rozděluje datový soubor tak, že 75% hodot je meších ež teto kvartl a zbytek, tj. 5% větších (ebo rových)) Kvartly dělí výběrový soubor a 4 stejě četé část. Decly,;,;... ;,9 Decly dělí výběrový soubor a stejě četých část. Percetly, ;, ; ;,99 Percetly dělí výběrový soubor a stejě četých část. Mmum m a Mamum ma m, tj. % hodot je meších ež mmum ma, tj. % hodot je meších ež mamum A yí se dostáváme k tomu, jak se kvatly určují:. Výběrový soubor uspořádáme podle velkost. Jedotlvým hodotám proměé přřadíme pořadí, a to tak, že ejmeší hodota bude mít pořadí a ejvyšší hodota pořadí (rozsah souboru) 3. p%- í kvatl je rove hodotě proměé s pořadím z p, kde: z p p,5 Neí-l z p celé číslo, pak daý kvatl určíme jako průměr prvků s pořadím [z p ] a [z p ]+. (Poz.: [a] začíme celou část čísla a.) Za zmíku zajsté stojí vztah mez kvatly a kumulatví relatví četost. Zřejmě lze říc, že hodota p udává kumulatví relatví četost kvatlu p, tj. relatví četost těch hodot proměé, které jsou meší ež kvatl p. Kvatl a kumulatví relatví četost jsou tedy verzí pojmy. Grafcké ebo tabulkové zázorěí setříděé proměé a příslušých kumulatvích četostí se ozačuje jako dstrbučí fukce kumulatví četost, popř. emprcká dstrbučí fukce. Ujasěme s yí, jak emprckou dstrbučí fukc pro kvattatví proměou určt. - 38 -

Emprcká dstrbučí fukce F() pro kvattatví proměou Ozačme s p( ) relatví četost hodoty seřazeého výběrového souboru ( < < < ). Pro emprckou dstrbučí fukc F() pak platí: F j p pro pro j j pro, j F() p( ) p( )... 3 - Emprcká dstrbučí fukce je mootóě rostoucí, zleva spojtou fukcí, která skáče podle relatvích četostí příslušých jedotlvým hodotám proměé. Zjevě tedy platí, že: p lm F F Prostředctvím kvatlů jsou defováy další dvě statstky kvattatví proměé terkvartlové rozpětí a MAD. Iterkvartlové rozpětí IQR Tato statstka je mírou varablty souboru a je defováa jako vzdáleost mez horím a dolím kvartlem: IQR,75,5 MAD Název MAD je zkratkou aglcké defce meda absolute devato from the meda, čl česky: medá absolutích odchylek od medáu - 39 -

Jak jej tedy určíme?. Výběrový soubor uspořádáme podle velkost. Určíme medá souboru 3. Pro každou hodotu souboru určíme absolutí hodotu její odchylky od medáu 4. Absolutí odchylky od medáu uspořádáme podle velkost 5. Určíme medá absolutích odchylek od medáu, tj. MAD Průvodce studem: Moc teore? Abyste se ujstl, že c eí tak čeré jak to vypadá, zkuste pokračovat v předcházejícím řešeém příkladu. Řešeý příklad: Pro data z předcházejícího příkladu určete: a) všechy kvartly, b) terkvartlové rozpětí c) MAD d) zakreslete emprckou dstrbučí fukc Řešeí: ada) Naším úkolem je určt dolí kvartl,5 ; medá,5 a horí kvartl,75. Budeme-l dodržovat postup doporučeý pro určováí kvatlů, zameá to data seřadt a přřadt jm pořadí. Splěí prvích dvou bodů postupu ukazuje ásledující tabulka: Orgálí data Seřazeá data Pořadí 9 8 7 7 3 43 34 4 9 34 5 47 35 6 4 4 7 34 4 8 34 43 9 4 47 35 8 A můžeme přejít k bodu 3, tj. staovt pořadí hodot proměé pro jedotlvé kvartly a tím jejch hodoty: - 4 -

Dolí kvartl,5 : p, 5; z p., 5, 5 3, 5, Dolí kvartl je tedy průměrem prvků s pořadím 3 a 4 -,5 = 7+34 = 3,5 let. Tj. 5% hudebíků vystupujících a přehlídce dechových orchestrů je mladších ež 3,5 let (75% z ch má 3,5 let a více). Medá,5 :,5; z.,5,5 6 35 p p, 5 Tj. polova hudebíků vystupujících a přehlídce dechových orchestrů je mladších ež 35 let (5% z ch má 35 let a více). Horí kvartl,75 : p, 75; z p., 75, 5 8, 75 Horí kvartl je tedy průměrem prvků s pořadím 8 a 9 -,75 = 4+43 = 4,5 let. Tj. 75% hudebíků vystupujících a přehlídce dechových orchestrů je mladších ež 4,5 let (5% z ch má 4,5 let a více). adb) Iterkvartlové rozpětí IQR: IQR =,75,5 = 4,5 3,5 = adc) MAD Chceme-l určt tuto statstku, budeme postupovat přesě podle toho co ám říká defce (medá absolutích odchylek od medáu), tudíž dodržíme výše uvedeý postup, jehož aplkac vám ukazuje ásledující tabulka.,5 = 35 Orgálí data Seřazeá data y Absolutí hodoty odchylek seřazeých dat od jejch medáu y,5 Seřazeé absolutí hodoty odchylek seřazeých dat od jejch medáu 9 6 9 35 8 3 35 7 7 8 7 35 43 34 34 35 6 9 34 34 35 7 47 35 35 35 8 4 4 6 4 35 8 34 4 7 4 35 34 43 8 43 35 3 4 47 47 35 6 35 8 47 8 35 47 M - 4 -

F() MAD M,5 p,5; z p.,5,5 6 M, 5 8 (MAD je medá absolutích odchylek od medáu, tj. 6. hodota seřazeého souboru absolutích odchylek od medáu). MAD = 8. add) Zbývá ám posledí úkol sestrojt emprckou dstrbučí fukc. Přpomeňme s proto její defc a postupujme podle í: F j p pro pro j j pro, j - do tabulky s zapíšeme seřazeé hodoty proměé, jejch četost, relatví četost a z ch odvodíme emprckou dstrbučí fukc: Orgálí data Seřazeé hodoty a Absolutí četost seřazeých hodot Relatví četost seřazeých hodot p Emprcká dst. fukce F(a ) 9 / 8 / / 7 7 / / 43 34 / 3/ 9 35 / 5/ 47 4 / 6/ 4 4 / 7/ 34 43 / 8/ 34 47 / 9/ 4 8 / / 35 Z defce emp. dst. fukce F() tedy plye, že pro všecha meší ež 9 je F() rova ule, pro větší ež 9 a meší ebo rova je F() rova /, pro větší ež a meší ebo rova 7 je F() rova / + /, atd. ; 9 9 ; ; 7 7 ; 34 34 ; 35 F() / / 3/ 5/ 35 ; 4 4 ; 4 4 ; 43 43 ; 47 ; 8 47 8 ; F() 6/ 7/ 8/ 9/ / / Emprcká dstrbučí fukce,,,8,6,4,, - 4 6 8-4 -

Průvodce studem: Zvládl jste to? Gratuluj. Pokud jste s příkladem měl ějaké problémy, doporučuj Vám, abyste s pasáž o kvatlech a emprcké dstrbučí fukc zovu důkladě prostudoval eí to aposled, co o ch slyšíte. Výklad: Až dosud jsme se zabýval převážě statstckým charakterstkam umožňujícím pops polohy proměé, tj. míram polohy. Průměry, modus, stejě jako medá vyjadřují pomyslý střed proměé, eříkají však c o rozložeí jedotlvých hodot proměé kolem tohoto středu, tj. o varabltě proměé. Je zřejmé, že čím větší je rozptýleost hodot proměé kolem jejího pomyslého středu, tím meší je schopost tohoto středu reprezetovat celou proměou. Následující tř statstcké charakterstky ám umožňují pops varablty (rozptýleost) výběrového souboru, ebol pops rozptylu jedotlvých hodot kolem středu proměé azýváme je tedy míram varablty. (Z dosud zmíěých statstckých charakterstk zařazujeme mez míry varablty shorth a terkvartlové rozpětí.) Výběrový rozptyl s je ejrozšířeější mírou varablty výběrového souboru. Určujeme jej podle vztahu: s tz. výběrový rozptyl je dá podílem součtu kvadrátu odchylek jedotlvých hodot od průměru a rozsahu souboru sížeého o jedčku. Mez základí vlastost výběrového rozptylu patří:. Výběrový rozptyl kostaty je rove ule, ebol: jsou-l všechy hodoty proměé stejé, má soubor ulovou rozptýleost - 43 -

- 44 -. : s y y a y s a ebol: přčteme-l ke všem hodotám proměé lbovolou kostatu, výběrový rozptyl proměé se ezměí 3. : s b y y b y s b ebol: vyásobíme-l všechy hodoty proměé lbovolou kostatou (b), výběrový rozptyl proměé se zvětší kvadrátem této kostaty (b krát) Nevýhodou použtí výběrového rozptylu jakožto míry varablty je to, že rozměr této charakterstky je druhou mocou rozměru proměé. (Např. je-l proměou deí tržba uvedea v Kč, bude výběrový rozptyl této proměé vyjádře v Kč.) Teto edostatek odstraňuje další míra varablty, a tou je: Výběrová směrodatá odchylka s je defováa prostě jako kladá odmoca výběrového rozptylu: s s Nevýhodou výběrového rozptylu výběrové směrodaté odchylky je ta skutečost, že eumožňují porovávat varbltu proměých vyjádřeých v růzých jedotkách. Která proměá má větší varabltu výška ebo hmotost dospělého jedce? Na tuto otázku ám dá odpověď, tzv. varačí koefcet. Varačí koefcet V vyjadřuje relatví míru varablty proměé. Podle íže uvedeého vztahu jej lze staovt pouze pro proměé, které abývají výhradě kladých hodot. Varačí koefcet je bezrozměrý, uvádíme-l jej v [%], hodotu získaou z defčího vzorce vyásobíme %. s V

Řešeý příklad: Frma vyrábějící tabulové sklo vyvula méě ákladou techolog pro zlepšeí odolost skla vůč žáru. Pro testováí bylo vybráo 5 tabulí skla a rozřezáo a polovu. Jeda polova pak byla ošetřea ovou techologí, zatímco druhá byla poecháa jako kotrolí. Obě polovy pak byly vystavey zvyšujícímu se působeí tepla, dokud epraskly. Výsledky byly ásledující: Mezí teplota (sklo prasklo) [ o C] Stará techologe Nová techologe y 475 485 436 39 495 5 483 46 46 488 Porovejte obě techologe pomocí základích charakterstk eploratorí statstky (průměru a rozptylu, popř. směrodaté odchylky). Řešeí: - Nejprve se pokusíme porovat obě techologe pouze za pomocí průměru: Průměr pro starou techolog: 475 436 5 46 463, o C Průměr pro ovou techolog: y y 485 39 5 488 468,6 o C Na základě vypočteých průměrů bychom mohl říc, že ovou techolog doporučujeme, poěvadž mezí teplota je př ové techolog téměř o 6 o C vyšší. A co a to míry varablty? Stará techologe: Výběrový rozptyl: s 475 463, 436 463, 46 463, 5 96,3 o C - 45 -

Teplota Výběrová směrodatá odchylka: s s 96,3 3, 3 Nová techologe: Výběrový rozptyl: o C s y y y 485 468,6 39 468,6 488 468,6 5 384,4 o C Výběrová směrodatá odchylka: y y s s y 384,4 48, 8 o C Tady pozor. Výběrový rozptyl (výběrová směrodatá odchylka) vyšel pro ovou techolog mohem vyšší ež pro techolog starou. Co to zameá? Podívejte se a grafcké zázorěí aměřeých dat. 6 Mezí teplota Mezí teploty pro ovou techolog jsou mohem rozptýleější, tz. že tato techologe eí ještě dobře zvládutá a její použtí ám ezaručí zkvaltěí výroby. V tomto případě může dojít k slému zvýšeí, ale také k slému sížeí mezí teploty proto by se měla ová techologe ještě vrátt do vývoje. 3 Stará Techologe Nová Zdůrazěme, že tyto závěry jsou staovey pouze a základě eploratorí aalýzy, statstka ám abízí eaktější metody pro rozhodutí takovýchto případů (testováí hypotéz), s mž se sezámíte pozděj. Výklad: A yí se vrátíme k eploratorí statstce jako takové. Vzpomíáte s ještě a zmíku o odlehlých pozorováích? Dozvěděl jste se, že jako odlehlá pozorováí ozačujeme ty hodoty proměé, které se mmořádě lší od ostatích hodot a tím ovlvňují apř. reprezetatvost průměru. Nyí se dozvíte jak se tyto hodoty detfkují. - 46 -

Idetfkace odlehlých pozorováí (outlers) Ve statstcké pra se můžete setkat s ěkolka způsoby detfkace odlehlých pozorováí. My s ukážeme tř z ch.. Vtří hradby: Za odlehlé pozorováí lze považovat takovou hodotu, která je od dolího, resp. horího kvatlu vzdáleá více ež,5 ásobek terkvartlového rozpětí. Tedy:,5IQR, 5IQR je odlehlým pozorováí m,5, 75. z-souřadce: Za odlehlé pozorováí lze považovat takovou hodotu, jejíž absolutí hodota z-souřadce je větší ež 3, tj. hodota, která je od průměru vzdáleější ež 3s. Tedy: z souř. s z souř. 3 je odlehlým pozorováí m 3.,5 -souřadce: Za odlehlé pozorováí lze považovat takovou hodotu, jejíž absolutí hodota medáové souřadce je větší ež 3, tj. hodota, která je od medáu vzdáleější ež,483.mad. Tedy:,5 medáová souř.,483. MAD medáová souř. 3 je odlehlým pozorováí m V kokrétím případě s můžete pro detfkac odlehlých pozorováí zvolt lbovolé z těchto tří pravdel. Za zmíku stojí sad je to, že z-souřadce je méě přísá k odlehlým pozorováím ež medáová souřadce. To je způsobeo tím, že z-souřadce se určuje a základě průměru a výběrové směrodaté odchylky, jež jsou slě ovlvěy hodotam odlehlých pozorováí. Naprot tomu medáová souřadce se určuje a základě medáu a MADu, které jsou vůč odlehlým pozorováím odolé. Někteří statstc rozdělují odlehlá pozorováí do dvou skup a odlehlá pozorováí a etrémí pozorováí. Pro toto rozlšeí využívají pojmů vtří a vější hradby. Defce hradeb vychází z pravdla pro detfkac odlehlých pozorováí pomocí IQR. Vtří hradby: dolí mez: h D =,5,5IQR horí mez: h H =,75 +,5IQR Vější hradby: dolí mez: H D =,5 3IQR horí mez: H H =,75 + 3IQR Pozorováí ležící mmo vější hradby pak azýváme etrémí, pozorováí ležící vě vtřích hradeb, avšak uvtř hradeb vějších azýváme odlehlá. - 47 -

Pokud o ěkteré hodotě proměé rozhodeme, že je odlehlým pozorováím, je uté rozlšt o jaký typ odlehlost se jedá. V případě, že odlehlost pozorováí je způsobea: hrubým chybam, překlepy, prokazatelým selháím ldí č techky... důsledky poruch, chybého měřeí, techologckých chyb... tz., záme-l příču odlehlost a předpokládáme-l, že jž eastae, jsme oprávě tato pozorováí vyloučt z dalšího zpracováí. V ostatích případech je uto zvážt, zda se vyloučeím odlehlých pozorováí epřpravíme o důležté formace o jevech vyskytujících se s ízkou četostí. Dalším charakterstkam popsujícím kvattatví proměou jsou výběrová škmost a výběrová špčatost. Vzorce podle chž se určují tyto charakterstky jsou poměrě složté a proto se podle ch ručě většou epočítá. Využívá je však velká část statstckých programů. Výběrová škmost (skewess) a vyjadřuje asymetr rozložeí hodot proměé kolem jejího průměru. Výběrová škmost je defováa vztahem: a 3 s 3 A jak výběrovou škmost terpretujeme? a... hodoty proměé jsou kolem jejího průměru rozložey symetrcky a... u proměé převažují hodoty meší ež průměr a... u proměé převažují hodoty větší ež průměr 6 6 6 5 4 5 4 5 4 3 3 3 3 4 5 6 7 3 4 5 6 7 3 4 5 6 7 a= a> a< Souvslost mez škmostí a charakterstkam polohy Symetrcké rozděleí: =,5 Poztvě zeškmeé rozděleí: >,5 Negatvě zeškmeé rozděleí: <,5-48 -

Výběrová špčatost (kurtoss) b vyjadřuje kocetrac hodot proměé kolem jejího průměru. Výběrová špčatost je defováa vztahem: b 3 s 4 4 3 3 A jak terpretujeme výběrovou špčatost? b... špčatost odpovídá ormálímu rozděleí (bude defováo pozděj) b... špčaté rozděleí proměé b... ploché rozděleí proměé 7 3 6 5 4 3 3 4 5 6 7 8 6 4 3 4 5 6 7 5 5 5 3 4 5 6 7 b= b> b< Průvodce studem: Tak, a máte to takřka vše za sebou všechy číselé charakterstky, které budeme využívat pro pops kvattatví proměé máme defováy. Zbývá ám jedé ukázat s jak můžeme kvattatví proměou zázort grafcky. Tak vzhůru do toho, eboť o c složtého ejde. Výklad:.. Grafcké zázorěí kvattatví proměé Krabcový graf (Bo plot) Krabcový graf se ve statstce využívá od roku 977, kdy jej poprvé prezetoval statstk Tukey (azval jej bo wth whskers plot krabcový graf s vousama). Grafcká podoba tohoto grafu se v růzých aplkacích mírě lší. Jedu z jeho verzí vdíte a výše uvedeém obrázku. - 49 -

Odlehlá pozorováí jsou zázorěa jako zolovaé body, koec horího (popř. koec dolího) vousu představují mamum ma (popř. mmum m ) proměé po vyloučeí odlehlých pozorováí, víko krabce udává horí kvartl, do dolí kvartl, vodorová úsečka uvtř krabce ozačuje medá. Svorka vě krabce ukazuje shorth. Z polohy medáu vzhledem ke krabc lze dobře usuzovat a symetr vtřích 5% dat a my tak získáváme dobrý přehled o středu a rozptýleost proměé. BUNCHWEIGH 6 5 4 3 shorth ma odlehlé pozorováí horí kvartl medá dolí kvartl m Poz.: Z popsu krabcového grafu je zřejmé, že jeho kostrukc začíáme zakresleím odlehlých pozorováí a až poté vyzačujeme ostatí číselé charakterstky proměé (m, ma, kvartly a shorth). Číslcový hstogram (Stem ad leaf plot, Lodyha s lsty...) Jak jsme s ukázal, výhodou krabcového grafu je jeho jedoduchost, ěkdy ám však chybí formace o kokrétích hodotách proměé. Chtěl bychom proto ějak přehledě zapsat číselé hodoty výběru a k tomu ám slouží právě číslcový hstogram. Navíc ám teto graf dává dobrou představu o škmost proměé. Představme s proměou představující průměré měsíčí platy zaměstaců ve státí správě. Průměrý měsíčí plat [Kč] 654 9 765 8 675 435 9 675 343 8 786 5 4 8 675 7 3 6 73 6 878 5 657 9 754 9 543 9 435 647 453 9 987 34 A vy yí stojíte před problémem jak tato data zázort. Pokud se ad touto otázkou trochu zamyslíme, zjstíme, že pro aší formac ejsou tak důležté koruy a desetkoruy rozdílu. V tomto případě se ám jedá přejmeším o stokoruy. Co kdybychom tedy formac o edůležtých řádech zaedbal a zázorl setříděá data pouze a základě vyšších řádů? My jsme se rozhodl, že důležtý řád jsou pro ás Lodyha 6 78 7 8 66 9 456779 6 3366 4 44 5 46 8 7 * 3 Šířka lodyhy Lsty Četost - 5 -

stovky. Hodoty stojící o řád výš (v ašem případě tsíce) zapíšeme setříděé pod sebe, tak, že tvoří jakýs stoek (lodyhu), přčemž pod graf uvedeme tzv. šířku lodyhy, která udává koefcet jímž se hodoty uvedeé v grafu ásobí. Druhý sloupec grafu, lsty, budou tvořt číslce, reprezetujíc zvoleý důležtý řád, zapsovaé do příslušých řádků (opět seřazeé podle velkost). A koečě - třetí sloupec udává absolutí četost příslušé daým řádkům. Jste ze slovího popsu poěkud zmate? Prohléděte s důkladě obrázek prezetující číslcový hstogram pro áš případ. Např. prví řádek reprezetuje dvě hodoty (6.7 a 6.8)* 3 Kč, tj. 67 Kč a 68 Kč (koruy a desetkoruy jsme zaedbal), šestý řádek reprezetuje také dvě hodoty (.4 a.4)* 3 Kč, tj. dvě osoby s průměrým měsíčím příjmem 4 Kč, atd. už je to jasější, dokázal byste teto graf sestrojt sam? Estují růzé modfkace tohoto grafu. Např. zobrazovaé četost mohou být kumulatví, přčemž v řádku, v ěmž se achází medá se uvádí absolutí četost (v závorce) a směrem k tomuto řádků se četost kumulují jedak od ejžších hodot, jedak od ejvyšších hodot. Koečě můžete amítout, že způsobu kostrukce číslcového hstogramu je pro jede případ vždy ěkolk. Nkde eí dáo, který řád proměé je pro Lodyha 6 78 7 3 8 66 5 9 456779 (6) 3366 9 44 5 5 46 3 8 7 Šířka lodyhy zazameáí důležtý a který už je zaedbatelý. (Srovával jsme platy dobře, když jsme je zazameal s přesost a stokoruy? Nestačlo zázort číslcový hstogram vzhledem k tsíckoruám?) Toto rozhodutí leží vždy a tom, kdo data zpracovává. Můžeme uvést sad je jedu radu dlouhé lodyhy s krátkým lsty a krátké lodyhy s dlouhým lsty svědčí o evhodé volbě měřítka. * 3 Lsty 66788999999 558 9 Kumulatví četost * 4-5 -

Shrutí: Kvaltatví - Kategorálí proměá a) Nomálí proměá - emá smysl uspořádáí Základí statstky pro pops omálí proměé: Četost Relatví četost Modus Grafcké zobrazeí omálí proměé: Hstogram Výsečový graf b) Ordálí proměá - má smysl uspořádáí Základí statstky pro pops ordálí proměé: Četost Relatví četost Kumulatví četost Relatví kumulatví četost Modus Grafcké zobrazeí ordálí proměé: Hstogram Výsečový graf Paterův graf Polygo kumulatvích četostí (Galtoova ogva) - 5 -

Kvattatví - Numercká proměá Míry polohy Průměr! Modus (střed shorthu) Kvatty (dolí kvartl, medá, horí kvartl, ) Míry varablty Iterkvartlové rozpětí IQR,75, 5 Výběrový rozptyl Výběrová směrodatá odchylka Varačí koefcet s s s s V Výběrová škmost Výběrová špčatost 4 3 s 3 s 4 3 3 3 Idetfkace odlehlých pozorováí Vtří hradby: dolí mez: h D =,5,5IQR horí mez: h H =,75 +,5IQR Z souřadce Medáová souřadce z souř. s medáová souř.,5,483. MAD Grafcké zobrazeí umercké proměé: Emprcká dstrbučí fukce Bo plot (Krabcový graf) Stem ad leaf (Lodyha s lsty, Číslcový hstogram) - 53 -

Otázky. Čím se zabývá eploratorí statstka?. Charakterzujte základí typy proměých. 3. Které statstcké charakterstky mohou obsahovat tabulky četost (pro který typ proměé)? 4. Defujte základí statstky popsující kvaltatví proměou. 5. Co jsou to odlehlá pozorováí a jak je detfkujeme? 6. Na výskyt odlehlých pozorováí ve výběru je ctlvý: a) Medá b) Artmetcký průměr c) Horí kvartl 7. Defujte základí míry varablty. 8. Co je to emprcká dstrbučí fukce? 9. Jaké jsou možost grafcké prezetace kvaltatví (kvattatví) proměé? - 54 -

Úlohy k řešeí. Následující hstogram zobrazuje platy zaměstaců (v ts. Kč) jedé akcové společost. Které z ásledujících výroků jsou určtě chybé, popř. eověřtelé? a) Modus platů je třída od 7 do 8ts. Kč b) Celkový počet zaměstaců frmy (zahrutých do průzkumu) je 5 c) Průměrý plat čí 7 977,- Kč. Teto krabcový graf vypovídá o výdělcích (v ts. Kč,-) studetů během letích prázd. 9 Ozačte výroky, které zjevě eodpovídají zobrazeé skutečost. a) Studet s vydělal mamálě 9 ts. Kč,- b) Iterkvartlové rozpětí výdělků čí zhruba ts. Kč,- c) Polova studetů s vydělala méě ež cca. ts. Kč,- d) Nejkratší terval, v ěmž leží alespoň 5% výdělků (Shorth), je cca (5;5) ts. Kč,- 3. Následující graf Stem & leaf zobrazuje ročí úhr srážek (v mm) a Lysé hoře v letech 966 996. 4 73 86 5 5 7 5 53 6 7 6 5 9 3 3 33 33 4 6 64 65 7 98 () 7 5 4 5 4 48 59 98 8 9 3 37 4 9 Multply by - 55 -

Ozačte výroky, které zjevě eodpovídají zobrazeé skutečost. a) Údaje ve třetím sloupc udávají kumulatví četost (př kumulac shora a zdola, hodota ve třetím řádku udává absolutí četost) b) Medá ročích úhru srážek čí 668mm. c) V roce 994 byl ročí úhr srážek a Lysé hoře 83mm. d) V roce 966 byl zazameá ejžší ročí úhr srážek a Lysé hoře. 4. Následující data představují zem výroby automoblu. Data vyhodoťte (četost, rel. četost, resp. kum. četost a kum. rel. četost, modus) a grafcky zázorěte (hstogram, výsečový graf). USA USA Německo ČR Německo Německo Německo ČR ČR ČR USA Německo 5. Následující data představují dobu čekáí [m] zákazíka a obsluhu. Zakreslete bo plot a graf stem ad leaf. 8 9 5 5 4 3 7 6. Př dopravím průzkumu byla sledováa vytížeost vjezdu do určté křžovatky. Studet, provádějící průzkum, s vždy př askočeí zeleého světla zapsal počet aut, čekajících ve frotě u semaforu. Jeho zapsaé výsledky jsou: 3 5 3 3 5 7 8 8 6 8 5 5 8 5 4 7 5 6 3 4 8 4 4 5 5 4 3 3 4 9 6 5 3 5 3 5 7 5 8 4 4 3 5 6 4 6 9 3 6 3 5 3 5 3 7 6 3 7 5 6 Nakreslete krabcový graf, emprckou dstrbučí fukc a vypočtěte ásledující výběrové statstky: průměr, výběrová směrodatá odchylka a terkvartlové rozpětí. - 56 -

Řešeí:. b), c). b), d) 3. b), c), d) 4. 5. Kumulatví četost a kumulatví relatví četost emá v tomto případě smysl. Modem, tj. zemí, v íž bylo vyrobeo ejvíce automoblů, je Německo. - 57 -

F() Stem ad leaf 5 7 8 3 9 4 7 () 4 3 3 4 5 * 6.,5 = 3;,75 = 6; IQR = 3 Emprcká dstrbučí fukce,,8,6,4, -4-4 6 8 4 počet aut - 58 -