Příloha podrobný výklad vybraných pojmů

Podobné dokumenty
veličin, deskriptivní statistika Ing. Michael Rost, Ph.D.

Statistika pro geografy

Praktická statistika. Petr Ponížil Eva Kutálková

Popisná statistika. úvod rozdělení hodnot míry centrální tendence míry variability míry šikmosti a špičatosti grafy

Matematika III. 27. listopadu Vysoká škola báňská - Technická univerzita Ostrava. Matematika III

Zpracování náhodného výběru. Ing. Michal Dorda, Ph.D.

Úloha č. 2 - Kvantil a typická hodnota. (bodově tříděná data): (intervalově tříděná data): Zadání úlohy: Zadání úlohy:

Zápočtová práce STATISTIKA I

STATISTICKÉ CHARAKTERISTIKY

Základy popisné statistiky

7. Rozdělení pravděpodobnosti ve statistice

Metodologie pro ISK II

ZÁKLADNÍ STATISTICKÉ CHARAKTERISTIKY

Charakteristika datového souboru

Popisná statistika. Jaroslav MAREK. Univerzita Palackého

Číselné charakteristiky a jejich výpočet

Statistika, Biostatistika pro kombinované studium Letní semestr 2011/2012. Tutoriál č. 4: Exploratorní analýza. Jan Kracík


Náhodná proměnná. Náhodná proměnná může mít rozdělení diskrétní (x 1. , x 2. ; x 2. spojité (<x 1

Analýza dat na PC I.

Charakterizace rozdělení

Číselné charakteristiky

Výběrové charakteristiky a jejich rozdělení

mezi studenty. Dále bychom rádi posoudili, zda dobrý výsledek v prvním testu bývá doprovázen dobrým výsledkem i v druhém testu.

Popisná statistika. úvod rozdělení hodnot míry centrální tendence míry variability míry šikmosti a špičatosti grafy

TEST Z TEORIE EXPLORAČNÍ ANALÝZA DAT

Vybraná rozdělení náhodné veličiny

MATEMATICKÁ STATISTIKA. Katedra matematiky a didaktiky matematiky Technická univerzita v Liberci

Mnohorozměrná statistická data

Mnohorozměrná statistická data

Statistika. cílem je zjednodušit nějaká data tak, abychom se v nich lépe vyznali důsledkem je ztráta informací!

Statistika. Diskrétní data. Spojitá data. Charakteristiky polohy. Charakteristiky variability

Otázky k měření centrální tendence. 1. Je dáno rozložení, ve kterém průměr = medián. Co musí být pravdivé o tvaru tohoto rozložení?

Metodologie pro Informační studia a knihovnictví 2

Inferenční statistika - úvod. z-skóry normální rozdělení pravděpodobnost rozdělení výběrových průměrů

Popisná statistika. Statistika pro sociology

POPISNÁ STATISTIKA Komentované řešení pomocí programu Statistica

Výrobní produkce divizí Ice Cream Po lo ha plane t Rozložený výse ový 3D graf Bublinový graf Histogram t s tn e ídy

Základní statistické charakteristiky

Metodologie pro Informační studia a knihovnictví 2

1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.

Základy popisné statistiky. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek

PRŮZKUMOVÁ ANALÝZA JEDNOROZMĚRNÝCH DAT Exploratory Data Analysis (EDA)

Náhodná veličina a rozdělení pravděpodobnosti

Metody sociálních výzkumů. Velmi skromný úvod do statistiky. Motto: Jsou tři druhy lži-lež prostá, lež odsouzeníhodná a statistika.

Základy pravděpodobnosti a statistiky. Popisná statistika

TECHNICKÁ UNIVERZITA V LIBERCI SEMESTRÁLNÍ PRÁCE

Jiří Neubauer. Katedra ekonometrie, FVL, UO Brno kancelář 69a, tel

23. Matematická statistika

P13: Statistické postupy vyhodnocování únavových zkoušek, aplikace normálního, Weibullova rozdělení, apod.

Renáta Bednárová STATISTIKA PRO EKONOMY

STATISTICKÉ ODHADY Odhady populačních charakteristik

KGG/STG Statistika pro geografy

Úvod do problematiky měření

ANALÝZA DAT V R 2. POPISNÉ STATISTIKY. Mgr. Markéta Pavlíková Katedra pravděpodobnosti a matematické statistiky MFF UK.

8.1. Definice: Normální (Gaussovo) rozdělení N(µ, σ 2 ) s parametry µ a. ( ) ϕ(x) = 1. označovat písmenem U. Její hustota je pak.

UNIVERZITA OBRANY Fakulta ekonomiky a managementu. Aplikace STAT1. Výsledek řešení projektu PRO HORR2011 a PRO GRAM

Úvod do kurzu. Moodle kurz. (a) (b) heslo pro hosty: statistika (c) skripta na pravděpodobnost

Obsah. Statistika Zpracování informací ze statistického šetření Charakteristiky úrovně, variability a koncentrace kvantitativního znaku

Statistika s Excelem aneb Máme data. A co dál? Martina Litschmannová Katedra aplikované matematiky, FEI, VŠB-TU Ostrava

Normální (Gaussovo) rozdělení

Základy teorie pravděpodobnosti

MATEMATIKA III V PŘÍKLADECH

Pravděpodobnost a aplikovaná statistika

Náhodné (statistické) chyby přímých měření

PSY117/454 Statistická analýza dat v psychologii přednáška 8. Statistické usuzování, odhady

10. cvičení z PST. 5. prosince T = (n 1) S2 X. (n 1) s2 x σ 2 q χ 2 (n 1) (1 α 2 ). q χ 2 (n 1) 2. 2 x. (n 1) s. x = 1 6. x i = 457.

I. D i s k r é t n í r o z d ě l e n í

You created this PDF from an application that is not licensed to print to novapdf printer (

Náhodné chyby přímých měření

Pravděpodobnost a statistika, Biostatistika pro kombinované studium. Jan Kracík

Střední hodnota a rozptyl náhodné. kvantilu. Ing. Michael Rost, Ph.D.

Téma 22. Ondřej Nývlt

p(x) = P (X = x), x R,

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Pojem a úkoly statistiky

KGG/STG Statistika pro geografy

Komplexní čísla, Kombinatorika, pravděpodobnost a statistika, Posloupnosti a řady

Stručný úvod do vybraných zredukovaných základů statistické analýzy dat

Porovnání dvou výběrů

Popisná statistika kvantitativní veličiny

Pravděpodobnost a statistika I KMA/K413

Přednáška. Diskrétní náhodná proměnná. Charakteristiky DNP. Základní rozdělení DNP

VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ. FAKULTA STROJNÍHO INŽENÝRSTVÍ Ústav materiálového inženýrství - odbor slévárenství

Průzkumová analýza dat

Pravděpodobnost a statistika

Tématické okruhy pro státní závěrečné zkoušky. bakalářské studium. studijní obor "Management jakosti"

Aplikovaná numerická matematika

2. Základní typy dat Spojitá a kategoriální data Základní popisné statistiky Frekvenční tabulky Grafický popis dat

Tématické okruhy pro státní závěrečné zkoušky. bakalářské studium. studijní obor "Management jakosti"

Statistika jako obor. Statistika. Popisná statistika. Matematická statistika TEORIE K MV2

Popisná statistika. Komentované řešení pomocí MS Excel

Statistické metody. Martin Schindler KAP, tel , budova G. naposledy upraveno: 9.

Základy biostatistiky II. Veřejné zdravotnictví 3.LF UK - II

Induktivní statistika. z-skóry pravděpodobnost

8. Normální rozdělení

Rozhodnutí / Skutečnost platí neplatí Nezamítáme správně chyba 2. druhu Zamítáme chyba 1. druhu správně

Transkript:

Příloha podrobný výklad vybraných pojmů 1.1 Parametry (popisné charakteristiky) základního souboru 1.1.1 Míry polohy (střední hodnoty) Aritmetický průměr představuje pravděpodobně nejznámější střední hodnotou, vypočítá se jako součet všech hodnot vydělený jejich počtem. Geometrický průměr je dle [21] vhodnější mírou polohy než aritmetický průměr pro poměrovou proměnnou (typ intervalové proměnné s bodem absolutní nuly, pod který hodnota proměnné nikdy nemůže klesnout, např. váha, výška, věk ). Často se používá v biologii nebo ekonomii, kde je proměnná spíše součinem než součtem mnoha malých efektů. Vypočte se jako n-tá odmocnina součinu všech hodnot. Harmonický průměr [21] se používá tehdy, pokud jsou hodnoty znaku nerovnoměrně rozděleny kolem průměru, nebo když jsou hodnoty extrémně nízké či vysoké. Harmonický průměr z nenulových hodnot statistického souboru je definován jako podíl rozsahu souboru a součtu převrácených hodnot znaků. Modus představuje nejčastěji se vyskytující hodnotu proměnné, tedy hodnotu s největší absolutní četností. Rozdělení, které má jen jedeno lokální maximum, které je zároveň maximem globálním, se nazývá unimodální [22]. Medián představuje střední hodnotu souboru souboru, který je roztříděn od nejmenší hodnoty po největší. Oproti aritmetickému průměru je medián málo citlivý na extrémní hodnoty, tudíž je v některých aplikacích vhodnější [21]. (Bylo by například vhodnější používat medián namísto průměrné mzdy, kde by bylo docíleno mnohem větší vypovídací schopnosti.) 1.1.2 Míry variability Variační rozpětí je nejjednodušší mírou variability, spočítá se jako rozdíl mezi největší a nejmenší hodnotou v souboru. Mezikvartilové rozpětí představuje rozdíl mezi třetím a prvním kvartilem, tzn. rozdíl mezi 75. a 25. percentilem. Reprezentuje tedy oblast středních padesáti procent hodnot proměnné. Tato míra variability není náchylná na extrémní hodnoty proměnné [21]. Rozptyl nebo též střední kvadratická odchylka [23] představuje vesměs nejpoužívanější míru variability. Dá se definovat jako druhý centrální moment náhodné veličiny a vyjadřuje variabilitu rozdělení souboru náhodných hodnot kolem její střední hodnoty [23]. Standardní (směrodatnou) odchylku lze definovat jako kvadratický průměr odchylek hodnot znaku od jejich aritmetického průměru [24]. Je-li odchylka malá, pak lze tvrdit, že

jsou si prvky navzájem podobné a naopak vysoká směrodatná odchylka ukazuje na velké odlišnosti v souboru. 1.1.3 Míry tvaru Šikmost [21] měří směr a stupeň symetrie (nebo asymetrie) rozdělení proměnné. Kladná hodnota (neboli pravostranná šikmost) znamená, že průměr je větší než medián, což znamená, že většina hodnot v souboru nabývá nižších hodnot než průměr. Pokud se šikmost rovná nule, znamená to, že rozdělení je symetrické a tedy, že průměr i medián souboru se sobě navzájem rovnají. Špičatost [21] charakterizuje výskyt extrémně vysokých (nebo naopak nízkých) hodnot v souboru. Obvykle se špičatost porovnává se špičatostí normálního rozdělení, u kterého dle [21] nabývá hodnoty 3. Rozdělení, které mají větší špičatost, obsahují větší výskyty extrémních hodnot oproti normálnímu rozložení, mají vyšší vrchol a naopak. 1.1.4 Míry korelace Korelační koeficienty vyjadřují sílu statistické závislosti mezi dvěma číselnými proměnnými [25]. Mohou nabývat hodnoty od -1 (zcela nepřímá-např. vztah mezi uplynulým a zbývajícím časem [30]) přes 0 (nezjistitelná statistická závislost - např. vztah mezi počtem veverek na Vysočině a porodností ve Fakultní nemocnici u svaté Anny) až po 1 (zcela přímá závislost-např. vztah mezi rychlostí jízdního kola a frekvencí otáčení pedálů při nezměněném převodu [30]). Nejpoužívanější koeficient korelace je zřejmě Pearsonův korelační koeficient, který je mírou lineární závislosti dvou proměnných [25]. Pokud hodnotu umocníme, získáme tím koeficient determinace, který vyjadřuje podíl společné variability mezi dvěma proměnnými. Pearsonův korelační koeficient je silně ovlivnitelný extrémními hodnotami (díky jednomu páru extrémně závislých proměnných může koeficient ukázat závislost i tam, kde ve skutečnosti žádná není). Pro kontrolu se dle [25] může použít např. Spearmanův koeficient, ve kterém se pracuje nikoli se skutečnými hodnotami, ale s jejich pořadovými čísly. 1.2 Grafy užívané ve statistice 1.2.1 Histogram Histogram je ve statistice jeden z nejvíce používaných grafů. Je to typ sloupcového grafu určený pro znázornění rozdělení intervalové proměnné. Na vodorovnou osu se obvykle znázorňují třídy (hodnoty proměnné), na svislou osu pak jejich četnosti, případně relativní četnosti.

Obr. 1: Ukázka histogramu 1.2.2 Krabicový diagram (box plot) Znázorňuje rozdělení hodnot proměnné pomocí popisných charakteristik. Na ose x jsou vyneseny hodnoty proměnné. Vertikální čára uprostřed obdélníku zobrazuje hodnotu mediánu, tedy 50. percentil. Levá hrana obdélníku zobrazuje první kvartil (25. percentil) a pravá hrana pak 3. kvartil (75. percentil). Délka obdélníku představuje mezikvartilové rozpětí, tedy středních 50 % hodnot souboru. Význam levé a pravé čárky se může lišit od typu škatulového diagramu. V nejjednodušším případě představují minimum a maximum souboru. Mohou však také představovat 5. a 95. percentil. Obr. 2: Ukázka krabicového diagramu

1.2.3 X-Y graf (scater diagram) Představuje základní typ grafu pro znázornění vztahu (korelace) mezi dvěma (číselnými) proměnnými. Bod na grafu tak představuje objekt se dvěma vlastnostmi, které jsou vyjádřeny na osách. Úplná korelace by nastala v případě, kdy by jednotlivé body tvořily osu prvního a třetího kvadrantu. Graf je nevhodný při velkém počtu pozorování se stejnými výsledky. V praxi si tento graf můžeme představit např. jako závislost váhy na výšce člověka. Obr. 3: Ukázka X-Y grafu 1.3 Druhy rozdělení pravděpodobnosti 1.3.1 Normální rozdělení (Gaussovo) Dle tvaru funkce hustoty jej můžeme pojmenovat jako zvonové rozdělení. Je to jedno z nejdůležitějších rozdělení pravděpodobnosti spojité náhodné veličiny. Je zajímavé tím, že jeho funkce nabývá nenulové hodnoty pro každé reálné číslo a pokud tuto funkci integrujeme na intervalu všech reálných čísel, zjistíme, že výsledek je roven jedné. Pomocí tohoto rozdělení můžeme s dostatečnou přesností popsat mnoho fyzikálních, psychologických i jiných fenoménů, což souvisí s tzv. centrální limitní větou. Parametry jsou μ-střední hodnota a σ 2 -rozptyl. Standardizované (normované) normální rozdělení má parametry No(0,1) [26]. 1.3.2 Binomické rozdělení [27] Toto rozdělení popisuje četnost výskytu sledovaného jevu v n nezávislých pokusech, ve kterých má tento jev stále stejnou pravděpodobnost. Pokud se pravděpodobnost výskytu sledovaného jevu alespoň přibližně rovná 0,5 a pokud je počet pokusů v řádu alespoň několika desítek, lze toto rozdělení aproximovat normálním rozdělením. 1.3.3 Poissonovo rozdělení [28] Toto rozdělení pravděpodobnosti má náhodná veličina, která vyjadřuje počet výskytů málo pravděpodobných řídkých jevů v určitém časovém (nebo objemovém) intervalu.

Z tohoto důvodu bývá také nazýváno jako rozdělení řídkých jevů [28]. Poissonovo rozdělení lze použít k aproximaci binomického rozdělení pro velký počet pokusů (vysoké n) a malou pravděpodobnost výskytu jevu v jednom pokusu (nízké p). Rozdělení má jediný parametr (λ) a vyjadřuje jak střední hodnotu, tak rozptyl. Binomické rozdělení obvykle aproximujeme Poissonovým v případě, že n>30 a p<0,1. Toto rozdělení nachází uplatnění např. v teorii hromadné obsluhy (např. kolik musí být instalováno automatů s určitou kapacitou, aby zákazník s pravděpodobností 95 % nečekal déle než dvě minuty). 1.4 Odhady parametrů základního souboru 1.4.1 Bodový odhad Snaží se o co nejpřesnější určení daného parametru ZS pomocí jediného čísla. Obvykle se používá výběrový průměr μ a výběrový rozptyl s 2. Při odhadech se používá princip ztráty stupně volnosti, přičemž použití odhadu namísto parametru způsobuje ztrátu jednoho stupně volnosti pro každý odhadnutý parametr [31]. 1.4.2 Intervalový odhad pak spočívá v nalezení intervalu, v němž s předem danou pravděpodobností odhadovaný parametr ZS leží. Tato pravděpodobnost se nazývá spolehlivost odhadu. Chyba odhadu se pochopitelně zmenšuje s rostoucí velikostí vzorku. 1.5 Druhy rozložení četnosti 1.5.1 Absolutní četnost Mějme například soubor padesáti čísel v rozsahu od jedné do sta, přičemž čísla se můžou opakovat. Čísla seřadíme například od nejmenšího po největší a každému číslu přiřadíme počet jeho výskytů v souboru. Počet výskytů jednotlivých čísel pak nazýváme absolutní četností. 1.5.2 Relativní četnost Poměr výskytů daného jevu k celkovému počtu všech možných jevů nazýváme relativní četností. Její hodnota může nabývat rozsahu od nuly do jedné (případně od nuly do sta procent). Dejme tomu, že číslo 10 se v našem souboru padesáti čísel vyskytuje právě pětkrát. Jednoduchým podělením pak zjistíme, že číslo 10 má relativní četnost 0,1 (10 %). 1.5.3 Kumulativní četnost (absolutní i relativní) [29] Získáme ji postupným přičítáním absolutních nebo relativních četností jednotlivých variant znaku. Kumulativní četnosti nás velmi přehledně navádí k tomu, jaký počet (procento) prvků má stejnou nebo menší hodnotu, než je hodnota znaku odpovídající dané kumulativní četnosti [29]. Na příkladu si kumulativní četnost můžeme znázornit například takto: Na základě ankety zjistíme, že 10 % lidí se sprchuje nejvýše jednou týdně, 20 % lidí

nejvýše dvakrát týdně, 50 % lidí nejvýše čtyřikrát týdně a 20 % lidí více než čtyřikrát týdně. Z tohoto rozložení tedy můžeme usoudit, že 80 % lidí se nesprchuje více než čtyřikrát týdně. Získané informace můžeme přehledně zobrazit například v koláčovém grafu. 1.6 Výběrová chyba [15] Pokud máme rozhodovat o vlastnostech populace na základě vzorku, získaného náhodným výběrem, musíme mít vždy na paměti, že můžeme získat výsledky, které budou chybné. Chybu si můžeme ilustrovat na následujícím příkladu: Zajímáme se o základní soubor, jenž je tvořen studenty, kteří v roce 1999 promovali na magisterském studijním programu FEKT. Připusťme, že fakticky existuje 400 bývalých studentů, z nichž právě deset vlastní majetek v řádu desítek miliónů korun. Mějme na paměti, že číslo 10 je dané, ale my ho neznáme. Máme v zásadě dva způsoby, jak se k číslu 10 dopracovat. Prvním je zjistit místo pobytu všech 400 absolventů a každého se poněkud impertinentně zeptat na výši jeho majetku. Nutno podotknout, že tento typ zjišťování je přesný, má však své nevýhody v podobě vynaložení nesmírného úsilí a peněžních prostředků. Druhým způsobem je sepsat na papír 400 jmen absolventů, dvakrát do něj se zavázanýma očima zapíchnout tužku a dvě takto vybrané osoby podrobit detailnějšímu výzkumu. Nyní mohou nastat různé situace: Předpokládejme, že oba takto vybraní jedinci patří do skupiny 390 lidí, kteří milionáři nejsou. Na základě našeho výběru pak můžeme mylně usoudit, že žádný z absolventů není milionář. Dále může nastat situace, kdy bude celý náš výběr spadat do kategorie deseti milionářů a my chybně usoudíme, že FEKT v daném roce produkoval jen milionáře. Třetí možností je, že jedna osoba bude ze skupiny milionářů a druhá nikoli. Na základě tohoto výsledku můžeme (opět chybně) pronést, že je počet milionářů i nemilionářů stejný. Pointou příkladu je to, že můžeme chybně rozhodnout vždy, pokud náš výběr neobsahuje všechny členy základního souboru, právě na základě výběrové chyby. Je nasnadě, že při takovémto šetření by bylo nanejvýš riskantní zvolit výběr jen ze dvou osob, ale příklad slouží pouze pro ilustraci.