Jevy a náhodná veličina

Podobné dokumenty
Zpracování náhodného výběru. Ing. Michal Dorda, Ph.D.

veličin, deskriptivní statistika Ing. Michael Rost, Ph.D.

Matematika III. 27. listopadu Vysoká škola báňská - Technická univerzita Ostrava. Matematika III

Základy popisné statistiky

Náhodná veličina a rozdělení pravděpodobnosti

STATISTICKÉ CHARAKTERISTIKY

Výrobní produkce divizí Ice Cream Po lo ha plane t Rozložený výse ový 3D graf Bublinový graf Histogram t s tn e ídy

Praktická statistika. Petr Ponížil Eva Kutálková

Jiří Neubauer. Katedra ekonometrie, FVL, UO Brno kancelář 69a, tel

Statistika pro geografy

Základy popisné statistiky. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek

Pravděpodobnost a statistika, Biostatistika pro kombinované studium. Jan Kracík

Číselné charakteristiky

Náhodné chyby přímých měření

I. D i s k r é t n í r o z d ě l e n í

p(x) = P (X = x), x R,

Náhodné (statistické) chyby přímých měření

Analýza dat na PC I.

Pravděpodobnost a aplikovaná statistika

ZÁKLADNÍ STATISTICKÉ CHARAKTERISTIKY

Chyby měření 210DPSM

Zápočtová práce STATISTIKA I

10. cvičení z PST. 5. prosince T = (n 1) S2 X. (n 1) s2 x σ 2 q χ 2 (n 1) (1 α 2 ). q χ 2 (n 1) 2. 2 x. (n 1) s. x = 1 6. x i = 457.

PRAVDĚPODOBNOST A STATISTIKA

Někdy lze výsledek pokusu popsat jediným číslem, které označíme X (nebo jiným velkým písmenem). Hodíme dvěma kostkami jaký padl součet?

JAK MODELOVAT VÝSLEDKY NÁH. POKUSŮ? Martina Litschmannová

MATEMATICKÁ STATISTIKA. Katedra matematiky a didaktiky matematiky Technická univerzita v Liberci

Charakteristika datového souboru

Základy teorie pravděpodobnosti

NÁHODNÁ VELIČINA. 3. cvičení

7. Rozdělení pravděpodobnosti ve statistice

Základní statistické charakteristiky

Náhodná proměnná. Náhodná proměnná může mít rozdělení diskrétní (x 1. , x 2. ; x 2. spojité (<x 1

Obsah. Statistika Zpracování informací ze statistického šetření Charakteristiky úrovně, variability a koncentrace kvantitativního znaku

MATEMATICKÁ STATISTIKA - XP01MST

Statistika, Biostatistika pro kombinované studium Letní semestr 2011/2012. Tutoriál č. 4: Exploratorní analýza. Jan Kracík

Popisná statistika. Statistika pro sociology

Statistika. cílem je zjednodušit nějaká data tak, abychom se v nich lépe vyznali důsledkem je ztráta informací!

Číselné charakteristiky a jejich výpočet

STATISTICKÉ ODHADY Odhady populačních charakteristik

Statistika. Diskrétní data. Spojitá data. Charakteristiky polohy. Charakteristiky variability

Mnohorozměrná statistická data

Diskrétní náhodná veličina. November 12, 2008

Téma 22. Ondřej Nývlt

Me neˇ nezˇ minimum ze statistiky Michaela S ˇ edova KPMS MFF UK Principy medicı ny zalozˇene na du kazech a za klady veˇdecke prˇı pravy 1 / 33

Náhodná veličina Číselné charakteristiky diskrétních náhodných veličin Spojitá náhodná veličina. Pravděpodobnost

Popisná statistika. Jaroslav MAREK. Univerzita Palackého

KGG/STG Statistika pro geografy

Popisná statistika. úvod rozdělení hodnot míry centrální tendence míry variability míry šikmosti a špičatosti grafy

Všechno, co jste chtěli vědět z teorie pravděpodobnosti, z teorie informace a

JAK MODELOVAT VÝSLEDKY

Pojem a úkoly statistiky

Statistika I (KMI/PSTAT)

Matematika III. 29. října Vysoká škola báňská - Technická univerzita Ostrava. Matematika III

Metodologie pro ISK II

Úvod do kurzu. Moodle kurz. (a) (b) heslo pro hosty: statistika (c) skripta na pravděpodobnost

Náhodná veličina a její charakteristiky. Před provedením pokusu jeho výsledek a tedy ani sledovanou hodnotu neznáte. Proto je proměnná, která

a způsoby jejího popisu Ing. Michael Rost, Ph.D.

Mnohorozměrná statistická data

TECHNICKÁ UNIVERZITA V LIBERCI

8 Střední hodnota a rozptyl

mezi studenty. Dále bychom rádi posoudili, zda dobrý výsledek v prvním testu bývá doprovázen dobrým výsledkem i v druhém testu.

Charakterizace rozdělení

Popisná statistika kvantitativní veličiny

P13: Statistické postupy vyhodnocování únavových zkoušek, aplikace normálního, Weibullova rozdělení, apod.

Rovnoměrné rozdělení

UKAZATELÉ VARIABILITY

Cvičení ze statistiky. Filip Děchtěrenko ZS 2012/2013

Matematika III. 4. října Vysoká škola báňská - Technická univerzita Ostrava. Matematika III

Informační technologie a statistika 1

Pravděpodobnost a statistika

2. Základní typy dat Spojitá a kategoriální data Základní popisné statistiky Frekvenční tabulky Grafický popis dat

Pravděpodobnostní rozdělení

Určete zákon rozložení náhodné veličiny, která značí součet ok při hodu a) jednou kostkou, b) dvěma kostkami, c) třemi kostkami.

ANALÝZA DAT V R 3. POPISNÉ STATISTIKY, NÁHODNÁ VELIČINA. Mgr. Markéta Pavlíková Katedra pravděpodobnosti a matematické statistiky MFF UK


TECHNICKÁ UNIVERZITA V LIBERCI. Ekonomická fakulta. Semestrální práce. Statistický rozbor dat z dotazníkového šetření školní zadání

Statistické metody. Martin Schindler KAP, tel , budova G. naposledy upraveno: 9.

X = x, y = h(x) Y = y. hodnotám x a jedné hodnotě y. Dostaneme tabulku hodnot pravděpodobnostní

Základy pravděpodobnosti a statistiky. Popisná statistika

PRAVDĚPODOBNOST A STATISTIKA

Téma 2: Pravděpodobnostní vyjádření náhodných veličin

Inovace bakalářského studijního oboru Aplikovaná chemie

Deskriptivní statistické metody II. Míry polohy Míry variability

ANALÝZA DAT V R 2. POPISNÉ STATISTIKY. Mgr. Markéta Pavlíková Katedra pravděpodobnosti a matematické statistiky MFF UK.

Téma 2: Pravděpodobnostní vyjádření náhodných veličin

Rozdělení náhodné veličiny. Distribuční funkce. Vlastnosti distribuční funkce

Statistika s Excelem aneb Máme data. A co dál? Martina Litschmannová Katedra aplikované matematiky, FEI, VŠB-TU Ostrava

Popisná statistika. úvod rozdělení hodnot míry centrální tendence míry variability míry šikmosti a špičatosti grafy

23. Matematická statistika

Náhodný vektor a jeho charakteristiky

Co je to statistika? Úvod statistické myšlení. Základy statistického hodnocení výsledků zkoušek. Petr Misák

Mgr. Karla Hrbáčková, Ph.D. Základy kvantitativního výzkumu

Metodologie pro Informační studia a knihovnictví 2

POPISNÁ STATISTIKA Komentované řešení pomocí programu Statistica

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Aplikovaná statistika v R

Transkript:

Jevy a náhodná veličina Výsledky některých jevů jsou vyjádřeny číselně -na hrací kostce padne číslo 1, 4, 6.., jiným jevům můžeme čísla přiřadit (stupeň školního vzdělání: ZŠ, SŠ, VŠ) Data jsme rozdělili na dvě základní skupiny diskrétní data a spojitá data. Přiřadit číslo můžeme každému pokusu nebo měření dat bez ohledu na to, do které skupiny patří. Čísla přiřazená elementárním jevům tvoří obor hodnot M Proměnnou, které jsme čísla přiřadili, nazýváme náhodná veličina a značíme např. X, Y, Z,

Náhodná veličina Data jsou výsledkem měření nebo zkoumání náhodné veličiny. Obor hodnot M pro veličinu: diskrétní - je konečná nebo nekonečná posloupnost spojitou -je otevřený nebo uzavřený interval Diskrétní náhodné veličině přiřazujeme pravděpodobnostní funkci P(X= x) = p(x) a čteme: pravděpodobnost, že funkce X = x je p(x). Vlastnosti pravděpodobnostní funkce: a) p(x i ) 0 plyne z definice pravděpodobnostní funkce n b) p( x i ) = 1 nám říká, že sečteme-li všechny možné i= 1 výsledky pokusu, dostáváme jev jistý s pravděpodobností 1.

Pravděpodobnostní funkce diskrétní NV Pokud na osu yvyneseme relativní četnosti, tj. pravděpodobnost, dostaneme pravděpodobnostní funkci Pro diskrétní veličinu jsou to jednotlivé nespojité oddělené body x i P(X=x i ) F(x) 0 0,15 0 1 0,35 0,15 2 0,25 0,5 3 0,15 0,75 4 0,1 0,9 > 4 1

Distribuční funkce diskrétní náhodné veličiny Pokud na osu yvyneseme relativní kumulativní četnosti, tj. kumulativní pravděpodobnost, dostaneme neklesající distribuční funkci, kterou značíme F(x). Pro diskrétní veličinu je to schodovitá nespojitá funkce x i P(X=x i ) F(x) 0 0,15 0 1 0,35 0,15 2 0,25 0,5 3 0,15 0,75 4 0,1 0,9 > 4 1

Distribuční funkce diskrétní náhodné veličiny Jedná se o pravděpodobnost, se kterou Xnabude hodnoty menší než jistá mez Reálná funkce, která přiřazuje každé hodnotě x i náhodné veličiny Xpravděpodobnost, že Xnabude hodnoty menší než toto x i, se nazývá distribuční funkcef(x). Je definována vztahem F(x) = P(X< x) = Vlastnosti distribuční funkce F(x) diskrétní NV: -- je schodovitá křivka zleva spojitá v bodech x=x i, i=1,2,..., -- je nezáporná -- je neklesající -- nejvýše = 1 x < x 0 F( x) 1 i P ( X = x ) i

Spojitá náhodná veličina Také u spojité náhodné veličiny se užívá k jejímu popisu distribuční funkce F(x), která je definovaná stejně jako u diskrétní náhodné veličiny vztahem: F(x i ) = P(X< x i ) Vlastnosti F(x) pro spojitou NV: 0 F(x) 1 P(x 1 X< x 2 ) = F(x 2 ) -F(x 1 ) pro x 1 < x 2 F(x) je neklesající funkce F(- )=0, F( )=1 F(x) je spojitá funkce ve všech svých bodech

Analogie distribuční funkce diskrétní a spojité NV 1. Diskrétní náhodná veličina nabývá konečně nebo nejvýše spočetně mnoha hodnot, distribuční funkce je schodovitá křivka s body skoku v hodnotách x i F( x) = x i < x P( x i ) 2. Spojitá náhodná veličina nabývá nekonečně mnoha hodnot, distribuční funkce má tvar esovité křivky x F ( x) = f ( t) dt

Hustota pravděpodobnosti spojité NV Pro spojitou náhodnou veličinu zavádíme místo pravděpodobnostní funkce hustotu pravděpodobnosti: Hustota pravděpodobnosti náhodné veličiny Xdefinované na intervalu je nezáporná reálná funkce definovaná vztahem: f ( x) = lim0 h P( x X < h x + h) kde pro x a,b je f(x) = 0; x, x+h a, b

Rozložení (rozdělení) náhodné veličiny Pro diskrétní veličinu nazýváme rozložení v dvourozměrném prostorupravděpodobnostní funkcí pro spojitou veličinu - hustotou pravděpodobnosti Na osu x (nezávisle proměnná) vynášíme naměřené hodnoty, na osu y (závisle proměnná) počty naměřených hodnot.

Hustota pravděpodobnosti spojité NV Spojitou NV měříme s omezenou přesností (přesnost omezená měřicími přístroji nebo našimi schopnostmi) a zobrazujeme ji také histogramem četností nebo sloupcovým grafem Červená křivka proložená histogramem je hustota pravděpodobnosti někdy se jí říká také frekvenční funkce Hmotnost narozených dětí 1500 2000 2500 3000 3500 4000 4500 5000

Graf hustoty pravděpodobnosti Odpovídající graf distribuční funkce

Distribuční funkce spojité náhodné veličiny Distribuční funkce je nezáporná neklesající nejvýše = 1 x F ( x) = f ( t) dt 0 F( x) 1 Grafy distribuční funkce Normálního rozdělení Exponenciálního rozdělení

Popis spojitých dat Zobrazení spojitých dat histogramem nebo empirickou distribuční funkcí zahrnuje velké množství čísel. Někdy potřebujeme popis dat zjednodušit i za cenu ztráty určité informace. K tomuto účelu slouží ČÍSELNÉ CHARAKTERISTIKY Číselné charakteristiky počítáme nebo odhadujeme pro: celou populaci výběrový soubor Číselné charakteristiky dělíme na: míry polohy míry variability (měřítka)

Míry polohy Měly by být typickou hodnotou statistického znaku sledovaného statistického souboru (schopnost jedné hodnoty reprezentovat celý soubor) Jsou jednoznačně definované a relativně jednoduše zjistitelné Slouží k porovnání různých statistických souborů nebo vývoje statistického souboru v čase Měly by co nejméně podléhat nahodilostem výběru a odlehlým hodnotám měření - požadavek robustnosti.

ARITMETICKÝ PRŮMĚR základního souboru výběrového souboru n n 1 1 µ = x i x = n i= 1 n i= 1 n ( ) 2 x a Průměr má tu vlastnost, že je minimální právě proa= Můžeme si ho představit jako takový bod číselné osy, od nějž součet druhých mocnin vzdáleností všech hodnot x i je minimální. Průměr je těžiště dat a nejpoužívanější míra polohy je jedním z přirozených parametrů normálního rozdělení lze snadno vypočíst i= 1 Pro jiné typy rozdělení však už nemusí být vždy vhodný i x i x

GEOMETRICKÝ PRŮMĚR Pokud rozložení nesplňuje podmínku normality dat, nemusí být odhad střední hodnoty pomocí 1 aritmetického průměru vhodný. x = n Např. pokud sledujeme koncentraci látky, časové řady nebo i např. hmotnost postavy*, mluvíme o logaritmicko-normálním rozložení (viz přednáška o rozložení veličin) a pro výpočet střední hodnoty použijeme GEOMETRICKÝ PRŮMĚR: = x x... Je to nerobustní charakteristika ovlivněná odlehlými hodnotami Pokud počítáme střední hodnotu hmotnosti pomocí geometrického průměru, znamená to, že nás nezajímá o kolik se liší hmotnost, ale kolikrát se liší. x n i= 1 n G 1 2 x n x i

HARMONICKÝ PRŮMĚR Příklad: Jedeme autem 30 km, z toho 10 km rychlostí 60 km/h, další úsek 10 km rychlostí 80 km/h a posledních 10 km rychlostí 100 km/h. Kdybychom zkusili vypočítat průměrnou rychlost pomocí aritmetického průměru rychlostí, dojdeme k nesprávnému výsledku: 60 + 80 + 100 = 240 240 / 3 = 80 km/h Pokud správně použijeme harmonický průměr podle vzorce dojdeme ke správnému výsledku: 3 3 x H = = 1 1 1 20 + 15 + 12 + + 60 80 100 1200 3600 47 = 76,6 Pokud bychom si totéž vyjádřili podle klasického vzorce pro výpočet rychlosti, dostaneme totéž: s s1 + s2 + s3 30 3 v = = = = t t 10 10 10 1 1 1 1 + t2 + t3 + + + + 60 80 100 60 80 100 = x H = n i= 1 n 1 x i

MEDIÁN je prostřední měřená hodnota získáme ho tak, že data seřadíme podle velikosti a každou hodnotu v řadě označíme jako x i, kde i je pořadí seřazených dat. pro lichý počet hodnot je medián prostřední hodnota pro sudý počet je to součet obou prostředních hodnot dělený dvěma MEDIÁN nemusí být nejlepším odhadem pro normální rozdělení, ale je velmi stabilní -neovlivní jej odlehlé hodnoty. Protože je prostřední hodnota, všechny ostatní hodnoty na něj mají stejný vliv bez ohledu na to, jak jsou od něj vzdáleny.

MEDIÁN MEDIÁN používáme nejčastěji v situaci kdy nelze předpokládat normalitu rozdělení zkoumané náhodné veličiny a / nebo pokud předpokládáme odlehlé hodnoty, např. díky selhání měření ve statistikách, které by byly zkresleny odlehlými hodnotami např. když nevíme, zda se jedná o chybu měření nebo odlehlou hodnotu

Medián jako míra polohy pro spojité i diskrétní veličiny se používá: v topologických řadách (stupnicích): zjištění průměrného žáka místo aritmetického průměru součtu známek je ve třídě s 31 žáky nad mediánem 15 lepších žáků a pod mediánem 15 horších žáků v otevřených stupnicích chybí omezení shora: při zjišťování příjmu nejsou vyloučeny odpovědi typu: -vydělávám přes 100 000 Kč aritmetický průměr by nebylo možno vypočítat stejně tak ve stupnicích, kde chybí omezení zdola: - relativní počet onemocnění na 100.000 obyvatel je > 0

Medián jako míra polohy pro spojité i diskrétní veličiny Stejně jako všechny míry polohy má i medián své nevýhody: prostřední akcionář může být ten, který vlastní 1 akcii mediánem nemůžeme stanovit průměrný počet dětí v rodině obecně: nesmíme ho použít v případě malých výběrových souborů, kdy je dílem náhody, která hodnota se stane mediánem Medián je tedy taková hodnota, kdy 50% hodnot leží pod ním a 50% hodnot nad ním. Podobným způsobem můžeme definovat další statistické charakteristiky zvané kvantily, z nichž nejpoužívanější jsou dolní a horní kvartil, decily a percentily.

Dolní a horní kvartil, kvantily, decily Jsou další charakteristiky založené na relativní četnosti hodnot v datech, které jsou menší nebo rovny této charakteristice. Označme tuto relativní četnost p, kde 0 p 1, a příslušnou charakteristiku x(p). Pro medián bylo provno jedné polovině, tedy 0,5 a místo bychom mohli psát x(0,5). Hodnotě x(p) se říká p-kvantil Často užívané kvantily jsou: x(0,5) -medián x~ x(0,25) - dolní kvartil, x(0,75) - horní kvartil x(0,1) -dolní decil, x(0,9) -horní decil Dolní kvartil určíme jako medián dolní poloviny dat, horní kvartil jako medián horní poloviny dat. x~

Medián, dolní a horní kvartil Příklad: Lékařské studie nozokomiálních infekcí na odděleních JIP a ARO se zúčastnilo 100 zdravotnických zařízení (dále jen ZZ). Celkem v nich bylo sledováno 1615 pacientů. U 369 z nich byla diagnostikována nozokomiální infekce, což odpovídá průměrné prevalenci* 22,8 %. V následující tabulce jsou seřazeny vzestupně prevalence v jednotlivých ZZ. Zajímá nás medián a dolní a horní kvantil. Podívejte se, zda je můžeme z tabulky zjistit. * Prevalence je podíl počtu jedinců trpících danou nemocí a počtu všech jedinců ve sledované populaci. Je vztažena k určitému časovému okamžiku (momentu) a obvykle se vyjadřuje v procentech

Kvantily a medián - příklad PREVALENCE Frekv Procento Kum. -----------+----------------------- 0.0 21 21.0% 21.0% 5.9 1 1.0% 22.0% 7.1 1 1.0% 23.0% 9.5 1 1.0% 24.0% 11.1 1 1.0% 25.0% 12.5 1 1.0% 26.0% 14.3 3 3.0% 29.0% 15.3 1 1.0% 30.0% 15.4 2 2.0% 32.0% 15.8 1 1.0% 33.0% 16.4 1 1.0% 34.0% 16.5 1 1.0% 35.0% 16.7 2 2.0% 37.0% 18.2 1 1.0% 38.0% 18.4 1 1.0% 39.0% 18.8 1 1.0% 40.0% 20.0 3 3.0% 43.0% 20.4 2 2.0% 45.0% 20.7 1 1.0% 46.0% 22.0 1 1.0% 47.0% 23.5 1 1.0% 48.0% 25.0 10 10.0% 58.0% 25.3 1 1.0% 59.0% PREVALENCE Frekv Procento Kum. -----------+----------------------- 25.8 1 1.0% 60.0% 26.1 1 1.0% 61.0% 28.1 1 1.0% 62.0% 28.6 1 1.0% 63.0% 29.0 1 1.0% 64.0% 29.4 1 1.0% 65.0% 30.4 1 1.0% 66.0% 30.6 1 1.0% 67.0% 30.8 1 1.0% 68.0% 31.3 1 1.0% 69.0% 33.3 6 6.0% 75.0% 35.7 1 1.0% 76.0% 40.0 5 5.0% 81.0% 42.1 1 1.0% 82.0% 45.5 2 2.0% 84.0% 50.0 5 5.0% 89.0% 55.6 1 1.0% 90.0% 58.3 1 1.0% 91.0% 60.0 2 2.0% 93.0% 66.7 3 3.0% 96.0% 75.0 2 2.0% 98.0% 100.0 2 2.0% 100.0% -----------+----------------------- Celkem 100 100.0%

POPISNÁ STATISTIKA

POPISNÁ STATISTIKA

Modus je nejpravděpodobnější hodnota jako výběrový odhad MODU je používána nejčastěji pozorovaná hodnota. pro veličiny měřené s velkou přesností je tento odhad nepoužitelný, protože velká většina hodnot je naměřená pouze jednou Pokud máme větší počet pozorování, je podobně stabilní jako medián a mnohem stabilnější než průměr. U vícevrcholových rozdělení používáme popis i podle několika módů, jindy je zjištění dvou nebo více modů znakem, že data jsou nehomogenní a do šetření jsou zahrnuti jedinci dvou nebo více skupin.

Najděte modus a rozhodněte, zda reprezentuje střední hodnotu PREVALENCE Frekv Procento Kum. -----------+----------------------- 0.0 21 21.0% 21.0% 5.9 1 1.0% 22.0% 7.1 1 1.0% 23.0% 9.5 1 1.0% 24.0% 11.1 1 1.0% 25.0% 12.5 1 1.0% 26.0% 14.3 3 3.0% 29.0% 15.3 1 1.0% 30.0% 15.4 2 2.0% 32.0% 15.8 1 1.0% 33.0% 16.4 1 1.0% 34.0% 16.5 1 1.0% 35.0% 16.7 2 2.0% 37.0% 18.2 1 1.0% 38.0% 18.4 1 1.0% 39.0% 18.8 1 1.0% 40.0% 20.0 3 3.0% 43.0% 20.4 2 2.0% 45.0% 20.7 1 1.0% 46.0% 22.0 1 1.0% 47.0% 23.5 1 1.0% 48.0% 25.0 10 10.0% 58.0% 25.3 1 1.0% 59.0% PREVALENCE Frekv Procento Kum. -----------+----------------------- 25.8 1 1.0% 60.0% 26.1 1 1.0% 61.0% 28.1 1 1.0% 62.0% 28.6 1 1.0% 63.0% 29.0 1 1.0% 64.0% 29.4 1 1.0% 65.0% 30.4 1 1.0% 66.0% 30.6 1 1.0% 67.0% 30.8 1 1.0% 68.0% 31.3 1 1.0% 69.0% 33.3 6 6.0% 75.0% 35.7 1 1.0% 76.0% 40.0 5 5.0% 81.0% 42.1 1 1.0% 82.0% 45.5 2 2.0% 84.0% 50.0 5 5.0% 89.0% 55.6 1 1.0% 90.0% 58.3 1 1.0% 91.0% 60.0 2 2.0% 93.0% 66.7 3 3.0% 96.0% 75.0 2 2.0% 98.0% 100.0 2 2.0% 100.0% -----------+----------------------- Celkem 100 100.0%

Další míry polohy a míry variability Minimum je nejmenší pozorovaná hodnota Maximum je největší pozorovaná hodnota Rozpětí Rozpětí je rozdíl max - min je první orientační míra variability. Zajímá nás totiž nejen střední nebo nejčetnější hodnota, ale také zjištění jak jsou ostatní hodnoty od té prostřední vzdáleny do jaké míry jsou na číselné ose rozházeny (rozptýleny) Tyto odlišnosti můžeme vyjádřit číselně pomocí charakteristik měřítka (variability, rozptýlenosti, rozházenosti ) naměřených hodnot

Míry variability - míry měřítka Vypovídají o variabilitě (proměnlivosti) hodnot sledovaného statistického znaku z daného statistického souboru Slouží k porovnání variability různých statistických souborů nebo vývoje statistického souboru v čase Měly by být robustní -nepodléhat nahodilostem výběru, příp. odlehlým hodnotám. Některé vycházejí v jiných jednotkách než je posuzovaný statistický znak (rozptyl) nebo jsou relativní mírou variability (variační koeficient).

Míry variability - ROZPTYL Střední hodnota náhodné veličiny je číslo, kolem kterého hodnoty NV kolísají. Neposkytuje však informaci, jak je toto kolísání velké. Velikost (míru) kolísání zjišťujeme pomocí druhé skupiny charakteristik, které nazýváme MÍRY VARIABILITY. Nejčastěji používanou mírou variability je ROZPTYL neboli VARIANCE (někdy DISPERZE - odtud značení D(X)). Je definován jako střední hodnota čtverce odchylky náhodné veličiny X od její střední hodnoty E(X): D(X) = E[X-E(X)] 2

Míry variability - ROZPTYL Variabilitu nemůžeme charakterizovat součtem odchylek od průměru, neboť je vždy roven nule. Abychom obešli problém, že kladné a záporné odchylky od průměru se v součtu vyruší, používají se charakteristiky variabilityzaložené na součtu druhých mocnin (tzv. čtverců) odchylek od průměru. Základní vzorec pro ROZPTYL základního souboru n σ 1 2 = n i= 1 2 ( µ ) x i Výběrovým protějškem je výběrový rozptyl s 2 = 1 n n 1 i= 1 ( ) 2 x i x

VÝBĚROVÝ ROZPTYL Matematicky je to průměr čtverců vzdáleností naměřených od aritmetického průměru. s 2 = 1 n n 1 i= 1 ( ) 2 x i x Značíme také var(x), kde symbol X označuje sledovanou veličinu V definici výběrového rozptylu je součet čtverců dělen (n-1) místo n. Je to proto, že ve vzorci pro výpočet výběrového rozptylu používáme odhad průměru. Odhadujeme jeden parametr, proto odečítáme jedničku od počtu měření, aby vypočtený rozptyl byl tzv. nestranný.

Směrodatná odchylka a střední chyba průměru SMĚRODATNÁ ODCHYLKA ve výběrovém souboru značíme s v základním souboru značíme σ nazývá se také standardní odchylka anglicky Standard Deviation S.D. s x = počítá se jako druhá odmocnina rozptylu var(x ) na rozdíl od rozptylu je ve stejných jednotkách jako sledovaná veličina STŘEDNÍ CHYBA PRŮMĚRU anglicky Standard Error S.E. nebo Standard Error of Mean S.E.M s var( X ) n x = = není populační charakteristikou, ale charakteristikou výběru je to odhad charakteristiky měřítka výběrového průměru s x n

Rozpětí (rozsah) Rozpětí (variační rozpětí) R R = x max x min je vzdálenost nejmenší a největší pozorované hodnoty čím více pozorování máme k dispozici, tím větší může být maximální, případně menší minimální hodnota rozpětí má ovšem tu nevýhodu, že může být ovlivněno jednou extrémně odlišnou hodnotou. Mezikvartilové rozpětí IQR IQR = ~ x ~ x 0,75 0,25 vhodné zvlášť pro jiné než normální rozložení veličiny eliminuje odlehlá pozorování je definována jako rozdíl třetího a prvního kvartilu na rozdíl od ROZPĚTÍ se neprojevuje efekt maxima a minima na vychýlení by soubor musel obsahovat více než 25% hodnot

Variační koeficient Variační koeficientje relativní vyjádření míry variability počítá se jako podíl směrodatné odchylky a průměru Používá se na porovnávání variability mezi soubory dat s odlišnými průměry. Je to bezrozměrná charakteristika, můžeme ji udávat i v procentech. Variační koeficient je relativní míra variability, což umožňuje porovnání variability statistických znaků s odlišnými jednotkami s odlišnými mírami polohy Interpretace: Variační koeficient udává z kolika procent se podílí směrodatná odchylka na aritmetickém průměru V = s x x V = S. D. x