Parametr populace (populační charakteristika) je číselná charakteristika sledované vlastnosti



Podobné dokumenty
Deskriptivní statistika 1

6 Intervalové odhady. spočteme aritmetický průměr, pak tyto průměry se budou chovat jako by pocházely z normálního. nekonečna.

Pravděpodobnost a aplikovaná statistika

odhady parametrů. Jednostranné a oboustranné odhady. Intervalový odhad střední hodnoty, rozptylu, relativní četnosti.

P2: Statistické zpracování dat

Pro statistické šetření si zvolte si statistický soubor např. všichni žáci třídy (několika tříd, školy apod.).

STATISTIKA. Statistika se těší pochybnému vyznamenání tím, že je nejvíce nepochopeným vědním oborem. H. Levinson

12. N á h o d n ý v ý b ě r

1 POPISNÁ STATISTIKA V PROGRAMU MS EXCEL

Základy statistiky. Zpracování pokusných dat Praktické příklady. Kristina Somerlíková

Statistika. Statistické funkce v tabulkových kalkulátorech MSO Excel a OO.o Calc

13 Popisná statistika

Popisná statistika - zavedení pojmů. 1 Jednorozměrný statistický soubor s kvantitativním znakem

vají statistické metody v biomedicíně

vají statistické metody v biomedicíně Literatura Statistika v biomedicínsk nském výzkumu a ve zdravotnictví

Elementární zpracování statistického souboru

Statistika je vědní obor zabývající se zkoumáním jevů, které mají hromadný charakter.

Odhady parametrů 1. Odhady parametrů

6. P o p i s n á s t a t i s t i k a

Popisná statistika. Zdeněk Janák 9. prosince 2007

Přednáška VI. Intervalové odhady. Motivace Směrodatná odchylka a směrodatná chyba Centrální limitní věta Intervaly spolehlivosti

Odhady parametrů polohy a rozptýlení pro často se vyskytující rozdělení dat v laboratoři se vyčíslují podle následujících vztahů:

Statistika pro metrologii

Mezní stavy konstrukcí a jejich porušov. Hru IV. Milan RůžR. zbynek.hruby.

8. Základy statistiky. 8.1 Statistický soubor

Náhodný výběr 1. Náhodný výběr

veličiny má stejný řád jako je řád poslední číslice nejistoty. Nejistotu píšeme obvykle jenom jednou

Náhodu bychom mohli definovat jako součet velkého počtu drobných nepoznaných vlivů.

Při sledování a studiu vlastností náhodných výsledků poznáme charakter. podmínek různé výsledky. Ty odpovídají hodnotám jednotlivých realizací

ZÁKLADNÍ STATISTICKÉ VÝPOČTY (S VYUŽITÍM EXCELU)

Závislost slovních znaků

(Teorie statistiky a aplikace v programovacím jazyce Visual Basic for Applications)

1. Měření ve fyzice, soustava jednotek SI

Intervalové odhady parametrů některých rozdělení.

České vysoké učení technické v Praze. Fakulta dopravní. Semestrální práce. Statistika

Úloha III.S... limitní

2. Náhodná veličina. je konečná nebo spočetná množina;

Číselné charakteristiky náhodných veličin

14. B o d o v é o d h a d y p a r a m e t r ů

Tento projekt je spolufinancován Evropským sociálním fondem a Státním rozpočtem ČR InoBio CZ.1.07/2.2.00/

8. Analýza rozptylu.

7. P o p i s n á s t a t i s t i k a

Pravděpodobnost a aplikovaná statistika

STATISTIKA PRO EKONOMY

11. P o p i s n á s t a t i s t i k a

2 STEJNORODOST BETONU KONSTRUKCE

Co je to statistika? Statistické hodnocení výsledků zkoušek. Úvod statistické myšlení. Úvod statistické myšlení. Popisná statistika

Analýza a zpracování signálů. 3. Číselné řady, jejich vlastnosti a základní operace, náhodné signály

Úloha II.S... odhadnutelná

4. B o d o v é o d h a d y p a r a m e t r ů

Ilustrativní příklad ke zkoušce z B_PS_A léto 2014.

i 1 n 1 výběrový rozptyl, pro libovolné, ale pevně dané x Roznačme n 1 Téma 6.: Základní pojmy matematické statistiky

Cvičení 6.: Bodové a intervalové odhady střední hodnoty, rozptylu a koeficientu korelace, test hypotézy o střední hodnotě při známém rozptylu

Pevnost a životnost - Hru III 1. PEVNOST a ŽIVOTNOST. Hru III. Milan Růžička, Josef Jurenka, Zbyněk Hrubý.

PRAVDĚPODOBNOST A STATISTIKA

Cvičení 6.: Výpočet střední hodnoty a rozptylu, bodové a intervalové odhady střední hodnoty a rozptylu

Přednáška VIII. Testování hypotéz o kvantitativních proměnných

Iterační výpočty projekt č. 2

z možností, jak tuto veličinu charakterizovat, je určit součet

Pravděpodobnostní modely

STUDIUM MAXWELLOVA ZÁKONA ROZDĚLENÍ RYCHLSOTÍ MOLEKUL POMOCÍ DERIVE 6

Výukový modul III.2 Inovace a zkvalitnění výuky prostřednictvím ICT

základním prvkem teorie křivek v počítačové grafice křivky polynomiální n

1. Rozdělení četností a grafické znázornění Předpokládejme, že při statistickém šetření nás zajímá jediný statistický znak x, který nabývá

Komplexní čísla. Definice komplexních čísel

V. Normální rozdělení

Zhodnocení přesnosti měření

6. Posloupnosti a jejich limity, řady

Základní požadavky a pravidla měření

VYSOCE PŘESNÉ METODY OBRÁBĚNÍ

1. Číselné obory, dělitelnost, výrazy

Intervalový odhad. nazveme levostranným intervalem pro odhad parametru Θ. Statistiku. , kde číslo α je blízké nule, nazveme horním

OVMT Přesnost měření a teorie chyb

4.2 Elementární statistické zpracování Rozdělení četností

1 ROVNOMĚRNOST BETONU KONSTRUKCE

4. Základní statistické pojmy.

jako konstanta nula. Obsahem centrálních limitních vět je tvrzení, že distribuční funkce i=1 X i konvergují za určitých

2.4. INVERZNÍ MATICE

f x a x DSM2 Cv 9 Vytvořující funkce Vytvořující funkcí nekonečné posloupnosti a0, a1,, a n , reálných čísel míníme formální nekonečnou řadu ( )

Matematická analýza I

IAJCE Přednáška č. 12

Metody zkoumání závislosti numerických proměnných

1 PSE Definice základních pojmů. (ω je elementární jev: A ω (A ω) nebo (A );

10.3 GEOMERTICKÝ PRŮMĚR

Dynamická pevnost a životnost Statistika

Ilustrativní příklad ke zkoušce z B_PS_A léto 2013.

Přednášky část 7 Statistické metody vyhodnocování dat

Pravděpodobnostní model doby setrvání ministra školství ve funkci

je konvergentní, právě když existuje číslo a R tak, že pro všechna přirozená <. Číslu a říkáme limita posloupnosti ( ) n n 1 n n n

Matematika I, část II

2. Znát definici kombinačního čísla a základní vlastnosti kombinačních čísel. Ovládat jednoduché operace s kombinačními čísly.

9. Měření závislostí ve statistice Pevná a volná závislost

Vyhledávání v tabulkách

NEPARAMETRICKÉ METODY

1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.

Mod(x) = 2, Med(x) = = 2

3. Lineární diferenciální rovnice úvod do teorie

UPLATNĚNÍ ZKOUŠEK PŘI PROHLÍDKÁCH MOSTŮ

Matematika 1. Katedra matematiky, Fakulta stavební ČVUT v Praze. středa 10-11:40 posluchárna D / 13. Posloupnosti

1.1. Definice Reálným vektorovým prostorem nazýváme množinu V, pro jejíž prvky jsou definovány operace sčítání + :V V V a násobení skalárem : R V V

Transkript:

1 Základí statistické zpracováí dat 1.1 Základí pojmy Populace (základí soubor) je soubor objektů (statistických jedotek), který je vymeze jejich výčtem ebo charakterizací jejich vlastostí, může být proto koečý (rozsah ozačujeme N) i ekoečý. Iformace o populaci získáváme prostředictvím statistického výzkumu (statistických studií). Rozlišujeme dva základí typy statistických studií - pokus a šetřeí. Při pokusu pláovitě měíme faktory a sledujeme jejich vliv. Typickým příkladem je komparativí experimet (kliický pokus), kdy sledovaé prvky rozdělíme do dvou skupi áhodě a každou skupiu vystavíme vlivu jiých faktorů (tzv. kotrolovaý pokus). Pokud avíc vyhodocující experimetátor ebo vyhodocující experimetátor i sledovaý subjekt eví, ve které skupiě je zařaze, jedá se o slepý pokus resp. dvojitě slepý pokus. V rámci šetřeí je výzkumý pracovík pouze pasivím pozorovatelem, který zasahuje co ejméě do průběhu šetřeí. Parametr populace (populačí charakteristika) je číselá charakteristika sledovaé vlastosti v populaci, apříklad průměrá výška desetiletých chlapců, variabilita doba léčeí kokrétího oemocěí a území ČR a podobě. Obvykle pokládáme teto parametr za pevé číslo, které je však obecě ezámé. Parametr obecě začíme Θ, pro ěkteré parametry je zavedeo kokrétí ozačeí µ, σ 2, ϕ,.... Výběr je koečá podmožia populace, kdy sledujeme a měříme požadovaé vlastosti pouze u ěkterých prvků populace. Výběr je vždy koečý (rozsah ozačujeme ) a pokud výběr dobře odráží strukturu celého zkoumaého souboru, azýváme jej reprezetativí výběr. Podle charakteru získáváí výběru prvků z populace rozlišujeme úplé šetřeí: sledujeme zaky všech prvků základího souboru; selektiví výběr; záměrý výběr: výběr se opírá o expertí staoviska ebo je ovlivě subjektivími hledisky experimetátora, přesost zobecňujících závěrů se opírá o expertí hledisko experimetátora a ikoliv o statistickou metodologii; áhodý výběr: prvky ze základího souboru vybíráme áhodě, ezávisle a úsudku experimetátora prostý áhodý výběr (simple radom sample) : provádí se růzými techikami losováí, které musí zaručit, aby každý prvek populace měl stejou možost být zařaze do výběru. Pokud jsou prvky populace jsou očíslováy, je možo provést výběr pomocí tabulek áhodých čísel. mechaický výběr: je založe a určitém, předem daém uspořádáí prvků populace, do výběrového souboru zařadíme všechy prvky, které jsou od sebe vzdáley o zvoleý výběrový krok, přičemž prví prvek vybereme prostým áhodým výběrem. Například 1

z abecedě uspořádaé kartotéky pacietů u praktického lékaře vybíráme s krokem dvacet. Prví kartu vylosujeme mez prvími dvaceti kartami, třeba devátou. Musíme dát pozor, aby uspořádáí prvků esouviselo se sledovaým zakem. oblastí výběr (stratifikovaý): studovaá populace je rozdělea do dílčích oblastí. Oblasti jsou vytvořey tak, aby byly uvitř homogeí (ve sledovaých zacích se příliš eliší) a mezi sebou heterogeí (sledovaé zaky se začě liší). Při šetřeí a obyvatelstvu jsou oblasti vytvořey apř. územími celky, věkovými skupiami ebo socioekoomickým statutem. Z každé oblasti vybereme vzorek metodou prostého áhodého výběru ebo mechaického výběru. Proceto vybraých prvků z oblastí může být bud pro všechy oblasti stejé, ebo se mezi oblastmi liší. Někdy máme pádé důvody vybírat z ěkteré oblasti relativě méě prvků, apř. při zvýšeých fiačích ákladech a šetřeí ebo obtížé dostuposti údajů. Koečý výběrový soubor vytvoříme spojeím vzorků ze všech oblastí. skupiový výběr: Pro velké rozsahy populace eprovádíme áhodý výběr, tj. evybíráme jedotlivé osoby, ýbrž celé skupiy osob, které tvoří bud přirozeé ebo umělé agregáty. Tyto skupiy mohou být malé i větší (rodia, škola, závod, zdravotí obvod) ebo i začě rozsáhlé (obce, okresy). Je žádoucí, aby skupiy byly pokud možo stejě velké a osoby uvitř každé skupiy růzorodé. Dále se požaduje, aby variabilita mezi skupiami byla co ejmeší, což je tedy obráceě, ež je tomu u oblastího výběru. Když byl provede výběr skupi, lze dále pokračovat dvojím způsobem: bud vyšetříme vyčerpávajícím způsobem všechy osoby vybraých skupi, ebo zvolíme metodu vícestupňového výběru. vícestupňový výběr: je založe a existeci určitého hierarchického popisu prvků základího souboru. K těmto prvkům se postupě dostáváme přes vyšší výběrové jedotky, apříklad: města - bloky - domy - domácosti; okresy - závody - díly - zaměstaci. Každá výběrová jedotka je skupiou výběrových jedotek ižšího řádu. Postupě vybíráme jedotky prvího stupě (primárí jedotky), z ich potom jedotky druhého stupě (sekudárí jedotky), z ich jedotky třetího stupě atd., až dojdeme k základím jedotkám statistického šetřeí. Postupé výběry provádíme často metodou prostého áhodého výběru, lze však uplatit i výběr mechaický ebo oblastí. Vícestupňový výběr je vhodý v situacích, kdy úplá opora výběru eí dostupá před začátkem výběrového postupu. Jeho výhody jsou především ekoomického charakteru. cezorovaý výběr je výběr, kdy emáme k dispozici přesou hodotu sledovaé charakteristiky, ale máme iformaci, že hodota bude větší ež kokrétí číslo (cezorováí zprava) ebo meší ež kokrétí číslo (cezorováí zleva), apříklad sleduje dobu přežití a v okamžiku ukočeí experimetu víme, že paciet přežil více ež 5 let, ale evíme přesou dobu přežití. Data je souhr kokrétích číselých údajů, reálých čísel (výsledek opakovaých pokusů ebo šetřeí), které máme k dispozici. Jedá se vždy o koečý počet dat, rozsah dat je a jedotlivé údaje začíme x 1, x 2, x 3,..., x, pokud máme data seřazea podle velikosti, používáme začeí x (1), x (2), x (3),..., x (). Výběrová charakteristika (statistika) je pojem používaý pro číselou charakteristiku výběru, 2

apř. aritmetický průměr z aměřeých dat, výběrový rozptyl,.... Pro růzé výběry je hodota téže statistiky obvykle růzá. 1.2 Základí typy statistických dat Podle toho, jaký charakter mají zaky ve výběru ebo v populaci rozlišujeme růzé typy dat. Nejápadější je rozdíl mezi proměými vyjádřeými slově a proměými, jejichž hodoty jsou vyjádřey číselě. Tomuto odpovídá základí děleí a kvalitativí a kvatitativí data. Pro zpracováí obvykle přiřazujeme slovím proměým jejich číselý ekvivalet, pokud můžeme přiřadit číselou hodotu v libovolém pořadí, mluvíme o datech omiálích. Pokud přiřazeím čísel zároveň posloupost uspořádáme, mluvíme o ordiálích datech. kvalitativí omiálí biárí data (alterativí, dichotomická) - data abývají pouze dvou hodot typu ANO - NE ebo 0-1; kvalitativí omiálí data (víceškálové) - (kategoriálí data) data mají původě sloví charakter, při přiřazováí číselých charakteristik elze rozumým způsobem zavést do dat uspořádáí, typickým případem jsou data vyjadřující apř. bydliště, růzé barvy sledovaého objektu a podobě; kvalitativí ordiálí data - data mají původě sloví charakter a při převodu do číselé škály je přirozeým způsobem zavedeo uspořádáí, apříklad maximálí dosažeé vzděláí, hodoceí zámkami, vyjádřeí užitečosti a podobě; kvatitativí diskrétí data - itervalová stupice data mají přirozeou číselou charakteristiku, čísla zároveň vyjadřují uspořádáí v ámi zvoleém smyslu, zároveň se můžeme ptát o kolik je jede zak lepší ež druhý, svůj praktický výzam má tedy i veličia x i x j, v rámci itervalové stupice má ulová hodota pouze relativí charakter, apříklad ulová teplota; kvatitativí diskrétí data - poměrová stupice data mají přirozeou číselou charakteristiku, čísla zároveň vyjadřují uspořádáí v ámi zvoleém smyslu, zároveň se můžeme ptát kolikrát je hodota jedoho zaku jiá (lepší) ež hodota druhého zaku, svůj praktický výzam má tedy i veličia x i x j, v rámci poměrové stupice má kokrétí výzam ulová hodota, apříklad ulová hmotost, ulová rychlost, ulový počet výskytu sledovaého jevu; kvatitativí spojitá data - data mají přirozeou číselou charakteristiku, ale tato charakteristika může abývat ekoečého počtu hodot, ejčastěji vzikají tato data měřeím a vážeím objektů, zachyceím času a podobě; data s eúplou iformací - do této kategorie spadají data, o kterých víme apříklad pouze to, zda jsou pod detekčím limitem,ev. data cezorovaá časem, ev. data mající itervalový charakter (víme pouze to, že hodota proměé leží v itervalu) a podobě. 3

1.3 Výběrové charakteristiky pro jedorozměrá data 1.3.1 Výběrové charakteristiky polohy aritmetický průměr x = x 1 + x 2 + + x je jedoduchý, založeý a všech hodotách, lze ho lieárě trasformovat tj. pokud y i = ax i +b pro i = 1, 2,...,, pak y = ax + b aritmetický průměr x je citlivý a hrubé chyby (př. 8, 12, 15, 23, 1500 x = 311.6) V programu EXCEL používáme pro výpočet aritmetického průměru fukci PRŮMĚR(číslo1;číslo2;... ) resp. PRŮMĚR(oblast dat) v aglické verzi se jedá o fukci MEAN(oblast dat). Při použití těchto fukcí jsou buňky obsahující textové hodoty z výpočtu vyecháy. Naproti to mu fukce AVERAGEA(hodota1;hodota2;... ) vrátí aritmetický průměr hodot v sezamu argumetů (argumety musí být čísla, ázvy, matice ebo odkazy). K číslům je avíc ve výpočtu zahrut i text (vyhodoceo jako 0) a logické hodoty PRAVDA (vyhodoceo jako 1) a NEPRAVDA (vyhodoceo jako 0). Aritmetický průměr z vybraých hodot lze také vypočítat jako podíl součtu a počtu buěk odpovídající kritériu. Použijeme fukce SUMIF(oblast;kritéria;součet), kde oblast jsou buňky obsahující kriteriálí hodotu, kritéria jsou zvoleé podmíky a součet je oblast buěk, které sčítáme a pro určeí počtu použijeme fukci COUNTIF(oblast;kritérium). Př. SUMIF(A2:A5; >160000 ;B2:B5) sečte hodoty v těch buňkách B2:B5, pro které hodota v příslušé buňce A2:A5 je větší ež 160000. geometrický průměr (pro kladé hodoty x i ) x G = x 1.x 2.....x je vhodý pro průměrou hodotu idexů i k Př.: Necht x 0, x 1,..., x udávají počet prodaých výrobků v i- tém časovém období. Vývoj prodeje charakterizujeme pomocí tzv. řetězových idexů i 1 = x 1, i 2 = x 2,..., i = x. x 0 x 1 x 1 Pak lze vyjádřit x = x 0 i 1 i 2 i. V Excelu použijeme fukci GEOMEAN(oblast dat). 4

harmoický průměr (pro kladé hodoty x i ) x H = x 1 1 + x 1 Příklad použití: Auto 2 + + x 1 jede do kopce rychlosti v 1 a po stejé dráze z kopce rychlosti v 2. Jaká je jeho průměrá rychlost? Délku tratě ozačme d, dobu jízdy do kopce t 1 = d/v 1, dobu jízdy z kopce t 2 = d/v 2. 2d 2 Průměrá rychlost je = t 1 + t 2 v1 1 + v2 1 = v H V Excelu použijeme fukci HARMEAN(oblast dat). další průměry mají obecý charakter kvadratický průměr x K = průměr stupě α, pro α 0 vzájemé vztahy průměrů x 2 1 + x 2 2 + + x 2 x α = ( 1 x α i ) 1/α x (1) x H x G x x K x () rovost platí právě tehdy, když jsou všechy prvky x i shodé x (1) x α x () x 1 = x H x 1 = x x 2 = x K lim x α = x G α 0 lim α x α = x (1) lim α + x α = x () mediá je taková hodota, že v případě, že uspořádáme data podle velikosti, je přesě polovia hodot meší ež mediá x a polovia hodot je větší ež mediá. Největší výhoda mediáu spočívá v jeho robustosti, pod tímto termíem rozumíme malou citlivost a odlehlá, případě chybá data. Pokud jsou data rozložea symetricky vzhledem k průměru a eobsahují odlehlá pozorováí, je mediá rove aritmetickému průměru. V Excelu použijeme fukci MEDIAN(oblast dat). 5

modus ejčetější hodota, tj. hodota, která se v souboru dat opakuje ejvícekrát, tato charakteristika emá výzamější uplatěí a poskytuje ám pouze doplňkové iformace o souboru dat. V Excelu použijeme fukci MODE(oblast dat). kvatily, kvartily, decily Zobecěím pojmu mediá dostaeme pojem α-procetí kvatil. α-procetí kvatil Q α je taková hodota, že v případě, že uspořádáme data podle velikosti, je α procet hodot meší ež kvatil Q α a 100 α procet hodot je větší ež kvatil. Hodotu Q 25 azýváme dolí kvartil, hodota Q 50 je mediá, hodotu Q 75 azýváme horí kvartil, aalogicky hodoty Q 10 resp.q 90 a Q 1 resp. Q 99 azýváme dolí (horí) decil a dolí (horí) percil. V Excelu použijeme fukce, které pracují s pořadím hodot buěk. Fukce RANK(číslo;oblast;pořadí) vrací hodotu pořadí číslo v rámci buěk ozačeých oblast dat, podle hodoty pořadí se jedá o pořadí ve smyslu sestupém (hodota 0 ebo ezadáo) ebo ve smyslu vzestupém (jakákoliv hodota růzá od uly). Př. RANK(A4;A1:A20;1) 3, odpovídá stavu, kdy hodota v buňce A4 vzhledem k hodotám v buňkách A1:A20 je třetí ejmeší. Pokud se v rámci dat ěkteré hodoty opakují, má hodota RANK eceločíselý charakter. Iverzí fukce k RANK jsou fukce LARGE(oblast;k) a SMALL(oblast;k), která vrací k-tou ejvětší (resp. ejmeší) hodotu z dat v oblasti dat. Speciálě LARGE(oblast;1)=SMALL(oblast;) je maximálí hodota z dat v oblasti a LARGE(oblast;)=SMALL(oblast;1) je miimálí hodota v oblasti. Pokud potřebujeme určit pořadí hodoty čísla vyjádřeé procetuálí částí oblasti, použijeme fukci PERCENTRANK(oblast;x;desetiy), kde v případě, že číslo eodpovídá žádé hodotě v oblasti, použije program iterpolaci. Hodota desetiy uvádí počet desetiých míst, které bereme v úvahu - stadardě 3. Př. PERCENTRANK(A1:A20;B4;3) 0.12, odpovídá stavu, kdy 12% hodot v buňkách A1:A20 je meší ež hodota v buňce B4. Iverzí fukcí k fukci PERCENTIL je fukce PERCENTIL(oblast;k), která vrací k-procetí kvatil (v českém Ecxelu je používá překlad percetil) z oblasti. Opět tato fukce pracuje s iterpolací. Tedy PERCENTIL(oblast,k)=Q k Př. Pokud v buňkách A1:A4 jsou hodoty 1,2,3,4, pak PERCENTIL(A1:A4;0,3) vrací hodotu 30-ti procetího kvatilu po iterpolaci, tj. PERCENTIL(A1:A4;0,3) 1.9 zameá, že 30% hodot v oblasti A1:A4 je meší ež 1.9. Speciálím případem fukce PERCENTIL je fukce QUARTIL(oblast;kvartil), 6

kde QUARTIL(oblast;0)=Q 0 je miimálí hodota, QUARTIL(oblast;1)=Q 25 je dolí kvartil, QUARTIL(oblast;2)=Q 50 je mediá, QUARTIL(oblast;3)=Q 75 je horí kvartil a QUARTIL(oblast;4)=Q 100 je maximálí hodota. 1.3.2 Výběrové charakteristiky variability rozptyl spočítáme pomocí vztahu σ 2 = 1 (x i x) 2, kde x je aritmetický průměr. Jedá se vlastě o průměrou kvadratickou odchylku hodot od aritmetického průměru a jeho fyzikálí rozměr je základí jedotka a druhou. Stejě jako aritmetický průměr je rozptyl citlivý a odlehlá pozorováí. výpočetí tvar rozptylu s 2 = 1 x 2 i (x) 2 echt a, b R a položme y i = ax i + b pro i = 1, 2,...,, pak s 2 y = a 2 s 2 x fukce S(a) = 1 (x i a) 2 abývá svého miima v bodě a = x Samuelsoova erovost: max x i x s 1 i s y = a s x V Excelu použijeme fukci VAR(oblast dat) případě VARPA(oblast dat), pokud chceme zahrout též buňky s logickou hodotou a buňky s textem. výběrový rozptyl výběrový rozptyl počítáme pomocí vztahu s 2 = 1 1 (x i x) 2, resp. s 2 = 1 σ2. Výběrový rozptyl má stejý výzam jako rozptyl, ale lepší statistické vlastosti, proto je v rámci dalších statistických metod používaější. V Excelu použijeme fukci VAR.VÝBĚR(oblast dat) případě VARA(oblast dat), pokud chceme zahrout též buňky s logickou hodotou a buňky s textem. 7

variačí rozpětí R = x () x (1) je rozdíl mezi maximálí a miimálí hodotou dat s 2 R2 4 ( ) x(1) + x () (k důkazu použiji vlastosti fukce S(x) S a 2 x i x (1) + x () 2 R 2 ) variačí rozpětí je vyjádřeo v jedotkách x i V Excelu použijeme pro alezeí maxima a miima fukce MAX(oblast dat) a MIN(oblast dat). kvartilové rozpětí je ejpoužívaější charakteristika variability, která epracuje s aritmetickým průměrem a je tedy robusí, tj. eí citlivá a odlehlá pozorováí. Kvartilové rozpětí určíme jedoduše jako rozdíl horího a dolího kvartilu R Q = Q 75 Q 25. Obdobě je defiováé decilové rozpětí R D = Q 90 Q 10 a variačí rozpětí R = Q 100 Q 0 = x () x (1) = max(x) mi(x). V Excelu použijeme pro alezeí horího kvartilu fukci QUARTIL(oblast dat;3) a pro alezeí hodot dolího kvartilu fukci QUARTIL(oblast dat;2). směrodatá odchylka a výběrová směrodatá odchylka je určea jako odmocia z rozptylu, začíme ji s. Nejčastěji je používáa výběrová směrodatá odchylka odvozeá z výběrového rozptylu. Fyzikálí rozměr směrodaté odchylky odpovídá fyzikálímu rozměru zpracovávaých dat. V Excelu použijeme fukci SMODCH(oblast dat) - odmocia z VAR, případě STDEVA(oblast dat)- odmocia z VARPA ebo ejlépe SMODCH.VÝBĚR(oblast dat) - odmocia z VAR.VÝBĚR. 8

variačí koeficiet použijeme pokud potřebujeme porovat variabilitu dvou souborů, které mají rozdílý aritmetický průměr. Variačí koeficiet spočítáme podle vztahu v = s x. koeficiet kvartilové variace je CQV = Q 3 Q 1 Q 3 + Q 1 průměrá absolutí odchylka je další z charakteristik variability, které zmírňuje vliv odlehlých hodot. Nejvíce používáy jsou průměrá absolutí odchylka od aritmetického průměru d x = 1 x i x a průměrá absolutí odchylka od mediáu d x = 1 x i x. V Excelu použijeme fukci PRŮMODCHYLKA(oblast dat) pro průměrou absolutí odchylku od aritmetického průměru. 1.3.3 Další výběrové charakteristiky obecé a cetrálí momety obecý momet k-tého řádu m k = 1 cetrálí momet k-tého řádu m k = 1 x k i (x i x) k momet kolem bodu a k-tého řádu m k (a) = 1 (x i a) k absolutí momet kolem bodu a k-tého řádu m abs k (a) = 1 m k = k j=0 speciálě platí ( ) k ( 1) j ( x ) j m k j j m 3 = m 3 3 m 2x + 2 ( x ) 3 x i a k m 4 = m 4 4 m 3x + 6 m 2 ( x ) 2 3 ( x ) 4 9

šikmost je charakteristika, která ám pomáhá rozhodout o shodě ašich dat s modelem ormálího rozděleí z hlediska symetrie kolem průměru x. Pomocí obecých mometů lze šikmost vyjádřit jako α 3 = m 3 s 3. Nejčastěji počítáme šikmost podle vztahu α 3 = ( 1)( 2) ( ) 3 xi x. s Pokud je šikmost dat kladá, jsou data vychýleá ke kladým hodotám, pokud je hodota šikmosti záporá, jsou data vychýleá k záporým hodotám. V Excelu použijeme fukci SKEW(oblast dat) Obrázek 1: Šikmost kladá a záporá špičatost je charakteristika, která se zaměřuje a strmost dat v porováí s modelem ormálího rozděleí. Pomocí obecých mometů lze špičatost vyjádřit jako a 4 = m 4 s 4 ebo počítáme koeficiet špičatosti a 4 = m 4 s 4 3. Pokud je koeficiet špičatosti dat kladý, jsou data strmější oproti ormálímu rozděleí, pokud je hodota koeficietu špičatosti záporá, mají data plošší charakter. V Excelu použijeme fukci KURT(oblast dat) 10

Obrázek 2: Špičatost kladá a záporá 1.4 Výběrové charakteristiky pro třídě rozděleá data V případě, že data mají itervalový charakter, mluvíme o třídě rozděleých datech. V takovýchto situacích máme k dispozici iformace o itervalech (třídách) a počtu dat z výběru, které se achází v daé třídě. Typickým příkladem je rozděleí tříd podle věku, podle dojezdové vzdáleosti a podobě. Pokud potřebujeme sami rozdělit data do jedotlivých tříd, můžeme počet tříd k určit apříklad pomocí Sturgesova pravidla k 1 + 3.3 log. Ukázka třídě rozděleých dat, kde kromě četosti je k dispozici též iformace o represetatech jedotlivých tříd (průměr ve třídě) a variabilitě uvitř jedotlivých tříd (směrodatá odchylka). Třída Hraice Tabulka 1: Třídě rozděleá data Četost Rel. četost Průměr Rozptyl Sm. odchylka j p j = j / x j s 2 j s j 1 ( ; 2 19 3.80 2.299 0.055 0.235 2 ( 2; 1.5 15 3.00 1.653 0.013 0.113 3 ( 1.5; 1 40 8.00 1.265 0.017 0.130 4 ( 1; 0.5 67 13.40 0.734 0.023 0.153 5 ( 0.5; 0 102 20.40 0.260 0.017 0.129 6 ( 0; 0.5 100 20.00 0.235 0.021 0.144 7 ( 0.5; 1 73 14.60 0.726 0.019 0.138 8 ( 1; 1.5 45 9.00 1.224 0.022 0.147 9 ( 1.5; 2 31 6.20 1.709 0.019 0.136 10 ( 2; 8 1.60 0.019 1.020 1.010 Celkem 500 100 2.490 0.057 0.238 11

Průměr pro třídě rozděleá data spočteme podle vztahu x = k j=1 x j j = k x j p j, kde x j je reprezetat j té třídy (průměr v j té třídě), j je četost prvků v j té třídě, k = j je celkový počet prvků ve výběru, k je počet tříd. j=1 j=1 Rozptyl pro třídě rozděleá data spočteme podle vztahu ( k s 2 = 1 k ( j 1) s 2 j + j (x j x) ), 2 1 j=1 j=1 kde x j je průměr j té třídy, j je četost prvků v j té třídě, = ve výběru, s 2 j je rozptyl v j té třídě a k je počet tříd. k j je celkový počet prvků j=1 12