11. P o p i s n á s t a t i s t i k a

Podobné dokumenty
6. P o p i s n á s t a t i s t i k a

7. P o p i s n á s t a t i s t i k a

Deskriptivní statistika 1

P2: Statistické zpracování dat

12. N á h o d n ý v ý b ě r

Pravděpodobnost a aplikovaná statistika

STATISTIKA. Statistika se těší pochybnému vyznamenání tím, že je nejvíce nepochopeným vědním oborem. H. Levinson

11. Popisná statistika

13 Popisná statistika

Statistika je vědní obor zabývající se zkoumáním jevů, které mají hromadný charakter.

Popisná statistika - zavedení pojmů. 1 Jednorozměrný statistický soubor s kvantitativním znakem

Pro statistické šetření si zvolte si statistický soubor např. všichni žáci třídy (několika tříd, školy apod.).

Základy statistiky. Zpracování pokusných dat Praktické příklady. Kristina Somerlíková

1 POPISNÁ STATISTIKA V PROGRAMU MS EXCEL

Popisná statistika. Zdeněk Janák 9. prosince 2007

Statistika. Statistické funkce v tabulkových kalkulátorech MSO Excel a OO.o Calc

odhady parametrů. Jednostranné a oboustranné odhady. Intervalový odhad střední hodnoty, rozptylu, relativní četnosti.

Náhodný výběr 1. Náhodný výběr

Odhady parametrů 1. Odhady parametrů

Parametr populace (populační charakteristika) je číselná charakteristika sledované vlastnosti

14. B o d o v é o d h a d y p a r a m e t r ů

Při sledování a studiu vlastností náhodných výsledků poznáme charakter. podmínek různé výsledky. Ty odpovídají hodnotám jednotlivých realizací

6 Intervalové odhady. spočteme aritmetický průměr, pak tyto průměry se budou chovat jako by pocházely z normálního. nekonečna.

4. B o d o v é o d h a d y p a r a m e t r ů

Intervalové odhady parametrů některých rozdělení.

vají statistické metody v biomedicíně

vají statistické metody v biomedicíně Literatura Statistika v biomedicínsk nském výzkumu a ve zdravotnictví

ZÁKLADNÍ STATISTICKÉ VÝPOČTY (S VYUŽITÍM EXCELU)

Elementární zpracování statistického souboru

i 1 n 1 výběrový rozptyl, pro libovolné, ale pevně dané x Roznačme n 1 Téma 6.: Základní pojmy matematické statistiky

Odhady parametrů polohy a rozptýlení pro často se vyskytující rozdělení dat v laboratoři se vyčíslují podle následujících vztahů:

z možností, jak tuto veličinu charakterizovat, je určit součet

1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.

2 STEJNORODOST BETONU KONSTRUKCE

Intervalové odhady parametrů

jako konstanta nula. Obsahem centrálních limitních vět je tvrzení, že distribuční funkce i=1 X i konvergují za určitých

Pravděpodobnost a aplikovaná statistika

veličiny má stejný řád jako je řád poslední číslice nejistoty. Nejistotu píšeme obvykle jenom jednou

Pravděpodobnostní modely

PRAVDĚPODOBNOST A STATISTIKA

Cvičení 6.: Bodové a intervalové odhady střední hodnoty, rozptylu a koeficientu korelace, test hypotézy o střední hodnotě při známém rozptylu

Statistika pro metrologii

Přednáška VI. Intervalové odhady. Motivace Směrodatná odchylka a směrodatná chyba Centrální limitní věta Intervaly spolehlivosti

8. Analýza rozptylu.

Mezní stavy konstrukcí a jejich porušov. Hru IV. Milan RůžR. zbynek.hruby.

Cvičení 6.: Výpočet střední hodnoty a rozptylu, bodové a intervalové odhady střední hodnoty a rozptylu

2 EXPLORATORNÍ ANALÝZA

MATICOVÉ HRY MATICOVÝCH HER

Pravděpodobnost vs. statistika. Data. Teorie pravděpodobnosti pracuje s jednou nebo více teoretickými náhodnými

Komplexní čísla. Definice komplexních čísel

3. Charakteristiky a parametry náhodných veličin

Tento odhad má rozptyl ( ) σ 2 /, kde σ 2 je rozptyl souboru, ze kterého výběr pochází. Má-li každý prvek i. σ 2 ( i. ( i

(Teorie statistiky a aplikace v programovacím jazyce Visual Basic for Applications)

V. Normální rozdělení

Závislost slovních znaků

4.2 Elementární statistické zpracování Rozdělení četností

Ilustrativní příklad ke zkoušce z B_PS_A léto 2014.

STATISTIKA PRO EKONOMY

1 ROVNOMĚRNOST BETONU KONSTRUKCE

České vysoké učení technické v Praze. Fakulta dopravní. Semestrální práce. Statistika

17. Statistické hypotézy parametrické testy

Číselné charakteristiky náhodných veličin

2. Náhodná veličina. je konečná nebo spočetná množina;

Matematika 1. Katedra matematiky, Fakulta stavební ČVUT v Praze. středa 10-11:40 posluchárna D / 13. Posloupnosti

Náhodu bychom mohli definovat jako součet velkého počtu drobných nepoznaných vlivů.

Pravděpodobnostní model doby setrvání ministra školství ve funkci

8. Základy statistiky. 8.1 Statistický soubor

Tržní ceny odrážejí a zahrnují veškeré informace předpokládá se efektivní trh, pro cenu c t tedy platí c t = c t + ε t.

Odhady parametrů základního. Ing. Michal Dorda, Ph.D.

Doc. Ing. Dagmar Blatná, CSc.

Úloha III.S... limitní

6. Posloupnosti a jejich limity, řady

Co je to statistika? Statistické hodnocení výsledků zkoušek. Úvod statistické myšlení. Úvod statistické myšlení. Popisná statistika

11. přednáška 16. prosince Úvod do komplexní analýzy.

Ilustrativní příklad ke zkoušce z B_PS_A léto 2013.

ZÁKLADY STATISTIKY (s aplikací na zdravotnictví)

4. Základní statistické pojmy.

1. Základy počtu pravděpodobnosti:

Pevnost a životnost - Hru III 1. PEVNOST a ŽIVOTNOST. Hru III. Milan Růžička, Josef Jurenka, Zbyněk Hrubý.

Odhady parametrů základního souboru. Ing. Michal Dorda, Ph.D.

STUDIUM MAXWELLOVA ZÁKONA ROZDĚLENÍ RYCHLSOTÍ MOLEKUL POMOCÍ DERIVE 6

STATISTIKA. Základní pojmy

Zhodnocení přesnosti měření

ČESKÉ VYSOKÉ UČENÍ TECHNICKÉ V PRAZE

1.1 Dva základní typy statistiky Popisná statistika (descriptive statistics) Inferenční statistika (inferential statistics)

1. K o m b i n a t o r i k a

základním prvkem teorie křivek v počítačové grafice křivky polynomiální n

Tento projekt je spolufinancován Evropským sociálním fondem a Státním rozpočtem ČR InoBio CZ.1.07/2.2.00/

Mendelova univerzita v Brně Statistika projekt

Úloha II.S... odhadnutelná

Iterační metody řešení soustav lineárních rovnic

Analýza a zpracování signálů. 3. Číselné řady, jejich vlastnosti a základní operace, náhodné signály

8. Odhady parametrů rozdělení pravděpodobnosti

1. Rozdělení četností a grafické znázornění Předpokládejme, že při statistickém šetření nás zajímá jediný statistický znak x, který nabývá

1.1. Definice Reálným vektorovým prostorem nazýváme množinu V, pro jejíž prvky jsou definovány operace sčítání + :V V V a násobení skalárem : R V V

NEPARAMETRICKÉ METODY

Kvantová a statistická fyzika 2 (Termodynamika a statistická fyzika)

UPLATNĚNÍ ZKOUŠEK PŘI PROHLÍDKÁCH MOSTŮ

Matematika přehled vzorců pro maturanty (zpracoval T. Jánský) Úpravy výrazů. Binomická věta

Přednášky část 7 Statistické metody vyhodnocování dat

Transkript:

11. P o p i s á s t a t i s t i k a 11.1. Pozámka: Při statistickém zkoumáí ás zajímají hromadé jevy a procesy, u kterých zkoumáme zákoitosti, které se projevují u velkého počtu prvků. Prvky zkoumáí azýváme statistické jedotky. Sledujeme vlastosti statistických jedotek, které azýváme statistické zaky ebo stručěji veličiy (variable). Souhr zaků a veliči tvoří data. Při zkoumáí používáme dva základí druhy statistiky, popisou statistiku a iterferečí statistiku. Popisá statistika zjišťuje a sumarizuje iformace, zpracovává je ve formě grafů a tabulek a vypočítává jejich číselé charakteristiky jako průměr, rozptyl percetily, rozpětí a pod. Iterferečí statistika čií závěry a základě dat získaých z šetřeí provedeých pro vybraý soubor respodetů. Aalyzuje tyto závěry a predikuje z ich závěr pro celý soubor. (Volebí průzkum, průzkum trhu a pod.) Při statistickém šetřeí máme k dispozici: - základí soubor je soubor všech statistických jedotek; - výběrový soubor je vybraá část ze základího souboru. Rozsah základího (výběrového) souboru je počet jedotek v souboru. Při vytvářeí souboru jedotek provádíme výběr ve tvaru prostého áhodého výběru. 11.2. Defiice: Prostý áhodý výběr (simple radom sample) je áhodý výběr ze základího souboru vytvořeý tak, že každá statistická jedotka ze základího souboru má stejou pravděpodobost, že bude vybráa. Pokud je možé vybrat tutéž jedotku zova, mluvíme o výběru s vraceím, pokud opakovaý výběr eí možý jedá se o výběr bez vraceí. Popisá statistika Vlastosti, které se pro jedotlivé jedotky měí azýváme veličiami, případě statistickými zaky ebo proměými. Vyskytují se veličiy - kvatitativí, popsaé číselou hodotou (výška, váha, cea); - kvalitativí, popsaé vlastostmi (muž, žea, barva očí, dosažeé vzděláí). Kvatitativí veličiy mohou být diskrétí, abývající hodot ze zadaé koečé možiy, ebo spojité, které abývají hodot ze zadaého itervalu. Pozorovaím ebo měřeím hodot zkoumaé veličiy a ěkolika statistických jedotkách získáme vstupí data. Soubor těchto údajů azýváme datový soubor. Teto soubor je jedorozměrý, jestliže sledujeme jede zak, ebo vícerozměrý (multistage radom sample), pokud sledujeme více zaků. Při zpracováí jedorozměrého datového souboru kvatitativích dat x 1, x 2,..., x potřebujeme pro ěkterá šetřeí data uspořádat podle velikosti. Dostaeme pak uspořádaý datový soubor tvaru x (1) x (2)... x (), kde x (1) = mi{x i ; 1 i } a x () = max{x i ; 1 i }. Metody zpracovaí dat 11.3. Tříděí dat je rozděleí dat do skupi provedeé tak, aby vyikly charakteristické vlastosti sledovaých jevů. Uspořádáme a zhustíme data do přehledější formy. Rozezáváme 53

- jedostupňové tříděí, jestliže třídíme data podle změ jedoho statistického zaku; - vícestupňové tříděí, pokud provádíme tříděí podle více zaků ajedou. Nejčastěji při jedostupňovém tříděí kvatitativích dat uspořádáme data podle velikosti a staovíme itervaly, které odpovídají jedotlivým třídám. Mluvíme pak o itervalovém tříděí. Máme-li datový soubor {x 1, x 2,..., x }, který obsahuje celkem prvků, pak iterval mezi ejvětší a ejmeší hodotou rozdělíme a k disjuktích itervalů, tříd (classes), tvaru (a i 1, a i, 1 i k. Potom prvek x j patří do i té třídy, pokud je a i 1 < x j a i. Používáme ásledujících termíů a ozačeí: - třída (class) je část dat zařazeá do jedé skupiy, itervalu (a i 1, a i ; - dolí hraice třídy (lower class limit) je hodota a i 1 ; - horí hraice třídy (upper class limit) je hodota a i ; - střed třídy (class mark) je průměr horí a dolí hraice třídy, tedy y i = 1 2 (a i 1 + a i ); - šířka třídy (class width) je rozdíl horí a dolí hraice třídy, tedy hodota a i a i 1 ; - (absolutí) četost třídy (frequecy) i je počet prvků souboru, které patří do i té třídy; - relativí četost (relative frequecy) p i = i je poměr četosti třídy ku celkovému počtu dat; - kumulativí (absolutí) četost (cumulative frequecy) N i = 1 + 2 +...+ i je součet četosti třídy a četostí tříd předchozích; - kumulativí relativí četost (cumulative relative frequecy) P i = p 1 + p 2 +... + p i je součet relativí četosti třídy a relativích četostí tříd předchozích. Potom platí: k i =, k p i = 1, i j = N i, j=1 i p j = P i, N k =, P k = 1. j=1 Při staoveí hraic tříd obvykle zachováváme tato dvě pravidla: - šířku třídy h volíme pro všechy itervaly shodou, s vyjímkou krajích tříd pokud tvoří eomezeé itervaly: - při staoveí šířky třídy h dodržujeme Sturgesovo pravidlo, kdy pro počet tříd k platí, že k. = 1 + 3, 3 log. V tabulce jsou uvedey počty tříd pro ěkteré hodoty rozsahů souboru. 5 10 20 40 50 100 200 1000 k 3 4 5 6 7 8 9 11 - pokud jsou krají itervaly děleí eomezeé, pak za střed prví, resp. posledí třídy volíme bod, který má od koečého krajího bodu třídy stejou vzdáleost jakou má od středu sousedí třídy. Při tříděí kvalitativích dat postupujeme obdobě. Jeom místo itervalu tvoří třídu prvky, které mají stejý zak, ebo skupiu zaků. 11.4. Grafická zázorěí Pro větší ázorost požíváme místo tabulek zázorěí datového souboru pomocí grafů. Používá se ěkolika typů. Histogram (histogram) je graf kdy a vodorovou osu zázoríme třídy a a svislou osu četosti či relativí četosti. Často se používá ve tvaru, kdy se hodota odpovídající třídě zázorí jako sloupec s itervalem třídy jako základou a výška je dáa četostí. 54

Polygo četostí a relativích četostí je graf, kdy úsečkami spojíme body (y i, i ), resp. (y i, p i ). Bodový graf dostaeme tak, že a vodorovou osu vyeseme třídy jako body i, 1 i k, a ve svislém směru vyášíme jedotlivé prvky třídy zázorěé jako jedotlivé body (i, j), j = 1, 2,... i. Sloupkový graf je podobý histogramu, ale sloupce bývají odděleé, mají stejou šířku a každý sloupec odpovídá jedé třídě. Používáme je předeším u kvalitativích dat. Kruhový (výsečový) diagram (pie chart) je zázorěí pomocí výsečí kruhu, kde každé třídě odpovídá jeda výseč. Velikosti obsahů výsečí odpovídají četostem třídy. Stem-ad-Leaf diagram je uspořádáí dat do tabulky, kdy prví sloupec -stem=stoek odpovídá třídě a do řádku -leaf=list vypisujeme prvky třídy. Pokud tyto prvky uspořádáme podle velikosti mluvíme o uspořádaém diagramu. Krabicový ebo vrubový krabicový graf (box or whiskers plot) zázorňuje výzačé a extrémí hodoty souboru. Řada vlastostí datového souboru se dá vyčíst z tvaru histograu či polygou četostí. Ty odpovídají grafu hustoty u rozděleí pravděpodobosti áhodé veličiy. Rozlišuje se ěkolik charakteristických průběhů těchto grafů. - souměrý ve tvaru zvou, trojúhelíku či rovoměrý; - esouměré ve tvaru J, obráceého J, vpravo či vlevo protažeé; - podle počtu vrcholů jedo-, dvou-, či vícevrcholové (uimodal, bimodal, multimodal). 11.6. Charakteristiky (míry) polohy. Nejzámější a ejčastěji používaou charakteristkou polohy je aritmetický průměr hodot souboru. Průměr (mea) datového souboru {x 1, x 2,..., x } je defiová vztahem x = 1 x k. Pokud jsou {z 1, z k,..., z m } růzé hodoty souboru s četostmi j, j = 1, 2,..., m, a s relativími četostmi p j, pak k=1 x = 1 m m z j j = z j p j. j=1 j=1 Věta 1. Vlastosti průměru Pro průměr datového souboru platí: 1. Součet odchylek hodot souboru od průměru je rove ule, t.j. (x i x) = 0. 2. Přičteme-li k hodotám souboru kostatu a, pak průměr ového souboru {y i = x i + a} je y = 1 (x i + a) = x + a. 3. Násobíme-li hodoty souboru číslem b, ásobí se průměr také b, eboť pro soubor {y i = bx i } je y = 1 bx i = bx. 55

Pokud soubor {x 0, x 1,..., x } tvoří data, která odpovídají časové řadě sledující tred vývoje, pak jako charakteristiku polohy používáme průměrý přírůstek. Zavádíme jej jako průměr y souboru {y i = x i x 0, 1 i }. Je pak y = 1 x (x i x 0 ) = 1 (x x 0 ). Mediá Průměr datového souboru je citlivý a hrubé chyby, kdy jeda chybá hodota může výrazě změit hodotu průměru. Proto ěkdy používáme tzv. robustích charakteristik, které jsou méě citlivé a zadáí chybé hodoty. Mezi ě patří mediá (media) x, který je pro datový soubor x 1, x 2,... x defiová vztahem x = 1 2 x (m), ) pro = 2m 1, (x (m) + x (m+1), pro = 2m. Další z robustích charakteristik je modus (mode) ˆx, který je defiová jako hodota souboru s ejvětší četostí, tedy ˆx = z j, j i, 1 i m. Používáme jej v případech, kdy ás zajímají špičkové hodoty souboru, apř. při sledováí dopraví zátěže v místě, počet cestujících v hromadé dopravě, spotřeba elektrické eergie během de a roku, či průtok řekou. Kvatily, kvartily, decily, percetily Defiujeme pro p, 0 < p < 1, p kvatil, resp. 100p%kvatil, (quatile) jako tu hodotu x 100p ze souboru {x 1, x 2,..., x }, pro kterou je přibližě 100p% hodot ze souboru meších a 100(1 p)% hodot je větších ež x 100p. Nejjemější používaé rozděleí souboru je pomocí percetilů (percetile) x 1, x 2,..., x 99. Často se využívají decily x 10, x 20,..., x 90. Speciálí ázvy mají kvatily: - x 50 je mediá (media); - x 25 dolí kvartil (lower quartile); - x 75 horí kvartil (upper quartile). Jako mezikvartilové rozpětí IQR se defiuje rozdíl IQR = x 75 x 25. Jsou-li x (1) x (2)... x () hodoty souboru uspořádaé podle velikosti pak p kvatil, resp. 100p% kvatil určíme podle vzorce x x 100p = ([p]+1), pokud p eí celé číslo, 1 2 (x (p) + x (p)+1 ) pro p celé, kde [p] je celá část čísla, tedy celé číslo, které je ejbližší meší. Při větších rozdílech mezi jedotlivými daty používáme pro přesější vymezeí kvatilů lieárí aproximace mezi sousedími hodotami. Závěr modus sado se ajde, má ale miimálí vypovídací hodotu: mediá určuje střed souboru a je méě citlivý a chyby; průměr zohledňuje všechy hodoty, ale je citlivý a chyby. Usekuté průměry 56

Je-li x (1) x (2)... x () uspořádaý výběr, pak pro číslo 0 < α < 0, 5 azýváme hodotu x α = 1 2[α] [α] i=[α]+1 α-usekutým průměrem (alpha-trimmed mea). Hodotu x αw = 1 [α] ) ([α]x ([α]) + x (i) + [α]x ( [α]+1) i=[α]+1 azýváme α-wisorizovaý průměr (α-wisored mea). Symbol [α] ozačuje ejvětší celé číslo k, pro které je k α. Jié průměrové charakteristiky polohy. Pro soubory kladých dat používáme také jié průměry. Jsou to: Geometrický průměr (geometric mea) x G, který je pro soubor x 1, x 2,..., x kladých dat defiová vztahem x G = x 1 x 2... x. x (i) Vlastosti geometrického průměru. Násobíme-li hodoty původího souboru číslem c, ásobí se týmž číslem i geometrický průměr. Pro logaritmus geometrického průměru platí: Věta 2. Pro soubor s kladými daty je lx G = lx = 1 lx i. x G x a rovost astae jediě pro x 1 = x 2 =... = x. Harmoický průměr (harmoic mea) x H, který je pro soubor kladých dat defiová vztahem x H = x 1 1 + x 1 2 +... + x 1. Věta 3. Pro soubor s kladými daty je x H x G x, přičmž rovost astae pouze pro x 1 = x 2 =... = x. Kvadratický průměr (quadratic mea)x K je defiová vztahem x K = 1 x 2 i. Věta 4. Je x x K a rovost platí pouze v případě, že x 1 = x 2 =... x. 57

Věta 5. Pro soubory kladých dat je x (1) x H x G x x K x () a rovost astae pouze v případě, že x 1 = x 2 =... = x. 11.7. Charakteristiky (míry) rozptýleosti. Rozpětí datového souboru (rage) je hodota R = x max x mi. Hodota se po uspořádáí souboru sado spočítá, ale její hodota je citlivá a zavlečeé chyby. Vychází pouze ze dvou hodot a igoruje iformaci z ostatích hodot souboru. V ěkterých případech proto používáme jako charakteristiku tohoto druhu hodotu x 90 x 10. Provedeme vlastě ořezáí souboru, když vyecháme hodoty meší ež x 10 a větší ež x 90, tedy 10% ejmeších a 10% ejvětších hodot.odstraíme tím vliv případých chybých hodot, které leží a hraicích souboru. Podobou charakteristikou je mezikvartilové rozpětí (iterquartile rage) IQR = x 75 x 25. Středí kvadratická odchylka (MSD) (mea of squared deviatio) je průměr čtverců odchylek od průměru a je defiová vztahem MSD = s 2 = 1 (x i x) 2. Rozptyl (dispersio, variace) je defiová vzrcem S 2 = 1 MSD = 1 1 (x i x) 2 a směrodatá odchylka (stadard deviatio) S je odmociou z rozptylu. Věta 6. Vlastosti rozptylu a MSD a vzorce pro výpočet. 1. Je S 2 = 1 ( ) x 2 i (x) 2, s 2 = MSD = x 1 2 (x) 2. 2. Je-li y i = bx i + a, 1 i, pak s 2 y = b 2 s 2 x, s y = b s x a S 2 y = b 2 S 2 x, S y = b S x Věta 7. Fukce S(α) = 1 (x i α) 2 abývá svého miima s 2 pro α = x. Pro soubory, které obsahují velké možství dat je výhodější charakteristiky polohy a rozpětí odhadovat. Uvedeme ěkteré jedoduché odhady a o dalších pojedáme později. Pomocé tvrzeí (Cauchyova erovost): Pro tice čísel (a 1, a 2,..., a k ) a (b 1, b 2,..., b k ) je Věta 8. Pro soubor x i, 1 i platí ( k ) 2 ( k ) ( k ) a i b i a 2 i b 2 i. max{ x i x ; 1 i } s 1. 58

Věta 9. Pro rozpětí souboru platí s 2 R2 4, S2 R2 4( 1) tedy s R 2 1. Průměrá odchylka (mea of absolute deviatio) d a od bodu a je pro soubor dat x i defiováa vztahem d a = 1 x i a. Nejčastěji se používá průměrá odchylka od aritmetického průměru x ebo mediáu x. K tomu ás vede ásledující vlastost. Věta 10. Fukce d a abývá svého miima pro mediá a = x. Pokud používáme jako charakteristiku polohy mediá x = x 0,5, pak místo směrodaté odchylky s používáme jako charakteristiku rozptylu mezikvartilové rozpětí IQR = x 0,75 x 0,25. V tomto itervalu leží 50% hodot souboru. Omezujeme tím vliv případých extrémích hodot, které mohou být zatížeé chybou. Pětičíselá charakteristika (five-umber summary)souboru je pětice čísel x mi, x 25, x 50, x 75, x max, a které jsou založey krabicové grafy. Relativí variabilita Můžeme také používat charakteristiky relativí variability, které jsou defiováy jako poměr směrodaté odchylky a ěkterého průměru. Nejčastěji se používá variačí koeficiet, který je defiová vztahem V = s x. Určuje ám jakou částí se podílí směrodatá odchylka a aritmetickém průměru dat. Je-li V > 0, 5 pak se jedá o esourodý soubor. Variačí koeficiet má tyto vlastosti, které pro jedoduchost budeme uvažovat pro kladá data. Věta 11. Ozačme x soubor dat {x i }, 1 i, bx = {bx i }, b > 0 a x ± a = {x i ± a}, a > 0. Potom pro variačí koeficiet V platí: a) V (bx) = V (x); b) V (x + a) < V (x); c) V (x + a) < V (x) < V (x a), 0 < a < x. Jako aproximace se používá relativí kvartilová odchylka Q r je defiováa vztahem Q r = x 0,75 x 0,25 x 0,75 + x 0,25 Jié charakteristiky Koeficiet šikmosti a koeficiet špičatosti A 3 = 1 s 3 A 4 = 1 s 4 (x i x) 3 (x i x) 4 3 59

Pro data, která jsou rozložea symetricky kolem hodoty x je A 3 = 0. Hodoty A 3 blízké ule odpovídají rozděleí, které se blíží symetrickému. Je-li A 3 > 0, pak je rozložeí dat sešikmeé vpravo, meší hodoty ež průměr x jsou k ěmu více ahuštěy ež hodoty větší. Pro A 3 < 0 je rozděleí sešikmeé vlevo, větší hodoty jsou více ahuštěy k průměru ež hodoty ižší. Je-li A 4 blízké ule, říkáme, že jedá o soubor s ormálí špičatostí. Při A 4 < 0 mluvíme o souborech plochých a při A 4 > 0 mluvíme o souborech špičatých. Podroběji pojedáme o těchto charakteristikách později v souvislosti s áhodou veličiou a jejím rozděleím. 11.9. Písmekové charakteristiky V ěkterých aplikacích se používají ozačeí charakteristik polohy a variability pomocí písme. Ozačujeme tak kvatily, které mají po řadě hodoty p = 1 2 a ěkteré veličiy, které charakterizují rozptýleí hodot souboru. M mediá x = x 0,5, tedy 0, 5 kvatil; F kvartily; F D dolí kvartil x 0,25 ; F H horí kvartil x 0,75 ; E oktily; E D dolí oktil, kvatil x 1/8 ; E H horí oktil, kvatil x 7/8 ; D sedecily; D D dolí sedecil, kvatil x 1/16 ; D H horí sedecil, kvatil x 15/16. R F = F H F D = IQR je mezikvartilové rozpětí. B D, B H vitří hradby souboru, kde B D = F D 1, 5R F, B H = F H + 1, 5R F. (I D, I H ) iterval spolehlivosti pro mediá, kde I D = M 1,57R F a I H = M + 1,57R F, přičemž je počet prvků v souboru. 11.10. Grafická zázorěí I. Graf dat x (1) B D F D M F H B H x () Obr. 11.12 II. Krabicový graf Šířku obdélíka volíme úměrou hodotě x (1) B D B H x () M F D F H Obr. 11.13 III. Vrubový krabicový graf Šířku obdélíka volíme úměrou hodotě x (1) B D B H x () M F D I D I H F H Obr. 11.14 60

Krabicové grafy jsou vhodé pro porováí dvojice souborů, kdy případé rozdíly jsou okamžitě patré z rozměrů krabic. IV. Histogram V. Graf polosum k testováí symetrie. Na osu x vyášíme hodoty x(i) a a osu y hodoty polosum y i = 1 2 (x (i) + x (+1 i) ). Pro symetrické rozděleí leží body kolem přímky y = M. VI. Kvatil=kvatilový Q Q graf je grafem kvatilové fukce. Na osu x vyášíme hodoty P i kvatilů Q(P i ), P i = i +1 a a osu y hodoty y = x (i). VII. Pravděpodobostí P P graf je grafem distribučí fukce. Na osu x vyášíme hodoty x (i) a a osu y hodoty P i = i +1. Oba grafy slouží k testováí shody rozděleí, kde porováváme průběhy pro dva soubory. Používáme je ve dvojici, kdy využíváme toho, že Q Q graf je citlivější a chyby v okrajových datech souboru a P P graf je aopak citlivý a chyby v okolí mediáu. VIII. Rakitový graf je kvatilový Q Q graf, ve kterém porováváme rozděleí s ormálím rozděleím. Na osu x vyášíme P i kvatil x Pi ormálího rozděleí a a osu y hodoty y = x(i). Parametry příslušéo ormálího rozděleí odhademe pomocí hodot Odpovídající kvatily určíme pomocí vzorců ˆµ = M, ˆσ = 3 4 (F H F D ). ( ) ( ) x(i) ˆµ 1 U i = Φ, x Pi = Φ 1 ˆσ 2 (U i 1 + U i+1 ), U 0 = 0, U +1 = 1. V případě ormálího rozděleí leží body a přímce. 11.11. Vícerozměré soubory Sledujeme-li dva zaky, pak soubor dat má charakter uspořádaých dvojic {(x i, y i ), 1 i }. Prví otázkou, kterou obvykle řešíme je popis závislosti prvího a druhého zaku. Jako charakteristiku polohy volíme dvojici (x, y). Za charakteristiku variability obvykle volíme směrodaté odchylky s x, s y. Jako míru statistické závislosti volíme výběrový koeficiet korelace. 11.12. Koeficiet korelace (covariace, coefficiet of liear correlatio) r xy dvou souborů {x i } a {y i }, 1 i je defiová vztahem r xy = 1 Vlastosti ( koeficietu korelace ) a) r xy = ( 1 x i y i ) xy /(s x.s y ); b) r xy = r yx ; r xx = 1; c) r xy 1; d) pro y i = ax i + b je r xy = sga. e) r xy = ±1 y = ax + b. (x i x)(y i y) s x.s y 61

11.13. Sheppardovy korekce V případě výpočtů číselých charkteristik ze setříděého souboru opravujeme ěkteré výběrové momety, abychom potlačily vliv zaokrouhleí dat při ahrazeí jejich hodot průměrem příslušé třídy. Ozačme: {x 1, x 2,..., x } původí datový soubor; {z 1, z 2,..., z k } setříděý soubor; j, 1 j k absolutí četost j té třídy; p j = j, 1 j k relativí četost j té třídy; h rozpětí třídy. Výběrové momety původího souboru M r = 1 x r i, r tý obecý momet; M r = 1 (x i x) r, r tý cetrálí momet; x = M 1 = 1 x i ; Výběrové momety setříděého souboru m r = 1 k k zj r j = zj r p j, r tý obecý momet; j=1 j=1 m r = 1 k k (z j x) r j = (z j x) r p j, r tý cetrálí momet; j=1 j=1 Opraveé hodoty M 1 = m 1 = x; M 2 = m 2 h2 12, M 2 = m 2 h2 12 ; M 3 = m 3 h2 4 m 1, M 3 = m 3 ; M 4 = m 4 h2 2 m 2 + 7h4 240, M 4 = m 4 h2 2 m 2 + 7h4 240. 62