7. P o p i s n á s t a t i s t i k a



Podobné dokumenty
6. P o p i s n á s t a t i s t i k a

11. P o p i s n á s t a t i s t i k a

Deskriptivní statistika 1

12. N á h o d n ý v ý b ě r

Pravděpodobnost a aplikovaná statistika

P2: Statistické zpracování dat

STATISTIKA. Statistika se těší pochybnému vyznamenání tím, že je nejvíce nepochopeným vědním oborem. H. Levinson

Statistika je vědní obor zabývající se zkoumáním jevů, které mají hromadný charakter.

Základy statistiky. Zpracování pokusných dat Praktické příklady. Kristina Somerlíková

13 Popisná statistika

Při sledování a studiu vlastností náhodných výsledků poznáme charakter. podmínek různé výsledky. Ty odpovídají hodnotám jednotlivých realizací

Popisná statistika - zavedení pojmů. 1 Jednorozměrný statistický soubor s kvantitativním znakem

Statistika. Statistické funkce v tabulkových kalkulátorech MSO Excel a OO.o Calc

Pro statistické šetření si zvolte si statistický soubor např. všichni žáci třídy (několika tříd, školy apod.).

1 POPISNÁ STATISTIKA V PROGRAMU MS EXCEL

odhady parametrů. Jednostranné a oboustranné odhady. Intervalový odhad střední hodnoty, rozptylu, relativní četnosti.

Popisná statistika. Zdeněk Janák 9. prosince 2007

Odhady parametrů 1. Odhady parametrů

6 Intervalové odhady. spočteme aritmetický průměr, pak tyto průměry se budou chovat jako by pocházely z normálního. nekonečna.

Náhodný výběr 1. Náhodný výběr

14. B o d o v é o d h a d y p a r a m e t r ů

Parametr populace (populační charakteristika) je číselná charakteristika sledované vlastnosti

z možností, jak tuto veličinu charakterizovat, je určit součet

11. Popisná statistika

Intervalové odhady parametrů některých rozdělení.

4. B o d o v é o d h a d y p a r a m e t r ů

jako konstanta nula. Obsahem centrálních limitních vět je tvrzení, že distribuční funkce i=1 X i konvergují za určitých

Elementární zpracování statistického souboru

Pravděpodobnostní modely

ZÁKLADNÍ STATISTICKÉ VÝPOČTY (S VYUŽITÍM EXCELU)

6. Posloupnosti a jejich limity, řady

Odhady parametrů polohy a rozptýlení pro často se vyskytující rozdělení dat v laboratoři se vyčíslují podle následujících vztahů:

Komplexní čísla. Definice komplexních čísel

1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.

MATICOVÉ HRY MATICOVÝCH HER

8. Analýza rozptylu.

2 EXPLORATORNÍ ANALÝZA

veličiny má stejný řád jako je řád poslední číslice nejistoty. Nejistotu píšeme obvykle jenom jednou

Mezní stavy konstrukcí a jejich porušov. Hru IV. Milan RůžR. zbynek.hruby.

2 STEJNORODOST BETONU KONSTRUKCE

PRAVDĚPODOBNOST A STATISTIKA

Matematika 1. Katedra matematiky, Fakulta stavební ČVUT v Praze. středa 10-11:40 posluchárna D / 13. Posloupnosti

Pravděpodobnost a aplikovaná statistika

i 1 n 1 výběrový rozptyl, pro libovolné, ale pevně dané x Roznačme n 1 Téma 6.: Základní pojmy matematické statistiky

Tržní ceny odrážejí a zahrnují veškeré informace předpokládá se efektivní trh, pro cenu c t tedy platí c t = c t + ε t.

vají statistické metody v biomedicíně

Statistika pro metrologii

Závislost slovních znaků

Náhodu bychom mohli definovat jako součet velkého počtu drobných nepoznaných vlivů.

vají statistické metody v biomedicíně Literatura Statistika v biomedicínsk nském výzkumu a ve zdravotnictví

n=1 ( Re an ) 2 + ( Im a n ) 2 = 0 Im a n = Im a a n definujeme předpisem: n=1 N a n = a 1 + a a N. n=1

Cvičení 6.: Bodové a intervalové odhady střední hodnoty, rozptylu a koeficientu korelace, test hypotézy o střední hodnotě při známém rozptylu

1. K o m b i n a t o r i k a

3. Charakteristiky a parametry náhodných veličin

(Teorie statistiky a aplikace v programovacím jazyce Visual Basic for Applications)

Přednáška VI. Intervalové odhady. Motivace Směrodatná odchylka a směrodatná chyba Centrální limitní věta Intervaly spolehlivosti

Správnost vztahu plyne z věty o rovnosti úhlů s rameny na sebe kolmými (obr. 13).

Cvičení 6.: Výpočet střední hodnoty a rozptylu, bodové a intervalové odhady střední hodnoty a rozptylu

základním prvkem teorie křivek v počítačové grafice křivky polynomiální n

Budeme pokračovat v nahrazování funkce f(x) v okolí bodu a polynomy, tj. hledat vhodné konstanty c n tak, aby bylo pro malá x a. = f (a), f(x) f(a)

8. Základy statistiky. 8.1 Statistický soubor

Intervalové odhady parametrů

4.2 Elementární statistické zpracování Rozdělení četností

2. Náhodná veličina. je konečná nebo spočetná množina;

Číselné charakteristiky náhodných veličin

1.2. NORMA A SKALÁRNÍ SOUČIN

Pravděpodobnost vs. statistika. Data. Teorie pravděpodobnosti pracuje s jednou nebo více teoretickými náhodnými

Pravděpodobnostní model doby setrvání ministra školství ve funkci

17. Statistické hypotézy parametrické testy

V. Normální rozdělení

DIFERENCIÁLNÍ POČET FUNKCE JEDNÉ PROMĚNNÉ. 1) Pojem funkce, graf funkce

1. ZÁKLADY VEKTOROVÉ ALGEBRY 1.1. VEKTOROVÝ PROSTOR A JEHO BÁZE

1. Základy počtu pravděpodobnosti:

1.1. Definice Reálným vektorovým prostorem nazýváme množinu V, pro jejíž prvky jsou definovány operace sčítání + :V V V a násobení skalárem : R V V

Tento odhad má rozptyl ( ) σ 2 /, kde σ 2 je rozptyl souboru, ze kterého výběr pochází. Má-li každý prvek i. σ 2 ( i. ( i

STUDIUM MAXWELLOVA ZÁKONA ROZDĚLENÍ RYCHLSOTÍ MOLEKUL POMOCÍ DERIVE 6

1. Číselné obory, dělitelnost, výrazy

Matematika I, část II

Funkce. RNDr. Yvetta Bartáková. Gymnázium, SOŠ a VOŠ Ledeč nad Sázavou

Matematika přehled vzorců pro maturanty (zpracoval T. Jánský) Úpravy výrazů. Binomická věta

Ilustrativní příklad ke zkoušce z B_PS_A léto 2014.

1 ROVNOMĚRNOST BETONU KONSTRUKCE

STATISTIKA PRO EKONOMY

Geometrická optika. Zákon odrazu a lomu světla

MATEMATIKA PŘÍKLADY K PŘÍJÍMACÍM ZKOUŠKÁM BAKALÁŘSKÉ STUDIUM MGR. RADMILA STOKLASOVÁ, PH.D.

Obsah. 1 Mocninné řady Definice a vlastnosti mocninných řad Rozvoj funkce do mocninné řady Aplikace mocninných řad...

České vysoké učení technické v Praze. Fakulta dopravní. Semestrální práce. Statistika

Iterační metody řešení soustav lineárních rovnic

10.3 GEOMERTICKÝ PRŮMĚR

Pevnost a životnost - Hru III 1. PEVNOST a ŽIVOTNOST. Hru III. Milan Růžička, Josef Jurenka, Zbyněk Hrubý.

Úloha III.S... limitní

Odhady parametrů základního. Ing. Michal Dorda, Ph.D.

Matematika 1. Ivana Pultarová Katedra matematiky, Fakulta stavební ČVUT v Praze. středa 10-11:40 posluchárna D Posloupnosti

Kapitola 5 - Matice (nad tělesem)

1.3. POLYNOMY. V této kapitole se dozvíte:

Petr Šedivý Šedivá matematika

Abstrakt. Co jsou to komplexní čísla? K čemu se používají? Dá se s nimi dělat

Seznámíte se s pojmem Riemannova integrálu funkce jedné proměnné a geometrickým významem tohoto integrálu.

11. přednáška 16. prosince Úvod do komplexní analýzy.

8. Odhady parametrů rozdělení pravděpodobnosti

Transkript:

7. P o p i s á s t a t i s t i k a 7.. Pozámka: Při statistickém zkoumáí ás zajímají hromadé jevy a procesy, u kterých zkoumáme zákoitosti, které se projevují u velkého počtu prvků. Prvky zkoumáí azýváme statistické jedotky. Sledujeme vlastosti statistických jedotek, které azýváme statistické zaky ebo stručěji veličiy (variable). Souhr zaků a veliči tvoří data. Při zkoumáí používáme dva základí druhy statistiky, popisou statistiku (describe statistics) a iterferečí statistiku. Popisá statistika zjišťuje a sumarizuje iformace, zpracovává je ve formě grafů a tabulek a vypočítává jejich číselé charakteristiky jako průměr, rozptyl percetily, rozpětí a pod. Iterferečí statistika čií závěry a základě dat získaých z šetřeí provedeých pro vybraý soubor respodetů. Aalyzuje tyto závěry a predikuje z ich závěr pro celý soubor. (Volebí průzkum, průzkum trhu a pod.) Při statistickém šetřeí máme k dispozici: - základí soubor je soubor všech statistických jedotek; - výběrový soubor je vybraá část ze základího souboru. Rozsah základího (výběrového) souboru je počet jedotek v souboru. Při vytvářeí souboru jedotek provádíme výběr ve tvaru prostého áhodého výběru. 7.2. Defiice: Prostý áhodý výběr (simple radom sample) je áhodý výběr ze základího souboru vytvořeý tak, že každá statistická jedotka ze základího souboru má stejou pravděpodobost, že bude vybráa. Pokud je možé vybrat tutéž jedotku zova, mluvíme o výběru s vraceím, pokud opakovaý výběr eí možý jedá se o výběr bez vraceí. Pozámka: Jié metody používají defiovaý způsob výběru, který je popsá zadaým algoritmem. Využívá se především vytvářeí výběru s meším rozsahem, který podchycuje zákoitosti obsažeé v rozsáhlejším výběru. V dalším se budeme zabývat popisou statistikou. 6

Popisá statistika Vlastosti, které se pro jedotlivé jedotky měí azýváme veličiami, případě statistickými zaky ebo proměými (variable). Vyskytují se veličiy - kvatitativí, popsaé číselou hodotou (výška, váha, cea); - kvalitativí, popsaé vlastostmi (muž, žea, barva očí, dosažeé vzděláí). Kvatitativí veličiy mohou být diskrétí (discrete), abývající hodot ze zadaé koečé možiy, ebo spojité (cotiuous), které abývají hodot ze zadaého itervalu. Pozorovaím ebo měřeím hodot zkoumaé veličiy a ěkolika statistických jedotkách získáme vstupí data. Soubor těchto údajů azýváme datový soubor. Teto soubor je jedorozměrý, jestliže sledujeme jede zak, ebo vícerozměrý (multistage radom sample), pokud sledujeme více zaků. Při zpracováí jedorozměrého datového souboru kvatitativích dat x, x 2,..., x potřebujeme pro ěkterá šetřeí data uspořádat podle velikosti. Dostaeme pak uspořádaý datový soubor tvaru x () x (2)... x (), kde x () = mi{x i ; i } a x () = max{x i ; i }. Metody zpracovaí dat 7.3. Tříděí dat je rozděleí dat do skupi provedeé tak, aby vyikly charakteristické vlastosti sledovaých jevů. Uspořádáme a zhustíme data do přehledější formy. Rozezáváme - jedostupňové tříděí, jestliže třídíme data podle změ jedoho statistického zaku; - vícestupňové tříděí, pokud provádíme tříděí podle více zaků ajedou. Nejčastěji při jedostupňovém tříděí kvatitativích dat uspořádáme data podle velikosti a staovíme itervaly, které odpovídají jedotlivým třídám. Mluvíme pak o itervalovém tříděí. Máme-li datový soubor {x, x 2,..., x }, který obsahuje celkem dat, pak iterval mezi ejvětší a ejmeší hodotou rozdělíme a k disjuktích itervalů, tříd (classes), tvaru (a i, a i, i k. Potom prvek 7

x j patří do i té třídy, pokud je a i < x j a i. Používáme ásledujících termíů a ozačeí: - třída (class) je část dat z itervalu (a i, a i ; - dolí hraice třídy (lower class limit) je hodota a i ; - horí hraice třídy (upper class limit) je hodota a i ; - střed třídy (class mark) je průměr horí a dolí hraice třídy, tedy y i = 2 (a i + a i ); - šířka třídy (class width) je rozdíl horí a dolí hraice třídy, tedy hodota a i a i ; - (absolutí) četost třídy (frequecy) i je počet prvků souboru, které patří do i té třídy; - relativí četost (relative frequecy) p i = i je poměr četosti třídy ku celkovému počtu dat; - kumulativí (absolutí) četost (cumulative frequecy) N i = + 2 +...+ i je součet četosti třídy a četostí tříd předchozích; - kumulativí relativí četost (cumulative relative frequecy) P i = p + p 2 +... + p i je součet relativí četosti třídy a relativích četostí tříd předchozích. Potom platí: k i =, k p i =, i j= j = N i, i j= p j = P i, N k =, P k =. Při staoveí hraic tříd obvykle zachováváme tato dvě pravidla: - šířku třídy h volíme pro všechy itervaly shodou, s vyjímkou krajích tříd pokud tvoří eomezeé itervaly: - při staoveí šířky třídy h dodržujeme Sturgesovo pravidlo, kdy pro počet tříd k platí, že k. = + 3, 3 log. V tabulce jsou uvedey počty tříd pro ěkteré hodoty rozsahů souboru. 5 0 20 40 50 00 200 000 k 3 4 5 6 7 8 9 - pokud jsou krají itervaly děleí eomezeé, pak za střed prví, resp. posledí třídy volíme bod, který má od koečého krajího bodu třídy stejou vzdáleost jakou má od středu sousedí třídy. Při tříděí kvalitativích dat postupujeme obdobě. Jeom místo itervalu tvoří třídu prvky, které mají stejý zak, ebo skupiu zaků. 8

7.4. Grafická zázorěí Pro větší ázorost požíváme místo tabulek zázorěí datového souboru pomocí grafů. Používá se ěkolika typů. Histogram (histogram) je graf kdy a vodorovou osu zázoríme třídy a a svislou osu četosti či relativí četosti. Často se používá ve tvaru, kdy se hodota odpovídající třídě zázorí jako sloupec s itervalem třídy jako základou a výška je dáa četostí. Polygo četostí a relativích četostí je graf, kdy úsečkami spojíme body (y i, i ), resp. (y i, p i ). Bodový graf (dot diagram) dostaeme tak, že a vodorovou osu vyeseme třídy jako body i, i k, a ve svislém směru vyášíme jedotlivé prvky třídy zázorěé jako jedotlivé body (i, j), j =, 2,... i. Sloupkový graf je podobý histogramu, ale sloupce bývají odděleé, mají stejou šířku a každý sloupec odpovídá jedé třídě. Používáme je předeším u kvalitativích dat. Kruhový (výsečový) diagram (pie chart) je zázorěí pomocí výsečí kruhu, kde každé třídě odpovídá jeda výseč. Velikosti obsahů výsečí odpovídají četostem třídy. Stem-ad-Leaf diagram je uspořádáí dat do tabulky, kdy prví sloupec -stem=stoek odpovídá třídě a do řádku -leaf=list vypisujeme prvky třídy. Pokud tyto prvky uspořádáme podle velikosti mluvíme o uspořádaém diagramu. Krabicový ebo vrubový krabicový graf (box or whiskers plot) zázorňuje výzačé a extrémí hodoty souboru. 7.5. Příklad: Ze 7 možých výsledků jsme dostali datový soubor o 4 datech i 2 3 4 5 6 7 8 9 0 2 3 4 x i 2 3 2 5 2 7 4 5 4 2 5 Tab. 7.. Datům odpovídá tabulka četostí Tab. 7.2 a bodový graf a obrázku Obr. 7.. 9

třída 2 3 4 5 6 7 četost 3 4 2 3 0 4 3 2 2 3 4 5 6 7 i Tab. 7.2. Obr. 7.. Polygo četostí k Tab 7.2. Histogram četostí k Tab. 7.2. 4 3 2 4 3 2 2 3 4 5 6 7 i 2 3 4 5 6 7 i Obr. 7.2. Obr. 7.3. Sloupkový graf k tabulce Tab. 7.2. 4 3 2 2 3 4 5 6 7 i Obr. 7.4. Řada vlastostí datového souboru se dá vyčíst z tvaru histograu či polygou četostí. Ty odpovídají grafu hustoty u rozděleí pravděpodobosti áhodé veličiy. Rozlišuje se ěkolik charakteristických průběhů těchto grafů. - souměrý ve tvaru zvou, trojúhelíku či rovoměrý; - esouměré ve tvaru J, obráceého J, vpravo či vlevo protažeé; - podle počtu vrcholů jedo-, dvou-, či vícevrcholové (uimodal, bimodal, multimodal). 7.6. Charakteristiky (míry) polohy. Nejzámější a ejčastěji používaou charakteristkou polohy je aritmetický průměr hodot souboru. 20

Průměr (mea, sample mea) datového souboru {x, x 2,..., x } je defiová vztahem x = x k. Pokud jsou {z, z k,..., z m } růzé hodoty souboru s četostmi j, j =, 2,..., m, a s relativími četostmi p j, pak k= x = m j= z j j = m j= z j p j. Věta. Vlastosti průměru Pro průměr datového souboru platí:. Součet odchylek hodot souboru od průměru je rove ule, t.j. (x i x) = 0. 2. Přičteme-li k hodotám souboru kostatu a, pak průměr ového souboru {y i = x i + a} je y = (x i + a) = x + a. 3. Násobíme-li hodoty souboru číslem b, ásobí se průměr také b, eboť pro soubor {y i = bx i } je y = bx i = bx. Pokud soubor {x 0, x,..., x } tvoří data, která odpovídají časové řadě sledující tred vývoje, pak jako charakteristiku polohy používáme průměrý přírůstek. Zavádíme jej jako průměr y souboru {y i = x i x 0, i }. Je pak y = x (x i x 0 ) = (x x 0 ). Mediá (media). Průměr datového souboru je citlivý a hrubé chyby, kdy jeda chybá hodota může výrazě změit hodotu průměru. Proto ěkdy používáme robustích charakteristik, které jsou méě citlivé a zadáí chybé hodoty. Mezi ě patří mediá (media) x, který je pro datový soubor x, x 2,... x defiová vztahem x = 2 x (m), pro = 2m, ( ) x(m) + x (m+), pro = 2m. Hodoty mediáů pro dva růzé typy rozsahů souborů zázoríme a obrázcích. 2

liché, = 5 x = x 3 x x 2 x 3 x 4 x 5 sudé, = 6 x = (x 3 + x 4 )/2 x x 2 x 3 x 4 x 5 x 6 Obr. 7.5. mediá Obr. 7.6. mediá Používáme jej i v případech, kdy soubor obsahuje ěkterá extrémí data, tzv. odlehlá pozorováí. Ta se v hodotě mediáu výrazěji eprojeví a mediá tak lépe vystihuje průměr souboru. Další z robustích charakteristik je modus (mode) ˆx, který je defiová jako hodota souboru s ejvětší četostí, tedy ˆx = z j, j i, i m. Pozameejme, že modus emusí být jedozačě urče, může abývat ěkolika hodot. Používáme jej v případech, kdy ás zajímají špičkové hodoty souboru, apř. při sledováí dopraví zátěže v místě, počet cestujících v hromadé dopravě, spotřeba elektrické eergie během de a roku, či průtok řekou. Kvatily, kvartily, decily, percetily Pro podrobější popis rozděleí hodot datového souboru používáme kvatily (quatiles). Kvatil datového souboru rozděluje soubor a dvě části. V jedé jsou hodoty souboru, které jsou meší či ejvýše rovy kvatilu a ve druhé jsou hodoty větší ež kvatil. Defiujeme pro p, 0 < p <, p kvatil, resp. 00p%kvatil, (quatile) jako tu hodotu x 00p ze souboru {x, x 2,..., x }, pro kterou je přibližě 00p% hodot ze souboru meších a 00( p)% hodot je větších ež x 00p. Nejjemější používaé rozděleí souboru je pomocí percetilů (percetile) x, x 2,..., x 99. Často se využívají decily (deciles) x 0,..., x 90. Speciálí ázvy mají kvatily: - x 50 je mediá (media); - x 25 dolí kvartil (lower quartile); - x 75 horí kvartil (upper quartile). Jako mezikvartilové rozpětí IQR (iterquartile rage) se defiuje rozdíl IQR = x 75 x 25. Jsou-li x () x (2)... x () hodoty souboru uspořádaé podle 22

velikosti pak p kvatil, resp. 00p% kvatil určíme podle vzorce x 00p = x ([p]+), pokud p eí celé číslo, 2 (x (p) + x (p)+ ) pro p celé, kde [p] je celá část čísla, tedy celé číslo, které je ejbližší meší. Při větších rozdílech mezi jedotlivými daty používáme pro přesější vymezeí kvatilů lieárí aproximace mezi sousedími hodotami. Závěr modus sado se ajde, má ale miimálí vypovídací hodotu: mediá určuje střed souboru a je méě citlivý a chyby; průměr zohledňuje všechy hodoty, ale je citlivý a chyby. Usekuté průměry Je-li x () x (2)... x () uspořádaý výběr, pak pro číslo 0 < α < 0, 5 azýváme hodotu x α = 2[α] [α] i=[α]+ x (i) α-usekutým průměrem (alpha-trimmed mea). Hodotu x αw = [α] i=[α]+ ( [α]x([α]) + x (i) + [α]x ( [α]+) ) azýváme α-wisorizovaý průměr (α-wisored mea). Symbol [α] ozačuje ejvětší celé číslo k, pro které je k α. Jié průměrové charakteristiky polohy. Pro soubory kladých dat používáme také jié průměry. Jsou to: Geometrický průměr (geometric mea) x G, který je pro soubor x, x 2,..., x kladých dat defiová vztahem x G = x x 2... x. Takový charakter mají apř. hodoty, které zachycují časový vývoj, apř. v ekoomice růst produkce, či ce, přírůstek počtu obyvatel a pod. Je-li časový vývoj popsá hodotami souboru {x 0, x,..., x }, pak položíme z k = x k x k, k a hodoty z k vyjadřují poměrý přírůstek 23

během zvoleého úseku sledovaého období. Průměrý přírůstek za celé období je pak dá hodotou x z G = z.z 2... z =. x 0 Vlastosti geometrického průměru. Násobíme-li hodoty původího souboru číslem c, ásobí se týmž číslem i geometrický průměr. Pro logaritmus geometrického průměru platí: lx G = lx = Věta 2. Pro soubor s kladými daty je x G x lx i. a rovost astae jediě pro x = x 2 =... = x. Důkaz: Fukce f(x) = l x je kovexí a tedy pro x a h je Situaci zázoríme a obrázku f(x) f(h) + f (h)(x h). y y = y(x) + y (x)(x x) y = lx x x Obr. 7.7. Jestliže zvolíme x = x i a h = x, pak pro i platí erovice ( ) l x i l x + (x i x)f (x), i. Sečteím dostaeme erovici l x i l x + f (x) (x i x) = l x, 24

protože podle věty je tedy Dále je (x i x) = 0. l x G = l( x x 2... x ) = l x G l x x G x, l x i, eboť je fukce l x rostoucí. Rovost ve vztahu ( ) astae jediě pro x i = x, tedy pokud je x = x 2 =... = x. Harmoický průměr (harmoic mea) x H, který je pro soubor kladých dat defiová vztahem x H = x + x. 2 +... + x Pozámka: Využívá se tam, kde má vypovídací hodotu převráceá hodota k původí. Nejčastěji je to v případech, kdy hodota x i odpovídá době uté k provedeí ějakého pracovího úkou. Převráceá hodota pak uvádí, jaká část pracovího úkou je splěa za jedotku času. Věta 3. Pro soubor s kladými daty je x H x G x, přičmž rovost astae pouze pro x = x 2 =... = x. Důkaz: Z defiice harmoického průměru vyplývá vztah x H = což je aritmetický průměr souboru x H = x x 2 2... x x = i x i. { } x i. Podle věty 2 je ale Rovost platí pouze v případě, že x = x 2 =... = x. = x H x G. x x 2... x x G Kvadratický průměr (quadratic mea)x K je defiová vztahem x K = 25 x 2 i.

Věta 4. Je x x K a rovost platí pouze v případě, že x = x 2 =... x. Důkaz: Fukce f(x) = x 2 je kokáví a tedy je x 2 h 2 +f (h)(x h). Situace zázoríme a obrázku y y = y(x) + y (x)(x x) x y = x 2 x Obr. 7.8. Jestliže položíme x = x i a h = x, pak x 2 i (x) 2 + f (x)(x i x) x 2 i (x) 2 + f (x)(x i x) (x K ) 2 (x) 2 x K x. Rovost astae pouze pro x i = x, tedy pro x = x 2 =... = x. Věta 5. Pro soubory kladých dat je x () x H x G x x K x () a rovost astae pouze v případě, že x = x 2 =... = x. 7.7. Charakteristiky (míry) rozptýleosti. Rozpětí datového souboru (rage) je hodota R = x max x mi. Hodota se po uspořádáí souboru sado spočítá, ale její hodota je citlivá a zavlečeé chyby. Vychází pouze ze dvou hodot a igoruje iformaci z ostatích hodot souboru. V ěkterých případech proto používáme jako charakteristiku tohoto druhu hodotu x 90 x 0. Provedeme vlastě ořezáí souboru, když vyecháme hodoty meší ež x 0 a větší ež x 90, tedy 0% ejmeších a 0% ejvětších hodot.odstraíme tím vliv případých chybých hodot, které leží a hraicích souboru. Podobou charakteristikou je mezikvartilové rozpětí (iterquartile rage) IQR = x 75 x 25. 26

Středí kvadratická odchylka (MSD) (mea of squared deviatio) je průměr čtverců odchylek od průměru a je defiová vztahem s 2 = (x i x) 2. Rozptyl (dispersio, variace) je defiová vzrcem S 2 = MSD = (x i x) 2 a směrodatá odchylka (stadard deviatio) S je odmociou z rozptylu. Věta 6. Vlastosti rozptylu a MSD a vzorce pro výpočet.. Je ( )S 2 = (x i x) 2 = x 2 i 2x x i + (x) 2 = = S 2 = x 2 i 2x x i + x x i = x 2 i (x) 2 x 2 i (x) 2, s 2 = x 2 (x) 2. 2. Je-li y i = bx i + a, i, pak s 2 y = b 2 s 2 x, s y = b s x ; S 2 y = b 2 S 2 x, S y = b S x Věta 7. Fukce S(α) = (x i α) 2 abývá svého miima s 2 pro α = x. Důkaz: Je S (α) = 2(x i α)( ) = 0 (x i α) = 0 x = α. Pro soubory, které obsahují velké možství dat je výhodější charakteristiky polohy a rozpětí odhadovat. Uvedeme ěkteré jedoduché odhady a o dalších pojedáme později. Pomocé tvrzeí (Cauchyova erovost): Pro tice čísel (a, a 2,..., a k ) a (b, b 2,..., b k ) je k a i b i 2 k a 2 k i b 2 i. 27

Jestliže iterpretujeme tice čísel jako aritmetické vektory v R k, pak lze uvedeou erovici přepsat do tvaru ( a. b) 2 a 2. b 2. Ta ale platí, eboť skalárí souči dvou vektorů je rove a. b = a. b. cos ( a, b). Protože je fukce kosius omezeá v absolutí hodotě jedičkou, uvedeá erovice platí. Ve vztahu platí rovost pouze v případě, že je kosius úhlu ulový a to astae, je-li b = α a, t.j. b i = αa i, i. Věta 8. Pro soubor x i, i platí max{ x i x ; i } s. Důkaz: Položme v tvrzeí pomocé věty a = (x x,..., x i x, x i+ x,..., x x) a b = (,,..., ). Potom je j i(x j x) Protože je 2 ( ) j i(x j x) 2 = ( ) j= j x) = 0 (x i x) = j=(x (x j x) j i tak z předchozí erovice vyplývá, že (x j x) 2 (x i x) 2 (x i x) 2 ( ) (x j x) 2 ( )(x i x) 2 (x i x) 2 j= j= (x j x) 2 = ( )s 2 =. ( )2 S 2 ( )S 2. Odmocěím získáme dokazovaou erovici. Tato erovice platí pro všechy hodoty idexu i, i, platí tedy i pro tu kde abývá fukce maximuma. Věta 9. Pro rozpětí souboru platí s 2 R2 4, S2 R2 4( ) tedy S R 2. 28

Důkaz: Ozačme m = 2 (x () + x () ). Je tedy x i m R 2, i. Fukce S(α) z věty 7 abývá svého miima pro α = x a tedy je s 2 = S(x) S(m) = (x i m) 2 R2 4. Ze vztahu S 2 = s2 dostaeme uvedeý odhad. Průměrá odchylka (mea of absolute deviatio) d a od bodu a je pro soubor dat x i defiováa vztahem d a = x i a. Nejčastěji se používá průměrá odchylka od aritmetického průměru x ebo mediáu x. K tomu ás vede ásledující vlastost. Věta 0. Fukce d a abývá svého miima pro mediá a = x. Důkaz: Je-li a < x (), pak je d a = (x i a) = x a, tedy d (a) = a tudíž je fukce d a klesající v itervalu (, x () ). Obdobě pro a > x () je d a = a x, tedy d (a) = a tudíž je fukce d a rostoucí v itervalu (x (), ). Nechť je x (j) < a < x (j+) pro ějaké j. Potom je Je tedy d a = x (i) ) + (a i=j+ (x (i) a). d (a) = 2j (j + ( j)( )) =. Derivace fukce d a je záporá a tedy fukce je klesající pro 2j < 0 a je kladá, tedy fukce je rostoucí, pro 2j > 0. Je-li = 2m + liché číslo, pak 2j < = 2m + j < m +, tedy fukce d a je klesající v itervalu (, x (m+) ) a 2j > 2m + j > m +, je tedy fukce d a rostoucí v itervalu (a (m+), ). Nabývá tedy svého miima v bodě x (m+) což je mediá x. Je-li = 2m sudé číslo, pak má fukce d a derivaci ulovou a tedy je kostatí v itervalu (x (m), x (m+) ). Hodota v tomto itervalu je její miimum a střed itervalu je mediá x. Situaci pro rozsahy,2 a 3 zázoríme a obrázcích, a kterých je patrá idea důkazu. 29

y x d a a y x x 2 d a a y Obr.7.9 Obr. 7.0 x x 2 x 3 d a a Obr.7. Pokud používáme jako charakteristiku polohy mediá x = x 0,5, pak místo směrodaté odchylky s používáme jako charakteristiku rozptylu mezikvartilové rozpětí IQR = x 0,75 x 0,25. V tomto itervalu leží 50% hodot souboru. Omezujeme tím vliv případých extrémích hodot, které mohou být zatížeé chybou. Pětičíselá charakteristika (five-umber summary)souboru je pětice čísel x mi, x 25, x 50, x 75, x max, a které jsou založey krabicové grafy. Relativí variabilita Můžeme také používat charakteristiky relativí variability, které jsou defiováy jako poměr směrodaté odchylky a ěkterého průměru. Nejčastěji se používá variačí koeficiet, který je defiová vztahem V = s x. Určuje ám jakou částí se podílí směrodatá odchylka a aritmetickém průměru dat. Je-li V > 0, 5 pak se jedá o esourodý soubor. Variačí 30

koeficiet má tyto vlastosti, které pro jedoduchost budeme uvažovat pro kladá data. Věta. Ozačme x soubor dat {x i }, i, bx = {bx i }, b > 0 a x ± a = {x i ± a}, a > 0. Potom pro variačí koeficiet V platí: a) V (bx) = V (x); b) V (x + a) < V (x); c) V (x + a) < V (x) < V (x a), 0 < a < x. Pozameejme, že s(bx) = bs(x), s(x + a) = s(x) a bx = bx, x + a = x + a. Odtud dostaeme, že V (bx) = s(bx) bx Dále je s(x + a) V (x + a) = x + a a obdobě pro 0 < a < x je V (x a) = s(x a) x a = bs(x) bx = V (x). = s(x) x + a < s(x) x = s(x) x a > s(x) x = V (x) = V (x). Jako aproximace se používá relativí kvartilová odchylka Q r je defiováa vztahem Q r = x 0,75 x 0,25 x 0,75 + x 0,25 Jié charakteristiky Koeficiet šikmosti (skewess) A 3 = s 3 a koeficiet špičatosti (kurtosis) A 4 = s 4 (x i x) 3 (x i x) 4 3 Pro data, která jsou rozložea symetricky kolem hodoty x je A 3 = 0. Hodoty A 3 blízké ule odpovídají rozděleí, které se blíží symetrickému. Je-li A 3 > 0, pak je rozložeí dat sešikmeé vpravo, meší hodoty ež průměr x jsou k ěmu více ahuštěy ež hodoty větší. Pro A 3 < 0 je 3

rozděleí sešikmeé vlevo, větší hodoty jsou více ahuštěy k průměru ež hodoty ižší. Je-li A 4 blízké ule, říkáme, že jedá o soubor s ormálí špičatostí. Při A 4 < 0 mluvíme o souborech plochých a při A 4 > 0 mluvíme o souborech špičatých. Příklad: Uvedeme výpočty uváděých charakteristik pro soubor dat z tabulky Tab. 7.. Je x = 4 44 = 3, 43, R = 7 = 6 a s2 = 3, 565, s =, 875. Pro kvatily dostaeme: x 0 = x 2 =, x 90 = x 3 = 5, x 25 = x 4 = 2, x 50 = x 3 = 5, x 75 = x = 5. Mezikvartilové rozpětí IQR = x 75 x 25 = 5 2 = 3. Variačí koeficiet V = s, 875 = = 0, 597. x 3, 43 Sheppardovy korekce V případě výpočtů číselých charkteristik ze setříděého souboru opravujeme ěkteré výběrové momety, abychom potlačili vliv chyb, které vzikou při ahrazeí dat průměrem příslušé třídy. Ozačme: {x, x 2,..., x } původí datový soubor; {z, z 2,..., z k } setříděý soubor; j, j k absolutí četost j té třídy; p j = j, j k relativí četost j té třídy; h rozpětí třídy. Výběrové momety původího souboru M r = M r = x r i, r tý obecý momet; (x i x) r, r tý cetrálí momet; x = M = x i ; Výběrové momety setříděého souboru 32

m r = m r = k j= k j= z r j j = k j= Opraveé hodoty M = m = x; z r j p j, r tý obecý momet; (z j x) r j = k (z j x) r p j, r tý cetrálí momet; j= M 2 = m 2 h2 2, M 2 = m 2 h2 2 ; M 3 = m 3 h2 4 m, M 3 = m 3 ; M 4 = m 4 h2 2 m 2 + 7h4 240, M 4 = m 4 h2 2 m 2 + 7h4 240. 7.9. Písmekové charakteristiky V ěkterých aplikacích se používají ozačeí charakteristik polohy a variability pomocí písme. Ozačujeme tak kvatily, které mají po řadě hodoty p = 2 a ěkteré veličiy, které charakterizují rozptýleí hodot souboru. M mediá x = x 0,5, tedy 0, 5 kvatil; F kvartily; F D dolí kvartil x 0,25 ; F H horí kvartil x 0,75 ; E oktily; E D dolí oktil, kvatil x /8 ; E H horí oktil, kvatil x 7/8 ; D sedecily; D D dolí sedecil, kvatil x /6 ; D H horí sedecil, kvatil x 5/6. R F = F H F D = IQR je mezikvartilové rozpětí. B D, B H vitří hradby souboru, kde B D = F D, 5R F, B H = F H +, 5R F. Pozameejme, že pro ormovaé ormálí rozděleí N(0; ) je B H B D 4, 2 a P (X < B D X > B H ) =. 0, 04. (I D, I H ) iterval spolehlivosti pro mediá, kde I D = M,57R F a I H = M +,57R F, přičemž je počet prvků v souboru. 7.0. Grafická zázorěí I. Graf dat x () B D F D M F H B H x () 33

Obr. 7.2 II. Krabicový graf Šířku obdélíka volíme úměrou hodotě x () B D B H x () M F D F H Obr. 7.3 III. Vrubový krabicový graf hodotě Šířku obdélíka volíme úměrou x () B D B H x () M F D I D I H F H Obr. 7.4 Krabicové grafy jsou vhodé pro porváí dvojice souborů, kdy případé rozdíly jsou okamžitě patré z rozměrů krabic. IV. Histogram V. Graf polosum k testováí symetrie. Na osu x vyášíme hodoty x(i) a a osu y hodoty polosum y i = 2 (x (i) + x (+ i) ). Pro symetrické rozděleí leží body kolem přímky y = M. VI. Kvatil=kvatilový Q Q graf je grafem kvatilové fukce. Na osu x vyášíme hodoty P i kvatilů Q(P i ), P i = i + a a osu y hodoty y = x (i). VII. Pravděpodobostí P P graf je grafem distribučí fukce. Na osu x vyášíme hodoty x (i) a a osu y hodoty P i = i +. Oba grafy slouží k testováí shody rozděleí, kde porováváme průběhy pro dva soubory. Používáme je ve dvojici, kdy využíváme toho, že 34

Q Q graf je citlivější a chyby v okrajových datech souboru a P P graf je aopak citlivý a chyby v okolí mediáu. VIII. Rakitový graf je kvatilový Q Q graf, ve kterém porováváme rozděleí s ormálím rozděleím. Na osu x vyášíme P i kvatil x Pi ormálího rozděleí a a osu y hodoty y = x(i). Parametry příslušéo ormálího rozděleí odhademe pomocí hodot ˆµ = M, ˆσ = 3 4 (F H F D ). Odpovídající kvatily určíme pomocí vzorců ( ) ( x(i) ˆµ U i = Φ, x Pi = Φ ˆσ 2 (U i + U i+ ) V případě ormálího rozděleí leží body a přímce. ), U 0 = 0, U + =. 7.. Vícerozměré soubory Sledujeme-li dva zaky, pak soubor dat má charakter uspořádaých dvojic {(x i, y i ), i }. Prví otázkou, kterou obvykle řešíme je popis závislosti prvího a druhého zaku. Jako charakteristiku polohy volíme dvojici (x, y). Za charakteristiku variability obvykle volíme směrodaté odchylky s x, s y. Jako míru statistické závislosti volíme koeficiet korelace. 7.2. Koeficiet korelace (covariace, coefficiet of variatio) r xy dvou souborů {x i } a {y i }, i je defiová vztahem r xy = (x i x)(y i y) s x.s y Vlastosti ( koeficietu korelace ) a) r xy = ( x iy i ) xy /(s x.s y ); b) r xy = r yx ; r xx = ; c) r xy ; d) pro y i = ax i + b je r xy = sga. e) r xy = ± y = ax + b. Důkaz: a) Pro čitatel zlomku dostaeme (x i x)(y i y) = (x i y i x i y xy i + xy) = (x i y i xy). 35

Odtud dostaeme odvozovaý vzorec. b) Tvrzeí jsou zřejmá. c) Z Cauchyovy erovosti dostaeme (x i x)(y i y) 2 (x i x) 2. (y i y) 2 = 2 s 2 x.s 2 y a odtud plye příslušé tvrzeí. d) Pro soubor y = ax + b je podle: s y = a s x a y = ax + b. Dále je x i y i = x i (ax i + b) = a x i y i + bx. Je tedy r xy = ( a (x i) 2 (x) 2 a s x.s x ) + bx bx = a a = sga. Druhá část tvrzeí plye z Cauchyovy erovosti, kde rovost astává pouze v případě, že y i y = a(x i x), tedy pro y i = ax i + b. Vztah ve dvojici (x i, y i ), který jsme použili lze jedoduše graficky zázorit. Do roviy vyeseme body o souřadicích (x i x, y i y). Závislost podobá lieárí závislosti y = ax+b se projeví tak, že kladé hodotě x bude odpovídat kladá hodota y a záporé hodotě x záporá hodota y pro a > 0. V obrázku je to oblast I, která odpovídá kladým hodotám čitatele ve vzorci pro koeficiet korelace. Čím budou body bliže přímce y = ax, tím bude hodota r xy blíže. Pro a < 0 bude závislost opačá, body ležet v oblasti II a hodota bude bližší. V případě ezávislosti hodot x a y budou body rozmístěy rovoměrě v obou částech I i II a hodota koeficietu korelace bude blízká ule, záporé a kladé hodoty v součtu se vyrovají. II y I I II x Obr. 7.5 36