8 Průzkumová analýza dat



Podobné dokumenty
Deskriptivní statistika 1

6 Intervalové odhady. spočteme aritmetický průměr, pak tyto průměry se budou chovat jako by pocházely z normálního. nekonečna.

1 POPISNÁ STATISTIKA V PROGRAMU MS EXCEL

12. N á h o d n ý v ý b ě r

Pravděpodobnost a aplikovaná statistika

VYSOCE PŘESNÉ METODY OBRÁBĚNÍ

Odhady parametrů polohy a rozptýlení pro často se vyskytující rozdělení dat v laboratoři se vyčíslují podle následujících vztahů:

Odhady parametrů 1. Odhady parametrů

Náhodný výběr 1. Náhodný výběr

Základy statistiky. Zpracování pokusných dat Praktické příklady. Kristina Somerlíková

veličiny má stejný řád jako je řád poslední číslice nejistoty. Nejistotu píšeme obvykle jenom jednou

STATISTIKA. Statistika se těší pochybnému vyznamenání tím, že je nejvíce nepochopeným vědním oborem. H. Levinson

Pravděpodobnostní modely

13 Popisná statistika

ZÁKLADNÍ STATISTICKÉ VÝPOČTY (S VYUŽITÍM EXCELU)

REGRESNÍ DIAGNOSTIKA. Regresní diagnostika

P2: Statistické zpracování dat

NEPARAMETRICKÉ METODY

UPLATNĚNÍ ZKOUŠEK PŘI PROHLÍDKÁCH MOSTŮ

Mezní stavy konstrukcí a jejich porušov. Hru IV. Milan RůžR. zbynek.hruby.

Cvičení 6.: Výpočet střední hodnoty a rozptylu, bodové a intervalové odhady střední hodnoty a rozptylu

odhady parametrů. Jednostranné a oboustranné odhady. Intervalový odhad střední hodnoty, rozptylu, relativní četnosti.

Závislost slovních znaků

Pro statistické šetření si zvolte si statistický soubor např. všichni žáci třídy (několika tříd, školy apod.).

2 STEJNORODOST BETONU KONSTRUKCE

i 1 n 1 výběrový rozptyl, pro libovolné, ale pevně dané x Roznačme n 1 Téma 6.: Základní pojmy matematické statistiky

Cvičení 6.: Bodové a intervalové odhady střední hodnoty, rozptylu a koeficientu korelace, test hypotézy o střední hodnotě při známém rozptylu

Tržní ceny odrážejí a zahrnují veškeré informace předpokládá se efektivní trh, pro cenu c t tedy platí c t = c t + ε t.

2. Náhodná veličina. je konečná nebo spočetná množina;

17. Statistické hypotézy parametrické testy

Pravděpodobnost a aplikovaná statistika

MOŽNOSTI STATISTICKÉHO POSOUZENÍ KVANTITATIVNÍCH VÝSLEDKŮ POŽÁRNÍCH ZKOUŠEK PRO POTŘEBY CERTIFIKACE A POSUZOVÁNÍ SHODY VÝROBKŮ

Intervalové odhady parametrů některých rozdělení.

1 ROVNOMĚRNOST BETONU KONSTRUKCE

14. Testování statistických hypotéz Úvod statistické hypotézy Definice 14.1 Statistickou hypotézou parametrickou neparametrickou. nulovou testovanou

6. Posloupnosti a jejich limity, řady

Pravděpodobnostní model doby setrvání ministra školství ve funkci

Při sledování a studiu vlastností náhodných výsledků poznáme charakter. podmínek různé výsledky. Ty odpovídají hodnotám jednotlivých realizací

3. Lineární diferenciální rovnice úvod do teorie

PRAVDĚPODOBNOST A STATISTIKA

8. Analýza rozptylu.

Popisná statistika. Zdeněk Janák 9. prosince 2007

Úloha II.S... odhadnutelná

1. Základy počtu pravděpodobnosti:

Pravděpodobnost a aplikovaná statistika

Základní požadavky a pravidla měření

1. ZÁKLADY VEKTOROVÉ ALGEBRY 1.1. VEKTOROVÝ PROSTOR A JEHO BÁZE

MATICOVÉ HRY MATICOVÝCH HER

Popisná statistika - zavedení pojmů. 1 Jednorozměrný statistický soubor s kvantitativním znakem

Parametr populace (populační charakteristika) je číselná charakteristika sledované vlastnosti

základním prvkem teorie křivek v počítačové grafice křivky polynomiální n

Vzorový příklad na rozhodování BPH_ZMAN

IAJCE Přednáška č. 12

VaR analýza citlivosti, korekce

Elementární zpracování statistického souboru

OVMT Přesnost měření a teorie chyb

8.2.1 Aritmetická posloupnost I

Přednáška VIII. Testování hypotéz o kvantitativních proměnných

Teorie chyb a vyrovnávací počet. Obsah:

Laboratorní práce č. 10 Úloha č. 9. Polarizace světla a Brownův pohyb:

vají statistické metody v biomedicíně

vají statistické metody v biomedicíně Literatura Statistika v biomedicínsk nském výzkumu a ve zdravotnictví

Zhodnocení přesnosti měření

6. P o p i s n á s t a t i s t i k a

Statistika pro metrologii

} kvantitativní znaky. korelace, regrese. Prof. RNDr. Jana Zvárov. Obecné principy

Nejistoty měření. Aritmetický průměr. Odhad směrodatné odchylky výběrového průměru = nejistota typu A

Přednáška VI. Intervalové odhady. Motivace Směrodatná odchylka a směrodatná chyba Centrální limitní věta Intervaly spolehlivosti

1.3. POLYNOMY. V této kapitole se dozvíte:

U klasifikace podle minimální vzdálenosti je nutno zvolit:

Intervalový odhad. nazveme levostranným intervalem pro odhad parametru Θ. Statistiku. , kde číslo α je blízké nule, nazveme horním

1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.

10.3 GEOMERTICKÝ PRŮMĚR

Úloha III.S... limitní

Metody zkoumání závislosti numerických proměnných

Kvantová a statistická fyzika 2 (Termodynamika a statistická fyzika)

8. Základy statistiky. 8.1 Statistický soubor

EKONOMETRIE 9. přednáška Zobecněný lineární regresní model

Tento projekt je spolufinancován Evropským sociálním fondem a Státním rozpočtem ČR InoBio CZ.1.07/2.2.00/

Pevnost a životnost - Hru III 1. PEVNOST a ŽIVOTNOST. Hru III. Milan Růžička, Josef Jurenka, Zbyněk Hrubý.

Intervalové odhady parametrů

Statistika je vědní obor zabývající se zkoumáním jevů, které mají hromadný charakter.

9. Měření závislostí ve statistice Pevná a volná závislost

Co je to statistika? Statistické hodnocení výsledků zkoušek. Úvod statistické myšlení. Úvod statistické myšlení. Popisná statistika

Užití binomické věty

Statistika. Statistické funkce v tabulkových kalkulátorech MSO Excel a OO.o Calc

1.1. Definice Reálným vektorovým prostorem nazýváme množinu V, pro jejíž prvky jsou definovány operace sčítání + :V V V a násobení skalárem : R V V

Ilustrativní příklad ke zkoušce z B_PS_A léto 2014.

1. Měření ve fyzice, soustava jednotek SI

jako konstanta nula. Obsahem centrálních limitních vět je tvrzení, že distribuční funkce i=1 X i konvergují za určitých

FUNKCÍ JEDNÉ REÁLNÉ PROMĚNNÉ PRVNÍ DIFERENCIÁL

Matematika I, část II

Odhad parametru p binomického rozdělení a test hypotézy o tomto parametru. Test hypotézy o parametru p binomického rozdělení

1.7.4 Těžiště, rovnovážná poloha

L A B O R A T O R N Í C V I Č E N Í Z F Y Z I K Y

DERIVACE FUNKCÍ JEDNÉ REÁLNÉ PROM

Národní informační středisko pro podporu jakosti

2,3 ČTYŘI STANDARDNÍ METODY I, ČTYŘI STANDARDNÍ METODY II

Matematika 1. Katedra matematiky, Fakulta stavební ČVUT v Praze. středa 10-11:40 posluchárna D / 13. Posloupnosti

2. Znát definici kombinačního čísla a základní vlastnosti kombinačních čísel. Ovládat jednoduché operace s kombinačními čísly.

Transkript:

8 Průzkumová aalýza dat Cílem průzkumové aalýzy dat (také zámé pod zkratkou EDA - z aglického ázvu exploratory data aalysis) je alezeí zvláštostí statistického chováí dat a ověřeí jejich předpokladů pro ásledé statistické zpracováí (MELOUN - MILIT- KÝ 1994). Proč tyto vlastosti potřebujeme zkoumat? Většia běžě používaých statistických metod předpokládá určité vlastosti zpracovávaých souborů ebo výběrů, ejdůležitější z ich jsou ásledující: miimálí rozsah výběru, ormalita (tj. splěí předpokladu, že výběr pochází ze základího souboru s ormálím rozděleím), abseci silě vychýleých hodot, vzájemá ezávislost prvků výběru. Splěí těchto podmíek podmiňuje použití ejzámějších a ejpoužívaějších statistických charakteristik, tzv. mometových aritmetického průměru, rozptylu, směrodaté odchylky, koeficietů špičatosti a šikmosti. Pouhé okulárí posouzeí - zvláště u velkých souborů dat - eí průkazé a mohdy ai techicky možé. Grafické a početí metody průzkumové aalýzy dat mohou rozhodováí o splěí růzých předpokladů objektivizovat. Mohé soubory měřeých dat jsou zcela uikátí a často elze (jak z techických, tak i z ekoomických důvodů) měřeí opakovat ebo doplit. V těchto případech ám průzkumová aalýza dat může poskytout velmi ceé iformace ještě před provedeím vlastí statistické aalýzy, upozorit a možé problémy a pomoci při volbě ejvhodějších metod zpracováí (eboť i statistická aalýza stojí čas a peíze - a v eposledí řadě začou práci - a chybě staoveé metody aalýzy ebo její esprávé provedeí může mohdy zcela zehodotit důležitý a ákladý výzkumý ebo komerčí projekt). Průzkumová aalýza dat je relativě moderí statistickou disciplíou, jejíž rozvoj je spoje s rozšířeím výpočetí techiky. Většia postupů průzkumové aalýzy dat je totiž založea a grafických metodách, které je možé efektivě provádět je s použitím speciálích statistických programů. Výhodou těchto metod (oproti metodám početím) je jejich ázorost, relativí evýhodou je utost určité zkušeosti při jejich iterpretaci. Proto je ejvhodější kombiovat početí (testy) a grafické metody. Průzkumová aalýza dat využívá především robustích kvatilových charakteristik (o ich podroběji v kapitole 4.1 v I. dílu). Základem pro kostrukci kvatilových charakteristik je pořádková statistika, což jsou vzestupě uspořádaé prvky souboru x (1) x () x (). Pokud budou v dalším textu idexy ozačující jedotlivé prvky v závorce - x (1) - bude se jedat o pořádkovou statistiku. Z takto upraveého souboru je možé kostruovat kvatilové charakteristiky. Obecě platí, že středí hodota i-té pořádkové statistiky je rova 100P i procetímu kvatilu, což je hodota pod kterou leží 100P i procet prvků souboru. Určitým kvatilem je tedy každý prvek souboru. Hodota P i se azývá pořadová pravděpodobost. Obecě se P i staoví takto 1

i P i. 1 Pro účely průzkumové aalýzy dat se obvykle P i volí (MELOUN - MILITKÝ 1994) 1 i P 3 i 1 3 V průzkumové aalýze dat se používá vybraých kvatilů pro pořadové pravděpodobosti P i = -i pro i = 1,, 3, 4. Vzhledem k tomu, že se tyto vybraé kvatily obvykle ozačují písmey, azývají se písmeové hodoty. Jejich přehled je v tabulce 8.1. i i-tý kvatil P i Písmeo 1 mediá -1 = 1/ M kvartily - = 1/4 F 3 oktily -3 = 1/8 E 4 sedecily -4 = 1/16 D Tabulka 8.1 - Přehled základích kvatilů používaých v průzkumové aalýze dat a jejich písmeové ekvivalety Pro odhad písmeových hodot se používá techika pořadí a hloubek. Každá z uspořádaých hodot x (i) je určea trojicí {K i, R i, H i }, kde je K i = i rostoucí pořadí (pořadové číslo pořádkové statistiky počítaé od ejmešího prvku); R i = + 1 - i klesající pořadí (kde je celkový počet prvků); H i = mi{ K i, R i } hloubka pořádkové statistiky (je to meší z hodot K i, R i ). Potom platí, že hloubka mediáu je 1 H M. Pokud tato hodota eí celé číslo, provádí se lieárí iterpolace mezi dvěma prostředími prvky souboru. Hloubky dolích písmeových hodot jsou 1 it(hl1) HL, kde L je obecé ozačeí kvatilu (L = M, F, E, D), it (x) je celočíselá část x. Ozačeí L - 1 začí vždy předchozí kvatil, tj. D - 1 = E, E - 1 = F, F - 1 = M. Pokud je H L celé číslo, potom platí, že dolí kvatil se rová LD x(h L ) a horí kvatil L x H ( 1H L )

Příklad 8.1 Vyčíslete písmeové hodoty pro zadaou číselou řadu o 19 prvcích. x (i) 1 3 4 5 6 7 8 9 10 11 1 13 14 15 16 17 18 19 R i 1 3 4 5 6 7 8 9 10 11 1 13 14 15 16 17 18 19 K i 19 18 17 16 15 14 13 1 11 10 9 8 7 6 5 4 3 1 H i 1 3 4 5 6 7 8 9 10 9 8 7 6 5 4 3 1 Tabulka 8. - Metoda pořadí a hloubek V tabulce 8. jsou vyčísley hodoty pořádkové statistiky, rostoucího a klesajícího pořadí a hloubky pro jedoduchou číselou řadu čísel 1-19. Vidíme, že ejvětší hloubku (10) má prostředí prvek souboru - mediá. Jeho hloubka je (19 + 1)/ = 10. Ostatí kvatily se získají podle výše uvedeých vzorců. Např. pro kvartil platí - (1 + 10)/ = 5,5, tj. musíme iterpolovat mezi 5. a 6. prvkem. To je hodota dolího kvartilu, horí kvartil je rove 19 +1-5,5 = 14,5, tj. iterpolujeme mezi 14. a 15. prvkem. Podobě vypočítáme oktil s použitím hloubky kvartilu a sedecil s využitím hloubky oktilu. Tabulka 8.3 uvádí příslušé písmeové hodoty. Kvatil Dolí kvatil Horí kvatil Mediá - M 10.000 10.000 Kvartil - F 5.500 14.500 Oktil - E 3.50 16.750 Sedecil - D.15 17.675 Tabulka 8.3 - Hodoty písmeových hodot pro zadaou číselou řadu 8.1 Základí grafické metody průzkumové aalýzy dat Mezi základí úkoly průzkumové aalýzy dat patří posouzeí: stupě symetrie a špičatosti rozděleí, lokálích kocetrací dat, vybočujících měřeí, shody s teoretickým rozděleím (zpravidla s ormálím). Nejběžějšími prostředky pro splěí těchto úkolů jsou speciálí grafické metody, především diagram rozptýleí, rozmítutý diagram rozptýleí, krabicový graf, vrubový krabicový graf, graf hustoty pravděpodobosti, graf rozptýleí s kvatily. 3

Grafické metody mají oproti početím testům (apř. testům ormality, ezávislosti, apod.) určité výhody i evýhody. Na jedé straě edávají jedozačé rozhodutí o přijetí ebo odmítutí určité hypotézy jako testy, o míře esouladu s teoretickým rozděleím musí rozhodout aalytik a základě svých zalostí, ale a druhé straě jejich rozborem je možé postihout příčiy esouladu s určitým rozděleím (apř. vliv šikmosti, špičatosti, odlehlých hodot, je možé i detekovat směs více rozděleí apod.). Například při posuzováí ormality je statistický test a daé hladiě výzamosti průkazý, ale pouze ám zamíte ebo ezamíte ulovou hypotézu (tj. že výběr pochází ebo epochází z ormálího rozděleí), ale eaalyzuje příčiy. Vhodá grafická metoda průzkumové aalýzy dat - v tomto případě apř. kvatilový ebo rakitový graf - takto jedozačou iformaci eposkyte (o míře ormality musí rozhodout hodotitel), ale a druhé straě poskyte moho iformací o možých příčiách eormality (apř. vybočující měřeí, šikmost apod.).uvádí se také (ME- LOUN - MILITKÝ 1994), že grafické metody jsou citlivější, přísější, ež obvykle používaé testy, kde jejich schopost detekce závisí především a síle testu. Proto se doporučuje při posuzováí výběrů pomocí grafických metod průzkumové aalýzy dat obě skupiy metod kombiovat a závěry dělat až a základě posouzeí výsledků obou skupi. 8.1.1 Graf rozptýleí je v podstatě vyeseí hodot souboru a číselou osu. I takto jedoduché grafické zázorěí má daleko vyšší vypovídací hodotu ež pouhá řada čísel. Je možé rychle odhalit lokálí kocetrace dat (velké akupeí hodot v určitém úseku číselé osy) a podezřelé vybočující hodoty (extrémě ízké ebo vysoké). Grafické schéma je a obrázku 8.1. Rozmítutý graf rozptýleí je podobý jako předchozí a má i stejé použití. Body jsou však pomocí geerátoru áhodých čísel ve vhodém měřítku rozhozey ve směru osy Y, aby v místech s velkou kocetrací hodot edocházelo k jejich splýváí. Grafické schéma je a obrázku 8.1. Obrázek 8.1 Schéma grafu rozptýleí a rozmítutého grafu rozptýleí. 4

8.1. Krabicový graf je jedím z ejběžějších způsobů grafického zázorěí dat. Je součástí většiy moderích statistických programů. Také se ěkdy můžeme setkat s ázvem vousatá krabička (z agl. ázvu box ad whisker plot ). Umožňuje především zázorěí robustího odhadu polohy mediáu, posouzeí symetrie rozděleí, idetifikaci podezřelých odlehlých měřeí. Jeho základem je obdélík s vhodě zvoleou šířkou a délkou rovou iterkvartilovému rozpětí R F = F H - F D (tj. rozdílu horího a dolího kvartilu). Uvitř obdélíku ( krabičky ) je čára představující polohu mediáu M. Od obou protilehlých stra obdélíku pokračují úsečky ( vousy ), které jsou ukočey přilehlými hodotami - horí B PH a dolí B PD. Přilehlé hodoty jsou ty prvky souboru, které leží ejblíže vitřích hradeb souboru - dolí hraice hradby B D a horí hraice B H. Tyto hodoty se vypočítají B H = F H + 1.5R F, resp. B D = F D - 1.5R F. Samoté vitří hradby ejsou v grafu zpravidla zázorěy. Kocové body úseček jsou tedy ejmeší a ejvyšší bezproblémové hodoty souboru. Body ležící mimo vitří hradby jsou považováy za podezřelé (odlehlé, vybočující) a jsou graficky zázorěy (křížky, kolečky apod.) v příslušých vzdáleostech. Grafické schéma je a obrázku 8.. 8.1.3 Vrubový krabicový graf je variatou předchozího grafu. Na krabičce se vytvoří zářez, jehož šířka je rova itervalu spolehlivosti mediáu (dolí hraice I D, horí hraice I H ). Hraice se vypočítají podle vzorců 1,57 R F 1,57 R F IH M ID M Ostatí charakteristiky jsou stejé jako u krabicového grafu. Grafické schéma je a obrázku 8.. Obrázek 8. - Obecé schéma krabicového (a) a vrubového krabicového grafu. (b). Nahoře je pro srováí diagram rozptýleí s vyzačeými důležitými body pro kostrukci krabicových grafů. Prázdými kolečky jsou vyzačea vybočující měřeí. Symboly: M- mediá, F D(H) dolí 5

(horí) kvartil, I D(H) dolí (horí) hraice itervalu spolehlivosti mediáu, B D(H) dolí(horí) vitří hradba souboru (podle MELOUN - MILITKÝ 1994). 8.1.4 Graf rozptýleí s kvatily je jede z ejuiverzálějších a také ejpoužívaějších průzkumových grafů. Na ose X se vyáší pořadová pravděpodobost, a ose Y pořádková statistika. Základí tvar grafu vzike spojeím bodů {P i, x (i) }lieárími úseky. Základí tvar pro ormálí rozděleí je sigmoidálí, ejprve kokáví, potom kovexí. Ke zvýšeí přehledosti a vypovídací schoposti grafu se zakreslují kvatilové obdélíky (pro kvartil, oktil a sedecil) a poloha mediáu. Každý obdélík má a ose X souřadice daé hodotami dolího a horího příslušého kvatilu (kvartil 0.5 a 0.75; oktil 0.15 a 0.875 a sedecil 0.065 a 0.9375). Na ose Y jsou vyášey příslušé pořádkové statistiky (tedy vzestupě uspořádaé hodoty). Vodorové hray kvatilových obdélíků ám tedy a ose Y ukáží hodoty příslušých kvatilů. Bývá zde též zakresle mediá M včetě svého itervalu spolehlivosti. Pomocí grafu rozptýleí s kvatily se posuzuje zejméa: sešikmeost rozděleí, modalita (uimodálí - vícemodálí rozděleí), odlehlé hodoty. Sešikmeost rozděleí se posuzuje podle vzájemé polohy kvatilových obdélíků. Symetrické rozděleí je charakterizováo tím, že jedotlivé obdélíky jsou symetricky jede uvitř druhého. Nejlepší kotrola je podle vzdáleosti dolích a horích stra příslušých obdélíků. Pokud se jedá o výrazě levostraé rozděleí (sešikmeé k ižším hodotám), potom jsou vzdáleosti mezi dolími straami výrazě meší ež mezi horími straami. Je to způsobeo tím, že relativě stejý úsek souboru - apř. 5% hodot mezi dolím kvartilem a mediáem - je kocetrová do mešího rozpětí hodot a ose Y. U pravostraého rozděleí je situace opačá - meší vzdáleosti jsou mezi horími straami obdélíků. Modus (ejčastěji se vyskytující hodota v souboru) se pozá podle toho, že a kvatilové fukci je vytvoře schod - úsek rovoběžý s osou X. Je to způsobeo tím, že je zde kocetrováo více stejých hodot. Vícemodálí rozděleí mají takových stejých schodů ěkolik (ejpočetější výskyt v souboru má více hodot). Odlehlé hodoty idetifikujeme tak, že a kvatilové fukci se projeví a pravém koci áhlý vzrůst (ebo pokles a levém koci). Grafické schéma je a obrázku 8.3. 6

Obrázek 8.3 - Obecé schéma grafu rozptýleí s kvatily a jeho srováí s grafem rozptýleí a krabicovým grafem. Vysvětleí symbolů viz v textu (podle MELOUN - MILITKÝ 1994). 8.1.5 Kvatil kvatilový graf (Q-Q graf), ormálí pravděpodobostí graf Teto typ grafu porovává kvatily experimetálího a vybraého teoretického rozděleí (tedy vlastě vzestupě uspořádaé aměřeé hodoty a odpovídající hodoty staoveé pomocí příslušé pravděpodobostí fukce daého rozděleí). Jsou kostruováy tak, že pokud experimetálí rozděleí plě odpovídá teoretickému, potom je grafem přímka. Jakékoli odchylky od tohoto ideálího tvaru idikují odchylky od předpokládaého teoretického rozděleí. Q-Q graf lze sestrojit pro růzá rozděleí, pouze se jiak staovují příslušé hodoty a osách X a Y. Podroběji ke kostrukci Q-Q grafů pro vybraá zámá rozděleí viz apř. MELOUN - MILITKÝ 1994. Speciálím případem Q-Q grafu pro ormálí rozděleí je rakitový graf. Rakitový graf je kostruová tak, že a jedé ose jsou vyášey kvatily ormovaého ormálího rozděleí u Pi (to jsou tabelovaé hodoty ebo je možé je získat apř. v Excelu pomocí fukce NORMSINV) a a druhé ose pořádkové statistiky x (i). Pokud zkoumaé rozděleí skutečě odpovídá ormálímu, potom je grafem přímka. Ve statistických programech je obvykle pro srováí vykreslea srovávací přímka, a které by ležely všechy body v případě ideálí shody s ormálím rozděleím. Na základě typických tvarů sestrojeého grafu, které jsou schématicky uvedey a obrázku 8.4, je možé soudit a hlaví příčiy odchylky od ormality. Kromě těchto základích vzorů je možé také detekovat i jié případy, apř. silě odlehlá měřeí (odlehlý bod je daleko od ostatích, zpravidla mimo srovávací přímku). 8.1.6 Graf hustoty pravděpodobosti Pojem hustoty pravděpodobosti záme již z I. dílu, z kapitoly o 5.3 o fukcích áhodých proměých. Víme tedy, že pro teoretická rozděleí je možé kostruovat tzv. frekvečí fukci, která se také azývá (v případě spojitých veliči) hustota pravděpodobosti. Tato fukce je velmi užitečá pro posouzeí rozložeí dat, pro detekci ehomogeity (výskyt více oblastí s vyšší kocetrací dat ebo odlehlých hodot) e- 7

bo sešikmeí (esouměrost) rozděleí. Z toho vyplývá, že kdybychom byli schopi sestrojit graf hustoty pravděpodobosti pro empirická data, porovat jej s příslušým teoretickým (obvykle ormálím) rozděleím, získali bychom velmi dobrý prostředek pro posouzeí odchylek od příslušého teoretického rozděleí. Sestrojit frekvečí fukci teoretického rozděleí je možé jako derivaci distribučí fukce. Jak ale tuto fukci sestrojit pro empirická data, u ichž žádou teoretickou fukci ezáme? Řešeí abízí techika azývaá jádrový odhad hustoty. Obrázek 8.4 Základí tvary odchylek od ormálího rozděleí v rakitovém grafu rozděleí ploché (a), špičaté (b), levostraě esouměré (c) a pravostraě esouměré (d). POZOR! Tato iterpretace platí pro uspořádáí os, které je uvedeo a obrázku. Pokud jsou osy přehozey (tj. a ose X jsou měřeé hodoty a a ose Y jsou očekávaé kvatily ormálího rozděleí) je iterpretace opačá!! Pricip metody je poměrě jedoduchý, matematické provedeí ale dost komplikovaé a její rutií užití je možé pouze s využitím specializovaých statistických programů. Vycházíme z ásledující myšleky: pro každou z N empirických hodot se sestrojí elemetárí křivka hustoty pravděpodobosti s plochou pod křivkou 1/N, která se azývá jádro. Toto jádro může mít teoreticky jakýkoli tvar, obvykle se používá frekvečí fukce ormálího rozděleí (Gaussova křivka). Tyto elemetárí křivky se sečtou a výsledkem je křivka, která určitým způsobem modeluje rozložeí empirických hodot. Pricip kostrukce je schématicky zázorě a obrázku 8.5. Je uté zdůrazit, že se jedá o odhad rozložeí hodot, eí to jedozačě determiovaá 8

křivka, kterou by bylo možé vyjádřit ějakým jedoduchým vzorcem. Výsledý tvar závisí především a dvou faktorech: tvaru jádra, šířce jádra. Tvar jádra může být v podstatě libovolý, obvykle se používá ormálí rozděleí. Velmi důležitá je šířka jádra (tj. šířka elemetárích fukcí sestrojeých kolem datových bodů). Pokud je šířka malá, vypadá výsledá křivka jako pohoří s moha štíty a eposkytuje iformaci o podstatých vlastostech daého rozděleí. Naopak velká šířka způsobí, že křivka je velmi hladká a výsledek z hlediska iterpretace je stejý ebo ještě horší ež v případě malého (úzkého) jádra. Správý odhad šířky jádra vyžaduje určitou zkušeost, a v případě, že máme možost šířku jádra volit, tak i experimetováí. Některé programy umožňují tuto volbu, jié se saží o optimálí odhad jádra a základě vestavěých (zpravidla iteračích) algoritmů, ale v obou případech si musíme uvědomit, že se jedá o odhad a výsledek eí zcela objektiví. I přes uvedeé edostatky je graf hustoty pravděpodobosti velmi oblíbeým diagostickým ástrojem, především pro možost rychlého a ázorého porováí empirických hodot s teoretickým rozděleím. Uvádí se empirické pravidlo (KUPKA 1997), že při dostatečé velikosti výběru (N > 50) dvě výrazá maxima a grafu hustoty pravděpodobosti svědčí o pravděpodobé ehomogeitě výběru a lze uvažovat o jeho rozděleí a dvě části. Výskyt velkého možství lokálích maxim svědčí obvykle o příliš úzkém jádru. Naproti tomu použití tohoto grafu má také svá omezeí. Nelze jej použít k odhadu kvatilů ebo ke kostrukci distribučí fukce. Statistické programy, pokud teto graf mají ve své výbavě, obvykle jej vykreslují ve srováí s ormálím rozděleím. Zájemci o matematickou formulaci kostrukce grafu, o postupy k vedoucí k určeí šířky jádra ajdou ejpoužívaější techiky apř. v MELOUN-MILITKÝ 1994. hustota pravděpodobosti jádra data empirické (aměřeé) hodoty Obrázek 8.5 Schéma kostrukce grafu hustoty pravděpodobosti. Výsledá součtová křivka je zázorěa tučě. 9

Proveďte průzkumovou aalýzu dat pro zadaé soubory pomocí grafických metod. Příklad 8. Pro ilustraci provedeí a iterpretace průzkumové aalýzy dat pomocí základích grafických metod byly geerováy 3 výběry - podle rovoměrého, ormálího a expoeciálího rozděleí. Rozděleí byla vybráa tak, že kromě základího statistického rozděleí (ormálího) se zde vyskytuje i rozděleí výrazě esymetrické (expoeciálí) a aopak rozděleí s velmi pravidelým rozložeím hodot v daém itervalu (rovoměré). Základí zadáí je v tabulce 8.4. Pro aplikaci průzkumové aalýzy dat je uté z prvotího zápisu udělat pořádkovou statistiku, tj. vzestupě uspořádaý výběr. Poté můžeme aplikovat výše popsaé základí grafické metody. Výsledek pro ormálí rozděleí je a obrázcích 8.6, 8.7, 8.8 a 8.9. Z grafu rozptýleí (tečkového grafu) a obrázku 8.6 vidíme, že daý výběr vykazuje určité lokálí kocetrace dat (skupiy ahloučeých bodů). V oblasti dolích hodot jsou dvě poměrě izolovaé hodoty, ale z krabicového grafu je zřejmé, že se zřejmě ejedá o vybočující (extrémí) hodoty, eboť pouze jeda vybočuje z vitřích hradeb souboru, a to velmi těsě. Srováí polohy mediáu a aritmetického průměru idikuje velmi dobrou shodu, což je typické právě pro ormálí rozděleí ebo symetrická rozděleí blízká ormálímu. Aalýza kvartilů ( krabičky ) azačuje, že daý výběr bude zřejmě velmi mírě pravostraý, eboť dolí část krabičky je o ěco delší ež horí, což zameá, že v úseku mezi mediáem a horím kvartilem (horí část krabičky) jsou data více kocetrováa ež v dolí části (tj. mezi mediáem a dolím kvartilem). Hodoty 64 6 60 58 56 54 5 50 48 46 44 4 40 38 36 34 3 Krabicový graf pro ormálí rozděleí ormálí Obrázek 8.6 Krabicový graf a graf rozptýleí pro geerovaá data ormálího rozděleí. Popis jedotlivých prvků grafu je v textu. Krátká čárka ozačuje polohu aritmetického průměru. 10

K podobým závěrům můžeme dojít pomocí grafu rozptýleí s kvatily. Jedotlivé kvatilové obdélíky jsou v podstatě symetrické, což idikuje prakticky symetrické rozložeí bodů mezi jedotlivými výzamými kvatily. Čára spojující jedotlivé hodoty vykazuje určitou stupňovitost daou právě lokálími kocetracemi dat. Další dva grafy a obrázcích 8.8 a 8.9 umožňují kvalitě posoudit shodu s ormálím rozděleím. Kvatil-kvatilový graf vykazuje dobrou shodu, která je idikováa tím, že jedotlivé body (kvatily) leží velmi těsě kolem srovávací liie. Je uté si uvědomit, že ideálí shodu s přímkou edosáheme prakticky ikdy, jde v podstatě o míru těsosti, s jakou se měřeé (ebo v tomto případě geerovaé) hodoty přimykají srovávací liii. Větší odchylku vykazují pouze dvě ejižší hodoty, ale vzhledem k tomu, že výběr je dostatečě velký (50 hodot), zřejmě tato odchylka ebude mít větší vliv. Teto závěr potvrzuje i graf hustoty pravděpodobosti, kdy jádrový odhad hustoty empirické křivky (čárkovaě) se téměř shoduje s teoretickým průběhem ormálího rozděleí vypočítaého pomocí aritmetického průměru a směrodaté odchylky výběru. Potvrzuje předpoklad velmi míré špičatosti (empirická křivka je vyšší ež teoretická, což idikuje vyšší kocetraci hodot v oblasti tohoto vrcholu) a pravostraé esouměrosti (vrchol empirické křivky je mírě vpravo od teoretické křivky). Stejé výstupy byly vytvořey pro rovoměré rozděleí a obrázcích 8.10, 8.11, 8.1 a 8.13. Pro rovoměré rozděleí je typické to, jak již ázev apovídá, že data jsou v podstatě stejoměrě rozdělea v daém itervalu (je to také symetrické rozděleí, od ormálího se liší tím, že v oblasti kolem středí hodoty edochází k vyšší kocetraci dat ež a okrajích rozděleí, jejich hustota je stále stejá). 11

Původí hodoty Pořádkové statistiky Rozděleí Norálí Expoeciálí Rovoměré Číslo prvku ormálí expoeciálí rovoměré Číslo prvku Hodota Číslo prvku Hodota Číslo prvku Hodota 1 50.1 8.7 68.5 5 3.7 14.5 11 10.5 60.4 68.9 60.7 44 34.1 43 4.1 39 13.9 3 54.1 4. 17.5 11 41.6 34 4. 49 16. 4 49.5 7.1 36.4 4 41.6 8 4.7 33 16.7 5 53.6 48.8 53.9 4 41.7 7 5.9 3 17.5 6 60.6 3.7 6.9 45 4.0 4 7.1 41 17.6 7 46.0 5.9 66.3 9 4.8 45 7.7 18 19.4 8 56.4 6.7 35.5 6 4.8 17 7.8 30 19.7 9 4.8 93.0 5.1 14 43. 1 8.7 46 19.8 10 6.4 54.5 56.1 19 44.7 5 10.1 7 0.5 11 41.6 80.0 10.5 3 45.0 3 15.0 1 0.7 1 53.1 179.6 0.7 38 45.8 15 15.1 31 1.0 13 5. 151.0 59.0 7 46.0 3 15.1 0 3.4 14 43..5 44. 30 46.1 36 19.7 4 6.6 15 5.0 15.1 66.7 47 46.7 0 0.6 6 6.9 16 48.9 115.0 40.4 16 48.9 6.8 7. 17 51.5 7.8 59. 34 49.1 30.9 45 30.1 18 5.0 65.4 19.4 50 49.3 6 3.7 9 31.5 19 44.7 7.3 33.1 31 49.4 3 4. 19 33.1 0 54.6 0.6 3.4 4 49.5 33 5.7 47 35. 1 56.8 146.3 56.1 49 49.7 8 6.7 8 35.5 56.6 31.8 7. 33 49.8 50 8.1 4 36.4 3 56.0 15.0 48.6 39 49.9 31.8 6 36.6 4 41.6 67.9 57.0 1 50.1 44 35.6 34 38.9 5 3.7 10.1 57.5 8 50. 40 36.9 16 40.4 6 4.8.8 36.6 35 51. 49 43. 40 4.8 7 54. 45.8 0.5 17 51.5 7 45.8 14 44. 8 50. 4.7 60.3 36 51.8 4 46.9 36 48.5 9 60.7 175.3 31.5 15 5.0 5 48.8 3 48.6 30 46.1.9 19.7 18 5.0 10 54.5 37 49.6 31 49.4 55. 1.0 13 5. 31 55. 38 5.0 3 45.0 15.1 60.1 48 5.4 38 61.0 9 5.1 33 49.8 5.7 16.7 46 5.7 18 65.4 44 53.3 34 49.1 4. 38.9 40 5.8 4 67.9 5 53.9 35 51. 7.3 64.8 1 53.1 68.9 10 56.1 36 51.8 19.7 48.5 5 53.6 37 7.1 1 56.1 37 55.5 7.1 49.6 3 54.1 19 7.3 4 57.0 38 45.8 61.0 5.0 7 54. 35 7.3 5 57.5 39 49.9 80.3 13.9 0 54.6 47 79.0 13 59.0 40 5.8 36.9 4.8 41 54.8 11 80.0 17 59. 41 54.8 130.3 17.6 37 55.5 39 80.3 3 60.1 4 41.7 46.9 6.6 3 56.0 48 85.5 8 60.3 43 61.4 4.1 67. 8 56.4 9 93.0 60.7 44 34.1 35.6 53.3 56.6 16 115.0 50 6.6 45 4.0 7.7 30.1 1 56.8 41 130.3 35 64.8 46 5.7 139.4 19.8 60.4 46 139.4 7 66.3 47 46.7 79.0 35. 6 60.6 1 146.3 48 66.4 48 5.4 85.5 66.4 9 60.7 13 151.0 15 66.7 49 49.7 43. 16. 43 61.4 9 175.3 43 67. 50 49.3 8.1 6.6 10 6.4 1 179.6 1 68.5 Tabulka 8.4- Geerovaá rozděleí pro ilustraci použití grafických metod průzkumové aalýzy dat 1

Obrázek 8.7 Graf rozptýleí s kvatily pro ormálí rozděleí Obrázek 8.8 Kvatil-kvatilový graf pro ormálí rozděleí 13

Obrázek 8.9 Graf hustoty pravděpodobosti pro ormálí rozděleí. Čárkovaá čára je jádrový odhad hustoty empirických hodot, plá čára je frekvečí fukce ormálího rozděleí. Tyto vlastosti jsou potvrzey také příslušými grafy. Na grafu rozptýleí (tečkovém) a krabicovém vidíme, že krabička je ve srováí s ormálím rozděleím poměrě dlouhá (to je právě idikace skutečosti, že kolem středí hodoty edochází k větší kocetraci dat, to potvrzuje i tečkový graf vedle). Také aritmetický průměr se velmi dobře shoduje s mediáem (hodoty prakticky splývají). Vzhledem ke začému iterkvartilovému rozpětí žádá hodota eleží mimo vitří hradby souboru. Teto typ krabicového grafu je typický pro plochá rozděleí, tj. pro taková, která evykazují výzamější kocetrace hodot. Výše uvedeé typické vlastosti rovoměrého rozděleí se a grafu rozptýleí s kvatily projeví tím, že kvatilové obdélíky a jsou skoro čtvercového tvaru a spojice empirických hodot je téměř přímka (oproti esovitému tvaru u ormálího rozděleí). Kvatil-kvatilový graf a graf hustoty pravděpodobosti také potvrzují typické vlastosti rovoměrého rozděleí a Q-Q grafu (obrázek 8.1 ) je patrý typický tvar pro ploché rozděleí (viz schématická zázorěí a obrázku 8.4 ). Také empirická křivka grafu hustoty pravděpodobosti ukazuje a ploché a víceméě souměré rozděleí (křivka je plošší ižší a širší, tj. má vyšší variabilitu, ež křivka ormálího rozděleí). Z obou obrázků je zřejmé, že rozdíly mezi rovoměrým a ormálím rozděleím ejsou velké a že modelováí takového rozděleí pomocí obvyklého ormálího rozděleí ve většiě případů vyhoví. 14

Krabicový graf pro rovomeré rozdeleí Hodoty 68 64 60 56 5 48 44 40 36 3 8 4 0 16 1 Obrázek 8.10 Krabicový graf a diagram rozptýleí pro geerovaé rovoměré rozděleí Obrázek 8.11 - Graf rozptýleí s kvatily pro geerovaé rovoměré rozděleí 15

Obrázek 8.1 Kvatil-kvatilový graf pro rovoměré rozděleí Obrázek 8.13 Graf hustoty pravděpodobosti pro rovoměré rozděleí Posledím příkladem je expoeciálí rozděleí. Jeho grafické iterpretace jsou a obrázcích 8.14, 8.15, 8.16 a 8.17. Je to typicky výrazě esouměré rozděleí, 16

což je ihed ázorě vidět z grafického zobrazeí a obrázcích 8.14 a 8.15. Na diagramu rozptýleí (tečkový graf) vidíme, že většia hodot je kocetrováa v dolí části (oblast ižších hodot), jedá se tedy o výrazě levostraě esouměré rozděleí. O této skutečosti také svědčí výrazý rozdíl mezi mediáem a aritmetickým průměrem (krátká čárka). Na horí straě (vyšší hodoty) vidíme ěkolik hodot výrazě přesahujících vitří hradby souboru, přičemž by tyto hodoty musely být v případě kokrétích měřeí velmi pozorě posuzováy z hlediska jejich správosti a vypovídací schoposti. Na grafu rozptýleí s kvatily je levostraé sešikmeí vidět velmi ázorě: vzdáleosti mezi dolími a horími straami kvatilových obdélíků jsou začě odlišé - velká kocetrace ízkých hodot způsobuje, že dolí stray jsou u sebe velmi blízko, což je typické právě pro levostraou esouměrost. Také spojice empirických hodot vykazuje tvar typický pro levostraé rozděleí stejý jako a Q-Q grafu. Hodoty 180 170 160 150 140 130 10 110 100 90 80 70 60 50 40 30 0 10 Krabicový graf pro expoeciálí rozdeleí Obrázek 8.14 Krabicový graf expoeciálího rozděleí Obrázek 8.15 Graf rozptýleí s kvatily pro expoeciálí rozděleí 17

Obrázek 8.16 Kvatil-kvatilový graf expoeciálího rozděleí Obrázek 8.17 Graf hustoty pravděpodobosti expoeciálího rozděleí Grafy shody s ormálím rozděleím potvrzují výrazou odchylku od ormálího rozděleí. Na kvatil-kvatilovém grafu sado rozezáme výrazé levostraé rozděleí (podle typického tvaru z obrázku 8.4 c). Stejý závěr potvrzuje obrázek 8.17, kde můžeme potvrdit levostraost a špičatost rozděleí. Tabulka 8.5 uvádí pro srováí základí statistické charakteristiky všech tří výběrů. Vidíme, že statistické charakteristiky dobře odpovídají předběžým závěrům, které jsme učiili a základě rozboru průzkumových grafů (ormálí rozděleí je mír- 18

ě pravostraé, rovoměré má vyšší variabilitu a je souměré, expoeciálí je silě levostraé s ejvyšší variabilitou daou odlehlými hodotami). Je to potvrzeí faktu, že z těchto relativě jedoduchých exploratorích grafů můžeme poměrě rychle a spolehlivě aalyzovat základí vlastosti posuzovaých výběrů. Charakteristika (bodové odhady základího souboru) Rozděleí ormálí rovoměré expoeciálí aritmetický průměr 50.5 41.38 53.11 mediá 50.70 41.60 40.05 rozptyl 41.77 3.48 10.70 směrodatá odchylka 6.46 17.96 47.0 koeficiet esouměrosti - 0.45-0.08 1.1 koeficiet špičatosti 3.9 1.59 3.49 Tabulka 8.5 Statistické charakteristiky tří geerovaých rozděleí (koeficiet špičatosti pro ormálí rozděleí je rove 3, koeficiet esouměrosti ule) 8. Ověřeí předpokladů o datech Při použití obvyklých metod matematické statistiky (tedy pokud pracujeme s výběry) se zpravidla předpokládá, že se jedá o ezávislé áhodé veličiy pocházející z ormálího rozděleí a že výběr má dostatečý rozsah pro spolehlivý odhad parametrů a testováí hypotéz. Před provedeím vlastí statistické aalýzy bychom tedy měli ověřit ásledující vlastosti: dostatečý rozsah výběru, ezávislost prvků výběru, ormalitu výběru, homogeitu výběru. 8..1 Určeí miimálí velikosti výběru Základí postupy týkající se potřebé velikosti výběru byly uvedey v I. dílu, v kapitole 5.5.3 a str. 88. 8.. Ověřeí ormality výběru Normalita výběrového rozděleí je jedím z ejdůležitějších předpokladů aalýzy dat, je a ěm založea většia obvykle používaých statistických metod, apř. 19

metody korelačí a regresí aalýzy, mohé testy apod. Pokud eí ormalita výběru prokázáa, je uto hlouběji aalyzovat data a pokusit se zjistit příčiy. Data, u kterých se ormalita eprokázala, je možé také aalyzovat (zpravidla speciálími ebo modifikovaými metodami) ebo je možé data přiblížit ormalitě pomocí tzv. trasformace. Grafické metody posouzeí ormality jsme probrali v předchozí kapitole (je to především kvatil-kvatilový, resp. rakitový graf a dále graf hustoty pravděpodobosti). Kromě toho existuje ještě celá řada testů ormality. Jede z ich je uvede v 1. dílu a straě 115 (kapitola 7.4.1.5). Kromě ěho se často používají apř. Shapiro- Wilkův, D Agostiův omibus test, dále Aderso Darligův, Jarque Berův, Kolmogorov- Smirovův test a další. Uvedeme ještě dva testy, které jsou často používáy ve statistických programech, a to D Agostiův omibus test a Shapiro-Wilkův test.. D Agostiův omibus test (test kombiace výběrové šikmosti a špičatosti) (MELOUN - MILITKÝ 1994) Pro reálé velikosti výběrů se používá testovací statistika C Z (g1) Z (g ) kde hodoty Z ( g 1 ) a Z ( g ) jsou ormálí aproximace výběrové šikmosti, resp. špičatosti. Pro výpočet Z ( g 1 ) potřebujeme vypočítat ásledující pomocé veličiy: Y g1 1 3 6( ) G 3( 7 70)( 1)( 3) ( )( 5)( 7)( 9) W 1 G 1 A W 1 Z těchto pomocých veliči se určí aproximace 1 Y Y Z(g 1 ) l 1 l W A A Pro výpočet ormálí aproximace špičatosti vypočítáme veličiu S pomocí vztahu g E(g ) S D(g ) kde je g vypočítaá výběrová špičatost 0

E(g ) středí hodota výběrové špičatosti, která se pro ormálí rozděleí vypočítá podle vzorce 6 E(g ) 3 1 D(g ) je rozptyl výběrové špičatosti vypočítaý podle vzorce 4( )( 3) D(g ). ( 1) ( 3)( 5) Dále se vypočítá šikmost veličiy S 6( 5 ) 6( 3)( 5) g1(s) ( 7)( 9) ( )( 3) a pomocá hodota 8 4 A 6 1, g1(s) g1(s) g1 (S) Aproximace špičatosti se vypočítá 1 Z(g ) 9A 3 1 A 1 S A 4 Pokud zkoumaý výběr pochází z ormálího rozděleí, potom statistika C má rozděleí se dvěma stupi volosti. Teto test je považová za velmi silý. Má výhodu v tom, že pomocí ěho lze odděleě testovat samostaté hypotézy o vlivu šikmosti ebo špičatosti a ormalitu, resp. eormalitu výběru. Aproximace Z ( g 1 ) a Z ( g ) tedy lze použít jako samostaté testovací statistiky. V těchto případech mají obě aproximace ormovaé ormálí rozděleí N (0,1). Vzhledem k relativě zdlouhavému výpočtu se doporučuje pro použití tohoto testu vypracovat jedoduchý program, který vypočítá hodotu C i hodoty obou aproximací. Pokud alespoň jeda z aproximací evyhovuje ormalitě, je celé rozděleí považováo za statisticky výzamě odlišé od ormálího. Shapiro Wilkův test Teto test byl odvoze pro meší výběry (doporučeý rozsah výběru 3 50 prvků). Testové kritérium je W N i1 9A xi x i1 a i x (i) 1