3 Grafické zpracování dat Grafické znázorňování je velmi účinný způsob, jak prezentovat statistické údaje. Grafy nejsou tak přesné jako tabulky, ale rychle a lépe mohou poskytnou názornou představu o důležitých tendencích a souvislostech. Pomocí grafů můžeme například odhadovat trendy a kolísání časových řad nebo několik časových řad vzájemně srovnávat. Nevhodné použití grafického vyjádření však může též svádět k chybným úvahám a interpretacím. Graf představuje přepsání číselných údajů do soustavy geometrických obrazců. Základní smysl číselných údajů interpretujeme pomocí souřadnic, stupnic a grafické sítě. Podkladem grafického znázornění je většinou soustava souřadnic, v níž horizontální osa (x) se nazývá osa úseček (abscisa) a vertikální osa (y) je osa souřadnic (ordináta). Poloha libovolného bodu je určena délkou kolmice k ose x a k ose y. Číselně polohu bodu vyjádříme vzhledem k zvoleným stupnicím na obou osách. Na každé stupnici jsou vyznačeny kóty, kterým jsou přiřazena čísla. Vzdálenost mezi dvěma kótami je grafický interval, rozdíl mezi jejich číselným označením je číselný interval. Poměr mezi grafickým a číselným intervalem se nazývá modul stupnice. Jestliže stejnému číselnému intervalu v libovolném místě stupnice odpovídá stejný grafický interval, jde o rovnoměrnou stupnici. U nerovnoměrné stupnice stejným číselným intervalům odpovídají nestejné grafické intervaly. Například nerovnoměrná stupnice, pro kterou grafický interval je dán rozdílem logaritmů čísel, se nazývá logaritmická stupnice. Kromě pravoúhlé soustavy souřadnic se používá i polárních souřadnic. Tato soustava určuje polohu libovolného bodu pomocí jeho vzdálenosti od počátku a velikosti úhlu, který je měřen od zadaného směru. Ukázka presentace dat tabulce Tabulka 1: Zdrojových dat x 1 x 2 x 3 x 4 x 5 x 6 3504 18 8 307 130 1 3693 15 8 350 165 1 4312 14 8 440 215 1 3850 15 8 390 190 1 3090 N an 4 133 115 1 4142 N an 8 350 165 1 4055 13 8 350 145 2 3870 13 8 302 130 2 3755 13 8 318 150 2 2865 24 4 140 92 3 3035 23 4 151 N an 3 1980 36 4 105 74 3.................................... 1
3.1 Základní grafy 3.1.1 Bodový graf se užívá zejména ke znázornění závislosti dvou znaků a znázorňuje naměřené hodnoty pomocí bodů v soustavě pravoúhlých souřadnic. Chceme-li v jednom bodovém grafu odlišit hodnoty různých kategorií, použijeme rozdílných symbolů (trojúhelníčky, kroužky, křížky) nebo různých barev. Obrázek 1: Závislost veličiny x 2 na veličině x 1 pro různé skupiny podle hodnoty x 6 3.1.2 Spojnicový graf vyjadřuje průběh časové řady nebo slouží ke znázornění rozdělení absolutních nebo relativních četností spojitého znaku a v tomto případě se nazývá polygon četností. 2
3.1.3 Sloupcový graf je graf, kdy číselné hodnoty jsou vyjádřeny pomocí obdélníkových sloupců. Sloupce v grafu obvykle zakreslujeme ve svislé poloze. Ve vodorovné poloze je umist ujeme v případě, že text ke sloupcům je příliš dlouhý. Chceme-li v grafu současně srovnávat v daném znaku více souborů, můžeme do téže třídy umístit i více sloupců. Sloupce pak odlišujeme barevně nebo různým šrafováním. Při stejné velikosti tříd je šířka sloupců konstantní a výška odpovídá velikosti nebo četnosti znázorňovaného jevu. Při nestejné velikosti tříd musí být šířka sloupce úměrná velikosti třídy a plocha odpovídat četnosti. Obrázek 2: Veřejné výdaje na zdravotnictví (v mil. Kč) a index veřejných výdajů ve stálých cenách (basický rok 1995=100) 3
3.1.4 Histogram se používá ke znázornění rozdělení absolutních nebo relativních četností spojitého znaku. Jedná se speciální typ sloupcový graf, který lze charakterizovat následovně: 1. Sloupce v histogramu jsou vertikální. Jejich výška odpovídá četnosti (absolutní nebo relativní). 2. Stupnice na vodorovné ose grafu je vždy ve stejných jednotkách (obecné sloupcové grafy, které obvykle obsahují kvalitativní veličiny, nemusí mít měřítko základny). 3. Šířka sloupců v histogramu má význam - základna každého sloupce zahrnuje třídu hodnot veličiny. Četnost tedy odpovídá ploše sloupce (tj. šířce sloupce výšce). Pokud budeme předpokládat, že délka intervalu je konstantní, označme ji h, pak při určování počtu tříd, do kterých data rozdělujeme, můžeme vycházet z následujících pravidel Sturgesovo pravidlo - h = R k, kde R je x max x min a k = 1 + log 2 n; Modifikované Sturgasovo pravidlo - k = 1 + 3.3 ln n; Scottovo pravidlo - h = 3.5 s, kde s je (výběrová) standardní odchylka; n1/3 Freedman, Diaconisovo pravidlo - h = 2 RQ n 1/3, kde R Q = Q 75 Q 25 je kvartilové rozpětí ;............................................................................................... Pro určování četností používáme v Excelu funkci ČETNOSTI(DATA;HODNOTY), kde DATA je matice nebo odkaz na množinu hodnot, jejichž četnosti chcete vypočítat a HODNOTY je matice intervalů (nebo odkaz na ně), do kterých chcete seskupit hodnoty uvedené v argumentu data. Funkce je maticová, tedy zadáváme pomocí kombinace CTRL+SHIFT+ENTER................................................................................................... Speciálním typem histogramu je histogram v polárních souřadnicích. Obrázek 3: Histogram veličiny x 5 - v klasických a v polárních souřadnicích 4
3.1.5 Věková pyramida (strom života) znázorňuje věkové složení vzorku. Jedná se opět o zvláštní typ sloupcového grafu. Obrázek 4: Průměrné náklady VZP na zdravotní péči na 1 pojištěnce dle věkové struktury v roce 2004 5
3.1.6 Kruhový graf (výsečový, koláčový) graf zachycuje strukturu souboru. Plocha kruhu představuje celý soubor a jednotlivé části jsou znázorněny kruhovými výsečemi. Protože 360 odpovídá 100 % plochy kruhu, představuje výseč o středovém úhlu 3,6 jedno procento. Výseče, které představují jednotlivé složky souboru, odlišujeme různým šrafováním nebo barevně. Obrázek 5: Struktura nákladů zdravotních pojišt oven na zdravotní péči podle segmentů péče v roce 2004 3.2 Speciální statistické grafy Základním problémem je graficky zachytit více informací do jednoho grafu. Například pro různé skupiny chceme graficky zachytit: průměr ve skupině (charakteristika polohy), směrodatnou odchylku ve skupině (charakteristika variability) a počet prvků ve skupině (podává informaci o velikosti skupiny). 3.2.1 Graf s chybovými úsečkami je graf, zobrazujeme závislost průměru ve skupině na skupině a dále graficky vyjadřujeme směrodatnou odchylku jako tzv. chybové úsečky ve směru svislé osy. Můžeme též přidat chybové úsečky ve směru vodorovné osy a vyjádřit tak například počet prvků ve skupině. 6
Obrázek 6: Graf kombinující sloupcový graf a bodový graf s chybovými úsečkami............................................................................................... V Excelu zadáváme chybové úsečky výběrem FORMÁTU DATOVÉ ŘADY, jejich grafickou podobu lze ovlivnit pomocí FORMÁTU CHYBOVÝCH ÚSEČEK. Obrázek 7: Formát datové řady.................................................................................................. 7
3.2.2 Bublinový graf je graf, kde další veličina (například počet prvků ve skupině) je vyjádřena objemem nebo šířkou bubliny. Obrázek 8: Bublinový graf, kde počet prvků ve skupině je vyjádřen plochou bubliny............................................................................................... V Excelu použijeme pro vytvoření tohoto grafu standardní typ grafu: bublinový a jeho přesnější parametry můžeme upravit pomocí FORMÁTU DATOVÉ ŘADY Obrázek 9: Formát datové řady.................................................................................................. 8
3.2.3 Box plot grafy (krabičkový graf) je graf, který se obvykle používá pro zachycení robusních statistik. Základem grafu je obdelník, jehož hrany tvoří dolní a horní kvartil (uvnitř obdelníku je 50% hodnot), uvnitř obdelníku je vyznačen medián (plná čára),ev. i průměr (kroužek). Z obdelníku vedou úsečky (tzv. vousy - whiskers ), které dosahují k hranice x D = Q 0.25 1.5 (Q 0.75 Q 0.25 ), reps. x H = Q 0.75 +1.5 (Q 0.75 Q 0.25 ). Hodnoty, které jsou mimo oblast vyznačenou vousy, jsou od odlehlá pozorování (extrémní pozorování, outliers) a jsou vyznačeny křížkem (jeden křížek=jedno odlehlé pozorování). Obrázek 10: Box graf 3.2.4 Empirická distribuční funkce je graf zachycující rozložení dat v celém studovaném souboru. Empirickou distribuční funkci sestrojíme tak, že seřadíme data podle velikosti a na osu x vynášíme hodnoty dat a osa y zachycuje kolik procent dat je menších než hodnota na ose x. Obrázek 11: Empirická distribuční funkce pro hodnoty 1, 2, 3, 3, 4, 9, 12 9
3.2.5 Paretův graf je speciální typ sloupcového grafu, kdy jednotlivé hodnoty jsou uspořádány v sestupném pořadí. Navíc graf obvykle obsahuje kumulativní hodnotu. Obrázek 12: Paretův graf 3.2.6 Probability grafy jsou grafy, které porovnávají naměřené hodnoty s jejich očekávanými. Také se používá označení P- P grafy. Grafy slouží k rozhodnutí, zda naměřená data pochází ze sledovaného rozdělení. Typickým příkladem jsou normal probability plot a weibull probability plot, ale grafy se dají konstruovat pro všechna rozdělení. [ F 1 ( ) ; x (i) ]. i Body v grafech mají souřadnice n + 1 Použití ukážeme na následujících příkladech: generujeme dvě sady dat DATA 1 mají charakter normálního rozdělení a DATA2 nemají charakter normálního rozdělení a pro oba případy vykreslíme grafy 10
Obrázek 13: Normal P-P graf pro DATA1 a DATA2 Obrázek 14: Weibull P-P graf pro DATA1 a DATA2 3.2.7 Q-Q grafy porovnávají experimentální a teoretické kvartily, případně porovnávají kvartily dvou experimentálních měření 11
Obrázek 15: Porovnání dvou skupin dat, které pochází, resp. nepochází ze stejného rozdělení 3.2.8 Další speciální a kombinované grafy Obrázek 16: Ukázka kombinovaného grafu 12
Obrázek 17: Ukázka kombinovaného grafu 3.2.9 Chernoff faces je graf vyvinutý pro visualizaci vícedimensionálních dat. Jednotlivé položky dat jsou presentovány jednotlivými charakteristikami zjednodušeného lidského obličeje - excentricita obličeje, excentricita očí, velikost nosu, úst,.... každý parametr je reprezentován hodnotou v rozsahu 0 1. 13
3.2.10 Grafy pro meta analýsu je vhodný graf pro meta analýzy, kdy zpracovávám statistické studie v jedné oblasti do souhrnného celku 14
Obrázek 18: Ukázka visualizace 15
Obrázek 19: Ukázka kombinovaného grafu forest plot Obrázek 20: Ukázka kombinovaného grafu Galbraith plot 16