přesné jako tabulky, ale rychle a lépe mohou poskytnou názornou představu o důležitých tendencích a souvislostech.



Podobné dokumenty
Matematika III. 27. listopadu Vysoká škola báňská - Technická univerzita Ostrava. Matematika III

Popisná statistika. Statistika pro sociology

Zpracování náhodného výběru. Ing. Michal Dorda, Ph.D.

Statistika pro geografy

Statistika. Diskrétní data. Spojitá data. Charakteristiky polohy. Charakteristiky variability

Popisná statistika. Komentované řešení pomocí MS Excel

Statistika, Biostatistika pro kombinované studium Letní semestr 2011/2012. Tutoriál č. 4: Exploratorní analýza. Jan Kracík

Renáta Bednárová STATISTIKA PRO EKONOMY

Statistika. Zpracování informací ze statistického šetření. Roman Biskup

POPISNÁ STATISTIKA Komentované řešení pomocí programu Statistica

Popisná statistika kvantitativní veličiny

2. Bodové a intervalové rozložení četností

Nejčastější chyby v explorační analýze

Zápočtová práce STATISTIKA I

Analýza dat na PC I.

Číselné charakteristiky

Metody sociálních výzkumů. Velmi skromný úvod do statistiky. Motto: Jsou tři druhy lži-lež prostá, lež odsouzeníhodná a statistika.

veličin, deskriptivní statistika Ing. Michael Rost, Ph.D.

Statistika. cílem je zjednodušit nějaká data tak, abychom se v nich lépe vyznali důsledkem je ztráta informací!

Obsah. Funkce grafu Zdrojová data pro graf Typ grafu Formátování prvků grafu Doporučení pro tvorbu grafů Zdroje

Základy popisné statistiky. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek

MS Excel druhy grafů

ADZ základní statistické funkce

Popisná statistika. úvod rozdělení hodnot míry centrální tendence míry variability míry šikmosti a špičatosti grafy


23. Matematická statistika

MATEMATICKÁ STATISTIKA. Katedra matematiky a didaktiky matematiky Technická univerzita v Liberci

Grafy EU peníze středním školám Didaktický učební materiál

Porovnání dvou výběrů

Charakteristika datového souboru

Zpracování náhodného výběru. Ing. Michal Dorda, Ph.D.

Informační technologie a statistika 1

Ukázka knihy z internetového knihkupectví

František Hudek. červenec 2012

Excel tabulkový procesor

Název DUM: VY_32_INOVACE_2B_16_ Tvorba_grafů_v_MS_Excel_2007

2. Základní typy dat Spojitá a kategoriální data Základní popisné statistiky Frekvenční tabulky Grafický popis dat

Základy popisné statistiky

Třídění statistických dat

PRŮZKUMOVÁ ANALÝZA JEDNOROZMĚRNÝCH DAT Exploratory Data Analysis (EDA)

Popisná statistika. Jaroslav MAREK. Univerzita Palackého

Popisná statistika. úvod rozdělení hodnot míry centrální tendence míry variability míry šikmosti a špičatosti grafy

Soukromá střední odborná škola Frýdek-Místek, s.r.o.

UNIVERZITA OBRANY Fakulta ekonomiky a managementu. Aplikace STAT1. Výsledek řešení projektu PRO HORR2011 a PRO GRAM

Náhodná veličina a rozdělení pravděpodobnosti

Jevy a náhodná veličina

Mnohorozměrná statistická data

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Matematika III. 29. října Vysoká škola báňská - Technická univerzita Ostrava. Matematika III

Statistika pro gymnázia

MS Excel grafická prezentace dat

Grafické metody analýzy ekonomických časových řad

Základy pravděpodobnosti a statistiky. Popisná statistika

Excel - pokračování. Př. Porovnání cestovních kanceláří ohraničení tabulky, úprava šířky sloupců, sestrojení grafu

Statistika I (KMI/PSTAT)

HODNOCENÍ VÝUKY STUDENTY PEDF UK ZS 2016/2017

Lineární regrese. Komentované řešení pomocí MS Excel

Pravděpodobnost v závislosti na proměnné x je zde modelován pomocí logistického modelu. exp x. x x x. log 1

Statistické metody. Martin Schindler KAP, tel , budova G. naposledy upraveno: 9.

Pojem a úkoly statistiky

Tabulka 1. Výběr z datové tabulky

7. Rozdělení pravděpodobnosti ve statistice

Prezentace dat. Grafy Aleš Drobník strana 1

Základy popisné statistiky

Simulace. Simulace dat. Parametry

STATISTIKA 1. Adam Čabla Katedra statistiky a pravděpodobnosti VŠE

Měření zrychlení volného pádu

JEDNOVÝBĚROVÉ TESTY. Komentované řešení pomocí programu Statistica

Obsah. Statistika Zpracování informací ze statistického šetření Charakteristiky úrovně, variability a koncentrace kvantitativního znaku

Náhodná proměnná. Náhodná proměnná může mít rozdělení diskrétní (x 1. , x 2. ; x 2. spojité (<x 1

Národníinformačnístředisko pro podporu jakosti

STATISTICKÉ CHARAKTERISTIKY

Metodologie pro Informační studia a knihovnictví 2

Kapitola Hlavička. 3.2 Teoretický základ měření

Zdokonalování gramotnosti v oblasti ICT. Kurz MS Excel kurz 6. Inovace a modernizace studijních oborů FSpS (IMPACT) CZ.1.07/2.2.00/28.

ANALÝZA DAT V R 2. POPISNÉ STATISTIKY. Mgr. Markéta Pavlíková Katedra pravděpodobnosti a matematické statistiky MFF UK.

Jednovýběrové testy. Komentované řešení pomocí MS Excel

Aplikovaná statistika v R

mezi studenty. Dále bychom rádi posoudili, zda dobrý výsledek v prvním testu bývá doprovázen dobrým výsledkem i v druhém testu.

Příloha podrobný výklad vybraných pojmů

Škály podle informace v datech:

StatSoft Jak se pozná normalita pomocí grafů?

Charakteristiky kategoriálních veličin. Absolutní četnosti (FREQUENCY)

MATEMATIKA Maturitní témata společná část MZ základní úroveň (vychází z Katalogu požadavků MŠMT)

Výrobní produkce divizí Ice Cream Po lo ha plane t Rozložený výse ový 3D graf Bublinový graf Histogram t s tn e ídy

Základy teorie pravděpodobnosti

Praktická statistika. Petr Ponížil Eva Kutálková

Základní pojmy a cíle statistiky 1

Mnohorozměrná statistická data

TECHNICKÁ UNIVERZITA V LIBERCI SEMESTRÁLNÍ PRÁCE

1.1 Dva základní typy statistiky Popisná statistika (descriptive statistics) Inferenční statistika (inferential statistics)

Kartografické stupnice. Přednáška z předmětu Tematická kartografie (KMA/TKA) Otakar Čerba Západočeská univerzita

Chyby měření 210DPSM

Metodologie pro Informační studia a knihovnictví 2

Použití základních typů grafu v programu EXCEL

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Základy popisné statistiky

VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ. FAKULTA STROJNÍHO INŽENÝRSTVÍ Ústav materiálového inženýrství - odbor slévárenství

Transkript:

3 Grafické zpracování dat Grafické znázorňování je velmi účinný způsob, jak prezentovat statistické údaje. Grafy nejsou tak přesné jako tabulky, ale rychle a lépe mohou poskytnou názornou představu o důležitých tendencích a souvislostech. Pomocí grafů můžeme například odhadovat trendy a kolísání časových řad nebo několik časových řad vzájemně srovnávat. Nevhodné použití grafického vyjádření však může též svádět k chybným úvahám a interpretacím. Graf představuje přepsání číselných údajů do soustavy geometrických obrazců. Základní smysl číselných údajů interpretujeme pomocí souřadnic, stupnic a grafické sítě. Podkladem grafického znázornění je většinou soustava souřadnic, v níž horizontální osa (x) se nazývá osa úseček (abscisa) a vertikální osa (y) je osa souřadnic (ordináta). Poloha libovolného bodu je určena délkou kolmice k ose x a k ose y. Číselně polohu bodu vyjádříme vzhledem k zvoleným stupnicím na obou osách. Na každé stupnici jsou vyznačeny kóty, kterým jsou přiřazena čísla. Vzdálenost mezi dvěma kótami je grafický interval, rozdíl mezi jejich číselným označením je číselný interval. Poměr mezi grafickým a číselným intervalem se nazývá modul stupnice. Jestliže stejnému číselnému intervalu v libovolném místě stupnice odpovídá stejný grafický interval, jde o rovnoměrnou stupnici. U nerovnoměrné stupnice stejným číselným intervalům odpovídají nestejné grafické intervaly. Například nerovnoměrná stupnice, pro kterou grafický interval je dán rozdílem logaritmů čísel, se nazývá logaritmická stupnice. Kromě pravoúhlé soustavy souřadnic se používá i polárních souřadnic. Tato soustava určuje polohu libovolného bodu pomocí jeho vzdálenosti od počátku a velikosti úhlu, který je měřen od zadaného směru. Ukázka presentace dat tabulce Tabulka 1: Zdrojových dat x 1 x 2 x 3 x 4 x 5 x 6 3504 18 8 307 130 1 3693 15 8 350 165 1 4312 14 8 440 215 1 3850 15 8 390 190 1 3090 N an 4 133 115 1 4142 N an 8 350 165 1 4055 13 8 350 145 2 3870 13 8 302 130 2 3755 13 8 318 150 2 2865 24 4 140 92 3 3035 23 4 151 N an 3 1980 36 4 105 74 3.................................... 1

3.1 Základní grafy 3.1.1 Bodový graf se užívá zejména ke znázornění závislosti dvou znaků a znázorňuje naměřené hodnoty pomocí bodů v soustavě pravoúhlých souřadnic. Chceme-li v jednom bodovém grafu odlišit hodnoty různých kategorií, použijeme rozdílných symbolů (trojúhelníčky, kroužky, křížky) nebo různých barev. Obrázek 1: Závislost veličiny x 2 na veličině x 1 pro různé skupiny podle hodnoty x 6 3.1.2 Spojnicový graf vyjadřuje průběh časové řady nebo slouží ke znázornění rozdělení absolutních nebo relativních četností spojitého znaku a v tomto případě se nazývá polygon četností. 2

3.1.3 Sloupcový graf je graf, kdy číselné hodnoty jsou vyjádřeny pomocí obdélníkových sloupců. Sloupce v grafu obvykle zakreslujeme ve svislé poloze. Ve vodorovné poloze je umist ujeme v případě, že text ke sloupcům je příliš dlouhý. Chceme-li v grafu současně srovnávat v daném znaku více souborů, můžeme do téže třídy umístit i více sloupců. Sloupce pak odlišujeme barevně nebo různým šrafováním. Při stejné velikosti tříd je šířka sloupců konstantní a výška odpovídá velikosti nebo četnosti znázorňovaného jevu. Při nestejné velikosti tříd musí být šířka sloupce úměrná velikosti třídy a plocha odpovídat četnosti. Obrázek 2: Veřejné výdaje na zdravotnictví (v mil. Kč) a index veřejných výdajů ve stálých cenách (basický rok 1995=100) 3

3.1.4 Histogram se používá ke znázornění rozdělení absolutních nebo relativních četností spojitého znaku. Jedná se speciální typ sloupcový graf, který lze charakterizovat následovně: 1. Sloupce v histogramu jsou vertikální. Jejich výška odpovídá četnosti (absolutní nebo relativní). 2. Stupnice na vodorovné ose grafu je vždy ve stejných jednotkách (obecné sloupcové grafy, které obvykle obsahují kvalitativní veličiny, nemusí mít měřítko základny). 3. Šířka sloupců v histogramu má význam - základna každého sloupce zahrnuje třídu hodnot veličiny. Četnost tedy odpovídá ploše sloupce (tj. šířce sloupce výšce). Pokud budeme předpokládat, že délka intervalu je konstantní, označme ji h, pak při určování počtu tříd, do kterých data rozdělujeme, můžeme vycházet z následujících pravidel Sturgesovo pravidlo - h = R k, kde R je x max x min a k = 1 + log 2 n; Modifikované Sturgasovo pravidlo - k = 1 + 3.3 ln n; Scottovo pravidlo - h = 3.5 s, kde s je (výběrová) standardní odchylka; n1/3 Freedman, Diaconisovo pravidlo - h = 2 RQ n 1/3, kde R Q = Q 75 Q 25 je kvartilové rozpětí ;............................................................................................... Pro určování četností používáme v Excelu funkci ČETNOSTI(DATA;HODNOTY), kde DATA je matice nebo odkaz na množinu hodnot, jejichž četnosti chcete vypočítat a HODNOTY je matice intervalů (nebo odkaz na ně), do kterých chcete seskupit hodnoty uvedené v argumentu data. Funkce je maticová, tedy zadáváme pomocí kombinace CTRL+SHIFT+ENTER................................................................................................... Speciálním typem histogramu je histogram v polárních souřadnicích. Obrázek 3: Histogram veličiny x 5 - v klasických a v polárních souřadnicích 4

3.1.5 Věková pyramida (strom života) znázorňuje věkové složení vzorku. Jedná se opět o zvláštní typ sloupcového grafu. Obrázek 4: Průměrné náklady VZP na zdravotní péči na 1 pojištěnce dle věkové struktury v roce 2004 5

3.1.6 Kruhový graf (výsečový, koláčový) graf zachycuje strukturu souboru. Plocha kruhu představuje celý soubor a jednotlivé části jsou znázorněny kruhovými výsečemi. Protože 360 odpovídá 100 % plochy kruhu, představuje výseč o středovém úhlu 3,6 jedno procento. Výseče, které představují jednotlivé složky souboru, odlišujeme různým šrafováním nebo barevně. Obrázek 5: Struktura nákladů zdravotních pojišt oven na zdravotní péči podle segmentů péče v roce 2004 3.2 Speciální statistické grafy Základním problémem je graficky zachytit více informací do jednoho grafu. Například pro různé skupiny chceme graficky zachytit: průměr ve skupině (charakteristika polohy), směrodatnou odchylku ve skupině (charakteristika variability) a počet prvků ve skupině (podává informaci o velikosti skupiny). 3.2.1 Graf s chybovými úsečkami je graf, zobrazujeme závislost průměru ve skupině na skupině a dále graficky vyjadřujeme směrodatnou odchylku jako tzv. chybové úsečky ve směru svislé osy. Můžeme též přidat chybové úsečky ve směru vodorovné osy a vyjádřit tak například počet prvků ve skupině. 6

Obrázek 6: Graf kombinující sloupcový graf a bodový graf s chybovými úsečkami............................................................................................... V Excelu zadáváme chybové úsečky výběrem FORMÁTU DATOVÉ ŘADY, jejich grafickou podobu lze ovlivnit pomocí FORMÁTU CHYBOVÝCH ÚSEČEK. Obrázek 7: Formát datové řady.................................................................................................. 7

3.2.2 Bublinový graf je graf, kde další veličina (například počet prvků ve skupině) je vyjádřena objemem nebo šířkou bubliny. Obrázek 8: Bublinový graf, kde počet prvků ve skupině je vyjádřen plochou bubliny............................................................................................... V Excelu použijeme pro vytvoření tohoto grafu standardní typ grafu: bublinový a jeho přesnější parametry můžeme upravit pomocí FORMÁTU DATOVÉ ŘADY Obrázek 9: Formát datové řady.................................................................................................. 8

3.2.3 Box plot grafy (krabičkový graf) je graf, který se obvykle používá pro zachycení robusních statistik. Základem grafu je obdelník, jehož hrany tvoří dolní a horní kvartil (uvnitř obdelníku je 50% hodnot), uvnitř obdelníku je vyznačen medián (plná čára),ev. i průměr (kroužek). Z obdelníku vedou úsečky (tzv. vousy - whiskers ), které dosahují k hranice x D = Q 0.25 1.5 (Q 0.75 Q 0.25 ), reps. x H = Q 0.75 +1.5 (Q 0.75 Q 0.25 ). Hodnoty, které jsou mimo oblast vyznačenou vousy, jsou od odlehlá pozorování (extrémní pozorování, outliers) a jsou vyznačeny křížkem (jeden křížek=jedno odlehlé pozorování). Obrázek 10: Box graf 3.2.4 Empirická distribuční funkce je graf zachycující rozložení dat v celém studovaném souboru. Empirickou distribuční funkci sestrojíme tak, že seřadíme data podle velikosti a na osu x vynášíme hodnoty dat a osa y zachycuje kolik procent dat je menších než hodnota na ose x. Obrázek 11: Empirická distribuční funkce pro hodnoty 1, 2, 3, 3, 4, 9, 12 9

3.2.5 Paretův graf je speciální typ sloupcového grafu, kdy jednotlivé hodnoty jsou uspořádány v sestupném pořadí. Navíc graf obvykle obsahuje kumulativní hodnotu. Obrázek 12: Paretův graf 3.2.6 Probability grafy jsou grafy, které porovnávají naměřené hodnoty s jejich očekávanými. Také se používá označení P- P grafy. Grafy slouží k rozhodnutí, zda naměřená data pochází ze sledovaného rozdělení. Typickým příkladem jsou normal probability plot a weibull probability plot, ale grafy se dají konstruovat pro všechna rozdělení. [ F 1 ( ) ; x (i) ]. i Body v grafech mají souřadnice n + 1 Použití ukážeme na následujících příkladech: generujeme dvě sady dat DATA 1 mají charakter normálního rozdělení a DATA2 nemají charakter normálního rozdělení a pro oba případy vykreslíme grafy 10

Obrázek 13: Normal P-P graf pro DATA1 a DATA2 Obrázek 14: Weibull P-P graf pro DATA1 a DATA2 3.2.7 Q-Q grafy porovnávají experimentální a teoretické kvartily, případně porovnávají kvartily dvou experimentálních měření 11

Obrázek 15: Porovnání dvou skupin dat, které pochází, resp. nepochází ze stejného rozdělení 3.2.8 Další speciální a kombinované grafy Obrázek 16: Ukázka kombinovaného grafu 12

Obrázek 17: Ukázka kombinovaného grafu 3.2.9 Chernoff faces je graf vyvinutý pro visualizaci vícedimensionálních dat. Jednotlivé položky dat jsou presentovány jednotlivými charakteristikami zjednodušeného lidského obličeje - excentricita obličeje, excentricita očí, velikost nosu, úst,.... každý parametr je reprezentován hodnotou v rozsahu 0 1. 13

3.2.10 Grafy pro meta analýsu je vhodný graf pro meta analýzy, kdy zpracovávám statistické studie v jedné oblasti do souhrnného celku 14

Obrázek 18: Ukázka visualizace 15

Obrázek 19: Ukázka kombinovaného grafu forest plot Obrázek 20: Ukázka kombinovaného grafu Galbraith plot 16