Tri možné cesty merania variancie: Rozsah Kvartily Odľahlé údaje Box a Whisker graf Miery rozptylu a variancie Rozsah množiny dát je rozdiel medzi najmenšou a najväčšou hodnotou v súbore. Je silne ovplyvnený extrémnymi hodnotami. Preto nie je často dobrou mierou variancie. Kvartily Iným spôsobom ako analyzovať množinu údajov je stanoviť ako sú údaje rozložené medzi najmenšou a najväčšou hodnotou. To je možno spraviť tak, že sa údaje zoradia podľa veľkosti a rozdelia do na štyri rovnaké skupiny. Takto každá z nich obsahuje 25% (teda ¼) všetkých údajov. Preto sa to nazýva kvartilom. Jemnejšie delenia sú možné a niekedy sa rozdelí súbor na desať častí a dostanú sa decily, alebo na sto a hovoríme o percentiloch. Dolný extrém je najmenšou hodnotou Dolný kvartil Q 1 je mediánom dolnej polovice údajov Medián Q 2 rozdelí údaje na dve rovnaké polovice Horný extrém je najväčšou hodnotou Horný kvartil Q 3 je mediánom hornej polovice údajov 25% údajov 25% údajov 25% údajov 25% údajov Interquartilový rozsah IQR, ktorý je rozdielom medzi Q 1 a Q 3 UNDP Human Development Index (HDI) Krajiny 2003 1 Austria 0.936 2 Belgium 0.945 3 Cyprus 0.891 4 Czech Republic 0.874 5 Denmark 0.941 6 Estonia 0.853 7 Finland 0.941 8 France 0.938 9 Germany 0.93 10 Greece 0.912 11 Hungary 0.862 12 Ireland 0.946 13 Italy 0.934 14 Latvia 0.836 15 Lithuania 0.852 16 Luxembourg 0.949 17 Malta 0.867
18 Netherlands 0.943 19 Poland 0.858 20 Portugal 0.904 21 Slovakia 0.849 22 Slovenia 0.904 23 Spain 0.928 24 Sweden 0.949 25 United Kingdom 0.939 Tabuľka 1 UNDP Index ľudského rozvoja v krajinách EU Odľahlé údaje Sú to hodnoty, ktoré sú veľmi vzdialené od väčšiny údajov tvoriacich súbor. To môže byť dôsledok systematickej chyby alebo skutočnosti, že niektoré údaje sú veľmi vzdialené od centra súboru. Pri normálnom rozdelení údajov je možno očakávať malé množstvo odľahlých údajov. Pri stanovení nier centrálnej tendencie, tie ktoré nie sú citlivé na odľahlé údaje nazývame robustné. Výpočet: Hranica pre horné odľahlé údaje sa vypočíta ako súčet hodnoty horného kvartilu Q 3 a hodnoty medzikvartilového rozsahu vynásobenej číslom 1,5 Q 3 + 1,5*IQR Hranica pre dolné odľahlé údaje sa vypočíta ako rozdiel hodnoty dolného kvartilu Q 1 a hodnoty medzikvartilového rozsahu vynásobenej číslom 1,5 Q 1-1,5*IQR Pokiaľ sa jedná o normálne rozložené údaje potom len 1 zo 150 pozorovaní bude odľahlým údajom. Pre túto vlastnosť je potrebné im venovať zvláštnu pozornosť. Použite údaje z Tabuľky 1 k určeniu: 1. Dolného a horného extrému, Q 2, Q 3 2. Rozsahu 3. Medzikvartilového rozsahu 4. Ľubovoľných odľahlých pozorovaní 5. Vytvorte graf box a whisker V prvom kroku zoraďte údaje podľa veľkosti. UNDP Human Development Index (HDI) Krajiny 2003 14 Latvia 0.836 dolný extrém 21 Slovakia 0.849 15 Lithuania 0.852 6 Estonia 0.853 19 Poland 0.858 11 Hungary 0.862
17 Malta 0.867 Q 1 dolný kvartil 4 Czech 0.874 Republic 3 Cyprus 0.891 20 Portugal 0.904 22 Slovenia 0.904 10 Greece 0.912 23 Spain 0.928 Q 2 medián 9 Germany 0.93 13 Italy 0.934 1 Austria 0.936 8 France 0.938 25 United 0.939 Kingdom 5 Denmark 0.941 7 Finland 0.941 Q 3 horný kvartil 18 Netherlands 0.943 2 Belgium 0.945 12 Ireland 0.946 16 Luxembourg 0.949 24 Sweden 0.949 Q 4 horný extrém Máme spolu 25 hodnôt. Dolný extrém je 0.836 a horný je 0.949. Dolný kvartil Q 1 je medián dolnej polovice údajov, horný kvartil je mediánom hornej polovice údajov. 2. Rozsah je 0.949-0.836 = 0.113 3. Rozsah medzi kvartilmi je 0.941-0.867 = 0.074 4. Defenícia odľahlého pozorovania hovorí, že je to každá hodnota v súbore, ktorá je mimo 1.5 medzikvartilového rozsahu za dolným alebo horným kvartilom. Q 1 1.5(0.074) = 0.867 0.111 = 0.756. Q 3 + 1.5(0.074) = 0.941 + 0.111 = 1.052 Z toho vyplýva že uvedený súbor neobsahuje odľahlé údaje. 5. Nakoniec grafická reprezentácia vo forme box and whisker (krabicový alebo krabicovofúzový) opísal Tukey v roku 1977. Tento graf predstavuje najlepší spôsob na grafické znázornenie rozdelenia hodnôt číselnej premennej v skupinách. Horizontálna čiara predstavuje medián (50. percentil), horná hrana škatule 75. percentil a dolná hrana 25. percentil. Dĺžka obdĺžnika predstavuje medzikvartilové rozpätie (IQR), teda stredných 50 % hodnôt súboru. Význam hornej a dolnej čiarky závisí od typu škatuľového grafu. V najjednoduchšej podobe predstavuje horná čiarka maximum a dolná čiarka minimum. Horná čiarka však často znázorňuje 95. percentil a dolná čiarka 5. percentil. V najzložitejšej podobe grafu horná čiarka predstavuje 75. percentil + 1,5 IQR (neextrémne maximum) a dolná čiarka 25. percentil 1,5 IQR (neextrémne minimum). Odľahlé pozorovania (outliers) ležiace mimo týchto intervalov môžu byť znázornené ako body. Škatuľový graf možno
umiestniť vertikálne, alebo horizontálne (hodnoty premennej budú na osi x). Odľahlé pozorovania sa zvyknú znázorňovať ako bodky alebo pomocou x. Znázornenie vzťahu box plot a normálneho rozdelenia http://en.wikipedia.org/wiki/image:boxplot_vs_pdf.png Postup pri použití programu EXCEL Obrázok 1: Prvotné údaje (WHO HFA 2006) Údaje zoradíme podľa veľkosti príkazom SORT: vyberieme do bloku len tie údaje, ktoré chceme zoradiť (nezabudnite vybrať aj názvy krajín a poradové číslo). Z hornej lišty vyberieme DATA-SORT a zadáme stĺpec, v ktorom máme údaje, ktoré chceme zoradiť. Obrázok 2 predstavuje údaje po zoradení a vyznačení kvartilov. Pre vykreslenie nákresu Box a whiskers postupujeme nasledovne: 1. vypočítame jednotlivé charakteristiky, ktoré budú tvoriť obsah grafu (výpočet na obr.3) Obrázok 2: Usporiadanie a označenie kvartilov (ukonči) vytvoríme obrázok Obrázok 3: Výpočet kvartilov 2. vyberieme údaje aj s ich názvami (nie formuly výpočtu) do bloku 3. klikneme na hornej lište INSERT CHART LINE a vyberieme ten, ktorý vyznačí aj jednotlivé údaje (v mojom prípade je to štvrtý) 4. klikneme na NEXT a vyberieme usporiadanie údajov v ROWS (riadkoch), kliknutím na FINISH
5. Ak máme viac meraní, a teda na jednom obrázku chceme vykresliť viacero box grafov, musíme najprv odstrániť čiary, ktoré spájajú body jednotlivých meraní. Robíme to tak, že pravým tlačítkom myši klikneme na čiaru a vyberiem OPTION CLEAR. 6. Pravým tlačítkom klikneme na niektorý z bodov na obrázku a zobrazí sa dialóg Format data series, vyberieme položku Options a v nej Hi- Low Lines. Tým získame čiaru, ktorá spája všetkých päť bodov, kliknutím na možnosť Up- Down bars vytvoríme očakávanú krabicu box (obrázok 5). 7. Obrázok môžeme ďalej upraviť zdôraznením hodnoty mediánu formou rovnej čiary tým, že klikneme pravým tlačítkom na značku mediánu. 8. Výsledok ostatnej úpravy je na nasledovnom obrázku (č.6). Obrázok 4: Výber druhu obrázku Obrázok 5: Box-whisker obrázok zo zadaných údajov 0.96 0.94 0.92 0.949 0.941 0.928 0.9 0.88 0.86 0.84 0.82 0.8 0.78 0.867 0.836 dolny kvartil maximum median minimum horny kvartil 0.76 1 Obrázok 6: Výsledný produkt
Úlohy 1. Stiahnite si vybrané ukazovatele úmrtnosti pre krajiny EU z WHO Health for All databázy, určite kvartily a vykreslite box-whisker grafy.