Úloha E301 Čistota vody v řece testem BSK 5 ( Statistická analýza jednorozměrných dat ) Zadání : Čistota vody v řece byla denně sledována v průběhu 10 dní dle biologické spotřeby kyslíku BSK 5. Jsou v uvedených datech vybočující hodnoty, svědčící o dni, ve kterém blízký chemický závod vypouštěl do řeky nečistoty? Jaká je střední hodnota a parametr rozptýlení BSK 5 v průběhu 10 dnů a jaká je po vyloučení vybočujících hodnot? Aplikujte i Hornův postup. Je výhodné užít robustní odhady polohy a rozptýlení? Data : Hodnoty BSK 5 vody v řece 6.50 5.80 16.70 6.40 7.00 6.30 7.00 9.20 6.70 6.70 Řešení : Program ADSTAT : modul Jednorozměrná data : Exploratorní analýza spojitá Základní předpoklady Transformace dat Analýza jednoho výběru Hornův postup pro malé výběry A) Exploratorní analýza spojitá Obr.1 Kvantilový graf Graf vykazuje poměrně velkou odchylku od normálního rozdělení. Vpravo jsou 2 odlehlé body. E301 Čistota vody v řece testem BSK 5 Strana č. 1 z 8
Obr.2 Bodové a krabicové grafy Z grafů je zřejmá silná asymetrie se zešikmením k nižším hodnotám a indikují 2 odlehlé body. Obr.3 Graf polosum Tento graf jasně ukazuje asymetrii dat. Za odchylku jsou zodpovědné v podstatě 2 odlehlé body, které však nemůžeme vypustit. E301 Čistota vody v řece testem BSK 5 Strana č. 2 z 8
Obr.4 Graf symetrie Graf ukazuje zřejmou asymetrii souboru dat Obr.5 Q-Q graf Tento graf svědčí o nepodobnosti s normálním rozdělením. E301 Čistota vody v řece testem BSK 5 Strana č. 3 z 8
Obr.6 Graf rozptýlení s kvantily Graf indikuje asymetrii se zešikmením k nižším hodnotám. Přítomnost několika úseků rovnoběžných úseků s osou x svědčí o vícemodálním rozdělení. Obr.7 Graf hustoty pravděpodobnosti Z grafu je zcela jasná asymetrie, vysoká špičatost a vícemodální rozdělení. E301 Čistota vody v řece testem BSK 5 Strana č. 4 z 8
Obr.8 Kruhový graf Kruhový graf ukazuje výrazné zešikmení k nižším hodnotám. ZÁVĚR EDA : Nelze ztotožnit s Gaussovým normálním rozdělením, výrazná asymetrie se zešikmením k nižším hodnotám ( šikmost 2.3283 ) a vyšší špičatost ( 6.9352 ). Identifikace vybočujících měření : Kvantilový graf 1 odlehlý bod nahoře, 1 podezřelý Krabicový graf 2 odlehlé body Graf polosum 2 odlehlé body Graf symetrie 2 odlehlé body Q-Q graf 2 odlehlé body nahoře, 1 dole Graf rozptýlení s kvantily 1 odlehlý bod nahoře a 1 dole B) Ověření předpokladů 1. KLASICKÉ ODHADY PARAMETRŮ : Průměr : 7.83000 Rozptyl : 0.10529 Směrodatná odchylka : 3.24480 Šikmost : 2.32830 Špičatost : 6.93530 E301 Čistota vody v řece testem BSK 5 Strana č. 5 z 8
2. TEST NORMALITY : Tabulkový kvantil χ 2 ( 1 α, 2 ) : 5.99150 χ 2 statistika : 51.3970 Závěr : Předpoklad normality zamítnut Vypočtená hladina významnosti : 6.9077. 10-12 3. TEST NEZÁVISLOSTI : Tabulkový kvantil t (1 α / 2, n + 1 ) : 2.20100 Test autokorelace : 1.67280 Závěr : Předpoklad nezávislosti přijat Vypočtená hladina významnosti : 0.061264 4. DETEKCE ODLEHLÝCH BODŮ : Bod číslo 3 ( horní ) : 16.700 Bod číslo 8 ( horní ) : 9.2000 Počet odlehlých bodů : 2 C) Transformace dat Soubor dat nelze považovat za symetrický s normálním rozdělením, proto byla prošetřena i mocninná transformace a Box-Coxova transformace. Výsledky transformace dat shrnuje následující tabulka : Parametr Prostá mocninná transformace Box Coxova transformace λ 4.00 4.00 Šikmost 0.36002 0.36002 Špičatost 2.8373 2.8373 Opravený průměr 6.8089 6.8089 E301 Čistota vody v řece testem BSK 5 Strana č. 6 z 8
Obr.9 Graf logaritmu věrohodnostní funkce Jak je zřejmé z grafu logaritmu věrohodnostní funkce, neobsahuje konfidenční interval hodnotu λ = 1. Ze statistického hlediska má tedy transformace přínos. D) Analýza jednorozměrného výběru Hodnota Směrodatná odchylka Spodní mez Horní mez Průměr 7.830 3.24480 5.5088 10.151 Medián 6.700 0.55745 5.7618 7.6382 5 % uřezaný průměr 7.450 2.3606 6.4150 8.4850 10 % uřezaný průměr 6.975 1.4193 5.9400 8.0100 40 % uřezaný průměr 6.700 0.0000 6.7000 6.7000 E301 Čistota vody v řece testem BSK 5 Strana č. 7 z 8
E) Hornův postup pro malé výběry 1. Pořádková statistika původních dat : I 1 2 3 4 5 6 7 8 9 10 x i 5.80 6.30 6.40 6.50 6.70 6.70 7.00 7.00 9.20 16.70 n + 1 10 + 1 INT + 1 INT + 1 2 2 2. Hloubka pivotu : H = = = 3 2 2 Dolní pivot : x D = x (H) = x (3) = 6.40 Horní pivot : x H = x (n+1-h) = x (8) = 7.00 x D + x H 6. 40 + 7. 00 Pivotová polosuma : P L = = = 6. 70 2 2 Pivotové rozpětí : R x x = 7. 00 6. 40 = 0. 60 L = H D 3. 95%-ní interval spolehlivosti střední hodnoty : Kvantil t L,1-α/2 (n) = t L, 0.975 (10) = 0,668 P L R. L t L, 0.975 (n) µ P L +R. L t L, 0.975 (n) 6.70 0.60. 0.668 µ 6.70 + 0.60. 0.668 95%ní interval střední hodnoty je : 6.2992 m 7.1008 Závěr : Naměřený soubor dat nevyhovuje Gaussovu normálnímu rozdělení. Vykazuje výraznou asymetrii se zešikmením k nižším hodnotám šikmost 2.3283 a vysokou špičatost 6.9352. Toto způsobují 2 odlehlé body, které u takto malých výběrů dat mají velký vliv na parametry. Proto je nutno se přiklonit k robustním parametrům (viz tabulky). Vybočující hodnoty není vhodné z důvodu nízkého počtu naměřených hodnot a z charakteru zadání vypouštět. Vzhledem k tomuto je nejvhodnější analýza malých výběru dle Horna, která zužuje interval spolehlivosti 6.2992 µ 7.1008, což je podstatně více, než robustní parametry, které jsou v tomto případě silně ovlivňovány odlehlými hodnotami. Z výsledků plyne, že během 10 dnů vypouštěl chemický závod 2krát nečistoty do řeky. E301 Čistota vody v řece testem BSK 5 Strana č. 8 z 8