Dodávky hydroxidu sodného Zadání: Zkontrolujte kvalitu dodávek NaOH s využitím exploratorní analýzy dat. Zaměřte se na šířku koncentračního intervalu. Na základě výsledků rozhodněte o provedení transformace, či využití robustních charakteristik. Zdůvodněte možnou chybu, která by vznikla nerespektováním případných tvarových zvláštností dat. 1. Zjistěte u dodávek hydroxidu sodného průměrnou koncentraci NaOH v %. 2. Porovnejte dva dodavatele na základě provedené analýzy dat. Data 1 (NaOH_1 [%]): 48.79 48.43 48.39 49.38 48.71 48.35 48.83 48.02 48.99 48.38 48.68 48.72 48.14 48.30 48.91 48.28 48.56 48.51 48.73 48.93 48.01 48.48 48.27 48.49 48.48 49.04 48.81 48.60 48.52 48.43 47.91 - Data 2 (NaOH_2 [%]): 50.40 50.10 50.50 50.40 50.10 50.00 50.20 49.80 50.40 50.30 50.30 49.60 50.40 50.40 50.10-50.30 49.90 50.60 50.50 50.00 50.20 49.50-50.50 49.70 50.10 50.50 50.50 50.10 50.50-50.60 50.30 50.10 50.50 50.50 50.60 49.60-50.50 50.10 50.30 50.50 50.30 50.50 49.40 - Vyšetření dat: 1. Průzkumová analýza spojitých dat (EDA). 2. Ověření předpokladů o datech. 3. Transformace dat. 4. Statistická analýza jednorozměrných dat (CDA). -1-
Průzkumová analýza dat (EDA) Vyšetřuje statistické zvláštnosti, jako je: koncentrace dat tvarové zvláštnosti rozdělení dat přítomnost podezřelých hodnot Diagnostické grafy v průzkumové analýze dat pro NaOH (Data 1) Obrázek 1: Histogram pro NaOH_1 Obrázek : QQ-graf pro NaOH_1 Histogram (osa x: proměnná x, osa y: úměrná hustotě pravděpodobnosti) v jednotlivých třídách s konstantní šířkou, kdy optimální počet tříd byl stanoven automaticky s ohledem na počet dat ukazuje na Gaussovo symetrické rozdělení (obr.1). Q-Q graf (osa x: Q(P), osa y: x ) posuzuje shodu výběrového rozdělení Q (P) s kvantilovou s i i E i funkcí teoretického rozdělení Q T(P i). Z tvaru dat, které leží na přímce, lze usoudit na normální rozdělení. Je zde také indikováno jedno odlehlé měření (obr.2). Obrázek 3: Kvantilový graf pro NaOH_1 Obrázek 4: Graf rozpt. s kvantily pro NaOH_1 Kvantilový graf (osa x: P, i osa y: x i) zobrazuje empirické kvantily proložené kvantilovou funkcí normálního rozdělení. Zelená křivka odpovídá funkci s klasickým průměrem a rozptylem (nerobustní), červená křivka odpovídá mediánu a mediánové odchylce (robustní). Lépe prokládá data křivka nerobustní, jde tedy o data s normálním rozdělením, proto bude vhodnější i pro odhad střední hodnoty zvolit průměr. Opět i zde je indikován jeden odlehlý bod (obr. 3). Graf rozptýlení s kvantily (osa x: pořadová pravděpodobnost P, osa y: pořádková statistika x ) i i jehož základem je odhad kvantilové funkce výběru to znamená, že body grafu jsou vizuálně i významově shodné s kvantilovým grafem. Pro normální rozdělení má kvantilová funkce sigmoidální tvar, který je patrný i v tomto případě. Vzájemná poloha obdélníků odpovídá symetrickému rozdělení. Vodorovná úsečka uprostřed nejmenšího obdélníku označuje medián (50% kvantil), svislá úsečka na příčce odpovídá intervalu spolehlivosti mediánu (obr.4). -2-
Obrázek 5: Diagram rozptýlení pro NaOH_1 Obrázek 6: Krabicový graf pro NaOH_1 Diagram rozptýlení (osa x: hodnoty x, osa y: libovolná úroveň) představuje jednorozměrnou i projekci kvantilového grafu do osy x. Na tomto velmi jednoduchém, přesto značně vypovídajícím grafu nejsou patrny větší lokální koncentrace dat, je zde indikován jeden odlehlý bod. Aby bylo možno lépe posoudit rozložení dat jsou v dolní polovině zobrazena táž data rozmítnuta. Nedochází zde ke splývání shodných nebo blízkých dat (obr.5). Krabicový graf (osa x: úměrná hodnotám x, osa y: libovolná úroveň) je standardním i diagnostickým grafem, který umožňuje částečnou sumarizací dat, znázornění robustního odhadu polohy (Mediánu M), posouzení symetrie u konců rozdělení a identifikaci odlehlých bodů. Z tohoto grafu lze usuzovat na symetrické rozdělení jen velmi mírně zešikmené, což způsobují hodnoty, které lze charakterizovat jako odlehlé. Na grafu jsou mimo interval vnitřních hradeb. Střed bílého pruhu odpovídá Mediánu, jeho šířka intervalu spolehlivosti (obr.6). Obrázek 7: Graf polosum pro NaOH_1 Obrázek 8: Graf symetrie pro NaOH_1 Gr a f pol osum (osa x: pořádkové statistiky x, i osa y: Z i = 0.5(x (n+1-i) +x (i)) je citlivým indikátorem asymetrie rozdělení. Prostřední horizontální přímka na níž leží poslední bod, představuje medián a červené přerušované meze jeho interval spolehlivosti. Není zde patrný výrazný trend, který by indikoval šikmost. Mimo meze se vyskytuje jediný bod (obr.7). Graf symetrie (osa x: M-xi, osa y: x - M) má podobný význam jako předchozí graf. V případě (n+1-i) symetrického rozdělení resultuje lineární závislost s nulovým úsekem a jednotkovou směrnicí. Také zde nelze potvrdit trend charakteristický pro asymetrické rozdělení, kdy směrnice je úměrná šikmosti - rostoucí pro zápornou šikmost, klesající pro kladnou šikmost (obr.8). -3-
Obrázek 9: Hustota pro NaOH_1 Obrázek 10: Kruhový graf pro NaOH_1 Hu st o t a pravděpodobnosti (osa x: x i, osa y: hustota pravděpodobnosti f (x)) slouží k porovnání průběhu hustoty pravděpodobnosti normálního rozdělení s jádrovým odhadem hustoty počítaným na základě dat, který zde vyjadřuje červená čára. Nehomogenitu dat, způsobenou shluky, vyjadřují maxima na této křivce. Zde jsou si obě křivky velmi podobné a z toho lze usoudit na rozdělení velmi blízké normálnímu. Ovšem hladkost křivky je dána parametrem vyhlazení hustoty, kdy při jeho malé hodnotě se objeví maxima pro každá data (obr.9). Kruhový graf slouží k vizuálnímu ověření hypotézy, že výběr pochází ze symetrického rozdělení. Zde se graf blíží k regulárnímu, konvexnímu polygonu, blízkému kružnici. Zelený kruh (elipsa) je optimální tvar normálního rozdělení. Černý, představující data se s Gaussovskou předlohou téměř kryje (obr. 10). Diagnostické grafy v průzkumové analýze dat pro NaOH (Data 2) Součástí komentáře zde již nebude teoretický základ k jednotlivým grafům, tak jako v prvním případě, ale pouze vysvětlení statistických zvláštností. Obrázek 11: Histogram pro NaOH_2 Obrázek 12: QQ-graf pro NaOH_2 Histogram zde ukazuje na výrazně nesymetrická data s nejvyšším zastoupením ve třídě pro nejvyšší koncentraci, což ukazuje na systematicky ovlivněná data (obr.11). Q - Q graf potvrzuje systematické zešikmení (data se zápornou šikmostí ). Body grafu neleží na přímce ale nevykazují výrazné zlomy a nehomogenity, křivka je relativně hladká, z čehož lze usoudit, že data pocházejí z jednoho rozdělení (obr.12). -4-
Obrázek 13: Kvantilový graf pro NaOH_2 Obrázek 14: Graf rozpt. s kvant. pro NaOH_2 Kv anti lov ý graf ukazuje výrazné odchýlení od klasické i robustní křivky, neindikuje odlehlé body (obr13). Graf rozptýlení s kvantily potvrzuje asymetrické rozdělení pomocí vzájemné polohy obdélníků, z polohy dat je patrné zešikmení k nižším hodnotám (obr.14). Obrázek 15: Diagram rozptýlení pro NaOH_2 Obrázek 16: Krabicový graf pro NaOH_2 Dia g r am rozptýlení ukazuje zvyšující se koncentraci dat zešikmení k nižším hodnotám, z čehož vyplývá silně asymetrické rozdělení (obr.15). Krabicový graf potvrzuje asymetričnost dat, dokonce indikuje jednu odlehlou hodnotu, která je však k celkovému rozložení dat sporná (obr.16). Obrázek 17: Graf polosum pro NaOH_2 Obrázek 18: Graf symetrie pro NaOH_2 Grafy polosum a symetrie ukazují, jak jsou směrnice trendu úměrné zešikmení, tj. asymetrii dat. Body na mediánové rovnoběžce s osou x jsou ze symetrického rozdělení, ostatní ne (obr.17,18). -5-
GrObrázek 19: Hustota pro NaOH_2 a fobrázek 20: Kruhový graf pro NaOH_2 hus tot y pra vděpodobnosti (jádrový odhad) ve srovnání s Gaussovým rozdělením je patrné silné zešikmení k nižším hodnotám (záporná šikmost). Maxima na empirické křivce mohou znamenat nehomogenitu dat (obr.19). Kruhový graf opět potvrzuje asymetričnost rozdělení (obr. 20). Závěr exploratorní analýzy Data 1 (NaOH_1) se významně neodlišují od normálního (Gaussova) rozdělení. Byla indikována jedna odlehlá hodnota. Ovšem vypuštění této hodnoty by mohlo vést ke ztrátě informace. Data 2 (NaOH_2) se významně odlišují od normálního (Gaussova) rozdělení. Nebyla indikována žádná odlehlá hodnota. U těchto dat bude nutno provést transformaci. Obrázek 21: PP-graf pro NaOH_1 Obrázek 22: PP-graf pro NaOH_2 Z PP-grafů je podle proložení přímky x = y patrná v prvním případě blízkost experimentálních dat rozdělení normálnímu, ve druhém případě Laplaceovu rozdělení. Tato podobnost s Laplaceovým rozdělením ukazuje na možnou nekonstantnost rozptylu (obr. 21, 22). -6-
Statistická analýza jednorozměrných dat (CDA) Ověření předpokladu o datech použitím programu QCExpert 3.0 Název sloupce NaOH_1 NaOH_2 Název sloupce NaOH_1 NaOH_2 Řád trendu 4 4 Znaménkový test Vyhlazení hustoty 0,5 0,5 Závěr závislá nezávislá Hladina významnosti 0,05 0,05 Test normality Počet platných dat 32 44 Průměr 48,5506 50,2257 Klasické parametry Rozptyl 0,1035 0,0977 Průměr 48,5506 50,2257 Šikmost 0,2209-1,0131 Spodní mez 48,4346 50,1306 Špičatost 3,1139 3,2447 Horní mez 48,6666 50,3207 Normalita Přijata Zamítnuta Rozptyl 0,1035 0,0977 Vypočtený 0,4990 6,2888 Směr. odchylka 0,3218 0,3126 Teoretický 5,9915 5,9915 Šikmost 0,2209-1,0131 Pravděpodobnost 0,7792 0,0431 Odchylka od 0 Nevýznamná Významná Vybočující body Špičatost 3,1139 3,2447 Homogenita Přijata Přijata Odchylka od 3 Nevýznamná Nevýznamná Počet vybočujících bodů 0 0 Polosuma 48,6450 50,0000 Spodní mez 47,5378 49,2327 Modus 48,4481 50,4420 Horní mez 49,5423 51,3673 t-test Autokorelace Testovaná hodnota 0 0 Řád autokorelace 4 Rozdíl Významný Významný Počet -0,1123 0,0077 Vypočtený 853,5177 1065,7727 Řád autokorelace 1 Teoretický 2,0395 2,0167 Korelační koeficient 0,4495 0,1843 Pravděpodobnost 1,2588E-69 0,0000 Pravděpodobnost 0,0056 0,1184 Robustní parametry Závěr Významný Nevýznamný Medián 48,5150 50,3000 Řád autokorelace 2 IS spodní 48,3329 50,1457 Korelační koeficient 0,1881 0,1324 IS horní 48,6971 50,4543 Pravděpodobnost 0,1597 0,2016 Medianová sm. odch. 0,0893 0,0765 Závěr Nevýznamný Nevýznamný Medianový rozpty 0,0080 0,0059 Řád autokorelace 3 10% Průměr 48,5457 50,2534 Korelační koeficient -0,0045 0,0723 10% IS spodní 48,4271 50,1512 Pravděpodobnost 0,4907 0,3266 10% IS horní 48,6643 50,3557 Závěr Nevýznamný Nevýznamný 10% Směr. odchylka 0,2257 0,2252 Řád autokorelace 4 10% Rozptyl 0,0510 0,0507 Korelační koeficient -0,1123 0,0077 20% Průměr 48,5500 50,2744 Pravděpodobnost 0,2846 0,4812 20% IS spodní 48,4401 50,1760 Závěr Nevýznamný Nevýznamný 20% IS horní 48,6599 50,3729 Test významnosti trendu 20% Směr. odchylka 0,1601 0,1745 Směrnice -0,0136-0,0074 20% Rozptyl 0,0256 0,0305 Významnost Významný Významný 40% Průměr 48,5444 50,2935 Pravděpodobnost 0,9874 0,9783 40% IS spodní 48,4247 50,2023 40% IS horní 48,6642 50,3846 40% Směr. odchylka 0,0992 0,1135 40% Rozptyl 0,0098 0,0129-7-
Ověření předpokladu o datech - závěr Reprezentativní náhodný výběr je charakterizován třemi základními předpoklady. Jsou to nezávislost, homogenita a normalita výběru. Nezávislost v případě NaOH_1 nebyla prokázána. Podle autokorelace 1. řádu jsou prvky závislé, s korelačním koeficientem 0,4495. Zde vzrůstá nebezpečí, že odhady budou systematicky vychýleny. Ovšem na základě původu dat (pocházejí z regulovaného výrobního procesu) je nutno tuto závislost akceptovat. Nezávislost v případě NaOH_2 byla prokázána. Předpoklad normality v případě NaOH_1 byl splněn, proto je možno použít klasických odhadů Předpoklad normality v případě NaOH_2 splněn nebyl, proto bude nutno provést transformaci dat a k vyčíslení odhadů použít retransformované parametry. Ke zjištění možné chyby, vzniklé nedodržením základního pravidla pro zpracování asymetrických dat, bude vhodné porovnat retransformované odhady s klasickými a robustními odhady. Transformace dat použitím programu QCExpert 3.0 Box-Coxova transformace Exponenciální transformace Optimální parametr 3,0683 Optimální parametr -0,8105 Dolní mez parametru 1,6864 Zvolený parametr -0,8105 Horní mez parametru 4,6512 Oprávněnost transformace Ano Věrohodnost bez transformace 70,8153 Opravený průměr 50,3124 Věrohodnost s transformací 75,1354 Interval spolehlivosti Oprávněnost transformace Ano Spodní 50,2318 Pravděpodobnost 99,6710 Horní 50,3790 Zvolený parametr 3,0683 LCL 47,5310 Věrohodnost 75,1354 UCL 50,7178 Opravený průměr 50,2823 LWL 49,1945 LCL Aproximací 47,6793 UWL 50,6235 UCL Aproximací 50,8240 LWL 49,9759 UWL 50,5008 Grafy k provedené transformaci Obrázek 23: Box-Coxova transformace Obrázek 24: Exponenciální transformace Graf hustoty představuje tvar rozdělení, který nejlépe vystihuje data prostřednictvím transformace. Svislé čáry představují kvantily (hodnoty) odpovídající mediánu (50% kvantil), kvartilu (25% kvantily ohraničující 50% dat), ±2s (zhruba 2.5% kvantily ohraničující interval 95% dat), 0.5% kvantily ohraničující 99% dat a ±3s, ohraničující 99.73% dat (obr. 23, 24). -8-
Obrázek 29: QQ-graf před transformací Obrázek 25: Graf věrohodnosti Obrázek 30: QQ-graf po transformaci Obrázek 26: Graf šikmosti Graf logaritmu závislosti věrohodnostní funkce (osa y) na parametru r. Maximu odpovídá optimální hodnota r. Vodorovná přímka odpovídá spodní mezi 95% intervalu spolehlivosti maxima věrohodnosti a svislé přímky odpovídají intervalu spolehlivosti odhadu r. Obsahuje-li tento interval 1, není nutné transformovat. Zde interval jedničku neobsahuje, z toho plyne, že transformace byla oprávněná (obr. 25). Závislost šikmosti transformovaných dat na parametru transformace. Nulová šikmost odpovídá optimálnímu parametru. Význam tohoto grafu je podobný jako u předchozího grafu věrohodnosti, slouží k nalezení parametru transformace a určení statistické významnosti transformace. Leží-li průsečík svislé zelené přímky s křivkou mimo interval spolehlivosti šikmosti (vodorovné zelené přímky), je transformace opodstatněná (obr. 26). Zobrazení dat před a po provedené transformaci Obrázek 27: QQ-graf před tansformací Obrázek 28: QQ-graf po transformaci QQ-graf původních dat, shodný s QQ-grafem v Exploratorní analýze dat. Metoda transformace bývá užitečná jen pro systematicky prohnutý tvar bodů v QQ-grafu (obr. 27, 29). Proti statistikám má QQ-graf výhodu v možnosti vizuálního posouzení, zda je nelinearita (tedy odchylka od normality) způsobena jen několika body, nebo všemi daty. Po provedené transformaci je tvar bodů blíže přímce než na předešlém grafu, transformace je úspěšná (obr. 28, 30). -9-
Komentář k provedené transformaci Jelikož se na základě průzkumové analýzy dat zjistilo, že rozdělení výběru dat se systematicky odlišuje od rozdělení normálního, byla provedena Box-Coxova a Exponenciální transformace dat, která, vede ke stabilizaci rozptylu, zesymetričtění rozdělení. Vypočtené údaje byly přepočítány do původních souřadnic. Exponenciální transformace je založena na minimální asymetrii - nulové šikmosti a v případě Box-Coxovy transformace přiblížení k normalitě (vzhledem k šikmosti a špičatosti) je založeno na metodě maximální věrohodnosti. Zkoumaná data vykazují systematickou asymetrii, nikoli asymetrii způsobenou pouze několika vybočujícími body, proto dává transformace spolehlivější hodnoty statistických odhadů. Porovnání zjištěných hodnot odhadů parametrů Odhady parametrů NaOH_1 NaOH_2 Klasické odhady Průměr 48,5506 50,2257 Spodní mez 48,4346 50,1306 Horní mez 48,6666 50,3207 Rozptyl 0,1035 0,0977 Směr. odchylka 0,3218 0,3126 Robustní odhady Medián 48,5150 50,3000 IS spodní 48,3329 50,1457 IS horní 48,6971 50,4543 Medianová sm. odch. 0,0893 0,0765 Medianový rozptyl 0,0080 0,0059 Box-Coxova transformace Opravený průměr - 50,2823 LCL Aproximací - 47,6793 UCL Aproximací - 50,8240 Exponenciální transformace Opravený průměr - 50,3124 Spodní interval spolehlivosti - 50,2318 Horní interval spolehlivosti - 50,3790 LCL - 47,5310 UCL - 50,7178 LWL - 49,1945 UWL - 50,6235 Závěr a doporučení -10-
Pomocí programu Qcexpert 3.0 byla provedena analýza předložených dat. Důraz byl kladen především na exploratorní analýzu a její grafické výstupy. Z grafů pro NaOH_1 je patrno, že se jedná o data z normálního (Gaussova) rozdělení, přičemž další testování odhalilo jejich závislost, která je pravděpodobně způsobena řízením ve výrobním procesu. Vzhledem k tomu, že se jedná o atesty dodávek suroviny, je nutno tuto skutečnost akceptovat s doporučením směrem k dodavateli, aby provedl kontrolu analytického procesu. Přestože byl odhalen jeden odlehlý bod, nebyl z důvodu možné ztráty informace o dodávce z analýzy vypuštěn. Jako odhad střední hodnoty je možno klasických parametrů. Proto můžeme s 95% statistickou jistotou tvrdit, že odhad střední hodnoty leží v intervalu L = D 48.4346 [%] a L = 48.6666 [%] a je vyčíslen jako aritmetický průměr x = 48.5506 [%]. H Naproti tomu data NaOH_2 jsou silně asymetrická a bylo nutno provést transformaci. Lépe vyhovovala transformace exponenciální a odhadem střední hodnoty je retransformovaný průměr, který má hodnotu x = 50.3124 [%]. Opět lze tvrdit, že s 95% statistickou jistotou lze R požadovanou střední hodnotu nalézt v intervalu L DR = 50.2318 [%] a L HR = 50.3790 [%]. Pokud porovnáme robustní odhady obou souborů dat, zjistíme, že směrodatné odchylky a rozptyl jsou si velmi podobné. Přestože pro výrobní proces je tento rozdíl málo významný, lze říci, že data NaOH_2 vyhovují lépe kvalitativním požadavkům na šířku koncentračního intervalu. Tento závěr vychází i z porovnání klasických parametrů, samozřejmě při respektování provedené transformace. Literatura Milan Meloun, Jiří Militký: Statistické zpracování experimentálních dat, EASH PUBLISHING, a.s. 1998 Karen L. Acerson: Wordperfect for Windows, Grada 1992-11-