SEMESTRÁ LNÍ PRÁ CE Licenč ní studium STATISTICKÉZPRACOVÁ NÍ DAT PŘ I KONTROLE A Ř ÍZENÍ JAKOSTI Předmě t STATISTICKÁ ANALÝ ZA JEDNOROZMĚ RNÝ CH DAT (ADSTAT) Ú stav experimentá lní biofarmacie, Hradec Krá lové Ing. Martina Růžičková Strana 1 ze 14
Příklad 1. Statistická analýza velkých výběrů Zadá ní: Ve firmě Life a.s. Hradec Krá lové proběhla v roce 1998 chronická studie eroprilu. Cílem studie bylo zhodnocení vlivu šestimě síč ního podá vá ní eroprilu na organismus potkana a srovná ní s kontrolní skupinou zvířat. Do experimentu bylo vzato 40 potkanů. Na začátku studie byli potkani zváženi a pomocí randomizace rozdě leny do dvou skupin skupiny kontrolní a skupiny referenč ní. Metodou prů zkumové analýzy dat vyšetřete, zda jsou splně ny požadavky, kladené na ná hodný výbě r. Urč ete typ rozdě lení a střední hodnotu výbě ru. Data: hmotnosti potkanů [g]: 243 246 258 236 254 237 248 246 270 253 264 238 233 254 256 248 242 256 251 231 240 250 258 262 270 233 242 246 265 238 259 246 257 236 238 251 249 256 250 246 Program: ADSTAT 1.25, modul Jednorozmě rná data, program Exploratorní analýza, Porovná ní rozdě lení, Zá kladní předpoklady, Mocninná transformace, Analýza 1 výběru. Řešení a obrá zky: 1. EXPLORATORNÍ ANALÝ ZA SPOJITÝ CH DAT (EDA) 1.1. Grafické diagnostiky. Celkem 9 grafických diagnostik indikuje symetrii, špič atost a odlehlé body. Kvantilový graf. Vztyč ením kolnice na osu x v bodě 0,5 získá me prů sečíky s robustní a klasickou křivkou. Prů sečík kolmice s klasickou křivkou udá vá hodnotu aritmetické ho prů měru a prů sečík s robustní křivkou hodnotu mediá nu. Totožnost prů sečíků svědčí o symetrii rozdělení. V horní části diagramu jsou 2 odlehlé body. Strana 2 ze 14
Bodové a krabicové grafy. Bodové grafy ukazují 2 odlehlé body v horní části. Krabicové grafy ukazují rovněž 2 odlehlé body v horní části. Rozdělení je symetrické. Graf polosum. Body jsou rozptýlené kolem mediá nové rovnoběžky s osou x, což značí asymetrii. Strana 3 ze 14
Graf symetrie. Ukazuje rozptýlené body, což svědčí o asymetrii. Graf špič atosti. Jedná se o asymetrické rozdělení, body neleží na rovnoběžce s osou x. Strana 4 ze 14
Q-Q graf. Nahoře jsou 2 odlehlé body. Ostatní body jsou té měřna přímce, což značí normá lní rozdělení. Vztyč ením kolnice na osu x v bodě 0 získá me prů sečíky s přímkou a body. Prů sečík kolmice s přímkou hodnotu aritmetické ho prů měru a prů sečík s body hodnotu mediá nu. Totožnost prů sečíků svědčí o symetrii rozdělení. Graf hustoty pravděpodobnosti. Jedná se o normá lní rozdě lení, neboť Gaussova a empirická přímka jsou té měřshodné. Vrchol Gaussovy křivky udá vá aritmetický prů měr a vrchol empirické křivky udá vá mediá n. Rozdě lení je symetrické, protože aritmetický prů mě r je totožný s mediá nem. Strana 5 ze 14
Graf rozptýlení s kvantily. Z grafu je pratrné symetrické rozdělení s 2 odlehlými body v horní části a 1 odlehlým bodem v dolní části. Kruhový graf. Tvar elipsy ukazuje symetrické rozdělení. Strana 6 ze 14
1.2. Analýza kvantil-kvantilového Q-Q grafu. Rozdělení Směrnice Ú sek Korelač ní koeficient Laplaceovo 7,46 248,90 0,97023 Normá lní 10,31 248,90 0,99200 Exponenciá lní 10,08 239,02 0,93225 Rovnomě rné 34,54 231,63 0,98770 Lognormá lní 5,20 240,74 0,86352 Gumbelovo 7,90 253,34 0,95464 Z analýzy vyplývá, že nejvyšší hodnoty korelač ního koeficientu (r = 0,992) je dosaženo pro rozdě lení normá lní. 1.3. Závěry EDA. Explorativní analýza dat proká zala, že se jedná o rozdě lení normá lní (Gaussovo). Hodnota aritmetické ho prů měru je totožná s hodnotou mediá nu. Rozdělení je symetrické. Aritmetický prů měr lze tedy brá t za střední hodnotu. Odlehlé body jsou zde 2 v horní části. 2. OVĚŘENÍ PŘEDPOKLADŮ O DATECH 2.1. Klasické odhady parametrů. Průmě r: 248,90 Rozptyl: 103,17 Smě rodatná odchylka: 10,157 Šikmost: 0,19382 Špič atost: 2,3310 2.2. Test normality. Tabulkový kvantil Chi 2(1-α,2): 5,9915 Chi 2-statistika: 0,9488 Zá věr: Předpoklad normality přijat. Vypoč tená hladina vý znamnosti: 0,6223 2.3. Test nezávislosti. Tabulkový kvantil t(1-α/2,41): 2,0195 Test autokorelace: 0,4464 Zá věr: Předpoklad nezá vislosti přijat. Vypoč tená hladina vý znamnosti: 0,3288 2.4. Předpoklad homogenity výběru. Průmě r: 248,90 Rozptyl: 103,17 Smě rodatná odchylka: 1,0157 Vnitřní meze: spodní mez: 208,60 horní mez: 288,40 2.5. Minimální velikost výběru. Pro 25 % relativní chybu směrodatné odchylky: n = 6 Pro 10 % relativní chybu směrodatné odchylky: n = 34 Pro 5 % relativní chybu směrodatné odchylky: n = 134 2.6. Detekce odlehlých bodů Nejsou odlehlé body. Strana 7 ze 14
2.7. Závěr předpokladů. Hodnota šikmosti je 0,19382, což svědčí o symetrii rozdělení. Hodnota špič atosti je 2,3310 (pro normá lní rozdě lení je špič atost rovna 3). Přestože detekce nenalezla žá dné odlehlé body, pomocí grafických diagnostik byly nalezeny 2 odlehlé body v horní části. Nezá vislost, homogenita a normalita výběru byla přijata, jedná se tedy o reprezentativní ná hodný výběr normá lního rozdě lení. Za střední hodnotu lze považovat aritmetický prů mě r. Transformace dat v tomto případě není nutná. 3. ANANLÝ ZA JEDNOHO VÝ BĚRU 3.1. Klasické odhady. Průmě r: 248,90 Špič atost: 2,3310 Smě rodatná odchylka: 10,157 Šikmost: 0,19382 Rozptyl: 103,17 95 % interval spolehlivosti: dolní mez: 245,65 horní mez: 252,15 3.2. Robustní odhady Mediá n: 248,50 Směrodatná odchylka mediá nu: 13,936 Rozptyl mediá nu: 194,22 95 % interval spolehlivosti: dolní mez: 244,11 horní mez: 252,89 4. ZÁVĚR Výběr pochá zí z normá lního (Gaussova) rozdělení. Transformace dat tedy nebyla nutná a za stření hodnotu lze považovat aritmetický prů měr, který je roven 248,90 g. 95 % interval spolehlivosti má spodní mez 245,65 g a horní mez 252,15 g. Strana 8 ze 14
Příklad 2. Statistická analýza malých výběrů dle Horna Zadá ní: Etalonovým zá važím byla provedena kalibrace analytických vah zvlá štní třídy přesnosti SARTORIUS R 160P. Závaží bylo 6x zváženo na příslušných vahá ch. Stanovte výsledek kalibrace a srovnejte ho s hmotností zá važí, která je 100,0 ± 1,5 g. Data: naměřené hmotnosti [g]: 99,9 100,0 99,9 99,9 100,0 100,1 Program: ADSTAT 1.25, modul Jednorozměrná data, program Analýza 1 výběru. Řešení: 1. METODA PIVOTŮ PODLE HRONA 1.1. Pořádkové statistiky. i 1 2 3 4 5 6 x (i) 99,9 99,9 99,9 100,0 100,0 100,0 1.2. Hloubka pivotu.. n + 1 6 + 1 + 1 + 1 H = int 2 = int 2 = int(2,25) = 2 2 2 1.3. Pivoty. dolní pivot x D = x (H) = x (2) = 99,9 horní pivot x H = x (n+1-h) = x (5) = 100,0 1.4. Pivotová polosuma. xd + xh 99,9 + 100,0 PL = = 2 2 = 99,95 1.5. Pivotové rozpětí. R L = x H x D = 100,0 99,9 = 0,1 1.6. 95 % interval spolehlivosti střední hodnoty µ. PL RL t ( L,1 α / 2) ( n) µ PL + RL t ( L,1 α / 2) ( n) 99,95 0,1 1,035 µ 99,95 + 0,1 1,035 99,85 µ 100,05 1.7. Závěr. Bodový odhad míry polohy je 99,95 g, míra rozptýlení 0,1 g a intervalový odhad míry polohy je 99,85 µ 100,05. Porovná ním výsledku kalibrace s hmotností zá važí (100,0 ± 1,5), lze konstatovat, že kalibrace ověřila spolehlivost vážení na uvedených vahá ch. Strana 9 ze 14
2. ANANLÝ ZA JEDNOHO VÝ BĚRU 2.1. Klasické odhady. Průmě r: 99,967 Špič atost: 2,04 Smě rodatná odchylka: 0,0816 Šikmost: 0,63 Rozptyl: 0,0067 95 % interval spolehlivosti: dolní mez: 99,881 horní mez: 100,050 3.2. Robustní odhady Mediá n: 99,950 Směrodatná odchylka mediá nu: 0,0929 Rozptyl mediá nu: 0,0086 95 % interval spolehlivosti: dolní mez: 99,807 horní mez: 100,09 4. ZÁVĚR Při porovná ní výsledků získaných metodou pivotů podle Horna s klasickými a robustními odhady pomocí programu ADSTAT bylo dosaženo podobných hodnot. Obecně ale platí, že pro výběry s četností menší jak 7 se aplikuje pouze Hormů v postup, který poskytuje sprá vně jší odhady. Strana 10 ze 14
Příklad 3a. Statistické testování test správnosti Zadá ní: V rá mci SLP (Sprá vní laboratorní praxe) je pro automatické pipety na objem 100 µl povoleno rozmezí hodnot 99,2 100,8 µl. Každý půlrok se prová dí kalibrace automatických pipet. Při poslední kalibraci byly změřeny následující hodnoty. Urč ete, zda pipeta odpovídá požadavků m SLP. Data: naměřené objemy [µl]: 100,0 100,0 99,9 100,2 100,1 100,3 99,8 100,6 100,0 99,7 99,8 99,8 99,5 100,8 100,6 100,4 100,0 100,2 100,0 99,8 99,6 100,5 99,2 100,9 100,3 100,4 99,6 99,8 99,9 100,2 Program: ADSTAT 1.25, modul Jednorozmě rná data, program Exploratorní analýza, Porovná ní rozdě lení, Zá kladní předpoklady, Mocninná transformace, Analýza 1 výběru. Řešení: 1. EXPLORATORNÍ ANALÝ ZA DAT Z grafických diagnostik bylo stanoveno, že se jedná o symetrické rozdělení. Z grafu hustota pravděpodobnosti, Q-Q grafu a z analýzy Q-Q grafu je patrné, že se jedná o normá lní rozdělení s korelač ním koeficientem 0,991. Z diagnostik dále vyplývá, že v rozdělení jsou 2 odlehlé body nahoře a 1 dole. 2. OVĚŘENÍ PŘEDPOKLADŮ O DATECH Normalita, nezá vislost a homogenita byla přijata. Šikmost je 0,185, což značí symetrii a špič atost je 2,74, což značí normá lní rozdělení. Transformace dat není nutná. 3. ANANLÝ ZA JEDNOHO VÝ BĚRU Klasické odhady. Průmě r: 100,06 Špič atost: 2,7443 Smě rodatná odchylka: 0,3917 Šikmost: 0,1855 Rozptyl: 0,1534 95 % interval spolehlivosti: dolní mez: 99,92 horní mez: 100,21 Robustní odhady. Mediá n: 100,00 Směrodatná odchylka mediá nu: 0,3716 Rozptyl mediá nu: 0,1381 95 % interval spolehlivosti: dolní mez: 99,81 horní mez: 100,19 4. ZÁVĚR Příslušná automatická pipeta vyhovuje podmínká m SLP, protože s 95 % jistotou nezná má pravda µ leží v intervalu (99,92;100,21) µl, což je v mezích přípustných hodnot. Strana 11 ze 14
Příklad 3b. Statistické testování test shodnosti Zadá ní: Ve výzkumné m ú stavu mají v analytické laboratoři dvě HPLC soustavy. Pro ověření, zda soustavy poskytují shodné výsledky bylo na obou soustavá ch změřeno 20 vzorků m krevní plazmy s objemem léčiva 45 mg. Data: změřené obsahy léčiva [mg]: HPLC I: 45,36 45,14 45,28 HPLC II: 44,98 45,13 44,97 45,18 44,90 44,97 45,20 44,99 44,96 44,96 45,18 45,14 45,12 45,09 45,08 45,32 45,16 44,93 45,02 44,94 45,07 44,89 44,82 45,29 45,15 45,17 45,12 44,88 45,23 45,13 44,98 45,21 45,07 45,36 44,96 44,98 45,24 Program: ADSTAT 1.25, modul Jednorozmě rná data, program Zá kladní předpoklady, Porovná vá ní 2 výběrů. Řešení: 1. OVĚŘENÍ NORMALITY OBOU VÝ BĚRŮ 1.1. Na základě šikmosti a špičatosti. Pokud oba výběry mají šikmost z intervalu (-0.3;0.3) a špič atost z intervalu (2.4;3.8), lze bez dalšího vyšetřová ní dat předpoklá dat, že se jedná o výběry normá lního rozdělení. HPLC I: Špičatost: 1,6480 HPLC I: Špičatost: 1,8074 Šikmost: -0,0739 Šikmost: 0,1891 Hodnoty špič atosti u obou výběrů nejsou v dané m intervalu, proto je třeba prové st testy. 1.2.Testy. U obou výběrů je přijata nezá vislost, normalita a homogenita, jedná se tedy o výběry s Gaussovým rozdělením. Pro testová ní shody rozptylů se použije klasický F-test. 2. TEST SHODY ROZPTYLŮ Hypoté zy: H 0 : σ 1 2 = σ 2 2 H A : σ 1 2 σ 2 2 Tabulkový kvantil: F (1-α/2,19,19) = 2,5265 Statistika F: F exp = 3,5926 Vypoč tená hladina vý znamnosti: 0,004 Protože je F (1-α/2,19,19) < F exp je H o zamítnuta Rozptyly se považují za různé. 3. TEST SHODY STŘEDNÍCH HODNOT Pro testová ní shody středních hodnot se použije t-test pro rozdílné rozptyly. Hypoté zy: H 0 : µ 1 = µ 2 H A : µ 1 µ 2 Tabulkový kvantil: t (1-α/2,30) = 2,0423 Strana 12 ze 14
Statistika t: t exp = 0,68748 Vypoč tená hladina vý znamnosti: 0,497 Protože je t (1-α/2,30) > t exp je H o přijata Střední hodnoty se považují za shodné. 4. ZÁVĚR Ze získaných ú dajů vyplývá, že obě HPLC soustavy poskytují shodné výsledky. Strana 13 ze 14
Příklad 3c. Statistické testování párový test Zadá ní: Pacientů m byly změřeny hladiny cholesterolu. Pak byla pacientů m předepsá na dieta, při které museli z jídelníč ku vyč lenit tuč ná jídla a hladiny cholesterolu jim byly změřeny znovu. Urč ete pá rovým testem, zda dieta statisticky ovlivnila hladiny cholesterolu. Data: změřené obsahy léčiva [mg]: Před dietou: 3,50 Po dietě: 2,89 4,50 4,00 5,6 5,05 4,86 4,07 Program: ADSTAT 1.25, modul Jednorozmě rná data, program Zá kladní předpoklady, Porovná vá ní 2 výběrů. Řešení: 1. PÁROVÝ TEST Hypoté zy: H 0 : d = µ 1 - µ 2 = 0 H A : d 0 Průmě rný rozdíl: 0,6275 Rozptyl: 0,2604 Tabulkový kvantil: t (1-α/2,3) = 3,1824 Statistika t: t exp = 4,8191 Vypoč tená hladina vý znamnosti: 0,017 Protože je t (1-α/2,19) < t exp je H o zamítnuta Střední hodnoty se nepovažují za shodné. 4. ZÁVĚR Ze získaných ú dajů vyplývá, že omezením tuč né stravy došlo ke statistické mu snížení hladiny cholesterolu u pacientů. Strana 14 ze 14