Univerzita Pardubice Fakulta chemicko-technologická Katedra analytické chemie S E M E S T R Á L N Í P R Á C E Licenční studium Statistické zpracování dat při managementu jakosti Předmět Určení vnitřní struktury analýzou vícerozměrných dat Iva Škopová Baxter Bio Science s.r.o. Bohumil 15.05.2006
Obsah: 1. Metoda hlavních komponent PCA- Charakteristika meziprokuktu 3 1.1. Zadání 3 1.2. Data 3 1.3. Program 4 1.4. Řešení 4 1.4.1. Korelační analýza 5 1.4.2. Kovariační analýza 6 1.4.3. EDA pro vybrané znaky 7 1.4.4. Průzkumová analýza vícerozměrných dat 8 1.4.5. Analýza hlavních komponent PCA 10 1.4.6. Graf komponentních vah 11 1.7. Závěr 13 2. Faktorová nalýza FA 14 2.1. Zadání 14 2.2. Data 15 2.3. Program 16 2.4. Průzkumová analýza 16 2.5. Korelační a kovariační matice 17 2.6. Vyšetření Cattelova indexového grafu 18 2.7. Faktorové váhy pro jednotlivé proměnné (bez rotace) 19 2.8. Faktorové váhy pro jednotlivé proměnné (po rotaci Varimax) 20 2.9. Faktorové skóre jednotlivých objektů (po rotaci Varimax) 21 2.10. Shluková analýza 22 2.11. Závěr 22 Přílohy: CD disk Strana 2 z 22
1. Metoda hlavních komponent PCA Charakteristika meziproduktu 1.1. Zadání 1.2. Data Na 49 vzorcích influenzy bylo sledováno 9 parametrů jedné technologické části. Dva parametry (obsah Tweenu 80 a obsah proteinů) jsou určovány v laboratoři kontroly kvality. Ostatní parametry jsou snímány pomocí automatických záznamů při řízení procesu. Cílem je rozhodnout, zda uvedené informace mohou poskytnout dostatečnou informaci o kvalitě meziproduktu. Tabulka 01: Zdrojová data OBSAH TWEENU 80 OBSAH PROTEINÚ CENTRIF. 1 OTÁČKY CENTRIF. 1 DOBA CENTRIF. 2 OTÁČKY CERTIF. 2 DOBA TŘEPÁNÍ TEPLOTA INKUBACE DOBA INKUBACE mg/l mg/l 1000ot./min min 1000ot./min min počet C min 312 78 5 Twee 5 7 3 100 65 226 56 4,5 30 4,5 6 2 120 60 342 86 5 50 4 9 3 126 62 134 34 4,5 20 4 5 3 124 63 261 65 5 30 4,5 7 3 123 61 453 120 4,5 55 4 8 1 102 52 216 54 5 35 5 10 3 104 58 423 106 4,5 55 4,5 10 2 103 62 125 31 4 25 5 5 3 92 60 486 122 4 60 5 10 3 102 63 743 186 4,5 60 4,5 14 2 105 59 684 80 4 60 4 12 3 111 58 761 190 5 65 4 15 1 120 57 463 116 4,5 55 4,5 10 2 103 56 589 147 5 60 4 12 1 105 64 467 117 4,5 60 5 10 1 103 67 468 110 5 65 4,5 10 1 124 59 316 79 4,5 35 5 10 2 105 64 468 117 5 60 4,5 10 3 124 57 148 50 4 20 4 6 2 123 64 752 190 4 60 4 7 1 102 58 143 36 5 25 4,5 5 2 104 58 624 156 4,5 65 4 12 3 103 64
1.3. Program 1.4. Řešení 530 133 5 50 5 10 1 92 62 452 113 4,5 45 4,5 9 2 102 60 164 41 5 25 5 6 2 105 64 351 88 4,5 40 4 8 3 111 61 436 109 5 60 4,5 8 1 120 43 254 64 4 35 4 6 1 103 62 701 175 4 65 4,5 10 2 105 45 256 80 4 35 4 5 2 124 63 431 108 4 45 5 8 3 123 59 560 110 5 50 4,5 10 2 102 58 129 32 4,5 30 5 6 2 104 57 542 136 5 40 5 12 3 103 56 435 109 4,5 50 4,5 8 3 92 43 261 65 5 25 4 5 3 124 62 435 109 5 50 4 8 3 123 45 346 87 5 40 4,5 6 3 102 63 258 65 4 40 4 5 1 104 59 462 116 4 50 5 7 1 103 58 345 86 5 40 4,5 5 2 92 57 234 59 4,5 35 4,5 6 2 102 56 561 140 5 50 4 10 1 105 64 423 106 4,5 45 4 8 2 111 67 198 46 5 25 5 4 3 120 59 342 86 4,5 40 4 8 3 103 64 164 57 5 25 5 5 1 105 57 235 59 4 35 4,5 6 2 102 64 Expert 2.27, Statgraphics vícerozměrné statistiky, Statistika 2.7. 1.4.1 Korelační analýza Byla spočtena korelační matice ze všech získaných dat, která obsahuje korelační koeficienty pro uvedený počet vzorků. Jedná se lineární závislosti mezi dvěma náhodnými veličinami. Korelační koeficient blížící se 1 (v Tabulce 03 zvýrazněn červenou barvou) ukazuje silný korelační vztah. Záporné znaménko u korelačního koeficientu znamená sestupnou tendenci korelačního vztahu. Pokud je velikost korelačního koeficientu menší než 0,5, nelze mezi proměnnými hovořit o závislosti. Strana 4 z 22
Tabulka 02: Základní charakteristiky (QCExpert) Základní charakteristiky Proměnná Průměr Rozptyl Směr. odchylka Minimum Maximum Obsah Tweenu 80 389,9795918 31336,02041 177,0198306 125 761 Obsah proteinů 96,02040816 1751,895408 41,85564966 31 190 Centr 1 otáčky 4,591836735 0,1632653061 0,4040610178 4 5 Centr 1 doba 44,18367347 185,7780612 13,6300426 20 65 Centr 2 otáčky 4,459183673 0,1649659864 0,4061600502 4 5 Centr 2 doba 8,142857143 6,708333333 2,590045045 4 15 Počet třepání 2,12244898 0,6513605442 0,8070691075 1 3 Inkubace teplota 108,3673469 100,0705782 10,00352829 92 126 Inkubace doba 59,16326531 31,01445578 5,569062379 43 67 Z výsledků korelační matice vyplývá, že nejvýraznější vztah je mezi obsahem Tweenu 80 a proteinů, dále mezi obsahem Tweenu 80 a dobou první centrifugace a pak mezi obsahem proteinů dobou první centrifugace. Jako významný je možné označit i vztah mezi obsahem Tweenu 80 a dobou druhé centrifugace a pak mezi obsahem proteinů dobou druhé centrifugace. Vysoká korelace mezi dobou první a druhé centrifugace nebude brána na zřetel, protože je ovlivněna nastavením technologických parametrů. Tabulka 03: Korelační matice (QCExpert) Obsah Tweenu 80 Obsah proteinů Obsah Tweenu 1 Obsah 0,9460462082 1 proteinů Centr 1 otáčky Centr 1 doba Centr 2 otáčky Centr 2 doba Počet třepání Inkubace teplota Inkubace doba - 0,02909985757-0,001344978754 0,8863293458 0,8512653276 Centr 1 otáčky 1-0,02393206699 Centr 1 doba 1 Centr 2 otáčky -0,2210993203-0,1972528252 0,1185249071-0,1660826942 1 0,8094582533 0,7525306583 0,1365047266 0,7617006904-0,06365590831-0,2190083352-0,294254967 0,06062586639-0,2558660914 0,07911969229-0,113737526-0,1147572022 0,1383736436-0,09248757905-0,2148525977-0,2103171331-0,0669807315-0,261689454-0,3320861601-0,01541335739 Centr 2 doba 1-0,07830786276-0,05272455056-0,05220256516 Počet třepání 1 Inkubace teplota 0,1852655155 1 0,02790563389-0,001472938807 Inkubace teplota 1 Strana 5 z 22
1.4.2 Kovariační analýza Tabulka 04: Kovariační matice (QCExpert) Obsah Tweenu 80 Obsah proteinů Obsah Tweenu 80 31336 Obsah proteinů 7009 1751,895 Centr 1 otáčky Centr 1 doba Centr 2 otáčky Centr 2 doba Počet třepání Inkubace teplota Inkubace doba Centr 1 otáčky -2,0814-0,022746 0,163265 Centr 1 doba 2138 485,6420-0,131802 185,7780 Centr 2 otáčky -15,896-3,353316 0,0194515-0,919430 0,164965 Centr 2 doba 371,127 81,58035 0,142857 26,8898-0,0669642 6,708333 Počet třepání -31,289-9,94005 0,0197704-2,81462 0,0259353-0,163690 0,651360 Inkubace teplota -201,409-48,04931 0,559311-12,6105-1,34927-1,36607 1,495748 100,070 Inkubace teplota -211,809-49,02423-0,150722-19,86394-0,0348639-0,752976 0,1254251-0,082057 31,0144 Kovariace byla použita k testování sad dat. Vysoká hodnota kovariace mezi daty v jedné a druhé sadě značí velkou závislost mezi testovanými daty (vysoké hodnoty v obou sadách kladná kovariace, vysoké hodnoty v jedné sadě proti nízkým hodnotám v druhé záporná kovariace). Z tabulky lze odhadnout vysokou závislost mezi obsahem Tweenu a proteinů a mezi dobou první centrifugace a obsahem Tweenu a proteinů. Výsledky kovariační analýzy odpovídají závěrům z předchozích diagnostik. Strana 6 z 22
1.4.3 EDA pro vybrané znaky Obsah Tweenu 80 Obsah proteinů Centr 1 doba Centr 2doba Obrázek 01: Vybrané diagnostiky EDA (QCExpert) EDA prokázala, že data mají normální rozdělení, mají dostatečnou variabilitu a neobsahují výrazně odlehlé hodnoty. Strana 7 z 22
1.4.4 Průzkumová analýza vícerozměrných dat Grafické zkoumání podobnosti objektů Počet paprsků odpovídá počtu proměnných, střed polygonu představuje průměr a délka paprsku 2n násobek směrodatné odchylky. Z vizuálního posouzení vyplývá, že data neobsahují měření, které by se výrazně vymykalo. Nebyl nalezen tvar, který tvarem nebo velikostí nemá alespoň jednoho nebo dva podobné objekty. Třepání ObsahTwenu_80 Obsahproteinů Inkubace_teplota Centrif_1_doba Centrif_1_ot Centrif_2_doba Obrázek 02: Klíč ke grafu slunečních paprsků Centrif_2_ot Inkubace_doba Strana 8 z 22
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 Obrázek 03: Graf hvězdicový pro prvních 25 proměnných 1 2 3 4 5 6 7 8 9 10 1 12 13 14 15 16 17 18 19 20 21 2 23 24 25 Obrázek 04: Graf slunečních paprsků pro prvních 25 proměnných 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 Obrázek 05: Graf hvězdicový pro zbytek proměnných Poznámka: Statgraphics zpracovává najednou pouze 25 proměnných. Obrázek 06: Graf slunečních paprsků pro zbytek proměnných Strana 9 z 22
1.4.5 Analýza hlavních komponent PCA Vlastní čísla korelační matice Vlast. číslo 4,5 4,0 3,5 3,0 2,5 2,0 1,5 1,0 0,5 0,0 41,05% Pouze aktiv. proměnné 15,07% 13,19% 10,78% 9,83% 5,84% 2,22% 1,54%,46% Tabulka 05: Kovariační matice (Statistika) Vlastní čís la korelační matice a s ouvisející s tatistiky (PCA_TWN) Pouze aktiv. proměnné vl. číslo % celk. Kumulativ. Kumulativ. Pořadí vl.č. rozptylu vl. číslo % 1 2 3 4 5 6 7 8 9 3,694579 41,05088 3,694579 41,0509 1,356651 15,07390 5,051230 56,1248 1,187485 13,19428 6,238715 69,3191 0,970282 10,78091 7,208997 80,1000 0,884496 9,82774 8,093494 89,9277 0,525755 5,84172 8,619248 95,7694 0,199923 2,22137 8,819171 97,9908 0,139006 1,54451 8,958177 99,5353 0,041823 0,46470 9,000000 100,0000-0,5-1 0 1 2 3 4 5 6 7 8 9 10 11 Pořadí vl. čísla Obrázek 07: Cattelův indexový graf úpatí vlastních čísel (Statistika) Pomocí analýzy hlavních component lze určit důvod, proč spolu některé proměnné souvisí. Pomůže nalézt hlavní komponenty (společné latentní proměnné), které v co největší míře popisují a vystihují variabilitu v analyzovaných datech. Metodou hlavních komponent lze snížit počet původních proměnných tak, že ze zdrojových proměnných je vytvořena lineárníkombinace, která vysvětluje největší část její variability. V tabulce 05 jsou uvedeny výsledky analýzy hlavních komponent. Při výpočtu byla použita standardizace, protože vstupní data nejsou ve stejném měřítku. Z posledního sloupce této tabulky a grafu (Vlastní čísla korelační matice tj. Cattelův indexový graf úpatí vlastních čísel) lze určit optimální počet hlavních komponent, kterými lze dostatečně popsat jednotlivé proměnné. Aby bylo vyhověno požadavku, že součet prvních nejvyšších komponent je 85-90 % muselo by být zvoleno 5 komponent. Pro jednodušší práci byly zvoleny poze 3 hlavní komponenty, které popisují proměnné ze 70 %. Strana 10 z 22
1.4.6 Graf komponentních vah, shluková analýza Projekce proměnných do faktorové roviny ( 1 x 2) Projekce proměnných do faktorové roviny ( 1 x 3) 1,0 1,0 centr.2ot 0,5 0,5 inkub.-doba 0,0 inkub.-doba centr.1ot. trepani Protein centr.2doba centr.1doba Tw een 0,0 incub.-t centr.1doba Protein Tw een centr.2doba Faktor 2 : 15,07% -0,5 incub.-t Faktor 3 : 13,19% -0,5 trepani centr.2ot centr.1ot. -1,0-1,0-1,0-0,5 0,0 0,5 1,0 Faktor 1 : 41,05% Obrázek 08: Graf komponentních vah (Statistika) Aktiv. -1,0-0,5 0,0 0,5 1,0 Faktor 1 : 41,05% Obrázek 09: Graf komponentních vah (Statistika) Aktiv. Strana 11 z 22
1,0 Projekce proměnných do faktorové roviny ( 2 x 3) Str. diagram pro 9 Proměnné Jednoduché spojení Euklid. vzdálenosti Tw een 0,5 inkub.-doba Protein incub.-t 0,0 incub.-t centr.1doba Tw Protein een centr.2doba centr.1ot. centr.2ot Faktor 3 : 13,19% -0,5-1,0 trepani centr.1ot. centr.2ot trepani centr.2doba centr.1doba inkub.-doba -1,0-0,5 0,0 0,5 1,0 Faktor 2 : 15,07% Obrázek 10: Graf komponentních vah (Statistika) Aktiv. 0 500 1000 1500 2000 2500 Obrázek 11: Dendrogram (Statistika) Vzdálen. spojení Tw een 3D Bodový graf vs. Protein vs. centr.1doba Všechny případy Obrázek 12: 3D graf (Statistika) Strana 12 z 22
Interpretace grafů komponentních vah vede k následujícím závěrům. PC1 PC2: Obsah Tweenu, obsah proteinů a doba druhé centrifugace spolu pozitivně korelují, naproti tomu doba inkubace je spředchozími ukazately v negativní korelaci. Vzájemně negativně korelovány jsou i otáčky druhé centrifugace a teplota inkubace. PC1 PC3: Pozitivně spolu korelují otáčky druhé centrifugace, třepání a inkubace, přestože má malou variabilitu v datech a neposkytuje tedy dostatečnou informaci. Další skupinou pozitivně korelujících ukazatelů jsou Tween, protein a doba druhé centrifugace, stejně jako v předchozím grafu. PC2 PC3: Tento graf poskytuje nejméně informací, a jeho výstupy korespondují s předcházejícími závěry. Dendogram: Z uspořádání jednotlivých faktorů (na základě euklidovských vzdáleností) je zřejmé, že je lze rozdělit do dvou skupin (viz Obr. 11). 1.5. Závěr Pokud vezmeme v úvahu fakt, že při biologických testech lze očekávat vyšší rozptyl a nejednoznačnost jednotlivých ukazatelů, lze říci, že i přes ne zcela ideální počet hlavních komponent, lze tuto metodu použít pro získání první rychlé informace o kvalitě meziproduktu, dříve, než bude možné provést řadu dalších testů v následujících krocích výroby. Strana 13 z 22
2. Faktorová analýza (FA) 2.1. Zadání Nalezení vzájemných vazeb v datech, zařazení do skupin. Pro každou sezónu je vyraběno několik různých chřipkových kmenů. Každý kmen během výroby vykazuje v některých parametrech jiné hodnoty. Cílem úlohy je určit, podle jakých proměnných lze určit chřipkový kmen. Testy na obsah hemaglutininu, celkový protein, bakteriální endotoxiny, mikrobiologickou nezávadnost a obsah proteinů zvero buněk jsou prováděny v laboratořích Kontroly kvality. Test na zbytkovou Vero DNA je prováděn externě v zahraničí. 2.2. Data Tabulka 06 Influenza Strain SRD-test / Haemagglutinin Assay Protein Assay / Bradford Method Ratio Haemagglutinin / Total Protein Bacterial Endotoxines / LAL test Total Viable Count / Membrane Filtration Content of Vero Cell Protein / ELISA Ratio Vero Protein / 1% Haemagglutinin Rest VERO DNA / PCR Unit µg HA/ml µg/ml EU/ml CFU/ml µg/ml ng/ml 1NC99 142,6 374 0,38 0,75 0 11,50 0,08 14,20 1NC99 133,3 348 0,38 0,75 0 9,33 0,07 17,40 1NC99 162,6 402 0,40 0,75 0 12,93 0,08 11,20 1NC99 146,4 265 0,55 0,70 0 9,10 0,06 9,90 1NC99 148,7 239 0,62 0,70 0 9,02 0,06 12,10 1NC99 186,1 354 0,53 0,70 0 12,70 0,07 20,90 1NC99 190,3 332 0,57 0,70 0 13,72 0,07 24,20 1NC99 142,2 288 0,49 0,70 0 8,74 0,06 12,00 1NC99 186,8 349 0,54 0,70 0 11,99 0,06 22,90 1NC99 159,6 312 0,51 0,70 0 15,27 0,10 20,80 1NC99 127,4 257 0,50 0,70 0 7,75 0,06 14,60 1NC99 159,2 324 0,49 0,70 0 14,97 0,09 17,90 1NC99 124,7 301 0,41 0,70 0 11,81 0,09 10,30 1NC99 124,6 294 0,42 0,70 0 10,65 0,09 9,80 1NC99 134,8 305 0,44 0,70 0 11,42 0,08 14,30 BJS03 305,1 912 0,33 0,75 0 39,25 0,13 601,00 BJS03 409,8 1097 0,37 1,00 1 65,44 0,16 642,00 BJS03 361,6 800 0,45 1,00 0 45,23 0,13 497,00 BJS03 321,5 821 0,39 1,00 0 42,64 0,13 536,00 BJS03 316,0 760 0,42 0,80 0 45,45 0,14 228,00 BJS03 303,2 803 0,38 1,00 1 43,08 0,14 461,00 Strana 14 z 22
BJS03 394,4 848 0,47 1,00 0 46,92 0,12 675,00 BJS03 316,8 815 0,39 0,80 0 36,54 0,12 403,00 BJS03 385,6 949 0,41 1,00 0 57,79 0,15 784,00 BJS03 438,9 961 0,46 1,00 0 52,63 0,12 507,00 BJS03 325,7 732 0,44 0,80 0 37,28 0,11 275,00 BJS03 397,5 827 0,48 1,00 0 50,01 0,13 757,00 BJS03 482,3 993 0,49 1,00 0 55,11 0,11 505,00 BJS03 396,5 769 0,52 1,00 0 47,16 0,12 598,00 BJS03 379,1 920 0,41 1,00 0 37,85 0,10 424,00 BJS03 385,0 881 0,44 1,00 0 39,82 0,10 295,00 3WY03 333,4 752 0,44 1,00 0 13,94 0,04 86,20 3WY03 268,6 519 0,52 1,00 0 10,05 0,04 124,00 3WY03 363,7 832 0,44 1,00 0 18,91 0,05 93,40 3WY03 279,9 487 0,57 1,00 0 11,59 0,04 74,00 3WY03 217,5 424 0,51 1,00 0 12,61 0,06 55,00 3WY03 327,8 596 0,55 1,00 0 13,18 0,04 125,00 3WY03 255,1 505 0,51 1,00 0 13,38 0,05 79,00 3WY03 212,4 363 0,59 1,00 0 10,56 0,05 74,60 3WY03 321,5 551 0,58 1,00 0 13,92 0,04 129,00 3WY03 254,0 482 0,53 1,00 0 11,77 0,05 25,00 3WY03 222,6 331 0,67 1,00 0 10,64 0,05 43,00 3WY03 254,6 512 0,50 1,00 0 13,85 0,05 72,00 3WY03 209,7 408 0,51 1,00 0 11,13 0,05 55,00 3WY03 177,2 304 0,58 1,00 0 8,24 0,05 28,20 3WY03 253,7 475 0,53 1,00 0 14,30 0,06 31,00 3PA99 313,1 467 0,67 0,75 0 11,64 0,04 25,90 3PA99 292,2 418 0,70 0,75 0 7,12 0,02 41,20 3PA99 305,7 462 0,66 0,75 0 11,76 0,04 23,70 3PA99 295,8 506 0,58 0,75 0 12,78 0,04 23,00 3PA99 276,5 457 0,61 0,75 0 10,25 0,04 33,80 3PA99 280,2 477 0,59 0,75 0 11,62 0,04 32,10 3PA99 228,3 397 0,58 0,75 0 7,98 0,03 29,20 3PA99 239,8 406 0,59 0,75 0 7,22 0,03 20,20 3PA99 238,3 399 0,60 0,75 0 7,46 0,03 19,80 3PA99 330,8 433 0,76 0,75 0 9,41 0,03 40,10 3PA99 356,8 474 0,75 0,75 0 9,58 0,03 43,00 3PA99 393,7 527 0,75 0,75 0 10,63 0,03 32,20 3PA99 336,5 434 0,78 0,75 0 8,01 0,02 34,30 3PA99 356,3 468 0,76 0,75 0 8,12 0,02 27,00 3PA99 449,2 604 0,74 0,75 0 12,17 0,03 36,10 Strana 15 z 22
2.3. Program STATISTIKA vícerozměrné průzkumové techniky 2.4. Průzkumová analýza kritika dat (popisné statistiky měr polohy a rozptýlení) Ikonový graf (FA.sta 9v*61c) 6 5 Krabicový graf (FAst.sta 9v*61c) Medián; Box: 25%-75%; Whisker: Rozsah neodleh. 4 3 2 1 0 Pravotočivě: Hemaglutinin Tot protein Poměr Hem/Tot BET KTJ Obsah Vero Cell Poměr Vero/Hem Rest Vero DNA Obrázek 13: Ikonový graf na první pohled jsou patrné rozdíly v jednotlivých proměnných v závislosti na kmenu a částečně i na typu kmenu -1-2 -3 Hemaglutinin Tot protein Poměr Hem/Tot BET KTJ Obsah Vero Cell Rest Vero DNA r ě Vero/Hem Pom Medián 25%-75% Rozsah neodleh. Odlehlé Extrémy Obrázek 14: Většina proměnných poskytuje dostatečný rozptyl v datech, pouze KTJ s jedním extrémem a BET nemají žádný významný rozptyl. Proměnná Rest Vero DNA má několik odlehlých bodů, jejich odstraněním by však došlo k velkým ztrátám na datech. Strana 16 z 22
2.5. Průzkumová analýza kritika dat (popisné statistiky měr polohy a rozptýlení) Tabulka 07 Korelace (FAst.sta) ChD vynechána případově N=61 Hemaglutinin Tot protein Poměr Hem/Tot Obsah Vero Cell Pom r Vero/Hem Rest Vero DNA Hemaglutinin 1,00 0,83 0,12 0,63 0,23 0,63 Tot protein 0,83 1,00-0,43 0,89 0,65 0,87 Poměr Hem/Tot 0,12-0,43 1,00-0,55-0,77-0,49 Obsah Vero Cell 0,63 0,89-0,55 1,00 0,88 0,95 Poměr Vero/Hem 0,23 0,65-0,77 0,88 1,00 0,81 Rest Vero DNA 0,63 0,87-0,49 0,95 0,81 1,00 Korelační maticový (po standardizaci a vyřazení KTJ a BET) diagram ukazuje hodnoty Pearsonových korelačních koeficientů a největší hodnoty korelace proměnných (jsou zobrazeny červeně). Tabulka 08 Kovariance (FAst.sta) ChD vynechána případově N=61 Hemaglutinin Tot protein Poměr Hem/Tot Obsah Vero Cell Pom r Vero/Hem Rest Vero DNA Hemaglutinin 1,00 0,83 0,12 0,63 0,23 0,63 Tot protein 0,83 1,00-0,43 0,89 0,65 0,87 Poměr Hem/Tot 0,12-0,43 1,00-0,55-0,77-0,49 Obsah Vero Cell 0,63 0,89-0,55 1,00 0,88 0,95 Poměr Vero/Hem 0,23 0,65-0,77 0,88 1,00 0,81 Rest Vero DNA 0,63 0,87-0,49 0,95 0,81 1,00 Strana 17 z 22
Korelace (FAst.sta 7s*61ř) Hemaglutinin Tot protein Poměr Hem/Tot Obsah Vero Cell Poměr Vero/Hem Rest Vero DNA Obrázek 15: Histogramy a maticový graf korelace 2.6. Vyšetření Cattelova indexového grafu úpatí vlastních čísel Vlast. číslo 5,0 4,5 4,0 3,5 3,0 2,5 2,0 1,5 1,0 71,58% Vlastní čísla korelační matice 22,68% Pouze aktiv. proměnné Tabulka 09 Vlastní čísla korelační matice a související statistiky (FAst.sta) Pouze aktiv. proměnné vl. číslo % celk. Kumulativ. Kumulativ. 1 4,294806 71,58010 4,294806 71,5801 2 1,360902 22,68171 5,655708 94,2618 3 0,241870 4,03116 5,897578 98,2930 4 0,083388 1,38980 5,980967 99,6828 5 0,010318 0,17197 5,991285 99,8547 6 0,008715 0,14525 6,000000 100,0000 0,5 0,0 4,03% 1,39%,17%,15% -0,5-1 0 1 2 3 4 5 6 7 8 Pořadí vl. čísla Obrázek 16: Graf vlastních čísel Strana 18 z 22
Ve sloupci vlastních čisel jsou uvedeny čísla matice X X T. První faktor popisuje 71,5 % proměnlivosti v datech a druhý faktor 22,7 %. První dva faktory tedy popisují celkem 94,26 % proměnlivosti v datech. Protože pro FA se většinou používají jen ty faktory, jejich vl. číslo je větší než 1a i hodnota Kaiserova kritéria vede ke 2 faktorům, bude FA provedena na dvou faktorech. 2.7. Faktorové váhy pro jednotlivé proměnné (bez rotace) Faktor 2 Faktor. zátěže, faktor 1 ku faktoru 2 Rotace: Bez rot. Extrakce: Hlavní faktory (komunality = více R^2) 0,6 Poměr Vero/Hem 0,4 0,2 0,0-0,2-0,4 Obsah Vero Cell Rest Vero DNA Tot protein Tabulka 10 Faktor. zátěže (Bez rot. ) (FAst.sta) Extrakce: Hlavní faktory (komunality = více R^2) (Označené zatěže jsou >,700000) Faktor Faktor Hemaglutinin -0,643831-0,749111 Tot protein -0,933237-0,273354 Poměr Hem/Tot 0,603833-0,709357 Obsah Vero Cell -0,986892-0,006391 Poměr Vero/Hem -0,866411 0,424833 Rest Vero DNA -0,937794-0,056197 Výkl.roz 4,254145 1,322759 Prp.celk 0,709024 0,220460-0,6 Hemaglutinin Poměr Hem/Tot -0,8-1,2-1,0-0,8-0,6-0,4-0,2 0,0 0,2 0,4 0,6 0,8 Obrázek 17: Graf faktorových vah Faktor 1 Faktorové váhy jsou vlastně korelace mezi faktory a znaky. Na této informaci je založena interpretace faktorů. Faktorově nejčistší jsou Poměr Vero/hem a poměr Hem/Tot. Jako faktorově nečisté lze označit proměnné Obsah Vero Cell, rest Vero DNA a Total protein, které tvoří shluk. Strana 19 z 22
2.8. Faktorové váhy pro jednotlivé proměnné (po rotaci Varimax) Faktor 2 Faktor. zátěže, f aktor 1 ku f aktoru 2 Rotace: Varimax pr. Extrakce: Hlav ní f aktory (komunality = v íce R^2) 1,0 Poměr Vero/Hem 0,8 Obsah Vero Cell Rest Vero DNA 0,6 Tot protein 0,4 0,2 0,0 Hemaglutinin -0,2-0,4-0,6 Tabulka 11 Faktor. zátěže (Varimax pr.) (FAst.sta) Extrakce: Hlavní faktory (komunality = více R^2) (Označené zatěže jsou >,700000) Faktor Faktor Hemaglutinin 0,982435-0,102499 Tot protein 0,866146 0,442090 Poměr Hem/Tot 0,048109-0,930315 Obsah Vero Cell 0,721842 0,673010 Poměr Vero/Hem 0,338151 0,903773 Rest Vero DNA 0,720347 0,603088 Výkl.roz 2,872004 2,704900 Prp.celk 0,478667 0,450817-0,8 Poměr Hem/Tot -1,0-1,2 0,0 0,2 0,4 0,6 0,8 1,0 1,2 Obrázek 18: Graf faktorových vah Faktor 1 Otočení faktorů v prostoru je libovolné a slouží pro dosažení dobré reprodukovatelnosti korelace mezi faktory a znaky. Po otočení znak Hemaglutinin dosahuje maximální hodnoty faktoru 0,98 a znak Poměr Hem /Tot minimální hodnoty faktoru - 0,93. Faktorově nejčistší jsou poměr Hem/Tot proti shluku Obsah Vero Cell, rest Vero DNA a Total protein. První faktor tedy popisuje znaky Obsah Vero Cell, Rest Vero DNA a Total protein, tedy testy, které stanovují obsah Vero buněk, obsah zbytkové DNA z Vero buněk a obsah celkových proteinů. Všechny tyto testy udávají míru znečištění Influenzy a zejména testy Obsah Vero Cell, Rest Vero DNA spolui biologicky úzce souvisí, což dokazují i výsledky FA. Druhý faktor vykazuje nejvyšší váhu pro znak Poměr Hem / Tot, tedy výsledek, který je dán matematickým výpočtem z výsledků testů na obsah celkových proteinů a specifického proteinu hemaglutininu. Toto číslo udává jednak čistotu Influenzy a jednak její sílu, co se týče výtěžku. Strana 20 z 22
2.9. Faktorové skóre jednotlivých objektů (po rotaci Varimax) Tabulka 12 Faktor. skóre (FAst.sta) Rotace: Varimax pr. Extrakce: Hlavní faktory (komunality = více R^2) Faktor 1 Faktor 2 Faktor 1 Faktor 2 Faktor 1 Faktor 2 1-1,44960 0,86777 21 0,44513 1,64822 41-0,31413-0,32643 2-1,52958 0,75217 22 1,40239 0,73133 42-0,43473-0,66932 3-1,23176 0,74728 23 0,49563 1,19479 43-0,30751-0,10785 4-1,23328 0,10073 24 1,49418 1,60427 44-0,69903-0,06662 5-1,13108-0,11008 25 1,85977 0,77479 45-0,92076-0,26228 6-0,89862 0,14314 26 0,57553 0,85628 46-0,28959-0,21848 7-0,81003 0,02948 27 1,49146 0,74713 47 0,28389-1,17052 8-1,33387 0,27410 28 2,28009 0,44729 48 0,10631-1,35673 9-0,88361 0,06229 29 1,42651 0,46004 49 0,21922-1,09251 10-1,16974 0,56361 30 1,09351 0,78027 50 0,08257-0,71991 11-1,46597 0,29700 31 1,15221 0,68101 51-0,07657-0,80952 12-1,19378 0,60923 32 0,32850-0,22615 52-0,05006-0,70029 13-1,61979 0,91255 33-0,20030-0,46250 53-0,50753-0,55933 14-1,59957 0,78392 34 0,64551-0,09885 54-0,40728-0,71523 15-1,47871 0,70342 35-0,05696-0,65769 55-0,41108-0,71503 16 0,45595 1,75274 36-0,62536-0,02309 56 0,48813-1,67211 17 1,83111 2,04687 37 0,33235-0,74548 57 0,67208-1,78497 18 1,04796 0,94116 38-0,30016-0,16733 58 0,95183-1,93723 19 0,63413 1,42408 39-0,60727-0,35233 59 0,52410-1,80303 20 0,56446 1,46141 40 0,31642-0,81159 60 0,65520-1,87168 61 1,38118-2,18420 Strana 21 z 22
2.10. Shluková analýza Hemaglutinin Tot protein Obsah Vero Cell Rest Vero DNA Poměr Vero/Hem Str. diagram pro 6 Proměnné Jednoduché spojení Euklid. vzdálenosti Tabulka 13 Euklid. vzdálenosti (FAst.sta) Hemagl utinin Tot protein Poměr Hem/To t Obsah Vero Cell Poměr Vero/He m Hemaglutinin 0,0 4,5 10,3 6,7 9,6 6,6 Tot protein 4,5 0,0 13,1 3,6 6,5 4,0 Poměr Hem/Tot 10,3 13,1 0,0 13,7 14,6 13,4 Obsah Vero Cell 6,7 3,6 13,7 0,0 3,7 2,6 Poměr Vero/Hem 9,6 6,5 14,6 3,7 0,0 4,8 Rest Vero DNA 6,6 4,0 13,4 2,6 4,8 0,0 Rest Vero DNA Poměr Hem/Tot 1 2 3 4 5 6 7 8 9 10 11 Vzdálen. spojení Obrázek 19: Dendogram Výsledky shlukové analýzy potvrdily strukturu dat, které bylo dosaženo pomocí FA. 2.11. Závěr Bylo zjištěno, že data jsou vhodná pro zpracování pomocí dvoufaktorového modelu, protože jejich pomocí bylo popsáno 94 % proměnlivosti v datech. Byla nalezena taková struktura v datech, kterou lze vysvětlit i z biologického hlediska a odpovídá logickým souvislostem ve výsledcích jednotlivých testů i při použití dat více rozdílných kmenů a typů Influenzy. Strana 22 z 22