SEMESTRÁLNÍ PRÁCE Klasifikace analýzou vícerozměrných dat Ing. Pavel Bouchalík
1. ÚVOD Tato semestrální práce je písemným vypracováním zkouškových otázek z okruhu Klasifikace analýzou vícerozměrných dat. 2. ZADÁNÍ ÚLOH Vypracujte písemně a postavte si alespoň tři úlohy z dat Vašeho pracoviště (nebo z literatury) a vyřešte. Každá úloha bude mít strukturu dle vzorových příkladů v učebnici M. Meloun, J. Militký: Kompendium statistického zpracování experimentálních dat, Academia Praha 2002, t. zn. Nadpis příkladu, Zadání, Data, Program, Řešení, Output, Obrázky, Závěr a bude doplněna disketou nebo CD s daty, výstupy a protokolem ve formátu *.DOC a *.PDF. Úloha 1: proveďte klasifikaci diskriminační analýzou DA. Úloha 2: aplikujte buď logistickou regresi LR nebo kanonickou korelační analýzu CCA, a to dle charakteru Vašich dat. Úloha 3: v úloze aplikujte metodu vícerozměrného škálování MDS a korespondenční analýzu CA kategorických dat. Pokud je to možné tak v úlohách využijte i shlukovou analýzu, výpočty korelační matice a kovarianční matice. K analýze vícerozměrných dat vždy patří úvodní exploratorní analýza vícerozměrných dat a její grafické diagnostiky (sluníčka, hvězdičky, rozptylové diagramy, atd.). Svůj postup velice detailně komentujte, popište a vysvětlete, abyste přesvědčili, že dané metodice dokonale rozumíte. Nejvíce se cení fyzikální, chemický či biologický smysl úlohy. 3. ŘEŠENÍ ÚLOH 3.1 Diskriminační analýza Zadání úlohy: V Precheze se vyrábí značné množství povrchově upravených druhů titanové běloby, které se liší v určitých sledovaných parametrech jen nepatrně. V případě záměny označení vzorků by bylo třeba provést kompletní analýzu a rozčlenit složitým způsobem jednotlivé vzorky do patřičných druhů. Ověřte pomocí diskriminační analýzy zda se ve vybraných datech povede odlišit jednotlivé druhy výrobků aniž bychom provedli kompletní analýzu veškerých měřitelných parametrů. Navrhněte vztah pro zařazení vzorků k patřičnému druhu. Řešení: tabulka 1: Popisné statistiky diskriminátorů-průměry Třída Diskriminátor RGU RGX RXI Celkem Podtón 8,825 13,625 13,9 12,11667 Al 2 O 3 2,6649 1,09415 2,72535 2,161467 SiO 2 0,773225 0,2619 0,023275 0,3528 C z org. úpravy 0,30235 0,15385 0,2086 0,2216 Počet 40 40 40 120 V tabulce č.3 jsou uvedeny hodnoty směrodatných odchylek v jednotlivých třídách a celková směrodatná odchylka pro jednotlivé parametry. Z tabulky je patrné, že je splněna jedna z podmínek použití diskriminační analýzy a to homogenita směrodatných odchylek v jednotlivých třídách. tabulka 2: Data k úloze č.1 Třída Šarže Podtón Al 2 O 3 SiO 2 %C z org. úpr. RXI 119456 14 2,53 0,06 0,21 RXI 119462 13 2,80 0,03 0,27 RXI 119472 14 2,85 0,02 0,23 RXI 119592 14 2,90 0,02 0,18 RGU 119608 9 2,66 0,74 0,33
RGU 119632 8 2,71 0,78 0,33 RGU 119674 9 2,73 0,71 0,30 RGU 119688 9 2,61 0,78 0,31 RGU 119738 10 2,59 0,79 0,29 RGU 119796 7 2,74 0,78 0,59 RXI 120046 14 2,02 0,05 0,22 RXI 120064 14 2,86 0,03 0,23 RXI 120116 14 2,87 0,05 0,24 RGX 119411/09B 14 1,02 0,26 0,17 RGX 119419/09B 13 1,01 0,24 0,16 RGX 119425/09B 14 0,97 0,24 0,13 RGX 119431/09B 13 0,96 0,26 0,13 RGX 119437/09B 13 1,00 0,29 0,14 RGX 119439/09B 13 1,01 0,28 0,16 RGX 119441/09B 13 1,01 0,29 0,17 RGX 119443/09A 13 1,09 0,05 0,16 RGX 119445/09A 13 1,08 0,08 0,18 RGX 119447/09B 14 1,07 0,34 0,21 RGX 119449/09A 13 1,09 0,33 0,19 RXI 119455/09B 13 2,51 0,04 0,19 RGX 119457/09A 13 1,08 0,32 0,16 RGX 119459/09A 14 1,11 0,35 0,20 RXI 119461/09B 14 2,62 0,04 0,20 RGX 119463/09A 13 1,13 0,37 0,21 RXI 119467/09B 13 2,82 0,03 0,24 RXI 119471/09B 13 2,93 0,02 0,19 RXI 119477/09B 13 3,06 0,02 0,29 RXI 119485/09B 13 2,94 0,01 0,26 RXI 119492/09B 13 2,75 0,02 0,21 RXI 119497/09B 13 2,60 0,03 0,23 RXI 119505/09B 14 2,60 0,02 0,18 RXI 119513/09B 14 2,59 0,02 0,18 RXI 119522/09B 14 2,54 0,02 0,21 RXI 119528/09B 13 2,53 0,02 0,20 RXI 119537/09B 13 2,49 0,02 0,21 RXI 119538/09B 13 2,49 0,02 0,21 RXI 119545/09B 13 2,52 0,02 0,18 RXI 119553/09B 14 2,63 0,02 0,18 RXI 119557/09B 14 2,69 0,02 0,16 RXI 119563/09B 14 2,77 0,02 0,18 RXI 119571/09B 14 2,93 0,02 0,20 RXI 119581/09B 14 2,81 0,02 0,18 RXI 119587/09B 15 2,79 0,02 0,15 RXI 119591/09B 14 2,87 0,02 0,20 RXI 119601/09B 14 2,79 0,02 0,21 RGU 119607/09B 10 2,71 0,55 0,23 RGU 119611/09B 10 2,73 0,69 0,21 RGU 119619/09B 9 2,72 0,73 0,30 RGU 119623/09B 8 2,62 0,74 0,26 RGU 119631/09B 8 2,60 0,75 0,23 RGU 119635/09B 8 2,70 0,78 0,27 RGU 119641/09B 8 2,73 0,77 0,30 RGU 119647/09B 8 2,72 0,78 0,31 RGU 119653/09B 8 2,69 0,79 0,29 RGU 119657/09B 8 2,72 0,80 0,32 RGU 119663/09B 9 2,72 0,81 0,32 RGU 119673/09B 9 2,65 0,76 0,34 RGU 119683/09B 9 2,71 0,80 0,33
RGU 119687/09B 9 2,63 0,78 0,32 RGU 119701/09B 9 2,59 0,80 0,24 RGU 119713/09B 9 2,54 0,79 0,28 RGU 119721/09B 10 2,55 0,81 0,28 RGU 119725/09B 10 2,55 0,81 0,28 RGU 119733/09B 10 2,56 0,80 0,28 RGU 119743/09B 11 2,60 0,79 0,25 RGU 119753/09B 10 2,61 0,78 0,24 RGU 119755/09B 10 2,63 0,80 0,33 RGU 119767/09C 10 2,67 0,81 0,29 RGU 119773/09C 10 2,66 0,81 0,42 RGU 119783/09C 9 2,66 0,79 0,39 RGU 119787/09C 9 2,70 0,78 0,28 RGU 119795/09C 8 2,79 0,80 0,27 RGU 119806/09C 7 2,76 0,77 0,40 RGU 119824/09C 7 2,71 0,77 0,39 RGU 119829/06C 8 2,68 0,78 0,29 RGU 119839/09C 8 2,70 0,80 0,26 RGU 119847/09C 8 2,66 0,78 0,26 RGU 119848/09C 8 2,66 0,78 0,26 RGU 119857/09C 9 2,64 0,76 0,25 RGX 119963/09B 12 1,70 0,23 0,11 RGX 119973/09B 13 1,38 0,25 0,13 RGX 119983/09B 13 1,15 0,27 0,16 RGX 119987/09B 13 1,12 0,25 0,15 RGX 119997/09B 13 1,12 0,24 0,15 RGX 120001/09A 13 1,13 0,23 0,19 RGX 120003/09B 13 1,08 0,24 0,13 RGX 120009/09A 14 1,05 0,24 0,13 RGX 120011/09B 14 1,11 0,26 0,16 RGX 120013/09C 13 1,50 0,21 0,13 RGX 120019/09C 14 1,12 0,23 0,11 RGX 120025/09C 14 1,05 0,23 0,10 RGX 120027/09A 14 0,98 0,27 0,14 RGX 120031/09C 14 1,02 0,24 0,10 RGX 120033/09A 14 0,98 0,26 0,16 RGX 120035/09C 14 1,03 0,23 0,14 RGX 120039/09A 14 1,02 0,29 0,17 RGX 120041/09C 14 1,06 0,27 0,16 RXI 120046/09A 14 2,36 0,03 0,20 RXI 120047/09A 14 2,69 0,02 0,22 RGX 120049/09C 14 1,07 0,31 0,17 RXI 120053/09A 15 2,80 0,02 0,20 RGX 120057/09C 15 1,06 0,30 0,18 RXI 120063/09A 15 2,87 0,02 0,25 RGX 120067/09C 15 1,04 0,33 0,18 RXI 120075/09A 15 2,89 0,02 0,24 RGX 120077/09C 15 1,03 0,30 0,17 RXI 120081/09A 15 2,87 0,02 0,21 RGX 120087/09C 15 1,10 0,26 0,13 RXI 120090/09A 15 2,81 0,02 0,18 RXI 120095/09A 15 2,88 0,02 0,21 RGX 120097/09C 14 1,10 0,27 0,14 RXI 120101/09A 15 2,87 0,02 0,23 RGX 120105/09C 14 1,08 0,30 0,15 RXI 120109/09A 14 2,87 0,03 0,21 RGX 120113/09C 14 1,09 0,30 0,15
tabulka 3: Popisné statistiky diskriminátorů-směrodatné odchylky Třída Diskriminátor RGU RGX RXI Celkem Podtón 0,984 0,705 0,709 2,474 Al 2 O 3 0,062 0,138 0,199 0,772 SiO 2 0,045 0,059 0,011 0,317 C z org. úpravy 0,066 0,027 0,030 0,076 Počet 40 40 40 120 Tabulka č.4 obsahuje korelace a kovariance. Na diagonále matice jsou uvedeny rozptyly jednotlivých diskriminátorů (šedé zvýraznění). Pod diagonálou (v levé dolní části tabulky) jsou uvedeny korelace a nad diagonálou (v pravé horní části tabulky) jsou uvedeny kovariance. tabulka 4: Celkové korelace a kovariance diskriminátorů Diskriminátor Podtón Al 2 O 3 SiO 2 C z org. úpravy Podtón 6,120728-0,7745087-0,7061949-0,1405244 Al 2 O 3-0,405686 0,5954841 0,04038044 0,03618339 SiO 2-0,900195 0,165025 0,100548 0,01537677 C z org. úpravy -0,749508 0,618729 0,639889 0,005743116 V tabulce č.5 jsou rovněž uvedeny korelace, resp. kovariance, ale v tomto případě vytvořené za použití průměrů jednotlivých tříd. Pod a nad diagonálou jsou uvedeny korelace a na diagonále jsou uvedeny mezitřídní kovariance. tabulka 5: Korelace mezi třídami a kovariance diskriminátorů Diskriminátor Podtón Al 2 O 3 SiO 2 C z org. úpravy Podtón 325,8083-45,22824-42,17319 7,8235 Al 2 O 3-0,428393 34,21149 2,457228 2,112649 SiO 2-0,964178 0,173365 5,872134 0,8878324 C z org. úpravy -0,912552 0,760465 0,771384 0,2255925 V další fázi provedeme posouzení významu jednotlivých diskriminátorů pomocí Wilkova kritéria (viz. tabulka č.6) a F-testu. tabulka 6: Test významnosti diskriminátorů Odstraněn Samotný R 2 Diskriminátor Wilkovo λ F test Spočt. Wilkovo λ F test Spočt. Ostatní X Podtón 0,818135 12,67 0,000011 0,105373 496,67 0,000000 0,882796 Al 2 O 3 0,073495 718,56 0,000000 0,034428 1640,71 0,000000 0,554714 SiO 2 0,121289 412,95 0,000000 0,018465 3109,61 0,000000 0,863463 C z org. úpr. 0,943264 3,43 0,035818 0,339823 113,65 0,000000 0,691905 Nejnižší hodnotu parametru λ mají diskriminátory Al 2 O 3 a SiO 2 (hodnoty Wilkova kriteria jsou nízké, v ideálním případě by se měli blížit nule). Dále jsou hodnoty spočtené pravděpodobnosti menší než 0,05 pro diskriminátory Podtón, Al 2 O 3 a SiO 2. Diskriminátor C z org. úpravy se jeví jako nevýznamné vzhledem k vysoké hodnotě spočtené pravděpodobnosti. Nyní provedeme vyčíslení koeficientů klasifikační funkce. V tabulce č.7 jsou uvedeny hodnoty oeficientů klasifikační funkce. Tato funkce umožňuje umístění doposud nezařazených objektů do jednotlivých tříd. tabulka 7: Odhady koeficientů klasifikační funkce Třída RGU RGX RXI Konstanta -463,4716-224,8551-401,5093 Podtón 16,09773 23,84142 26,8985 Al 2 O 3 156,8819 69,30565 143,7113 SiO 2 447,7888 105,4273 1,714684 C z org. úpr. 68,01647 139,2818 179,4119
Klasifikační funkce pro typ RGU je: -463,4716 + 16,09773Podtón + 156,8819Al 2 O 3 + 447,7888SiO 2 + 68,01647C z org.úpr.. Pro ostatní typy je tvar analogický. V tabulce č.8 jsou uvedeny odhady regresních parametrů lineárního regresního modelu pro každou třídu. Zařazení objektu se provádí tak, že se vybere pro příslušný objekt třída, která vykazuje největší funkční hodnotu. Vyčíslení funkce se provádí analogickým postupem jako v předchozím případě. tabulka 8: Odhady regresních koeficientů Třída RGU RGX RXI Konstanta -0,08955909 1,695673-0,6061139 Podtón -0,02749224-0,002526422 0,03001866 Al 2 O 3 0,1846822-0,595532 0,4108498 SiO 2 1,17905-0,06839617-1,110654 C z org. úpr. -0,2669065-0,09194577 0,3588523 V tabulce 9 je vyčíslena úspěšnost predikce. Tak např. ve třídě RGU je celkem 40 objektů a z toho u všech 40 byla predikce správná. Ve třídě RGX je 40 objektů a správně zařazených je také 40 objektů. Správně předikovaných objektů je 100%. tabulka 9: Přehled úspěšnosti klasifikace objektů Třída RGU RGX RXI Celkem RGU 40 0 0 40 RGX 0 40 0 40 RXI 0 0 40 40 Celkem 40 40 40 120 Úplné vyčíslení hodnot regresní funkce vzniklé vynásobením regresních koeficientů uvedených v tabulce č.8 a hodnot odpovídajících znaků příslušných objektů je uvedeno v tabulce č.10 v procentech. Třída u které je dosaženo maxima je použita k predikci. tabulka 10: Přehled zařazení objektů do tříd RGU RGX RXI Č. řádku Skutečnost Predikce % 1 RXI RXI 0,7 12,9 86,3 2 RXI RXI 3,6-3,0 99,4 3 RXI RXI 1,6-6,0 104,5 4 RXI RXI 3,4-8,4 105,0 5 RGU RGU 93,2 1,1 5,6 6 RGU RGU 102,3-2,3 0,0 7 RGU RGU 93,0-3,1 10,1 8 RGU RGU 98,7 3,5-2,1 9 RGU RGU 97,2 4,6-1,8 10 RGU RGU 98,6-5,9 7,3 11 RXI RXI -10,4 43,7 66,8 12 RXI RXI 2,2-6,3 104,1 13 RXI RXI 5,0-7,4 102,5 14 RGX RGX -2,6 102,3 0,3 15 RGX RGX -1,7 102,9-1,2 16 RGX RGX -4,8 105,5-0,7 17 RGX RGX 0,6 105,9-6,5 18 RGX RGX 3,9 103,7-7,7 19 RGX RGX 2,5 102,9-5,5 20 RGX RGX 3,1 102,5-5,6 21 RGX RGX -22,7 99,8 22,9 22 RGX RGX -20,3 100,0 20,2 23 RGX RGX 7,2 98,0-5,2 24 RGX RGX 9,4 97,6-6,9 25 RXI RXI 1,2 14,5 84,3 26 RGX RGX 8,4 98,3-6,6
27 RGX RGX 8,5 95,9-4,3 28 RXI RXI 0,7 7,7 91,5 29 RGX RGX 13,7 94,4-8,1 30 RXI RXI 4,2-4,3 100,1 31 RXI RXI 7,2-10,3 103,2 32 RXI RXI 6,2-19,0 112,8 33 RXI RXI 4,3-11,0 106,7 34 RXI RXI 2,2 0,5 97,3 35 RXI RXI 0,6 9,1 90,3 36 RXI RXI -2,4 9,5 92,9 37 RXI RXI -1,8 10,0 91,8 38 RXI RXI -3,9 12,7 91,2 39 RXI RXI -1,5 13,8 87,7 40 RXI RXI -2,2 16,1 86,1 41 RXI RXI -2,2 16,1 86,1 42 RXI RXI -0,6 14,6 85,9 43 RXI RXI -1,6 8,0 93,7 44 RXI RXI -0,1 4,2 95,9 45 RXI RXI 1,4-0,8 99,4 46 RXI RXI 3,5-10,5 107,1 47 RXI RXI 2,1-3,3 101,3 48 RXI RXI -0,5-1,9 102,4 49 RXI RXI 2,1-6,8 104,8 50 RXI RXI 0,5-2,3 101,8 51 RGU RGU 72,7-0,3 27,6 52 RGU RGU 89,2-2,3 13,1 53 RGU RGU 94,7-2,2 7,5 54 RGU RGU 98,4 3,8-2,2 55 RGU RGU 99,9 5,3-5,1 56 RGU RGU 103,4-1,0-2,4 57 RGU RGU 102,1-2,9 0,8 58 RGU RGU 102,6-2,3-0,3 59 RGU RGU 104,0-0,4-3,5 60 RGU RGU 105,5-2,8-2,7 61 RGU RGU 103,7-3,3-0,4 62 RGU RGU 95,4 1,1 3,6 63 RGU RGU 101,6-2,4 0,9 64 RGU RGU 98,5 2,6-1,1 65 RGU RGU 102,2 5,3-7,5 66 RGU RGU 99,0 8,0-7,0 67 RGU RGU 98,3 6,9-5,2 68 RGU RGU 99,0 7,0-5,9 69 RGU RGU 97,4 6,8-4,2 70 RGU RGU 94,8 4,5 0,6 71 RGU RGU 97,6 4,2-1,8 72 RGU RGU 97,3 1,9 0,9 73 RGU RGU 100,9-0,4-0,5 74 RGU RGU 97,5-0,7 3,2 75 RGU RGU 98,4-0,1 1,7 76 RGU RGU 100,1-1,2 1,1 77 RGU RGU 107,8-6,4-1,3 78 RGU RGU 103,1-5,5 2,3 79 RGU RGU 101,6-2,4 0,8 80 RGU RGU 103,2-0,2-3,0 81 RGU RGU 106,1-1,0-5,1 82 RGU RGU 103,4 1,3-4,6 83 RGU RGU 103,4 1,3-4,6 84 RGU RGU 98,4 2,7-1,1
85 RGX RGX 13,1 63,1 23,8 86 RGX RGX 6,3 81,2 12,5 87 RGX RGX 3,4 94,8 1,8 88 RGX RGX 1,7 96,8 1,5 89 RGX RGX 0,3 96,5 3,2 90 RGX RGX -2,0 95,5 6,5 91 RGX RGX -0,3 99,0 1,3 92 RGX RGX -3,6 100,9 2,7 93 RGX RGX -0,8 96,8 4,0 94 RGX RGX 4,5 74,5 21,1 95 RGX RGX -2,8 96,7 6,1 96 RGX RGX -3,8 100,9 2,9 97 RGX RGX -1,4 104,3-2,9 98 RGX RGX -3,6 102,8 0,8 99 RGX RGX -3,0 104,4-1,4 100 RGX RGX -5,3 102,1 3,2 101 RGX RGX 0,6 101,7-2,3 102 RGX RGX -0,1 99,4 0,7 103 RXI RXI -6,0 23,3 82,7 104 RXI RXI -0,8 3,6 97,2 105 RGX RGX 4,7 98,9-3,5 106 RXI RXI -1,7-2,6 104,3 107 RGX RGX 0,3 98,8 0,9 108 RXI RXI -1,7-7,7 109,4 109 RGX RGX 3,0 100,0-3,0 110 RXI RXI -1,4-8,9 110,2 111 RGX RGX -0,3 101,0-0,6 112 RXI RXI -1,0-7,4 108,4 113 RGX RGX -2,7 97,4 5,3 114 RXI RXI -1,4-3,4 104,8 115 RXI RXI -0,8-7,4 108,2 116 RGX RGX 0,9 97,5 1,6 117 RXI RXI -0,5-7,4 107,9 118 RGX RGX 4,2 98,3-2,6 119 RXI RXI 3,4-7,1 103,6 120 RGX RGX 4,1 97,6-1,7 tabulka 11: Klasifikace objektů kanonickou korelační analýzou Fn C -1 B celkem % korelace F-test čitatel jmenovatel spočt. Wilk λ 1 73,55287 74,5 74,5 0,9933 0,9866 1230,8 8,0 228,0 2 25,19014 25,5 100,0 0,9807 0,9618 965,6 3,0 115,0 Z tabulky č.11 je patrné, že ke správnému zařazení 74,5% vzorků stačí pouze jedna lineární diskriminační funkce. Obě funkce mají hodnotu spočtené pravděpodobnosti menší než 0,05 a vykazují rovněž nízké hodnoty Wilkova kritéria. V tabulce č.12 jsou uvedeny hodnoty standardizovaných korelačních koeficientů. Z této tabulky je možné určit vliv jednotlivých znaků (diskriminátorů) na hodnotu diskriminační funkce, resp. míru příspěvku příslušného koeficientu. První diskriminační funkce je nejvíce vážená parametrem Podtón a druhá diskriminační funkce je nejvíce vážená parametrem Al 2 O 3. tabulka 12: Standardizované kanonické koeficienty znaků u kanonických proměnných Znak 1. kanonická proměnná 2. kanonická proměnná Podtón 0,426224 0,146431 Al 2 O 3-0,362377 0,937373 SiO 2-0,967889-0,240310 C z org. úpr. 0,232655 0,115992
Score1 Score1 Score2 Score2 Score1 Score1 Score1 obr. 1: Graf lin. diskriminačního skóre Linear-Discriminant Scores obr. 2: Graf lin. diskriminačního skóre Linear-Discriminant Scores 600,00 425,00 typ RGU RGX RXI 600,00 425,00 typ RGU RGX RXI 250,00 250,00 75,00 75,00-100,00 150,00 212,50 275,00 337,50 400,00 Score2-100,00 100,00 200,00 300,00 400,00 500,00 Score3 obr. 3: Graf lin. diskriminačního skóre Linear-Discriminant Scores obr. 4: Graf lin. diskriminačního skóre Regression Scores 400,00 337,50 typ RGU RGX RXI 1,20 0,80 typ RGU RGX RXI 275,00 0,40 212,50 0,00 150,00 100,00 200,00 300,00 400,00 500,00 Score3-0,40-0,20 0,15 0,50 0,85 1,20 Score2 obr. 5: Graf regresního skóre Regression Scores obr. 6: Graf regresního skóre Regression Scores 1,20 0,80 typ RGU RGX RXI 1,20 0,85 typ RGU RGX RXI 0,40 0,50 0,00 0,15-0,40-0,20 0,15 0,50 0,85 1,20 Score3-0,20-0,20 0,15 0,50 0,85 1,20 Score3 obr. 7: Graf regresního skóre Canonical-Variates Scores 10,00 3,75 typ RGU RGX RXI -2,50-8,75-15,00-10,00-5,00 0,00 5,00 10,00 Score2
Z přiložených obrázků je patrné, že jednotlivé skupiny výrobků RGU, RGX a RXI lze od sebe jednoznačně oddělit nejsou si v těchto parametrech velmi blízké. Takže pro zdárné rozdělení těchto výrobků od sebe nám postačuje provést tyto analýzy. Závěr: Pomocí diskriminační analýzy se povedlo odvodit a úspěšně zařadit 100% vzorků. Rovněž byla odvozena lineární diskriminační funkce a regresní funkce, která umožňuje roztřídění dalších vzorků do příslušných druhů. Z přiložených grafických charakteristik je patrné, že se jednotlivé skupiny výrobků nepřekrývají a jsou ostře odděleny. 3.2 Kanonická korelační analýza Zadání úlohy: Sušení ukrajinského ilmenitu se provádí v rotační sušárně. Sušárna je souproudá a přímo vytápěná zemním plynem. Ilmenit na vstupu do sušárny je směšován s recyklem vysušeného ilmenitu, aby se snížila vlhkost vstupní směsi (šnek 154 odebírá vysušený ilmenit z sušárny k dalšímu zpracování). Spalovací vzduch je předehříván teplem spalin z pece. Proces sušení je ovlivňován řadou vlivů jako např. teplotou spalovacího vzduchu, otáčkami peci a dalšími faktory. Pomocí kanonické korelační analýzy se pokusíme objasnit vztahy mezi těmito proměnnými. Hodnoty uvedené v Tabulce č.14 byly získány jako denní průměry z řídící jednotky linky za období v lednu roku 2005. Význam jednotlivých proměnných je uveden v následující v Tabulce č.13 Software: NCSS200, QcExpert tabulka 13: Popis použitých proměnných Označení Popis Jednotka Typ proměnné doba doba zadržení v sušárně min X zatiz zatížení pohonu sušárny A X plyn spotřeba plynu Nm 3 /hod X primvzd spotřeba primárního vzduchu Nm 3 /hod X sekvzd spotřeba sekundárního vzduchu Nm 3 /hod X snek dávkování ilmenitu t/h X vlhil vlhkost ilmenitu hm. % X otac otáčky sušárny sec -1 X zas151 otáčky přidělovacího zásobníku 151 ot/min X snek154 otáčky šneku 154 ot/min X teplvzduch teplota spalovacího vzduchu C X tspk teplota ve spalovací komoře C X tilm teplota ilmenitu C Y tspal teplota spalin z sušárny C Y Řešení úlohy: V první fázi provedeme průzkumovou analýzu dat a vyšetříme odlehlé hodnoty. Pomocí krabicových grafů provedeme vyšetření odlehlých hodnot a posoudíme variabilitu proměnných. Z krabicových grafů na obr.8 je patrné, že výběr obsahuje odlehlé hodnoty. Dále je patrné, že nejmenší variabilitu vykazují znaky doba a vlhil. Vzhledem k tomu, že v obou případech jde o počítané hodnoty provedeme jejich vypuštění a současně odstraníme odlehlé hodnoty indikované krabicovými grafy. V Tabulce č.15 jsou uvedeny korelace, červeně jsou označeny významné hodnoty. Jsou patrné logické korelace jako např. korelace mezi dávkováním do sušárny a spotřebou zemního plynu, teplotou spalovacího vzduchu a teplotou ve spalovací komoře. Tyto korelace jsou dobře patrné i z obr.9 a tabulky č.16.
tabulka 14:Data úlohy doba zatiz plyn primvzd sekvzd snek vlhil otac zas151 snek154 teplvzduch tspk tilm tspal 49,84679 122,8864 600,7757 2253,773 3645,897 7,027949 7,166014 44,91631 8,28792 39,169 159,3377 1237,408 204,4662 463,2974 49,73717 121,8916 622,5295 2290,237 3686,684 7,302774 7,473782 44,80005 8,531032 39,11137 157,2234 1239,684 205,246 465,5151 48,61006 122,9024 645,0156 2347,252 3656,049 7,464783 7,346725 43,75612 8,795236 42,33874 163,2071 1239,554 210,02 470,9461 47,54948 122,2142 645,964 2334,657 3558,374 7,427288 7,14759 42,84354 8,539864 41,91131 168,3253 1242,843 212,9162 473,5494 47,68615 123,028 641,4531 2351,741 3640,128 7,405504 7,091048 42,96753 8,751292 41,70136 160,5416 1238,892 209,8702 472,2954 47,37387 122,9229 646,9613 2406,519 3367,73 7,494287 7,186907 42,73136 8,938821 43,33275 159,6802 1244,319 210,5508 469,7859 47,26795 122,4774 646,527 2449,271 3265,088 7,374664 6,987626 42,6664 8,785144 42,55278 160,5097 1249,218 212,7805 470,7727 47,52753 124,3617 639,3824 2396,193 3228,428 7,28407 6,923614 42,77695 8,496576 43,60184 172,5054 1249,914 212,891 470,1722 47,57167 122,3149 637,4038 2372,071 3260,857 7,356988 6,969916 42,82955 8,50178 41,82999 166,7154 1251,562 213,585 471,4088 47,84742 121,3678 635,0095 2396,967 3302,358 7,373778 7,10908 43,21091 8,546404 41,3049 159,6466 1246,732 214,3315 472,1803 47,61797 123,0689 633,2732 2471,52 3333,635 7,42479 7,169447 42,97174 8,595489 41,85693 144,189 1243,603 207,8609 469,022 48,18812 124,4624 668,5791 3145,231 2624,836 7,252498 7,189862 43,0639 8,628948 43,54764 117,7982 1223,796 204,6384 463,7113 47,45933 124,3743 648,2643 2605,528 3427,305 7,358019 6,881613 42,8441 8,505553 44,08367 167,3085 1248,901 216,3736 472,1111 47,76878 123,7238 621,0232 2272,897 3534,967 7,310281 7,104873 43,01639 8,009547 43,92317 244,5031 1258,976 211,136 473,6424 47,67647 123,3491 610,9073 2252,012 3534,49 7,231298 6,943891 42,92877 7,908229 43,57184 236,9788 1259,339 215,6256 472,9774 47,77504 123,358 589,7104 2274,148 3573,965 7,141431 6,9093 43,04286 7,896447 41,64868 226,0764 1261,867 203,4876 466,1213 47,47259 123,0771 609,8659 2311,098 3556,334 7,352765 7,036953 42,82726 8,132411 42,12489 222,5581 1260,576 208,7928 471,9113 47,5009 124,0057 605,4011 2305,483 3545,067 7,241818 7,038416 42,72345 8,314393 43,07804 215,7406 1257,246 210,9421 468,134 47,3532 122,4346 622,6975 2328,679 3541,018 7,286828 6,920551 42,71639 8,385442 41,791 213,6515 1255,238 212,8068 472,126 47,33039 122,5205 617,8914 2310,235 3605,25 7,256615 6,994735 42,61149 8,44359 42,2061 208,423 1254,806 209,961 469,2785 47,17152 122,1335 628,4024 2300,582 3580,534 7,307813 6,988854 42,46858 8,240425 41,077 205,9982 1248,946 206,0536 466,4678 47,19541 121,6269 635,291 2334,51 3607,681 7,415993 7,104096 42,51586 8,681974 41,20793 202,6253 1256,31 208,8206 470,4991 47,26511 122,4208 631,9041 2246,157 3649,659 7,387647 7,09995 42,57055 8,334327 41,62497 199,7728 1245,282 207,5997 470,4958 47,42662 122,6906 647,1623 2334,132 3566,816 7,536401 7,169608 42,75797 8,927776 41,22676 199,1109 1245,556 214,6936 476,3449 47,62174 122,6867 650,4871 2425,888 3585,145 7,500085 7,249118 42,92983 9,208261 41,66906 201,9386 1241,094 215,3998 475,9314 47,50021 122,4137 631,312 2462,297 3581,638 7,393218 7,067365 42,79571 8,792184 42,46979 199,3425 1243,365 212,4237 474,4027 47,60673 121,3046 640,6355 2548,174 3585,257 7,527308 7,061707 42,88746 8,87288 41,05424 208,6945 1253,003 219,3569 479,2135 47,66944 122,1616 651,2943 2544,757 3687,654 7,659119 7,415369 42,86145 8,749642 41,22345 201,4887 1254,226 216,8439 482,6177 47,58512 121,9976 639,5366 2488,125 3696,816 7,482969 6,973112 42,93241 9,145998 41,25622 194,6084 1253,051 216,0559 479,8691 47,61352 121,9731 649,931 2532,936 3770,077 7,516168 7,100969 42,84831 9,168497 42,25258 190,7772 1254,72 216,8846 482,4524 47,42977 121,8744 653,6355 2445,484 3662,531 7,557401 7,24253 42,75275 9,0653 41,81953 194,1771 1253,15 211,8494 480,314
obr. 8: Krabicové grafy
tabulka 15:Tabulka průměrů a směrodatných odchylek po vypuštění odlehlých hodnot Typ proměnná Průměr Sm. odchylka X zatiz 122,7105 0,8430 X plyn 632,8138 17,582 X primvzd 2379,777 98,64537 X sekvzd 3541,2477 143,047 X snek 7,3759 0,13096 X vlhil 7,0988 0,1444 X zas151 8,5864 0,3507 X snek154 41,986 1,165 X teplvzduch 187,853 29,301 X tspk 1248,8121 8,322 Y tilm 211,4276 4,1139 Y tspal 472,1796 4,9966
tabulka 16:korelační matice zatiz plyn primvzd sekvzd snek vlhil zatiz 1-0,08270-0,12975-0,32023-0,42975-0,24758 plyn -0,08270 1 0,61224-0,14449 0,69869 0,30682 primvzd -0,12975 0,61224 1-0,10221 0,50941 0,17352 sekvzd -0,32023-0,14449-0,10221 1 0,16431 0,27224 snek -0,42975 0,69869 0,50941 0,16431 1 0,38995 vlhil -0,24758 0,30682 0,17352 0,27224 0,38995 1 zas151-0,36773 0,74594 0,65294 0,13029 0,73338 0,35382 snek154 0,67284 0,21644 0,06185-0,42600 0,006485-0,42047 teplvzduch -0,08389-0,53704-0,33018 0,40410-0,03696-0,33151 tspk -0,11266-0,51841-0,37060 0,10457-0,01526-0,49905 tilm -0,24206 0,42329 0,32981 0,05545 0,62522-0,14597 tspal -0,39385 0,40403 0,39637 0,32628 0,78361 0,05688 zas151 snek154 teplvzduch tspk tilm tspal zatiz -0,36773 0,67284-0,08389-0,11266-0,24206-0,39385 plyn 0,74594 0,21644-0,53704-0,51841 0,42329 0,40403 primvzd 0,65294 0,06185-0,33018-0,37060 0,32981 0,39637 sekvzd 0,13029-0,42600 0,40410 0,10457 0,05545 0,32628 snek 0,73338 0,006485-0,03696-0,01526 0,62522 0,78361 vlhil 0,35382-0,42047-0,33151-0,49905-0,14597 0,05688 zas151 1-0,13253-0,38406-0,37578 0,47641 0,54081 snek154-0,13253 1 0,09986 0,16608 0,25023 0,06640 teplvzduch -0,38406 0,09986 1 0,80975 0,22113 0,33384 tspk -0,37578 0,16608 0,80975 1 0,30690 0,34096 tilm 0,47641 0,25023 0,22113 0,30690 1 0,85854 tspal 0,54081 0,06640 0,33384 0,34096 0,85854 1 obr. 9: Graf párových korelací
X1 X1 V další fázi provedeme test významnosti kanonických kořenů. výsledky testů jsou uvedeny v tabulce č.17. Z hodnot spočtené pravděpodobnosti (Probability level) je patrné, že je významný pouze první kanonický kořen. Hodnota kanonického korelačního koeficientu je 0,84, R je tedy statisticky významné. tabulka 17: Test významnosti kanonických kořenů Variate Canonical R-Squared F-Value Number Correlation Num DF Den DF Prob Level Wilks' Lambda 1 0,918706 0,844020 3,90 20 36 0,000189 0,099665 2 0,600866 0,361040 1,19 9 19 0,354110 0,638960 V Tabulce č.18 jsou uvedeny váhy kanonických proměnných. Tyto váhy slouží k výpočtu skóre pro kanonické proměnné. Jsou patrné vysoké hodnoty vah u červeně zvýrazněných proměnných. tabulka 18:Zátěže kanonických proměnných (kanonické skóre) Symbol X1 X2 Y1 Y2 zatiz a 1-0,455826 0,202837-0,418770 0,121878 plyn a 2 0,408134 0,352499 0,374955 0,211805 primvzd a 3 0,429447 0,072027 0,394535 0,043279 sekvzd a 4 0,426943-0,632873 0,392234-0,380272 snek a 5 0,858103 0,056541 0,788344 0,033974 vlhil a 6 0,127348-0,609002 0,116995-0,365929 zas151 a 7 0,576954 0,182898 0,530051 0,109897 snek154 a 8 0,005664 0,636761 0,005203 0,382608 teplvzduch a 9 0,380953-0,120836 0,349984-0,072606 tspk a 10 0,361521 0,136279 0,332131 0,081885 tilm a 11 0,703131 0,386726 0,765350 0,643614 tspal a 12 0,906850 0,096219 0,987095 0,160133 Důležitou informaci o správnosti použití kanonické korelační analýzy poskytují grafy kanonického skóre. Z grafů na obr. 10-13 je patrné, že nedošlo k porušení hlavních předpokladů kanonické korelační analýzy. obr. 10: Grafy kanonických skóre 3,00 Scores Plot of X1 vs Y1 obr. 11: Grafy kanonických skóre 3,00 Scores Plot of X1 vs Y2 1,50 1,50 0,00 0,00-1,50-1,50-3,00-2,00-0,75 0,50 1,75 3,00 Y1-3,00-2,00-0,75 0,50 1,75 3,00 Y2
X2 X2 obr. 12 :Grafy kanonických skóre 2,00 Scores Plot of X2 vs Y1 obr. 13: Grafy kanonických skóre 2,00 Scores Plot of X2 vs Y2 0,75 0,75-0,50-0,50-1,75-1,75-3,00-2,00-0,75 0,50 1,75 3,00 Y1-3,00-2,00-0,75 0,50 1,75 3,00 Y2 Závěr: Z uvedených dat je patrné, že existuje významná pozitivní korelace mezi teplotou spalin z sušárny, dávkováním do sušárny a teplotou ilmenitu. Pomocí kanonické korelační analýzy byl odvozen tento vztah: -0,455826a 1 +0,408134a 2 +0,429447a 3 +0,426943a 4 +0,858103a 5 +0,127348a 6 +0,576954a 7-0,005664a 8 +0,380953a 9 +0,361521a 10 =0,703131a 11 +0,906850a 12 R 2 =0,84 3.3 Korespondenční analýza (kategorická data) MDS Zadání úlohy: Celkem 3089 občanů Dánska mužského pohlaví se zúčastnilo ankety jejímž cílem bylo objasnit vztah mezi věkem respondenta a jeho zdravotním stavem. Zdravotní stav byl hodnocen pomocí škály: velmi dobrý, dobrý, průměrný, špatný a velmi špatný. Každý respondent zvolil jednu z těchto kategorií, která nejlépe vystihovala jeho zdravotní stav a do kolonky vyplnil 1 a u ostatních nulu. Získané údaje se sečetly a výsledky ankety jsou uvedeny v Tabulce č. 22. Vyhodnoťte tyto údaje pomocí korespondenční analýzy. tabulka 19:Zdraví versus věk velmi dobrý dobrý průměr špatný velmi špatný Suma 16-24 145 402 84 5 3 639 25-34 112 414 74 13 2 615 35-44 80 331 82 24 4 521 45-54 54 231 102 22 6 415 55-64 30 219 119 53 12 433 65-74 18 125 110 35 4 292 nad 75 9 67 65 25 8 174 Suma 448 1789 636 177 39 3089 Software : NCSS2000 Řešení úlohy: Máme celkem čtyři třídy hodnotící zdravotní stav respondentů a tedy 4 dimenze. V první fázi je nutné provést redukci počtu dimenzí. Pro ideálním případ dvě, maximálně tři dimenze.
Factor2 (4%) tabulka 20:Určení počtu faktorů Faktor Vlastní Individuální Kumulativní číslo číslo % % Čárový graf 1 0,118657 93,41 93,41 IIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIII 2 0,004854 3,82 97,23 III 3 0,002947 2,32 99,55 II 4 0,000571 0,45 100,00 0,127029 Z Tabulky č.20 je patrné, že již první dimenze vysvětluje cca 93,4% z celkové inercie a pomocí dvou dimenzí lze charakterizovat cca 97,23 obsažených informací. obr. 1:Sloupcový a řádkový graf Correspondence Plot 0,25 0,15 velmi_spatny spatny Row 5 Legend Rows Columns 0,05 Row 7 Row 3 dobry Row 2-0,05 Row 4 Row velmi_dobry 1 prumer Row 6-0,15-1,00-0,60-0,20 0,20 0,60 Factor1 (93%) Z obr.14 je patrné, že věkové skupiny respondentů 16-45 let vnímají svůj zdravotní stav ponejvíce jako velmi dobrý nebo dobrý. Dále je patrné, že skupina respondentů 16-24 a 25-34 let svůj zdravotní stav hodnotí velmi podobně. Od věku 55-64 let svůj zdravotní stav respondenti považují spíše za průměrný a nad 65 let za špatný až velmi špatný. Je zde vidět souvislost mezi kvalitní zdravotní péči a prodlužováním věku dožití člověka. Pro vyšetření podobnosti mezi věkovými skupinami jednotlivých respondentů použijeme metodu MDS. Před jejím použitím musíme vstupní data upravit do následující matice proximity (tabulka č.21) tabulka 21:Matice vzdáleností mezi objekty 16-24 25-34 35-44 45-54 55-64 65-74 nad 75 16-24 0 1398 9632 38144 50324 94435 131507 25-34 0 8102 37734 48474 94141 131279 35-44 0 11084 17318 47185 75043 45-54 0 2006 12769 30303 55-64 0 9449 27261 65-74 0 5586 nad 75 0 V tomto případě jsem použil NNMDS, protože u metody MDS bylo dosaženo hodnot ukazatele stress vyšších než 0,05 (0,13). Výsledky výpočtu jsou znázorněny pomocí MDS mapy na Obr.15. Jsou zde potvrzeny závěry z korespondenční analýzy. To jest podobnost skupin respondentů 16-24 a 25-34. Dále je patrná velká podobnost mezi skupinami 55-64 a 45-54. Skupina s věkem nad 75 let je odlehlá a to z toho důvodu, že respondenti v této skupině vykazují nejhorší zdravotní stav. Vhodnost zvolené metody prokazuje obr.16- jednotlivé body v grafu lze dobře proložit přímkou a nevyskytují se zde výrazně odlehlé body.
Dim2 Dissimilarities obr. 15: MDS mapa MDS Map obr. 16:Graf těsnosti proložení Dissimilarity Fit Plot 0,40 40000,00 nad75 0,23 05000,00 0,05 sk_55_64 sk_45_54 70000,00 sk_65_74-0,13 sk_16_24 sk_25_34 35000,00 sk_35_44-0,30-0,60-0,30 0,00 0,30 0,60 Dim1 0,00 0,00 0,25 0,50 0,75 1,00 Distance Závěr: Pomocí korespondenční analýzy a NNMDS bylo provedeno objasnění vztahu zdravotního stavu respondentů a věku. Současně byla rovněž vyšetřena názorová podobnost jednotlivých skupin respondentů.