3. Metody s latentními roměnnými a klasifikační metody Otázka č. Vyočtěte algoritmem IPALS. latentní roměnnou z matice A[řádek,slouec]: A[,]=, A[,]=, A[3,]=3, A[,]=, A[,]=, A[3,]=0, A[,3]=6, A[,3]=4, A[3,3]=. Matici řed zracováním standardizujte. 3 0 6 4 Standardizace zdrojové matice: Standardizace matice je ostu, ři kterém od každého rvku zdrojové matice odečteme aritmetický růměr říslušného slouce a rozdíl odělíme směrodatnou odchylkou říslušného slouce. Standardizace byla rovedena omocí rogramu OPstat. Standardizovaná matice: 0 0 0 První latentní roměnná je vyčíslena na základě vztahu: T T T X t t... t A A E Variabilita všech slouců je stejná, roto je možné vzít za odhad hlavní komonenty libovolný slouec, nař. rvní: T t = [- 0 ] Po dosazení do vzorce T T (t t) t T A
a znormování odle vztahu T ( ) se získá očáteční odhad vektoru vyjadřujícího míru řísěvků odhadu hlavní komonenty t. ásledujícím dosazením do vztahu: t T T T T ( ) A se získá odhad hlavní komonenty t. Oakováním ostuu se získá stabilní rozklad vektorů t a. Jako konvergeční kritérium se oužije vztah: d (t T T nové t staré) (t nové t staré)(t novét nové ) Aby se mohl ukončit výočet, je otřeba dosáhnou d/ < Stabilní rozklad vektorů: 0 0 Vektor rvní latentní roměnné: [0,6797-0,45969-0,6797] T Vektor zátěže: t [0,67963-0,45970-0,67963] T K výočtu vektorů byl oužit software STATISTICA. Otázka č. S oužitím vhodných kriterií určete nezbytný očet latentních roměnných, bylo-li z dat určeno: PRESS(0)=S(0)=00, PRESS()=0, S()=0, PRESS()=3.5, S()=3.4, PRESS(3)=3.45, S(3)=3.39. Výočtem se má stanovit nejmenší signifikantní očet latentních roměnných, které oisují variabilitu zdrojové matice bez zahrnutí exerimentální chyby. Vzhledem k znalosti hodnot PRESS(P) a S(P) můžeme ro výočet oužít test navržený Woldem. Kritérium: je-li hodnota odílu PRESS(P)/S(P-)větší jak 0,95, zařazení další latentní roměnné je nevhodné. PRESS()/S(0) = 0/00 = 0,0
PRESS()/S() = 3,5/0 = 0,35 PRESS(3)/S() = 3,45/3,4 =,0 Hodnota třetího odílu je větší jak 0,95, roto není čtvrtá latentní roměnná významná. ejmenší signifikantní očet latentních roměnných je tedy 3. Otázka č. 3 Odhadněte hodnotu chybějícího rvku A[,], jestliže výočtem z nekomletní matice byly určeny vektory : 0.54 0.43 0.54 0.54 t: -.340-0.735.076 a rekonstrukci zdrojové matice X se oužívají rvní latentní roměnné oisující odstatnou část variability zdrojové matice bez zahrnutí exerimentální chyby. Rekonstrukce redikované zdrojové matice je osána vztahem: red T X TP Zdrojovou matici lze rovněž rekonstruovat omocí odovídající -latentní roměnné odle vzorce: X t red T Protože je zadán vektor latentní roměnné a vektor zátěže, oužijeme ro výočet chybějícího rvku A[,] druhý vzorec. -.340-0.735.076 0.54 0.43 0.54 0.54-0,7494-0,39764,3-0,5668-0,309 0,8785-0,68876-0,37779,067-0,68876-0,37779,067 Hodnota chybějícího rvku matice A[;] byla vyočtena jako - 0,309. ásobení vektorů bylo rovedeno rogramem OPstat. Otázka č. 4 Výočtem metodou PCA byly určeny vektory : 0.0 0.458-0.35 0.987 : 0.96-0.38 0.87-0.5. Vyočtěte komunality a vyberte slouec, který nejlée charakterizuje celou matici.
Prvek matice zátěží i říslušejícímu i-té mu slouci zdrojové matice je mírou variability tohoto slouce osané -tou latentní roměnnou. Podíl variability daného slouce osané solečnými latentními roměnnými lze ak vyjádřit jako součet řísěvků jednotlivých latentních roměnných, tedy h T i ( ) (i) kde h i je komunalita ro i-tý slouec P očet latentních roměnných i jsou zátěže normované odle vztahu: i M i i i M očet slouců zdrojové matice 4. Výočet normovaných zátěží Jsou určeny vektory zátěží: : 0,0 0,458-0,35 0,987 : 0,96-0,38 0,87-0,5. Indexy: i označení slouce (existují 4 slouce tj. M = 4) P očet latentních roměnných (existují latentní roměnné tj. P = ) Podle druhého vzorce vyočítáme normované zátěže ro jednotlivé slouce ři dvou latentních roměnných. 3 4 3 4 0,009 0,350 0,69 0,7546 0,5487 0,40 0,567 0,068
4. Výočet komunalit Podle rvého vzorce vyočítáme komunality ro všechny 4 slouce zdrojové matice. h h h 4 0,970 0,430 0,574 Obecně latí, že čím je konunalita říslušného slouce větší, tím má slouec vlastnosti solečné s ostatními slouci zdrojové matice. Z toho vylývá, vzhledem k hodnotě komunalisty čtvrtého slouce, že tento slouec nejlée charakterizuje zdrojovou matici. Otázka č. 5 Vysvětlete, roč vysvětlená variabilita je ři výočtu metodou FA vždy nižší, než ři výočtu metodou PCA. Vysvětlená variabilita metodou hlavních komonent (PCA) je vždy vyšší než vysvětlená variabilita vyočtená metodou faktorové analýzy (FA). Důvodem této nerovnosti je očet hlavních komonent. Při výočtu omocí FA si ředem zvolíme očet hlavních komonent. Ty rerodukují odstatnou, ale nikoliv všechnu variabilitu manifestních roměnných. Jedná se o neúlnou komonentní analýzu. Při výočtu metodou PCA si očet hlavních komonent sami ředem neurčujeme, ale vyočítáme. Vyočítané hlavní komonenty rerodukují variabilitu řesně. Jedná se o vhodnou ortogonální transformaci, která zachovává beze zbytku ůvodní informaci. V říadě PCA hovoříme o úlné komonentní analýze Otázka č. 6 Výočtem metodou kanonických korelací bylo zjištěno: 0.97 X + 0.98 X + 0.050 X3 + 0.56 X4 = 0.493 Y - 0.3 Y r = 0.830 0.006 X - 0.5 X + 0.950 X3 + 0.056 X4 = 0.493 Y + 0.3 Y r = 0.5 Vyočtěte skuinový korelační koeficient a interretujte výsledky.
V metodě kanonické korelace se vyočítá skuinový korelační koeficient odle následujícího vztahu: R XY C XX C C YY kde: C celková kovarianční matice CXX kovarianční matice náhodného vektoru x CYY kovarianční matice náhodného vektoru y Tento korelační koeficient je složen z kanonických korelačních koeficientů r, ro jejichž vzájemný vztah latí: R XY ( r )( r )...( r ) Protože jsou zadány kanonické korelační koeficienty, oužijeme ro výočet druhý vztah. R R XY XY ( 0,830 )( 0,5 ) 0,7704 R XY 0,7704 0,878 Skuinový korelační koeficient má hodnotu 0,7704, což znamená, že 77 % variability dat jsme vysvětlili kanonickými korelačním koeficienty. První rovnice vyjadřuje, že růst všech arametrů X má za následek růst obou arametrů Y (tj. čím budou arametry X vyšší, tím budou vyšší i arametry Y) a obráceně. U arametru X3 je velmi malá zátěž (0,050). Tento arametr má zanedbatelný vliv na růst či okles arametrů Y. Druhá rovnice udává složitější závislost. Čím budou arametry X, X3, X4 růst a arametr X klesat, tak bude arametr Y růst a arametr Y klesat a obráceně, tj. čím budou arametry X. X3, X4 klesat a arametr X rů st, tak bude arametr Y klesat a arametr Y růst. U arametru X je velmi malá zátěž (0,006). Tento arametr má zanedbatelný vliv na vzrůst a okles arametrů Y.
Otázka č. 7 Uveďte nějaký konkrétní říklad vhodný ro zracování metodou metodou PLS. Zajištěné vzorky sychotroní látky metamfetaminu (Pervitinu) byly analyzovány metodou infračervené sektrometrie s Fourierovou transformací (FTIR). aměřená sektra byla vyhodnocena metodou PLS ve stanovených sektrálních oblastech za účelem zjištění odobnosti vzorků. Otázka č. 8 Jeden objekt je charakterizován metrickými znaky (,0), druhý (3,8), třetí (4,9), čtvrtý (0,4) a átý (,5). Vyočtěte matici vzdáleností v Euklidově metrice a dokumentujte výočet shlukování některou z oužívaných metod. Výsledky interretujte graficky. Výočet matice vzdáleností Blízkost či odobnost objektů se osuzuje na základě míry odobnosti. Jedním z nejjednodušších tyů odobností vyjádřené vzdáleností ro metrické roměnné je Euklidova metrika definovaná vztahem d E (Xk, Xl ) (xk xk ) kde d E vzdálenost mezi objekty X k a X l xk a x l jsou souřadnice objektů v P-rozměrném rostoru / Dosazením metrických znaků objektů do uvedeného vzorce získáme vzdálenosti mezi jednotlivými objekty: (,),4 (,3),4 (,4) 0,0 (,5) 0,3 (,3),4 (,4) 8,06 (,5) 8,54 (3,4) 7,8
(3,5) 8,06 (4,5),4 Získané vzdálenosti usořádáme do matice: Matice vzdálenosti znaků má tvar: 0,00,4 0,00 3,4,4 0,00 4 0,00 9,75 7,8 0,00 5 0,30 8,54 8,06,4 0,00 ejmenší vzdálenost mají rvky 3- a 5-4. Z nich je možné vytvořit rvní shluky, sočítat těžiště nových shluků a oět vyočítat matici vzdáleností: 0,00-3, 0,00 4-5 0, 8,06 0,00 ejmenší vzdálenost má shluk -3 a znak. Je tedy možné tyto rvky sojit do shluku a sočítat těžiště nového shluku a oět vyočítat matici vzdáleností: --3 0,00 4-5 8,75 0,00 Tento roces je možné shrnout do následujícího dendrogramu:
Otázka č. 9 Poište slovně ostu alikace metod s latentními roměnnými nebo klasifikačních metod na nějakém konkrétním říkladu ze své raxe. Bylo analyzováno 36 vzorků okvětních částí cannabis a obsahové množství cannabidiolu (CBD), cannabinolu (CB) a D-9-tetrahydrocannabinolu (THC) bylo vyjádřeno ve formě lochy odezvy detektoru. Pomocí klasifikační metody, shlukové analýzy rovedeme klasifikaci vzorků cannabis. Původní naměřená data. CBD THC CB 45 605 59 9 098 4 3 54 4860 3 4 409 74 3 5 547 396 5 6 847 760 4 7 48 344 6 8 64 439 9 3376 579 55 0 757 484 446 468 6094 580 07 3048 9 3 8 65 4 6 3047 6 5 367 889 7 6 7 83 3 7 05 3470 4 8 84 35 40 9 85 366 4 0 08 58 6 67 480 5 9 73 5 3 4 947 7 4 8 306 3 5 9 954 6 6 368 906 40 7 49 658 5 8 593 465 3 9 07 6 5 30 45 4633 4 3 4 4409 3 3 86 507 9 33 8 453 9 34 344 4803 50 35 58 6 3 36 47 83 4
9. Výběr dat. Počet objektů řevyšuje očet znaků x a tudíž lze oužít shlukovou analýzu ke zracování dat. 9. Průzkumová analýza vícerozměrných dat. 9.3 Úrava dat. Data se standardizují, což znamená, že se od základních údajů odečte aritmetický růměr a odělí se směrodatnou odchylkou.
Tabulka standardizovaných dat CBD THC CB -0,05343585,046038-0,038006906-0,4303006-0,3605747-0,3475 3-0,7573034,358059-0,45383 4-0,073846309-0,459444-0,3540864 5 0,09437 0,45537737-0,3403438 6 0,484890 0,460088-0,3475 7-0,049608858 0,5390656-0,3334753 8,0683974-0,66404348-0,36889 9 3,70567,8538303 3,485408 0,939447,3470859,67837,557983,070644 3,6074937-0,459094498 0,3478-0,385865 3-0,55987339-0,5484606-0,36889 4-0,4476359 0,3665-0,63375959 5-0,74388-0,93384045-0,396347 6-0,43358374-0,7645670-0,3540864 7-0,466458 0,55580797-0,55889 8-0,48843459 0,35668345-0,6555648 9-0,48758935 0,380346878-0,55889 0-0,4578884 -,49495-0,4038546-0,500746 -,698985-0,4005676-0,4303006-0,454958-0,70363089 3-0,4444653-0,330873-0,5638883 4-0,55987339 -,703394-0,3540864 5-0,4373754-0,89635799-0,4038546 6-0,6486-0,9409365-0,6555648 7-0,53308558-0,49000688-0,088697754 8 0,6087443 -,7855588-0,44079934 9-0,459094498 -,088599-0,4005676 30-0,406956,7037-0,773508 3-0,45787,0977538-0,84337347 3-0,48588378-0,5775763-0,385758 33-0,490985903-0,608344-0,385758 34-0,56763975,35539-0,0956848548 35-0,56065-0,77685469-0,84403 36-0,40806849-0,9673687-0,3475
9.4 Výběr říslušné míry odobnosti objektů a výočet matice odobnosti. Blízkost či odobnost objektů se osuzuje na základě míry odobnosti. Jedním z nejjednodušších tyů odobností vyjádřené vzdáleností ro metrické roměnné je Euklidova metrika definovaná vztahem: d E (Xk, X l ) (xk x l) kde d E je vzdálenost mezi objekty X ax k l xkax l jsou souřadnice objektů v P-rozměrném rostoru
Výřez tabulky Euklid. vzdálenosti (THC_) část matice dat P_ P_3 P_4 P_5 P_6 P_7 P_8 P_9 P_0 P_ P_ P_3 P_4 P_5 P_6 P_7 P_8 P_9 P_,33 0,75,5,63,00,54,89 5, 4,08 4,48,80,63,79 3,00,85,55,75,73 P_ 0,00,6 0,4 0,87 0,99 0,86,50 5,97 4,78 5,46 0,55 0,3 0,55 0,76 0,53 0,8 0,6 0,65 P_3,6 0,00,83 0,98,43 0,86,36 5,4 4,3 4,8,07,90,06,30,3 0,83,03,00 P_4 0,4,83 0,00 0,9 0,8 0,99,0 5,8 4,6 5,38 0,86 0,49 0,85 0,49 0,48,0 0,93 0,95 P_5 0,87 0,98 0,9 0,00 0,49 0,7,4 5,39 4, 4,9 0,58,7 0,57,4,33 0,60 0,6 0,6 P_6 0,99,43 0,8 0,49 0,00 0,66 0,93 5,4 4,06 4,86 0,96,4 0,95,4,9,05,0,0 P_7 0,86 0,86 0,99 0,7 0,66 0,00,57 5,47 4,30 4,96 0,47,7 0,46,48,36 0,45 0,50 0,50 P_8,50,36,0,4 0,93,57 0,00 5,6 4,09 5,04,74,58,74,9,46,90,80,8 P_9 5,97 5,4 5,8 5,39 5,4 5,47 5,6 0,00,0,9 5,80 6,8 5,76 6,08 6,8 5,64 5,7 5,70 P_0 4,78 4,3 4,6 4, 4,06 4,30 4,09,0 0,00,4 4,63 4,98 4,59 4,89 4,99 4,48 4,54 4,53 P_ 5,46 4,8 5,38 4,9 4,86 4,96 5,04,9,4 0,00 5,5 5,67 5,0 5,68 5,7 5,05 5,4 5, P_ 0,55,07 0,86 0,58 0,96 0,47,74 5,80 4,63 5,5 0,00 0,84 0,05,9,08 0,9 0,6 0,8 P_3 0,3,90 0,49,7,4,7,58 6,8 4,98 5,67 0,84 0,00 0,84 0,60 0,8,0 0,90 0,9 P_4 0,55,06 0,85 0,57 0,95 0,46,74 5,76 4,59 5,0 0,05 0,84 0,00,9,08 0,7 0, 0,4 P_5 0,76,30 0,49,4,4,48,9 6,08 4,89 5,68,9 0,60,9 0,00 0,35,55,36,38 P_6 0,53,3 0,48,33,9,36,46 6,8 4,99 5,7,08 0,8,08 0,35 0,00,34,4,6 P_7 0,8 0,83,0 0,60,05 0,45,90 5,64 4,48 5,05 0,9,0 0,7,55,34 0,00 0,0 0,8 P_8 0,6,03 0,93 0,6,0 0,50,80 5,7 4,54 5,4 0,6 0,90 0,,36,4 0,0 0,00 0,03 P_9 0,65,00 0,95 0,6,0 0,50,8 5,70 4,53 5, 0,8 0,9 0,4,38,6 0,8 0,03 0,00 P_0 0,9,5 0,79,69,60,73,57 6,40 5,0 5,96,46 0,64,46 0,39 0,38,7,5,54 P_ 0,94,55 0,84,74,65,77,6 6,45 5,5 6,00,49 0,66,49 0,45 0,4,75,55,57 P_ 0,3,8 0,37,06,0,06,46 6,00 4,8 5,50 0,77 0,7 0,76 0,58 0,3,0 0,8 0,84 P_3 0,3,69 0,38 0,94,0 0,94,47 5,93 4,74 5,43 0,64 0,7 0,64 0,69 0,45 0,89 0,69 0,7 P_4,04,65 0,95,85,76,88,7 6,49 5,30 6,05,59 0,76,59 0,55 0,5,84,64,66 P_5 0,69,6 0,47,39,6,45,7 6,3 4,94 5,7,3 0,5,4 0,0 0,5,49,30,33 P_6 0,77,9 0,5,4,5,47,0 5,94 4,74 5,5,9 0,63,8 0,3 0,39,5,33,35 P_7 0,38,87 0,53,7,3,6,58 5,98 4,79 5,45 0,84 0,8 0,8 0,68 0,39,05 0,85 0,87 P_8,,58 0,77,64,37,73,03 6,04 4,86 5,70,6 0,98,6 0,38 0,73,86,69,7 P_9 0,86,46 0,75,64,56,68,55 6,38 5,8 5,93,40 0,58,4 0,37 0,33,66,47,49 P_30,46 0,0,7 0,93,4 0,78,33 5,57 4,45 4,96 0,9,75 0,9,8,99 0,68 0,88 0,86 9.5 Uvedení výsledků Postu shlukování zaneseme do dendrogramu. a vodorovné ose je vzdálenost, na které došlo ke sloučení objektů nebo shluků a na svislé ose jsou usořádané objekty.
Str. diagram ro 36 říadů Jednoduché sojení Euklid. vzdálenosti P_ P_ P_3 P_ P_3 P_3 P_33 P_6 P_35 P_5 P_5 P_0 P_9 P_ P_4 P_36 P_7 P_6 P_4 P_8 P_5 P_7 P_ P_4 P_8 P_9 P_7 P_6 P_3 P_34 P_30 P_3 P_8 P_9 P_ P_0 0,0 0,5,0,5,0,5 3,0 3,5 4,0 4,5 Vzdálen. sojení P_ P_ P_ P_3 P_3 P_3 P_33 P_6 P_35 P_0 P_9 P_ P_4 P_36 P_5 P_5 P_6 P_7 P_4 P_8 P_5 P_7 P_ P_4 P_8 P_9 P_7 P_6 P_3 P_34 P_30 P_3 P_8 P_9 P_ P_0 Str. diagram ro 36 říadů Jednoduché sojení Blokové vzdálenosti (Manhattan) 0 3 4 5 6 Vzdálen. sojení
Str. diagram ro 36 říadů Wardova metoda Euklid. vzdálenosti P_ P_3 P_34 P_30 P_3 P_5 P_7 P_6 P_8 P_ P_4 P_7 P_8 P_9 P_ P_3 P_ P_7 P_4 P_3 P_3 P_33 P_6 P_35 P_36 P_5 P_5 P_6 P_8 P_0 P_9 P_ P_4 P_9 P_ P_0 0 5 0 5 0 5 Vzdálen. sojení Str. diagram ro 36 říadů Wardova metoda Blokové vzdálenosti (Manhattan) P_ P_3 P_34 P_30 P_3 P_5 P_7 P_6 P_ P_4 P_7 P_8 P_9 P_ P_ P_3 P_4 P_3 P_3 P_33 P_7 P_8 P_5 P_5 P_6 P_8 P_6 P_35 P_36 P_0 P_9 P_ P_4 P_9 P_ P_0 0 5 0 5 0 5 30 35 40 45 Vzdálen. sojení
Za využití rogramu STATISTICA 8 bylo celkem 36 objektů seskueno do jednoho shluku. Za účelem shlukování bylo oužito několik ostuů a lze konstatovat, že byly získány obdobné výsledky. Vyhodnocením výsledků se jeví otimální čtyři shluky: shluk: --3-3-3-33-6-35 shluk: 0-9--4-36--6 3 shluk: -4-8-9-7 4 shluk: 3-34-30-3