Univerzita Pardubice Fakulta chemick technlgická Katedra analytické chemie Licenční studium chemmetrie Statistické zracvání dat Metdy s latentními rměnnými a klasifikační metdy Zdravtní ústav se sídlem v Ostravě Odbr hygienických labratří Karviná V Karviné dne 0.5.006 Ing. Miluše Galuszkvá 1/11
Předmět: 3. Metdy s latentními rměnnými a klasifikační metdy Přednášející: Prf. Ing. Oldřich Pytela, DrSc. Zadání: D říštíh sustředění ředlžte ke klasifikaci následující ísemnu ráci s vyracvanými dvěďmi na ředlžené tázky. ext s tabulkami naište editrem.. Obsah Otázka 1. Vyčtěte algritmem IPALS 1. latentní rměnnu z matice A[řádek,sluec]: A[1,1]=1, A[,1]=, A[3,1]=3, A[1,]=1, A[,]=, A[3,]=0, A[1,3]=6, A[,3]=4, A[3,3]=. Matici řed zracváním standardizujte. str.3 Otázka. str.4 S užitím vhdných kriterií určete nezbytný čet latentních rměnných, byl-li z dat určen: PRESS(0=S(0=100, PRESS(1=0, S(1=10, PRESS(=3.5, S(=3.4, PRESS(3=3.45, S(3=3.39. Otázka 3. str.4 Odhadněte hdntu chybějícíh rvku A[,], jestliže výčtem z nekmletní matice byly určeny vektry : 0.541 0.43 0.514 0.514 t: -1.340-0.735.076 Otázka 4. Výčtem metdu PCA byly určeny vektry 1 : 0.01 0.458-0.35 0.987 : 0.96-0.38 0.87-0.115 Vyčtěte kmunality a vyberte sluec, který nejlée charakterizuje celu matici. str.5 Otázka 5. str.6 Vysvětlete, rč vysvětlená variabilita je ři výčtu metdu FA vždy nižší, než ři výčtu metdu PCA. Otázka 6. Výčtem metdu kannických krelací byl zjištěn: 0.97 X1 + 0.98 X + 0.050 X3 + 0.56 X4 = 0.493 Y1-0.13 Y r1 = 0.830 0.006 X1-0.115 X + 0.950 X3 + 0.056 X4 = 0.493 Y1 + 0.13 Y r1 = 0.51 Vyčtěte skuinvý krelační keficient a interretujte výsledky. Otázka 7. Uveďte nějaký knkrétní říklad vhdný r zracvání metdu PLS. str.6 str.7 Otázka 8. str.8-9 Jeden bjekt je charakterizván metrickými znaky (,10, druhý (3,8, třetí (4,9, čtvrtý (10,4 a átý (11,5. Vyčtěte matici vzdálenstí v Euklidvě metrice a dkumentujte výčet shlukvání některu z užívaných metd. Výsledky interretujte graficky. Otázka 9. str.10-11 Pište slvně stu alikace metd s latentními rměnnými neb klasifikačních metd na nějakém knkrétním říkladu ze své raxe. /11
Otázka 1. Vyčtěte algritmem IPALS 1. latentní rměnnu z matice A[řádek,sluec]: A[1,1]=1, A[,1]=, A[3,1]=3, A[1,]=1, A[,]=, A[3,]=0, A[1,3]=6, A[,3]=4, A[3,3]=. Matici řed zracváním standardizujte. 1 1 6 Zdrjvá matice A = 4 3 0 Standardizace zdrjvé matice vyčteme vektr aritmetických růměrů a vektr směrdatných dchylek x [ 1 4 ] s [ 1 1 ] d každéh rvku zdrjvé matice dečteme aritmetický růměr říslušnéh sluce a dělíme směrdatnu dchylku říslušnéh sluce a k, i, s a k, i s x -1 0 1 Standardizvaná matice A = 0 1 0 1-1 -1 Variabilita sluců je stejná. za dhad hlavní kmnenty t 1 vezmeme rvní sluec. t 1 [ -1 0 1 ] Dsadíme d vztahu 1 ( t1 t1 t 1 1 A Prvedeme nrmvání 1 1 ( 1 1 1 Získáme čáteční dhad vektru míry řísěvků dhadu vektru hlavní kmnenty t 1. Dsadíme d vztahu 1 t1 ( 1 1 1 A Získáme dhad hlavní kmnenty t 1. Oakváním stuu získáme stabilní rzklad vektrů t 1 a 1. Knvergenční kritérium má vztah 1 d ( tnvé tstaré ( tnvé tstaré( tnvétnvé d 10 Když 10, uknčíme výčet. je čet nrmvání, d je knvergenční kritérium. Výčet byl uknčen 9 krcích. Získali jsme stabilní rzklad vektrů 1 =[ 0,67967-0,45969-0,67997 ] t 1 =[ -1,5594-0,45969 1,7156 ] 1 a t 1 : Metdu IPALS jsme určili stabilní vektry rvní latentní rměnné t 1 =[ -1,5594-0,45969 1,7156 ] a její vektr zátěže 1 =[ 0,67967-0,45969-0,67997 ]. 3/11
Otázka. S užitím vhdných kriterií určete nezbytný čet latentních rměnných, byl-li z dat určen: PRESS(0=S(0=100, PRESS(1=0, S(1=10, PRESS(=3.5, S(=3.4, PRESS(3=3.45, S(3=3.39. K určení nezbytnéh čtu latentních rměnných užijeme Wldv kritérium: PRESS(P S ( P 1 R Je-li hdnta dílu větší jak 0,95, je zařazení další (P+1 latentní rměnné nevhdné. P=1 P= P=3 PRESS(1 0 SR (0 100 PRESS( 3,5 SR (1 10 PRESS(3 3,45 S ( 3,4 R 0,0 0,35 1,01 Pr P=3 je hdnta Wldva kritéria větší než 0,95, rt není čtvrtá latentní rměnná významná. ezbytný čet latentních rměnných je 3. Otázka 3. Odhadněte hdntu chybějícíh rvku A[,], jestliže výčtem z nekmletní matice byly určeny vektry : 0.541 0.43 0.514 0.514 t: -1.340-0.735.076 Prvky zdrjvé matice dvídající -té rměnné dhadneme mcí metdy Krátký cyklus Reknstrukci rvedeme dle vztahu: red A t A [,] t[] [ 0,311 Metdu Krátký cyklus jsme dhadli hdntu chybějícíh rvku A[,]= -0,311. 4/11
Otázka 4. Výčtem metdu PCA byly určeny vektry 1 0,01 0,458-0,35 0,987 0,96-0,38 0,87-0,115 Vyčtěte kmunality a vyberte sluec, který nejlée charakterizuje celu matici. Prvek matice zátěží i říslušející i-tému sluci zdrjvé matice je míru variability tht sluce sané -tu latentní rměnnu. Pdíl variability danéh sluce sané slečnými latentními rměnnými lze vyjádřit jak sučet řísěvků jedntlivých latentních rměnných, tedy kmunalitu. kde Výčet kmunality h i ( 1 hi dle vztahu: ( i Výčet nrmvaných zátěží i M i 1 i i i je čet latentních rměnných M je čet sluců zdrjvé matice Jsu určeny vektry zátěží M = 4 P = 1 0,01 0,458-0,35 0,987 0,96-0,38 0,87-0,115 rmvané zátěže 11 0,009 1 0,350 31-0,691 41 0,7546 i M i i i 1 1 0,5487-0,1410 3 0,5167 4-0,068 Kmunality h i ( i 1 h 1 0,970 h 0,1430 h 3 0,3394 h 4 0,5741 Vyčetli jsme kmunality. Čím je kmunalita říslušnéh sluce větší, tím má sluec vlastnsti slečné s statními sluci zdrjvé matice. ejvětší kmunalitu má čtvrtý sluec h 4 0, 5741, který rt nejlée charakterizuje zdrjvu matici. 5/11
Otázka 5. Vysvětlete, rč vysvětlená variabilita je ři výčtu metdu FA vždy nižší, než ři výčtu metdu PCA. Vysvětlená variabilita je díl variability zdrjvé matice sané latentní rměnnu neb říslušným čtem latentních rměnných. Vysvětlená variabilita metdu faktrvé analýzy FA je vždy nižší než vysvětlená variabilita vyčtená metdu hlavních kmnent PCA. Při výčtu mcí FA ředem vlíme čet hlavních kmnent, které rerdukují dstatnu, ale ne všechnu variabilitu rměnných. Z tht hledu je metda FA neúlnu kmnentní analýzu. Při výčtu mcí PCA si ředem čet hlavních kmnent neurčujeme, ale čítáme je. Vyčtené hlavní kmnenty rerdukují variabilitu řesně. PCA je važvána za úlnu kmnentní analýzu. Důvdem nervnsti vysvětlené variability je ři výčtem metdu PCA a FA rzdílný čet hlavních kmnent. Otázka 6. Výčtem metdu kannických krelací byl zjištěn: 0.97 X1 + 0.98 X + 0.050 X3 + 0.56 X4 = 0.493 Y1-0.13 Y r1 = 0.830 0.006 X1-0.115 X + 0.950 X3 + 0.056 X4 = 0.493 Y1 + 0.13 Y r1 = 0.51 Vyčtěte skuinvý krelační keficient a interretujte výsledky. Výčet skuinvéh krelačníh keficientu dle vzrce: R 1 (1 r (1 r...(1 XY 1 r R XY R XY 1 (1 0,830 (1 0,7704 0,878 0,51 0,7704 Skuinvý krelační keficient má hdntu 0,878, cž znamená, že 77% variability dat byl vysvětlen kannickými keficienty. První rvnice: Parametr X3 má velmi malu zátěž 0,050, rt má velmi malý vliv na růst arametru Y1 a kles arametru Y. Druhá rvnice: U arametru X1 je velmi malá zátěž 0,006, rt je arametr zanedbatelný. aké arametry X a X4 mají malu zátěž. Významný vliv je arametru X3 se zátěží 0,950 a druje růst bu arametrů Y. 6/11
Otázka 7. Uveďte nějaký knkrétní říklad vhdný r zracvání metdu PLS. V labratři řízení jaksti důlní firmy jsu rváděny analýzy černéh vlaku uhlí (vagny. Příklad zkušky tuhých aliv: Stanvení salnéh tela kalrimetricku metdu v tlakvé nádbě a výčet výhřevnsti Stanvení rchavé hřlaviny Zrychlené stanvení celkvéh bsahu vdy v uhlí řídící zkuška rséváním Stanvení skutečné hustty uhlí Stanvení veškeré síry metdu Eschka Stanvení ela sálením na vzduchu abulka: č. el 1 3......... salné tel rchavá hřlavina celkvý bsah uhlí zkuška rséváním hustta uhlí veškerá síra 30 a datech uvedených v tabulce se kuste najít vztah mezi chemickým slžením a užitnými vlastnstmi, aby byl mžné urychleně exedvat uhlí již nasyané d exedvanéh vlaku Prvede se standardizace dat Metda PLS Využitím metdy PLS zjistíme vazby mezi skuinami veličin, t.j. závislst mezi bsahy jedntlivých slžek. 7/11
Otázka 8. Jeden bjekt je charakterizván metrickými znaky (,10, druhý (3,8, třetí (4,9, čtvrtý (10,4 a átý (11,5. Vyčtěte matici vzdálenstí v Euklidvě metrice a dkumentujte výčet shlukvání některu z užívaných metd.výsledky interretujte graficky. Stanvení znaků určujících dbnst Pdbnst mezi bjekty je užita jak kritérium tvrby shluků bjektů.jedním z tyů dbnsti vyjádřené vzdálenstí r metricky rměnné je eukleidvská vzdálenst. Platí vztah: d E (x k,x l x kj a x lj d E ( x, x k l m j 1 ( x kj x lj vzdálenst mezi bjekty jsu suřadnice bjektů v M rzměrném rstru Dsazením metrických znaků bjektů d vzrce vyčteme vzdálensti mezi jedntlivými bjekty. d E ( x, x k l m j 1 ( x kj x lj d E (1,,4 d E (1,3,4 d E (1,4 10,0 d E (1,5 10,3 d E (,3 1,41 d E (,4 8,06 d E (,5 8,54 d E (3,4 7,81 d E (3,5 8,06 d E (4,5 1,41 Usřádání matice vzdálenstí 0,4,4 10,0 10,3 Shlukvací metdy Metda růměrné vzdálensti 1.krk ejmenší vzdálensti mají bdy -3 a 4-5. hdnta vzdálensti 1,41 V rvém krku vzniknu 3 shluky 1, -3, 4-5,4 0 1,41 8,06 8,54,4 1,41 0 7,81 8,06 10,0 8,06 7,81 0 1,41 10,3 8,54 8,06 1,41 0 8/11
.krk Určení metrických znaků r vzniklé shluky. u bdu 1 zůstanu,10 u shluku -3, 4-5 se metrické znaky vyčtu mcí růměru znak 1 ; 10 znak -3 3,5; 8,5 znak 4-5 10,5; 4,5 3.krk Vyčtení matice vzdálenstí 1 0,1 10,1 +3,1 0 8,06 4+5 10,1 8,06 0 4.krk ejkratší vzdálenst mají bd 1 a shluk -3. Hdnta vzdálensti je,1 Vytvřily se shluky 1--3 a 4-5. 5.krk Určení metrických znaků r vzniklé shluky. znak 1--3 3; 9 znak 4-5 10,5; 4,5 6.krk Vyčtení matice vzdálenstí 1++3 0 8,75 4+5 8,75 0 7.krk Objekty jsu seskueny d jedinéh shluku. Znázrnění seskuení bjektů je rveden mcí dendrgramu. 1,1 1,41 8,75 3 4 1,41 5 Byla vyčtena matice vzdálenstí mcí eukleidvské vzdálensti.shlukvací metdu růměrné vzdálensti byly bjekty rztříděny d shluků. Pstu shlukvání byl znázrněn mcí dendrgramu. 9/11
Otázka 9. Pište slvně stu alikace metd s latentními rměnnými neb klasifikačních metd na nějakém knkrétním říkladu ze své raxe. Obecný stu 1.Průzkumvá analýza vícerzměrných dat.analýza krelační matice a matice arciálních krelačních keficientů 3.Vlba metdy 4.Předzracvání dat - standardizace 5.Výčet latentních rměnných 6.Určení čtu signifikantních latentních rměnných 7.Analýza matice zátěží a matice latentních rměnných 8.Analýza fyzikálně chemickéh smyslu latentních rměnných 9.Interretace výsledků vzhledem k cíli analýzy Zadání: a území vlivněném důlní činnstí je rváděn mnitring vd. Pmcí zvlených ukazatelů je sledván růsak dzemní minerální vdy d vrchvých vd. Vzrkvání a analýzy v labratři jsu finančně a časvě nárčné. Je nutné redukvat čet dběrvých míst a stanvvat mezené mnžství ukazatelů. Matice vstuních dat bsahuje 10 bjektů a 11 znaků. Průzkumvu analýzu jednrzměrných dat vyšetříme vstuní data, r vícerzměrnu analýzu dat budu využity znaky s největší rměnlivstí.za účelem vyšetření vztahů mezi jedntlivými áry znaků bude rvedena lineární regrese a vyčteny krelační keficienty. Maticvé diagramy znázrní rztylvé diagramy jedntlivých dvjic znaků. Pkud je znázrněn mrak bdů znamená t, že mezi znaky není krelace.pr vícerzměrnu analýzu dat budu využity znaky s největší rměnlivstí a silnu krelací. Pr analýzu vícerzměrných dat bude využita zdrjvá matice bsahující 10 bjektů a 6 znaků. Vícerzměrná statistická analýza: ze vstuních dat sestavit zdrjvu matici (10 bjektů, 6 znaků matici je nutné standardizvat ( různé jedntky znaků dhad arametrů lhy, rztýlení, tvaru a intenzity vztahu mezi rměnnými exlratrní analýza dat dbnst bjektů (rztylvé diagramy, symblvé grafy, rfilvé grafy vybčující bjekty nevhdné k analýze ředklad lineárních vazeb testvání ředkladů datech vlba metdy hlavních kmnent PCA určení čtu latentních rměnných mcí Cattelva indexvéh grafu úatí vlastních čísel určení struktury rměnných a vzájemných vazeb ( graf kmnentních vah, rztylvý diagram kmnentníh skre, dvjný graf Bilt 10/11
určení struktury a vzájemných vazeb v bjektech analýza shluků CLU. Znázrnění mcí dendrgramu. Interretace výsledků vzhledem k cíli analýzy: Metdu analýzy hlavních kmnent PCA byla zjedndušena skuina krelvaných znaků. Pmcí grafu úatí vlastních čísel byl určen čet hlavních kmnent. První hlavní dvě kmnenty saly data z 80,4%.Byla snížena rzměrvst zdrjvé matice Mnitring vd ze 6 znaků na latentní rměnné.byl nalezen shluk vzájemně dbných bjektů a bjekty dlišné d statních bjektů. Metdu analýzy shluků CLU byla zkumána dbnst vícerzměrných bjektů a bjekty byly rztříděny d skuin. Výsledek třídění byl zbrazen dendrgramem. Statistická analýza dat tvrdila dezření na růsak vd minerálních vlivem důlních činnstí. Pr sledvání v dalších letech je mžné zredukvat sledvané znaky z 11 na 6 a snížit čet bjektů, které jsu vtěsnány d velkéh shluku zřetelnéh v grafu kmnentních vah a/neb v dendrgramu. 11/11