Metody s latentními proměnnými a klasifikační metody

Podobné dokumenty
Fakulta chemicko-technologická Katedra analytické chemie. 3.2 Metody s latentními proměnnými a klasifikační metody

Univerzita Pardubice FAKULTA CHEMICKO TECHNOLOGICKÁ

3.2 Metody s latentními proměnnými a klasifikační metody

Univerzita Pardubice 8. licenční studium chemometrie

Způsobilost. Data a parametry. Menu: QCExpert Způsobilost

Laplaceova transformace.

Národní informační středisko pro podporu jakosti

Dynamické programování

AVDAT Mnohorozměrné metody metody redukce dimenze

Výpočet svislé únosnosti osamělé piloty

Příklad 2: Obsah PCB v játrech zemřelých lidí. Zadání: Data: Program:

7. VÝROBNÍ ČINNOST PODNIKU

Analytická metoda aneb Využití vektorů v geometrii

Výpočet svislé únosnosti osamělé piloty

Fakulta chemicko technologická Katedra analytické chemie

CVIČENÍ Z ELEKTRONIKY

Úvěr a úvěrové výpočty 1

zadání: Je dán stejnosměrný motor s konstantním magnetickým tokem, napájen do kotvy, indukčnost zanedbáme.

Protokol o provedeném měření

Přednáška č. 11 Analýza rozptylu při dvojném třídění

Směrová kalibrace pětiotvorové kuželové sondy

Profilování vzorků heroinu s využitím vícerozměrné statistické analýzy

Univerzita Pardubice Fakulta chemicko technologická Katedra analytické chemie Licenční studium Management systému jakosti

AVDAT Mnohorozměrné metody, metody klasifikace Shluková analýza

Cyklické kódy. Alena Gollová, TIK Cyklické kódy 1/23

NCCI: Únosnost přípoje deskou na stojině nosníku na vazebné síly

Téma 7: Přímý Optimalizovaný Pravděpodobnostní Výpočet POPV

3.4 Určení vnitřní struktury analýzou vícerozměrných dat

Shluková analýza dat a stanovení počtu shluků

Cvičná bakalářská zkouška, 1. varianta

Způsob určení množství elektřiny z kombinované výroby vázané na výrobu tepelné energie

Vyhodnocení průměrných denních analýz kalcinátu ananasového typu. ( Metoda hlavních komponent )

, : (vzor prvku b) q ).

Úlohy domácí části I. kola kategorie C

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz

Fakulta chemicko-technologická Katedra analytické chemie. Licenční studium Statistické zpracování dat při managementu jakosti. Semestrální práce:

PZP (2011/2012) 3/1 Stanislav Beroun

můžeme toto číslo považovat za pravděpodobnost jevu A.

ÚSTAV ORGANICKÉ TECHNOLOGIE

Vícerozměrné statistické metody

MĚŘENÍ VÝKONU V SOUSTAVĚ MĚNIČ - MOTOR. Petr BERNAT VŠB - TU Ostrava, katedra elektrických strojů a přístrojů

Termodynamické základy ocelářských pochodů

7. Měření dutých objemů pomocí komprese plynu a určení Poissonovy konstanty vzduchu Úkol 1: Určete objem skleněné láhve s kohoutem kompresí plynu.

NÁVRH A OVĚŘENÍ BETONOVÉ OPŘENÉ PILOTY ZATÍŽENÉ V HLAVĚ KOMBINACÍ SIL

Oddělení technické elektrochemie, A037. LABORATORNÍ PRÁCE č.9 CYKLICKÁ VOLTAMETRIE

Obvodové rovnice v časové oblasti a v operátorovém (i frekvenčním) tvaru

Spojitá náhodná veličina

MATEMATICKÉ PRINCIPY VÍCEROZMĚRNÉ ANALÝZY DAT

Statistická analýza dat - Indexní analýza

T8OOV 03 STANOVENÍ PLYNNÝCH EMISÍ ORGANICKÝCH ROZPOUŠTĚDEL V ODPADNÍM VZDUCHU

2.3.6 Práce plynu. Předpoklady: 2305

GONIOMETRICKÉ ROVNICE -

Markovovy řetězce se spojitým časem CTMC (Continuous time Markov Chain)

Rozhodovací stromy Marta Žambochová

PRŮTOK PLYNU OTVOREM

Model tenisového utkání

Monitoring vod. Monitoring podzemní voda:

Příklady z přednášek Statistické srovnávání

PRAVDĚPODOBNOST A STATISTIKA. Metoda momentů Metoda maximální věrohodnosti

Metody s latentními proměnnými a klasifikační metody

VYHODNOCENÍ MĚŘENÍ (varianta "soulodí")

Příklad 2: Určení cihlářských surovin na základě chemické silikátové analýzy

Regresní lineární model symboly

Regresní analýza 1. Regresní analýza

AVDAT Geometrie metody nejmenších čtverců

Systémové struktury - základní formy spojování systémů

Aplikovaná informatika. Podklady předmětu Aplikovaná informatika pro akademický rok 2013/2014 Radim Farana. Obsah. Strom

Přednáška č. 10 Analýza rozptylu při jednoduchém třídění

Stabilita prutu, desky a válce vzpěr (osová síla)

Charakteristika datového souboru

Obr. V1.1: Schéma přenosu výkonu hnacího vozidla.

PARALELNÍ PROCESY A PROGRAMOVÁNÍ

11 Analýza hlavních komponet

ρ hustotu měřeného plynu za normálních podmínek ( 273 K, (1) ve které značí

Výpo ty Výpo et hmotnostní koncentrace zne ující látky ,

Algoritmy pro shlukování prostorových dat

Cvičení z termomechaniky Cvičení 5.

Statistická analýza jednorozměrných dat

Kalibrace a limity její přesnosti

SHANNONOVY VĚTY A JEJICH DŮKAZ

DIAGNOSTICKÁ MĚŘENÍ V SOUSTAVĚ MĚNIČ - MOTOR

Dynamika populací. s + W = 1

SEMESTRÁLNÍ PRÁCE. Určení vnitřní struktury analýzou vícerozměrných dat. Ing. Pavel Bouchalík

Univerzita Pardubice Fakulta chemicko-technologická Katedra analytické chemie STATISTICKÉ ZPRACOVÁNÍ EXPERIMENTÁLNÍCH DAT

1.3.3 Přímky a polopřímky

Statistické metody v ekonomii. Ing. Michael Rost, Ph.D.

6. Vliv způsobu provozu uzlu transformátoru na zemní poruchy

1.5.2 Mechanická práce II

STATISTICKÉ METODY. (kombinovaná forma, 8.4., ) Matěj Bulant, Ph.D., VŠEM

4 STATISTICKÁ ANALÝZA VÍCEROZMĚRNÝCH DAT

Třídění a významné hodnoty

Univerzita Pardubice Fakulta chemicko technologická Katedra analytické chemie Licenční studium Management systému jakosti

Univerzita Pardubice Chemicko-technologická fakulta Katedra analytické chemie

VÍCEKRITERIÁLNÍ ROZHODOVANÍ

5 Teorie selekce a složky genetické změny

Komparace Value at Risk a Expected Shortfall v rámci Solvency II

Předmět: 1.1 Využití tabulkového procesu jako laboratorního deníku Přednášející: Doc. Ing. Stanislava Šimonová, Ph.D., Doc. Ing. Milan Javůrek, CSc.

UNIVERZITA PARDUBICE

Obrázek1:Nevratnáexpanzeplynupřesporéznípřepážkudooblastisnižšímtlakem p 2 < p 1

2. Najděte funkce, které vedou s těmto soustavám normálních rovnic

Transkript:

Univerzita Pardubice Fakulta chemicko-technologická Katedra analytické chemie etody s latentními roměnnými a klasifikační metody Ing. Roman Slavík V Bohumíně 4.4. ŽDB a.s.

Příklad č. Vyočtěte algoritmem IPALS. latentní roměnnou z matice A [řádek, slouec]: A [,], A [,], A [3,] 3, A [,], A [,], A [3,], A [,3] 6, A [,3] 4, A [3,3]. atici řed zracováním standardizujte. 6 zdrojová matice A 4 3 ejdříve vyočteme vektor aritmetických růměrů x 4 a vektor směrodatných s odchylek - Standardizací obdržíme matici A - - Jako rvní odhad vektoru t byl zvolen rvní slouec standardizované matice : t - Po dosazení do vztahu (t t ) - t A a znormováním odle ( ) -/ získáme očáteční odhad vektoru míry řísěvků odhadu vektoru hlavní komonenty t. Dosazením za t ( ) A získáme odhad hlavní komonenty t. Iteračním oakováním tohoto ostuu dostaneme stabilní rozklad vektorů t a. Konverg. kritérium má tvar : d ( t nové t staré ) ( t nové t staré )( t nové t nové ) Výočet se ukončí když d / < - /

Výočet vektoru : inverze t t *,5,5 *,5, 5 * t * X * X,5,5 *,5 ormování vektoru : / æ ö ç / ( ) ç,5 *,5 ç è ø / * (,5),6667,6667 *,5,6667,3333,6667 Výočet t :,6667 inverze *,6667,3333,6667 *,3333,6667,6667 * * * X,6667,3333,6667,6667,3333 t,3333,3333,6667 Výočet se oakuje. Jednotlivé vyočítané vektory jsou uvedeny v tabulce č.. 3/

abulka č. - Vyočítané vektory latentních roměnných a zátěží. Číslo Vektor zátěží () ormovaný vektor Vektor latentních hodnot oakování zátěží () -,5 -,6667 -,3333 -,6667 -,3333 -,3334,6667,675 -,45 -,675,6396 -,464 -,6396 -,79 -,464,756 3,634 -,45 -,634,63 -,458 -,63 -,63 -,458,73 4,689 -,4574 -,689,688 -,4573 -,688 -,577 -,4573,75 5,68 -,459 -,68,68 -,459 -,68 -,564 -,459,754 6,68 -,4595 -,68,68 -,4595 -,68 -,56 -,4596,757 7,679 -,4596 -,679,68 -,4597 -,68 -,559 -,4597,756 8,68 -,4597 -,68,68 -,4597 -,68 -,559 -,4597,756 Po 8 krocích obdržíme : zátěžový vektor,679675 -,4596886 -,679675 vektor latentních roměnných t -,55935 -,4596886,75636 Pronásobením a odečtením dle E A - t získáme matici nevysvětlené -,3 -,57734,34 variability E,8867,788686 -,8867 -,7736 -,35,77356 Algoritmem IPALS byla sočtena rvní latentní roměnná. Příklad č. S oužitím vhodných kritérií určete nezbytný očet latentních roměnných, bylo-li z dat určeno: PRESS() S(), PRESS(), S(), PRESS() 3,5; S() 3,4; PRESS(3) 3,45; S(3) 3,39. PRESS()S() - suma x ki ze zdrojové matice PRESS(P) suma e ki z matice E red S(P) suma e ki z matice E K určení nezbytného očtu latentních roměnných oužijeme Woldovo kritérium založené na oměru hodnoty PRESS(P) a hodnoty S(P-). PRESS(P)/S(P-) P : PRESS()/S(), P : PRESS()/S(),35 P 3 : PRESS(3)/S(),,>,95 Woldovým kritériem byl stanoven očet latentních roměnných na základě výše uvedených hodnot na 3. Čtvrtá latentní roměnná není třeba, rotože hodnota kritéria vyšla větší (,) než,95. 4/

Příklad č.3 Odhadněte hodnotu chybějícího rvku A[,], jestliže výočtem z nekomletní matice byly určeny vektory :,54,43,54,54 t: -,34 -,735,76 Prvky zdrojové matice odovídající -té latentní roměnné lze rekonstruovat odle vzorce A red t vektor,54,43,54,54 vektor t -,34 -,735,76 -,749 -,5668 -,6888 -,6888 matice A red,3976 -,39 -,3778 -,3778,3,878,67,67 A[,] -,3 První odhad chybějící hodnoty činí -,3. Příklad č.4 Výočtem metodou PCA byly určeny vektory :,,458 -,35,987 :,96 -,38,87 -,5. Vyočtěte komunality a vyberte slouec, který nejlée charakterizuje celou matici. Prvek matice zátěží i říslušejícímu i-tému slouci zdrojové matice je mírou variability tohoto slouce osané -tou latentní roměnnou. Podíl variability daného slouce osané solečnými latentními roměnnými lze ak vyjádřit jako součet řísěvků jednotlivých latentních roměnných, tedy h i ( ) P ( i ) kde h i je komunalita ro i-tý slouec P očet latentních roměnných očet slouců zdrojové matice i jsou zátěže normované odle vztahu: i i i i Výočet normovaných zátěží vektor,,458 -,35,987 vektor,96 -,38,87 -,5 5/

Vyočítáme normované zátěže ro jednotlivé slouce ři dvou latentních roměnných., +,458 + (,35),,38, +,987 i i,458 +,458 + (,35),458,38, +,987 i i,35 +,458 + (,35),35,38 3 3, +,987 i i,987 +,458 + (,35),987,38 4 4, +,987 i i,96 + (,38) +,87,96,6877,96 + (,5) i i 3 i 4 i,96,38 + (,38) +,87,9,35,69,7546,38,6877 + (,5) i i,87 + (,38) +,87,87,6877 3,96 + (,5) i,96,5 + (,38) +,87,5,6877 4 + (,5) i Výočet komunalit P h ( ) +,9 +,54487,97 P h ( ) +,35 + (,4),43 P 4 h ( 4 ) 4 + 4,7546 + (,68),574,5487,4,567,68 Platí ravidlo, že čím je komunalita říslušného slouce větší, tím má slouec vlastnosti solečné s ostatními slouci zdrojové matice. V našem říadě čtvrtý slouec nejlée charakterizuje zdrojovou matici. 6/

Příklad č.5 Vysvětlete, roč vysvětlená variabilita je ři výočtu metodou FA vždy nižší, než ři výočtu metodou PCA. Rozdíl sočívá ve zůsobu rozkladu variability zdrojové matice. V říadě metody PCA je model ostaven na S H, (S - diagonální matice roztylů manifestních roměnných, H - diagonální matice komunalit), který ředokládá, že lze variabilitu zdrojové matice rerodukovat řesně. U metody FA latí, že variabilita je rozložena do dvou složek S H + L, (L - matice jedinečností, která ředstavuje část variability nevysvětlitelné solečnými faktory). ím, že u metody FA ředokládáme existenci nevysvětlené variability dosíváme vždy k nižším hodnotám vysvětlené variability než u metody PCA. Příklad č.6 Výočtem metodou kanonických korelací bylo zjištěno:,97x +,98X +,5X3 +,56X4,493Y,3Y r,83,6x -,5X +,95X3 +,56X4,493Y +,3Y r,5 Vyočtěte skuinový korelační koeficient a interretujte výsledky. Skuinový korelační koeficient R vyočteme ze vztahu R - ( - r )( r ) R,77 atice X je tvořena 4 slouci a matice Y dvěma. Skuinový korelační koeficient má hodnotu,77, což znamená, že 77 % variability dat jsme vysvětlili kanonickými korelačním koeficienty. S růstem roměnných X, X a X4, které mají stejný vliv, klesá význam roměnné Y a roste významně roměnná Y. S nadbytkem roměnné X3 se zvyšuje roměnná Y. Příklad č.7 Při monitoringu vstuních vod do naší akciové solečnosti jsou v chemické laboratoři analyzovány vzorky těchto odebraných vod. U těchto ovrchových vod se v naší laboratoři kromě jiných stanovují tyto arametry : Ph, Vodivost, L, RL, vrdost, -H4, -O3, -O, Cl, CHSK Cr, Ba, Fe, Sr, BSK5. Parametr AOX je stanovován externí laboratoří v Paskově. a datech v tabulce se okuste najít vztah mezi AOX a arametry stanovovanými v naší laboratoři. Kvalita ovrchové vody by byla známa již ři stanovení arametrů v naší laboratoři. 7/

VZ PH VODIV L RL VRD -H4 -O3 -O CL CHSK CR BA FE SR AOX BSK5 7,47 96,, 76, 3,,37 3,4,6 799,,,86,534,883,496 7, 7,58 67, 5, 38,5 3,9 5,6 5,,4 45, 7,8,77,659,98,38 4, 7,66 45, 7, 9, 9,5,4,,7 3,3 6,4,75,99,5,6 6,3 7,95 6, 3, 473,,3 7,6,,5 48,,,77,635,38,33 4, 6 7,87 38, 69, 43, 3,5 9,95,7,5 5,,8,343,5,63,458 3,5 356 7,8 6,3 37, 85,5 8, 3,85 7,,6 3,,,66,59,933,8 3, 359 6,98 83, 4, 65,,6,66,7,4 757, 3,,,396,64,35,5 36 6,8 49, 33, 336,5 9,9,95 3,3,7 34, 8,,59,84,8,36 6,3 36 7, 55,3, 385,,9,3 35,6,9 44,7 7,9,67,498,68,4,4 36 7,33 6,8 43, 995,5,,9 7,6,3 3, 8,59,59,69,865,4 5, 363 7,6 44, 49, 33, 9,5,48 3,5,8 3, 9,58,5,744,96,,5 74 7,69 7, 4, 9, 9, 5,65,8,5 344,,,4,33,96,6 3,5 745 7,34 9, 5, 8, 7,,75 5,9,8 56, 8,,96,44,46,454,5 746 7,8 6, 5, 7,5 3,7,48 9,9,6 34,4 6,,78,43,96,47 3,5 747 7,46 56,3 8, 369,,,4 36,,7 4,3 6,,98,48,9,34,5 748 7,66 74,6 3, 95, 9,6 5,7,,5 3,,,3,35,, 3,5 749 7,46 33,6 4, 38, 7,,65,,,7 6,,65,36,88,, 55 7,77 64,7 4, 86, 8,9,68 8,7,5 33, 38,65,7,68,94,56 6, 58 6,89 99, 33, 56,5 9,8, 3,8,6 5,,3,6,73,9,33 6,6 59 6,79 6,7, 686, 3,,4,4,8 34,8 4,44,66,639,34,35 6,7 6 6,78 6, 5, 46,5,,64 3,3,63 45,,95,4 7,75,33, 3, 6 7,33 65, 6, 53, 9,,7 9,5,37 33, 3,87,58,5,48,3 5,7 6 6,85 7,8 3, 73, 5,6,5 8,6,6 3,9,3,48,39,54, 5, 3663 7,75 98,8 45, 49,,7,8 8,,9 45, 3,,6,594,3,9 5,3 399 7,95 3, 39, 369, 5,48, 7,4,9 53,,,88 8,94,578,74 6, Příklad č.8 Jeden objekt je charakterizován metrickými znaky (,), druhý (3,8), třetí (4,9), čtvrtý (,4) a átý (,5). Vyočtěte matici vzdálenosti v Euklidově metrice a dokumentujte výočet shlukování některou z oužívaných metod. Výsledky interretujte graficky. Postuy aglomerativní shlukové analýzy lze neusořádanou množinu objektů charakterizovaných náhodnými vektory ostuně usořádat do tříd až ke konečnému stavu, kdy se všechny objekty sojí do jediné třídy. Výše uvedené vlastnosti objektů (blízkost či odobnost) osuzujeme odle vzdálenosti objektů v -rozměrném rostoru znaků nejjednodušším tyem Euklidové metriky, která je definovaná vztahem d E (X k, X l ) [ (x k x l ) ro..] /. Vzdálenost určená odle zásady nejbližšího souseda (nejbližší jsou ty třídy, které mají nejmenší vzdálenost mezi dvěma nejbližšími objekty (objekt můžeme cháat jako třídu)) se vyočte odle vzorce D (S r, S s ) min. d (X k, X l ). x x x 3 x 4 x 5 x x x 3 x 4 x 5 atice vzdáleností x 3 x 3 x 33 x 34 x 35 x 4 x 4 x 43 x 44 x 45 x 5 x 5 x 53 x 54 x 55 8/

,36 atice vzdáleností,36,44 8,6 7,8,96 8,544 8,6,44 Hierarchical Cluster Analysis Comlete Linkage Amalgamation Stes Euclidean Distance Ste umber of Similarity Distance Clusters ew umber of obs. clusters level level joined cluster in new cluster 4 89.7.7 3 3 88.96.93 4 5 4 3 76.4 4.53 3 4. 8.96 4 5 Final Partition umber of clusters: umber of Within cluster Average distance aximum distance observations sum of squares from centroid from centroid Cluster 5 377.749 8.5.697 Grafické znázornění jednotlivých objektů Z grafického ohledu vylývá, že objekty ostuem nejbližšího souseda vytvářejí nejdříve dva shluky a to -3 a 4-5 dalším ostuem je objekt č. řiojen ke shluku -3 a následně tento shluk vytvoří jeden shluk se shlukem 4-5. Byly stanoveny vzdálenosti mezi jednotlivými objekty formou matice vzdálenosti a metodou shlukové analýzy klasifikovány objekty ostuem nejbližšího souseda. Příklad č.9 onitorování kvality odzemních i ovrchových vod. 9/

onitoring je rováděn na území zahrnující hutní odval (vlastník ŽDB), skládku tuhých růmyslových odadů (vlastník ŽDB) a městskou skládku komunálního odadu (vlastník BS), včetně řilehlých území. Veškeré terénní, vzorkovací a laboratorní ráce jsou finančně i časově velmi náročné. Rozhodněte, zda je možné redukovat očet odběrových míst a charakterizovat jednotlivé vrty menším očtem stanovovaných ukazatelů. Data : Bylo vzorkováno vrtů a jedna voda ovrchová. VZOREK OZ PH VODIVOS -F CL CHSK CR B BA CU FE Z S 3438OD 6,98 5,, 386, 6,,3,65,9 7,3 7,6,8,65 3439OD 3 7,5 364,,55 77, 49, 3,47,59,8 6,6,7,9,394 344OD 4 7, 49,,39 386, 53, 4,,4,38 6,,57,46,7 344OD 5 8, 366, 3,6 7, 3, 4,,69,4,67,87,7,4 344OD 7 6,57 344,,5 737, 5,,98,484,3 93, 5,97,,7 3443OD 8 7,76 35,, 666,9 68,,4,3,4 3,6 3,4,,57 3444PV 3 6,87 5,,48,9 3, 4,7,63, 4,3,5,6,438 3445PV 7,7 4, 5,75 8,8 4, 6,3,68,9,4,58,3,9 3446PV 5 7,5,,3 8,73 36,,55,69,65 9,5 3,46,377,467 3447PV 6 6,77 7,,48 8,8 7,,74,,4 74,7 4,9,45,68 3448BC 7,6 56,,38 63,8,,43,34,,5,363,48,8 345PV 6,7 366,,5 9,6 4,,48,7,54,9 4,3,45,6 345PV 7, 96,3,9,6 35, 3,86,44,8,77,3,5,49 345PV 5 7,5 9,,88 4,,,437,68,9,95,85,3,55 3453PV 9 6,77 57,7,55 75,5,,39,3,73,,6,,8 3454PV 6,34 348,,9 7, 3, 7,34,8,7,643,69,73,97 3455PV 6,9 66,4,69 63,,,949,,8,,9,8,78 3456PV 5,85 375, 4, 3, 4,,39,67,6 96,6 3,65,74,57 3457PV 4 5,67 37, 5, 4, 3,,4,59,4 53,5 4,,8,47 3458PV 3 6,68 8,,5 473,8 43,,375,84,7,984,5,36,84 3459PV 4 6,56 6,7,94 98,8 4,,436,3,3 34,9 3,75,4,8 Postu ři analýze dat : ejdříve rovedeme růzkumovou analýzu dat. ím odstraníme říadné chyby. Analýza korelační matice a matice arciálních korelačních koeficientů mezi vlastnostmi. Zvolíme metodu. V našem říadě zvolíme faktorovou analýzu a metodu hlavních komonent. Data standardizujeme, rotože nejsou vyjádřena ve stejných jednotkách. Vyočteme latentní roměnné Určíme očet signifikantních latentních roměnných. Analyzujeme matici zátěží a matici latentních roměnných. Analyzujeme fyzikálně-chemický smysl latentních roměnných. Interretujeme výsledky vzhledem k cíli analýzy. /