Fakulta chemicko-technologická Katedra analytické chemie. 3.2 Metody s latentními proměnnými a klasifikační metody

Podobné dokumenty
Univerzita Pardubice 8. licenční studium chemometrie

Metody s latentními proměnnými a klasifikační metody

Univerzita Pardubice FAKULTA CHEMICKO TECHNOLOGICKÁ

3.2 Metody s latentními proměnnými a klasifikační metody

Příklad 2: Obsah PCB v játrech zemřelých lidí. Zadání: Data: Program:

Profilování vzorků heroinu s využitím vícerozměrné statistické analýzy

Fakulta chemicko-technologická Katedra analytické chemie. Licenční studium Statistické zpracování dat při managementu jakosti. Semestrální práce:

Cvičná bakalářská zkouška, 1. varianta

AVDAT Mnohorozměrné metody, metody klasifikace Shluková analýza

AVDAT Mnohorozměrné metody metody redukce dimenze

Shluková analýza dat a stanovení počtu shluků

Univerzita Pardubice Fakulta chemicko technologická Katedra analytické chemie Licenční studium Management systému jakosti

Fakulta chemicko technologická Katedra analytické chemie

3.4 Určení vnitřní struktury analýzou vícerozměrných dat

4 STATISTICKÁ ANALÝZA VÍCEROZMĚRNÝCH DAT

Vyhodnocení průměrných denních analýz kalcinátu ananasového typu. ( Metoda hlavních komponent )

Vícerozměrné statistické metody

Předmět: 1.1 Využití tabulkového procesu jako laboratorního deníku Přednášející: Doc. Ing. Stanislava Šimonová, Ph.D., Doc. Ing. Milan Javůrek, CSc.

Faktorová analýza (FACT)

Státnice odborné č. 20

Připomenutí co je to soustava lineárních rovnic

Příklad 2: Určení cihlářských surovin na základě chemické silikátové analýzy

Statistická analýza jednorozměrných dat

Algoritmy pro shlukování prostorových dat

Co je obsahem numerických metod?

Regresní a korelační analýza

Vícerozměrné statistické metody

Aplikovaná numerická matematika - ANM

VYBRANÉ PARTIE Z NUMERICKÉ MATEMATIKY

Úvod do vícerozměrných metod. Statistické metody a zpracování dat. Faktorová a komponentní analýza (Úvod do vícerozměrných metod)

Regresní a korelační analýza

MATEMATICKÉ PRINCIPY VÍCEROZMĚRNÉ ANALÝZY DAT

Statistické metody a zpracování dat. IX Faktorová a komponentní analýza (Úvod do vícerozměrných metod) Petr Dobrovolný

SEMESTRÁLNÍ PRÁCE. Určení vnitřní struktury analýzou vícerozměrných dat. Ing. Pavel Bouchalík

Normální (Gaussovo) rozdělení

6. Lineární regresní modely

4EK213 LINEÁRNÍ MODELY

Univerzita Pardubice Fakulta chemicko technologická Katedra analytické chemie Licenční studium Management systému jakosti

Univerzita Pardubice Chemicko-technologická fakulta Katedra analytické chemie

Zpracování náhodného vektoru. Ing. Michal Dorda, Ph.D.

Zápočtová práce STATISTIKA I

Regresní a korelační analýza

Protokol č. 1. Tloušťková struktura. Zadání:

11 Analýza hlavních komponet

Regresní analýza 1. Regresní analýza

UNIVERZITA PARDUBICE

Regresní a korelační analýza

Tomáš Karel LS 2012/2013

Charakteristika datového souboru

Parametry hledáme tak, aby součet čtverců odchylek byl minimální. Řešením podle teorie je =

Regresní a korelační analýza

Vícerozměrné statistické metody

1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.

PRAVDĚPODOBNOST A STATISTIKA

Statistické metody v ekonomii. Ing. Michael Rost, Ph.D.

Kalibrace a limity její přesnosti

(n, m) (n, p) (p, m) (n, m)

vzorek vzorek

POLYNOMICKÁ REGRESE. Jedná se o regresní model, který je lineární v parametrech, ale popisuje nelineární závislost mezi proměnnými.

AVDAT Nelineární regresní model

AVDAT Geometrie metody nejmenších čtverců

Obr. 1: Vizualizace dat pacientů, kontrolních subjektů a testovacího subjektu.

Shluková analýza příklad

1 0 0 u 22 u 23 l 31. l u11

stránkách přednášejícího.

Diskrétní náhodná veličina

Vícerozměrné statistické metody

Plánování experimentu

NÁHODNÝ VEKTOR. 4. cvičení

Úvodem Dříve les než stromy 3 Operace s maticemi

Zdrojem většiny příkladů je sbírka úloh 1. cvičení ( ) 2. cvičení ( )

Kombinatorika, pravděpodobnost a statistika, Posloupnosti a řady

S E M E S T R Á L N Í

STATISTICA Téma 6. Testy na základě jednoho a dvou výběrů

Cykly a pole

Univerzita Pardubice Chemicko-technologická fakulta Katedra analytické chemie

Iterační metody řešení soustav lineárních rovnic. 27. prosince 2011

UNIVERZITA PARDUBICE. 4.4 Aproximace křivek a vyhlazování křivek

Testování hypotéz o parametrech regresního modelu

Testování hypotéz o parametrech regresního modelu

PRAVDĚPODOBNOST A STATISTIKA

AVDAT Klasický lineární model, metoda nejmenších

TECHNICKÁ UNIVERZITA V LIBERCI

SEMESTRÁLNÍ PRÁCE 3.5 Klasifikace analýzou vícerozměrných dat

Výstupy z výukové jednotky. 2. Princip faktorové analýzy

a vlastních vektorů Příklad: Stanovte taková čísla λ, pro která má homogenní soustava Av = λv nenulové (A λ i I) v = 0.

ČESKÉ VYSOKÉ UČENÍ TECHNICKÉ V PRAZE

Faktorová analýza Osnova

Partial Least Squares regrese (PLS-R)

VÍCEKRITERIÁLNÍ ROZHODOVANÍ

Zadání Máme data hdp.wf1, která najdete zde: Bodová předpověď: Intervalová předpověď:

Faktorová analýza. PSY252 Statistická analýza dat v psychologii II

Statistika pro geografy

10. N á h o d n ý v e k t o r

(motto: An unsophisticated forecaster uses statistics as a drunken man uses lamp-posts - for support rather than for illumination.

MODEL TVÁŘECÍHO PROCESU

ANALÝZA A KLASIFIKACE DAT

UNIVERZITA PARDUBICE

Transkript:

Fakulta chemicko-technologická Katedra analytické chemie 3.2 Metody s latentními proměnnými a klasifikační metody Vypracoval: Ing. Tomáš Nekola Studium: licenční Datum: 21. 1. 2008

Otázka 1. Vypočtěte algoritmem NIPALS 1. latentní proměnnou z matice A [řádek, sloupec]: A [1,1] 1, A [2,1] 2, A [3,1] 3, A [1,2] 1, A [2,2] 2, A [3,2] 0, A [1,3] 6, A [2,3] 4, A [3,3] 2. Matici před zpracováním standardizujte. Řešení : Zdrojová matice: A Vektor aritmetických průměrů: X T Vektor směrodatných odchylek: s T Standardizace matice: A Jako první odhad vektoru t 1 byl zvolen první sloupec standardizované matice : t T 1 Dosazením do vztahu: p T 1 (t T 1 t 1 ) -1 t T 1 A a znormováním podle p N 1 (p T 1 p 1 ) -1/2 p 1 získáme počáteční odhad vektoru míry příspěvků odhadu vektoru hlavní komponenty t 1. Dosazením za t T 1 (p T 1 p 1 ) -1 p T 1 A T získáme odhad hlavní komponenty t 1. Iteračním opakováním tohoto postupu dostaneme stabilní rozklad vektorů t 1 a p 1. Konverg. kritérium má tvar : d ( t nové t staré ) T ( t nové t staré )( t T nové t nové ) -1 Výpočet se ukončí když d / N < 10-10 Výpočet vektoru p 1 : t T 1 t 1 p 1 T Normování vektoru p 1 : (p 1 T p 1 ) -1/2 0,667 0,667 p 1 N

Výpočet t 1 : p 1 T p 1 t 1 T Výpočet se opakuje. Jednotlivé vypočítané vektory jsou uvedeny v tabulce č.1. Tabulka č. 1 - Vypočítané vektory latentních proměnných a zátěží. Číslo opakování 1 2 3 4 5 6 7 8 Vektor zátěží (p 1 ) Normovaný vektor zátěží (p 1 N) Vektor latentních hodnot Po 8 krocích obdržíme zátěžový vektor p 1 T vektor latentních proměnných t 1 T Pronásobením a odečtením dle E 1 A - t 1 p 1 T získáme matici nevysvětlené variability E Závěr: Algoritmem NIPALS byla spočtena první latentní proměnná.

Otázka 2. S použitím vhodných kritérií určete nezbytný počet latentních proměnných, bylo-li z dat určeno: PRESS(0) S(0) 100, PRESS(1) 20, S(1) 10, PRESS(2) 3,5; S(2) 3,4; PRESS(3) 3,45; S(3) 3,39. Řešení : Výpočtem se má stanovit nejmenší signifikantní počet latentních proměnných, které popisují variabilitu zdrojové matice bez zahrnutí experimentální chyby. Vzhledem k znalosti hodnot PRESS(P) a S(P) můžeme pro výpočet použít test navržený Woldem. Zařazení další (P+1) latentní proměnné je nevhodné, je-li hodnota podílu PRESS(P)/S(P-1) větší než 0,95. P 1 : PRESS(1)/S(0) 0,2 P 2 : PRESS(2)/S(1) 0,35 P 3 : PRESS(3)/S(2) 1,01 (1,01>0,95) Závěr: Woldovým kritériem byl stanoven počet latentních proměnných na základě výše uvedených hodnot na 3. Čtvrtá latentní proměnná není třeba, protože hodnota kritéria vyšla větší (1,01) než 0,95. Otázka 3. Odhadněte hodnotu chybějícího prvku A[2,2], jestliže výpočtem z nekompletní matice byly určeny vektory p: 0,541 0,423 0,514 0,514, t: -1,340-0,735 2,076 Řešení : Na rekonstrukci zdrojové matice X se používají první latentní proměnné popisující podstatnou část variability zdrojové matice bez zahrnutí experimentální chyby. Tato metoda se nazývá Krátký cyklus. Prvky zdrojové matice odpovídající p-té latentní proměnné lze rekonstruovat podle vzorce A pred T p t p p p Metodou Krátký cyklus byla stanovena hodnota chybějícího prvku na pozici

A[2,2] -0,311 Otázka 4. Výpočtem metodou PCA byly určeny vektory p 1 : 0,012 0,458-0,352 0,987 p 2 : 0,926-0,238 0,872-0,115. Vypočtěte komunality a vyberte sloupec, který nejlépe charakterizuje celou matici. Řešení : Prvek matice zátěží pip příslušejícímu i-tému sloupci zdrojové matice je mírou variability tohoto sloupce popsané p-tou latentní proměnnou. Podíl variability daného sloupce popsané společnými latentními proměnnými lze pakvyjádřit jako součet příspěvků jednotlivých latentních proměnných, tedy kde h 2 i je komunalita pro i-tý sloupec P je počet latentních proměnných M je počet sloupců zdrojové matice p N ip jsou zátěže normované podle vztahu: Výpočet normovaných zátěží vektor p 1 : 0,012 0,458-0,352 0,987 vektor p 2 : 0,926-0,238 0,872-0,115 Vypočítáme normované zátěže pro jednotlivé sloupce při dvou latentních proměnných.

Výpočet komunalit Závěr: Platí pravidlo, že čím je komunalita příslušného sloupce větší, tím má sloupec vlastnosti společné s ostatními sloupci zdrojové matice. V našem případě čtvrtý sloupec nejlépe charakterizuje zdrojovou matici. Otázka 5. Vysvětlete, proč vysvětlená variabilita je při výpočtu metodou FA vždy nižší, než při výpočtu metodou PCA. Řešení : Rozdíl spočívá ve způsobu rozkladu variability zdrojové matice. V případě metody PCA je model postaven na S2 H2, (S2 - diagonální matice rozptylů manifestních proměnných, H2 - diagonální matice komunalit), který předpokládá, že lze variabilitu zdrojové matice reprodukovat přesně. U metody FA platí, že variabilita je rozložena do dvou složek S2 H2 + L2, (L2 - matice jedinečností, která představuje část variability nevysvětlitelné společnými faktory). Tím, že u metody FA předpokládáme existence nevysvětlené variability dospíváme vždy k nižším hodnotám vysvětlené variability než u metody PCA. Otázka 6. Výpočtem metodou kanonických korelací bylo zjištěno: 0,297X 1 + 0,298X 2 + 0,050X 3 + 0,256X 4 0,493Y 1 0,213Y 2 r 1 0,830 0,006X 1-0,115X 2 + 0,950X 3 + 0,056X 4 0,493Y 1 + 0,213Y 2 r 1 0,512 Vypočtěte skupinový korelační koeficient a interpretujte výsledky.

Řešení : Skupinový korelační koeficient R vypočteme ze vztahu R 2 1 - (1 - r 2 1 )(1 r 2 2 ) R 2 1 - (1 0,830 2 )(1 0,512 2 ) 0,7704 R 2 0,7704 Závěr: Matice X je tvořena 4 sloupci a matice Y dvěmi. Skupinový korelační koeficient má hodnotu 0,7704, což znamená, že 77 % variability dat jsme vysvětlili kanonickými korelačním koeficienty. S růstem proměnných X 1, X 2 a X 4, které mají stejný vliv, klesá význam proměnné Y 2 a roste významně proměnná Y 1. S nadbytkem proměnné X 3 se zvyšuje proměnná Y 2. Otázka 7. Uveďte nějaký konkrétní příklad vhodný pro zpracování metodou PLS. Metoda projekce latentních struktur PLS je zobecněným postupem pro získání popisu vztahu mezi závislým náhodným vektorem y a vysvětlujícím náhodným vektorem x prostřednictvím latentních proměnných. Tímto postupem je možné opakováním kroků až do konvergence získat vector latentních proměnných a vektor zátěží a nakonec i z residuální matice i matici latentních proměnných a zátěží. Praktickým příkladem může být sledování chyb na tester IPTE v čase u různých typů BMW radii:

Chyby na IPTE BMW RCD 114 REFERENCE VAL. FM FL BMW RCD 121 BMW RCD 114 BMW RCD 121 REFERENCE VAL. FM FL PROCESS DATA START BMW RCD 114 BMW RCD 121 PROCESS DATA START DIFF. F L/R DIFF. F L/R 40/2007 0 3 1 2 1 0 41/2007 1 1 7 1 0 1 42/2007 0 2 1 0 1 3 43/2007 1 3 1 0 0 0 44/2007 2 4 3 2 0 0 45/2007 3 2 1 2 0 1 46/2007 1 6 5 2 0 2 47/2007 1 2 3 1 1 0 48/2007 2 0 0 0 0 0 49/2007 3 31 2 0 0 13 50/2007 3 5 1 0 3 0 51/2007 2 2 5 0 0 3 52/2007 0 0 0 0 0 0 1/2008 53 2 1 0 0 0 2/2008 3 4 22 0 15 1 3/2008 1 14 7 1 0 15 Otázka 8. Jeden objekt je charakterizován metrickými znaky (2,10), druhý (3,8), třetí (4,9), čtvrtý (10,4) a pátý (11,5). Vypočtěte matici vzdálenosti v Euklidově metrice a dokumentujte výpočet shlukování některou z používaných metod. Výsledky interpretujte graficky. Řešení : Postupy aglomerativní shlukové analýzy lze neuspořádanou množinu objektů charakterizovaných náhodnými vektory postupně uspořádat do tříd až ke konečnému stavu, kdy se všechny objekty spojí do jediné třídy. Výše uvedené vlastnosti objektů (blízkost či podobnost) posuzujeme podle vzdálenosti objektů v p-rozměrném prostoru znaků nejjednodušším typem Euklidové metriky, která je definovaná vztahem d E (X k, X l ), kde d E je vzdálenost mezi objekty X k a X l, jsou souřadnice objektů v P-rozměrném prostoru. Vzdálenost určená podle zásady nejbližšího souseda (nejbližší jsou ty třídy, které mají nejmenší vzdálenost mezi dvěma nejbližšími objekty (objekt můžeme chápat jako třídu)) se vypočte podle vzorce D NN (S r, S s ) min. d(x k, X l ).

Matice vzdáleností Hierarchical Cluster Analysis Complete Linkage Amalgamation Steps Euclidean Distance Step Number of Similarity Distance Clusters New Number of obs. clusters level level joined cluster in new cluster 1 4 89.07 2.072 2 3 2 2 2 3 88.96 2.093 4 5 4 2 3 2 76.14 4.523 1 2 1 3 4 1 0.00 18.960 1 4 1 5 Final Partition Number of clusters: 1 Number of Within cluster Average distance Maximum distance observations sum of squares from centroid from centroid Cluster1 5 377.749 8.512 10.697

Grafické znázornění jednotlivých objektů Z grafického pohledu vyplývá, že objekty postupem nejbližšího souseda vytvářejí nejdříve dva shluky a to 2-3 a 4-5 dalším postupem je objekt č.1 připojen ke shluku 2-3 a následně tento shluk vytvoří jeden shluk se shlukem 4-5. Závěr: Byly stanoveny vzdálenosti mezi jednotlivými objekty formou matice vzdálenosti a metodou shlukové analýzy klasifikovány objekty postupem nejbližšího souseda. Otázka 9. Popište slovně postup aplikace metod s latentními proměnnými nebo klasifikačních metod na nějakém konkrétním příkladu ze své praxe. Postup při analýze dat : Praktickým příkladem může být sledování chyb na tester IPTE v čase u různých typů BMW radii (viz Otázka 7.):

1. Nejdříve provedeme průzkumovou analýzu dat. Tím odstraníme případné chyby. 2. Analýza korelační matice a matice parciálních korelačních koeficientů mezi vlastnostmi. 3. Zvolíme metodu. V našem případě zvolíme faktorovou analýzu a metodu hlavních komponent. 4. Data standardizujeme, protože nejsou vyjádřena ve stejných jednotkách. 5. Vypočteme latentní proměnné 6. Určíme počet signifikantních latentních proměnných. 7. Analyzujeme matici zátěží a matici latentních proměnných. 8. Analyzujeme fyzikálně-chemický smysl latentních proměnných. 9. Interpretujeme výsledky vzhledem k cíli analýzy.