Univerzita Pardubice 8. licenční studium chemometrie

Podobné dokumenty
Fakulta chemicko-technologická Katedra analytické chemie. 3.2 Metody s latentními proměnnými a klasifikační metody

Univerzita Pardubice FAKULTA CHEMICKO TECHNOLOGICKÁ

3.2 Metody s latentními proměnnými a klasifikační metody

Fakulta chemicko-technologická Katedra analytické chemie. Licenční studium Statistické zpracování dat při managementu jakosti. Semestrální práce:

Metody s latentními proměnnými a klasifikační metody

Profilování vzorků heroinu s využitím vícerozměrné statistické analýzy

SEMESTRÁLNÍ PRÁCE. Určení vnitřní struktury analýzou vícerozměrných dat. Ing. Pavel Bouchalík

Univerzita Pardubice Fakulta chemicko technologická Katedra analytické chemie Licenční studium Management systému jakosti

Cvičná bakalářská zkouška, 1. varianta

3.4 Určení vnitřní struktury analýzou vícerozměrných dat

Příklad 2: Obsah PCB v játrech zemřelých lidí. Zadání: Data: Program:

Univerzita Pardubice 8. licenční studium chemometrie

Vyhodnocení průměrných denních analýz kalcinátu ananasového typu. ( Metoda hlavních komponent )

Úvod do vícerozměrných metod. Statistické metody a zpracování dat. Faktorová a komponentní analýza (Úvod do vícerozměrných metod)

Statistické metody a zpracování dat. IX Faktorová a komponentní analýza (Úvod do vícerozměrných metod) Petr Dobrovolný

UNIVERZITA PARDUBICE

(n, m) (n, p) (p, m) (n, m)

Regresní analýza 1. Regresní analýza

UNIVERZITA PARDUBICE. 4.4 Aproximace křivek a vyhlazování křivek

S E M E S T R Á L N Í

vzorek vzorek

Vliv realizace, vliv přesnosti centrace a určení výšky přístroje a cíle na přesnost určovaných veličin

Předmět: 1.1 Využití tabulkového procesu jako laboratorního deníku Přednášející: Doc. Ing. Stanislava Šimonová, Ph.D., Doc. Ing. Milan Javůrek, CSc.

Algoritmy pro shlukování prostorových dat

Úvodem Dříve les než stromy 3 Operace s maticemi

Univerzita Pardubice Chemicko-technologická fakulta Katedra analytické chemie

=10 =80 - =

Univerzita Pardubice Fakulta chemicko technologická Katedra analytické chemie Licenční studium Management systému jakosti

6. Lineární regresní modely

PRAVDĚPODOBNOST A STATISTIKA

Statistická analýza jednorozměrných dat

Semestrální práce. 3.1 Matematické principy analýzy vícerozměrných dat

Fakulta chemicko technologická Katedra analytické chemie

Vícerozměrné statistické metody

SEMESTRÁLNÍ PRÁCE 3.5 Klasifikace analýzou vícerozměrných dat

4 STATISTICKÁ ANALÝZA VÍCEROZMĚRNÝCH DAT

Tomáš Karel LS 2012/2013

UNIVERZITA PARDUBICE

Regresní a korelační analýza

Státnice odborné č. 20

Zápočtová práce STATISTIKA I

Univerzita Pardubice. Fakulta chemicko-technologická. Katedra analytické chemie. Semestrální práce. Licenční studium

Faktorová analýza (FACT)

AVDAT Mnohorozměrné metody metody redukce dimenze

Regresní a korelační analýza

1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.

UNIVERZITA PARDUBICE Fakulta chemicko-technologická Katedra analytické chemie Nám. Čs. Legií 565, Pardubice

POLYNOMICKÁ REGRESE. Jedná se o regresní model, který je lineární v parametrech, ale popisuje nelineární závislost mezi proměnnými.

1. Číselné posloupnosti - Definice posloupnosti, základní vlastnosti, operace s posloupnostmi, limita posloupnosti, vlastnosti limit posloupností,

Kombinatorika, pravděpodobnost a statistika, Posloupnosti a řady

Statistika pro geografy

Příklad 2: Určení cihlářských surovin na základě chemické silikátové analýzy

Připomenutí co je to soustava lineárních rovnic

KVALITA GELU HYDRATOVANÉHO OXIDU TITANIČITÉHO Z HLEDISKA KALCINAČNÍHO CHOVÁNÍ

TECHNICKÁ UNIVERZITA V LIBERCI. Ekonomická fakulta. Semestrální práce. Statistický rozbor dat z dotazníkového šetření školní zadání

Bodové a intervalové odhady parametrů v regresním modelu

Aproximace a vyhlazování křivek

Vícerozměrné statistické metody

Statistika. Regresní a korelační analýza Úvod do problému. Roman Biskup

Výsledky základní statistické charakteristiky

LINEÁRNÍ REGRESE. Lineární regresní model

UNIVERZITA PARDUBICE Fakulta chemicko-technologická Katedra analytické chemie Nám. Čs. Legií 565, Pardubice

Simulace. Simulace dat. Parametry

Korelační a regresní analýza. 1. Pearsonův korelační koeficient 2. jednoduchá regresní analýza 3. vícenásobná regresní analýza

Shluková analýza dat a stanovení počtu shluků

{ } ( 2) Příklad: Test nezávislosti kategoriálních znaků

AVDAT Geometrie metody nejmenších čtverců

Základy popisné statistiky

(motto: An unsophisticated forecaster uses statistics as a drunken man uses lamp-posts - for support rather than for illumination.

Parametry hledáme tak, aby součet čtverců odchylek byl minimální. Řešením podle teorie je =

Obr. 1: Vizualizace dat pacientů, kontrolních subjektů a testovacího subjektu.

Testování hypotéz o parametrech regresního modelu

Co je obsahem numerických metod?

Testování hypotéz o parametrech regresního modelu

Grafický a číselný popis rozložení dat 3.1 Způsoby zobrazení dat Metody zobrazení kvalitativních a ordinálních dat Metody zobrazení kvan

Protokol č. 5. Vytyčovací údaje zkusných ploch

Měření závislosti statistických dat

Komplexní čísla, Kombinatorika, pravděpodobnost a statistika, Posloupnosti a řady

Požadavky k písemné přijímací zkoušce z matematiky do navazujícího magisterského studia pro neučitelské obory

Univerzita Pardubice Chemicko-technologická fakulta Katedra analytické chemie

Normální (Gaussovo) rozdělení

UNIVERZITA PARDUBICE Fakulta chemicko-technologická Katedra analytické chemie. Nám. Čs. Legií 565, Pardubice. Semestrální práce ANOVA 2015

, Brno Hanuš Vavrčík Základy statistiky ve vědě

Diskriminační analýza hodnocení rozdílů mezi 2 nebo více skupinami objektů charakterizovanými více znaky

Statistická analýza dat

Univerzita Pardubice

Gymnázium Jiřího Ortena, Kutná Hora

Ing. Petr Hájek, Ph.D. Podpora přednášky kurzu Aplikace umělé inteligence

Univerzita Pardubice. Fakulta chemicko-technologická Katedra analytické chemie. Licenční studium Statistické zpracování dat

Zadání Máme data hdp.wf1, která najdete zde: Bodová předpověď: Intervalová předpověď:

Partial Least Squares regrese (PLS-R)

AVDAT Klasický lineární model, metoda nejmenších

SOLVER UŽIVATELSKÁ PŘÍRUČKA. Kamil Šamaj, František Vižďa Univerzita obrany, Brno, 2008 Výzkumný záměr MO0 FVT

Eva Fišerová a Karel Hron. Katedra matematické analýzy a aplikací matematiky Přírodovědecká fakulta Univerzity Palackého v Olomouci.

Popisná statistika kvantitativní veličiny

Statistika, Biostatistika pro kombinované studium Letní semestr 2011/2012. Tutoriál č. 4: Exploratorní analýza. Jan Kracík

odpovídá jedna a jen jedna hodnota jiných

Transkript:

Univerzita Pardubice 8. licenční studium chemometrie Statistické zpracování dat při managementu jakosti Semestrální práce Metody s latentními proměnnými a klasifikační metody Ing. Jan Balcárek, Ph.D. vedoucí Centrálních laboratoří Precheza a.s., Přerov Přerov, 20.11.2000

Příklad 1 Vypočtěte algoritmem NIPALS první latentní proměnnou z matice A: Matici před zpracováním standardizujte. Prvním krokem je výpočet vektoru aritmetických průměrů T a vektoru směrodatných odchylek s T. T = [(1+2+3)/3 (1+2+0)/3 (6+4+2)/3] = [2 1 4] s T = [s 1 s 2 s 3 ] = [1 1 2] Provedením standardizace se získá matice A: Variabilita všech sloupců je stejná, proto lze vzít za odhad hlavní komponenty libovolný sloupec, např. první: Po dosazení do vzorce t 1 T = [-1 0 1] p 1 T = (t1 T t1 ) -1 t 1 T A a znormování podle vztahu p 1 N = (p 1 T p 1 ) -1/2 p 1 2

se získá počáteční odhad vektoru vyjadřujícího míru příspěvků odhadu hlavní komponenty t 1. Následujícím dosazením do vztahu: t 1 T = (p 1 T p 1 ) -1 p 1 T A T se získá odhad hlavní komponenty t 1. Opakováním postupu se získá stabilní rozklad vektorů t 1 a p 1. Jako konvergenční kritérium se použije vztah: d = (t nové - t staré ) T (t nové - t staré ) (t T nové t nové) -1 K ukončení výpočtu je třeba dosáhnou d/n < 10-10. K dosažení této podmínky je třeba devíti kroků. Získá se následující stabilní rozklad vektorů: p 1 T = [0,62797-0,45969-0,62797] t 1 T = [-1,25594-0,45969 1,71562] Příklad 2 S použitím vhodných kritérií určete nezbytný počet latentních proměnných, bylo-li z dat určeno: PRESS(0) = S(0) = 100; PRESS(1) = 20; S(1) = 10; PRESS(2) = 3,5; S(2) = 3,4; PRESS(3) = 3,45; S(3) = 3,39. Nezbytný počet latentních proměnných se určí s pomocí Woldova kritéria. To je založeno na poměru: PRESS(P) / S R (P - 1) Je-li hodnota kritéria větší než 0,95, je zařazení další (P+1) latentní proměnné nevhodné. Po dosazení dostaneme: P = 1: PRESS(1) / S R (0) = 20 / 100 = 0,2 P = 2: PRESS(2) / S R (1) = 3,5 / 10 = 0,35 P = 3: PRESS(3) / S R (2) = 3,45 / 3,4 = 1,01 Pro P = 3 je již hodnota vyšší než 0,95, čtvrtá latentní proměnná již není významná. Příklad 3 Odhadněte hodnotu chybějícího prvku A [2,2], jestliže výpočtem z nekompletní matice byly určeny vektory p: 0,541 0,423 0,514 0,514 t: -1,340-0,735 2,076 Prvky zdrojové matice odpovídající p-té latentní proměnné lze získat ze vzorce: A p pred = tp p p T Pro odhad hodnoty prvku A[2,2] takto platí: A[2,2] = t[2] p[2] = -0,311 3

Příklad 4 Výpočtem metodou PCA byly určeny vektory: p 1 T : 0,012 0,458-0,352 0,987 p 2 T : 0,926-0,238 0,872-0,115 Vyberte reprezentativní sloupce, které nejlépe charkterizují celou matici. Míra příspěvku příslušné latentní proměnné k popisu variability sloupců zdrojové matice je představována vektory. Vektor p 1 T ukazuje, že pro zdrojovou matici je reprezentativním sloupcem sloupec čtvrtý p 1 T [4] = 0,987. V případě vektoru p 2 T je reprezentativním sloupcem sloupec první p 2 T [1] = 0,926 a sloupec třetí p 2 T [3] = 0,872. Příklad 5 Vysvětlete, proč vysvětlená variabilita je při výpočtu metodou FA vždy nižší, než při výpočtu metodou PCA. Metoda PCA je z hlediska faktorové analýzy považována za úplnou komponentní analýzu. Pomocí hlavních komponent je možné přesně reprodukovat variabilitu zdrojové matice. Metoda FA je z tohoto pohledu neúplnou komponentní analýzou, protože připouští existenci matice jedinečností, která zahrnuje část variability, která se nedá vysvětlit společnými faktory. Příklad 6 Výpočtem metodou kanonických korelací bylo zjištěno: 0,297 X 1 + 0,298 X 2 + 0,050 X 3 + 0,256 X 4 = 0,493 Y 1-0,213 Y 2 r 1 = 0,830 0,006 X 1-0,115 X 2 + 0,950 X 3 + 0,056 X 4 = 0,493 Y 1 + 0,213 Y 2 r 2 = 0,512 Vypočtěte skupinový korelační koeficient a interpretujte výsledky. Skupinový korelační koeficient se vypočte ze vztahu: R = [1 - (1 - r 1 2 ) (1 - r2 2 )] 1/2 R = [1 - (1-0,830 2 ) (1-0,512 2 )] 1/2 = 0,878 R 2 = 0,770, což znamená, že výsledek popisuje 77 % variability dat Parametr X 3 má vzhledem k ostatním parametrům zanedbatelný vliv na součet parametrů Y 1 a Y 2, ostatní parametry mají vliv zhruba stejný. Na rozdíl parametrů Y 1 a Y 2 má parametr X 3 výrazný vliv, zatímco vliv ostatních parametrů je nevýrazný. 4

5

Příklad 7 Uveďte nějaký konkrétní případ vhodný pro zpracování metodou PLS. Metoda projekce latentních struktur PLS (partial least square) je zobecněným postupem pro získání popisu vztahu mezi závislým náhodným vektorem y a vysvětlujícím náhodným vektorem x prostřednictvím latentních proměnných. Tímto postupem je možné opakováním kroků až do konvergence získat vektor latentních proměnných a vektor zátěží a nakonec i z residuální matice i matici latentních proměnných a zátěží. Jako praktickou aplikaci lze uvést vliv obsahu prvkových příměsí na optické vlastnosti pigmentového oxidu titaničitého. Souřadnice L * vyjadřuje jas pigmentu, souřadnice b * jeho žlutost. Obsah příměsí souřadnice L * souřadnice b * barvivost podtón železo ****** ****** ****** ****** chrom ****** ****** ****** ****** niob ****** ****** ****** ****** draslík ****** ****** ****** ****** fosfor ****** ****** ****** ****** zirkonium ****** ****** ****** ****** Příklad 8 Jeden objekt je charakterizován metrickými znaky (2,10), druhý (3,8), třetí (4,9), čtvrtý (10,4) a pátý (11,5). Vypočtěte matici vzdálenosti v Euklidově metrice a dokumentujte výpočet shlukování některou z používaných metod. Výsledky interpretujte graficky. Matice vzdálenosti znaků má tvar: 1 0,00 2 2,24 0,00 3 2,24 1,41 0,00 4 10,00 9,75 7,81 0,00 5 10,30 8,54 8,06 1,41 0,00 Nejmenší vzdálenost mají prvky 3-2 a 5-4. Z nich je možné vytvořit první shluky, spočítat těžiště nových shluků a spočítat těžiště nových shluků a opět vypočítat matici vzdáleností: 1 0,00 2-3 2,12 0,00 4-5 10,12 8,06 0,00 Nejmenší vzdálenost má shluk 2-3 a znak 1. Je tedy možné tyto prvky spojit do shluku a spočítat těžiště nového shluku a opět vypočítat matici vzdáleností: 6

7

1-2-3 0,00 4-5 8,75 0,00 Tento proces je možné shrnout do následujícího dendogramu: 8