Univerzita Pardubice. Fakulta chemicko-technologická. Katedra analytické chemie. Semestrální práce. Licenční studium

Podobné dokumenty
Univerzita Pardubice Chemicko-technologická fakulta Katedra analytické chemie

Semestrální práce. 3.1 Matematické principy analýzy vícerozměrných dat

Počítačová analýza vícerozměrných dat v oborech přírodních, technických a společenských věd

MATEMATICKÉ PRINCIPY VÍCEROZMĚRNÉ ANALÝZY DAT

ÚLOHA Č. 9 STANOVENÍ KYSELOSTI MEDU MATERIÁLY KE STUDIU LITERÁRNÍ ZDROJ:

Univerzita Pardubice Fakulta chemicko technologická Katedra analytické chemie Licenční studium Management systému jakosti

S E M E S T R Á L N Í

SEMESTRÁLNÍ PRÁCE. Určení vnitřní struktury analýzou vícerozměrných dat. Ing. Pavel Bouchalík

Vyhodnocení průměrných denních analýz kalcinátu ananasového typu. ( Metoda hlavních komponent )

Profilování vzorků heroinu s využitím vícerozměrné statistické analýzy

Faktorová analýza (FACT)

PŘÍKLAD 4.5 Chromatografická analýza farmakologických sloučenin Byly měřeny hodnoty R F pro 20 sloučenin s 18 eluenty. Žádné eluční činidlo však nepro

Odhalení skryté struktury a vnitřních vazeb dat metodami vícerozměrné statistické analýzy

UNIVERZITA PARDUBICE Fakulta chemicko-technologická Katedra analytické chemie Nám. Čs. Legií 565, Pardubice

Fakulta chemicko technologická Katedra analytické chemie

AVDAT Mnohorozměrné metody metody redukce dimenze

Počítačová analýza vícerozměrných dat

3.4 Určení vnitřní struktury analýzou vícerozměrných dat

Fakulta chemicko-technologická Katedra analytické chemie. Licenční studium Statistické zpracování dat při managementu jakosti. Semestrální práce:

Univerzita Pardubice 8. licenční studium chemometrie

Regresní analýza 1. Regresní analýza

Úvod do vícerozměrných metod. Statistické metody a zpracování dat. Faktorová a komponentní analýza (Úvod do vícerozměrných metod)

1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.

Kanonická korelační analýza

2.6. VLASTNÍ ČÍSLA A VEKTORY MATIC

Statistické metody a zpracování dat. IX Faktorová a komponentní analýza (Úvod do vícerozměrných metod) Petr Dobrovolný

Všechno, co jste kdy chtěli vědět o maticích, ale báli jste se zeptat

Počítačová analýza vícerozměrných dat v oborech přírodních, technických a společenských věd

UNIVERZITA PARDUBICE Fakulta chemicko-technologická Katedra analytické chemie Nám. Čs. Legií 565, Pardubice

vzorek vzorek

Analýza hlavních komponent

Matematický ústav Slezské univerzity v Opavě Učební texty k přednášce ALGEBRA II, letní semestr 2000/2001 Michal Marvan. 14.

Regresní a korelační analýza

Příklad 2: Obsah PCB v játrech zemřelých lidí. Zadání: Data: Program:

Regresní a korelační analýza

Vícerozměrné statistické metody

SEMESTRÁLNÍ PRÁCE 3.5 Klasifikace analýzou vícerozměrných dat

Podobnost matic. Definice 8.6. Dány matice A, B M n (C). Jestliže existuje regulární matice P M n (C) tak,

UNIVERZITA PARDUBICE Fakulta chemicko-technologická Katedra analytické chemie Nám. Čs. Legií 565, Pardubice

Tvorba grafů a diagramů v ORIGIN

Matematika 1 MA1. 2 Determinant. 3 Adjungovaná matice. 4 Cramerovo pravidlo. 11. přednáška ( ) Matematika 1 1 / 29

9.1 Definice a rovnice kuželoseček

ANOVA. Semestrální práce UNIVERZITA PARDUBICE. Fakulta chemicko-technologická Katedra analytické chemie

Statistika (KMI/PSTAT)

[1] Motivace. p = {t u ; t R}, A(p) = {A(t u ); t R} = {t A( u ); t R}

Úlohy k přednášce NMAG 101 a 120: Lineární algebra a geometrie 1 a 2,

Náhodné veličiny jsou nekorelované, neexistuje mezi nimi korelační vztah. Když jsou X; Y nekorelované, nemusí být nezávislé.

UNIVERZITA PARDUBICE

Vlastní čísla a vlastní vektory

y Obrázek 1.26: Průměrová rovina válcové plochy

INDUKTIVNÍ STATISTIKA

Plánování experimentu

MĚŘENÍ STATISTICKÝCH ZÁVISLOSTÍ

Faktorová analýza Osnova

Vlastní čísla a vlastní vektory

1. Číselné posloupnosti - Definice posloupnosti, základní vlastnosti, operace s posloupnostmi, limita posloupnosti, vlastnosti limit posloupností,

Časové řady, typy trendových funkcí a odhady trendů

Univerzita Pardubice SEMESTRÁLNÍ PRÁCE. Tvorba nelineárních regresních modelů v analýze dat. 2015/2016 RNDr. Mgr. Leona Svobodová, Ph.D.

PROSTORY SE SKALÁRNÍM SOUČINEM. Definice Nechť L je lineární vektorový prostor nad R. Zobrazení L L R splňující vlastnosti

Vlastní číslo, vektor

Med V medu a mléku nejvíce léku

vyjádřete ve tvaru lineární kombinace čtverců (lineární kombinace druhých mocnin). Rozhodněte o definitnosti kvadratické formy κ(x).

Výstupy z výukové jednotky. 2. Princip faktorové analýzy

Tematický plán Obor: Informační technologie. Vyučující: Ing. Joanna Paździorová

Optimalizace parametrů hmotnostního detektoru (MS/MS) s využitím vícerozměrných statistických analýz

1 Projekce a projektory

Mgr. Karla Hrbáčková, Ph.D. Základy kvantitativního výzkumu

Fakulta chemicko-technologická Katedra analytické chemie. 3.2 Metody s latentními proměnnými a klasifikační metody

2.6. Vlastní čísla a vlastní vektory matice

Základy maticového počtu Matice, determinant, definitnost

Univerzita Pardubice SEMESTRÁLNÍ PRÁCE. Tvorba lineárních regresních modelů. 2015/2016 RNDr. Mgr. Leona Svobodová, Ph.D.

2.2 Kalibrace a limity její p esnosti

Testování hypotéz o parametrech regresního modelu

Michal Zamboj. January 4, 2018

Linearní algebra příklady

Sluneční energii. zabudují rostliny do cukru

Testování hypotéz o parametrech regresního modelu

RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr.

Časové řady, typy trendových funkcí a odhady trendů

Závislost obsahu lipoproteinu v krevním séru na třech faktorech ( Lineární regresní modely )

Kalibrace a limity její přesnosti

Faktorová analýza. Ekonometrie. Jiří Neubauer. Katedra ekonometrie FVL UO Brno kancelář 69a, tel

Semestrální práce. 2. semestr

Úvodem Dříve les než stromy 3 Operace s maticemi

Maticí typu (m, n), kde m, n jsou přirozená čísla, se rozumí soubor mn veličin a jk zapsaných do m řádků a n sloupců tvaru:

Srovnání senzorických a chemických vlastností cizokrajných a domácích medů. Bc. Jarmila Sekyrová

AVDAT Vektory a matice

UNIVERZITA PARDUBICE Fakulta chemicko-technologická Katedra analytické chemie

Analýzy regionálního trhu práce v České republice Analysis of regional labour market in Czech Republic

UNIVERZITA PARDUBICE FAKULTA EKONOMICKO SPRÁVNÍ BAKALÁŘSKÁ PRÁCE 2008 PETR ŠIMER

Stanovení manganu a míry přesnosti kalibrace ( Lineární kalibrace )

ZX510 Pokročilé statistické metody geografického výzkumu

Úlohy nejmenších čtverců

Regresní a korelační analýza

Regresní a korelační analýza

NÁHODNÝ VEKTOR. 4. cvičení

MÍRY ZÁVISLOSTI (KORELACE A REGRESE)

VYSOKÁ ŠKOLA BÁŇSKÁ TECHNICKÁ UNIVERZITA OSTRAVA FAKULTA METALURGIE A MATERIÁLOVÉHO INŽENÝRSTVÍ KATEDRA KONTROLY A ŘÍZENÍ JAKOSTI

Analýza hlavních komponent - PCA

Transkript:

Univerzita Pardubice Fakulta chemicko-technologická Katedra analytické chemie Semestrální práce Licenční studium Statistické zpracování dat při kontrole a řízení jakosti předmět 3.1. Matematické principy analýzy vícerozměrných dat leden 2008 Policie ČR, Odbor kriminalistické techniky a expertiz, České Budějovice Ing. Petr Texl 1

Obsah strana Otázka 1 1. Vlastní čísla a vlastní vektory, determinant, stopa a odmocnina matice 3 (jednoduchá matice) Otázka 2 2. Projekce do prvních dvou komponent, dvojný graf 5 (Roztřídění evropských druhových medů do skupin) 2.1. Zadání 5 2.2. Analýza hlavních komponent (PCA) 8 2.3. Shrnutí 10 2

Otázka 1 Najděte vlastní čísla a vlastní vektory, determinant, stopu a odmocninu matice: A = A. Determinant matice (A) Determinant je definován pouze pro čtvercové matice. det (A) = 1 det - 2 det + 3 det det (A) = 1 76-2 14 + 3 (-20) det ( A ) = - 12 B. Stopa matice (A) Stopa tr (A) čtvercové matice A je součet jejích diagonálních elementů. tr (A) = ii tr (A) = 1 + 8 + 10 tr (A) = 19 C. Vlastní čísla matice (A) Nechť A je čtvercová matice a uvažujeme soustavu rovnic Av = λv. Hodnota λ, pro kterou má tato soustava řešení (v 0), se nazývá vlastní číslo matice A. Platí: Av = λv Av λv = 0 (A λe) = 0 E je jednotková matice Tato lineární soustava rovnic má řešení pokud je det (A λe) = 0. Pro výpočet vlastních čísel je třeba tuto rovnici řešit. det (A - λe) = det - λ = det det (A λe) = 1 det - 2 det + 3 det det (A λe) = (8 λ) (10 λ) 4 2(20-2 λ 6) + 3(4-24 + 3 λ) 3

det (A λe) = λ 2-5 λ 12 Vlastní čísla potom získáme řešením kořenů této kvadratické rovnice. x 1 = 6,772 x 2 = - 1,772 Hodnoty x 1 a x 2 představují vlastní čísla matice. 4

Otázka 2 2.1. Roztřídění evropských druhových medů do skupin Zadání: Je třeba roztřídit čisté druhové evropské medy dle fyzikálně-chemických parametrů. Podle rostlinného původu se dělí medy na nektarové a medovicové. Nektarové medy vznikají ze sladkých šťáv z nektarií rostlin působením včel. Medovicové medy vznikají také působením včel. Ty ale zpracovávají sladkou šťávu (medovici), kterou vylučují tzv. producenti medovice (mšice, červci a mery) zpravidla na listech a jehličí. I když je včela medonosná přísně florokonstantní (nalétává pouze na jeden druh rostliny), získat čistý druhový med lze pouze ve velkých lánech a lesních monokulturách. Většinou včelaři získávají medy smíšené s převahou určitého druhu. Čisté druhové medy slouží jako určité standardy s definovanými fyzikálně-chemickými vlastnostmi. Mezi vlastnosti, které se u medu zjišťují patří: barva (Pfundova stupnice), elektrická vodivost, optická otáčivost, kyselost, aktivita enzymu diastázy, obsah fruktózy, glukózy a vody. Důležité ukazatelé jsou dále: součet obsahu glukózy a fruktózy, poměr obsahu fruktózy a glukózy a poměr glukózy a vody. Data: Použita data medy01 Složení evropských druhových medů (Persano Oddo a Piro, 2004) Zdroj Barva Vodivost Rotace Kyselost Diastáza Fruktóza Glukóza Fru+Gl (mm Pfund) (ms/cm) (stupně) (meq/kg) (DN) (g/100 g) (g/100 g) (g/100 g) Fru/Gl Gl/voda Akát Robinia 12,9 0,16-16,6 11,2 10,5 42,7 26,5 69,2 1,61 1,57 Blahovičník Eucalyptus 54,2 0,48-13,3 19,4 25,5 39,1 33,0 72,1 1,18 2,14 Citrusy Citrus 15,0 0,19-13,4 14,3 9,6 38,7 31,4 70,1 1,23 1,92 Kaštan Castanea 87,9 1,38-16,7 13,0 24,3 40,8 27,9 68,7 1,46 1,62 Levandule Lavandula 33,3 0,21-8,3 17,3 14,1 36,0 30,6 66,6 1,18 1,88 Lípa Tilia 33,3 0,62-12,5 20,8 16,8 37,5 31,9 69,4 1,18 1,93 Medovice Metcalfa 100,8 1,69 17,5 37,2 39,3 31,6 23,9 55,5 1,32 1,51 Medovice 86,0 1,20 13,9 26,0 22,6 32,5 26,2 58,7 1,24 1,61 Pampeliška Taraxacum Pěnišník Rhododendron Řepka Brassica Slunečnice Helianthus Vřes Calluna 56,6 0,51-10,0 10,9 11,3 37,4 38,0 75,4 0,98 2,33 1,4 0,23-5,8 13,3 12,1 39,1 30,4 69,5 1,29 1,79 26,2 0,19-10,3 22,1 26,9 38,3 40,5 78,8 0,95 2,37 52,4 0,34-17,5 23,1 20,8 39,2 37,4 76,6 1,05 2,10 76,9 0,73-32,1 11,1 23,4 40,8 32,5 73,3 1,26 1,76 5

Program: program STATISTICA Řešení: Odhalení struktury ve znacích a objektech 1,8 Bodový graf (01medy.sta 11v*13c) Vodivost = -0,0861+0,0142*x; 0,95 Int.spol. 1,6 1,4 1,2 1,0 Vodivost 0,8 0,6 0,4 0,2 0,0-20 0 20 40 60 80 100 120 Barva Rozptylový 2D-diagram Vodivost Barva (STATISTICA) ukazuje pozitivní korelaci 44 Bodový graf (01medy.sta 11v*13c) Fruktóza = 35,9085-0,2149*x; 0,95 Int.spol. 42 40 38 36 Fruktóza 34 32 30-40 -30-20 -10 0 10 20 Rotace Rozptylový 2D-diagram Fruktóza Rotace (STATISTICA) naznačuje negativní korelaci 6

3D bodový graf (01medy.sta 11v*13c) Rozptylový 3D-diagram znaků Rotace Fruktóza Kyselost (STATISTICA) Graf naznačuje silnou korelaci a je zde patrná nová souřadnicová osa hlavní komponenta (viz. metoda PCA) Barva Korelace (01medy.sta 11s*13ř) Vodivost Rotace Kyselost Diastáza Fruktóza Glukóza Fru+Glu Fru/Glu Glu/voda Graf korelační matice (STATISTICA) 7

2.2. Analýza hlavních komponent (PCA) Cílem metody je transformace dat z původních proměnných do menšího počtu latentních proměnných. Tyto proměnné mají vhodnější vlastnosti, je jich výrazně méně, vystihují téměř celou proměnlivost původních proměnných a jsou vzájemně nekorelované. Latentní proměnné jsou označovány jako hlavní komponenty Korelace (01medy.s ta) Označ. korelace jsou významné na hlad. p <,05000 N=13 (Celé případy vynechány u ChD) Proměnná Barva Vodivost Rotace Kyselost Diastáza Fruktóza Glukóza Fru+Glu Fru/Glu Glu/voda Barva Vodivost Rotace Kyselost Diastáza Fruktóza Glukóza Fru+Glu Fru/Glu Glu/voda 1,00 0,89 0,32 0,46 0,73-0,46-0,31-0,46 0,06-0,32 0,89 1,00 0,52 0,54 0,72-0,54-0,58-0,69 0,28-0,56 0,32 0,52 1,00 0,76 0,40-0,89-0,47-0,78 0,00-0,31 0,46 0,54 0,76 1,00 0,76-0,80-0,25-0,57-0,17-0,17 0,73 0,72 0,40 0,76 1,00-0,47-0,19-0,36-0,05-0,18-0,46-0,54-0,89-0,80-0,47 1,00 0,30 0,70 0,27 0,16-0,31-0,58-0,47-0,25-0,19 0,30 1,00 0,89-0,83 0,95-0,46-0,69-0,78-0,57-0,36 0,70 0,89 1,00-0,49 0,78 0,06 0,28 0,00-0,17-0,05 0,27-0,83-0,49 1,00-0,86-0,32-0,56-0,31-0,17-0,18 0,16 0,95 0,78-0,86 1,00 Matice korelačních koeficientů znaků zdrojové matice dat medy01 (STATISTICA) (červeně jsou vyznačeny statisticky významné korelace, kde hodnota p < 0,05. Pořadí vl.č. 1 2 3 4 5 6 7 8 9 Vlastní čís la korelační matice a s ouvisející s tatistiky (01medy.s ta) Pouze aktiv. proměnné vl. číslo % celk. Kumulativ. Kumulativ. rozptylu vl. číslo % 5,429321 54,29321 5,42932 54,2932 2,590613 25,90613 8,01993 80,1993 1,254380 12,54380 9,27431 92,7431 0,449557 4,49557 9,72387 97,2387 0,131389 1,31389 9,85526 98,5526 0,057912 0,57912 9,91317 99,1317 0,049152 0,49152 9,96232 99,6232 0,034074 0,34074 9,99640 99,9640 0,003602 0,03602 10,00000 100,0000 Tabelární podoba Cattelova indexového diagramu vlastních čísel (STATISTICA) První dvě vlastní čísla pokrývají téměř 80,2 % proměnlivosti v datech. 8

6 5 54,29% Vlastní čísla korelační matice Pouze aktiv. proměnné 4 3 25,91% 2 Vlast. číslo 1 0 12,54% 4,50% 1,31%,58%,49%,34%,04% -1-1 0 1 2 3 4 5 6 7 8 9 10 11 12 Pořadí vl. čísla Cattelův indexový graf úpatí vlastních čísel Scree Plot zdrojové matice dat medy01 (STATISTICA) Podle Kaiserova kriteria 1.0 první tři hlavní komponenty dosahují vlastních čísel větších než 1.0 - tzn. že zdrojová matice je rovna 3. (Největší vlastní číslo pokrývá 54,29 % proměnlivosti v datech. Druhé největší vlastní číslo pokrývá 25,91 % proměnlivosti, což je dohromady 80,20 %.) Protože graf nevykazuje znatelný zlom (koleno) mělo by se zahrnout i třetí největší vlastní číslo s pokrytím 12,54 % proměnlivosti. V tomto případě by bylo celkové pokrytí proměnlivosti v datech 92,74 %. 9

1,0 0,5 0,0 Kyselost Diastáza Rotace Barva Vodivost Glu/voda Glukóza Fru+Glu Faktor 2 : 25,91% -0,5-1,0 Fruktóza Fru/Glu -1,0-0,5 0,0 0,5 1,0 Faktor 1 : 54,29% Graf komponentních vah znaků 1. a 2. hlavní komponenty (STATISTICA) 2.3. Shrnutí (popis grafu komponentních vah znaků 1. a 2. hlavní komponenty Souřadnice obou hlavních komponent jednotlivých znaků představují vlastně korelační koeficient mezi znakem a hlavní komponentou. Záporné znaménko je u negativně korelovaných znaků (čím více tím méně) s 1. hlavní komponentou a to jsou znaky Vodivost, Barva, Rotace, Diastáza a Kyselost. Kladné je u pozitivně korelovaných znaků (čím více tím více) s 1. hlavní komponentou a to jsou znaky Fruktóza, Glukóza, Glu/voda, Fru+Glu. 2. hlavní komponenta negativně koreluje se znaky Fruktóza a Fru/Glu. Znaky blízko sebe značí, že znaky spolu korelují (Rotace-Barva, Kyselost-Diastáza, Glu/voda-Glukóza). Znaky vzdálené nekorelují a nejsou si podobné. Čím více se blíží poloha znaku k jednotkové kružnici, tím lepší je jeho zobrazení v tomto systému hlavních komponent. Komponentní průvodiče 3 znaků se dotýkají jednotkové korelační kružnice, 7 znaků dosahuje téměř hodnoty korelace 0,8 až 0,9. 10

4 Popisná proměnná: Zdroj medu Řepka Faktor 2: 25,91% 2 0-2 -4 Metcalfa Medovice Kaštan Blahovičník Lípa Levandule Slunečnice Pampeliška Vřes Citrusy Pěnišník Akát -6-4 -2 0 2 Faktor 1: 54,29% Rozptylový graf komponentního skóre komponenty 1 a 2 (STATISTICA) Graf ukazuje na komponentní skóre všech zdrojů medu. Jsou patrné shluky druhových medů podle zdroje (rostliny). Medovicové medy (Medovice a Metcalfa) jsou negativně korelovány s 1. hlavní komponentou. Podobné nektarové medy (Řepka, Slunečnice, Pampeliška) jsou pozitivně korelovány s 1. hlavní komponentou. Zajímavá je skupina květových medů (Pampeliška, Řepka, Slunečnice), ve které medy velice rychle krystalizují oproti akátu, který nekrystalizuje vůbec. Med z akátu je zřetelně oddělen od ostatních medů (liší se největším obsahem Fruktózy, nejnižším obsahem Glukózy a nejnižším poměrem Glukóza/voda). 11