CHEMOMETRIKA a STATISTIKA. Prozatímní učební text vybrané příklady (srpen 2012) Miloslav Suchánek



Podobné dokumenty
Regresní a korelační analýza

Regresní a korelační analýza

Regresní analýza 1. Regresní analýza

Testování hypotéz o parametrech regresního modelu

Testování hypotéz o parametrech regresního modelu

Maticí typu (m, n), kde m, n jsou přirozená čísla, se rozumí soubor mn veličin a jk zapsaných do m řádků a n sloupců tvaru:

Regresní analýza. Ekonometrie. Jiří Neubauer. Katedra ekonometrie FVL UO Brno kancelář 69a, tel

1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.

2 Zpracování naměřených dat. 2.1 Gaussův zákon chyb. 2.2 Náhodná veličina a její rozdělení

Náhodné veličiny jsou nekorelované, neexistuje mezi nimi korelační vztah. Když jsou X; Y nekorelované, nemusí být nezávislé.

Matematika B101MA1, B101MA2

AVDAT Klasický lineární model, metoda nejmenších

AVDAT Nelineární regresní model

Pravděpodobnost v závislosti na proměnné x je zde modelován pomocí logistického modelu. exp x. x x x. log 1

Základy maticového počtu Matice, determinant, definitnost

10. Soustavy lineárních rovnic, determinanty, Cramerovo pravidlo

7. Analýza rozptylu.

Lineární regrese. Komentované řešení pomocí MS Excel

Základy matematiky pro FEK

Odhad parametrů N(µ, σ 2 )

KIV/ZI Základy informatiky MS EXCEL MATICOVÉ FUNKCE A SOUHRNY

12. Determinanty. 12. Determinanty p. 1/25

0.1 Úvod do lineární algebry

Statistická analýza jednorozměrných dat

SOLVER UŽIVATELSKÁ PŘÍRUČKA. Kamil Šamaj, František Vižďa Univerzita obrany, Brno, 2008 Výzkumný záměr MO0 FVT

AVDAT Vektory a matice

Tomáš Karel LS 2012/2013

DEFINICE Z LINEÁRNÍ ALGEBRY

Matice. Modifikace matic eliminační metodou. α A = α a 2,1, α a 2,2,..., α a 2,n α a m,1, α a m,2,..., α a m,n

Tomáš Karel LS 2012/2013

Vektory a matice. Obsah. Aplikovaná matematika I. Carl Friedrich Gauss. Základní pojmy a operace

0.1 Úvod do lineární algebry

Statistická analýza jednorozměrných dat

Učební texty k státní bakalářské zkoušce Matematika Vlastní čísla a vlastní hodnoty. študenti MFF 15. augusta 2008

SEMESTRÁLNÍ PRÁCE. Leptání plasmou. Ing. Pavel Bouchalík

Přílohy. Příloha 1. Obr. P1.1 Zadání úlohy v MS Excel

Operace s maticemi

Vlastní (charakteristická) čísla a vlastní (charakteristické) Pro zadanou čtvercovou matici A budeme řešit maticovou

Statistika. Regresní a korelační analýza Úvod do problému. Roman Biskup

PRAVDĚPODOBNOST A STATISTIKA

Obr. P1.1 Zadání úlohy v MS Excel

Matematika 1 MA1. 2 Determinant. 3 Adjungovaná matice. 4 Cramerovo pravidlo. 11. přednáška ( ) Matematika 1 1 / 29

Téma 9: Vícenásobná regrese

MÍRY ZÁVISLOSTI (KORELACE A REGRESE)

ANALYTICKÁ GEOMETRIE V ROVINĚ

1 Linearní prostory nad komplexními čísly

Aplikovaná numerická matematika

Parametry hledáme tak, aby součet čtverců odchylek byl minimální. Řešením podle teorie je =

Příklad 1. Korelační pole. Řešení 1 ŘEŠENÉ PŘÍKLADY Z MV2 ČÁST 13

MATICE. a 11 a 12 a 1n a 21 a 22 a 2n A = = [a ij]

Protokol č. 1. Tloušťková struktura. Zadání:

5 Vícerozměrná data - kontingenční tabulky, testy nezávislosti, regresní analýza

Cvičení 5 - Inverzní matice

Lineární algebra. Matice, operace s maticemi

AVDAT Geometrie metody nejmenších čtverců

Číselné vektory, matice, determinanty

Regresní a korelační analýza

13.1. Úvod Cílem regresní analýzy je popsat závislost hodnot znaku Y na hodnotách

Inovace bakalářského studijního oboru Aplikovaná chemie

Statistika (KMI/PSTAT)

Matematika (CŽV Kadaň) aneb Úvod do lineární algebry Matice a soustavy rovnic

Operace s maticemi. 19. února 2018

1 Vektorové prostory.

Simulace. Simulace dat. Parametry

Hisab al-džebr val-muqabala ( Věda o redukci a vzájemném rušení ) Muhammada ibn Músá al-chvárizmího (790? - 850?, Chiva, Bagdád),

11 Analýza hlavních komponet

4EK211 Základy ekonometrie

Úvod do lineární algebry

LINEÁRNÍ MODELY. Zdeňka Veselá

Jednofaktorová analýza rozptylu

Regrese. 28. listopadu Pokud chceme daty proložit vhodnou regresní křivku, musíme obvykle splnit tři úkoly:

MENDELOVA UNIVERZITA V BRNĚ LDF MT MATEMATIKA VEKTORY, MATICE

MENDELOVA UNIVERZITA V BRNĚ LDF MT MATEMATIKA VEKTORY, MATICE

Metoda nejmenších čtverců Michal Čihák 26. listopadu 2012

Zdrojem většiny příkladů je sbírka úloh 1. cvičení ( ) 2. cvičení ( )

(Cramerovo pravidlo, determinanty, inverzní matice)

Matematika. Kamila Hasilová. Matematika 1/34

V praxi pracujeme s daty nominálními (nabývají pouze dvou hodnot), kategoriálními (nabývají více

KGG/STG Statistika pro geografy

Derivace funkcí více proměnných

Odhad parametrů N(µ, σ 2 )

PRAVDĚPODOBNOST A STATISTIKA

PRAVDĚPODOBNOST A STATISTIKA

Determinanty. Obsah. Aplikovaná matematika I. Pierre Simon de Laplace. Definice determinantu. Laplaceův rozvoj Vlastnosti determinantu.

Základy navrhování průmyslových experimentů DOE

POLYNOMICKÁ REGRESE. Jedná se o regresní model, který je lineární v parametrech, ale popisuje nelineární závislost mezi proměnnými.

Lineární algebra Operace s vektory a maticemi

1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.

LINEÁRNÍ REGRESE. Lineární regresní model

Všechno, co jste kdy chtěli vědět o maticích, ale báli jste se zeptat

6. Lineární regresní modely

Stavový model a Kalmanův filtr

Bodové a intervalové odhady parametrů v regresním modelu

8.3). S ohledem na jednoduchost a názornost je výhodné seznámit se s touto Základní pojmy a vztahy. Definice

VI. Maticový počet. VI.1. Základní operace s maticemi. Definice. Tabulku

Plánování experimentu

1. Matice a maticové operace. 1. Matice a maticové operace p. 1/35

Stěžejní funkce MS Excel 2007/2010, jejich ovládání a možnosti využití

Transkript:

CHEMOMETRIKA a STATISTIKA Prozatímní učební text vybrané příklady (srpen 01) Miloslav Suchánek

Úkol č. 1 Maticové operace s využitím EXCELu V EXCELu jsou dvě důležité maticové operace, které nám pomohou při řešení dalších úloh. V maticových operacích pracujeme s tzv. maticovými vzorci, které uplatníme i při řešení úloh lineárních a kvadratických regresí. Matice je definována číselnými hodnotami a počtem řádků a sloupců, např. matice: 1 1 A = [ 3] 4 má tří řádky a dva sloupce, značíme ji A 3x4 nebo A(3,4). Součin matic, C, je definován vztahem, např. pro matice A, B: C = A.B Obecně neplatí A.B = B.A! Součin dvou matic je definován jen pro matice, které mají společné vnitřní indexy, např. A(nxp).B(pxm) = C(nxm) V tomto případě součin B.A není definován. Přesvědčíme se o tom v EXCELu. Součin matic naleznete ve funkcích, f(x), které si vyhledáte kliknutím na f x pod matematickými funkcemi a označením SOUCIN.MATIC. Pokud nemáte na liště tuto funkci, naleznete ji v Nástroje-Vlastní-Vložit. Postup při výpočtu součinu dvou matic: myší vyhledáte buňku s dostatečným prostorem pro výslednou matici C (nxm buněk); vyvoláte funkci SOUCIN.MATIC; označíte nejprve matici A, potom B, přesně podle návodu v okénku, které se Vám objeví (označení polí dělejte kliknutím myší na malou červenou šipku, potom myší označte pole, znovu klikněte na malou červenou šipku) ; OK; ve vyhledané buňce se objeví číslo; označíte myší prostor buněk nxm; kliknete F, přičemž se objeví maticový vzorec v uvedené buňce; stisknete CTRL+levý SHIFT a kliknete ENTER; v dříve označených buňkách (nxm) se objeví další prvky matice. Pozorně zkontrolujte vyznačený prostor, zda odpovídá rozměru matice C. Součet dvou matic, např. A + B je definován vždy, Tedy např. 3 3 5 A = 3 1 B = 3 3 5 8 (A + B) = 6 4 Součet matic si sami naprogramujete v excelovském sešitu. Inverze matice je definována pouze pro čtvercové matice, tedy matice o stejném počtu řádků a sloupců. V maticovém zápisu píšeme inverzi matice A jako A -1. Platí: A.A -1 = I (jednotková matice). V EXCELU naleznete inverzi matice ve funkci f x pod názvem INVERZE. Postup při výpočtu inverze matice:

myší vyhledáte buňku, kam umístíte prvek inverzní matice (1,1), okolo musíte mít dostatečný prostor pro výslednou inverzní matici (má stejný rozměr jako původní matice); označíte myší pole buněk o rozměru nxn; vyvoláte funkci INVERZE; podle pokynů v okénku označíte matici, kterou chcete invertovat; OK; ve vyhledané buňce se objeví číslo;kliknete F; potom stisknete současně CTRL+levý SHIFT a kliknete ENTER; ve vyznačeném poli se objeví invertovaná matice. Transpozici matice, v maticovém zápisu A T nebo A můžete vytvořit z matice pomocí následujících operací: myší označíte matici, kterou chcete transponovat; CTRL C; přejdete na jinou buňku a vyvoláte Úpravy- Vložit jinak-hodnoty-transponovat-ok a dostanete transponovanou matici A T. Symetrická matice je matice, která má stejnolehlé prvky mimo hlavní diagonálu shodné, např. A = 7 7 3 Symetrická matice se transponováním nemění, tedy A T = A. Diagonální matice je matice, která má, kromě hlavní diagonály, všechny ostatní prvky nulové. Zvláštním případem diagonální matice je matice jednotková, která má na hlavní diagonále jedničky. Determinant matice je číslo. V EXCELU naleznete tuto funkci pod názvem DETERMINANT, opět v matematických funkcích vyvoláním f x. Platí, že determinant transponované matice je stejný, jako determinant matice původní, tedy A T = A. Pro čtvercové matice stejného řádu (stejný počet řádků) je determinant součinu dvou matic stejný, jako součin determinantů těchto matic, tedy A.B = A. B. Postup při výpočtu determinantu matice: myší vyhledáte buňku, kam umístíte hodnotu determinantu; vyvoláte funkci DETERMINANT; označíte matici podle návodu v okénku; OK; v buňce se objeví číslo, což je výsledná hodnota determinantu. Stopa čtvercové matice se dána součtem jejích diagonálních prvků. Stopa transponované matice se rovná stopě původní matice. Čtvercová matice C se nazývá ortogonální, jestliže pro ni platí, že matice k ní transponovaná se rovná inverzní matici, takže platí rovnice: C T = C -1 a C T.C = 1. V přiloženém excelovském sešitu máte definovány úlohy, které vyřešíte.

Úkol č. Lineární regrese Pro řešení úloh z lineární regrese se v EXCELu se naučíme využívat jednak funkce LINREG, jednak pomocí maticových operací si sami sestavíme vlastní program. Lineární regrese je matematicko-statistická metoda, při níž prokládáme experimentální data regresním modelem, kterým může být přímka, rovina nebo nadrovina ve vícerozměrném prostoru. Regresní model vybíráme z nekonečného množství možností takovým způsobem, abychom splnili podmínku minimálního součtu čtverců odchylek experimentálních a regresních hodnot. Teoretický lineární model můžeme formulovat rovnicí: Y = f ( x j p ; β ) ve kterém x j jsou nezávisle proměnné veličiny, β p jsou parametry modelu. Tak např. pro lineární model s jednou nezávisle proměnnou platí rovnice: pro kvadratický model s jednou proměnnou rovnice: Y = β + 1x, 0 β Y = β 0 + β1x + β x. Odpovídající regresní modely jsou vlastně odhady teoretických modelů, takže obecně píšeme: Y = f x ; b ) + e reg ( j p V této rovnici jsou hodnoty b p odhady β p, e náhodná chyba modelu, která má nulovou střední hodnotu a normální rozdělení N(0,σ ). Regresní rovnice musí vyhovovat podmínce: U = ( y i Y reg, i ) = min exp,, n kde n je počet pozorování hodnot závisle proměnné. V maticovém vyjádření potom lineární model píšeme ve tvaru y = X.β kde y je sloupcový vektor (nx1), X je matice hodnot nezávisle proměnné rozměru (n x (j+1)), β je vektor neznámých parametrů rozměru ((j+1)x1). Lineární regresní model píšeme ve tvaru y reg = X.b + e ve kterém b je vektor odhadů β, e je vektor n hodnot náhodné chyby rozměru (nx1). Pro složky vektoru e platí E(e i ) = 0, takže E(e) = 0 n (nulová matice nx1). D(e i ) = σ, takže matice C(e) = σ.i n. Definujme si ještě kovarianční matici C = (X T.X) -1. Pro odhad vektoru β je vektor b odhadnut metodou nejmenších čtverců (viz předchozí výklad). V maticové podobě: přičemž kovarianční matice C(b) má tvar b = (X T.X) -1 X T.y, s yx je nejlepším odhadem σ a počítá se podle vztahů: C(b) = s yx (X T X) -1 y reg = X.b e = y exp - y reg Q = e T e s yx = Q/(n-p).

V dalším se dohodneme že vektory píšeme vždy ve sloupcové formě, takže transponovaný vektor je řádkový, dále se dohodneme, že matice a vektory jsou psány tučným písmem, skaláry normálním. Nyní k technice výpočtů. V EXCELU naleznete lineární regresi ve funkci f x pod názvem LINREGRESE. Data musíte před tím seřadit do tabulky po dvojicích jako dva sloupcové vektory (nx1), tedy x 1 y 1 x y... x n Najdete si buňku s místem kolem o rozměru 3x. Po vyvolání LINREGRESE se Vám objeví tabulka, kterou vyplníte. Do pole B napíšete PRAVDA, do pole Stat rovněž PRAVDA. To Vám zaručí výpočet všech statistik. Po odeslaní OK se ve vybrané buňce objeví číslo. Kolem buňky myší vyznačíte maticový prostor o 3 řádcích a sloupcích. Stisknete F a potom stisknete současně CTRL+levý SHIFT a kliknete ENTER; ve vyznačeném poli se objeví matice čísel. Čísla jsou hodnoty podle následujícího schématu: y n b 1 b 0 sb 1 sb 0 R s yx kde sb 1 a sb 0 jsou výběrové směrodatné odchylky parametrů, R je koeficient determinace, který nebudeme používat. s yx je výběrová směrodatná odchylka závisle proměnné veličiny (viz předchozí text). Pomocí LINREGRESE můžete počítat i kvadratický regresní model. Je třeba ale přeorganizovat tabulku experimentálních hodnot takto: x 1 x 1 y 1 atd. Při vyvolání LINREGRESE označíte pole x jako celou matici x, včetně kvadratických hodnot. Maticový prostor pro výsledky bude ale o rozměru 3x3 a hodnoty budou seřazeny takto:

b b 1 b 0 sb sb 1 sb 0 R s yx - Pro maticové výpočty doplníte vektor hodnot x na matici X tímto způsobem: 1 x 1 1 x atd. a budete postupovat podle maticových vzorců způsobem, který jsme se již naučili.

Úkol č. 3 Nelineární regrese V této úloze se naučíme řešit úlohy nelineární regrese pomocí ŘEŠITELE, což je velice účinný nástroj EXCELu pro řešení různých matematicko statistických problémů. Nejprve něco o nelineární regresi. Teoretický nelineární model můžeme, stejně jako v předchozím lineárním případu, formulovat rovnicí: Y = f ( x j p ; β ) ve kterém x j jsou nezávisle proměnné veličiny, β p jsou parametry modelu, p je index parametru. Tak např. pro nelineární model s jednou nezávisle proměnnou platí rovnice: Y = 1, ve kterém p=. β 0 exp( β x) Odpovídající regresní model je odhadem teoretického modelu, takže obecně píšeme: Y = f x ; b ) + e reg ( j p V této rovnici jsou hodnoty b p odhady β p, e náhodná chyba modelu, která má nulovou střední hodnotu a normální rozdělení N(0,σ ). Tedy totožné s lineárním případem. Regresní rovnice musí vyhovovat podmínce: U = ( y i Y reg, i ) = min exp,, n kde n je počet pozorování hodnot závisle proměnné. Řešení rovnice pro minimum čtverců odchylek je značně složitější a jde za rámec tohoto předmětu. Navíc, vše za nás udělali autoři ŘEŠITELE, takže my se naučíme využívat výsledky jejich práce. Nicméně trocha teorie bude nutná pro řešení dalších úloh. Přepišme si rovnici pro součet čtverců do jiného tvaru s využitím faktu, že tento součet, stejně jako v případě lineárního modelu, je funkcí parametrů modelu: U ( b ) = ( y f ( x,b n exp, i i p )) Derivováním U postupně podle všech b p dostáváme (stejně jako v případě lineárního modelu) soustavu tzv. normálních rovnic o p-proměnných. Potíž je v tom, že když se regresní funkce nelineární, jsou nelineární i normální rovnice. Tvar funkce U kolem minim b je p-rozměrný eliptický paraboloid, z čehož (bez důkazu) plyne, že řešení, t.j. nalezení minima funkce U vzhledem k parametrům b p je velice citlivé na počáteční odhady b, což v případě lineární regrese nenastává. Tam počáteční odhady parametrů b ( v lineárním případě směrnice a úsek) nepotřebujeme. Regresní parametry nelineárního vztahu lze jednoznačně odhadnout pouze v případech, kdy jednotlivé parciální derivace f ( x,b ) / b j (j 1,..p) jsou lineárně nezávislé. V EXCELu naleznete ŘEŠITELE (v angl. versi SOLVER) pod Nástroje-Řešitel. Kliknutím na Řešitel se Vám objeví panel, ve kterém musíte vyplnit některé údaje. Nejprve si ale vysvětlíme některé pojmy. Nastavit buňku: v této buňce bude výraz nebo rovnice, ve které se zobrazuje řešení problému. Pro náš případ, nelineární regrese, to bude suma čtverců odchylek experimentálních hodnot závisle proměnné a regresní proměnné. Musíte tedy znát tvar regresního modelu. Pozor, v našem případě to bude jenom jedna buňka.

Rovno: zde označíte cílové řešení, tedy v našem případě hledáme minimum sumy čtverců, označíte tedy Min Měněné buňky: zde značíte buňky, ve kterých bude řešení, tedy vektor parametrů. Hodnoty v těchto buňkách se během iterací mění, řešení však vyžaduje, abyste před spuštěním zadali počáteční hodnoty parametrů. Jak již bylo řečeno, výsledné řešení je silně závislé na počátečních hodnotách (nulové přiblížení) parametrů. Zkusíte si to při řešení úloh. Pokud kliknete Možnosti, objeví se Vám panel s dalšími variantami řešení, my prozatím ponecháme nastavené hodnoty (default). Po vyplnění hlavního panelu kliknete na Řešit. V listě máte v příslušných měněných buňkách vektor řešení, tj. hodnoty parametrů regresního modelu a sumu čtverců odchylek experimentálních a regresních hodnot závisle proměnné. Naučíme se používat ŘEŠITELE při řešení úlohy lineární regrese, tj. mat_. Využijeme toho, že máte data přepsána do tvaru, který byl nutný pro lineární regresi. Jako nulového přiblížení použijeme mírně změněných výsledků lineární regrese, řekněme o 10 % vyšších hodnot. Tabulku vstupních dat musíte doplnit o vektor y i,reg s použitím vstupních hodnot. Příklad excelovského uspořádání: Regresní rovnice (viz minulý příklad): Y reg = -0,00161 + 0,09984.c Vstupní hodnoty parametrů umístěte do buněk v listu, kam jste překopírovali tabulku vstupních experimentálních hodnot (y,c), např. do buněk G3:G4 (G3: vstupní parametr pro b 0, G4: vstupní parametr pro b 1 ). Tabulku experimentálních hodnot budete mít např. ve sloupcích A a B, uspořádány takto: atd. celkem řádků. A B c y exp A: 0,1 B: 0,009 A3: 0,1 B3: 0,007 Nyní do sloupce C umístíte hodnoty Y reg pro každou hodnotu c tímto způsobem: do buňky C napíšete =$G$3+$G$4*A a překopírujete do celého sloupce C postupem: CTRL+C (buňka C); myší označíte buňky C3:C3; CTRL+V. Nyní máte ve sloupci C regresní hodnoty závisle proměnné pro všechny hodnoty nezávisle proměnné (koncentrace c). Pozor! Nezapomeňte před touto operací vložit do buněk G3 a G4 nulová přiblížení parametrů b 0 a b 1!!!! Do sloupce D musíte nyní umístit rozdíly y exp - Y reg, např. takto: do buňky D napíšete: =B-C a překopírujete stejným způsobem jako před tím do celého sloupce D. Následuje výpočet sumy čtverců tímto postupem: Aktivní buňka bude např. G6 (myš přesunete na tuto buňku a kliknete levým tlačítkem); na liště vyvoláte funkce (funkční tlačítko f(x)) a najdete funkci SUMA.ČTVERCŮ. Kliknete na tuto funkci a na panelu označíte buňky D:D3. Po odeslání OK se Vám v buňce zobrazí součet čtverců odchylek experimentálních a regresních hodnot (samozřejmě se vstupními hodnotami parametrů). Nyní máte již připravenu tabulku pro použití ŘEŠITELE. Před použitím si ještě nějak označte pole vektorů parametrů a buňku cílové funkce (suma čtverců), abyste se v tom potom vyznali.

Výchozí tabulka vypadá takto: sl.\řád. A B C D 1 c y exp Y reg y exp - Y reg 0,01 0,009 =$G$3+$G$4*A =B-C 3 0,01 0,007 =$G$3+$G$4*A3 =B3-C3 atd. V buňce G6 je SUMA.ČTVERCU(D:D4) a v buňkách G3 a G4 jsou vstupní hodnoty parametrů lineární regrese b 0 a b 1 (volte nejprve výsledky lineární regrese s 10 %ní změnou). Zůstanete v aktivním listu a kliknete Nástroje-Řešitel v Nastavit buňku označíte G6, Rovno=Min, Měněné buňky: G3:G4 a kliknete Řešit.Téměř okamžitě je řešení skončeno a objeví se panel Výsledky řešení, kde označíte Uchovat řešení a kliknete OK. To je vše, ani to snad nebylo tak obtížné. Zkuste si různé nástřely vstupních hodnot b 0 a b 1, abyste se přesvědčili o citlivosti výsledku na vstupní parametry.

Úkol č. 4 Vícerozměrná pozorování Základním podkladem pro vícerozměrnou analýzu je datová matice typu (n x p). Řádky odpovídají jednotlivým studovaným objektům (n), sloupce jednotlivým zjišťovaným znakům p (příznakům, pozorovaným proměnným). Tohoto značení budeme v dalším důsledně používat. Datovou experimentální matici budeme označovat X, popř. Y. Prvek datové matice X, x ij, je hodnota j-tého příznaku (j=1,,...p) zjištěná u i-tého prvku (i=1,,...n). Vektor datové matice X, x i, nazveme obrazem. Tak např. pro datovou matici 3 7 5 6 6 8 7 10 9 9 která je charakterizována dvěma příznaky, je prvním obrazem vektor x 1 (3 7), pátým obrazem vektor x 5 (9 9). Studované objekty bývají předměty (vzorky), události, instituce (laboratoř), apod. Používání statistických metod vyžaduje, aby byl studován přiměřeně rozsáhlý soubor objektů. Vedle pojmu objekt budeme používat také pojmy jednotka, individuum nebo prvek. Typickým cílem statistické analýzy je poznání vlastností objektů, popř. závislostí mezi těmito vlastnostmi. O úspěchu zjišťování přitom mimo jiné rozhoduje to, jak se podaří vyjádřit měřitelnými znaky jednotlivé vlastnosti, o které se zajímáme. Různorodý charakter zkoumaných proměnných je běžným jevem ve všech aplikacích vícerozměrné statistické analýzy. Jako příklad lze uvést záznam o kontrole jakosti výrobku, protokoly o kontrole stavu životního prostředí, atd. Klasifikace proměnných a klasifikace objektů je velice složitý problém. V dalším se budeme zabývat základy klasifikací proměnných a objektů, které se uplatňují při interpretaci dat hlavně z oblasti životního prostředí. Příznaky, měřené veličiny, můžeme rozdělit podle toho, zda popisují kvalitativní nebo kvantitativní charakteristiky objektů. Nyní se budeme věnovat vícenásobnému porovnávání základních statistik, tj, středních hodnot a rozptylů. Nejprve si zopakujeme porovnávání pro jeden příznak (p=1), které jsme probírali v Chemometrice I. Toto porovnání znáte pod názvem Analýza rozptylu (ANOVA). Analýza rozptylu pro jeden faktor Uvažujme experiment, v němž je vyšetřován vliv jednoho faktoru, např. A, který bude sledován na k úrovních (k>). Při každé úrovni provedeme stejný počet opakování měření, r, přičemž pro celkový počet pokusů n platí: n = r.k Výsledky pokusů tvoří tzv. experimentální matici, jejíž obecný člen označíme y iν, kde ν je počet opakování měření na i-té úrovni. Pro i-tou úroveň můžeme model pro analýzu rozptylu vyjádřit vztahem: y iν = µ + α i + e iν ve kterém µ je střední hodnota závisle proměnné pro všechny úrovně, neboť experimentální matici si můžeme představit jako náhodný výběr ze základního souboru. α i je vliv faktoru A na i-té úrovni. Definujme si nyní pomocné mezisoučty v experimentální matici tak, jak je v analýze rozptylu zvykem: Y =.. y i ν k r Yi. = yi r ν

Odhady parametrů jsou potom vyjádřeny rovnicemi: µ = 1 Y n.. α = 1 Y µ r i. ei ν = yi ν 1 Y r i. Nyní budeme testovat hypotézu o tom, že vlivy faktoru A na všech úrovních jsou stejné, tedy hypotézu: H 0 : α 1 = α =...= α k proti alternativní hypotéze H: Σα i > 0 Testové kriterium F je potom vyjádřeno vztahem: ve kterém F = S A ( k 1) Sr ( n k ) S 1 1 A = Y. Y r i n.. k S = r y 1 iν r k r k. i Y Hodnotu F srovnáváme s F 1-α,(k-1;n-k) Odhad rozptylu měřené veličiny vypočteme z residuální proměnlivosti: s = S r /(n-k) Vaším úkolem bude sestavit jednoduchý list pro jednofaktoriální analýzu rozptylu tak, aby bylo možno proces vyhodnocování zautomatizovat. List sestavíte v EXCELu pro počet úrovní k = 10 a počet opakování max. 10 pro každou úroveň. List konstruujte tak, aby se dal použít i pro menší počet úrovní i opakování a měl hezkou grafickou úroveň. Váš list zkontrolujte s analýzou rozptylu, která je v EXCELu v Nástroje-Analýza dat-anova:jeden faktor. Porovnání rozptylů na více úrovních Probereme si ještě další způsob porovnání, a to porovnání rozptylů pro více úrovní jednoho faktoru. Potvrzujeme či vyvracíme přitom hypotézu: H 0 : σ 1 = σ = σ k Test, kterým ověřujeme nulovou hypotézu, se nazývá Batlettův test a spočívá ve výpočtu testového kriteria B a porovnání s χ kvantilem.

Bartlettův test 1 B = [( n k)ln s C k h= 1 ( n h 1)ln s h ] s 1 = n k k h= 1 ( n h 1) s h k 1 1 1 C = 1+ (( ) 3( k 1) n 1 n h= 1 h k V těchto vztazích je n h počet pozorování na h-té úrovni (h = 1,,...k) Testovací kriterium: B< χ (1-α)(k-1) ) V přiloženém excelovském sešitu máte definovány úlohy, které vyřešíte.