Klasifikace podzemních vod diskriminační analýzou
|
|
- Matěj Bezucha
- před 6 lety
- Počet zobrazení:
Transkript
1 Klasifikace podzemních vod diskriminační analýzou Prof. RNDr. Milan Meloun, DrSc., Katedra analytické chemie, Univerzita Pardubice, Pardubice, a Jindřich Freisleben Český hydrometeorologický ústav, Na Šabatce 17, Praha 4 Komořany, freisleben@chmi.cz, Souhrn: Diskriminační analýza umožňuje hodnocení rozdílů mezi dvěma nebo více skupinami objektů charakterizovaných více znaky-diskriminátory. Obyčejně se dále dělí na techniky, které interpretují rozdíly mezi předem stanovenými skupinami objektů, a techniky, kde je cílem klasifikace objektů do skupin. Jsou porovnávány diskriminátory každého objektu (například charakteristiky sloučenin, vlastnosti objektu, vzorku vody, atd.) se znaky ostatních objektů. Na základě podobností nebo rozdílů se pak provede klasifikace vzorků podzemních vod buď čistě subjektivně na základě zkušeností, nebo objektivními metodami. Na základě diagramů diskriminačního skóre jsou klasifikovány vzorky podzemních vod do tří tříd. Diagramy poskytují vizuální ověření, jak diskriminační funkce zařazují objekty do tříd. Všechny diskriminátory naměřené chemickou analýzou nebyly shledány vhodné pro dostatečně přesné přiřazení objektů podzemních vod lineární diskriminační analýzou. Procento správně zařazených objektů v rámci třídy mělkých vrtů je dost nízké, pouze 58 %. Příčina může být jednak v tom, že monitorované ukazatele nemají dostatečnou diskriminační sílu a také v tom, že většina diskriminátorů vykazuje jiné než normální rozdělení. Klíčová slova: DA, PCA, CM, Cattelův graf, diskriminace, klasifikace, diskriminační skóre, Fisherova diskriminační funkce 1. Úvod Hledáním struktury a vzájemných vazeb v objektech se zabývají klasifikační metody vícerozměrné statistické analýzy. Klasifikační metody jsou postupy, pomocí kterých se jeden objekt zařadí do existující třídy (diskriminační analýza DA), nebo pomocí nichž lze neuspořádanou skupinu objektů uspořádat do několika vnitřně sourodých tříd či shluků (analýza shluků CLU). Postup klasifikace je založen na určitých předpokladech o vlastnostech klasifikovaných objektů, například, když rozdělení náhodného vektoru charakterizujícího objekty je normální, pak hovoříme o parametrických klasifikačních metodách. Není-li klasifikace založena na znalostech rozdělení náhodného vektoru, mluvíme o neparametrických klasifikačních metodách. Významnou roli při hledání struktury a vazeb mezi objekty na základě jejich podobnosti tvoří také vícerozměrné škálování MDS.
2 2. Podstata metody DA Klasická klasifikační diskriminační analýza, zavedená Ronaldem Fisherem v roce 1936, patří mezi metody zkoumání vztahu mezi skupinou p nezávislých znaků, zvaných diskriminátory (sloupců zdrojové matice), a jednou kvalitativní závisle proměnnou výstupem. Výstupem je v nejjednodušším případě binární proměnná y, nabývající hodnotu 0 pro případ, že objekt je v první třídě, respektive hodnotu 1 pro případ, že objekt je ve druhé třídě. O třídách je známé, že jsou zřetelně odlišené a každý objekt patří do jedné z nich. Účelem může být také identifikace, které znaky přispívají do procesu klasifikace. Ve vstupních datech trénovací skupiny jsou svými hodnotami diskriminátorů a výstupů všechny objekty zařazené do tříd. Účelem je nalézt predikční model umožňující zařadit nové objekty do tříd. 2.1 Zařazovací pravidla DA Pro zjednodušení uvažujme, že účelem je klasifikace do jedné ze dvou tříd (A, B) a že klasifikace se provádí na základě jednoho znaku x s normálním rozdělením. Ve třídě A jde o rozdělení N(μ A, σ 2 A ) a ve třídě B jde o rozdělení N(μ B, σ 2 B ). Nový objekt nechť má hodnotu x. Je logické vybrat tu třídu, pro kterou je x blíže ke střední hodnotě dané třídy. Můžeme tedy určit prahový bod C = (μ A + μ B )/2. Pro případy, kdy x < C se pak objekt zařadí do třídy (A) a pro x C do druhé třídy (B). Tato pravděpodobnost je pro obě kategorie stejná. Pokud by se toto pravidlo použilo i pro případ nestejných rozptylů obou rozdělení, kdy například σ 2 A < σ 2 B, došlo by k situaci, že pravděpodobnost nesprávné klasifikace pro třídu A by vyšla větší než pro třídu B. Bude tedy třeba penalizovat C s ohledem na nestejný rozptyl. Je zřejmá analogie s t-testem porovnání dvou středních hodnot pro nestejné rozptyly. Pro případ dvou diskriminátorů (x 1 x 2 ) je výhodné zobrazovat v prostoru x 1 x 2 elipsy konstantní hustoty, například pro pravděpodobnost Záleží na tom, zda jsou kovarianční matice C A a C B shodné či nikoliv. 2.2 Lineární (LDA) a kvadratická (QDA) diskriminační funkce Při formálním odvození tvaru diskriminačních funkcí je možné vyjít z rovnice pro aposteriorní pravděpodobnost příslušnosti k j-té skupině (j = 1, 2) a hledat její 2
3 maximum. Podle typu hustot pravděpodobnosti pro znaky f 1 (x) a f 2 (x) se tak liší jednotlivé diskriminační metody v tom, jak jsou specifikovány dělicí oblasti a jaký mají tvar: pro normální rozdělení, lišící se jen středními hodnotami tříd, dostáváme lineární diskriminační analýzu (LDA), pro normální rozdělení, lišící se jak středními hodnotami, tak i kovariančními maticemi tříd dostáváme kvadratickou diskriminační analýzu (QDA), pro případ směsí normálních rozdělení vycházejí nelineární diskriminační funkce, pro případ neparametrických hustot rozdělení znaků ve třídách obdržíme flexibilní diskriminační funkce, naivní Bayesův přístup spočívá v představě, že každá hustota pravděpodobnosti ve třídě je získána jako součin marginálních hustot znaků (znaky jsou zde považovány za podmíněně nezávislé). Pro případ vícerozměrného Gaussova rozdělení v i-té třídě má odpovídající hustota pravděpodobnosti tvar kde m = 2 je počet znaků. f 1 1 x x x C T -1 i( ) = exp - ( - ) ( - ), m/2 1/2 μi C i μi (2 π ) det ( i) Úprava prahového bodu Dosud byl prahový bod C užíván jako bod jenž udává stejné procento chyb obojího typu, čili pravděpodobnost chybného zařazení objektu ze třídy 1 do třídy 2 a naopak. Volba prahového bodu C však může být provedena tak, že bude poskytovat požadovaný poměr apriorních pravděpodobností π 1 a π 2. Pro vícerozměrný normální model bude optimální volba prahového bodu C daná vzorcem Z + Z 2 π π C = + ln. Když bude π 1 = π 2 = 0.5, bude C rovno jednoduššímu výrazu bez ln. Stejně jako v regresní analýze nejsou hodnoty koeficientů a 1, a 2,..., a p přímo porovnatelné. Relativní vliv na každou proměnnou v diskriminační funkci můžeme získat ze standardizovaných diskriminačních koeficientů. Tato technika se týká užití společné kovarianční matice. Standardizované koeficienty se vypočtou vynásobením koeficientů a i odpovídající směrodatnou odchylkou s i. 3
4 2.4 Volba diskriminátorů Otázkou je, zda volba diskriminátorů x, je schopna zajistit dostatečně přesné zařazení objektů do tříd, tj. diskriminaci. Byla navržena řada postupů jak provést selekci znaků. Principem většiny metod je zajištění dostatečné separability tříd a volba takových diskriminátorů, které vedou k maximalizaci nějaké míry. Jindy se volí postup, který začne se všemi původními diskriminátory a postupně se vypouštějí takové, které vedou k nedostatečné separaci. V mnoha situacích je diskriminační analýza, stejně jako lineární regresní analýza, použita jako exploratorní pomůcka. Pro nalezení vhodného modelu, je do dat zahrnuta celá paleta potenciálně využitelných znaků. Není však předem známo, které diskriminátory jsou pro zařazení objektů do tříd účinné. Jedním z možných výsledků diskriminační analýzy je také identifikace účinných diskriminátorů. Při výběru účinných diskriminátorů jde o analogii s vícenásobnou regresní analýzou. V diskriminační analýze se místo testování, zda se hodnota čtverce vícenásobného korelačního koeficientu R 2 změní přidáním nebo odebráním proměnné testuje, zda se změní hodnota Mahalanobisovy vzdálenosti D 2 M. Obvykle se užívají popsaná testační kritéria tak, že pro testační kritérium F se, pokud přidáváme proměnné, za α dosazuje hodnota Bohužel nebývá známá vhodná hodnota pro α při použití F- testu, odebíráme-li proměnné, a proto je v literatuře obvykle doporučována vysoká hodnota α = Všechna kritéria výběru nezávisle proměnných v lineární regresní analýze platí i v diskriminační analýze. Všeobecně užívaným algoritmem je krokový výběr diskriminátorů, jehož principy jsou známé z lineární regrese. Postup kombinuje jak přidávání diskriminátorů, tak i jejich odstraňování. V krokové metodě má první diskriminátor, zahrnutý do modelu ve výběrovém kritériu, největší přijatelnou hodnotu. Po zavedení prvního diskriminátoru je hodnota kritéria přepočítána pro všechny diskriminátory v modelu a diskriminátor s největší přijatelnou hodnotou zaváděcího kritéria je zaveden do modelu jako další. V tomto okamžiku je diskriminátor, který byl zaveden do modelu jako první, znovu přepočten, zda splňuje také odstraňovací kritérium. Jestliže ano, je z modelu odstraněn. Dalším krokem je vyšetření diskriminátorů připravených k zavedení do modelu, následované vyšetřením diskriminátorů připravených v modelu k odstranění. Vybírání diskriminátorů se ukončí, když žádné další diskriminátory nesplňují zaváděcí nebo odstraňovací kritérium. 4
5 2.5 Kritéria pro vybírání diskriminátorů Existuje několik rozhodovacích kritérií k vybírání diskriminátorů. U Wilkova kritéria λ platí že, když diskriminátor v diskriminační funkci poskytuje nejmenší hodnotu Wilkova kritéria λ, je tento diskriminátor zahrnut do modelu. K zavedení nebo odstranění diskriminátoru je dovolen jeden krok. Maximální počet kroků k vybírání diskriminátorů je roven dvojnásobku jejich počtu. Podobně jako ve vícenásobné regresi, když jsou některé nezávisle proměnné lineárními kombinacemi ostatních nezávisle proměnných, není možné očekávat jediné řešení. Aby se předešlo výpočetním problémům, je před zavedením diskriminátoru do modelu stanovena jeho tolerance. Tolerance je mírou lineární asociace mezi diskriminátory a vypočte se pro i-tý diskriminátor dle 1 R 2 i, kde R 2 i je čtverec vícenásobného korelačního koeficientu, když je uvažován i-tý diskriminátor za závisle proměnnou a když je uvažována regresní rovnice mezi tímto i-tým diskriminátorem a ostatními diskriminátory. Malé hodnoty tolerance indikují, že i-tý diskriminátor je tvořen lineární kombinací ostatních diskriminátorů. Diskriminátory s tolerancí menší než není však vhodné do modelu zařadit. Významnost změny Wilkova kritéria λ po zavedení diskriminátoru do modelu nebo odstranění z modelu je založena na testačním kritériu F. Aktuální hodnota testačního kritéria F nebo vypočtená statistická významnost α slouží jako kritérium pro zavedení diskriminátoru do modelu nebo k jeho odstranění. Obě kritéria však nemusí být ekvivalentní, protože pevné hodnoty kvantilu F mají rozdílnou pravděpodobnost v závislosti na počtu diskriminátorů v modelu. Aktuální vypočtená statistická významnost, spojená s kvantilem F při zavedení a s kvantilem F při odstranění, není obyčejně vypočtena z rozdělení F, protože je zde vyšetřeno mnoho diskriminátorů a jsou vybrány největší a nejmenší hodnota F. Skutečnou hladinu významnosti α je obtížné vyčíslit, protože závisí na mnoha faktorech včetně uvažované korelace mezi diskriminátory. Dříve než začne pracovat krokový algoritmus, jsou na začátku v nultém kroku jak tolerance, tak i minimum tolerance položeny rovné 1, protože v modelu dosud nejsou diskriminátory. Vedle Wilkova kritéria λ se pro statistickou významnost každého diskriminátoru vyčísluje také F-test. Hodnota F pro změnu Wilkova kritéria λ při 5
6 přidání diskriminátoru do modelu tak, že model obsahuje celkem p diskriminátorů, se vyčíslí dle vztahu F změny 1 - λ p+1 n - g - p p = λ, g - 1 λ p+1 λ p kde n je celkový počet objektů, g udává počet tříd, λ p značí Wilkovo lambda před přidáním diskriminátoru a λ p+1 je Wilkovo lambda po přidání diskriminátoru do modelu. V každém kroku je ten diskriminátor, který způsobuje nejmenší hodnotu Wilkova kritéria λ, zařazen do modelu. Vedle Wilkova kritéria λ existují ještě další kritéra. Mahalanobisova vzdálenost D 1,2 2 třídami 1 a 2 a je definována vztahem je zobecněná míra vzdálenosti mezi dvěma m m 2 1, 2 ( ) wij xi 1 i 2 j 1 j 2 i= 1 j= 1 D = n - g ( - x )( x - x ), kde m udává počet diskriminátorů v modelu, x i1 je průměr i-tého diskriminátoru ve třídě 1. Protože je Mahalanobisova vzdálenost D 1,2 2 kritériem pro volbu diskriminátorů, je toto kritérium všech párů tříd vyčísleno jako první. Ten diskriminátor, který měl největší hodnotu D M 2 pro dvě od začátku nejtěsnější třídy, čili které měly nejmenší hodnotu D 1,2 2, je zařazen do modelu. 3. Výsledky: Monitoring jakosti podzemních vod V rámci monitoringu jakosti podzemních vod bylo analyzováno 16 diskriminátorů ve 462 vzorcích podzemních vod. Byly navrženy tři základní kategorie sledovaných vod, a to vody z pramenů, vody z mělkých vrtů a konečně vody z hlubokých vrtů. Diskriminační analýzou (DA) je nyní třeba zjistit u dosud nezařazených výsledků vod dle jejich naměřených kvantitativních obsahů sloučenin či vlastností, představujících zde diskriminátory nejpravděpodobnější typ souboru podzemních vod, ze kterých byly vzorky vod odebrány. Data: Data zdrojové matice souboru 462 řádků vzorků podzemních vod a 16 sloupců diskriminátorů jsou rozdělena na dva stejně velké výběry, a to jednak na výběr všech lichých 231 řádků vzorků vod představujících zde analyzovaný soubor k výstavbě 6
7 diskriminačního modelu, a jednak na výběr všech sudých 231 řádků vzorků, představující klasifikovaný soubor k vlastnímu otestování navrženého diskriminačního modelu. Za závisle proměnnou se budeme brát znak TO, který značí typ objektu, nabývající tří hodnot: 0 značí pramen, 1 značí mělký vrt, a konečně 2 značí hluboký vrt. Za nezávisle proměnné se bude považovat 16 diskriminátorů: ph značí naměřené ph vody v laboratoři, K je naměřená hodnota konduktivity [ms/m], T je teplota vody [ C], R je oxidačně redukční potenciál [mv], A absorbance změřená při vlnové délce 254nm v kyvetě délky 1cm, M je celková mineralizace [mg/l], O 2 obsah kyslíku rozpuštěného [mg/l], CHSKMn chemická spotřeba kyslíku manganistanem [mg/l], KNK4,5 kyselinová neutralizační kapacita do ph 4,5 [mmol/l], ZNK8,3 zásadová neutralizační kapacita do ph 8,3 [mmol/l], NH 4 obsah amonných iontů [mg/l], NO 2 obsah dusitanů [mg/l], NO 3 obsah dusičnanů [mg/l], PO 4 obsah fosforečnanů [mg/l], Cl obsah chloridů [mg/l], SO 4 obsah síranů [mg/l]. Řešení: (a) Exploratorní analýza diskriminátorů: Zdrojová matice dat analyzovaného výběru obsahuje 231 řádků vzorků vod a 16 sloupců vyšetřovaných diskriminátorů a neobsahuje žádné chybějící prvky. Žádný objekt v řádku není třeba vyřadit pro nedostatečný popis diskriminátorů. Obr. 1 Krabicové grafy všech diskriminátorů ukazují na míru rozptýlení a proměnlivost 7
8 Byl použit statistický program STATISTICA 7.0 (StatSoft Praha). Nejprve se provede exploratorní analýza dat EDA a vyčíslení popisných statistik (Tabulka 1). Obr. 2 Indexový graf Mahalanobisovy vzdálenosti objektu od těžiště indikuje odlehlé hodnoty V rámci EDA ukazuje krabicový graf všech diskriminátorů na obr. 1 dostatečnou proměnlivost většiny znaků. Graf Mahalanobisovy vzdálenosti na obr. 2 upozorňuje na indikovanou spoustu vybočujících vzorků vod, o kterých je třeba dále věcně uvažovat, zda by neměly být z další analýzy vyřazeny či zda do výběru skutečně patří. Základním předpokladem diskriminační analýzy (DA) je platnost vícerozměrné normality v rámci tříd, a dále nutnou (ne však postačující) podmínkou je také normální rozdělení dat jednotlivých diskriminátorů. Normální rozdělení se totiž v rámci popisných charakteristik polohy, rozptýlení a tvaru rozdělení projevuje blízkými hodnotami aritmetického průměru a mediánu, dále pak šikmost rozdělení je blízká 0 a špičatost blízká 3. Z těchto hledisek není normalita splněna u všech znaků. Nejmarkantnější odchylky od normality se objevují u diskriminátorů A, NH4, NO2, NO3, PO4, Cl a SO4. Je nutné si proto uvědomit, že data by bylo vhodné zpracovat také jinou vícerozměrnou statistickou metodou, méně citlivou na normalitu rozdělení jako je například logistická regrese. Dalším předpokladem DA je podobnost kovariačních matic tříd, a tím pádem i přibližně stejně velkých směrodatných odchylek v rámci jednotlivých tříd. Větší rozdíly 8
9 jsou v míře rozptýlení shledány u diskriminátorů K, M, Cl a SO4. Nejdůležitější vlastností diskriminátoru je jeho dostatečný příspěvek k separaci objektů mezi třídami. To plyne z rozdílných hodnot průměrů jednotlivých tříd. Vzhledem k této vlastnosti lze předběžně za nevhodné diskriminátory označit znaky: ph, T, CHSKMn, PO4. Zdá se, že lze docílit dobré separace mezi třídou MV (mělké vrty) a ostatními třídami, ale pravděpodobnost pro správné zařazení objektů mezi třídami P (prameny) a HV (hluboké vrty) bude zřejmě nižší. Obr. 3 Grafy komponentních vah pro komponenty 1 a 2, 1 a 3, 2 a 3, a Cattelův indexový graf vlastních čísel ukazuje na počet využitelných hlavních komponent (b) Korelace diskriminátorů: Dalším důležitým předpokladem pro diskriminační analýzu je neexistence multikolinearity v datech, což znamená, že dva a více diskriminátorů by neměly být silně korelovány. Jinak by totiž bylo možné predikovat jeden diskriminátor z jiného, což není vhodné zejména při užití krokové metody diskriminační analýzy. Z průzkumové analýzy EDA grafu komponentních vah na obr. 3 je zřejmé, že silná korelace byla indikována uvnitř trojice diskriminátorů M-K- KNK4.5 a M-K-SO4 a také uvnitř dvojice K-Cl a A-CHSKMn. Středně silná korelace je 9
10 uvnitř dvojic diskriminátorů R-O2, A-PO4, M-Cl, CHSKMn-ZNK8.3, CHSKMn-PO4. Korelační matice potvrzuje toto předběžné hodnocení dat a volbu diskriminátorů v předchozích dvou tabulkách. Sledované znaky K, M, KNK4.5, SO4 a Cl lze nahradit jediným z důvodu silné korelace mezi nimi. Stejně tak dvojici znaků A a CHSKMn lze nahradit ze stejného důvodu jediným. U žádného z bodových grafů nelze pozorovat dělení mraku bodů na více shluků, tedy nelze předpokládat, že by mezi nimi byl diskriminátor s dobrou separační schopností objektů do tříd. Zároveň tvary většiny histogramů ukazují spíše na rozdělení log-normální. Dle korelační matice v tabulce 2 s nižšími korelacemi se jeví jako nejvhodnější diskriminátor O2, v histogramu je patrné bimodální rozdělení a v bodových grafech kombinací znaků O2 s ph a O2 s ZNK8.3 se mrak bodů trhá na více shluků. Naproti tomu rozdělení znaků NH4, NO2 a NO3 vykazuje zřetelné zešikmení k nižším hodnotám, což vede k závěru o jejich nevhodnosti pro užití v metodě diskriminační analýzy. Vzhledem k silné korelaci mezi některými znaky a výraznému zešikmení rozdělení u některých dalších, je nutné zredukovat počet diskriminátorů. V dalším postupu diskriminační analýzy budeme klást důraz na pouze vybrané a účinné diskriminátory K, CHSKMn, ph, T, R, O2, ZNK8.3 a NO3. (c) Výstavba diskriminačního modelu: Vyšetření vlivu jednotlivých diskriminátorů přináší tabulka 3. V tabulce značí Diskriminátor jméno znaku. Wilkovo λ při odstranění dotyčného diskriminátoru udává hodnotu Wilkova kritéria λ vypočtenou při testování důsledku odstranění dotyčného diskriminátoru. Wilkovo kritérium λ vyjadřuje diskriminační sílu navrženého modelu. Jeho rozsah je od 1.0 se žádnou diskriminační silou až po 0.0 s perfektní diskriminační silou. F-test při odstranění dotyčného diskriminátoru představuje hodnotu F-kritéria vyčísleného k testování statistické významnosti Wilkova λ kritéria. Spočtená hladina významnosti α při odstranění dotyčného diskriminátoru je vypočtená hladina významnosti uvedeného F- testu při odstranění dotyčného diskriminátoru. Test je statisticky významný a diskriminátor je důležitý, je-li tato hodnota menší než uživatelem zadaná hladina významnosti α = Šest ze 16 vyšetřovaných diskriminátorů je v této úloze menší než 0.05, a proto jsou pro klasifikaci diskriminátorů do tříd statisticky významné a v úloze důležité. Wilkovo λ pro dotyčný samotný diskriminátor značí hodnotu Wilkova kritéria λ, kterou dostaneme za použití jediného diskriminátoru. F-test pro dotyčný 10
11 samotný diskriminátor představuje testační kritérium vyčíslené k testování statistické významnosti Wilkova λ kritéria. Spočtená hladina významnosti α se týká daného diskriminátoru. Uvedený F-test je statisticky významný a diskriminátor je pro klasifikaci znaků-diskriminátorů důležitý, je-li tato vypočtená hodnota α menší než uživatelem zadaná hladina významnosti α = V tabulce 3 byla užita dopředná kroková analýza diskriminační analýzy a v šesti krocích byly nalezeny tyto znaky s dostatečnou diskriminační silou: O2, K, R, CHSKMn, NO3 a ph. Tabulka 4 obsahuje právě stanovené odhady diskriminačních koeficientů klasifikační funkce, která slouží k zařazování nových objektů do tříd. Veličina p představuje apriorní pravděpodobnost, že bude objekt zařazen do dané třídy. Ověření navržené diskriminační funkce se provádí klasifikací objektů, u nichž víme do jaké třídy patří v tak zvaném klasifikovaném výběru v tabulce 5. S ohledem na hodnoty procentuálního vyjádření správně zařazených objektů v jednotlivých třídách je zde navržený model nejméně účinný při klasifikaci objektů mělkých vrtů MV. Naopak nejméně chybně zařazených objektů je v třídě pramenů P. (d) Diskriminační zařazování vzorků vod do tříd: Zařazování vzorků vody do tříd se odehrává na základě jejich Mahalanobisovy vzdálenosti. Vzdálenost se určuje mezi každým vzorkem vody a těžištěm každé třídy, definovaným jako průměr objektů ve třídě. Čím blíže je vzorek (objekt) umístěn k těžišti třídy, tím silnější je předpoklad, že vzorek patří do této třídy. Je možné také přímo vyčíslit pravděpodobnost, že vzorek patří do dané třídy. Jde o posteriorní pravděpodobnost. Aktuální klasifikace zobrazuje několik sloupců zařazení objektů, vzorků vody. Sloupce představují první, druhou a třetí možnost zařazení. Ve sloupci 1 tabulky 6 je nejvyšší posteriorní pravděpodobnost zařazení do správné třídy vzorků. Řádky označené hvězdičkou jsou chybně zařazené vorky. Znovu vidíme, že v této úloze je klasifikační správnost vysoká. Tabulka obsahuje Mahalanobisovy vzdálenosti klasifikovaných vzorků od Z-skóre jednotlivých tříd v tabulce 6. Vlivem toho, že shluky vzorků v rámci jednotlivých tříd se částečně prolínají, může docházet i k chybným zařazením vzorků vod z jedné třídy, které jsou blíže k centru (Z-skóre) třídy jiné. Jiným způsobem klasifikace vzorků vod do tříd je využití hodnot aposteriorních pravděpodobností v tabulce 7. Vzorek vody je přidělen k té třídě, pro níž je hodnota 11
12 pravděpodobnosti co nejvyšší. Je zajímavé, že oba uvedené způsoby klasifikace vedly k chybnému zařazení týchž stejných vzorků, přestože u některých vyjímečných došlo k zařazení do odlišné nesprávné třídy. V řádku se u každého chybně zařazeného vzorku vody nachází vždy název známé a do výpočtu zadávané třídy vzorků vody a dále nalezené predikované třídy vzorků. Následuje hodnota pravděpodobnosti (v procentech), že se vzorek vody nachází v dané třídě vzorků. Hodnota blízko 100 % ukazuje, že vzorek skutečně patří do dotyčné třídy. Při užití lineární diskriminační techniky se vyčíslí pravděpodobnosti P(i), že tento vzorek vody v řádku patří do i-té třídy. Nechť f i, i = 1,..., k, je hodnota lineární diskriminační funkce a max(f k ) je maximální diskriminační skóre ze všech tříd. Když užijeme regresní klasifikační techniku, bude P(i) představovat predikovanou hodnotu regresní rovnice. Implicitně je y v regresní rovnici rovno 1 nebo 0 v závislosti na tom, zda objekt do i-té třídy vzorků patří či ne. Proto predikovaná hodnota blízko nuly ukazuje, že vzorek vody nepatří do i- té třídy, zatímco hodnota blízko 1 ukazuje na vysokou pravděpodobnost, že vzorek patří do i-té třídy. V žádném případě nemůže vyčíslená hodnota být větší než 1 a menší než 0. Obr. 4 Graf lineárního diskriminačního skóre ukazuje na klasifikační zařazení jednotlivých vzorků podzemních vod do tří značně se překrývajících tříd 12
13 (e) Zařazení neznámých vzorků vody: Na základě diagramů skóre se snáze interpretují výsledky zařazení i neznámých vzorků vod v tabulce 8. Diagramy poskytují vizuální ověření, jak diskriminační funkce zařazují objekty do tříd. Předložený diagram ukazuje hodnoty prvního a druhého kanonického skóre. Je patrné, že již první kanonická funkce postačuje k zařazování vzorků vody, protože třídy vzorků vody mohou být snadno odděleny vertikální osou. Je možné také 3D zobrazení s průběžnou spojitou rotací tříd objektů podél jednotlivých os v prostoru, například v jazyce programu S-Plus. V takovém prostorovém zobrazení by bylo vytvoření a rozlišení tříd vzorků vody ještě názornější. (f) Závěr: Všechna data z chemických analýz nebyla shledána jako vhodná pro dostatečně přesné přiřazení vzorků podzemních vod lineární diskriminační analýzou (LDA) do tří základních skupin. Zvláště procento správně zařazených vzorků vod v rámci třídy mělkých vrtů je dost nízké, pouze 58 %. Příčina může být jednak v tom, že monitorované ukazatele nemají dostatečnou diskriminační sílu a také v tom, že většina diskriminátorů vykazuje jiné než normální rozdělení. Poděkování: Autoři vyslovují svůj dík za finanční podporu vědeckého záměru č. MSM Doporučená literatura [1] ČHMÚ databáze jakosti vody ( [2] STATISTICA 7.0 ( [3] Statistická ročenka životního prostředí České republiky MŽP ČR, Praha [4] NCSS 2000 ( [5] Meloun M., Militký J., Hill M.: Počítačová analýza vícerozměrných dat v příkladech. Academia, Praha [6] Pytela O.: Chemometrie pro organické chemiky. Univerzita Pardubice, skripta, Pardubice [7] Meloun M., Militký J.: Kompendium statistického zpracování experimentálních dat. Academia, Praha 2002 (1. vydání), 2006 (2. rozšířené vydání). [8] Meloun M., Militký J.: Statistická analýza experimentálních dat. Academia, Praha
Diskriminační analýza hodnocení rozdílů mezi 2 nebo více skupinami objektů charakterizovanými více znaky
Diskriminační analýza hodnocení rozdílů mezi 2 nebo více skupinami objektů charakterizovanými více znaky Interpretují rozdíly mezi předem stanovenými třídami Cílem je klasifikace objektů do skupin Hledáme
Univerzita Pardubice Fakulta chemicko-technologická Katedra analytické chemie. Licenční studium Statistické zpracování dat
Univerzita Pardubice Fakulta chemicko-technologická Katedra analytické chemie Licenční studium Statistické zpracování dat Semestrální práce Klasifikace analýzou vícerozměrných dat (Diskriminační analýza,
Profilování vzorků heroinu s využitím vícerozměrné statistické analýzy
Profilování vzorků heroinu s využitím vícerozměrné statistické analýzy Autor práce : RNDr. Ivo Beroun,CSc. Vedoucí práce: prof. RNDr. Milan Meloun, DrSc. PROFILOVÁNÍ Profilování = klasifikace a rozlišování
UNIVERZITA PARDUBICE Fakulta chemicko-technologická Katedra analytické chemie Nám. Čs. Legií 565, Pardubice
UNIVERZITA PARDUBICE Fakulta chemicko-technologická Katedra analytické chemie Nám. Čs. Legií 565, 532 10 Pardubice 10. licenční studium chemometrie STATISTICKÉ ZPRACOVÁNÍ DAT Semestrální práce STATISTICKÁ
UNIVERZITA PARDUBICE Fakulta chemicko-technologická Katedra analytické chemie Nám. Čs. Legií 565, Pardubice
UNIVERZITA PARDUBICE Fakulta chemicko-technologická Katedra analytické chemie Nám. Čs. Legií 565, 532 10 Pardubice 10. licenční studium chemometrie STATISTICKÉ ZPRACOVÁNÍ DAT Semestrální práce ANALÝZA
Úvodem Dříve les než stromy 3 Operace s maticemi
Obsah 1 Úvodem 13 2 Dříve les než stromy 17 2.1 Nejednoznačnost terminologie 17 2.2 Volba metody analýzy dat 23 2.3 Přehled vybraných vícerozměrných metod 25 2.3.1 Metoda hlavních komponent 26 2.3.2 Faktorová
Kanonická korelační analýza
Kanonická korelační analýza Kanonická korelační analýza je vícerozměrná metoda, která se používá ke zkoumání závislosti mezi dvěma skupinami proměnných. První ze skupin se považuje za soubor nezávisle
Úloha E301 Čistota vody v řece testem BSK 5 ( Statistická analýza jednorozměrných dat )
Úloha E301 Čistota vody v řece testem BSK 5 ( Statistická analýza jednorozměrných dat ) Zadání : Čistota vody v řece byla denně sledována v průběhu 10 dní dle biologické spotřeby kyslíku BSK 5. Jsou v
Univerzita Pardubice. Fakulta chemicko-technologická Katedra analytické chemie. Licenční studium Statistické zpracování dat
Univerzita Pardubice Fakulta chemicko-technologická Katedra analytické chemie Licenční studium Statistické zpracování dat Semestrální práce Interpolace, aproximace a spline 2007 Jindřich Freisleben Obsah
AVDAT Mnohorozměrné metody, metody klasifikace
AVDAT Mnohorozměrné metody, metody klasifikace Josef Tvrdík Katedra informatiky Přírodovědecká fakulta Ostravská univerzita Mnohorozměrné metody Regrese jedna náhodná veličina je vysvětlována pomocí jiných
Regresní analýza 1. Regresní analýza
Regresní analýza 1 1 Regresní funkce Regresní analýza Důležitou statistickou úlohou je hledání a zkoumání závislostí proměnných, jejichž hodnoty získáme při realizaci experimentů Vzhledem k jejich náhodnému
Stanovení manganu a míry přesnosti kalibrace ( Lineární kalibrace )
Příklad č. 1 Stanovení manganu a míry přesnosti kalibrace ( Lineární kalibrace ) Zadání : Stanovení manganu ve vodách se provádí oxidací jodistanem v kyselém prostředí až na manganistan. (1) Sestrojte
Předpoklad o normalitě rozdělení je zamítnut, protože hodnota testovacího kritéria χ exp je vyšší než tabulkový 2
Na úloze ukážeme postup analýzy velkého výběru s odlehlými prvky pro určení typu rozdělení koncentrace kyseliny močové u 50 dárců krve. Jaká je míra polohy a rozptýlení uvedeného výběru? Z grafických diagnostik
Závislost obsahu lipoproteinu v krevním séru na třech faktorech ( Lineární regresní modely )
Úloha M608 Závislost obsahu lipoproteinu v krevním séru na třech faktorech ( Lineární regresní modely ) Zadání : Při kvantitativní analýze lidského krevního séra ovlivňují hodnotu obsahu vysokohustotního
x T 1 matici 45.53 25.22 57.81 12.39 11.88 36.09 22.15 7.52 &0.31 20.94 27.97 48.06 1.41 16.77 66.21 S 1 kovarianční matici 74.42 &9.52 37.
Vzorová úloha 4.7 Užití lineární diskriminační funkce Předpokládejme, že máme data o 2 třídách objektů tibetských lebek v úloze B4.14 Aglomerativní hierarchické shlukování při analýze lebek Tibeťanů: prvních
Počítačová analýza vícerozměrných dat v oborech přírodních, technických a společenských věd
Počítačová analýza vícerozměrných dat v oborech přírodních, technických a společenských věd Prof. RNDr. Milan Meloun, DrSc. (Univerzita Pardubice, Pardubice) 20.-24. června 2011 Tato prezentace je spolufinancována
UNIVERZITA PARDUBICE Fakulta chemicko-technologická Katedra analytické chemie Nám. Čs. Legií 565, Pardubice
UNIVERZITA PARDUBICE Fakulta chemicko-technologická Katedra analytické chemie Nám. Čs. Legií 565, 532 10 Pardubice 10. licenční studium chemometrie STATISTICKÉ ZPRACOVÁNÍ DAT Semestrální práce KALIBRACE
UNIVERZITA PARDUBICE
UNIVERZITA PARDUBICE Fakulta chemicko technologická Katedra analytické chemie Licenční studium chemometrie na téma Tvorba nelineárních regresních modelů v analýze dat Vedoucí licenčního studia Prof. RNDr.
Univerzita Pardubice Fakulta chemicko technologická Katedra analytické chemie Licenční studium Management systému jakosti
Univerzita Pardubice Fakulta chemicko technologická Katedra analytické chemie Licenční studium Management systému jakosti 3.3 v analýze dat Autor práce: Přednášející: Prof. RNDr. Milan Meloun, DrSc Pro
Tvorba nelineárních regresních
Univerzita Pardubice Fakulta chemicko technologická Katedra analytické chemie Licenční studium chemometrie Statistické zpracování dat Tvorba nelineárních regresních modelů v analýze dat Zdravotní ústav
Statistická analýza jednorozměrných dat
Statistická analýza jednorozměrných dat Prof. RNDr. Milan Meloun, DrSc. Univerzita Pardubice, Pardubice 31.ledna 2011 Tato prezentace je spolufinancována Evropským sociálním fondem a státním rozpočtem
S E M E S T R Á L N Í
Univerzita Pardubice Fakulta chemicko-technologická Katedra analytické chemie S E M E S T R Á L N Í P R Á C E Licenční studium Statistické zpracování dat při managementu jakosti Předmět ANOVA analýza rozptylu
Statistická analýza jednorozměrných dat
Statistická analýza jednorozměrných dat Prof. RNDr. Milan Meloun, DrSc. Univerzita Pardubice, Pardubice 31.ledna 2011 Tato prezentace je spolufinancována Evropským sociálním fondem a státním rozpočtem
Kalibrace a limity její přesnosti
Univerzita Pardubice Fakulta chemicko technologická Katedra analytické chemie Licenční studium chemometrie Statistické zpracování dat Kalibrace a limity její přesnosti Zdravotní ústav se sídlem v Ostravě
Pravděpodobnost v závislosti na proměnné x je zde modelován pomocí logistického modelu. exp x. x x x. log 1
Logistická regrese Menu: QCExpert Regrese Logistická Modul Logistická regrese umožňuje analýzu dat, kdy odezva je binární, nebo frekvenční veličina vyjádřená hodnotami 0 nebo 1, případně poměry v intervalu
Univerzita Pardubice Fakulta chemicko-technologická Katedra analytické chemie STATISTICKÉ ZPRACOVÁNÍ EXPERIMENTÁLNÍCH DAT
Univerzita Pardubice Fakulta chemicko-technologická Katedra analytické chemie STATISTICKÉ ZPRACOVÁNÍ EXPERIMENTÁLNÍCH DAT STATISTICKÁ ANALÝZA JEDNOROZMĚRNÝCH DAT Seminární práce 1 Brno, 2002 Ing. Pavel
UNIVERZITA PARDUBICE
UNIVERZITA PARDUBICE Fakulta chemicko-technologická Katedra analytické chemie Vedoucí studia a odborný garant: Prof. RNDr. Milan Meloun, DrSc. Vyučující: Prof. RNDr. Milan Meloun, DrSc. Autor práce: ANDRII
3.4 Určení vnitřní struktury analýzou vícerozměrných dat
3. Určení vnitřní struktury analýzou vícerozměrných dat. Metoda hlavních komponent PCA Zadání: Byly provedeny analýzy chladící vody pro odběrové místa. Byly stanoveny parametry - ph, vodivost, celková
Porovnání dvou výběrů
Porovnání dvou výběrů Menu: QCExpert Porovnání dvou výběrů Tento modul je určen pro podrobnou analýzu dvou datových souborů (výběrů). Modul poskytuje dva postupy analýzy: porovnání dvou nezávislých výběrů
Odhalení skryté struktury a vnitřních vazeb dat metodami vícerozměrné statistické analýzy
Odhalení skryté struktury a vnitřních vazeb dat metodami vícerozměrné statistické analýzy Prof. RNDr. Milan Meloun, DrSc, Katedra analytické chemie, Univerzita Pardubice, 532 10 Pardubice, milan. meloun@upce.
Statistická analýza. jednorozměrných dat
Univerzita Pardubice Fakulta chemicko technologická Katedra analytické chemie icenční studium chemometrie Statistické zpracování dat Statistická analýza jednorozměrných dat Zdravotní ústav se sídlem v
UNIVERZITA PARDUBICE Fakulta chemicko-technologická Katedra analytické chemie. Nám. Čs. Legií 565, Pardubice. Semestrální práce ANOVA 2015
UNIVERZITA PARDUBICE Fakulta chemicko-technologická Katedra analytické chemie Nám. Čs. Legií 565, 532 10 Pardubice 15. licenční studium INTERAKTIVNÍ STATISTICKÁ ANALÝZA DAT Semestrální práce ANOVA 2015
Univerzita Pardubice Fakulta chemicko technologická Katedra analytické chemie Licenční studium chemometrie
Univerzita Pardubice Fakulta chemicko technologická Katedra analytické chemie Licenční studium chemometrie Statistické zpracování dat ANOVA Zdravotní ústav se sídlem v Ostravě Odbor hygienických laboratoří
vzorek1 0.0033390 0.0047277 0.0062653 0.0077811 0.0090141... vzorek 30 0.0056775 0.0058778 0.0066916 0.0076192 0.0087291
Vzorová úloha 4.16 Postup vícerozměrné kalibrace Postup vícerozměrné kalibrace ukážeme na úloze C4.10 Vícerozměrný kalibrační model kvality bezolovnatého benzinu. Dle následujících kroků na základě naměřených
Kvantily a písmenové hodnoty E E E E-02
Na úloze ukážeme postup průzkumové analýzy dat. Při výrobě calciferolu se provádí kontrola meziproduktu 3,5 DNB esteru calciferolu metodou HPLC. Sleduje se také obsah přítomného ergosterinu jako nečistoty,
Semestrální práce. 2. semestr
Licenční studium č. 89002 Semestrální práce 2. semestr Tvorba lineárních regresních modelů při analýze dat Příklad 1 Porovnání dvou regresních přímek u jednoduchého lineárního regresního modelu. Počet
UNIVERZITA PARDUBICE Fakulta chemicko-technologická Katedra analytické chemie Nám. Čs. Legií 565, Pardubice
UNIVERZITA PARDUBICE Fakulta chemicko-technologická Katedra analytické chemie Nám. Čs. Legií 565, 532 10 Pardubice 10. licenční studium chemometrie STATISTICKÉ ZPRACOVÁNÍ DAT Semestrální práce KLASIFIKACE
Klasifikace analýzou vícerozměrných dat
Univerzita Pardubice Fakulta chemicko technologická Katedra analytické chemie Licenční studium chemometrie Statistické zpracování dat Klasifikace analýzou vícerozměrných dat Zdravotní ústav se sídlem v
POLYNOMICKÁ REGRESE. Jedná se o regresní model, který je lineární v parametrech, ale popisuje nelineární závislost mezi proměnnými.
POLYNOMICKÁ REGRESE Jedná se o regresní model, který je lineární v parametrech, ale popisuje nelineární závislost mezi proměnnými. y = b 0 + b 1 x + b 2 x 2 + + b n x n kde b i jsou neznámé parametry,
Statistika pro geografy
Statistika pro geografy 2. Popisná statistika Mgr. David Fiedor 23. února 2015 Osnova 1 2 3 Pojmy - Bodové rozdělení četností Absolutní četnost Absolutní četností hodnoty x j znaku x rozumíme počet statistických
http: //meloun.upce.cz,
Porovnání rozlišovací schopnosti regresní analýzy spekter a spolehlivosti Prof. RNDr. Milan Meloun, DrSc. Katedra analytické chemie, Chemickotechnologická fakulta, Univerzita Pardubice, nám. s. Legií 565,
Grafický a číselný popis rozložení dat 3.1 Způsoby zobrazení dat Metody zobrazení kvalitativních a ordinálních dat Metody zobrazení kvan
1 Úvod 1.1 Empirický výzkum a jeho etapy 1.2 Význam teorie pro výzkum 1.2.1 Konstrukty a jejich operacionalizace 1.2.2 Role teorie ve výzkumu 1.2.3 Proces ověření hypotéz a teorií 1.3 Etika vědecké práce
ANOVA. Semestrální práce UNIVERZITA PARDUBICE. Fakulta chemicko-technologická Katedra analytické chemie
UNIVERZITA PARDUBICE Fakulta chemicko-technologická Katedra analytické chemie ANOVA Semestrální práce Licenční studium Galileo Interaktivní statistická analýza dat Brno 2015 Ing. Petra Hlaváčková, Ph.D.
UNIVERZITA PARDUBICE
UNIVERZITA PARDUBICE Fakulta chemicko technologická Katedra analytické chemie Licenční studium chemometrie na téma Kalibrace a limity její přesnosti Vedoucí licenčního studia Prof. RNDr. Milan Meloun,
1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.
Prostá regresní a korelační analýza 1 1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004. Problematika závislosti V podstatě lze rozlišovat mezi závislostí nepodstatnou, čili náhodnou
Regresní a korelační analýza
Regresní a korelační analýza Mějme dvojici proměnných, které spolu nějak souvisí. x je nezávisle (vysvětlující) proměnná y je závisle (vysvětlovaná) proměnná Chceme zjistit funkční závislost y = f(x).
SEMESTRÁLNÍ PRÁCE 3.5 Klasifikace analýzou vícerozměrných dat
UNIVERZITA PARDUBICE FAKULTA CHEMICKO-TECHNOLOGICKÁ KATEDRA ANALYTICKÉ CHEMIE LICENČNÍ STUDIUM - STATISTICKÉ ZPRACOVÁNÍ DAT SEMESTRÁLNÍ PRÁCE Ing. Věra Fialová BIOPHARM VÝZKUMNÝ ÚSTAV BIOFARMACIE A VETERINÁRNÍCH
Faktorová analýza (FACT)
Faktorová analýza (FAC) Podobně jako metoda hlavních komponent patří také faktorová analýza mezi metody redukce počtu původních proměnných. Ve faktorové analýze předpokládáme, že každou vstupující proměnnou
Plánování experimentu
Fakulta chemicko technologická Katedra analytické chemie licenční studium Management systému jakosti Autor: Ing. Radek Růčka Přednášející: Prof. Ing. Jiří Militký, CSc. 1. LEPTÁNÍ PLAZMOU 1.1 Zadání Proces
Kalibrace a limity její přesnosti
Univerzita Pardubice Fakulta chemicko-technologická Katedra analytické chemie Licenční studium GALILEO a limity její přesnosti Seminární práce Monika Vejpustková leden 2016 OBSAH Úloha 1. Lineární kalibrace...
Kalibrace a limity její přesnosti
Univerzita Pardubice Fakulta chemicko-technologická Katedra analytické chemie Kalibrace a limity její přesnosti Semestrální práce Licenční studium GALILEO Interaktivní statistická analýza dat Brno, 2015
UNIVERZITA PARDUBICE CHEMICKO-TECHNOLOGICKÁ FAKULTA KATEDRA ANALYTICKÉ CHEMIE
UNIVERZITA PARDUBICE CHEMICKO-TECHNOLOGICKÁ FAKULTA KATEDRA ANALYTICKÉ CHEMIE STATISTICKÁ ANALÝZA JEDNOROZMĚRNÝCH DAT V OSTRAVĚ 20.3.2006 MAREK MOČKOŘ PŘÍKLAD Č.1 : ANALÝZA VELKÝCH VÝBĚRŮ Zadání: Pro kontrolu
4 STATISTICKÁ ANALÝZA VÍCEROZMĚRNÝCH DAT
4 SAISICKÁ ANALÝZA VÍCEROZMĚRNÝCH DA V technické biologické ale také lékařské praxi se často vedle informací obsažených v náhodném skaláru ξ vyskytují i informace obsažené v náhodném vektoru ξ s m složkami
Univerzita Pardubice Fakulta chemicko-technologická Katedra analytické chemie ANOVA. Semestrální práce
Univerzita Pardubice Fakulta chemicko-technologická Katedra analytické chemie ANOVA Semestrální práce Licenční studium GALILEO Interaktivní statistická analýza dat Brno, 2015 Doc. Mgr. Jan Muselík, Ph.D.
Regresní a korelační analýza
Regresní a korelační analýza Mějme dvojici proměnných, které spolu nějak souvisí. x je nezávisle (vysvětlující) proměnná y je závisle (vysvětlovaná) proměnná Chceme zjistit funkční závislost y = f(x).
Dva případy chybného rozhodnutí při testování: a) Testační statistika padne mimo obor přijetí nulové H hypotézy O, tj.
Uvedeme obecný postup statistického testování:. Formulace nulové H 0a alternativní hpotéz H A.. Volba hladin významnosti α.. Volba testační statistik např... Určení kritického oboru testové charakteristik.
Testování hypotéz o parametrech regresního modelu
Testování hypotéz o parametrech regresního modelu Ekonometrie Jiří Neubauer Katedra kvantitativních metod FVL UO Brno kancelář 69a, tel. 973 442029 email:jiri.neubauer@unob.cz Jiří Neubauer (Katedra UO
Obr. 1: Vizualizace dat pacientů, kontrolních subjektů a testovacího subjektu.
Řešení příkladu - klasifikace testovacího subjektu pomocí Bayesova klasifikátoru: ata si vizualizujeme (Obr. ). Objem mozkových komor 9 8 7 6 5 pacienti kontroly testovací subjekt 5 6 Objem hipokampu Obr.
PRŮZKUMOVÁ ANALÝZA JEDNOROZMĚRNÝCH DAT Exploratory Data Analysis (EDA)
PRŮZKUMOVÁ ANALÝZA JEDNOROZMĚRNÝCH DAT Exploratory Data Analysis (EDA) Reprezentativní náhodný výběr: 1. Prvky výběru x i jsou vzájemně nezávislé. 2. Výběr je homogenní, tj. všechna x i jsou ze stejného
POPISNÁ STATISTIKA Komentované řešení pomocí programu Statistica
POPISNÁ STATISTIKA Komentované řešení pomocí programu Statistica Program Statistica I Statistica je velmi podobná Excelu. Na základní úrovni je to klikací program určený ke statistickému zpracování dat.
UNIVERZITA PARDUBICE
UNIVERZITA PARDUBICE Fakulta chemicko-technologická Katedra analytické chemie Licenční studium chemometrie na téma Statistické zpracování dat Semestrální práce ze 6. soustředění Předmět: 3.3 Tvorba nelineárních
Charakteristika datového souboru
Zápočtová práce z předmětu Statistika Vypracoval: 10. 11. 2014 Charakteristika datového souboru Zadání: Při kontrole dodržování hygienických norem v kuchyni se prováděl odběr vzduchu a pomocí filtru Pallflex
Inovace bakalářského studijního oboru Aplikovaná chemie
http://aplchem.upol.cz CZ.1.07/2.2.00/15.0247 Tento projekt je spolufinancován Evropským sociálním fondem a státním rozpočtem České republiky. Regrese Závislostproměnných funkční y= f(x) regresní y= f(x)
RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr.
Analýza dat pro Neurovědy RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr. Jaro 2014 Institut biostatistiky Janoušová, a analýz Dušek: Analýza dat pro neurovědy Blok 7 Jak hodnotit vztah spojitých proměnných
Náhodné vektory a matice
Náhodné vektory a matice Jiří Militký Katedra textilních materiálů Technická Universita Liberec, Červeně označené slide jsou jen pro doplnění informací a nezkouší se. Symbolika A B Jev jistý S (nastane
UNIVERZITA OBRANY Fakulta ekonomiky a managementu. Aplikace STAT1. Výsledek řešení projektu PRO HORR2011 a PRO GRAM2011 3. 11.
UNIVERZITA OBRANY Fakulta ekonomiky a managementu Aplikace STAT1 Výsledek řešení projektu PRO HORR2011 a PRO GRAM2011 Jiří Neubauer, Marek Sedlačík, Oldřich Kříž 3. 11. 2012 Popis a návod k použití aplikace
Příloha č. 1 Grafy a protokoly výstupy z adstatu
1 Příklad 3. Stanovení Si metodou OES Byly porovnávány naměřené hodnoty Si na automatickém analyzátoru OES s atestovanými hodnotami. Na základě testování statistické významnosti regresních parametrů (úseku
Statistická analýza jednorozměrných dat
Statistická analýza jednorozměrných dat Prof. RNDr. Milan Meloun, DrSc. Univerzita Pardubice, Pardubice 31.ledna 2011 Tato prezentace je spolufinancována Evropským sociálním fondem a státním rozpočtem
AVDAT Klasický lineární model, metoda nejmenších
AVDAT Klasický lineární model, metoda nejmenších čtverců Josef Tvrdík Katedra informatiky Přírodovědecká fakulta Ostravská univerzita Lineární model y i = β 0 + β 1 x i1 + + β k x ik + ε i (1) kde y i
Testování hypotéz o parametrech regresního modelu
Statistika II Katedra ekonometrie FVL UO Brno kancelář 69a, tel. 973 442029 email:jiri.neubauer@unob.cz Lineární regresní model kde Y = Xβ + e, y 1 e 1 β y 2 Y =., e = e 2 x 11 x 1 1k., X =....... β 2,
Problematika analýzy rozptylu. Ing. Michael Rost, Ph.D.
Problematika analýzy rozptylu Ing. Michael Rost, Ph.D. Úvod do problému Již umíte testovat shodu dvou středních hodnot prostřednictvím t-testů. Otázka: Jaké předpoklady musí být splněny, abyste mohli použít
Tvorba nelineárních regresních modelů v analýze dat
Univerzita Pardubice Fakulta chemicko-technologická Katedra analytické chemie Tvorba nelineárních regresních modelů v analýze dat Semestrální práce Licenční studium GALILEO Interaktivní statistická analýza
UNIVERZITA PARDUBICE Fakulta chemicko-technologická Katedra analytické chemie
UNIVERZITA PARDUBICE Fakulta chemicko-technologická Katedra analytické chemie Licenční studium Pythagoras Statistické zpracování experimentálních dat Semestrální práce ANOVA vypracoval: Ing. David Dušek
ANALÝZA DAT V R 3. POPISNÉ STATISTIKY, NÁHODNÁ VELIČINA. Mgr. Markéta Pavlíková Katedra pravděpodobnosti a matematické statistiky MFF UK
ANALÝZA DAT V R 3. POPISNÉ STATISTIKY, NÁHODNÁ VELIČINA Mgr. Markéta Pavlíková Katedra pravděpodobnosti a matematické statistiky MFF UK www.biostatisticka.cz POPISNÉ STATISTIKY - OPAKOVÁNÍ jedna kvalitativní
VŠB Technická univerzita Ostrava Fakulta elektrotechniky a informatiky
VŠB Technická univerzita Ostrava Fakulta elektrotechniky a informatiky PRAVDĚPODOBNOST A STATISTIKA Zadání 1 JMÉNO STUDENTKY/STUDENTA: OSOBNÍ ČÍSLO: JMÉNO CVIČÍCÍ/CVIČÍCÍHO: DATUM ODEVZDÁNÍ DOMÁCÍ ÚKOL
Simulace. Simulace dat. Parametry
Simulace Simulace dat Menu: QCExpert Simulace Simulace dat Tento modul je určen pro generování pseudonáhodných dat s danými statistickými vlastnostmi. Nabízí čtyři typy rozdělení: normální, logaritmicko-normální,
VŠB Technická univerzita Ostrava Fakulta elektrotechniky a informatiky SMAD
VŠB Technická univerzita Ostrava Fakulta elektrotechniky a informatiky JMÉNO STUDENTKY/STUDENTA: OSOBNÍ ČÍSLO: JMÉNO CVIČÍCÍ/CVIČÍCÍHO: SMAD Cvičení Ostrava, AR 2016/2017 Popis datového souboru Pro dlouhodobý
Dobývání znalostí. Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze
Dobývání znalostí Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze Dobývání znalostí Pravděpodobnost a učení Doc. RNDr. Iveta Mrázová,
TECHNICKÁ UNIVERZITA V LIBERCI SEMESTRÁLNÍ PRÁCE
TECHNICKÁ UNIVERZITA V LIBERCI Ekonomická fakulta Studentská 2 461 17 Liberec 1 SEMESTRÁLNÍ PRÁCE STATISTICKÝ ROZBOR DAT Z DOTAZNÍKOVÝCH ŠETŘENÍ Gabriela Dlasková, Veronika Bukovinská Sára Kroupová, Dagmar
Vícerozměrná rozdělení
Vícerozměrná rozdělení 7. září 0 Učivo: Práce s vícerozměrnými rozděleními. Sdružené, marginální, podmíněné rozdělení pravděpodobnosti. Vektorová střední hodnota. Kovariance, korelace, kovarianční matice.
Pravděpodobnost a matematická statistika
Pravděpodobnost a matematická statistika Příklady k přijímacím zkouškám na doktorské studium 1 Popisná statistika Určete aritmetický průměr dat, zadaných tabulkou hodnot x i a četností n i x i 1 2 3 n
SEMESTRÁLNÍ PRÁCE. Klasifikace analýzou vícerozměrných dat. Ing. Pavel Bouchalík
SEMESTRÁLNÍ PRÁCE Klasifikace analýzou vícerozměrných dat Ing. Pavel Bouchalík 1. ÚVOD Tato semestrální práce je písemným vypracováním zkouškových otázek z okruhu Klasifikace analýzou vícerozměrných dat.
STATISTIKA A INFORMATIKA - bc studium OZW, 1.roč. (zkušební otázky)
STATISTIKA A INFORMATIKA - bc studium OZW, 1.roč. (zkušební otázky) 1) Význam a využití statistiky v biologických vědách a veterinárním lékařství ) Rozdělení znaků (veličin) ve statistice 3) Základní a
JEDNOVÝBĚROVÉ TESTY. Komentované řešení pomocí programu Statistica
JEDNOVÝBĚROVÉ TESTY Komentované řešení pomocí programu Statistica Vstupní data Data umístěná v excelovském souboru překopírujeme do tabulky ve Statistice a pojmenujeme proměnné, viz prezentace k tématu
You created this PDF from an application that is not licensed to print to novapdf printer (http://www.novapdf.com)
Závislost náhodných veličin Úvod Předchozí přednášky: - statistické charakteristiky jednoho výběrového nebo základního souboru - vztahy mezi výběrovým a základním souborem - vztahy statistických charakteristik
6. Lineární regresní modely
6. Lineární regresní modely 6.1 Jednoduchá regrese a validace 6.2 Testy hypotéz v lineární regresi 6.3 Kritika dat v regresním tripletu 6.4 Multikolinearita a polynomy 6.5 Kritika modelu v regresním tripletu
Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.
Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz Pravděpodobnost a matematická statistika 010 1.týden (0.09.-4.09. ) Data, typy dat, variabilita, frekvenční analýza
Úloha 1: Lineární kalibrace
Úloha 1: Lineární kalibrace U pacientů s podezřením na rakovinu prostaty byl metodou GC/MS měřen obsah sarkosinu v moči. Pro kvantitativní stanovení bylo nutné změřit řadu kalibračních roztoků o různé
Charakterizace rozdělení
Charakterizace rozdělení Momenty f(x) f(x) f(x) μ >μ 1 σ 1 σ >σ 1 g 1 g σ μ 1 μ x μ x x N K MK = x f( x) dx 1 M K = x N CK = ( x M ) f( x) dx ( xi M 1 C = 1 K 1) N i= 1 K i K N i= 1 K μ = E ( X ) = xf
Univerzita Pardubice 8. licenční studium chemometrie
Univerzita Pardubice 8. licenční studium chemometrie Statistické zpracování dat při managementu jakosti Semestrální práce Metody s latentními proměnnými a klasifikační metody Ing. Jan Balcárek, Ph.D. vedoucí
KALIBRACE A LIMITY JEJÍ PŘESNOSTI. Semestrální práce UNIVERZITA PARDUBICE. Fakulta chemicko-technologická Katedra analytické chemie
UNIVERZITA PARDUBICE Fakulta chemicko-technologická Katedra analytické chemie KALIBRACE A LIMITY JEJÍ PŘESNOSTI Semestrální práce Licenční studium Galileo Interaktivní statistická analýza dat Brno 2016
Jednofaktorová analýza rozptylu
I I.I Jednofaktorová analýza rozptylu Úvod Jednofaktorová analýza rozptylu (ANOVA) se využívá při porovnání několika středních hodnot. Často se využívá ve vědeckých a lékařských experimentech, při kterých
X = x, y = h(x) Y = y. hodnotám x a jedné hodnotě y. Dostaneme tabulku hodnot pravděpodobnostní
..08 8cv7.tex 7. cvičení - transformace náhodné veličiny Definice pojmů a základní vzorce Je-li X náhodná veličina a h : R R je měřitelná funkce, pak náhodnou veličinu Y, která je definovaná vztahem X
KGG/STG Statistika pro geografy
KGG/STG Statistika pro geografy 5. Odhady parametrů základního souboru Mgr. David Fiedor 16. března 2015 Vztahy mezi výběrovým a základním souborem Osnova 1 Úvod, pojmy Vztahy mezi výběrovým a základním
ANALÝZA A KLASIFIKACE DAT
ANALÝZA A KLASIFIKACE DAT prof. Ing. Jiří Holčík, CSc. INVESTICE Institut DO biostatistiky ROZVOJE VZDĚLÁVÁNÍ a analýz IV. LINEÁRNÍ KLASIFIKACE PRINCIPY KLASIFIKACE pomocí diskriminačních funkcí funkcí,
IDENTIFIKACE BIMODALITY V DATECH
IDETIFIKACE BIMODALITY V DATECH Jiří Militky Technická universita v Liberci e- mail: jiri.miliky@vslib.cz Milan Meloun Universita Pardubice, Pardubice Motto: Je normální předpokládat normální data? Zvláštnosti
Tvorba nelineárních regresních modelů v analýze dat
Univerzita Pardubice Fakulta chemicko-technologická, Katedra analytické chemie Licenční studium GALILEO Interaktivní statistická analýza dat Semestrální práce z předmětu Tvorba nelineárních regresních
2 Zpracování naměřených dat. 2.1 Gaussův zákon chyb. 2.2 Náhodná veličina a její rozdělení
2 Zpracování naměřených dat Důležitou součástí každé experimentální práce je statistické zpracování naměřených dat. V této krátké kapitole se budeme věnovat určení intervalů spolehlivosti získaných výsledků
Univerzita Pardubice SEMESTRÁLNÍ PRÁCE. Tvorba lineárních regresních modelů. 2015/2016 RNDr. Mgr. Leona Svobodová, Ph.D.
Univerzita Pardubice SEMESTRÁLNÍ PRÁCE Tvorba lineárních regresních modelů 2015/2016 RNDr. Mgr. Leona Svobodová, Ph.D. Úloha 1 Porovnání regresních přímek u jednoduchého lineárního regresního modelu Porovnání