Profilování vzorků heroinu s využitím vícerozměrné statistické analýzy



Podobné dokumenty
Úvodem Dříve les než stromy 3 Operace s maticemi

Univerzita Pardubice 8. licenční studium chemometrie

Příklad 2: Obsah PCB v játrech zemřelých lidí. Zadání: Data: Program:

Faktorová analýza (FACT)

Vyhodnocení průměrných denních analýz kalcinátu ananasového typu. ( Metoda hlavních komponent )

Počítačová analýza vícerozměrných dat v oborech přírodních, technických a společenských věd

Fakulta chemicko-technologická Katedra analytické chemie. 3.2 Metody s latentními proměnnými a klasifikační metody

Fakulta chemicko technologická Katedra analytické chemie

SEMESTRÁLNÍ PRÁCE 3.5 Klasifikace analýzou vícerozměrných dat

PŘÍKLAD 4.5 Chromatografická analýza farmakologických sloučenin Byly měřeny hodnoty R F pro 20 sloučenin s 18 eluenty. Žádné eluční činidlo však nepro

Grafický a číselný popis rozložení dat 3.1 Způsoby zobrazení dat Metody zobrazení kvalitativních a ordinálních dat Metody zobrazení kvan

Univerzita Pardubice Fakulta chemicko technologická Katedra analytické chemie Licenční studium Management systému jakosti

Odhalení skryté struktury a vnitřních vazeb dat metodami vícerozměrné statistické analýzy

Statistická analýza jednorozměrných dat

Počítačová analýza vícerozměrných dat

4 STATISTICKÁ ANALÝZA VÍCEROZMĚRNÝCH DAT

Kanonická korelační analýza

Předmět: 1.1 Využití tabulkového procesu jako laboratorního deníku Přednášející: Doc. Ing. Stanislava Šimonová, Ph.D., Doc. Ing. Milan Javůrek, CSc.

UNIVERZITA PARDUBICE Fakulta chemicko-technologická Katedra analytické chemie Nám. Čs. Legií 565, Pardubice

Fakulta chemicko-technologická Katedra analytické chemie. Licenční studium Statistické zpracování dat při managementu jakosti. Semestrální práce:

UNIVERZITA PARDUBICE Fakulta chemicko-technologická Katedra analytické chemie Nám. Čs. Legií 565, Pardubice

Diskriminační analýza hodnocení rozdílů mezi 2 nebo více skupinami objektů charakterizovanými více znaky

SEMESTRÁLNÍ PRÁCE. Určení vnitřní struktury analýzou vícerozměrných dat. Ing. Pavel Bouchalík

Závěrečná práce Ing. Jiří Pokorný

vzorek vzorek

Úvod do vícerozměrných metod. Statistické metody a zpracování dat. Faktorová a komponentní analýza (Úvod do vícerozměrných metod)

Univerzita Pardubice FAKULTA CHEMICKO TECHNOLOGICKÁ

Statistické metody a zpracování dat. IX Faktorová a komponentní analýza (Úvod do vícerozměrných metod) Petr Dobrovolný

POLYNOMICKÁ REGRESE. Jedná se o regresní model, který je lineární v parametrech, ale popisuje nelineární závislost mezi proměnnými.

Cvičná bakalářská zkouška, 1. varianta

Testování hypotéz o parametrech regresního modelu

Univerzita Pardubice. Fakulta chemicko-technologická. Katedra analytické chemie. Semestrální práce. Licenční studium

Optimalizace parametrů hmotnostního detektoru (MS/MS) s využitím vícerozměrných statistických analýz

UNIVERZITA PARDUBICE

3.4 Určení vnitřní struktury analýzou vícerozměrných dat

Vícerozměrné statistické metody

3.2 Metody s latentními proměnnými a klasifikační metody

Univerzita Pardubice Fakulta chemicko-technologická Katedra analytické chemie STATISTICKÉ ZPRACOVÁNÍ EXPERIMENTÁLNÍCH DAT

Statistické metody v ekonomii. Ing. Michael Rost, Ph.D.

Klasifikace podzemních vod diskriminační analýzou

AVDAT Mnohorozměrné metody metody redukce dimenze

Semestrální práce. 3.1 Matematické principy analýzy vícerozměrných dat

Statistická analýza jednorozměrných dat

Statistické vyhodnocení průzkumu funkční gramotnosti žáků 4. ročníku ZŠ

Testování hypotéz o parametrech regresního modelu

Vícerozm rná analýza dat metodou hlavních komponent a shluk

, Brno Hanuš Vavrčík Základy statistiky ve vědě

Odhalení skryté struktury a vnitřních vazeb dat vícerozměrnou statistickou analýzou pitné vody

AVDAT Mnohorozměrné metody, metody klasifikace

Přednáška 13 Redukce dimenzionality

UNIVERZITA PARDUBICE Fakulta chemicko-technologická Katedra analytické chemie Nám. Čs. Legií 565, Pardubice

UNIVERZITA PARDUBICE

UNIVERZITA PARDUBICE Fakulta chemicko-technologická Katedra analytické chemie

Obr. 1: Vizualizace dat pacientů, kontrolních subjektů a testovacího subjektu.

Počítačová analýza vícerozměrných dat v oborech přírodních, technických a společenských věd

STATISTIKA A INFORMATIKA - bc studium OZW, 1.roč. (zkušební otázky)

DEFINICE Z LINEÁRNÍ ALGEBRY

Statistika. Regresní a korelační analýza Úvod do problému. Roman Biskup

Vícerozměrné metody. PSY117/454 Statistická analýza dat v psychologii Přednáška 12. Schematický úvod

Obsah Úvod Kapitola 1 Než začneme Kapitola 2 Práce s hromadnými daty před analýzou

Státnice odborné č. 20

Vícerozměrné statistické metody

Předpoklad o normalitě rozdělení je zamítnut, protože hodnota testovacího kritéria χ exp je vyšší než tabulkový 2

Vícerozměrná geometrická analýza dat

Univerzita Pardubice Fakulta chemicko technologická Katedra analytické chemie Licenční studium chemometrie

odlehlých hodnot pomocí algoritmu k-means

5 Vícerozměrná data - kontingenční tabulky, testy nezávislosti, regresní analýza

Třídění statistických dat

Shluková analýza. Jiří Militky. Analýza experimentálních dat V. Červeně označené slide jsou jen pro doplnění informací a nezkouší se.

Shluková analýza dat a stanovení počtu shluků

STATISTICKÉ METODY; ZÍSKÁVÁNÍ INFORMACÍ Z DRUHOVÝCH A ENVIRONMENTÁLNÍCH DAT

Chyby spektrometrických metod

You created this PDF from an application that is not licensed to print to novapdf printer (

Regresní analýza 1. Regresní analýza

S E M E S T R Á L N Í

Příloha 3. Klastrová analýza shlukování metodou k-průměrů

SEMESTRÁLNÍ PRÁCE. Klasifikace analýzou vícerozměrných dat. Ing. Pavel Bouchalík

Úvod do problematiky měření

UNIVERZITA PARDUBICE

Vícerozměrné statistické metody

MATEMATICKÉ PRINCIPY VÍCEROZMĚRNÉ ANALÝZY DAT

Klasifikace analýzou vícerozměrných dat

Statistická analýza dat

Spektrofotometrické stanovení pk léčiv

Vícerozměrné statistické metody

PRŮZKUMOVÁ ANALÝZA JEDNOROZMĚRNÝCH DAT Exploratory Data Analysis (EDA)

Lineární algebra Operace s vektory a maticemi

11.Metody molekulové spektrometrie pro kvantitativní analýzu léčiv

1. Vlastnosti diskretních a číslicových metod zpracování signálů... 15

Počítačová analýza vícerozměrných dat v oborech přírodních, technických a společenských věd

Kalibrace a limity její přesnosti

Statistická analýza jednorozměrných dat

UNIVERZITA PARDUBICE FAKULTA EKONOMICKO SPRÁVNÍ BAKALÁŘSKÁ PRÁCE 2008 PETR ŠIMER

Plánování experimentu

Regresní a korelační analýza

Závislost obsahu lipoproteinu v krevním séru na třech faktorech ( Lineární regresní modely )

Faktorová analýza. PSY252 Statistická analýza dat v psychologii II

PRAVDĚPODOBNOST A STATISTIKA

AVDAT Klasický lineární model, metoda nejmenších

Transkript:

Profilování vzorků heroinu s využitím vícerozměrné statistické analýzy Autor práce : RNDr. Ivo Beroun,CSc. Vedoucí práce: prof. RNDr. Milan Meloun, DrSc.

PROFILOVÁNÍ Profilování = klasifikace a rozlišování jednotlivých vzorků ilegálně připravených drog na základě zjištění identity a relativního množství různých sloučenin zvolených poté jako markanty (v tomto případě významných doprovodných látek v heroinu stopových organických nečistot, tzv. by-produktů, pocházejících z opia nebo vzniklých z původních obsahových nečistot v průběhu vlastní výroby heroinu z opia). Výskyt a množství doprovodných látek je do značné míry závislé na genetickém založení rostlin opiového máku a na podmínkách prostředí (půdní faktory, klimatické podmínky atd.)

DATA Vstupní zdrojová matice obsahuje 41 řádků (tj. 41 reálných objektů vzorků heroinu ze záchytů na území ČR) a 9 sloupců (tj. 9 znaků označených zde písmennými indexy A až CH zvolených nejčastěji se vyskytujících nečistot, jejichž kvantitativní zastoupení odráží v matici uvedené plochy jejich chromatografických píků získané za shodných podmínek analýzy). Data jsou převzata se svolením autorů z práce realizované na KÚ Praha v roce 2004 s tím, že původní počet znaků (nečistot) 14 byl zredukován na 9 (byly zvoleny a zahrnuty pouze jednoznačně identifikované nečistoty metodou GC/MSD a nebyly použity ty, které jsou v původní práci zahrnuty s označením neznámý ). Původní práce nebyla vyhodnocena s využitím vícerozměrné statistické analýzy (použito prvotní rychlé roztřídění dat na principu sortování setřásání dat, kdy jako kritérium podobnosti byla zvolena hodnota úhlu α mezi vektory - jedna n-tice ploch j-tého vzorku je porovnávána se všemi ostatními a na základě hodnoty α je vybrána nejpodobnější n-tice).

ŘEŠENÍ Zdrojová data byla statisticky zpracována s využitím softwarových programů STATISTICA 6, NCSS 2002 a OPstat s následujícím strukturováním postupu: 1. GRAFY PŮVODNÍCH DAT 2. EXPLORATORNÍ ANALÝZA STRUKTURY OBJEKTŮ 3. VYČÍSLENÍ KORELAČNÍ MATICE 4. METODA HLAVNÍCH KOMPONENT (PCA) 5. FAKTOROVÁ ANALÝZA (FA) 6. ANALÝZA SHLUKŮ (CLU) 7. VYHODNOCENÍ

1. GRAFY PŮVODNÍCH DAT Krabicové grafy proměnlivosti 9 znaků matice zdrojových dat

2. EXPLORATORNÍ ANALÝZA Symbolový graf (hvězdičky polygony znaků) objektů

3. KORELAČNÍ MATICE Hodnoty párových korelačních koeficientů mezi jednotlivými znaky (nečistotami v heroinu):

4. METODA HLAVNÍCH KOMPONENT (PCA) Metoda založená na lineární transformaci původních znaků na nové, nekorelované proměnné nazvané hlavní komponenty (základní charakteristikou každé hlavní komponenty je její míra variability). Každá hlavní komponenta představuje lineární kombinaci původních znaků. Výsledek analýzy PCA lze zobrazit v několika typech grafů:

4. METODA HLAVNÍCH KOMPONENT (PCA) Graf komponentních vah (zátěží) 1 a 2

4. METODA HLAVNÍCH KOMPONENT (PCA) Rozptylový diagram komponentního skóre pro PC 1 a 2

5. FAKTOROVÁ ANALÝZA (FA) Podobně jako metoda PCA náleží faktorová analýza mezi metody snížení dimenze, tedy redukce počtu původních znaků. Tato metoda předpokládá, že každou vstupující proměnnou lze vyjádřit jako lineární funkci nevelkého počtu latentních proměnných faktorů a jediného specifického faktoru. Významnou nabídkou FA je rotace faktorů (maximalizace zisku faktorově čistých proměnných).

5. FAKTOROVÁ ANALÝZA (FA) Rozptylový diagram faktorového skóre pro faktory 1 a 2 po rotaci

6. ANALÝZA SHLUKŮ (CLU) Analýza shluků je metodou zabývající se vyšetřováním podobnosti vícerozměrných objektů a jejich klasifikací do tříd (shluků). Diagram shluků se nazývá dendrogram (vývojový strom). Při konstrukci dendrogramů je potřebné zvolit algoritmus a typ shlukování a dále vyšetřit, jakou nejvhodnější metriku shlukování použít (posouzení míry věrohodnosti na základě kofenetického korelačního koeficientu CC a kritéria Δ):

6. ANALÝZA SHLUKŮ (CLU) Dendrogram znaků (nečistot heroinu) matice dat

6. ANALÝZA SHLUKŮ (CLU) Dendrogram objektů (vzorků heroinu) matice dat

7. VYHODNOCENÍ vhodnost použití uvedeného postupu je zde dokumentována zjištěným výskytem vzorků heroinu prakticky shodného původu (složení) v téže kmenové skupině související s jednou vyšetřovanou trestní věcí (= 1 dealer) a na druhé straně i výskytem jednotlivých vzorků nebo jejich skupinek vyčleněných z rámce kmenové skupiny, které se vymykají většinovému složení; z výsledků provedené analýzy vícerozměrných dat vyplývá, že je ji možno aplikovat na jednotlivé soubory vzorků heroinu (zajištěné k různým trestním kauzám) s uspokojivými výsledky a že je tedy možné metodiku profilování zařadit do rutinní práce se vzorky heroinu; důležitým výstupem se jeví i možné propojení mezi trestními kauzami původně řešenými jako naprosto nezávislé a to na základě zjištěných vzorků podobných nebo shodných vlastností (možná shoda v původu).

Jaké jsou výhody a nevýhody při použití standardizovaných dat u PCA Předúprava dat standardizací může být důležitým krokem v řadě technik vícerozměrné analýzy dat PCA nevyjímaje. Standardizací dat rozumíme lineární transformaci dat odstraňující jejich závislost na měřících jednotkách a na parametru polohy, popř. i rozptýlení (obecný termín škálování označuje operaci týkající se jak jednotek, tak i počátku stupnice). Existuje celá řada forem standardizace dat. Výhody: právě odstranění závislosti na jednotkách a tím je daná možnost zahrnutí znaků s nejrůznějším fyzikálním, resp. i jiným obsahem (znaky se stávají souměřitelné) a dále následné přiřazení vhodné předem dané důležitosti všem znakům. Nevýhoda: neuniversálnost (nepoužívat standardizaci plošně, ale s ohledem na charakter analyzovaných dat, aby nedošlo ke zkreslení závěrů např. je nevhodná pro znaky blízké nebo na úrovni experimentálního šumu, tj. s nízkým podílem signál/šum, kdy dochází k nežádoucímu zvýraznění významnosti těchto znaků).

Jak je definována Mahalanobisova vzdálenost objektů od průměrného objektu charakterizovaného střední hodnotou m a kovarianční maticí D Mahalanobisova vzdálenost pro prvek x i náhodného výběru je definována vztahem: MD(x i ) = [(x i m) T (D) -1 (x i m)] 1/2 kde m je odhad vektoru středních hodnot (výběrových aritmetických průměrů) a D je odhad kovarianční matice (výběrová kovarianční matice), prvky inverze kovarianční matice se (na rozdíl od kovarianční matice) mění přidáním dalších znaků a její prvky jsou tak funkcí počtu znaků. Mahalanobisova ( zobecněná ) vzdálenost se používá hlavně při indikaci vlivných bodů a při porovnání jednotlivých objektů se skupinami objektů (rozpoznávání objektů). Existuje i v robustní variantě (m nahrazuje verze robustních výběrových průměrů a D nahrazuje robustní verze kovarianční matice)