Analýza dat Meningoencephalitis



Podobné dokumenty
ZÍSKÁVÁNÍ ZNALOSTÍ Z DATABÁZÍ

ZÍSKÁVÁNÍ ZNALOSTÍ Z DATABÁZÍ

Obr.1 Žilní splavy.

Segmentace bankovních zákazníků algoritmem k- means

NEU/VC hodin praktických cvičení / blok

Familiární středomořská (Mediterranean) horečka (Fever)

Získávání dat z databází 1 DMINA 2010

Algoritmy a struktury neuropočítačů ASN - P10. Aplikace UNS v biomedicíně

Klasifikace tělesných postižení podle doby vzniku

Diagnostika a příznaky mnohočetného myelomu

VZTAH MEZI ISCHEMICKÝMI CÉVNÍMI PŘÍHODAMI A ONEMOCNĚNÍM SRDCE Z POHLEDU DIAGNOSTIKY A PREVENCE. MUDr. Michal Král


Analytické procedury v systému LISp-Miner

Ing. Petr Hájek, Ph.D. Podpora přednášky kurzu Aplikace umělé inteligence

Epilepsie. Silvia Čillíková FEL ČVUT. 9th May 2006

Připomeň: Shluková analýza

VNL. Onemocnění bílé krevní řady

Nákladová efektivita. Cíl: porovnání nákladové efektivity nových a tradičních metod pro diagnostiku ICHS. Tradiční metody: Nové metody:

Zadání semestrální práce IKTZ 2 letní semestr 2009/2010

POMOC PRO TEBE CZ.1.07/1.5.00/

Implementace laboratorní medicíny do systému vzdělávání na Univerzitě Palackého v Olomouci. reg. č.: CZ.1.07/2.2.00/

Popis sběru dat a souvisejících datových struktur AINSO GBS

kladívko, hřebík a počítačový tomograf význam neurologického vyšetření pro traumatologa

KRAJSKÁ HYGIENICKÁ STANICE MORAVSKOSLEZSKÉHO KRAJE SE SÍDLEM V OSTRAVĚ

Klasifikace Diagnostika Dif.dg Terapie. Neurologická klinika IPVZ-FTN Praha

DRG systém klasifikuje případy akutní hospitalizační péče do DRG skupin DRG skupiny = nákladově homogenní a klinicky příbuzné skupiny případů

Metodika. Registr pacientů RESET. (REgistr SElárních Tumorů) Stav k

Lymeská borrelióza epidemiologická data za rok 2014

Klíšťová encefalitida

EKONOMICKÁ PSYCHOLOGIE

(tišt ná verze) ISBN (elektronická verze ve formátu PDF)

PSYCHIATRICKÁ O ETØOVATELSKÁ PÉÈE



HRY A POHÁDKOVÉ CESTOVÁNÍ



ZÁNĚTLIVÁ ONEMOCNĚNÍ CNS. Markéta Vojtová VOŠZ a SZŠ Hradec Králové

Diabetická asociace České republiky. Závěrečná zpráva pilotního projektu

Vše co potřebujete vědět o hemoroidech. Rady pro pacienty

Pokročilé neparametrické metody. Klára Kubošová

Výběrové šetření o zdravotním stavu české populace (HIS CR 2002) Chronická nemocnost (X. díl)

Registr RESET - Prolaktinom

Střední odborné učiliště Domažlice

Diagnostika infekce Chlamydia trachomatis pomocí molekulárně genetické metody real time PCR nejen u pacientek z gynekologických zařízení

LÉKAŘSKÁ VYŠETŘENÍ A LABORATORNÍ TESTY

Získávání znalostí z dat

OR (odds ratio, poměr šancí) nebo též relativní riziko RR. Validita vyšetření nádorových markerů. Validita (určuje kvalitu testu)v % = SP/ SP+FP+FN+SN

Edukační materiál. Strattera (atomoxetin) Informace pro lékaře týkající se posouzení a monitorování kardiovaskulárních rizik u přípravku Strattera

Time management cévních mozkových příhod. Rostislav Verner Magda Fleková Zdravotnická záchranná služba Jihomoravského kraje, p.o.

Dobývání a vizualizace znalostí. Olga Štěpánková et al.

analýzy dat v oboru Matematická biologie

Pracovní celky 3.2, 3.3 a 3.4 Sémantická harmonizace - Srovnání a přiřazení datových modelů

RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr.

Co je to imunoterapie?

MUDr. Milena Bretšnajdrová, Ph.D. Prim. MUDr. Zdeněk Záboj. Odd. geriatrie Fakultní nemocnice Olomouc

Laboratorní diagnostika příušnic v Nemocnici České Budějovice a.s.

Iterační výpočty. Dokumentace k projektu č. 2 do IZP. 24. listopadu 2004

PNEUMOKOKOVÉ INFEKCE A MOŽNOSTI PREVENCE aneb CO MŮŽE ZPŮSOBIT PNEUMOKOK

Výskyt a význam infekce Borna disease virem u pacientů léčených

MISYS import dat MISYS. Import dat. II/2012 Gepro, spol. s r.o. Ing. Stanislav Tomeš

EU peníze středním školám

DOBÝVÁNÍ ZNALOSTÍ Z DATABÁZÍ

Diagnostika infarktu myokardu pomocí pravidlových systémů

Činnost oboru psychiatrie

Vybrané klinicko-biochemické hodnoty

NÁZEV ŠKOLY: Základní škola Javorník, okres Jeseník REDIZO: NÁZEV: VY_32_INOVACE_100_Nervová soustava II. AUTOR: Naděžda Čmelová ROČNÍK,

Nové léčebné možnosti v léčbě mnohočetného myelomu GROUP. Roman Hájek Lednice

ALZHEIMEROVA CHOROBA. Hana Bibrlová 3.B

Chybějící atributy a postupy pro jejich náhradu

PRINCIPY VÁLEÈNÉ CHIRURGIE

PRINCIPY VÁLEÈNÉ CHIRURGIE

STANDARDNÍ LÉČBA. MUDr. Evžen Gregora OKH FNKV Praha

Lymfoscintigrafie horních končetin u pacientek po mastektomii

Registr pacientů RESET. (REgistr SElárních Tumorů) Cushingův syndrom. export dat

Deficit antagonisty IL-1 receptoru (DIRA)

Časnou diagnostikou k lepší kvalitě života. Projekt CRAB

Miroslav Čepek. Fakulta Elektrotechnická, ČVUT. Evropský sociální fond Praha & EU: Investujeme do vaší budoucnosti

Zpřístupnění populačních epidemiologických registrů pro výuku: Národní onkologický registr ČR on-line

Předzpracování dat. Lenka Vysloužilová

K možnostem krátkodobé předpovědi úrovně znečištění ovzduší statistickými metodami. Josef Keder

Implementace laboratorní medicíny do systému vzdělávání na Univerzitě Palackého v Olomouci. reg. č.: CZ.1.07/2.2.00/

Zdravotní deník pro sledování léčby

Drogová epidemiologie (problémoví uživatelé drog) v Karlovarském kraji. I. Zdroje informací

Obsah. 1 Plnění dílčích aktivit Plnění harmonogramu projektu Plnění cílů projektu Počet center a případů...6.

Registr pacientů RESET. (REgistr SElárních Tumorů) Cushingův syndrom. export dat k

Přenosné nemoci v ČR v roce 2003

SEPSE V PRIMÁRNÍM KONTAKTU - již odpovědi, nebo stále jen otazníky?

Vyšetření CSF - technika odběru a interpretace výsledků. Schánilec P. Agudelo C. F. Hájek I.

Hodnocení a modelování populačních dat na příkladu epidemiologie vážných chorob: I. Analýza dat, princip predikcí.

Atypický průběh klíšťové encefalitidy. Bartková D., Petroušová L. Klinika infekčního lékařství FN Ostrava

Národní systém hlášení nežádoucích událostí

KONTROLNÍ A ŘÍDÍCÍ SOUSTAVY. kontrolu a řízení organismu zajišťují 2 soustavy: o nervová soustava o hormonální soustava

Srovnání hematologického analyzátoru Heska Element HT5 a veterinárního hematologického analyzátoru IDEXX ProCyte DX v klinickém prostředí

Současné trendy v epidemiologii nádorů se zaměřením na Liberecký kraj

Interpretace serologických výsledků. MUDr. Pavel Adamec Sang Lab klinická laboratoř, s.r.o.

Dobývání znalostí z databází

Neurofyziologie a pohybový systém v ontogenezi X. POMOCNÁ VYŠETŘENÍ V NEUROLOGII

Prostatitida, epididymitida Monika J. Poláčková

Návrh datového skladu z hlediska zdrojů

Transkript:

Analýza dat Meningoencephalitis Štěpán Sem 4IZ450 Dobývání znalostí z databází LS 2009/2010

1 Úvod Cílem této práce je řešení vybrané úlohy z oblasti dobývání znalostí (predikce, klasifikace, deskripce) z databází nad zadanými daty (Tsumoto, 2000). Data jsem se rozhodl analyzovat v systému Weka 1 (jak lze vytušit z úvodního listu 2 ), zadání úlohy jsem definoval na základě jednoho z typů doporučených úloh uvedených přímo v popisu analyzovaných dat. Zpracování probíhalo volně podle kroků popsaných metodikou CRISP-DM. 2 Porozumění problematice Meningitida (též zánět mozkových blan) se řadí mezi neurologické infekční choroby. Může být bakteriálního nebo virového původu bakterie nebo viry proniknou do oblasti pod podlebicí, 3 kde způsobují bolestivý zánět. Pokud toto nastane, pacient je diagnostikován jako meningoencephalitis. 4 Jestliže u pacienta vznikne absces (hnisavý zánět vzniklý zničením okolní tkáně), diagnostikujeme jej jako brain abscess. Tento typ zdravotních problémů vyvolává převážně meningitida bakteriálního původu. 2.1 Definice úlohy Zadání úlohy formuluji na základě nástinu diferenční diagnózy. Diferenční diagnózu popisují autoři takto: zjistíme počet buněk v mozkomíšním moku. Pokud převládají vícejaderné buňky, diagnóza zní bakteriální meningitida. Jestliže převládají buňky s jedním jádrem, diagnóza zní meningitida virového původu. Pro potvrzení přítomnosti mozkového abscesu se použije vyšetření pomocí počítačové tomografie (CT Computed tomography). Ve své úloze jsem stanovil minimální práh relevance rozdílu typů buněk na 5 %. Získal jsem tedy pět přípustných tříd: BM (meningitida bakteriálního původu), BM-AB (s potvrzeným mozkovým abscesem), VM (meningitida virového původu), VM-AB, UN (původ meningitidy nejistý, nebyl splněn požadavek minimální diference 5 %) 3 Porozumění datům Datový soubor obsahuje 140 záznamů s 38 možnými atributy. Jednotlivé atributy popisují jednak samotné pacienty (věk, pohlaví), jednak výsledky vyšetření, dosavadní průběh onemocnění a způsob léčby. 1 Konkrétně verze 3.7.0. 2 Obrázek ptáka Weka převzat z http://www.flickr.com/photos/hadevereux/2376258665/ 3 Též dura mater lat. tvrdá plena mozková. Zevní obal centrálního nervového systému. V lebce je pevně přimknut k lebeční kosti, v páteři je však umístěn volně a vytváří durální vak, v němž je uložena mícha. V lebce v ní probíhají žilní splavy sinus durae matris. Zdroj: http://lekarske.slovniky.cz/pojem/dura-mater 4 Bohužel jsem nenalezl dostatečně výstižné české adjektivum. 1

3.1 Popis datových atributů Tabulky 1-6 popisují význam atributů v datovém souboru; u některých se mi nepodařilo zjistit přesný význam. Atribut AGE SEX věk pohlaví Tabulka 1: Osobní informace Atribut DIAG Diag2 diagnóza odvozený z DIAG Tabulka 2: Diagnóza 4 Příprava dat V datovém souboru jsou data rozdělena do dvou bloků (druhý je nadepsán New Samples ); nabízela se možnost použít druhý blok jako testová data, nicméně vzhledem k relativně nízkému počtu instancí ve druhém bloku (19) jsem oba bloky sloučil a dále s daty pracoval jako s jediným blokem. Co se týče obsahových změn, bylo v první řadě bylo nutné sjednotit označení chybějících hodnot. V datovém souboru se totiž v jednotlivých atributech označují různě v některém znak - znamená chybějící hodnotu, v některém označení třídy ( + a - ). Další způsoby zahrnují mezeru, dvě po sobě ná- Atribut COLD HEADACHE FEVER NAUSEA LOC SEIZURE ONSET zimnice bolest hlavy horečka nevolnost ztráta vědomí epileptický záchvat stav pacienta na počátku Tabulka 3: Nedávné příznaky 2

Atribut BT STIFF KERNIG LASEGUE GCS LOC DATA FOCAL teplota ztuhlost krku Glasgowská škála kómatu odvozený ztráta vědomí Tabulka 4: Fyzické vyšetření při přijetí Atribut WBC CRP ESR CT FIND EEG WAVE EEG FOCUS CSF CELL Cell Poly Cell Mono CSF PRO CSF GLU CULT FIND CULTURE množství bílých krvinek C-Reactive protein sedimentace odvozený výsledky CT množství buněk v mozkomíšním moku množství vícejaderných buněk množství buněk s jedním jádrem množství proteinu v mozkomíšním moku množství glukózyv mozkomíšním moku odvozený zda jsou virus či bakterie známy název viru či bakterie Tabulka 5: Laboratorní vyšetření při přijetí Atribut THERAPY2 CSF CELL3 CSF CELL7 C COURSE COURSE RISK RISK(Grouped) způspob léčby množství buněk v mozkomíšním moku tři dny po ošetření množství buněk v mozkomíšním moku sedm dní po ošetření klinické příznaky při propouštení odvozený z C COURSE rizikové faktory odvozený z RISK Tabulka 6: Terapie a průběh 3

sledující mezery, prázdný znak (v CSV 5 dva oddělovače polí bezprostředně za sebou). Rovněž stojí za zmínku, že některé tabulkové kalkulátory (např. Calc) nežádoucím způsobem přeformátují otevřený soubor (znak - nahradí znakem 0 ; některá čísla s desetinnou tečkou interpretují jako datum... ). Pro tuto činnost jsem shledal ideálním tabulkový kalkulátor Gnumeric (neprovádí žádné přeformátování). V dalším kroku jsem vytvořil odvozený atribut DIAG, který slouží pro klasifikaci do jedné z pěti tříd popsaných výše. Dále jsem ze souboru odstranil atributy, které sloužily jako podklady pro vytvoření atributu DIAG nebo bylo jejich další použití z jiného důvodu nežádoucí (například atributy vzniklé seskupením z podkladových ) jedná se o DIAG (z původního datového souboru), DIAG2, CT-FIND, CSF-CELL, CELL-POLY, CELL-MONO, CULT-FIND, CULTURE, CSF-CELL3, CSF-CELL7, C-COURSE. Takto upravený CSV soubor lze již snadno převést do formátu ARFF a dále s ním pracovat v systému Weka. 5 Modelování 5.1 Selekce atributů K selekci atributů vhodných pro klasifikaci jsem použil metodu filtru, konkrétně kritérium χ 2 (ChiSquaredAttributeEval) s metodou Ranker (ohodnotí kritériem každý z atributů). Volím 5 % hladinu významnosti (α = 0, 05) a protože řeším úlohu klasifikace do 5 tříd, potřebuji znát hodnotu kvantilu (o pěti stupních volnosti). 6 χ 2 1 α(5) = χ 2 0,95(5) = 11, 1 V dalším zpracování použiji pouze atributy, pro které platí χ 2 11, 1, což splňují THERAPY2, RISK, LOC-DAT, CRP, RISK(Grouped), FOCAL, ONSET, STIFF a SEX (uvádím je sestupně dle hodnoty kritéria). Úlohu jsem tedy redukoval na klasifikaci do jedné z pěti tříd na základě devíti vysvětlujících atributů. 5.2 Vlastní řešení Pro řešení klasifikační jsem se rozhodl použít bagging (Bagging), boosting (AdaBoostM1 ) a kombinování modelů (ensemble, EnsembleSelection) a porovnat účinnost jednotlivých metod. Pokud neuvedu jinak, ponechávám standardní nastavení systému. Jako dílčí klasifikátor jsem u baggingu i boostingu použil J48. Při kombinování modelů jsem zahrnul naivní bayesovský klasifikátor, logistickou pdf 5 Comma-separated values. 6 Zdroj: Statistika - tabulky http://statistika.vse.cz/download/materialy/tabulky. 4

regresi, vícevrstvý perceptron a J48. Pro vyhodnocování modelů jsem použil desetinásobnou křížovou validaci, srovnání úspěšnosti jednotlivých metod ilustruje následující tabulka. Třída Ensemble Bagging Boosting TP FP TP FP TP FP BM-AB 0,667 0,074 0,667 0,057 0,5 0,066 BM 0,45 0,033 0,4 0,042 0,3 0,067 UN 0,2 0,015 0 0,007 0,2 0,015 VM-AB 0,588 0,024 0,471 0,033 0,588 0,041 VM 0,938 0,25 0,925 0,35 0,938 0,267 vážený x 0,764 0,161 0,729 0,218 0,721 0,176 Tabulka 7: Srovnání klasifikačních metod Je zajímavé, že přes rozdílný přístup jednotlivých metod vyšly relativně velmi podobné výsledky. TP a FP označují TP Rate a FP Rate z výstupu systému. Uvedl jsem tato kriteria hodnocení metod, neboť zastoupení jednotlivých tříd v datech není vyvážené. Třída BM-AB BM UN VM-AB VM Zastoupení 18 20 5 17 80 Zastoupení [%] 0,13 0,14 0,04 0,12 0,57 Tabulka 8: Zastoupení tříd Příklad stromu J48 vytvořeného během baggingu: J48 pruned tree ------------------ THERAPY2 = multiple FOCAL = -: BM (7.0/1.0) FOCAL = +: BM_AB (2.0) THERAPY2 = ABPC+CZX: BM_AB (12.0/3.0) THERAPY2 = FMOX+AMK: BM (2.0) THERAPY2 = ABPC: VM (3.0) THERAPY2 = ope: BM_AB (3.0/1.0) THERAPY2 = Dara_P: BM_AB (1.0) THERAPY2 = ABPC+FMOX: BM (2.0) THERAPY2 = LMOX: BM (1.0) THERAPY2 = PCG: BM (2.0) THERAPY2 = ABPC+LMOX: BM (3.0) 5

THERAPY2 = PIPC+CTX: VM (0.0) THERAPY2 = no_therapy LOC_DAT = - CRP <= 4.5: VM (47.0/1.0) CRP > 4.5: BM_AB (2.0) LOC_DAT = + SEX = M: UN (4.0/1.0) SEX = F STIFF <= 1: VM_AB (2.0) STIFF > 1: VM (5.0) THERAPY2 = ABPC+CTX: BM_AB (1.0) THERAPY2 = INH+RFP: VM_AB (2.0) THERAPY2 = ABPC+CEX: UN (2.0) THERAPY2 = Zobirax FOCAL = - LOC_DAT = -: VM (13.0/1.0) LOC_DAT = +: VM_AB (4.0/1.0) FOCAL = +: VM_AB (5.0) THERAPY2 = ARA_A: VM (12.0) THERAPY2 = INH: VM (0.0) THERAPY2 = globulin: VM (3.0) Vzhledem k tomu, že vytvořené modely mají stejnou váhu hlasu a mohou jich být vytvořeny desítky, jejich interpretace může být poněkud obtížná (díky nepřehlednosti). V každém případě je k jejich správné interpretaci třeba názorů experta. Při použití boostingu vypadá situace o něco lépe, protože modely ( instance stromu J48 ) klasifikující obtížnější příklady získají hlas s vyšší vahou za pomoci této dodatečné informace se lze v modelech o něco lépe orientovat. Následuje příklad výpisu stromu s vahou 2,23: J48 pruned tree ------------------ THERAPY2 = multiple SEX = M CRP <= 0.5: VM_AB (2.85/0.33) CRP > 0.5: BM_AB (5.58/0.98) SEX = F: BM (2.46) THERAPY2 = ABPC+CZX STIFF <= 1 RISK = n: BM_AB (2.14) RISK = LC: UN (0.0) RISK = bechet: UN (0.0) RISK = sinusitis: UN (0.0) RISK = broncho: UN (2.52) 6

RISK = myeloma: UN (0.0) RISK = LC_DM: UN (0.0) RISK = DM: UN (0.0) RISK = hepatits: UN (0.0) RISK = TB: UN (0.0) STIFF > 1 ONSET = SUBACUTE: BM_AB (2.14) ONSET = ACUTE CRP <= 4.9 CRP <= 2.4 FOCAL = -: BM_AB (2.79) FOCAL = + LOC_DAT = -: BM_AB (2.14) LOC_DAT = +: BM (2.52) CRP > 2.4: BM (2.52) CRP > 4.9: BM_AB (4.6) ONSET = CHRONIC: BM_AB (0.0) ONSET = RECURR: BM_AB (0.0) THERAPY2 = FMOX+AMK: BM (0.33) THERAPY2 = ABPC SEX = M: BM (2.52) SEX = F: VM (4.27) THERAPY2 = ope SEX = M: BM_AB (2.14) SEX = F: UN (2.52) THERAPY2 = Dara_P: BM_AB (0.33) THERAPY2 = ABPC+FMOX STIFF <= 3: BM_AB (2.52) STIFF > 3: BM (6.41) THERAPY2 = LMOX: BM (0.33) THERAPY2 = PCG: BM (0.33) THERAPY2 = ABPC+LMOX: BM (0.65) THERAPY2 = PIPC+CTX: BM (0.33) THERAPY2 = no_therapy LOC_DAT = - ONSET = SUBACUTE: BM_AB (2.46/0.33) ONSET = ACUTE STIFF <= 0: BM (21.12/4.55) STIFF > 0 CRP <= 4: VM (10.41) CRP > 4: BM (2.52) ONSET = CHRONIC: BM (0.0) ONSET = RECURR: BM (0.0) LOC_DAT = + SEX = M FOCAL = -: VM_AB (2.52) 7

FOCAL = +: UN (4.27) SEX = F: VM_AB (3.82/1.3) THERAPY2 = ABPC+CTX: BM (2.85/0.33) THERAPY2 = INH+RFP: VM_AB (0.33) THERAPY2 = ABPC+CEX: UN (0.33) THERAPY2 = Zobirax LOC_DAT = -: VM (12.83/3.17) LOC_DAT = + CRP <= 2.4: VM_AB (3.76) CRP > 2.4: VM (3.17/0.65) THERAPY2 = ARA_A CRP <= 0.3: VM_AB (6.99/1.95) CRP > 0.3: VM (6.41) THERAPY2 = INH: VM (0.33) THERAPY2 = globulin: VM (0.98) Number of Leaves : 52 Size of the tree : 74 Weight: 2.23 Ještě lépe by na tom z hlediska interpretovatelnosti mělo být použití výstupu skládání modelů. V systému Weka sice není vypsán konkrétní vnitřní stav (kterému z použitých modelů bychom měli více důvěřovat ), nicméně by bylo možné systém upravit tak, aby tyto informace byly vypisovány (případně je jistě poskytují některé jiné systémy). 6 Zhodnocení (využitelnosti) výsledků Vzhledem k relativně vysoké úspěšnosti klasifikace může tento postup (užití metod dobývání znalostí z databází) znamenat určité vodítko pro lékaře, po posouzení expertem by měla existovat nezanedbatelná šance na nalezení určitých zobecněných závislostí mezi vysvětlujícími atributy a stanovenou diagnózou (jedné z pěti tříd). Mohly by vyvstat určité pochybnosti ohledně zařazení vícevrstvého perceptronu mezi kombinaci modelů (kvůli problematické interpretaci vah uvnitř sítě), nicméně lze použít přiblížení závislost typu A C s vahou w (viz (Berka, 2003)), kde A značí vysvětlující atribut, C příslušnou třídu a w příspěvek (váhu) pravidla. Jinak lze samozřejmě použít jednu ze dvou zbylých metod, které pracují pouze se modely stromu J48. Otázkou zůstává relevantnost zjištěných faktů vzhledem k nízkému počtu záznamů v datovém souboru. 8

Použité zdroje CRoss Industry Standard Process for Data Mining Process Model. Dostupné z: http://www.crisp-dm.org/process/index.htm. Citováno 29.5.2010. BERKA, P. Dobývání znalostí z databází. Academia, 2003. ISBN 80-200-1062-9. TSUMOTO, S. Guide to the meningoencephalitis Diagnosis Data Set, 2000. 9