Výběr relevantních informací pro podporu rozhodování v medicíně s aplikací v kardiologii



Podobné dokumenty
STANDARD 3. JEDNÁNÍ SE ZÁJEMCEM (ŽADATELEM) O SOCIÁLNÍ SLUŽBU

Výzva k podání nabídek (zadávací dokumentace)

Praxe při zadávání veřejných zakázek - nejčastější chyby žadatelů/příjemců

MĚSTO BENEŠOV. Rada města Benešov. Vnitřní předpis č. 16/2016. Směrnice k zadávání veřejných zakázek malého rozsahu. Čl. 1. Předmět úpravy a působnost

Č.j.: VP/ S 67/ V Brně dne 28. června 2001

Čl. 3 Poskytnutí finančních prostředků vyčleněných na rozvojový program Čl. 4 Předkládání žádostí, poskytování dotací, časové určení programu

veřejná zakázka na stavební prace s názvem: Sdružená kanalizační přípojka - Město Lázně Bělohrad

Výzva zájemcům k podání nabídky a Zadávací dokumentace

Databáze invazivních vstupů jako zdroj dat pro účinnou kontrolu infekcí

MEZINÁRODNÍ AUDITORSKÝ STANDARD ISA 505 EXTERNÍ KONFIRMACE OBSAH

městské části Praha 3 pro rok 2016 připravila

VYR-32 POKYNY PRO SPRÁVNOU VÝROBNÍ PRAXI - DOPLNĚK 6

ZADÁVACÍ DOKUMENTACE K ZAKÁZCE ZADÁVANÉ DLE PRAVIDEL PRO VÝBĚR DODAVATELŮ OPPI A SUBSIDIÁRNĚ DLE ZÁKONA Č. 137/2006 SB

Příspěvky poskytované zaměstnavatelům na zaměstnávání osob se zdravotním postižením Dle zákona č. 435/2004 Sb., o zaměstnanosti, v platném znění.

Cvičení 1,2 Osnova studie strategie ICT

Zadávací dokumentace

PŘIJÍMACÍ ŘÍZENÍ. Strana

Příloha č. 54. Specifikace hromadné aktualizace SMS-KLAS

Obsah Celex č. Ustanovení 32013L0055

VYUŽITÍ NEURONOVÝCH SÍTÍ PROSTŘEDÍ MATLAB K PREDIKCI HODNOT NÁKLADŮ PRO ELEKTRICKÉ OBLOUKOVÉ PECE

Inovativní pobídky pro účinná antibiotika - přijetí závěrů Rady [veřejná rozprava podle čl. 8 odst. 3 jednacího řádu Rady (na návrh předsednictví)]

Systém sběru vytříděných složek odpadu v Telči a jejich evidence software

INFORMACE O ZPRACOVÁNÍ KLIENTSKÝCH ÚDAJŮ

Oprava střechy a drenáže, zhotovení a instalace kované mříže kostel Sv. Václava Lažany

MOBILNÍ KOMUNIKACE STRUKTURA GSM SÍTĚ

POLICIE ČESKÉ REPUBLIKY KRAJSKÉ ŘEDITELSTVÍ POLICIE PLZEŇSKÉHO KRAJE. Č.j. KRPP /ČJ VZ-VZ Plzeň 7.října 2013

1 METODICKÉ POKYNY AD HOC MODUL 2007: Pracovní úrazy a zdravotní problémy související se zaměstnáním

Pravidla. používání Národního elektronického nástroje při realizaci zadávacích postupů prostřednictvím národního elektronického nástroje

Metody hodnocení rizik

2. Vymezení předmětu veřejné zakázky

VÝZVA K PŘEDLOŽENÍ NABÍDKY

ZADÁVACÍ DOKUMENTACE

Číslo zakázky (bude doplněno poskytovatelem dotace) 1 Název programu: Operační program Vzdělávání pro konkurenceschopnost

Komplexní pojištění pro město Uherské Hradiště. Zadavatel: město Uherské Hradiště Sídlo: Masarykovo náměstí 19, Uherské Hradiště IČ:

MV ČR, Odbor egovernmentu. Webové stránky veřejné správy - minimalizace jejich zranitelnosti a podpora bezpečnostních prvků

Data v počítači EIS MIS TPS. Informační systémy 2. Spojení: jan.skrbek@tul.cz tel.: Konzultace: úterý

KOMISE EVROPSKÝCH SPOLEČENSTVÍ

170/2010 Sb. VYHLÁŠKA. ze dne 21. května 2010

18. VNITŘNÍ ŘÁD ŠKOLNÍ DRUŽINY

PŘÍLOHA 1.7 SMLOUVY O PŘÍSTUPU K VEŘEJNÉ PEVNÉ KOMUNIKAČNÍ SÍTI PROGRAM ZVYŠOVÁNÍ KVALITY

Kritéria zelených veřejných zakázek v EU pro zdravotnětechnické armatury

Hasičský záchranný sbor Plzeňského kraje krajské ředitelství Kaplířova 9, P. O. BOX 18, Plzeň

54_2008_Sb 54/2008 VYHLÁŠKA. ze dne 6. února 2008

11. Působení stážistů a dobrovolníků

Miroslav Čepek

Rozhodnutí o námitkách

Sbírka zákonů ČR Předpis č. 473/2012 Sb.

1. SPOLEHLIVOST A ŽIVOTNÍ CYKLUS VOZIDEL

Pokyn D Sdělení Ministerstva financí k rozsahu dokumentace způsobu tvorby cen mezi spojenými osobami

ZADÁVACÍ DOKUMENTACE

Metodika pro nákup kancelářské výpočetní techniky

ZADÁVACÍ DOKUMENTACE. Pořízení a provoz konsolidované IT infrastruktury

PRAVIDLA PROVOZOVÁNÍ LOKÁLNÍ DISTRIBUČNÍ SOUSTAVY. Forum Liberec s.r.o.

statutární město Děčín podlimitní veřejná zakázka na služby: Tlumočení a překlady dokumentů

Evropský proces přezkoumání účinných látek

ZADÁVACÍ DOKUMENTACE

Svážíme bioodpad z obce Veselý Žďár malé komunální vozidlo s hákovým nosičem, kontejnery a sítě na kontejnery

Pokyny České pošty pro označování Doporučených zásilek čárovými kódy

PODMÍNKY VÝBĚROVÉHO ŘÍZENÍ

ZADÁVACÍ DOKUMENTACE SVAZEK 1

RECTE.CZ, s.r.o., Matiční 730/3, Ostrava Moravská Ostrava

Z p r á v a o měření teploty na stanovištích provozních zaměstnanců metra

Podpora studentů a uchazečů o studium se specifickými studijními potřebami na Mendelově univerzitě v Brně

VÝZVA K PODÁNÍ NABÍDKY

Všeobecné požadavky na systém analýzy nebezpe í a stanovení kritických kontrolních bod (HACCP) a podmínky pro jeho certifikaci

Zajištění provozní funkčnosti platebních automatů a měničů bankovek pro Fakultní nemocnici Královské Vinohrady. Zadavatel

3 nadbytek. 4 bez starostí

Výzva k podání nabídky a prokázání splnění kvalifikace ve zjednodušeném podlimitním řízení na stavební práce

Zadávací dokumentace

O b s a h : 12. Úřední sdělení České národní banky ze dne 1. října 2001 k využívání outsourcingu bankami

Pardubický kraj Komenského náměstí 125, Pardubice SPŠE a VOŠ Pardubice-rekonstrukce elektroinstalace a pomocných slaboproudých sítí

Česká republika Ministerstvo práce a sociálních věcí Na Poříčním právu 1, Praha 2. vyzývá

NAŘÍZENÍ KOMISE (ES) Č. 1828/2006

Dynamický model predikovaného vývoje krajiny. Vilém Pechanec

Knihovní řád. Středisko vědeckých informací Vysoké školy zdravotnické, o. p. s. Duškova 7, Praha 5

Zadávací dokumentace pro podlimitní veřejnou zakázku na dodávky

Řízení kalibrací provozních měřicích přístrojů

ZADÁVACÍ DOKUMENTACE

VÝZVA K PODÁNÍ NABÍDEK A PROKÁZÁNÍ SPLNĚNÍ KVALIFIKACE A ZADÁVACÍ DOKUMENTACE

Uplatňování nařízení o vzájemném uznávání u předmětů z drahých kovů

účetních informací státu při přenosu účetního záznamu,

VNITŘNÍ ŘÁD ŠKOLNÍ DRUŽINY

Klasifikační metody pro genetická data: regularizace a robustnost

Podpora výroby elektřiny z biomasy a bioplynu (z pohledu ERÚ) Petr Kusý Odbor elektroenergetiky Energetický regulační úřad

Role malých pr ojektů pr o udr žitelný rozvoj České rafinérské, a.s.

NÚOV Kvalifikační potřeby trhu práce

Název veřejné zakázky: Sdružené služby dodávky zemního plynu pro Mikroregion Střední Haná na rok 2013

-1- N á v r h ČÁST PRVNÍ OBECNÁ USTANOVENÍ. 1 Předmět úpravy

Zadávací dokumentace

FAKULTNÍ NEMOCNICE BRNO. Jihlavská 20, Brno tel:

Ústavní sociální služby pro osoby s postižením v Moravskoslezském kraji

ZADÁVACÍ DOKUMENTACE K VEŘEJNÉ ZAKÁZCE ZADÁVANÉ PODLE ZÁKONA Č. 137/2006 SB., O VEŘEJNÝCH ZAKÁZKÁCH, VE ZNĚNÍ POZDĚJŠÍCH PŘEDPISŮ (DÁLE JEN ZÁKON )

Dodávku diagnostik. Zadávací dokunientace podlimitní veřejné zakázky. pro provedení automatizované analýzy

Příloha č. 13. Statistický metainformační systém - úvod

Všeobecné podmínky provozu sběrných míst kolektivního systému Eltma

POKYNY. k vyplnění přiznání k dani z příjmů fyzických osob za zdaňovací období (kalendářní rok) 2012

Seriál: Management projektů 7. rámcového programu

POZVÁNKA NA MIMOŘÁDNOU VALNOU HROMADU

KVALIFIKAČNÍ DOKUMENTACE k veřejné zakázce zadávané podle zákona č. 137/2006 Sb., o veřejných zakázkách, ve znění pozdějších předpisů

MĚSTO CHOTĚBOŘ. Trčků z Lípy 69, Chotěboř. Ing. Tomáš Škaryd, starosta města

Transkript:

Original Article cs1 Výběr relevantních informací pro podporu rozhodování v medicíně s aplikací v kardiologii Jan Kalina 1,2, Libor Seidl 1,3, Karel Zvára 1,3, Hana Grünfeldová 1,4, Dalibor Slovák 1,2,3, Jana Zvárová 1,2,3 1 Evropské centrum pro medicínskou informatiku, statistiku a epidemiologii 2 Ústav informatiky AV ČR, v.v.i. 3 Univerzita Karlova v Praze, 1. lékařská fakulta 4 Městská nemocnice Čáslav Abstrakt Cíle: Cílem naší práce bylo vytvořit prototyp systému pro podporu rozhodování ve formě internetové klasifikační služby. Protože u systémů na podporu rozhodování často nejsou jednotlivé části analýzy dat vhodné pro vysoce dimenzionální data, je třeba věnovat zvláštní pozornost sofistikovanému výběru nejdůležitějších proměnných ještě před učením klasifikačního pravidla. Metody: Vytvořili jsme prototyp systému pro podporu diagnostického rozhodování s názvem SIR. Systém je schopen ze souboru vysoce dimenzionálních měření vybrat ty nejpodstatnější proměnné pomocí dopředné procedury pro optimalizaci rozhodovacího kritéria, což umožňuje vytvořit spolehlivé klasifikační pravidlo. Kontakt: Jan Kalina EuroMISE Centrum, Ústav informatiky AV ČR Adresa: Pod Vodárenskou věží 2, Prague 8, Czech Republic E mail: kalina@euromise.cz Výsledky: Vytvořený prototyp byl testován na vzorku pacientů z kardiologické studie. Prostřednictvím systému SIR byla extrahována informace z kardiologické klinické studie, obsahující jak klinická data, tak i data genových expresí. Úroveň klasifikace byla hodnocena pomocí křížové validační studie. Závěr: Navržený klasifikační systém může na základě informací získaných z dostupné klinické studie být užitečný pro lékaře v primární péči jako podpora v jejich rozhodovací úloze. Velmi vhodný je také pro analýzu vysoce dimenzionálních dat, např. měření genových expresí. Klíčová slova Systém pro podporu rozhodování, webová služba, extrakce informace, vysoká dimenze, genové exprese EJBI 2013; 9(1):cs1 cs5 zasláno: 30. května 2013 přijato: 7. července 2013 publikováno: 30. srpna 2013 1 Úvod Systémy pro podporu rozhodování (decision support systems, DSS) nabízejí asistenci v procesech rozhodování v mnoha různých oblastech. Jejich cílem je řešit nejrozmanitější úlohy a analyzovat různé složky získané informace. V medicíně představují tyto systémy přirozený technologický nástroj elektronického zdravotnictví pro diagnostické a prognostické účely, schopný pomáhat v průběhu léčby [1]. Na nedávno navržené systémy z některých oblastí medicíny je také kladen požadavek, aby byly schopné provádět extrakci informace z vysoce dimenzionálních měření, aby bylo možno vyvodit závěry pro diagnostiku, léčbu nebo prognózu porovnáním rizik odpovídajících různým alternativám. Některé tyto systémy byly vytvořeny ve formě webové služby [2, 3]. Systémy pro podporu rozhodování si již získaly své místo v současném zdravotnictví. Jejich potenciál pro zlepšení kvality poskytované péče a dosažení ekonomického prospěchu snížením finančních nákladů a úsporou lidských zdrojů byl popsán v literatuře [4]. Lékařům přinášejí více pohodlí, méně stresu, vyšší efektivitu a více času pro pacienta. Přínosy pro bezpečnost pacientů byly shrnuty v [5]. Dalším aspektem je v komplikovaných lékařských případech přínos pro méně zkušeného lékaře. Systémy také umožňují využívat úroveň znalostí reflektující nejnovější vědecké poznatky v medicíně. Analytická složka podpory rozhodování často nebývá vhodná pro analýzu vysoce dimenzionálních dat. Rozhodování v rámci DSS je většinou založeno pouze na jednom ze standardních postupů mnohorozměrné statistiky nebo strojového učení, což umožňuje sestavit objektivní klasifikační pravidla pro přiřazení jednotlivých pozorování do skupin. Mezi dostupné metody klasifikace patří: Lineární/kvadratická diskriminační analýza. Neuronové sítě.

cs2 Kalina a kol. Výběr relevantních informací pro podporu rozhodování v medicíně s aplikací v kardiologii Support vector machines. Klasifikační stromy. Algoritmus K-nejbližších sousedů. Shluková analýza. Znalostní pravidla (např. [6]). Obvykle však tyto metody trpí tzv. prokletím dimenzionality (počet proměnných, např. symptomů či znaků, převyšuje počet pacientů [7]). V této práci jsme navrhli a sestrojili prototyp DSS ve formě webové klasifikační služby pro podporu rozhodování v diagnostice. Návrh systému je uzpůsoben potřebě extrakce vysoce dimenzionální informace. Jeho ústřední částí je metoda redukce dimenze provedená formou selekce proměnných. Statistická složka systému využívá řadu komplikovaných klasifikačních pravidel, které jsou spolehlivé i pro analýzu vysoce dimenzionálních dat. Prototyp systému byl testován na klinických datech z kardiologické studie, která zahrnovala celogenomovou studii měření genových expresí. Tento článek představuje principy a výhody navrhovaného systému a shrnuje výsledky testování na kardiologické studii. 2 Metody Navržený systém SIR (Systém pro výběr relevantních Informací pro podporu Rozhodování) je snadno použitelnou webovou službou, určenou ke sběru dat a podpoře rozhodování a s dobře propracovanou složkou pro extrakci informace. Je navržen k použití zejména mezi praktickými lékaři v primární péči, ale je schopen zpracovat data z libovolné oblasti medicíny. Rozhodování prostřednictvím systému SIR vyžaduje data z (dostatečně velké) klinické studie, aby bylo možné zkonstruovat optimální klasifikační pravidlo pro řešení problému. Data sbíraná v klinické studii představují tréninkovou množinu systému. SIR dokáže importovat celý soubor dat z klinické studie automaticky spolu s datovým modelem. Čištění dat probíhá např. kontrolou, zda hodnoty importovaných kvantitativních proměnných nepřekročily hranice dané datovým modelem. Dalším krokem v analýze dat z klinické studie je redukce dimenze. Statistika rozlišuje mezi výběrem proměnných a extrakcí příznaků [8], přičemž v druhém případě vyhledává menší množinu lineárních kombinací všech proměnných. Zde jsme provedli výběr proměnných, což redukuje množinu všech měřených příznaků nebo laboratorních měření na menší množinu důležitých příznaků. Tento krok, jenž je nezbytný zejména pro vysoce dimenzionální data získaná v genetických studiích [7], se provádí dopřednou procedurou, která v každém kroku optimalizuje rozhodovací kritérium. Uvažujme kategorizovaná data. Příspěvek dané proměnné X k vysvětlení nejistoty v odpovědi Y (tj. v rozlišení skupin) je vyjádřen pomocí podmíněné Shannonovy informace, kterou označíme jako d(y X). První proměnná (označme ji X 1 ) splňuje d(y X 1 ) = max d(y X) (1) přes všechny proměnné X. To znamená, že X 1 je pro vysvětlení klasifikace nejdůležitější proměnná. Poté metoda vybírá nejdůležitější proměnné s maximální mírou statistické závislosti. Jinými slovy, další proměnné jsou iterativně přidávány do množiny. Opět jde o proměnné, které jsou nejdůležitější pro klasifikaci, ale jejich příspěvek ke zlepšení klasifikace je měřen podmíněně, tj. za podmínky, že již v předchozích iteracích byly některé proměnné vybrány. Pokud proměnné X 1,..., X s byly vybrány jako nejvíce relevantní, další proměnná (řekněme X s+1 ) je vybrána jako proměnná splňující požadavek d(y X 1,..., X s, X s+1 ) = max d(y X 1,..., X s, X), (2) přes všechny proměnné X, jež nejsou přítomny v množině {X 1,..., X s }. Pro následnou analýzu jsou nakonec uvažovány pouze ty proměnné, které přispívají k vysvětlení více než 90 % mezitřídní variability. Systém umožňuje kvantifikaci vlivu dalších vyšetření (proměnných) na diagnostické rozhodnutí. Metoda redukce dimenze navíc umožňuje počítat s náklady na získání každého klinického nebo laboratorního měření pomocí přístupu z [9], který je založen na teorii informaci. Proces učení klasifikačního pravidla v SIRu má schopnost automaticky se rozhodovat pro některou z možných metod. Kritérium optimality je adaptivně vybíráno tak, aby se minimalizovalo riziko chybné klasifikace v důsledku speciálních vlastností dat a velikosti vzorku. Použité metody zahrnují lineární diskriminační analýzu (LDA), což je metoda mnohorozměrné statistiky, která odděluje skupiny pomocí lineární funkce [10], přičemž v každé skupině je předpokládána stejná kovarianční struktura. Jiným přístupem implementovaným v systému SIR je empirický bayesovský mechanismus, který minimalizuje aposteriorní bayesovské riziko přes všechny skupiny vzorků. Řekněme, že úlohou je klasifikace do K skupin. Dochází k diskretizaci dat; označme hodnoty příslušné jednotlivým úrovním diskrétní proměnné X jako X 1,..., X r. Metoda předpokládá podmíněnou nezávislost hodnot X pro každou skupinu k = 1,..., K. Konstrukce klasifikačního pravidla v systému SIR dále povoluje kombinovat data a medicínské znalosti. Konkrétně může lékař zasahovat ručně do systému s cílem vložit do něj dodatečné odborné znalosti založené na vzdělání, zkušenosti nebo intuici; může také např. pro specifickou kombinaci symptomů a znaků odstranit některou diagnózu, pokud jejich společný výskyt má nulovou pravděpodobnost. Z implementačního hlediska lze prototyp chápat jako čtyři na sebe navazující podsystémy: administrace systému (AS), SOAP rozhraní (DSS SOAP Frontend), webové uživatelské rozhraní (DSS Web Frontend) a výpočetní jádro (DSS Backend). Administrační část systému EJBI Volume 9 (2013), Issue 1 c 2013 EuroMISE s.r.o.

Kalina a kol. Výběr relevantních informací pro podporu rozhodování v medicíně s aplikací v kardiologii cs3 Obrázek 1: Ukázka prototypu systému SIR. (AS) je webové rozhraní, které umožňuje zejména zakládat a definovat modely, vkládat data, provádět redukci dimenze datového souboru a provádět zveřejnění služby pro podporu rozhodování. DSS SOAP rozhraní poskytuje službu klasifikace pacienta jako automatizovanou odpověď na žádost od vzdáleného klinického informačního systému. Vzhledem k tomu, že každá zveřejněná služba podpory rozhodování má jiné vstupní a výstupní parametry, je definice služby generována za chodu (automaticky generované WSDL). Toho je docíleno interním popisem struktury celé služby pomocí XML souboru, který vzniká jako výsledek procesu zveřejnění služby v administračním systému AS. Pro uživatele bez integrace v systému je nabídnuto webové rozhraní služby (DSS Web Frontend), které obsahuje HTML formulář reprezentující shodnou funkčnost jako DSS SOAP. Všechny tři výše zmíněné podsystémy byly implementovány v PHP5. Hlavním úkolem výpočetního jádra (DSS Backend) je proces učení na nových datech v okamžiku zveřejnění služby v AS a poté automatizovaná klasifikace pacienta na žádost přes DSS SOAP nebo DSS Web Frontend. Vlastní algoritmy jsou implementovány v jazyce R, které jsou za běhu volány z PHP5. Lékař jako uživatel systému nemusí rozumět pozadí metod. Jeho cílem je stanovit diagnózu nového pacienta, jenž není součástí klinické studie a jehož vyšetření mohlo proběhnout na vzdáleném místě. Do systému pro podporu rozhodování je nutné zadat všechny proměnné, které byly získány procedurou výběru proměnných. Vstup do systému může být proveden prostřednictvím automaticky generovaného rozhraní z elektronického zdravotního záznamu (EHR) nebo zdravotního informačního systému (HIS), nicméně ruční zadání vstupních dat je také možné, jak je vidět na Obrázku 1. Lékař musí určit ještě před vstupem dat do SIRu diagnózu, kterou předpokládá, protože jediný nese právní odpovědnost za klinické rozhodnutí. Poté může být použit SIR přes webové rozhraní a jeho výstupem je diagnóza podle DSS. Následně je lékař požádán, aby ručně vybral konečné rozhodnutí, a pouze v případě, že není ve shodě se SIRem, napíše lékař krátký text odůvodňující jeho rozhodnutí. 3 Výsledky Vytvořili jsme prototyp systému SIR a zhodnotili jeho výkonnost na reálné klinické studii týkající se kardiovaskulárních chorob, která zahrnovala i měření genových expresí na celém genomu. Studie byla provedena v letech 2006-2011 a jejím cílem bylo identifikovat malou skupinu

cs4 Kalina a kol. Výběr relevantních informací pro podporu rozhodování v medicíně s aplikací v kardiologii Tabulka 1: Množiny osobních a klinických proměnných v kardiologické klinické studii. Množina A Množina B Pohlaví, výška, váha, vzdělání, kouření, diabetes, systolický krevní tlak, cholesterol. Výška, váha, vzdělání, systolický krevní tlak, cholesterol. genů a klinických proměnných s nadměrným genetickým rizikem výskytu kardiovaskulárního onemocnění. Klinická měření a měření genových expresí byla provedena na souboru 59 pacientů s akutním infarktem myokardu (AIM), 45 pacientech s cévní mozkovou příhodou (CMP) a 77 kontrolních osobách. Za kontrolní osoby byli vybráni jedinci bez příznaků kardiovaskulárního onemocnění, kteří vykazovali stejné rizikové faktory jako pacienti. Těchto 181 jedinců posloužilo jako tréninková databáze ke konstrukci efektivního klasifikačního pravidla pro přiřazení nového jedince do jedné ze skupin (AIM, CMP, kontroly). V Tabulce 1 je uvedena množina 4 osobních údajů a 4 klinických proměnných zaznamenaných u každého pacienta. Pro každého pacienta proběhlo pomocí čipů Illumina BeadChip měření genových expresí všech genů (více než 39 000 genových transkriptů). Nyní popíšeme, jak se systém SIR učil klasifikovat osoby do jedné ze tří skupin (AIM, CMP, kontroly). Běžná statistická analýza podmnožiny těchto dat byla provedena v [11], kde byly srovnány genové exprese u pacientů s akutním infarktem myokardu s kontrolními osobami a byly prezentovány hodnoty senzitivity a specificity. Metodou redukce dimenze jsme z vysoce dimenzionální množiny měření vybrali množinu 10 nejpodstatnějších genů. Každou spojitou proměnnou, bylo-li to možné, jsme rozdělili do čtyř kategorií a předpokládali jsme, že všechny proměnné mají stejnou významnost. Množina A byla poté redukována na 5 nejdůležitějších proměnných (množina B), jak je uvedeno v Tabulce 1. Množina B obsahuje signifikantní ukazatele životního stylu konkrétního pacienta a vysvětluje 97,9 % vnitrotřídní variability množiny A. Dále SIR používá na původní data (bez kategorizace) lineární diskriminační analýzu, aby se naučil pravidlo pro klasifikaci do jedné ze tří skupin (AIM, CMP, kontroly). Tabulka 2 uvádí výsledky nezávislé validační studie, při níž byl pro účely křížové validace vždy jeden pacient z trénovací množiny odebrán. Na něm bylo ověřeno chování klasifikačního pravidla, které bylo zformulováno pro zbývající pacienty. Takto jsme zjistili, že množina všech genů má schopnost určit správně diagnózu u 85 % pacientů. Redukovaná množina má schopnost udržet si relativně vysokou úroveň správné klasifikace, což je důsledkem nadbytečnosti zbývajících proměnných nebo jejich multikolinearitou (viz např. [12]). Výsledky byly navíc ověřeny také dalšími statistickými validačními kritérii, např. křížovou validací s validační skupinou o 10 pacientech nebo metodou bootstrap. 4 Diskuse Vytvořili jsme snadno použitelný systém zvaný SIR (Systém pro výběr relevantních Informací pro podporu Rozhodování), který má schopnost vybrat proměnné důležité pro spolehlivou extrakci informace z vysoce dimenzionálních měření. Systém umožňuje podporu diagnostického rozhodování pomocí webových technologií a lze jej charakterizovat jako praktický nástroj pro medicínu založenou na důkazech [13]. Věříme, že spolehlivý systém pro podporu rozhodování by měl být vždy vybaven statistickou složkou, jež by umožňovala získat informace i z velmi složitých měření. Bez těchto speciálních nástrojů totiž lékař nikdy nebude schopen získat informace z vysoce dimenzionálních měření, jež jsou časté např. v kontextu molekulární genetiky. Systém SIR simuluje proces rozhodování lékaře. Pro lékaře, jenž provádí diagnostické rozhodnutí na základě Tabulka 2: Hodnocení systému SIR v úloze podpory diagnostického rozhodování, založené na datech z kardiologické klinické studie. Úroveň klasifikace za použití linearání diskriminační analýzy je vyjádřena jako procento vzorků správně klasifikovaných do jedné ze tří skupin (AIM, CMP, kontroly) při křížové validaci, v níž validační množinu tvořil jediný pacient. Proměnné použité v klasifikačním pravidle Úroveň klasifikace Množina A (8 osobních a klinických proměnných) 0,56 Množina B (5 osobních a klinických proměnných) 0,56 Všechny geny 0,85 Všechny geny + množina A 0,85 Všechny geny + množina B 0,85 10 genů 0,65 10 genů + množina A 0,72 10 genů + množina B 0,72 EJBI Volume 9 (2013), Issue 1 c 2013 EuroMISE s.r.o.

Kalina a kol. Výběr relevantních informací pro podporu rozhodování v medicíně s aplikací v kardiologii cs5 vědeckých a empirických znalostí a nese za něj i odpovědnost, může být systém využit jako čistě podpůrná technologie se srozumitelnou interpretací. Systém může být užitečný při všech krocích při poskytování zdravotní péče. Lékař stanoví předpokládanou diagnózu a má možnost rozhodnout se na základě doporučení systému pro diagnózu jinou. V takovém případě však SIR od lékaře sbírá zpětnou vazbu. Prototypová verze našeho systému nebyla dosud zpřístupněna na internetu pro veřejné použití. V plánu je fáze intenzivní validace, během níž bude systém opakovaně vystaven reálným situacím, počínaje formulací požadavků, prováděním změn, víceúrovňovým testováním za uměle vytvořených podmínek a zkoušením různých modifikací. Pouze tak bude možné vyladit všechny parametry systému, jež musí být ve spolupráci s lékaři udržovány, kontrolovány a sledovány po dlouhou dobu před uvedením plně veřejné verze do reálného použití při dodržení nezbytných pravidel pro zabezpečení dat. To bude vyžadovat také zabezpečený přístup ve shodě s platnými právními předpisy (infrastruktura správy a distribuce veřejných klíčů, odlišení různých verzí služby atd.). Obecně platí, že systém může být použit k analýze rozličných datových souborů v různých oblastech medicíny. Lékařům může pomoci rychle dosáhnout na znalosti z nejnovějšího lékařského výzkumu a sloužit jim jako podpůrný nástroj v rámci rozhodovacího procesu. Zároveň je systém navržen tak, aby byl vhodný pro sběr dat např. v nemocnici, zatímco klasifikační pravidlo se může učit až průběžně během jeho provozu. Dosud jsme použili systém SIR na reálných kardiologických datech. Systém určí soubor 10 zásadních genů mezi více než 39 000 genovými transkripty. U těchto vybraných genů se předpokládá, že jsou pro konkrétního pacienta v české populaci spojeny s vyšším rizikem manifestace infarktu myokardu nebo cévní mozkové příhody. Párový design studie umožnil odstranit vliv známých rizikových faktorů (např. systolického krevního tlaku) na schopnost rozlišení, čímž se projevila přidaná hodnota zahrnutí dat genových expresí do studie. Lékař s přístupem k webové klasifikační službě může u nového pacienta zjistit předpověď rizika závažnější prognózy nebo recidivy. Lékař má informaci o spolehlivosti klasifikace systému. Připravujeme další studie pro ověření schopnosti systému SIR vybrat pro spolehlivou podporu rozhodování podstatné informace z vysoce dimenzionálních měření. Poděkování Výzkum byl podpořen projektem 1M06014 MŠMT ČR. Jsme vděční Martinu Horáčkovi za pomoc s implementací klasifikační analýzy. Systém SIR byl poprvé představen na EFMI STC 17.-19. dubna 2013 v Praze a ve sborníku z konference [14] bylo zveřejněno krátké pojednání. Reference [1] D.J. Power, Decision support systems: Concepts and resources for managers, Quorum Books, Westport, 2002. [2] M.J. Romano, R.S. Stafford, Electronic health records and clinical decision support systems: Impact on national ambulatory care quality, Archives of Internal Medicine 171 (2011), 897-903. [3] F. Sicurello, M. Gündel, A. Donzelli, Data analysis web service using statistical packages. International Journal of Advanced Statistics and ITC for Economics and Life Sciences 1 (2009), 3-7. [4] K. Kawamoto, C.A. Houlihan, E.A. Balas, D.F. Lobach, Improving clinical practice using clinical decision support systems: A systematic review of trials to identify features critical to success, BMJ 330 (2005), 330:765. [5] J. Kalina, J. Zvárová, Decision support systems in the process of improving patient safety. In A. Moumtzoglou, A. Kastania (Eds.): E-Health Technologies and Improving Patient Safety: Exploring Organizational Factors. IGI Global, Hershey, Pennsylvania, 2013, 71-83. [6] P. Berka, J. Rauch, M. Tomečková, Data mining in the atherosclerosis risk factor data. In Berka P., Rauch J., Zighed D.A. (Eds.): Data Mining and Medical Knowledge Management: Cases and Applications, IGI Global, Hershey, 2009. [7] J. Kalina, Classification analysis methods for high-dimensional genetic data. Biocybernetics and Biomedical Engineering (2013). Accepted. [8] W.L. Martinez, A.R. Martinez, J.L. Solka, Exploratory data analysis with MATLAB. 2nd edn. Chapman Hall/CRC, London, 2011. [9] J. Zvárová, M. Studený, Information theoretical approach to constitution and reduction of medical data, International Journal of Medical Informatics 45 (1997), 65-74. [10] A.C. Rencher, Multivariate statistical inference and applications, Wiley, New York, 1998. [11] Z. Valenta, I. Mazura, M. Kolář, H. Grünfeldová, P. Feglarová, J. Peleška, M. Tomečková, J. Kalina, D. Slovák, J. Zvárová, Determinants of excess genetic risk of acute myocardial infarction-a matched case-control study, European Journal for Biomedical Informatics 8 (2012), 34-43. [12] C. Ding, H. Peng, Minimum redundancy feature selection from microarray gene expression data. Journal of Bioinformatics and Computational Biology 3 (2005), 523-528. [13] H. Chen, S.S. Fuller, C. Friedman, W. Hersh, Medical informatics, Knowledge management and data mining in biomedicine, Springer, New York, 2005. [14] J. Kalina, L. Seidl, K. Zvára, H. Grünfeldová, D. Slovák, J. Zvárová: System for selecting relevant information for decision suppport. In: B. Blobel, A. Hasman, J. Zvárová (Eds.): Data and Knowledge for Medical Decision Support, Studies in Health Technology and Informatics 186, IOS Press, Amsterdam, 2013, 83-87.