Extrahovatelnost informací z českých lékařských zpráv

cs42 Původní práce Extrahovatelnost informací z českých lékařských zpráv Karel Zvára 1, Vojtěch Svátek 2 1 EuroMISE centrum, Ústav hygieny a epidemiologie, 1. LF UK v Praze, ČR 2 Vysoká škola ekonomická, Praha, ČR Abstrakt Pozadí: Pro péči o zdraví důležité informace o pacientovi jako je jeho anamnéza, výčet diagnóz, preskripce a možnosti budoucí léčby jsou obvykle obsažené ve volnotextových lékařských zprávách. Získání relevantních informací umožňuje předávání informací lékařům hovořícím jinými jazyky, využití moderních technologií jako jsou upozornění na rozpory s lékařskými doporučeními v reálném čase či sběr dat pro vědecké účely. Cíle: Cílem tohoto článku je shrnout techniky oboru extrahování informací z volných textů a ukázat výsledky, kterých autoři dosáhli. Metody: V experimentu byly použity lexikální analýza a číselníky dostupné v českém jazyce. Výsledky: Zjišťujeme, že volnotextové lékařské zprávy se natolik liší od obecných textů, že nemohou být zpracovávány stejným způsobem. V češtině dostupné číselníky byly shledány nedostatečnými pro použití jako slovníky pro rozpoznávání odborných termínů. Závěry: Je zapotřebí vyvinout nové slovníky s českými termíny pro obor zdravotnictví. Symbolické techniky byly shledány efektivními pro rozpoznání výrazů jako jsou rodné číslo nebo systolický a diastolický krevní tlak. Klíčová slova Extrakce informací z textů, české lékařské zprávy, lexikální analýza Kontakt: Karel Zvára EuroMISE centrum, Ústav hygieny a epidemiologie, 1. LF UK v Praze, ČR Adresa: Kateřinská 32, 121 08 Praha 2, ČR E mail: zvara@euromise.com EJBI 2012; 8(5):cs42 cs46 zasláno: 4. září 2012 přijato: 25. října 2012 publikováno: 22. listopadu 2012 1 Úvod Problematice převodu volnotextových lékařských zpráv do strukturované formy se obor medicínské informatiky věnuje již několik desetiletí. Je dobře známo, že úsporný způsob, kterým lékaři tvoří zdravotní dokumentaci, vede k častému využití zkratek (vč. akronymů) a k velkému výskytu překlepů. Tyto vlastnosti vedou k problémům při snahách o využití soudobých metod pro extrakci informací z volných textů. Úspěchů již bylo dosaženo při extrahování informací z anglicky psaných textů. Výhodou angličtiny je dobrá dostupnost mnoha nástrojů, dostupnost anglických verzí klasifikačních systémů (číselníků), trénovacích korpusů a vcelku pevně daný pořádek slov. Pro mnoho dalších jazyků extrakce informací z lékařských textů stále zůstává otevřenou výzvou. Předkládaný výzkum se zaměřuje na lékařské zprávy zapsané v českém jazyce, které jsou ovlivněné také místními zvyky a právním prostředím. Cílem bylo zjistit jaké množství relevantních informací lze pro další zpracování zjistit pomocí automatické analýzy s využitím jednoduchých technik extrakce informací (těch, které nezávisejí na trénovacích korpusech). V části 2 shrnujeme taxonomii metod pro extrakci informací jako širší kontext našeho výzkumu (a jako základ pro další práci). V části 3 stručně charakterizujeme české lékařské zprávy. Část 4 poskytuje přehled cílových nomenklatur a datových struktur, do kterých se textové lékařské zprávy mají transformovat pro zajištění plné strojové zpracovatelnosti. Část 5 se zabývá aplikací pro extrakci informací z českých lékařských textů, která stručně shrnuje předchozí práci. Část 6 shrnuje článek. 2 Metody pro extrakci informací Metody pro extrakci informací můžeme rozdělit do dvou skupin podle jejich podúkolů [2], například: Metody pro extrakci pojmenovaných entit. Úkolem těchto metod je najít a anotovat relevantní části textu jako jsou jména, kódy, datumy, časy či adresy elektronické pošty. Metody pro analýzy koreferencí. Úkolem těchto metod je nalezení vztahů mezi jednotlivými slovy podle morfologie vstupního textu (nikoliv podle předdefinovaných vztahů).

Zvára, Svátek Extrahovatelnost informací z českých lékařských zpráv cs43 Metody vyplňování šablon. Úkolem těchto metod je vyplnit hodnoty nalezené v textu do předpřipravených šablon. Tyto metody mohou být použité, pokud je známa cílová struktura (šablona), do které se mají údaje vyplňovat. Metody pro extrakci vztahů. Tyto metody jsou použité pro extrakci předdefinovaných vztahů mezi extrahovanými entitami. Podle typu extrakčního algoritmu lze metody pro extrakci informací dělit do dvou skupin: Manuální techniky jsou založené na ručně definovaných pravidlech, obvykle formovaných do kaskád. Tato skupina obsahuje techniky založené na regulárních výrazech. Trénovatelné techniky mohou zlepšovat své výsledky automaticky nebo pod supervizí. Trénovatelné techniky obvykle potřebují nějakou supervizi, přinejmenším ve formě prvotních trénovacích dat, např. ve formě anotovaného textu. Mezi trénovatelné techniky patří bootstrapping (kombinace extrahování a trénování). Jednou z metod bootstrappingu je aktivní učení, kdy systém nabízí supervisorovi k anotaci části textu, jehož anotováním si systém je nejméně jistý. Trénovatelné techniky mohou výt dále rozděleny do tří skupin: Symbolické techniky obsahují například indukci rozhodovacích stromů (Top-Down Induction of Decision Trees - TDIDT), techniku rozděl a panuj ( divide and conquer, shora-dolů) and odděl a panuj ( separate and conquer, zespod-nahoru). Pravděpodobnostní techniky obsahují skryté markovské modely (HMM), markovské modely s maximální entropií (MEMM) a podmíněná náhodná pole (CRF). Ostatní symbolické techniky zahrnují např. neuronové sítě nebo support vector machines (SVM). V tomto článku jsme se zaměřili na extrakci pojmenovaných entit pomocí manuálních technik. Použitelnost těchto metod v malém měřítku je předpokladem pro použití automatických technik a pro extrakční úlohy ve větším měřítku. 3 České lékařské zprávy České lékařské zprávy jsou obvykle ve formě volných textů formátovaných jen pomocí mezer, tabulátorů a odřádkování. Povinnost vytvářet, uchovávat a podle daných pravidel strukturovat lékařské zprávy byla do české legislativy zanesena v roce 2001 [3] a [4]. Zákon o péči o zdraví lidu a prováděcí vyhláška o zdravotnické dokumentaci uvedly požadavky na formu a především na strukturování a obsah jednotlivých druhů lékařských zpráv. České lékařské zprávy jsou tak klinickými texty se standardizovanou strukturou. Forma a použitá terminologie jsou do značné míry ovlivněné společným vzděláním lékařům, jejich příslušností k profesní organizaci a jejich vlastním obvyklým záměrem tvořit zdravotní dokumentaci nejen jako podklad pro dlouhodobu péči o pacienta, ale také jako důkazní materiál pro případ právních sporů. 3.1 Vytváření nových lékařských zpráv Nové lékařské zprávy se obvykle vytvářejí pomocí šablon či zkopírováním a následným upravením předchozí lékařské zprávy. Důvod pro tento postup je čistě ekonomický. Zkopírování obsahu je rychlé a umožňuje lékaři nezapomenout uvést povinné informace, které se s časem příliš nemění jako rodinnou anamnézu, výčet diagnóz a podobně. Tato praktika může vést k závažným problémům, například k zapomenutí uvedení změn v diagnózách. Podobné problémy se vyskytují i v jiných zemích. [5]. 3.2 Obsah z jiných systémů Některé informace pocházejí z externích systémů ve formě, která může být snadno zkopírována. Jde zejména o laboratorní výsledky, ve kterých řádky obvykle představují jednotlivá měření a sloupce vlastnosti jako jsou název měřené veličiny, naměřenou hodnotu a referenční rozmezí. Takové kopírované texty někdy obsahují jednoduchou grafiku (tvořenou pomocí znaků). 3.3 Další obtíže České lékařské zprávy obsahují mnoho typografických chyb a zkratek. Toto není typické jen pro české lékařské zprávy. Jednotlivé zkratky obvykle nejsou jednoznačné a k pochopení významu je často zapotřebí znát kontext. Na tento problém upozornili také jiní autoři, např. [6]. 4 Cílové struktury a nomenklatury 4.1 Nomenklatury Cílové nomenklatory je nutné volit tak, aby jim rozuměli cíloví uživatelé a jejich nástroje (informační systémy). V mezinárodním i národním měřítku se běžně používá například Mezinárodní klasifikace nemocí (MKN, ICD) a běžně se užívá i v lékařských zprávách. Laboratorní výsledky zase obvykle používají mezinárodní soustavu jednotek SI. Jiné hodnoty se v České republice a v zhraničí v kódování značně liší. V České republice klinické systémy často užívají Národní číselník laboratorních položek (NČLP), který není jediným číselníkem, ale systémem sdružujícím desítky číselníků, z nichž některé jsou odvozené nebo

cs44 Zvára, Svátek Extrahovatelnost informací z českých lékařských zpráv Tabulka 1: Slova nalezená v lékařských zprávách (celkové průměry). Počet anotací (průměr/zpráva) Anotací / slov celkem Podstatné jméno 75 30,32 % Přídavné jméno 23 9,3 % Zájmeno 0 0 % Číslovka 0 0 % Sloveso 17 6,87 % Příslovce 3 1,21 % Předložka 0 0 % Spojka 0 0 % Částice 0 0 % Citoslovce 0 0 % přímo přebrané z jiných zdrojů (obsahuje například českou verzi Mezinárodní klasifikace nemocí verze 10). V mezinárodním měřítku existují různé více či méně komplexní nomenklatury, především SNOMED CT (Systematized Nomenclature of Medicine Clinical Terms), LO- INC (Logical Observation Items Names and Codes) a slovník (vocabulary) Health Level Seven. Tyto mezinárodně užívané nomenklatury jsou vždy spravovány nějakou konkrétní organizací a jsou indexovány Národní lékařskou knihovnou v USA a jejím systémem UMLS (Unified Medical Language System). UMLS indexuje více než 100 různých číselníků a mapuje jejich položky na vlastní koncepty, přičemž spravuje vlastní síť mapování mezi jednotlivými koncepty. Tímto způsobem je možné alespoň přibližně mapovat hodnoty mezi různými nomenklaturami. Kromě UMLS jsou i další snahy o formalizování nomenklatury pomocí ontologií. Existují také iniciativy, které se snaží spojovat různé tematické ontologie do ucelených ontologií (např. OBO Foundry usiluje o vytvoření ontologie pro biomedicínu a biochemii). 4.2 Struktury 1 European Patients Smart Open Services Lékařské zprávy jsou neformalizované stavové dokumenty popisující pacientův současný stav, historii, pozorování, rozhodnutí a provedené úkony. Několik významných organizací, zejména TC 251 CENu, Health Leven 7, ASTM (American Society for Testing and Materials) a openehr, se zabývají standardizací struktur pro uchování formalizovaných stavových dokumentů elektronických zdravotních záznamů. Health Level Seven vyvíjí CDA (Clinical Document Architecture). CDA v současné verzi R2 umožňuje formalizovat především administrativní informace, anotovat části zpráv na úrovni bloků a umožňuje zapsat ve formalizované podobě jednotlivá klinická pozorování. Standardy Health Level Seven jsou obvykle vyvíjeny přístupem shora-dolů (od obecnému ke konkrétnímu), vývoj je pomalý, avšak výsledky jsou obvykle robustní. ASTM vyvinula Continuity of Care Record (CCR). CCR umožňuje zachytit jen aktuální stav pacienta, jde tedy o stavový dokument. Vývovj CCR probíhá na základě požadavků od uživatelů, k praktické použitelnosti tedy dospívá rychleji než CDA. ASTM a Health Level Seven společně vyvinuli technickou implementaci CCR pomocí CDA. Výsledkem je CCD (Continuity of Care Document), CDA dokument obsahující CCR. Z evropského pohledu je nejdůležitějším standardem pro elektronický zdravotní záznam standard EN 13606, který se stal také ISO standardem. Obvykle je označován jako EHRcom. EHRcom specifikuje obecný způsob formalizace informací, které jsou obvykle obsažené v lékařských zprávách. Používá SNOMED CT, LOINC a další mezinárodně užívané klasifikační systémy. V EU jsou take další projekty, které se snaží standardizovat (základní) obsah elektronického zdravotního záznamu. Projekt epsos 1 se zabývá minimální elektronickou zdravotní dokumentací potřebnou pro urgentní péči. epsos publikoval specifikaci pacientského shrnutí (Patient Summary, PS), které také namapoval na EHRcom. 5 Automatická analýza českých lékařských zpráv První studie o možnosti automatické extrakce informací z českých lékařských zpráv byly publikovány v [7] a [8]. V práci [8] šlo o regulární analýzu lékařských zpráv. Práce [7] uvádí, že lexikální analýzu nelze pro extrakci zpráv z českých lékařských zpráv použít, protože české lékařské zprávy nesestávají z celých vět a téměř není používána interpunkce. Práce [8] navazuje na výsledky práce [7] a rozšiřuje regulární analýzu s částečnou lingvistickou analýzou. V těchto pracích nebyly využité žádné číselníky. Práce [8] přinesla mírně lepší výsledky než práce [7]. Již dříve jsme studovali možnost použití lexikální analýzy, rozpoznávání specifických vzorů (např. česká rodná čísla a systolický/diastolický krevní tlak) a užití dostupných číselníků. Částečné výsledky byly publikovány v [9].

Zvára, Svátek Extrahovatelnost informací z českých lékařských zpráv cs45 Tabulka 2: Výsledky rozpoznávání kombinací čísel. Nalezeno Min. nalezeno Max. nalezeno Průměr Krevní tlak (sys/dia) 434 0 12 1,62 Rodné číslo 77 0 1 0,29 Neidentifikováno 268 0 6 1 5.1 Lexikální analýza Pro analýzu distribuce různých slov v záznamech jsme použili český slovník pro ispell vytvořený Petrem Kolářem. Původní verze může být snadno použita pro automatické anotování částí textu s jen malými úpravami. Doplnění slovníku o další vlastnosti umožní detailnější anotaci, konkrétně uvedení rodu, pádu, osoby či stupně. Toto rozšíření jsme však neprovedli, neboť výsledky automatického anotování nebyly uspokojivé. Český slovník pro ispell obsahuje 260 679 základních slov, ze kterých lze pravidly vytvořit celkem 4 624 350 slov (některá ve stejném znění, ovšem s jinými vlastnostmi) pomocí pravidel pro rozšiřování o předpony a přípony (affix rules). Vysoký počet anotací je důsledek vícenásobné anotace rozpoznaných slov. Zpracování 268 lékařských zpráv s celkem 66 286 tokeny (slovy) nám přineslo následující výsledky (viz. Tab. 1). 5.2 Rozpoznávání specifických vzorů Relativně jednoduchým (ovšem nikoliv triviálním) úkolem extrakce informací je rozpoznávání sekvencí čísel se speciálním významem. Soustředili jsme se na dva běžné typy informace, hodnotu krevního tlaku a rodné číslo. Konkrétní kombinace číselných hodnot byly rozpoznány symbolickou metodou založenou na pravidlech (tedy metodou regulárních výrazů). Významy byly rozlišeny pevně nastavenými pravidly. V případě krevního tlaku jsme do pravidel přidali smyslupnost hodnot. V případě rodného čísla jsme použili kontrolu délky částí a významů (datum narození, pohlaví, kontrolní součet). Tabulka 2 uvádí výsledky rozpoznávání kombinací čísel. Nezjistili jsme žádné nesprávné rozpoznání, zřejmě pro tvrdost rozpoznávacích pravidel. Obě rozpoznávací funkce byly definovány pro sadu dvou čísel oddělených lomítkem, navíc s těmito pravidly: krevní tlak: první číslo je větší než druhé, obě čísla jsou kladná a první číslo je menší než 500; rodné číslo: použili jsme běžná pravidla validace českých rodných čísel (existující datum, kódování pohlaví a pro rodná čísla identifikující osobu s narozením po 1. 1. 1954 byl kontrolován také kontrolní součet). 2 Medical Subject Headings 5.3 Použití dostupných číselníků Výsledky rozpoznávání číselníkových termínů byly publikovány v [9]. Rozpoznávání pomocí SNOMED CT a ICT10 bylo zcela neúspěšné. V případě SNOMED CT jsme neúspěch očekávali, neboť byla použita anglická verze (česká není k dispozici). ICD10 byla použita v české verzi (převzata z NČLP), neúspěch byl však zapříčiněn tím, že diagnózy byly v některých případech již uvedeny pomocí kódu ICD10 (potom nebylo zapotřebí je rozpoznávány) a částečně tím, že použitá česká verze ICD10 obsahuje velké množství zkratek. Větší úspěch jsme zaznamenali při použití české verze MeSH 2. V tomto případě jsme však dokázali rozpoznat v průměru méně než dva termíny ve zprávě, zřejmě pro nevhodnost číselníku pro klinické použití (MeSH je bibliografický klasifikační systém). 6 Závěry V této části stručně shrnujeme hlavní závěry ve vztahu k použitým typům textové analýzy. Lexikální analýza není řešením pro extrakci informací z českých lékařských textů. Hlavním důvodem je skutečnost, že české lékařské zprávy nejsou běžnými větami. To je zřejmé z rozdělení anotace slovních druhů. Hlavním ponaučením je, že je třeba věnovat pozornost překlepům a zkratkám. Oba úkoly by měly být řešeny společně s extrakcí informací, protože zkratky a chyby podmiňují správné rozpoznání pojmenovaných entit. Symbolické techniky jako na pravidlech založené filtry nebo rozpoznávací agentní systémy jsou dobrým nástrojem pro rozpoznání konkrétních numerických hodnot. Takové techniky mohou být efektivně použité pro rozpoznání hodnot krevního tlaku nebo identifikátorů pacientů. Vyhledávání pojmenovaných entit se zdá neefektivním, neboť i ty nejkomplexnější číselníky (především SNOMED CT) nejsou k dispozici v českém jazyce. Proto musejí být nalezené či vytvořené nové slovníky či přeložené existující klasifikační systémy. Poděkování Tato práce byla podpořena z projektu specifického výzkumu č. 264513 Sémantická interoperabilita v biomedicíně a zdravotnictví, Univerzita Karlova v Praze.

cs46 Zvára, Svátek Extrahovatelnost informací z českých lékařských zpráv Literatura [1] Garcia-Remesal M., Maojo V., Billhardt H., Crespo J., Integration of Relational and Textual Biomedical Sources, Methods Inf Med, 2010 [2] Labský M., PhD thesis: Information Extraction from Websites Using Extraction Ontologies, Vysoká škola ekonomická v Praze, Praha, 2009 [3] Žďárek R., Vedení zdravotnické dokumentace a její náležitosti, Zdravotnické noviny, 3.6.2009 [4] Dostál O., Šárek M., Support for Electronic Health Records in Czech Law, European Journal for Biomedical Informatics, 2012 [5] Hammond K., Helbig S., Benson C., Brathwaite-Sketoe B., Are Electronic Medical Records Trustworthy? Observations on Copying, Pasting and Duplication. AMIA Annual Symposium Proceedings, 2003; 269-273 [6] Tsung O. Cheng, Letters to Editor; in: Medical abbreviations in Journal of the Royal Society of Medicine, Volume 97, 2004 [7] Semecký J., Zvárová J.(školitelka), Multimediální elektronický záznam o nemocném v kardiologii, Matematicko-fyzikální fakulta UK, Praha, 2001 [8] Smatana P., Paralič J. (školitel), Spracovanie lekárskych správ pre účely analýzy a dolovania v textoch, Technická univerzita v Košiciach, Košice, 2005 [9] Zvára K., Kašpar V., Identifikace jednotek a dalších termínů v českých lékařských zprávách, European Journal for Biomedical Informatics, 2010