Vývoj softwaru Biospean

REFERÁT ZE STÁŽE na Technologické univerzitě Vídeň, Rakousko V rámci projektu BIOTREND (CZ.1.07/2.2.00/28.0184) jsem vycestoval na zahraniční stáž na pracoviště Fakultät für Technische Chemie, Technische Universität Wien (Fakulta technické chemie, Technologická univerzita Vídeň, Rakousko). Stáž proběhla ve dnech 19. 11. 2012 až 19. 12. 2012. V původním plánu bylo jednak vylepšování, ladění a testování softwaru Biospean a jednak splnění úkolů o které měla zájem TU Vídeň. Nicméně vývoj situace na místě tyto úkoly postupně rozšířil a paralelní stáž dalších dvou kolegů z KBC UPOL spolu se spoluprací na dálku s pracovištěm v Olomouci přidaly další vědecké úkoly, které byly během stáže řešeny. Vývoj softwaru Biospean Tento úkol byl plněn jako součást práce na doktorandském studiu. Biospean je software pro katalogizaci a analýzu hmotnostních spekter. Zaměřením a schopnostmi srovnání spekter patří do stejné kategorie jako např. MALDI Biotyper. Na rozdíl od něj se ale jedná o aplikaci webovou, multiplatformní a víceuživatelskou, určenou pro použití v rámci většího vědeckého týmu a umožňující skupinovou práci. Je provozována na platformě LAMP (Linux, Apache, MySQL, PHP). V rámci pobytu na TU Vídeň byly v aplikaci provedeny následující změny: 1) S ohledem na specifika hmotnostních spekter používaných na TU Vídeň byla výrazně zvýšena citlivost aplikace při detekci méně výrazných peaků a schopnost se vypořádat se šumem. 2) Zvýšila se schopnost zpracovat data ze vstupních souborů obsahujících předem normalizované výsledky, které se používají na TU Vídeň. Dále byla přidána podpora pro data ve formátu CSV a zvýšila se odolnost na vstup dat, která jsou v chybném formátu či nesouvisí se samotnými daty (např. komentáře vložené do zdrojového souboru). 3) Vedlejším efektem velkého počtu spekter, která TU Vídeň chtěla analyzovat, bylo, že aplikaci i databázi bylo možné otestovat na hranici výkonu. To mi výrazně pomohlo nalézt úzká hrdla, která aplikaci zpomalovala. Zátěžové testy databáze za přítomnosti velkého množství dat mi pomohly nalézt lepší nastavení webového i databázového serveru a proběhla optimalizace struktury databáze.

Tím se povedlo dosáhnout znatelného zrychlení při zpracování dat, ale především významného zrychlení při vyhledávání a vizualizaci spekter. 4) Přibyla schopnost vyhledat společné peaky po větší skupiny spekter. Tato funkce byla původně určena jen pro dvě spektra, nicméně v rámci praktických testů vyvstala potřeba hledat průniky pro větší skupiny spekter. Proto došlo k přepracování a rozšíření na schopnost zpracovat více spekter současně. Tato funkce byla posléze dále rozšířena o velice důležitou schopnost vyhledat a označit i takové peaky, které se vyskytují ve většině zkoumaných spekter, ale nelze je nalézt ve všech, např. z důvodu odchylek a chyb v měření, šumu atd... Touto měkčí schopností detekce se získala aplikace schopnost zpracovat velkou skupinu spekter a přitom se vypořádat i s menšinou spekter, která jsou z různých důvodů nižší kvality. 5) Další novou funkcí se stala schopnost vytvářet a pracovat s virtuálními spektry, která lze s úspěchem použít pro hledání/ověřování charakteristických znaků v reálných spektrech či přímo k identifikaci reálného spektra (např. k jeho zařazení ke konkrétnímu druhu). Virtuální spektra vzniknou tak, že vytvoříme umělé spektrum, které obsahuje jen peaky, které jsou pro nás zajímavé. Při porovnání takovéhoto virtuálního spektra s reálnými spektry vypíše program reálná spektra, která obsahují charakteristické peaky typické právě pro hledané virtuální spektrum. To umožňuje rychlou a snadnou identifikaci reálného spektra např. pokud virtuální spektrum obsahuje znaky typické např. pro nějakou bakterii nebo chorobu. 6) Aplikace získala další možnost jak zobrazit data. Doposud si mohl uživatel zobrazit pouze stupeň shody jednoho spektra vůči ostatním spektrům (v podobě jednorozměrné tabulky). Nově byla přidána schopnost vygenerovat dvourozměrnou tabulku (v podobě tzv. kartézského součinu porovnání každý prvek s každým) kde může uživatel na jednom místě vidět stupeň shody mezi všemi dvojicemi z vybrané množiny. 7) Během praktické práce s grafickým prostředím došlo k přidání a úpravě řady drobných prvků, k vylepšení ovládání a dalších maličkostí, které zpříjemňují uživateli práci a zlepšují ergonomii grafického prostředí. 8) Praktické využívání aplikace mi dodalo několik dalších podnětů a nápadů na další vylepšení, která mám v plánu zrealizovat. Určení stadia fermentace vzorku Tento úkol byl vyžádán ze strany TU Vídeň.

Situace: Máme změřených několik spekter z průběhu fermentace. Spektra reprezentují stav v jednotlivých časových okamžicích. Tato spektra rozdělíme do tří fází. První fází je začátek procesu fermentace, druhým stádiem je její průběh a třetím stadiem je ukončení a stabilizace vzorku. Úkol: Zjistit, zda je Biospean schopen identifikovat stádium předloženého vzorku, pokud mu předložíme pro srovnání vzorky z předchozích reakcí. Pro testování mi byla poskytnuto šest skupin hmotnostních spekter, reprezentujících různé fermentace. U každé skupiny bylo známé pořadí, ve kterém byla měření prováděna a do které fáze fermentace vzorek patří. Řešení: Identifikace stádia u vzorků se ukázala jako možná. Už verze Biospeanu, kterou jsem dovezl do Vídně, byla (po určité úpravě pro jejich specifická spektra) schopna celkem přesvědčivě identifikovat stádium fermentace. Následně bylo nalezeno a implementováno další řešení, které ukázalo ještě přesvědčivější výsledky. První řešení bylo založeno na prostém faktu, že hmotnostní spektrum se během reakce proměňuje v závislosti na biochemických změnách. Stádia fermentace nám reprezentují předložené vzory (označme si je jako x 1 až x n ). Pokud tedy chceme identifikovat stádium testovaného vzorku, musíme nalézt takové vzory, které vykazují největší shodu/podobnost s testovaným vzorkem. Z této podobnosti potom určíme stádium, ve kterém se testovaný vzorek nachází. Teoreticky bychom měli dostat největší podobnost se vzory x i a x i+1, přičemž testovaný vzorek se nachází ve stavu mezi nimi. Další nejvíce podobné vzory by potom měly být vzory x i-1 a x i+2. S rostoucí časovou vzdáleností od testovaného vzorku by postupně měla klesat podobnost testovaného vzorku s předloženými vzory. Podle vzorů x i a x i+1 a dalších blízkých vzorů bychom tedy měli být schopni snadno určit stádium, ve kterém se testovaný vzorek nachází. V praxi se tento předpoklad ukázal jako správný a funkční. Biospean ukazoval ve většině případů největší podobnost právě se vzorovými spektry, která byla nejblíže k testovanému vzorku. V praktických výsledcích se občas vyskytovaly nepřesnosti, když bylo např. prohozeno pořadí nejbližších sousedů (např. x i+2 byl před x i+1). Tyto odchylky však byly jednoznačně způsobené ne zcela optimálním nastavením Biospeanu (které jsem musel několikrát změnit kvůli specifikům sledovaných spekter) a především šumem v nepříliš kvalitně změřených spektrech. Tuto nepřesnost nicméně bylo možné zkorigovat vizuální kontrolou výsledků a pro identifikaci nepředstavovaly zásadnější problém.

Obtížnější byla identifikace jen v případě, kdy se testovaný vzorek nacházel na hranici mezi dvěma stádii. Tam bylo určení konkrétního stádia pochopitelně obtížnější, což je logické, protože spektra v těchto místech obsahují znaky obou sousedících stádií. Tento úkol vedl k prvním změnám v softwaru programu. Nejprve bylo třeba program upravit pro potřeby spekter z Vídně byla nutná větší citlivost a rozdílné rozsahy hodnot. V dalším kroku pak byla pro potřeby lepšího zobrazení podobnosti vytvořena výše zmíněná možnost zobrazit výsledky ve dvourozměrné tabulce, kde bylo možné snadno vyčíst, jak si jsou navzájem jednotlivá spektra podobná. Tyto pokusy rovněž poskytly velice důležitý důkaz o tom, že vyhledávací algoritmus Biospeanu pracuje skutečně správně. Pokud byly Biospeanu předloženy sekvence spekter, u kterých jsme znali skutečné pořadí (a tudíž i správné výsledky při testu podobnosti), porovnáním vypočtených výsledků mezi sebou ukázalo, že největší podobnost je téměř vždy právě se sousedními vzorky a s rostoucí časovou vzdáleností se podobnost postupně snižuje. To dokázalo, že srovnání spekter tak jak je navrženo, pracuje správně a občasné odchylky jsou spíše otázkou nastavení citlivosti a kvality spekter. Druhé řešení pro nalezení fáze bylo vytvořeno až dodatečně, přičemž jsem využil funkce vytvořené pro vyřešení řešení jiného úkolu. Těmito funkcemi byly nově vytvořené nástroje pro generování virtuálních spekter. Princip spočíval v tom, že jsem vytvořil ze všech vzorů daného stádia charakteristické virtuální spektrum. Z každé sekvence byly tedy vytvořeny tři virtuální spektra, přičemž každé reprezentovalo vždy jednu ze tří fází fermentace. Takto získaná spektra pro dané fáze jsem následně porovnával s testovanými vzorky. Výsledek byl výborný. Chybné detekce prakticky zmizely a obtížnější detekce byla jen na rozhraní mezi fázemi, kde je to ale logické. Při společném použití s první metodou byla detekce fáze prakticky stoprocentní. Závěr: Biospean lze s přijatelnou přesností použít pro detekci konkrétního stádia reakce. K identifikaci lze použít dvě na sobě nezávislé metody, které se mohou vhodně doplňovat. Identifikace peaků u spekter plísní blumeria, botrytis a bremia Tento úkol byl neplánovaný a vznikl při snaze pomoci kolegyni z KBC UPOL s identifikací peaků v jejich hmotnostních spektrech.

Úkol: Vyhledávání peaků v jednotlivých spektrech plísní. Upřesnění pozice peaků vzájemným porovnáním výsledků z programů Biospean a mmass. Nalezení peaků společných pro konkrétní druh plísně. Provedení: Zatímco mmass vyznačí všechny nadprůměrné hodnoty podezřelé jako peak a ponechává na uživateli, jak je interpretuje, Biospean tyto peaky vybírá a označuje pro další zpracování. Chtěli jsme proto zjistit, zda je Biospean schopen sám najít charakteristické peaky v podobné kvalitě. Výsledky z programu Biospean proto byly vizuálně porovnávány s výsledky z programu mmass. Z výsledků bylo vidět, že Biospean nemá žádné problémy s identifikací dostatečně intenzivních peaků. Nicméně v případě peaků se slabou intenzitou nacházejících se v šumu byla přesnost menší. Běžný byl výskyt tzv. negative-false detekce, tedy peaku, který nebyl správně rozpoznán jako peak. Naopak se vůbec nevyskytly případy pozitive-false detekce, tj. označení peaku, kterým peakem ve skutečnosti nebyl. Toto bylo zcela evidentně způsobeno tím, že citlivost programu byla nastavena na větší odstup od šumu. V případě snahy o detekci méně intenzivních peaků by se samozřejmě mezi peaky mohl dostat i intenzivní šum. V průběhu testů vyvstala od kolegyně otázka, zda by bylo možné najít peaky společné pro všechna spektra daného druhu. Proto byla provedena úprava, která umožnila programu nalézt průniky mezi skupinami peaků. Z této funkce následně při řešení dalšího úkolu vznikla funkce pro práci s virtuálními spektry. Identifikace druhu spór rodu fusarium Tento úkol byl vyžádán ze strany TU Vídeň. Situace: Máme změřená spektra různých druhů spór rodu fusarium. Celkem 735 spekter celkem šesti druhů spór. Spektra byla získána z různých lokací a spóry rostly na různých druzích obilnin (ječmen, pšenice, oves), jeden ze vzorků i na vlašských ořeších. Měření prováděli různí studenti na různém vybavení a spektra byla ve třech variantách s různým způsobem odstranění šumu. Úkol: Najít způsob jak přiřadit testovaný vzorek ke konkrétnímu druh spór. Identifikovat znaky společné pro jednotlivé druhy spór. Řešení: Zde se jako velice účinná ukázala funkce, která byla vytvořena pro hledání společných peaků pro více spekter. Bylo to logické řešení najít ze všech spekter stejného druhu průnik společných peaků a z nich vytvořit vzor pro vyhledávání charakteristických peaků. Ze společných peaků se potom pomocí další funkce vytvořilo virtuální spektrum, které

obsahovalo jen peaky charakteristické pro daný druh spór. Takové spektrum by při výpočtu shody s reálným spektrem ukázalo dostatečnou shodu, která by umožnila identifikaci příslušného vzorku. Nicméně při prvních pokusech se vůbec nedařilo najít vhodné průniky. Některé skupiny spekter vykazovaly několik podobných znaků, ale u jiných skupin byl problém najít vůbec něco. Někdy se podařilo najít podobnosti až poté, co jsem ze skupiny vyjmul nejméně kvalitní spektra. Problém spočíval v samotných spektrech velká úroveň šumu a hlavně nízká kvalita měření. Např. když dvě spektra ze stejného vzorku změřená dvěma různými studenty vypadala velice odlišně, bylo jasné, že kvalita měření spekter je velice zásadní problém. Jako fungující řešení se ukázala úprava funkce pro hledání průniků, která byla poněkud oslabena ve striktnosti vyhledávání. Byl přidán uživatelsky nastavitelný parametr (procentuální hodnota), který umožnil označit i peaky, které se vyskytují ve většině spekter, ale nemusí nutně být ve všech. Např. nastavením na 80 % je možné označit všechny peaky, které jsou alespoň v 80 % spekter. Pro otestování identifikace jednotlivých druhů spór jsem tedy vytvořil virtuální spektra se shodami peaků 100 %, 80 %, 60 % a 40 %. Pomocí nich jsem potom testoval, zda je možné testované spektrum dostatečně přesně rozpoznat. Výsledky byly povzbudivé shoda proti virtuálním spektrům byla velice dobrá a dařilo se správně identifikovat naprostou většinu rozeznávaných spekter, přičemž virtuální spektra s citlivostí od 60 % výše se ukázala pro detekci druhu jako zcela postačující. Problém byl jen se spektry spór, které rostly na vlašských ořeších. Zde se našla jen minimální shoda s ostatními vzorky (které pocházely z obilovin) a identifikace vzorku byla velice obtížná. Velkým povzbuzením byla skutečnost, že se díky schopnostem Biospeanu podařilo velice rychle najít způsob, jak v teoretické i praktické rovině vyřešit problém, který se vídeňské pracoviště marně snažilo najít delší dobu. Závěr: Biospean je schopen vyhledávat charakteristické znaky pro celé skupiny spekter, vypořádat se s nepřesností části spekter, vytvářet z takových skupin virtuální spektra charakterizující např. konkrétní druhy organizmů (spór, bakterií) a identifikovat jiné vzorky za pomoci těchto uměle vytvořených virtuálních spekter.

Simulace peptidů souvisejících s Bergerovou chorobou Tento úkol vznikl neplánovaně ve snaze pomoci kolegům z KBC UPOL, kteří pracují na výzkumu Bergerovy choroby, známé také jako IgA nefropatie. Konkrétně se jednalo o objasnění výskytu GalNAc a GalGalNAc v postranních řetězcích sledovaného proteinu. Problém: Sledovaný řetězec umožňuje navázat na specifická místa deriváty galaktosy, konkrétně GalNAc a GalGalNAc. Cílem bylo zjistit, na kterých místech se navazují a jaké teoretické sekvence podřetězců mohou ve vzorcích vzniknout. Tyto výsledky následně porovnat s reálnými hmotnostními spektry a zjistit, které kombinace opravdu vznikají. Velkou nepříjemností bylo, že počet kombinací a možných štěpů byl natolik vysoký, že v případě manuálního zpracování lidskými silami by šlo o velice zdlouhavý a náročný proces. Nápad použít počítač vznikl spíše náhodou ve chvíli, kdy jsem viděl jak kolega zkouší vytvořit kombinace ručně a navrhl mu možnost použít automatický skript k vygenerování. Pak jsme jen přidávali další kroky až jsme se za pomoci počítačových skriptů a programu Biospean propracovali k výslednému řešení. Řešení: Pro získání výsledků bylo třeba provést následující kroky. Nejprve bylo třeba získat kombinace řetězců, které mohou z proteinu vzniknout. Proto jsem pomocí skriptu vytvořil reprezentaci pro všechny požadované kombinace proteinů. Vzniklo 262 kombinací. Z každé kombinace jsem následně vypočítal všechny možnosti rozštěpení, což vytvořilo 7 štěpů pro každou kombinaci, přičemž jeden štěp byl společný pro všechny kombinace. U každé kombinace štěpů jsem vypočetl hmotnosti jednotlivých štěpů. Hmotnosti odpovídají x-ovým souřadnicím charakteristických peaků ve hmotnostním spektru. Z těchto sedmi souřadnic pro každou kombinaci jsem tedy skriptem vytvořil 262 virtuálních spekter, kdy každé virtuální spektrum obsahovalo právě těch sedm peaků charakteristických pro danou kombinaci. Získaná virtuální spektra jsem načetl do Biospeanu stejně jako normální spektra a nechal jsem systém, aby vypočítal pozice peaků. Tím jsem získal charakteristická spektra, která bylo už možno porovnat se šestnácti reálnými spektry. Z výsledků vyplynulo, že v reálné situaci se může objevit jen část z teoreticky možných kombinací. Teď už zbývalo jen vytvořit výstup v podobě, se kterou se dá pracovat. Využil jsem funkce vytvořené pro Biospean a vytvořil skript, který pro všech 16 reálných spekter udělal test podobnosti proti všem 262 virtuálním spektrům. Výsledky skript se vypsal v podobě

přehledné tabulky (resp. v podobě několika tabulek s různě nastavenou citlivostí), která umožnila další využití. Získané výsledky výrazně pomohly článek Deciphering heterogeneity of Oglycans from the hinge region of human IgA1 using MALDI-TOF/TOF mass spectrometry: role of precise cysteine alkylation during sample processing (V. Franc, P. Řehulka, M. Raus, J. Stulík, M.Šebela, J. Novák) o řešeném problému byl odeslán na recenzi v polovině ledna 2013. Shrnutí Ačkoliv jsem stáž bral ze začátku především jako povinnou součást doktorandského studia, kterou jako nutné zlo prostě musím absolvovat, musím konstatovat, že v konečném byla po všech stránkách přínosem. Především z toho důvodu, že došlo k praktickému využití vyvíjeného softwaru Biospean a v důsledku toho byla provedena řada úprav a vylepšení, která by byla realizována až později, po uvedení do zkušebního provozu. V samotném programu došlo k vylepšení výkonu a zvýšení robustnosti (odolnosti proti méně kvalitním datům). Bylo přidáno několik užitečných funkcí, které zvýšily schopnosti i užitnou hodnotu a během řešených úkolů byly schopnosti programu využity i způsobem, se kterým se zpočátku nepočítalo (např. virtuální spektra a simulace teoretických dat). Z hlediska ověření správné funkce softwaru Biospean byly nejdůležitější výsledky získané při detekci stadia fermentace první testovaná metoda dokázala správnou funkci detekce a porovnání spekter. Ačkoliv šlo o relativně snadný úkol, bylo důležité, že se poprvé pracovalo s daty, u kterých jsme přesně věděli, jak má jejich vzájemná podobnost vypadat. Tudíž bylo možné jasně říci, zda software vrátil správný výsledek. A získané výsledky skutečné vycházely téměř přesně tak, jak vycházet měly, což byl výborný důkaz, že software opravdu pracuje správně. Po stránce vědeckého přínosu největší význam má vyřešení otázky peptidových štěpů u IgA nefropatie. Tyto výsledky se staly důležitou součástí probíhajícího výzkumu a fakticky završením předchozí práce kolegů. Počítačové vyhodnocení dat získaných v laboratoři výrazně zrychlilo a zjednodušilo zpracování dat a vedlo i k poněkud překvapivému závěru, kdy se z výsledků ukázalo, že řešený problém je zřejmě mnohem složitější než se původně očekávalo slovy kolegy máme víc otázek než odpovědí. Získané výsledky zakončily několikaměsíční práci kolegů a staly se součástí článku, který šel prakticky ihned na recenzi.

Jako další vědecký přínos lze uvést i nalezení společných znaků ve spektrech spór rodu fusarium, což byl úkol, o který se vídeňské pracoviště marně snažilo delší dobu. Zde pro mne byla výhodou moje specializace (informatik-analytik-programátor), která mi dala možnost vyřešit problém z jiného úhlu pohledu, než jaký mají kolegové specializovaní na klasickou biochemii. Hlavní přínos přitom nespočívá v samotném rozeznávaní konkrétních spór, ale v přípravě mnohem obecnějšího řešení pro vyhledání shodných znaků ve spektrech, které je aplikovatelné i na jiné případy. Celou stáž považuji za úspěšnou a přínosnou jak pro mne z hlediska profesního a studijního, tak pro kolegy z obou vědeckých pracovišť, kteří se účastnili řešených úkolů. Mgr. Martin Raus v Olomouci dne 7.1.2013