Chem. Lsty 111, 747753(2017) QSAR MODELOVÁÍ KVATITATIVÍCH VZTAHŮ MEZI STRUKTUROU A AKTIVITOU CHEMICKÝCH LÁTEK CTIBOR ŠKUTA a a DAIEL SVOZIL a,b a CZ-OPESCREE: árodní nfrastruktura pro chemckou bolog, Ústav molekulární genetky AV ČR v.v.. Vídeňská 1083, 142 20 Praha 4, b CZ-OPESCREE: árodní nfrastruktura pro chemckou bolog, Laboratoř nformatky a cheme, Fakulta chemcké technologe, Vysoká škola chemcko-technologcká v Praze, Techncká 5, 166 28 Praha 6 ctbor.skuta@mg.cas.cz, danel.svozl@mg.cas.cz Došlo 24.7.17, přjato 15.10.17. Klíčová slova: QSAR, modelování bologcké aktvty, vytěžování znalostí z dat, vrtuální screenng, oblast použtelnost, konformní predkce Obsah V posledních letech dochází k velkému nárůstu množství volně dostupných chemcko-bologckých dat. Tato data mají, ve spojení s řadou volně použtelných nástrojů pro jejch analýzu a obecně dostupnou výpočetní kapactou, velký vlv na vývoj na pol modelování bologckých vlastností chemckých látek 1. Jednou z nejvíce zkoumaných vlastností je bologcká aktvta látky na konkrétním bologckém cíl (např. receptoru, enzymu aj.). Ta nám pomáhá nacházet potencálně úspěšné kanddáty na nová léčva, předpovídat vedlejší účnky látek nebo jejch potencální toxctu. Fyzkálně-chemcké bologcké vlastnost látek vychází z jejch struktury a na jejím základě mohou být tyto vlastnost modelovány 2 9. Modelování kvanttatvních vztahů mez strukturou a aktvtou (angl. Quanttatve Structure-Actvty Relatonshp, dále jen QSAR) může být popsáno jako využtí statstckých metod a metod pro analýzu dat za účelem výstavby predkčních modelů, které jsou schopny přesně předpovídat bologckou aktvtu resp. vlastnost látky (angl. Quanttatve Structure-Property Relatonshp, QSPR) na základě její molekulární struktury. Každá QSAR metoda může být jednoduše zapsána ve formě y = f(x), kde y je bologcká aktvta (nebo vlastnost chemcké látky), x sada vypočítaných nebo naměřených molekulárních deskrptorů (vz článek v tomto čísle Chemckých lstů 10 ) a f emprcky stanovená matematcká funkce. Cílem QSAR modelování je tedy vyhledání trendu/ů v sadě deskrptorů, které korelují s trendem v bologcké aktvtě látky. Tento proces, stejně jako všechny ostatní metody vrtuálního screenngu, vychází ze základního chemnformatckého konceptu, že podobné molekuly mívají podobné vlastnost (angl. molecular smlarty prncple) 11, přeneseně v tomto případě, že podobné molekuly jsou schopny působt na podobné bologcké cíle 12. Postup pro vytváření QSAR modelů (obr. 1) ve své podstatě odpovídá postupům používaným př běžných 1. Úvod 2. Data v QSAR modelování 2.1. Zdroje dat 2.2. Molekulové deskrptory 3. Metody strojového učení v QSAR 4. QSAR modelování 4.1 Oblast použtelnost modelu 5. Použtí QSAR modelu 6. Závěr 1. Úvod Obr. 1. Základní schéma vytvoření a valdace QSAR modelu 747
Chem. Lsty 111, 747753(2017) modelovacích úlohách v rámc vytěžování znalostí z dat (angl. data mnng) a skládá se z několka základních kroků: (1) Výběr a zpracování dat; (2) Výběr a výpočet molekulárních deskrptorů; (3) Trénování modelu; (4) Valdace modelu; (5) Určení oblast použtelnost modelu. Přestože se v tomto článku budeme zabývat prmárně modelováním bologcké aktvty (QSAR), je většna konceptů aplkovatelná také pro modelování fyzkálněchemckých vlastností (QSPR) látek 2 9, 13 18. Modelování aktvty je ze své podstaty složtějším problémem, neboť závsí na dvou enttách, lgandu a jeho často velm komplexním bologckém cíl, zatímco fyzkálně-chemcké vlastnost jsou závslé prmárně na chemcké struktuře látky 2,5. 2. Data v QSAR modelování Data jsou obecně nejdůležtější součástí jakékol modelovací úlohy a QSAR není výjmkou. Mnohé stude poukazují, že největší vlv na kvaltu QSAR modelu má právě množství a kvalta dostupných bologcko-chemckých dat a použtých molekulárních deskrptorů, a že aplkovaná metoda strojového učení sce hraje svoj rol, ale v zásadě nerozhoduje o celkovém úspěchu č neúspěchu 19,20. Jak ostatně říká známý prncp odpad na vstupu, odpad na výstupu (angl. garbage n, garbage out), žádná sebelepší metoda nedokáže dosáhnout dobrých výsledků, když nemá k dspozc potřebná kvaltní data. 2.1. Zdroje dat Pomneme-l vlastní (lokální) expermentální data a nespočet menších jž předpřpravených množn dat, které se dají použít k samotnému modelování nebo jako benchmark pro jž natrénované modely 21 23, tak za hlavní datové zdroje pro QSAR považujeme velké, volně přístupné databáze bologckých aktvt jako jsou ChEMBL 24, Pub- Chem BoAssay 25 nebo BndngDB 26. Tyto databáze v současné době obsahují mlony chemckých struktur a přřazených, expermentálně naměřených bologckých aktvt pro tsíce různorodých bologckých cílů, od protenů přes buněčné lne až po organsmy. Př prác s expermentálním daty z veřejných zdrojů jsme vždy odkázán na jejch poskytovatele a musíme dávat pozor na chyby a varabltu/nesrovnalost, které se v nch mohou vyskytovat. Ty se mohou vyskytovat jak na straně chemcké struktury, tak na straně bologcké aktvty. Stude z roku 2005 poukazuje na fakt, že v každém článku z oboru medcnální cheme jsou v průměru dvě chyby ve strukturách chemckých látek, které se následně promítají do chemckých databází 27. To potvrdla stude z roku 2008, která zjstla, že se chybovost ve struktuře v rámc těchto databází pohybuje mez 0,1 až 3,4 % (ct. 28 ). Uvážíme-l počet dostupných struktur, nejedná se o zanedbatelná čísla. Především v případě, kdy strukturní data nepochází z jednoho zdroje, je nutné provádět jejch normalzac, standardzac a fltrac 29. V průběhu zpracování by mělo docházet ke třem základním krokům, které by měly mnmalzovat problémy ze strukturního hledska: 1. Odstranění problematckých typů látek (anorgancké a organometalcké látky, směs) z důvodu omezených možností jejch zpracování pomocí chemnformatckých nástrojů. Prmárně pracujeme s organckým molekulam bez koordnačně-kovalentních vazeb, kde je jasně určena účnná látka. 2. Standardzace struktury (odstranění solných ontů a rozpouštědel, pokud možno neutralzace, odstranění stereocheme, sjednocení tautomerů). Různé druhy solí by neměly mít vlv na rozdílnou bologckou aktvtu látky. aprot tomu mohou odlšné stereosomery vykazovat odlšnou bologckou aktvtu, avšak př použtí nejběžnějších 2D deskrptorů se tato nformace o stereochem do popsu molekuly nepromítá. 3. Odstranění/sloučení duplct. Různé chemnformatcké nástroje mohou dentckou strukturu reprezentovat odlšným zápsy (podle mplementace konkrétního algortmu). Tomuto jevu lze předcházet použtím strukturního formátu InChI (resp. InChIKey, jeho hašované podoby) 30, který by měl dávat dentcké výsledky bez ohledu na použtý software. U staršího, stále hojně používaného formátu SMILES 31,32 tato podmínka zajštěna není. Vzhledem k množství dat není ve většně případů možné provádět kontrolu a zpracování dat manuálně, můžeme ale použít některé z dostupných chemnformatckých nástrojů jako např. programovací knhovny RDkt 33 a OpenBabel 34, volně dostupnou analytckou platformu KIME s rozšířením pro chemnformatku 35 č komerční nástroje Standardzer (ChemAxon) 36 a Ppelne Plot (Accelrys) 37. Modelovaná bologcká aktvta bývá nejčastěj vyjádřena ve formě tzv. potence vyjádřené jako koncentrace látky potřebné k dosažení určtého bologckého efektu. Mez nejběžnější modelované velčny patří nhbční, aktvační nebo obecně dsocační konstanty (např. IC50 koncentrace potřebná k dosažení polovny maxmální nhbce cíle danou látkou, EC50 koncentrace potřebná k dosažení polovny maxmální aktvace cíle danou látkou, K d (K ) dsocační konstanta lgandu, cíle a jejch komplexu). Tyto koncentrace se obecně udávají ve formě záporného dekadckého logartmu molární koncentrace (hodnota = log(molární koncentrace[mol dm 3 ], kde jednotka mol dm 3 se též označuje jako M) z důvodu potřeby normální dstrbuce chyby v rámc modelování. a této škále se používané velčny zpravdla uvozují malým písmenem p před jejch názvem (např. pic50 = log(ic50), tzn., že IC50 hodnotě 0,000 001 mol dm 3 (tedy 1 µmol dm 3 ) odpovídá bezrozměrmá pic50 hodnota 6). V rámc klasfkace látek se nejčastěj používá bnární logka (1/0), kde rozřazujeme látky např. na aktvní (1) a neaktvní (0). Za neaktvní v tomto případě považujeme látky, které na konkrétním bologckém cíl nevykazují žádný bologcký účnek, nebo látky, u kterých je k dosažení účnku potřeba použtí vyšších koncentrací. Za 748
Chem. Lsty 111, 747753(2017) dostatečně potentní (aktvní) se často považují látky s dosaženým účnkem př použtí 10 nm koncentrace nebo nžší (na záporné logartmcké škále tedy číslo 7 a vyšší). Vzhledem k tomu, že expermentální měření aktvty látek je ovlvňováno velkou řadou faktorů (typ expermentu, použté látky a jejch čstota, laboratorní podmínky, ldský faktor aj.), hodnoty naměřené v různých expermentech/laboratořích se často mohou řádově lšt 38. Stává se tedy, že pro dentckou kombnac lgandu a bologckého cíle máme k dspozc řadu hodnot s větším č menším rozptylem. V takovém případě je potřeba dávat pozor a v případě přílš velkého rozptylu data raděj nepoužít, aby nesnžovala přesnost modelu. 2.2. Molekulové deskrptory Pro pops látek v rámc QSAR modelování je možné použít lbovolný druh molekulárních deskrptorů (datových vektorů) popsujících strukturní vlastnost látek: od fyzkálně-chemckých vlastností, přes pops 2D topologe, až po data popsující 3D strukturu včetně její dynamky 3 5,39,40. Pro modelování bologcké aktvty jsou v současné době patrně nejpoužívanější bnární 2D topologcké deskrptory, tzv. otsky prstů (angl. fngerprnts) 41. Ty sce neposkytují takovou úroveň detalu jako pops struktury ve 3D, na druhou stranu jejch výpočet není zatížen složtým výpočty konformací molekuly v prostoru, které se mohou podle použtých nástrojů a jejch nastavení lšt. Ty navíc ve výsledku nemusí vysthovat správnou konformac potřebnou pro dosažení bologckého účnku. aprot tomu je výpočet 2D deskrptorů zpravdla velm rychlý a jeho výsledek vždy stejný. To může být v době, kdy máme k dspozc mlony dostupných struktur, jedním z rozhodujících krtérí. Obecně platí, že výběr molekulových deskrptorů by měl být závslý na modelované velčně a od ní odvozené složtost problému, který řešíme. Problematce molekulových deskrptorů se podrobněj věnuje článek v tomto čísle Chemckých lstů 10. 3. Metody strojového učení v QSAR QSAR modelování se lší od jných typů modelování prmárně použtým daty a je pro něj tedy možné použít praktcky lbovolnou metodu strojového učení. Vzhledem k tomu, že se jedná o problém poměrně komplexní, jsou v dnešní době oblíbené hlavně sofstkovanější metody jako neuronové sítě (angl. neural networks, ) 42, metoda podpůrných vektorů (angl. support vector machnes, SVM, společně se support vector regresson, SVR) 43,44, náhodné lesy (angl. random forest, RF) 45, ale mnohé další 46,47. Všechny zmíněné metody jde použít jak pro klasfkační, tak pro regresní úlohy, bez toho, že by některá z nch výkonnostně vyčnívala nad ostatním. Zatímco mohou častěj trpět přeučením (angl. overfttng) pro konkrétní data, SVM a RF jsou v tomto ohledu považovány za poměrně robustní 48. Především RF jsou v dnešní době oblíbeny pro svou výpočetní nenáročnost a z podstaty také pro jejch možnou nterpretovatelnost (RF je množna rozhodovacích stromů) 49. Vzhledem k tomu, že různé metody strojového učení v kombnac s různým molekulovým deskrptory mohou zachycovat rozdílné aspekty modelované množny dat, je dnes velm populární tzv. konsenzuální modelování. V konsenzuálním přístupu můžeme vytvořt řadu odlšných modelů a na základě všech jejch výsledků spočítat výsledek fnální. Konsenzuální přístup v QSAR modelování zpravdla vykazuje větší úspěšnost než samostatně použté modely 29,50. Z hledska softwarových nástrojů je pro modelování k dspozc řada knhoven pro většnu běžně používaných programovacích jazyků, např. sckt-learn pro programovací jazyk Python 51, Weka pro programovací jazyk Java 52 nebo nástroje od Boconductor pro programovací prostředí R 53. Užvatelsky přívětvá a v rámc modelování velm dobře vybavená je také jž zmíněná analytcká platforma Knme 35. 4. QSAR modelování V rámc QSAR modelování je vstupní datová množna (v našem případě množna chemckých struktur s přřazenou bologckou aktvtou) na počátku rozdělena na dvě nezávslé sady dat: základní sadu dat a nezávslou sadu dat. Základní sada dat se používá pro vntřní nastavení parametrů modelu, tzv. trénování modelu, a proto se také označuje jako trénovací množna. ezávslá sada dat pak slouží k testování kvalty modelu a označuje se též jako testovací množna 3,54. ejčastěj se vstupní soubor dat rozděluje v poměru 70:30 nebo 80:20 ve prospěch trénovací množny a toto rozdělení může být provedeno náhodným výběrem nebo tzv. stratfkovaně. Stratfkovaný výběr trénovací a testovací datové množny by měl zaručovat rovnoměrné zastoupení (stejnou dstrbuc) závslé proměnné (aktvty) v obou množnách. V případě klasfkace stejné poměrné zastoupení kategorí aktvní/neaktvní, v případě regrese stejné rozložení a rozsah numerckých hodnot. V QSAR modelování se standardně používá dvojí typ valdace modelu: nterní a externí. Zatímco externí valdace se provádí s jž zmíněnou nezávslou testovací množnou pro fnální valdac modelu, k nterní valdac dochází v rámc samotného modelování s daty z trénovací množny. Metoda nejčastěj využívaná pro nterní valdac se nazývá n-násobná křížová valdace. V rámc křížové valdace se trénovací množna rozdělí na n stejně velkých podmnožn (např. n = 10) a postupně jednu množnu po druhé vynecháváme, model trénujeme na zbylých n 1 množnách a aktuálně vynechanou množnu používáme jako testovací množnu aktuálního modelu. Zároveň v každém cyklu zaznamenáváme vybrané charakterstky modelu (např. chybu), které slouží jako část výsledku nterní valdace. U n-násobné křížové valdace tak dochází k modelování n QSAR modelů. V lmtním případě se n 749
Chem. Lsty 111, 747753(2017) může rovnat počtu prvků v množně (v takovém případě se jedná o tzv. leave-one-out křížovou valdac). Fnální QSAR model se nakonec trénuje na celé trénovací množně a je aplkován na počátku oddělenou nezávslou testovací množnu, čímž získáme výsledky externí valdace. Pro určení, zda model vyhovuje požadavkům pro aplkac na nová data, můžeme použít řadu statstckých ukazatelů, které zpravdla zachycují přesnost modelu a jeho úspěšnost v porovnání s náhodným scénářem. Pro regresní modely je standardně používaným prmárním krtérem kombnace křížově valdovaného koefcentu determnace (q 2 ) (nterní valdace) a koefcentu determnace pro testovací set (R 2 ) (externí valdace). Koefcent determnace udává poměr čtvercové chyby modelu (součet čtverců odchylek) a čtvercové chyby př nahrazení modelu průměrnou hodnotou aktvty (obecně tedy míru přesnost modelu oprot náhodnému scénář). Můžeme ho vypočítat podle následující rovnce (1): R 2 1 1 1 y yˆ y y 2 2 kde představuje velkost testovací množny, y expermentální hodnotu, y předpovězenou hodnotu a y ˆ průměrnou hodnotu bologcké aktvty pro všechny látky v testovací množně. Koefcent determnace nabývá hodnot mez 0 a 1, kde 1 reprezentuje dokonale přesný model (nulovou chybu). ejběžnějším krtér používaným pro hodnocení klasfkačních modelů jsou tzv. plocha pod křvkou (angl. area under the curve, AUC) a faktor obohacení (angl. enrchment factor, EF). AUC vychází z tzv. ROC křvky (angl. recever operatng curve), která zachycuje počet skutečně poztvních (angl. true postve rate, TPR) jako (1) funkc falešně poztvních (angl. false postve rate, TPR) klasfkovaných prvků (obr. 2). TPR na určté pozc vyjadřuje poměr určených aktvních látek a skutečně aktvních látek, FPR je poměr určených neaktvních látek a skutečných neaktvních látek. Z této křvky můžeme vypočítat AUC podle následující rovnce (2): 1 AUC n 2 A I I 1 kde n je počet aktvních látek a je celkový počet látek v testovacím setu, A je kumulovaný počet aktvních látek na pozc a I kumulovaný počet neaktvních látek na pozc. AUC nabývá hodnot mez 0 a 1, kde hodnota 1 odpovídá nulovému FPR a hodnota 0,5 náhodnému scénář. EF se používá jako ukazatel schopnost modelu časně rozpoznat (angl. early recognton) aktvní látky. Časné rozpoznání poukazuje na schopnost modelu nejen rozpoznat aktvní látky, ale udělat tak s vysokou jstotou a zařadt aktvní látku v pomyslném žebříčku hodnocených látek na co nejvyšší místo. EF pro určenou část klasfkované množny (např. 5 % řazené od nejvyšší pravděpodobnost, že látka je aktvní) udává poměr počtu nalezených aktvních látek oprot počtu aktvních látek, které by se v určené část množny vyskytovaly př náhodném výběru. Výpočet EF probíhá podle následující rovnce (3): n 1 ( r ) 1, r EF, s ( r ) n 0, r > kde je velkost část testované množny, n je počet aktvních látek, je celkový počet látek v testovacím setu a r určuje pořadí -té aktvní látky. Rozsah EF se pohybuje mez 0 a hodnotou závslou na použtém a počtu aktvních látek v testované množně: 1/, pokud je n/, v opačném případě /n. (2) (3) Obr. 2. Ukázka ROC křvky zachycující úspěšnost klasfkačního modelu. Výpočtem obsahu plochy pod touto křvkou získáme hodnotu AUC. Dagonála odpovídá náhodnému scénář 750
Chem. Lsty 111, 747753(2017) a závěr této část je potřeba s přpomenout, že výborné charakterstky modelu nkdy neznamenají, že je možné jej použít pro všechna možná vstupní data bez omezení, ale jen na ta, která je model schopen předpovědět s určtou přesností, tj. ta, která spadají do oblast použtelnost modelu. 4.1. Oblast použtelnost modelu Prostor vstupních dat (vektorů), pro která je bezpečné model použít, se nazývá oblastí použtelnost modelu (angl. applcablty doman, AD) 13,55. Stejně tak jako by např. model pro predkc druhů ovoce natrénovaný pouze na datech pro jablka nešel použít pro predkc banánů (resp. šel, ale výsledek by byl logcky špatný), tak an QSAR modely by neměly být používány pro predkc vlastností látek, které se výrazně odlšují od látek v trénovací množně (obr. 3). Před použtím modelu je tedy nutné předem defnovat možný prostor vstupních dat, na která je možné ho bezpečně aplkovat. Hledsek, která lze uplatňovat pro určení tohoto prostoru, je celá řada, prmárně by se však mělo vycházet ze vstupních dat, resp. deskrptorů použtého QSAR modelu. V případě použtí fyzkálně-chemckých vlastností jako vstupních dat by se tyto vlastnost pro predkované látky neměly výrazně lšt, v deálním případě by měly ležet v ntervalu mez maxmální a mnmální hodnotou vstupních dat. Př použtí topologckých deskrptorů by podobnost predkované látky k mnmálně jedné látce z trénovací množny měla dosáhnout určté stanovené prahové hodnoty (záleží na použtých deskrptorech a míře podobnost). Často dochází k použtí kombnace více krtérí. Jednou z oblíbených technk posthujících oblast použtelnost QSAR modelů je tzv. konformní predkce (angl. conformal predcton) 56. Př použtí této metody je na základě chyby naměřené př aplkac QSAR modelu na trénovací množnu vypočítán přdružený chybový model. a jeho základě je možné pro určenou míru pravděpodobnost predkovat konfdenční nterval udávající rozsah hodnoty predkované QSAR modelem. Modelovým výsledkem této metody tedy může být např. nformace, že s 90% pravděpodobností je aktvta látky na defnovaném bologckém cíl rovna hodnotě 7,0±1,3. Čím větší pravděpodobnost zvolíme, tím šrší je obdržený konfdenční nterval. 5. Použtí QSAR modelu Př používání QSAR modelů (resp. obecně jakéhokol modelu) je třeba stálé mít na pamět, že přes potencálně výborné statstky a robustně defnovanou oblast použtelnost jsou získané výsledky vždy jen predkcí skutečných hodnot a dokud nejsou expermentálně potvrzené, nemůžeme je považovat za jsté. QSAR modelování vychází z podobnostního prncpu, často však mohou dvě velm podobné látky vykazovat dametrálně odlšné vlastnost. Důkazem mohou být rozdílné fyzkálně-chemcké vlastnost č bologcké aktvty např. cs- a trans- somerů nebo optckých antpodů některých látek 12,57. Z této skutečnost vychází např. tzv. koncept aktvtních útesů (angl. actvty clffs) v aktvtní krajně (angl. actvty landscape) (ct. 58,59 ). Když s představíme množnu chemckých látek a jejch aktvt jako krajnu v n-dmenzonálním prostoru (podle deskrptorů použtých k jejch popsu), nenajdeme v ní nejen rovny s mírným kopc (pozvolně měnící se aktvtu společně se strukturou), ale také útesy (oblast velkých změn), kde se malá změna ve struktuře látky sgnfkantně projeví na její bologcké aktvtě. Obr. 3. Ukázka důležtost defnce oblast použtelnost QSAR modelu (oblast mez přerušovaným čaram). V tomto případě bude př jejím překročení chyba predkce narůstat se vzdáleností od trénovací množny dat 751
Chem. Lsty 111, 747753(2017) QSAR modely se, stejně jako další metody vrtuálního screenngu, prmárně používají pro selekc vhodných kanddátů v počátečních fázích testování velkých knhoven chemckých látek, kde snžují nejen potřebný čas, ale hlavně výslednou cenu expermentu. Obecnou výhodou modelů je fakt, že látky, na které model aplkujeme, nemusíme mít ve skutečnost k dspozc nebo dokonce nemusí an reálně exstovat. QSAR model v tomto případě může poskytnout důležtou nformac př rozhodování, zda se látku máme vůbec pokust nasyntetzovat. Vzhledem k současnému množství nástrojů dat pro QSAR modelování a slnému hlasu prot provádění testů na zvířatech jsou v dnešní době n-slco metody testování také součástí evropské legslatvy pro regulac chemckých látek REACH (angl. Regstarton, Evaluaton, Authorsaton and Restrcton of Chemcals). Dedkovaná aplkace OECD QSAR toolbox je především nástrojem sdružujícím data a modely, které pomáhají predkovat ekotoxcká rzka látek a jejch potencální mechansmus účnku 60. 6. Závěr QSAR modelování je jedním z hlavních zástupců metod vrtuálního screenngu používaných pro predkc bologckých č fyzkálně-chemckých (QSPR) vlastností látek. S využtím lbovolných molekulárních deskrptorů a metod strojového učení dokáže produkovat regresní a klasfkační modely, které jsou nejen velm rychlé, ale v kombnac s odpovědným přístupem k jejch valdac a dobře defnovanou oblastí použtelnost také velm robustní a přesné. QSAR modely nacházejí pro tyto své vlastnost uplatnění v rámc počítačového návrhu léčv, objasňování prncpů funkce chemckých látek v žvých organsmech a predkc jejch ekotoxcké bezpečnost. Rol v posuzování ekotoxckých rzk hrají také v rámc evropské legslatvy pro regulac chemckých látek (REACH), kde mohou být n-slco alternatvou ke klasckým expermentům. Tento článek vznkl za podpory MŠMT v rámc árodního programu udržtelnost I projekt LO1220 (CZ- OPESCREE). LITERATURA 1. Cherkasov A. + 19 spoluautorů: J. Med. Chem. 57, 4977 (2014). 2. Kunal R., Supratk K., Das R..: A prmer on QSAR/ QSPR Modelng. Sprnger, Cham 2015. 3. Polng B. E., Prausntz J. M., O Connell J. P.: The Propertes of Gases and Lquds, ffth edton. McGraw-Hll, ew York 2001. 4. Růžčka V., Šobr J., ovák J., Bureš M., Cbulka I., Růžčka K., Matouš J.: Odhadové metody pro fyzkálně-chemcké vlastnost tekutn. Aplkace v technolog a chem žvotního prostředí. VŠCHT Praha, 1996. 5. Kolská Z., Zábranský M., Randová A., v knze: Thermodynamcs - Fundamentals and Its Applcaton n Scence (Morales-Rodrguez R., ed.) kap. 6. Rjeka, Croata 2012. 6. Kolská Z.: Chem. Lsty 98, 328 (2004). 7. Ruck M., Tchý M.: Chem. Lsty 103, 100 (2009). 8. Chuchvalec P., ovák J. P.: Chem. Lsty 101, 989 (2007). 9. Kolská Z., Růžčka V., Gan R.: Ind. Eng. Chem. Res. 44, 8436 (2005). 10. ovotný J., Svozl D.: Chem. Lsty 111, 716 (2017). 11. Hendrckson J. B.: Scence 252, 1189 (1991). 12. Martn Y. C., Kofron J. L., Traphagen L. M.: J. Med. Chem. 45, 4350 (2002). 13. Kolská Z., Kukal J., Zábranský M., Růžčka V.: Ind. Eng. Chem. Res. 47, 2075 (2008). 14. Randová A., Bartovská L., Hovorka Š., Poloncarzová M., Kolská Z., Izák P.: J. Appl. Polym. Sc. 111, 1745 (2009). 15. Chckos J. S.; Wlson J. A.: J. Chem. Eng. Data. 42, 190 (1997). 16. L P., Ma P., Y S., Zhao Z., Cong L.: Flud Phase Equlb. 101, 1994 (1994). 17. Constantnou L., Prckett S. E., Mavrovounots M. L.: Ind. Eng. Chem. Res. 32, 1734 (1993). 18. Marrero J., Gan R.: Flud Phase Equlb. 183, 183 (2001). 19. Tetko I. V., Sushko I., Pandey A. K., Zhu H., Tropsha A., Papa E., Oberg T., Todeschn R., Fourches D., Varnek A.: J. Chem. Inf. Model. 48, 1733 (2008). 20. Zhu H., Tropsha A., Fourches D., Varnek A., Papa E., Gramatca P., Oberg T., Dao P., Cherkasov A., Tetko I. V.: J. Chem. Inf. Model. 48, 766 (2008). 21. Huang., Shochet B. K., Irwn J. J.: J. Med. Chem. 49, 6789 (2006). 22. Rohrer S. G., Baumann K.: J. Chem. Inf. Model. 49, 169 (2009). 23. Hekamp K., Bajorath J.: J. Chem. Inf. Model. 51, 1831 (2011). 24. Gaulton A. + 17 spoluautorů: uclec Acds Res. 45, D945 (2017). 25. Wang Y., Bryant S. H., Cheng T., Wang J., Gndulyte A., Shoemaker B. A., Thessen P. A., He S., Zhang J.: uclec Acds Res. 45, D955 (2017). 26. Glson M. K., Lu T., Bataluk M., cola G., Hwang L., Chong J.: uclec Acds Res. 44, D1045 (2016). 27. Olah M. + 10 spoluautorů: Methods Prnc. Med. Chem. 22, 223 (2005). 28. Young D., Martn T., Venkatapathy R., Harten P.: QSAR Comb. Sc. 27, 1337 (2008). 29. Tropsha A.: Mol. Inf. 29, 476 (2010). 30. Heller S. R., Mcaught A., Pletnev I., Sten S., Tchekhovsko D.: J. Chemnf. 2015, 7. 31. Wennger D.: J. Chem. Inf. Comput. Sc. 28, 31 (1988). 32. Jrát J., Svozl D.: Chem. Lsty 111, 710 (2017). 33. RDKt: Open-source chemnformatcs. 2006. 34. O'Boyle. M., Banck M., James C. A., Morley C., 752
Chem. Lsty 111, 747753(2017) Vandermeersch T., Hutchson G. R.: J. Chemnf. 3, 33 (2011). 35. Berthold M. R., Cebron., Dll F., Gabrel T. R., Kotter T., Menl T., Ohl P., Seb C., Thel K., Wswedel B.: Stud. Class. Data Anal. 2008, 319. 36. Weber L.: Chem. World-Uk. 5, 65 (2008). 37. Stevenson J. M., Mulready P. D.: J. Am. Chem. Soc. 125, 1437 (2003). 38. Kallokosk T., Kramer C., Vulpett A., Gedeck P.: Plos One 2013, 8. 39. Todeschn R. C. V.: Handbook of molecular descrptors. Wley, Freburg 2008. 40. Kolská Z., Petrus P.: Collect. Czech. Chem. Commun. 75, 393 (2010). 41. Wllett P.: Drug Dscov. Today 11, 1046 (2006). 42. Baskn I. I., Wnkler D., Tetko I. V.: Expert Opn. Drug Dscovery 11, 785 (2016). 43. Alvarsson J., Lampa S., Schaal W., Andersson C., Wkberg J. E., Spjuth O.: J. Chemnf. 8, 39 (2016). 44. Czermnsk R., Yasr A., Hartsough D.: Quant. Struct- Act. Rel. 20, 227 (2001). 45. Svetnk V., Law A., Tong C., Culberson J. C., Sherdan R. P., Feuston B. P.: J. Chem. Inf. Comput. Sc. 43, 1947 (2003). 46. Varnek A., Baskn I.: J. Chem. Inf. Model. 52, 1413 (2012). 47. Laveccha A.: Drug Dscov. Today 20, 318 (2015). 48. Mtchell J. B. O.: Wres Comput. Mol. Sc. 4, 468 (2014). 49. Kuz'mn V. E., Polshchuk P. G., Artemenko A. G., Andronat S. A.: Mol. Inf. 30, 593 (2011). 50. Rnker S., Fechner., Landrum G. A.: J. Chem. Inf. Model. 53, 2829 (2013). 51. Pedregosa F., Varoquaux G., Gramfort A., et al.: J. Mach. Learn. Res. 12, 2825 (2011). 52. Frank E., Hall M., Holmes G., Krkby R., Pfahrnger B., Wtten I. H., Trgg L.: Data Mnng and Knowledge Dscovery Handbook, Second Edton. Sprnger, ew York 2010. 53. Gentleman R. C. + 24 spoluautorů: Genome. Bol. 2004, 5. 54. Walker J. D., Carlsen L., Jaworska J.: QSAR Comb. Sc. 22, 346 (2003). 55. etzeva T. I., Gallegos Salner A., Worth A. P.: Envron. Toxcol. Chem. 25, 1223 (2006). 56. ornder U., Carlsson L., Boyer S., Eklund M.: J. Chem. Inf. Model. 54, 1596 (2014). 57. von ussbaum F. + 21 spoluautorů: ChemMedChem 10, 1163 (2015). 58. Maggora G. M.: J. Chem. Inf. Model. 46, 1535 (2006). 59. Wassermann A. M., Wawer M., Bajorath J.: J. Med. Chem. 53, 8209 (2010). 60. Dmtrov S. D. + 14 spoluautorů: SAR QSAR Envron. Res. 2016, 1. C. Škuta a and D. Svozl a,b ( a CZ-OPESCREE: atonal Infrastructure for Chemcal Bology, Insttute of Molecular Genetcs of the Academy of Scences of the Czech Republc, Prague, b CZ-OPESCREE: atonal Infrastructure for Chemcal Bology, Laboratory of Informatcs and Chemstry, Unversty of Chemstry and Technology, Prague): QSAR Modellng of Quanttatve Relatons between Structure and Actvty of Chemcal Compounds Quanttatve structure actvty relatonshp (QSAR) modellng s one of the most popular technques of vrtual screenng used to predct the actvty of a compound toward a bologcal target. Whle QSAR classfcaton models are able to predct whether a compound s actve or nactve (class) toward a target, regresson models try to predct ts exact actvty value. To fnd the relatonshp between the structure and actvty of a compound, common machne learnng methods are employed (e.g., Support Vector Machnes, Random Forest, eural etworks etc.) together wth dverse types of compound descrptors (e.g., physco-chemcal propertes, structural keys, bnary fngerprnts etc.). QSAR models are generally very fast and, when a correct approach to ther valdaton and applcablty doman settng s used, also relable. They became a common part of computatonal drug desgn workflows employed to detect new drug canddates, elucdate ther sde/adverse effects or assess ther potental toxcty rsks. 753