Univerzita Karlova v Praze Přírodovědecká fakulta
|
|
- Radka Konečná
- před 6 lety
- Počet zobrazení:
Transkript
1 Univerzita Karlova v Praze Přírodovědecká fakulta Studijní program: Speciální chemicko-biologické obory Studijní obor: Molekulární biologie a biochemie organismů Albert Sokol Ab initio predikce struktury membránových proteinů Ab initio prediction of the membrane protein structures Bakalářská práce Školitel: RNDr. Radovan Fišer, Ph.D Praha, 2016
2 ii
3 Prohlášení: Prohlašuji, že jsem závěrečnou práci zpracoval samostatně a že jsem uvedl všechny použité informační zdroje a literaturu. Tato práce ani její podstatná část nebyla předložena k získání jiného nebo stejného akademického titulu. V Praze, Albert Sokol iii
4 iv
5 Děkuji svému školiteli RNDr. Radovanu Fišerovi, Ph.D. za odborné konzultace a podporu. v
6 vi
7 Obsah 1 Abstrakt... ix 2 Abstract... x 3 Úvod Membránové proteiny Predikce membránových proteinů problematika CASP posouzení predikce proteinových struktur RMSD měřítko úspěšnosti predikce Hledání globálního energetického minima - simulated annealing Hodnocení modelů energetická funkce Contact order ovlivnění rychlosti sbalování Rosetta Úvod Ab initio protokol Využití informace z profilově podobných sekvencí Nelokální beta skládané listy Hodnocení modelu Membrane ab initio protokol Predikce kontaktů mezi helixy v membráně EVfold Úvod Ab initio predikce EVfold_membrane EVfold_bb D-SPOT Úvod Ab initio predikce Ostatní programy BCL:Fold TOBMODEL TMBpro Závěr Literatura vii
8 viii
9 1 Abstrakt Znalost trojrozměrné struktury proteinu je extrémně důležitá pro plné pochopení jeho funkce a molekulárních interakcí. Struktura je typicky určována experimentálně pomocí X-ray krystalografie a NMR spektroskopie, bohužel membránové proteiny často znamenají pro tyto metody vážný problém. Východiskem je výpočetní predikce na základě již zjištěných dat. Ab initio predikce trojrozměrných modelů membránových proteinů je komplexní proces, který nevyužívá žádnou dostupnou strukturu proteinu jako celkovou šablonu. Existuje pár softwarů, které se tímto procesem zabývají a vybrané čtyři jsou detailně popsány v této práci. Jedná se o dva programy pro predikci transmembránových helikálních proteinů (Rosetta, EVfold_membrane) a dva pro predikci transmembránových beta barelů (EVfold_bb, 3D-SPOT). Hlavní přístupy, které jsou využívány v predikci trojrozměrné struktury proteinu, jsou vkládání krátkých úseků sekvence aminokyselin, které jsou odvozené ze zjištěných proteinových struktur (Rosetta), využívání evoluční informace z mnoha jiných sekvencí proteinů (EVfold) a tvorba beta barelové domény na základě kombinování sousedních antiparalelních beta řetězců (3D-SPOT). Každý software používá různé externí programy na řešení specifických problémů, jako například predikce transmembránových úseků z pouhé sekvence nebo programy na dohledávání homologních sekvencí. I přes množství problémů udělaly predikční programy značný vývoj a s rostoucím výpočetním výkonem a lepšími algoritmy bude jistě zajímavé sledovat, kam bude v budoucnu predikce směřovat. Cílem práce je detailní náhled na používané metody a přiblížit čtenářům někdy těžko pochopitelné algoritmy. Klíčová slova Predikce struktury membránových proteinů, ab initio predikce, Rosetta, EVfold, 3D-SPOT Seznam zkratek CO Contact order Řád interakcí RMSD Root-mean-square distance Střední kvadratická vzdálenost TM Transmembrane Transmembránový ix
10 2 Abstract Knowledge of the three dimensional structure of the protein is extremely important for a full understanding of its function and molecular proteins interaction. The structure is typically determined experimentally by X-ray crystallography and NMR spectroscopy, unfortunately membrane proteins provide numerous problems for these methods. A possible solution is the computational prediction. Ab initio prediction of three-dimensional models of the membrane proteins is a complex process which cannot use any available protein structure as a general template. There are few softwares that deal with this process and selected four are described in detail in this work. These are two programs for the prediction of transmembrane helical proteins (Rosetta, EVfold_membrane) and two for the prediction of transmembrane beta barrels (EVfold_bb, 3D-SPOT). The main approaches that are used in the prediction of the three-dimensional structure of a protein are inserting short segments of amino acid sequences which are derived from the determined protein structures (Rosetta), using evolutionary information from many other protein sequences (EVfold) and formation of the beta barrel domains based on combining adjacent antiparallel beta chains (3D-SPOT). Every software uses a variety of external programs to address specific problems, such as the prediction of transmembrane segments of sequence or programs for finding homologous sequences. Despite a number of problems the prediction programs have made considerable progress and with increasing computing power and better algorithms it will be certainly interesting to see where the future prediction will lead. The goal of this work is a detailed look at the used methods to introduce readers to sometimes complicated algorithms. Keywords Structure prediction of membrane proteins, ab initio prediction, Rosetta, EVfold, 3D-SPOT x
11 3 Úvod Programy predikující trojrozměrnou strukturu proteinu vznikaly jako doplněk experimentálních metod, jako jsou X-ray krystalografie a NMR spektroskopie. Za posledních 15 let udělaly predikční metody značný vývoj a většinu malých solubilních proteinů dokáží určit s velkou přesností. Oproti tomu se membránovými proteiny zabývá jen malá část z nich, a to hlavně z důvodu složitější predikce v anizotropickém membránovém prostředí než v roztoku. Další problém je, že membránové proteiny jsou často velké a se složitější topologií. Predikce se obecně dělí na ab initio (od začátku) a homologní modelování, které využívá k tvorbě 3D modelu jiný protein s vyřešenou strukturou jako šablonu. Pokud žádná šablona není k nalezení, je použita ab initio predikce, která je sice náročnější, ale nezávislá na experimentálně zjištěných proteinech. Samotná znalost trojrozměrné struktury proteinu je esenciální pro plné pochopení jeho molekulární funkce a meziproteinové interakce. Identifikování aktivních míst membránových proteinů může také urychlit vývoj nových léků. Moje práce vychází z požadavků skupiny Fyziologie bakterií na programátorskou úpravu predikčního softwaru Rosetta, která je nyní často využívána pro predikci bakteriálních membránových proteinů. Práce je tedy zaměřena na detailní náhled do algoritmů a přístupů, které software Rosetta používá. Navíc Rosetta je první predikční nástroj, který se začal zabývat membránovými proteiny, a do členské základny, která ji vyvíjí, patří mnoho vědeckých skupin. Dále má volně přístupný zdrojový kód, který je možný upravit podle aktuálních potřeb. Mimo Rosettu je v této práci popsán program EVfold_membrane, který využívá evoluční informaci korelujících mutací k tvorbě 3D modelů helikálních membránových proteinů. V poslední části popisuji dva programy pro predikci membránových beta barelů, EVfold_bb a 3D-SPOT. Cílem této práce je: Do hloubky popsat reprezentativní programy pro ab initio predikci trojrozměrné struktury transmembránových proteinů a jeden si osvojit pro další výzkum, tedy úpravy algoritmů a dodatečnou analýzu predikovaných modelů, jako je například klastrování. 1
12 4 Membránové proteiny Jako membránové proteiny jsou v predikčních metodách chápany především transmembránové (TM) proteiny, které procházejí skrz celou membránu a jsou její permanentní součástí. Predikce se soustřeďuje na dva hlavní strukturní typy TM proteinů. První jsou složeny ze svazku TM alfa helixů (viz Obr. 1) a mají klíčovou roli v biologických procesech, jako je komunikace s prostředím, přenos signálů a transport látek (Almen et al., 2009). Důležitost TM proteinů podtrhuje odhad, že lidský genom pro ně obsahuje 5539 genů, což je přibližně 26% strukturních genů (Fagerberg et al., 2010). Bohužel přes značné úsilí zůstává trojrozměrná struktura většiny těchto proteinů neznámá (Hopf et al., 2012), a tím roste důležitost predikčních metod. V této práci je detailně popsán postup predikce helikálních TM proteinů pomocí programů Rosetta (Yarov-Yarovoy et al., 2006) a EVfold_membrane (Hopf et al., 2012). Obrázek 1: Ukázka TM proteinů ze svazku alfa helixů (převzato z Hopf et al., 2012) Druhým typem TM proteinů v této práci jsou beta barely, které jsou k nalezení především ve vnější membráně Gram negativních bakterií, mitochondrií a chloroplastů (Waldispuehl et al., 2008). U mitochondrií a chloroplastů hrají kritikou roli při přenosu proteinů do těchto organel (Schleiff a Soll, 2005), u bakterií se účastní tvorby toxinových pórů (Delcour, 2002), a dokonce několik z nich i v enzymatické činnosti, jako například u Escherichia coli fosfolipáza OMPLA a proteáza OmpT (Bishop, 2008; Song et al., 1996). Beta barely jsou převážně tvořeny sérií antiparalelních beta řetězců, které tvoří válcovitou strukturu připomínající soudek (Schulz, 2000) (viz Obr. 2). U Gram negativních bakterií se odhaduje, že beta barely tvoří alespoň 3% všech 2
13 strukturních genů (Freeman a Wimley, 2010). V této práci je rozebráno, jak predikují strukturu beta barelových TM proteinů programy 3D-SPOT (Naveed et al., 2012) a EVfold_bb (Hayat et al., 2015). Obrázek 2: Ukázka TM beta barelů z vnější membrány u Gram negativních bakterií (převzato z internetového zdroje 1 ) 1 3
14 5 Predikce membránových proteinů problematika Znalost trojrozměrné struktury proteinu je extrémně důležitá pro plné pochopení jeho molekulární funkce a meziproteinové interakce (Marks et al., 2011). Existuje rozsáhlá databáze PDB (Protein Data Bank), která slouží jako primární archiv strukturních dat biologických makromolekul. Obsahuje více než 110 tisíc (duben 2016) makromolekulárních struktur a je široce používána predikčními metodami. Funkčnost PDB databáze popisuje Berman et al. (2000). Potřeba znalosti struktury membránových proteinů je navíc podtržena odhadem, že 60% léků je zacílena právě na ně (Overington et al., 2006). Nicméně v PDB databázi je jich konstantně uloženo jen okolo 2,5% z celkového počtu (Tusnady et al., 2004). Proteinová struktura je typicky určována experimentálně pomocí X-ray krystalografie a NMR spektroskopie, bohužel membránové proteiny často znamenají pro tyto metody vážný problém (Bill et al., 2011). První je, že se membránové proteiny často nevyskytují v membráně organismu v dostatečném množství, kvůli čemuž je často nutné tvořit rekombinační proteiny pomocí expresních systémů (Bill et al., 2011). Další problém spočívá v purifikaci proteinů ve stabilní formě, protože pro tvorbu krystalů je nejdříve nutné proteiny vyjmout z membrány pomocí detergentů, které ho mohou poškodit, či změnit nativní konformaci, což je přirozená 3D struktura proteinu (Bill et al., 2011). Další možností je využití molekulární dynamiky, která je převážně používána pro simulaci mezi-proteinové interakce a interakce proteinu s membránou (Lindahl a Sansom, 2008). Tento způsob je ale nesmírně výpočetně náročný. Nicméně již byly podniknuty experimenty využití molekulární dynamiky pro simulaci sbalování proteinů, jako například WW domény, což je malá proteinová doména, která se váže na sekvence bohaté na prolin (Shaw et al., 2010). Třetí možností je výpočetní proteinová predikce, kterou lze obecně rozdělit do dvou kategorií. U jednodušší se jedná o takzvané homologní nebo templátové modelování, kdy k danému predikovanému proteinu existuje alespoň jeden již experimentálně zjištěný homologní protein, který je pak použit jako šablona (Baker a Sali, 2001). Druhá kategorie je volné modelování, kdy není nalezený žádný použitelný protein pro homologní modelování (Baker a Sali, 2001). Tato kategorie je označována jako ab initio nebo de novo predikce a je tématem této práce. Důležitost ab initio predikce navíc podtrhuje zjištění, že homologní modelování dokáže pokrýt jen 10% lidských TM proteinů (Hopf et al., 2012). Výpočetní predikce jsou obecně založeny na předpokladu, že přirozená konformace proteinu má v daném prostředí nejméně energie. To znamená, že celá sekvence aminokyselin je sbalená tak, aby postranní řetězce a peptidická kostra byly uspořádány co nejvýhodněji. Například, aby hydrofobní aminokyseliny nebyly vystaveny vodnímu prostředí (Baker a Sali, 2001). S tím je spojeno prozkoumání ohromného množství nastavení všech možných úhlů v peptidové kostře i postranních řetězcích samotných aminokyselin, čemuž se v podstatě věnuje molekulární dynamika. Jak již bylo napsáno, tento proces je nesmírně náročný a na dnešních počítačích prakticky nemožný, proto si každá 4
15 metoda věnující se výpočetní predikci snaží nějak vypomoci (Baker a Sali, 2001; Durham et al., 2009). To znamená krokově nasimulovat kontinuální sbalování proteinu v prostředí s pomocí experimentálně zjištěných konzervovaných hodnot úhlů nebo kontaktů vzdálených aminokyselin a vytvoření metody, která bude schopná rozeznávat energeticky výhodnější konformace. Přiblížení takové simulace zobrazuje obrázek 3. Obrázek 3: Diagram zobrazující předpoklad, že protein je sbalován pomocí energetické minimalizace. Vysokoenergetické konformace na začátku diagramu (nahoře) se postupně mění a snižují energii, až do energetického minima, kterým by měla být přirozená konformace. Čárkované červené šipky zobrazují nesprávné sbalování do lokálního energetického minima, kde může protein skončit in silico i in vivo (převzato z internetového zdroje 2 ) Metody pro predikci 3D struktury obvykle používají velké množství externích pomocných programů pro dílčí problémy. Například pro predikci helikálních membránových proteinů je esenciální predikce úseků TM helixů v sekvenci. K tomuto účelu jsou používány speciálně zaměřené programy, 2 5
16 kdy 12 nejlepších bylo porovnáno v článku Reeb et al. (2015). Moje práce na tyto externí programy většinou jen odkazuje a zabývá se hlavně metodikou, která je použita pro tvorbu 3D modelu. Existuje recentní review (Leman et al., 2015), které poskytuje obecný pohled na celkovou problematiku membránového modelování. 5.1 CASP posouzení predikce proteinových struktur The Critical Assessment of protein Structure Prediction (CASP) je v podstatě soutěž, která vznikla v roce 1994 a koná se každé dva roky. Jejím hlavním cílem je objektivně posoudit současné schopnosti v oblasti predikce struktury proteinů. V roce 2014 se konal CASP11, kterého se zúčastnilo 208 výzkumných skupin a z toho 85 automatických serverů, které mohou být volně přístupné na webu. Účastníci mají za úkol predikovat modely již experimentálně zjištěných (nejčastěji pomocí NMR nebo rentgenové krystalografie), ale nezveřejněných trojrozměrných struktur proteinů (Moult et al., 2014). Tyto proteiny jsou rozděleny do tří kategorií podle způsobu predikce, ab initio, homologní modelování a v CASP 10 nově zavedená kategorie contact-assisted, kdy algoritmy mohou využít experimentálně zjištěná data týkající se predikovaného proteinu jako data z chemického posunu NMR (Taylor et al., 2014). Výsledné modely jsou hodnoceny podle mnoha kritérií, aby se co nejlépe definovala slabá a silná místa současné predikce. Z těch novějších je možné uvést například schopnost vyhlazování modelů (Rafinace modelu). Jedná se o metodu, která podrobí již vytvořený model výpočetně náročnému algoritmu, který se snaží optimalizovat jeho konformaci pomocí malých pohybů torzních úhlů s ohledem na všechny atomy v proteinu (Nugent et al., 2014). Dále se vyhodnocuje schopnost identifikace a predikce neuspořádaných oblastí proteinu, které v nativní konformaci nemají stabilní 3D strukturu. Jedná se především o regulační a vazebné oblasti proteinu (Monastyrskyy et al., 2014b). Predikci modelu může také velmi usnadnit schopnost předpovědět pravděpodobné kontakty aminokyselin v 3D konformaci, které jsou jinak v sekvenci od sebe vzdálené (Monastyrskyy et al., 2014a). Speciálně se pak vyhodnocuje i odhad kvality modelů. Jedná se o odhad dané výzkumné skupiny, jak moc je její vytvořený model spolehlivý (Kryshtafovych et al., 2014). Spolehlivost se často určuje podle množství a kvality vstupních dat, které jsou potřeba pro predikci daného modelu. 5.2 RMSD měřítko úspěšnosti predikce Model poskytnutý predikční metodou je potřeba nějak porovnat s experimentálně zjištěnou nativní (cílovou) konformací, aby bylo možné posoudit jejich shodu. K tomuto účelu se v celé bioinformatice široce používá parametr Root-mean-square distance (RMSD), definovaný jako, 6
17 kde se měří odchylka vzdáleností N párů atomů v Å. V porovnávání se nejčastěji používají C α atomy, části sekundárních struktur, nebo kompletní analýzy přes všechny atomy v závislosti na požadovaném výstupu. Pro správný výpočet je nutné nejdříve oba porovnávané proteiny přeložit přes sebe tak, aby RMSD bylo co nejmenší (Coutsias et al., 2004) (viz Obr. 4). K tomu se používá velmi rozšířený Kabschův algoritmus (Kabsch, 1976), nebo novější metoda za použití kvaternionů, což jsou uspořádané čtveřice reálných čísel se speciálně definovanými výpočetními operacemi (Coutsias et al., 2004). Obrázek 4: Ukázka překrytí predikovaného modelu u třech různých nativních struktur (převzato z Barth et al., 2009) Samotné RMSD může být zavádějící při porovnávání úspěšnosti metody u různě velikých proteinů. Pokud například nějaká metoda dokáže vytvořit model proteinu o velikosti 100 aminokyselin s RMSD 4 Å vůči nativní struktuře, tak je to určitě menší úspěch, než model proteinu o délce 400 se stejnou hodnotou RMSD (Irving et al., 2001). Jistou formu normalizace zavádí RMSD100, které je definované jako, kde N je počet aminokyselin v proteinu a 100 je počet aminokyselin, přes který probíhá normalizace (Carugo a Pongor, 2001). Konstanta 100 byla vybrána jako průměrný počet aminokyselin v proteinové doméně (Xu a Nussinov, 1998). 5.3 Hledání globálního energetického minima - simulated annealing Simulované žíhání (simulované ochlazování, simulated annealing) je algoritmus založený na hledání globálního optima pro daný systém. Tento systém se skládá ze stavů, do kterých může systém přejít a v rámci nich je i stav globálního optima. Pokud systém přejde z jednoho stavu do druhého, tak je vyhodnoceno, jestli v systému došlo ke zlepšení nebo zhoršení směrem k optimu. 7
18 Aby algoritmus našel globální optimální stav, musí občas přejít do stavu horšího, aby se vymanil ze špatného lokálního optima (energetického minima). Jak moc může přecházet do horších stavů, určuje proměnná teplota, která je iterativně zmenšována, a tím se zmenšuje možnost přechodu do horšího stavu (Kirkpatrick et al., 1983). Tímto postupem je dané, kolik kroků algoritmus vykoná, ale není znám jeho výsledek. Algoritmu se tím řadí do skupiny Monte Carlo algoritmů. Navíc se používá Metropolisův algoritmus, kdy každý další stav při annealingu je navíc ovlivněn jeho pravděpodobností vůči předcházejícímu (Metropolis et al., 1953). V predikci proteinů se tyto algoritmy používají na simulaci sbalování, kde stavy reflektují jednotlivé konformace proteinu. V prvních fázích jsou možné velké konformační změny a s klesající teplotou se postupně pohyby modelu omezují (Karakas et al., 2012; Simons et al., 1997) (viz Obr. 5). Tím dochází k hledání globálního energetického minima. Metropolisův algoritmus je pak používán na přijetí nebo odmítnutí konformační změny, to znamená přechodů do jednotlivých stavů (Simons et al., 1997). Obrázek 5: Ukázka schopnosti simulovaného žíhání vyhnout se nesprávným lokálním energetickým minimům, které mají barvu zelenou. Globální energetické minimum je obarveno modře (převzato z internetového zdroje 3 ). 5.4 Hodnocení modelů energetická funkce Správné ohodnocení modelů je esenciální pro každý algoritmus zabývající se trojrozměrnou predikcí proteinů (Simons et al., 1997), ať už je potřeba ohodnotit výsledný model, nebo dílčí konformační změny během simulace. To se provádí pomocí hodnotící (energetické) funkce s cílem rozlišit dobře sbalené modely (méně než 4 Å RMSD) od nesprávně sbalených (Simons et al., 1999b). Nejedná se o skutečnou energii (kj/mol), ale o soubor výrazů hodnotící jednotlivé aspekty modelu (např. kompaktnost modelu, párování typů aminokyselin, správné rozmístění hydrofobních a hydrofilních postranních řetězců, správné párování beta řetězců, atd.) (Rohl et al., 2004). Podstatou funkce je čistě statistická informace, což znamená, že pokud se například nějaká aminokyselina 3 8
19 vyskytuje v přírodě s určitou pravděpodobností uvnitř proteinu, a v modelu je na povrchu, bude hodnocení daného výrazu o tuto pravděpodobnost zhoršené (Simons et al., 1999b). Během simulace se často používají jen jednotlivé části dané energetické funkce a další se časem přidávají. Tento postup je z důvodu rostoucí složitosti konformace modelu, a tudíž je potřeba i komplexnější hodnocení (Karakas et al., 2012; Simons et al., 1997). Pokud by se celková funkce používala během celé simulace, tak by vzhledem k náročnosti hodnocení došlo ke značnému časovému nárůstu. Pokud by funkce byla dokonalá, tak by stačilo vygenerovat velké množství modelů, a jako ten nejlepší vzít ten s nejlepším hodnocením. Bohužel to ale tak není, a proto je nutné k výběru použít i jiné metody, jako například klastrování. 5.5 Contact order ovlivnění rychlosti sbalování Contact order (CO) nebo též relativní contact order poskytuje informaci o rozmístění aminokyselin v dané konformaci. Jedná se o průměr vzdáleností v primární sekvenci mezi jednotlivými definovanými páry aminokyselin, které jsou spolu v kontaktu v trojrozměrné struktuře. Studie ukázaly, že se zvyšujícím se CO klesá rychlost sbalování proteinů a je v tomto ohledu rozhodujícím faktorem (Grantcharova et al., 2001; Plaxco et al., 1998). V predikci se používá například pro porovnání CO ve vytvořených modelech s experimentálně zjištěnými strukturami o stejné velikosti (Bonneau et al., 2002). Obecně je CO definovaný jako, kde N je počet kontaktů, L je celkový počet aminokyselin v proteinu a ΔS i,j udává délku sekvence mezi aminokyselinami tvořící kontakt. Definice kontaktu může být různá, například je jako kontakt brán každý pár aminokyselin, které mají u sebe atomy (kromě vodíku) blíž než 6 Å (Plaxco et al., 1998), nebo dvojice aminokyselin, které mají C β atomy ve vzdálenosti do 8 Å a jsou sekvenčně vzdáleny alespoň o 3 aminokyseliny (Bonneau et al., 2002). V některých analýzách se využívá i absolutní CO, které není normalizované přes L (Bonneau et al., 2002). 9
20 6 Rosetta 6.1 Úvod Rosetta je komplexní nástroj pro modelování a analýzu proteinových a nukleotidových struktur. Vyvinul ji Dr. David Baker z univerzity ve Washingtonu jako nástroj pro doplnění molekulárních a bio-fyzikálních studií sbalování malých solubilních proteinů (Simons et al., 1997). Postupně přesáhla univerzitní prostředí a pracuje na ní mnoho institucí, které se sdružují do takzvaných členů RosettaCommons. Samotný software se skládá ze souboru oddělených algoritmů (protokolů), které spolu ale vzájemně spolupracují. V této práci nás hlavně zajímají protokoly pro ab initio modelování a hlavně membrane ab initio protokol, který byl vytvořen pro predikci helikálních membránových proteinů. 6.2 Ab initio protokol Tento protokol byl vyvinut pro vytváření modelů malých solubilních proteinů z pouhé sekvence aminokyselin, kdy není dostupný žádný homologní protein, který by mohl sloužit jako šablona během modelování. Základní myšlenka algoritmu je použití informace z mnoha již experimentálně definovaných trojrozměrných struktur proteinů pomocí velmi krátkých úseků s nejlepší profilovou podobností (Simons et al., 1997). Profilová podobnost je vysvětlena pomocí obrázku 6. Obrázek 6: Obrázek ukazuje nalezení nejlepší profilové shody pro horní sekvenci. Kdyby se porovnávala jen samotná shoda sekvence, tak by sekvence 1 a 2 byly na stejné úrovni. Ale v profilovém porovnání hraje důležitou roli i informace ze sekvence 3, která má na druhé pozici Alanin, což rozhodne ve prospěch sekvence 2. Před predikcí trojrozměrného modelu je vytvořen soubor obsahující veškeré možné úseky devíti a tří aminokyselin z predikované sekvence. K těmto jednotlivým úsekům jsou dohledány profilově podobné úseky z proteinů, které již mají nalezenou trojrozměrnou strukturu, a jsou zaznamenány jejich torzní úhly. Tyto dohledané úseky jsou označovány jako fragmenty (Simons et al., 1997). V roce 2004 v CASP6 (Bradley et al., 2005) byly k nalezení těchto úseků použity programy Pfam4 (Bateman et al., 2004) a PSI-BLAST (Altschul et al., 1997). Výběr fragmentů je dále ovlivněn předpovězením sekundární struktury v daném predikovaném úseku (Simons et al., 1999a), kdy souhlas 10
21 v sekundární struktuře zlepšuje hodnocení fragmentu. V CASP6 byly k predikci sekundárních struktur použity programy PSIPRED (Jones, 1999), Sam-T99 (Karplus et al., 1999) a JUFO (Meiler et al., 2002). Pro každý úsek devíti a tří aminokyselin je takto vybráno 25 nejlepších fragmentů (Simons et al., 1997). Pro zjednodušení predikce jsou postranní řetězce aminokyselin nahrazeny pseudo-atomem, který je označován jako těžiště (Simons et al., 1999b). Ten je definovaný jako průměrná pozice všech atomů postranního řetězce přes všechny rotamery v PDB databázi (Gray et al., 2003), kdy rotamer označuje jeho možnou konformaci (Dunbrack a Cohen, 1997). Simulace sbalování proteinu začíná na plně nataženém řetězci, kde je náhodně vybráno místo, kde dojde k iniciaci sbalování nahrazením torzních úhlů řetězce z náhodně vybraného fragmentu pro dané místo o délce devíti aminokyselin. Tento proces následně pokračuje na náhodných místech řetězce, dokud není každý torzní úhel nahrazen alespoň jednou. Na začátku simulace způsobí vložení fragmentu velkou konformační změnu, ale jak se model stává více sbalený, tak vložení způsobí nejen změnu torzních úhlů v sekvenci fragmentu, ale způsobí změny i v blízkém okolí tak, aby bylo vložení slučitelné s aktuální konformací. Pohyb navíc musí být vykonán tak, aby se žádné dva atomy k sobě nepřiblížily více než 2,5 Å (Simons et al., 1997). Simulace je rozdělena do několika fází, kdy v každé následující fázi dochází ke komplexnějšímu ohodnocení modelu po vložení fragmentu. Například v první fázi dochází jen k ohodnocení sterických překryvů a v další se již navíc hodnotí i kompaktnost modelu (Rohl et al., 2004). V jedné z posledních fází dojde k vyhlazení modelu pomocí fragmentů tří aminokyselin (Bradley et al., 2003), kdy pomocí metody Gunn (Gunn, 1998) dojde k úpravě konformace i v okolí fragmentu (Bonneau et al., 2001b). Pokud jsou v sekvenci identifikovány jasně oddělené domény, jsou rozštěpeny a predikovány zvlášť výše popsaným algoritmem. Následně jsou pak spojeny do jednoho modelu (Bradley et al., 2003). Výslednému modelu je pak přiřazeno číslo energetickou funkcí (score), které simuluje jeho energii, to znamená, čím nižší hodnota funkce, tím lepší model (viz kapitola 6.5). Jelikož simulované žíhání spadá do Monte Carlo algoritmů, je zřejmé, že výsledný model nemusí odpovídat přirozené konformaci proteinu vyskytující se v přírodě. Je to dáno náhodností vkládání fragmentů a hlavně krokově omezeným simulovaným žíháním. Prakticky většina vytvořených modelů je nesprávně sbalená a je nutné nalézt ten správný. Hodnocení modelů v tomto případě nestačí z důvodů nedokonalosti energetické funkce (Tsai et al., 2003). Tento problém je řešen generováním velkého množství modelů (čím víc, tím lépe), které následně vstupují do fáze filtrovací a klastrovací (Bonneau et al., 2002). Filtrovací fáze má za úkol vyřadit evidentně špatně sbalené modely, které obsahují například nesprávně vytvořené beta listy (Bonneau et al., 2001b), nebo hodnotu CO, která nekoresponduje s očekávanou hodnotou pro proteiny podobné délky a obsahující podobné sekundární struktury (Bonneau et al., 2001b). Algoritmus používaný Rosettou, který má tendenci tvořit hlavně struktury 11
22 tvořené lokálními aminokyselinami, vykazuje nadbytečnou tvorbu modelů s nízkým CO (Bonneau et al., 2002). Byl tedy vytvořen přístup, který filtruje modely před vstupem do klastrování s ohledem na CO. Tento přístup je postavený na definování percentilů absolutního CO a délky proteinu pomocí reprezentativního souboru zjištěných proteinů. Tyto percentily jsou definovány pro tři kategorie proteinů podle výskytu sekundárních struktur na α, αβ a β (Bonneau et al., 2002) (viz Obr. 7). Obrázek 7: Definice percentilů na základě reprezentativního souboru proteinů. Proteiny jsou rozděleny do tří kategorií podle výskytu sekundárních struktur. Každý protein je pak umístěn do grafu podle své délky a absolutního CO. Graf je následně rozdělen na čtyři části, kdy čáry oddělují jednotlivé percentily (5%, 45%, 45%, 5%) výskytu proteinů (převzato z Bonneau et al., 2002) Pokud tedy máme soubor modelů o nějaké velikosti, tak na základě třídy, délky a absolutního CO dojde k rozdělení souboru do grafů z obrázku 7. To způsobí, že předem definované percentily rozdělí soubor modelů a z každého percentilu je následně vzato odpovídající procento modelů s nejlepším score (5%, 45%, 45%, 5%) (Bonneau et al., 2002; Tsai et al., 2003). Nicméně nejjednodušší filtr má za cíl poskytnout klastrovací fázi jen určité procento modelů s nejnižším score (Shortle et al., 1998). Fáze klastrování začíná vzájemným výpočtem C α RMSD pro všechny vložené modely a každému je přiřazen počet podobných modelů na základě uživatelsky definovaného RMSD (např. menší než 8 Å (Bonneau et al., 2001a)). Dále je uživatelsky definovaná maximální velikost klastru (např. 100 modelů (Bonneau et al., 2001b)). Pokud model s největším množstvím podobných jich má více, než je povolená velikost klastru, tak dojde k iterativnímu zmenšování rozdílového RMSD, dokud není dosažena maximální velikost, nebo nedojde ke zmenšení rozdílového RMSD na hodnotu 3 Å. Následně dojde k zaznamenání modelu jako centrum klastru a jeho rozdílové RMSD a všechny proteiny v klastru jsou vyřazeny z populace a proces začíná znova, dokud jsou tvořeny klastry o určité velikosti (Bonneau et al., 2001a; Bonneau et al., 2001b; Shortle et al., 1998). Centra největších klastrů jsou pak předložena jako možné výsledky predikce (Shortle et al., 1998). Klastrování je založeno na předpokladu, že přirozená struktura je energeticky nejvýhodnější a nachází se uprostřed nejširšího energetického trychtýře v energetické krajině, a že hodnocení založené převážně na hydrofobních interakcích dokáže tento trychtýř rozeznat (viz Obr. 8) (Shortle et al., 1998). 12
23 Obrázek 8: (A) Zobrazení různě širokých oblastí, kdy nejširší oblast vede k úzké prohlubni přirozené konformace (převzato z Bryngelson et al., 1995). (B) Ukázka propojení energie konformace (plná čára) s energetickou funkcí (přerušovaná čára), která ukazuje, že funkce nemusí nalézt nejnižší energii, ale dokáže identifikovat oblast, která k ní vede (převzato z Shortle et al., 1998). Pro lepší výsledky je často mezi filtrováním a klastrováním zařazeno doplnění postranních řetězců aminokyselin, kdy těžiště jsou nahrazena rotamery postranních řetězců ze známých struktur, tak aby nedocházelo ke sterickým překryvům (Bonneau et al., 2001b; Kuhlman a Baker, 2000). Po každém nahrazení dojde k náhodným pohybům peptidické kostry okolo aminokyseliny a zjišťuje se energetická výhodnost vkládaného rotametru (Misura a Baker, 2005). Tento krok je ale velmi výpočetně náročný, takže se někdy nechává až na výsledky klastrování. 6.3 Využití informace z profilově podobných sekvencí K lepšímu rozpoznání přirozené konformace je možné využít informaci z ostatních proteinů (Bonneau et al., 2001a). Vychází se z empirických pozorování, že pokud dvě sekvence aminokyselin sdílejí víc jak 25% sekvenční shodu a jsou delší než 60 aminokyselin, tak sdílejí téměř i stejnou konformaci (Abagyan a Batalov, 1997; Brenner et al., 1998; Sander a Schneider, 1991). Pomocí PSI- BLAST (Altschul et al., 1997) je vytvořen soubor sekvencí s alespoň 60% délkou predikované sekvence a podobnost je vyžadována od 20% do 60%. Následně se definují úseky, které jsou do jisté míry všem společné a sekvenční jádro, které spojuje společné úseky. Z těchto profilově podobných sekvencí jsou následně vybrány ty, které mají vzájemnou podobnost menší než 60% (Bonneau et al., 2001a) (viz. Obr. 9) 13
24 Obrázek 9: Modrý pruh zobrazuje délku sekvence predikovaného proteinu s PDB kódem 2ACY, zelený pruh je sekvenční jádro a žluté jsou společné úseky. Podtržené sekvence značí vybrané sekvence (převzato z Bonneau et al., 2001a). Různé barvy aminokyselin sdružují ty se stejnými fyzikálně chemickými vlastnostmi důležité pro porovnání. Pro každou takto vybranou sekvenci je standardním algoritmem Rosetty vytvořeno 1000 modelů pro celý řetězec a 1000 modelů jen pro sekvenční jádro. Tyto modely jsou následně klastrovány jen přes společné úseky. Následně jsou vytvořeny modely pro predikovanou sekvenci a standardně klastrovány. V ideálním případě by centrum klastru obsahující přirozenou konformaci mělo mít odpovídající klastry z dodatečných sekvencí porovnávané přes společné úseky. 6.4 Nelokální beta skládané listy Jelikož algoritmus predikce je založen na lokálním nahrazování torzních úhlů, jsou přirozeně upřednostňovány lokální beta struktury, které se zformují jako první. Tím může dojít k nesprávnému sbalení lokálních beta struktur na úkor sekvenčně vzdálených beta struktur (Bradley a Baker, 2006). Tento problém je řešen pomocí spojů mezi vzdálenými aminokyselinami, které jsou během standardního skládání udržovány u sebe. Tyto spoje jsou odvozeny od zjištěných proteinů, kdy jsou zaznamenány interagující aminokyseliny v beta listech a jejich paralelní či antiparalelní orientace. Pokud jsou tyto páry nalezeny na predikované sekvenci, kde je předpokládaná beta struktura, dojde ke spojení pomocí náhodně vybraného páru. Zároveň dojde k rozštěpení peptidového řetězce v predikovaných smyčkách mezi těmito sekvencemi (viz Obr. 10). Tím dojde k modifikaci 14
25 peptidového řetězce, schopného podstoupit standardní algoritmus. V pozdějších fázích simulace je do energetické funkce zavedeno hodnocení pro udržování rozštěpených konců u sebe (Bradley a Baker, 2006). Obrázek 10: Konstrukce a použití vzdálených spojů (převzato z Bradley a Baker, 2006) 6.5 Hodnocení modelu Energetická funkce Rosetty je založena na Bayesově větě, která udává podmíněnou pravděpodobnost nějakého jevu (Simons et al., 1997). Po upravení věty pro hodnocení pravděpodobnosti modelu vypadá takto, a je založena čistě na statistické informaci viz kapitola 6.5. Jednotlivé dílčí výrazy funkce jsou zobrazeny na obrázku 11. P(sekvence) je konstanta a je ve výpočtu zanedbána. Samotné score, kterým je model hodnocen, je -log P(structure sequence). Použití -log udává, že čím menší score, tím by měl být model blíže přirozené konformaci, ale to nemusí vždy platit, a proto je například používáno klastrování. 15
26 Obrázek 11: Přehled dílčích výrazů energetické funkce (převzato z Simons et al., 1999b) 6.6 Membrane ab initio protokol Počínaje analýzou fotosyntetického reakčního centra (Rees et al., 1989) bylo zjištěno, že velké hydrofobní aminokyseliny jako fenylalanin, leucin, isoleucin a valin jsou v TM helixech častěji vystaveny do membránového prostředí (Adamian et al., 2005; Ulmschneider et al., 2005). Naopak malé aminokyseliny jako glycin, alanin, serin a threonin mají tendenci vytvářet mezihelixové interakce (Eilers et al., 2002; Javadpour et al., 1999). Tyto a další poznatky vedly k vytvoření nového protokolu pro predikci helikálních TM proteinů. Algoritmus založený na fragmentech a energetická funkce musely být adaptovány na anizotropické membránové prostředí (Yarov-Yarovoy et al., 2006). Kvůli tomu byl v solubilním prostředí vytvořen model membrány po vzoru White a Wimley (1999), kdy hydrofobní část byla navíc rozdělena na vnitřní a vnější (viz Obr. 12) (Yarov-Yarovoy et al., 2006). 16
27 Obrázek 12: Definice membrány (převzato z Yarov-Yarovoy et al., 2006) Algoritmus začíná standardním nalezením fragmentů, ke kterému je použit program Sam-T99 (Karplus et al., 2001). Oproti solubilním proteinům je navíc důležité zjistit celkovou topologii proteinu kvůli správnému usazení v membráně. Pro zjištění topologie transmembránových úseků je používán program OCTOPUS (Viklund a Elofsson, 2008), a pomocí nich se zjišťuje, na které straně membrány jsou jednotlivé C- a N- konce helixů (viz Obr. 13) (Yarov-Yarovoy et al., 2006). Sequence length: 250 aa. Sequence: MCCAALAPPMAATVGPESIWLWIGTIGMTLGTLYFVGRGRGVRDRKMQEFYIITIFITTI AAAMYFAMATGFGVTEVMVGDEALTIYWARYADWLFTTPLLLLDLSLLAGANRNTIATLI GLDVFMIGTGAIAALSSTPGTRIAWWAISTGALLALLYVLVGTLSENARNRAPEVASLFG RLRNLVIALWFLYPVVWILGTEGTFGILPLYWETAAFMVLDLSAKVGFGVILLQSRSVLE RVATPTAAPT 17
28 OCTOPUS predicted topology: ooooooooooooooooommmmmmmmmmmmmmmmmmmmmiiiiiiiiiimmmmmmmmmmmm MMMMMMMMMooooooooooooooooooooMMMMMMMMMMMMMMMMMMMMMiiiiMMMMMM MMMMMMMMMMMMMMMooooooMMMMMMMMMMMMMMMMMMMMMiiiiiiiiiiiiiiiiiM MMMMMMMMMMMMMMMMMMMMooooooooooMMMMMMMMMMMMMMMMMMMMMiiiiiiiii Iiiiiiiiii Obrázek 13: Ukázka predikce topologie pro Bacteriorhodopsin. Každé aminokyselině je přiřazené písmeno, které identifikuje její pozici: o vnější prostor, M membrána a i vnitřní prostor Po vzoru nelokálních beta skládaných listů (viz kapitola 7.4) jsou dále dohledány kontakty mezi jednotlivými TM helixy (Barth et al., 2009) (viz kapitola 7.7). Dva TM helixy jsou pokládány za interagující, pokud je nalezeno alespoň 5 kontaktů s C α atomy v okruhu 8 Å. Simulace sbalování začíná tvorbou membrány, kdy jsou přes sebe přeloženy natažené predikované sekvence TM helixů a je vypočítána průměrná 2D pozice C α atomů na obou stranách predikované membrány. Uprostřed těchto průměrných pozic je označen střed membrány a přímka jimi definovaná je brána jako její normála. Plochy membrány jsou pak vytvořeny jako kolmé roviny vzdálené od centra 30 Å. Do takto definované membrány je vložena jedna natažená sekvence jednoho vybraného helixu zprostředka proteinu (Yarov-Yarovoy et al., 2006). Pokud byly definovány interakce mezi helixy (nalezeny kontakty), tak je náhodně vybrán jeden z párů helixů a od něj jeden z kontaktů. V tomto případě dojde na počátku simulace k vložení těchto dvou helixů v podobě natažených sekvencí namísto jednoho, a tyto helixy jsou spojené vybraným kontaktem. V náhodném místě mezi helixy je sekvence rozštěpena v místě předpokládané smyčky a kontakt je udržován během simulace (Barth et al., 2009). Takto vložené helixy jsou podrobeny standardnímu vkládání fragmentů. Po určitém množství vložení je náhodně vybrán volný C nebo N konec vložených helixů a je připojen další helix, který je následně opět podroben vkládání fragmentů, dokud takto nejsou zpracovány všechny helixy. Helixy se mohou v membráně pohybovat, aby co nejlépe protínaly membránovou dvouvrstvu (Yarov-Yarovoy et al., 2006). Počátek simulace zobrazuje obrázek
29 Obrázek 14: (A) Ukázka počátku simulace bez nalezeného kontaktu mezi helixy. Nejprve je vložena první natažená sekvence helixu, která je podrobena vkládání fragmentů za vzniku sekundární struktury. Následně dojde k připojení další sekvence helixu a proces se opakuje, dokud nejsou vloženy veškeré helixy. (B) Ukázka počátku simulace s nalezeným kontaktem. Interagující helixy jsou sbalovány v membráně spolu (převzato z Barth et al., 2009). Energetická funkce pro membránové proteiny se skládá ze stejných částí jako pro solubilní proteiny, ale některé jsou speciálně upraveny. Například výraz pro hodnocení umístění daného typu aminokyseliny v proteinu, který v solubilním hodnocení hodnotí jen umístění na povrchu nebo uvnitř, je upraven pro kontrolu umístění v jednotlivých vrstvách membrány a její zanoření. Pokud se například daná aminokyselina vyskytuje ze 70% (zjištěné přes definované proteiny v PDB databázi) ve vnitřní hydrofobní vrstvě (viz Obr. 12) a v modelu se tam vyskytuje také, přispěje kladně do celkového hodnocení na základě dané pravděpodobnosti (Yarov-Yarovoy et al., 2006). V membráně jsou i atypické sekundární struktury a samostatnou kapitolu tvoří zalomení helixu kvůli přítomnému prolinu (Yohannan et al., 2004). Studie ukázaly, že se narušení helixu projeví přes 4 aminokyseliny směrem k N konci řetězce (Cordes et al., 2002). Tyto ohyby jsou řešeny mimo standardní algoritmus vkládání fragmentů, kdy je využita statistická informace z ohybů určených sekvencí a jejich okolí (viz Obr. 15). 19
30 Obrázek 15: Příklad získávání informací z helixového ohybu (převzato z Barth et al., 2007) Jelikož jsou membránové proteiny často oligomery, je možné jednotlivé predikované monomery dodatečně sloučit pomocí protokolu protein protein docking, ale zatím samotná predikce struktury monomeru oligomerizací ovlivněná není (Barth et al., 2007). 6.7 Predikce kontaktů mezi helixy v membráně Pro tento účel je vytvořena databáze interagujících párů helixů z experimentálně zjištěných helikálních membránových proteinů, jejichž TM helixy jsou definovány pomocí MPtopo databáze (Jayasinghe et al., 2001). Pokud mezi dvěma helixy je 5 a více C α atomů z obou helixů v oblasti o průměru 8 Å, je tento pár zařazen do databáze. V roce 2009 k tomu bylo použito 79 proteinů s menší než 90% sekvenční identitou pro tvorbu 621 párů (Barth et al., 2009). Pomocí programu PSI-BLAST (Altschul et al., 1997) je pro každý helix v každém páru vytvořen profil jeho sekvence, který zobrazuje míru konzervovanosti jednotlivých aminokyselin (Gribskov et al., 1987). U predikované sekvence je pomocí programu OCTOPUS (Viklund a Elofsson, 2008) odhadnuta membránová topologie predikující TM helixy. Následně jsou pro každý možný helixový pár z predikované sekvence dohledány profilově odpovídající interagující páry z databáze. Dohledání je provedeno pomocí profilového porovnání přes každých 14 aminokyselin na jednotlivých helixech, a pokud dojde ke shodě, je nejbližší interagující pár aminokyselin od daného úseku definován jako kontakt (viz Obr. 16). Přes profilové porovnání jsou kontakty ohodnoceny a nejlepší vybrány pro použití na začátku predikce proteinu (Barth et al., 2009) (viz kapitola 7.6). 20
31 Obrázek 16: Hledání kontaktů (převzato z SI Barth et al., 2009) Predikované kontakty jsou navíc verifikovány pomocí metody pro predikci vzájemné orientace TM helixů v helikálním membránovém proteinu (Adamian a Liang, 2006). Tato metoda využívá poznatky z analýz, že aminokyseliny helixů vystavené do lipidického prostředí jsou méně konzervované než ty, které směřují do proteinu a nejlépe konzervované aminokyseliny jsou ty, co interagují s nějakým kofaktorem (heme, retinal ) nebo ligandem (Adamian a Liang, 2006). Dále je použita náchylnost jednotlivých typů aminokyselin k orientaci do membrány (lipofilicita) (Adamian et al., 2005). Vzájemná orientace TM helixů může být určena jako vyhledání plochy helixu nejvíce vystavené do membrány. Samotná definice plochy je založena na standardním modelu helixu (Pauling a Corey, 1951), kdy každá sedmá aminokyselina leží zhruba pod sebou a k doplnění je přidána navíc každá 3. a 4. (viz Obr. 17(A)). Takto definovaná plocha je navíc rozdělena na interakční části po sedmi, kdy každá sedmice je reprezentována písmeny a, b, c, d, e, f a g. Obrázek 17(B) ukazuje, jak každá sedmice aminokyselin helixu má definováno 7 interakčních částí (motif sedmi), které mohou být v kontaktu s lipidy nebo dalším helixem. Každá plocha je hodnocena pomocí funkce LIPS (LIPidfacing Surface), která určuje míru lipofilicity. Na obrázku 17(C) je zobrazena predikce 4 TM helixů. 21
32 Obrázek 17: Zjišťování lipofilicity. (A) Definice plochy helixu. (B) Každých 7 aminokyselin helixu má definováno 7 různých interakčních ploch. (C) Ukázka predikce pomocí funkce LIPS, kde oranžová plocha je predikována do membrány a zelená do proteinu (převzato z Adamian a Liang, 2006). Rosetta je jeden z nejkomplexnějších nástrojů pro modelování molekulárních struktur a z několika desítek protokolů zde bylo popsáno pouze několik. Volně dostupný zdrojový kód navíc umožňuje všem možnost zavádět nové přístupy a myšlenky, a proto se Rosetta rychle rozvíjí, což dokládá i téměř 400 publikací zobrazených na oficiálních stránkách
33 7 EVfold 7.1 Úvod EVfold (Evolutionary fold) je metoda založená na pozorování korelujících mutací v proteinových rodinách (Altschuh et al., 1988). Pokud se dvě aminokyseliny nacházejí v 3D prostoru přirozené konformace proteinu blízko sebe, mohou se společně evolučně měnit (Gobel et al., 1994). Toto zjištění vedlo k úvahám o použití předpovězených kontaktů aminokyselin k predikci 3D modelu (Fariselli et al., 2001; Shindyalov et al., 1994) (viz Obr. 18). Tato metoda vytvořená v roce 2011 byla schopná vytvořit testovací modely s vysokou vůči přirozené konformaci (podobností 2,7 4,8 Å C α -RMSD) u dvou třetin testovacích proteinů (Marks et al., 2011). O rok později byla metoda upravena pro helikální membránové proteiny, kdy v testovacím souboru TM proteinů dosáhla značného úspěchu hlavně ve funkčně důležitých oblastech (Hopf et al., 2012). Obrázek 18: Ukázka korelujícího páru aminokyselin v jedné rodině proteinů. Informace je pak použita v predikci jako pevný kontakt během simulace sbalování proteinu (převzato z Marks et al., 2011) 7.2 Ab initio predikce Metoda začíná analýzou všech potenciálních párů pozic v predikované sekvenci. Pro tento účel jsou dohledány homologní sekvence pomocí databáze PFAM (Finn et al., 2010), která obsahuje množství proteinových rodin a domén. V ohodnocení korelací je nutno počítat s možností, že aminokyselina A interaguje s aminokyselinou B a ta zase s aminokyselinou C, a tím by mohlo dojít k nesprávnému párování, protože aminokyseliny A a C spolu mutačně korelují, ale nemusí spolu interagovat v 3D prostoru. Kvůli tomuto problému není analýza zaměřena striktně na dvě pozice v sekvenci, ale probíhá pomocí globálního modelu, který se snaží najít soubor párů pozic, které 23
34 nejlépe vystihují všechny pozorované korelace v homologních sekvencích. Jednotlivé páry v tomto dohledaném souboru jsou navíc ohodnoceny podle předpokládané důležitosti, která je odvozená z korelace, a nejlépe hodnocené jsou vybrány dále do predikce. Tento krok vyhledání a ohodnocení párů pozic je esenciální pro celý protokol a jeho přesnost v podstatě rozhoduje o kvalitě modelu (Marks et al., 2011). Ve výběru jsou dále preferovány ty dvojice aminokyselin, které jsou od sebe sekvenčně vzdálenější, a také jsou upřednostňovány cysteinové můstky. Soubor vybraných párů je následovně převeden na soubor kontaktů v prostoru mezi páry aminokyselin odpovídajících pozic na predikované sekvenci. K určení vzdálenosti aminokyselin se používá C α, C β a odvozený střed od pozice postranního řetězce (Marks et al., 2011). Trojrozměrný model je predikován pomocí programu CNS, který byl vytvořen pro determinaci struktury využívající data z X-ray difrakce a NMR (Brunger, 2007; Brunger et al., 1998). Tento program začíná na plně nataženém řetězci a využívá standardní simulated annealing (kapitola 6.4). V rámci něho uplatňuje algoritmy zaměřené na Distance geometry problem. Jedná se o predikci souřadnic bodů v trojrozměrném prostoru (v našem případě jednotlivých atomů v proteinu) na základě definovaných vzdáleností mezi určitým množstvím dvojic těchto bodů (definované kontakty mezi aminokyselinami) (Havel et al., 1983). Po vytvoření dostatečného počtu modelů jsou následně odstraněny ty, které obsahují sekvenční uzel, který dokáže nalézt veřejný server KNOT (Kolesov et al., 2007). Vytvořené modely jsou poté hodnoceny podle kvality sekundárních struktur a souhlasem s jejich predikovanými úseky (Marks et al., 2011). 7.3 EVfold_membrane Původní algoritmus EVfold byl upraven pro predikci TM helikálních proteinů (Hopf et al., 2012). Pro nalezení homologních sekvencí byl v iniciačních testech použit program HHblits (Remmert et al., 2012) a k vytvoření 3D modelu opět použit program CNS ve verzi 1.2 (Brunger, 2007). Počáteční výsledky testů této metody byly značně přesné (viz. Obr 19) a bylo pozorováno, že funkčně důležité úseky v proteinu jsou predikovány s větší úspěšností. Navíc úseky, kde se vyskytují nejlépe hodnocené dohledané páry pozic, jsou místa, kde dochází k vázání substrátu nebo k oligomerizaci, což může být využito při determinaci látek, které by se na tyto úseky mohly vázat, např. léky (Hopf et al., 2012). 24
35 Obrázek 19: Ukázka predikce pomocí metody EVfold_membrane, kde modrá struktura je predikovaný model a šedivá je experimentální zjištěná konformace (převzato z Hopf et al., 2012). 7.4 EVfold_bb V roce 2015 byla využita metodika korelujících aminokyselin k predikci beta barelů (Hayat et al., 2015). Topologie predikované struktury je učena pomocí programu BOCTOPUS, který se zaměřuje právě na predikci TM beta barelů (Hayat a Elofsson, 2012a). V případě EVfold_bb byla použita verze 2, která každé aminokyselině určí, zda je ve smyčce na vnitřní straně membrány, vnější straně membrány nebo součástí beta řetězce v membráně. U aminokyselin v membráně navíc určí, zda je její postranní řetězec vystaven do membrány nebo je obrácen do barelu (Hayat et al., 2015) (viz Obr. 20(A)). Korelující páry aminokyselin jsou dohledávány stejně jako ve standardním protokolu. Rozdíl je v určování vzdáleností mezi páry pro membránovou beta barelovou část a zbytkem proteinu. Vzdálenosti dvou aminokyselin v membránové části jsou určeny podle vzdálenosti dvou sousedních antiparalelních beta řetězců, kdy torzní úhly jsou nastaveny na ϕ = 135,0 a ψ = -139,0 (výchozí úhly pro antiparalelní beta list) (Hayat et al., 2015) a délky standardního vodíkového můstku (1 Å) (viz Obr. 20(B)). Vzdálenosti párů mimo membránu jsou určovány jako v kapitole 8.2. Výsledné vzdálenosti mezi aminokyselinami jsou opět poskytnuty programu CNS (Brunger, 2007). Obrázek 20 zobrazuje kompletní postup pro tvorbu 3D modelu beta barelu (viz Obr. 20(C)). Největší síla programu EVfold je získávání informací z pouhých sekvencí a není vázán na zjištěné struktury. Bylo by velmi zajímavé využít jeho volně dostupnou funkčnost dohledávání kontaktů a použít jí například v Rosettě. Program EVfold je možné volně vyzkoušet na jeho oficiálních stránkách
36 Obrázek 20: Diagram predikce 3D modelu beta barelu pomocí programu EVfold_bb (upraveno z Hayat et al., 2015) 26
37 8 3D-SPOT 8.1 Úvod 3D-SPOT (3D-Structure Predictor of Transmembrane beta-barrels) je ab initio metoda pro predikci 3D struktury TM domény beta-barelových proteinů. Iniciační testy dokázaly vytvořit modely TM domény s RMSD peptidového řetězce standardně okolo 3,9 Å proti nativní konformaci, nicméně algoritmus má problém tvořit nesymetrické modely (viz Obr. 23), jako například PapC protein (v PDB pod kódem 2VQI). Dále je schopen predikovat, leč nepřesně, domény, které se skládají z více peptidových řetězců (Naveed et al., 2012). 8.2 Ab initio predikce Predikce začíná zmapováním všech možných kombinací pozic, které mohou nastat mezi dvěma sousedními postranními beta řetězci. Tento proces vždy vezme jeden beta řetězec a antiparalelně k němu přiloží sekvenčně následující. Tento pár je pak vůči sobě posouván tak, aby mohlo dojít k vyhodnocení silné vodíkové vazby (Schulz, 2000), slabé vodíkové vazby (Ho a Curmi, 2002) a interakce mezi postranními řetězci (Jackups a Liang, 2005) (viz Obr. 21). K vyhodnocení těchto interakcí je použita odvozená energetická funkce, která byla vytvořena pro predikci slabých interakcí, oligomerizace a protein-proteinové interakce u beta barelů na základě experimentálně zjištěných struktur (Naveed et al., 2009). Pro každý posun je vyhodnocována i vzniklá mimomembránová smyčka mezi beta řetězci, kdy energetická výhodnost směřuje k její menší délce (Wang et al., 2005). Takto může každý pár beta řetězců zaujmout 2L-1 poloh vůči sobě, kde L je délka řetězce (za předpokladu, že jsou délky řetězců stejné). Ty s nejmenší energií jsou následně vybrány dále pro predikci (Naveed et al., 2012). Obrázek 21: Zobrazení dvou antiparalelních beta řetězců a jejich interakcí (upraveno z SI Naveed et al., 2012) Membránová doména beta barelu většinou nabírá tvar pravidelného válce (Naveed et al., 2012), proto je tak tvořen i predikovaný model. Model je definován jako symetrický pletenec beta řetězců, kdy každý řetězec je reprezentován parametrickou křivkou a sekvencí C α atomů. Každá pozice C α atomu na této křivce je definována pomocí silných vodíkových můstků mezi řetězci. Průměr válce a náklon jednotlivých beta řetězců je vypočítán z počtu řetězců a střižného čísla (Shear Number), které 27
38 je vypočteno jako posun pozice aminokyseliny během celého cyklu (Liu, 1998; McLachlan, 1979) (viz Obr. 22). Toto číslo je získáno z predikovaných poloh jednotlivých řetězců s nejnižší energií a je použito pro následnou tvorbu modelu (Naveed et al., 2012). Obrázek 22: Střižné číslo se vypočítá pomocí natažení beta barelu, kdy na začátku a na konci je ten samý řetězec s vyznačenými aminokyselinami červeně a zeleně. Ukázkový beta barel má 4 řetězce (1, 2, 3, 4) a střižné číslo 4, protože došlo k posunutí první aminokyseliny o 4 pozice (převzato z SI Naveed et al., 2012). Šířka válce, křivky reprezentující beta řetězce a jejich náklon jsou dostatečná informace k vytvoření modelu TM domény beta barelu. Křivky jsou ale reprezentovány jen sekvencí C α, takže je dále nutné vytvořit peptidovou kostru, a k tomu je použit program BBQ (Backbone Building from Quadrilaterals) (Gront et al., 2007). Postranní řetězce aminokyselin jsou následně dostavěny pomocí AutoPSF 6, což je rozšíření grafického programu VMD (Humphrey et al., 1996). S tím je spojeno, že každý beta řetězec může začínat s aminokyselinou, která má postranní řetězec orientovaný buď do barelu, nebo ven. V tomto kroku opět rozhoduje energetická výhodnost. Nakonec je celý model vystaven energetické minimalizaci pomocí molekulární dynamiky programem NAMD (Phillips et al., 2005). Obrázek 23: Ukázka predikcí pomocí metody 3D-SPOT. Modré řetězce představují experimentální data, růžové predikci. Predikce zobrazená shora ukazuje problém metody při tvorbě oválných barelů u proteinu PapC (převzato z SI Naveed et al., 2012)
Genomické databáze. Shlukování proteinových sekvencí. Ivana Rudolfová. školitel: doc. Ing. Jaroslav Zendulka, CSc.
Genomické databáze Shlukování proteinových sekvencí Ivana Rudolfová školitel: doc. Ing. Jaroslav Zendulka, CSc. Obsah Proteiny Zdroje dat Predikce struktury proteinů Cíle disertační práce Vstupní data
Hemoglobin a jemu podobní... Studijní materiál. Jan Komárek
Hemoglobin a jemu podobní... Studijní materiál Jan Komárek Bioinformatika Bioinformatika je vědní disciplína, která se zabývá metodami pro shromážďování, analýzu a vizualizaci rozsáhlých souborů biologických
Bioinformatika a výpočetní biologie KFC/BIN. I. Přehled
Bioinformatika a výpočetní biologie KFC/BIN I. Přehled RNDr. Karel Berka, Ph.D. Univerzita Palackého v Olomouci Definice bioinformatiky (Molecular) bio informatics: bioinformatics is conceptualising biology
Využití metod strojového učení v bioinformatice David Hoksza
Využití metod strojového učení v bioinformatice David Hoksza SIRET Research Group Katedra softwarového inženýrství, Matematicko-fyzikální fakulta Karlova Univerzita v Praze Bioinformatika Biologické inspirace
Bioinformatika pro PrfUK 2003
Bioinformatika pro PrfUK 2003 Jiří Vondrášek Ústav organické chemie a biochemie vondrasek@uochb.cas.cz Jan Pačes Ústav molekulární genetiky hpaces@img.cas.cz http://bio.img.cas.cz/prfuk2003 What is Bioinformatics?---The
Aplikovaná bioinformatika
Aplikovaná bioinformatika Číslo aktivity: 2.V Název klíčové aktivity: Na realizaci se podílí: Implementace nových předmětů do daného studijního programu doc. RNDr. Michaela Wimmerová, Ph.D., Mgr. Josef
Struktura biomakromolekul
Struktura biomakromolekul ejvýznamnější biomolekuly proteiny nukleové kyseliny polysacharidy lipidy... měli bychom znát stavební kameny života Proteiny Aminokyseliny tvořeny aminokyselinami L-α-aminokyselinami
Obsah. Zpracoval:
Zpracoval: houzvjir@fel.cvut.cz 03. Modelem řízený vývoj. Doménový (business), konceptuální (analytický) a logický (návrhový) model. Vize projektu. (A7B36SIN) Obsah Modelem řízený vývoj... 2 Cíl MDD, proč
Služby pro predikci struktury proteinů. Josef Pihera
Služby pro predikci struktury proteinů Josef Pihera Struktura proteinů Primární sekvence aminokyselin Sekundární stáčení a spojování vodíkovými vazbami Supersekundární struktura přechod, opakovaná geometrická
Využití NMR spektroskopie pro studium biomakromolekul RCSB PDB
Využití NMR spektroskopie pro studium biomakromolekul RCSB PDB Uplatnění NMR spektroskopie chemická struktura kovalentní struktura konformace, geometrie molekul dynamické procesy chemické a konformační
Dobývání znalostí. Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze
Dobývání znalostí Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze Dobývání znalostí Pravděpodobnost a učení Doc. RNDr. Iveta Mrázová,
VYUŽITÍ PRAVDĚPODOBNOSTNÍ METODY MONTE CARLO V SOUDNÍM INŽENÝRSTVÍ
VYUŽITÍ PRAVDĚPODOBNOSTNÍ METODY MONTE CARLO V SOUDNÍM INŽENÝRSTVÍ Michal Kořenář 1 Abstrakt Rozvoj výpočetní techniky v poslední době umožnil také rozvoj výpočetních metod, které nejsou založeny na bázi
Studijní materiály pro bioinformatickou část ViBuChu. úloha II. Jan Komárek, Gabriel Demo
Studijní materiály pro bioinformatickou část ViBuChu úloha II Jan Komárek, Gabriel Demo Adenin Struktura DNA Thymin 5 konec 3 konec DNA tvořena dvěmi řetězci orientovanými antiparalelně (liší se orientací
Statistické zpracování naměřených experimentálních dat za rok 2012
Statistické zpracování naměřených experimentálních dat za rok 2012 Popis dat: Experimentální data byla získána ze tří měřících sloupů označených pro jednoduchost názvy ZELENA, BILA a RUDA. Tyto měřící
Neuronové časové řady (ANN-TS)
Neuronové časové řady (ANN-TS) Menu: QCExpert Prediktivní metody Neuronové časové řady Tento modul (Artificial Neural Network Time Series ANN-TS) využívá modelovacího potenciálu neuronové sítě k predikci
Pravděpodobnost v závislosti na proměnné x je zde modelován pomocí logistického modelu. exp x. x x x. log 1
Logistická regrese Menu: QCExpert Regrese Logistická Modul Logistická regrese umožňuje analýzu dat, kdy odezva je binární, nebo frekvenční veličina vyjádřená hodnotami 0 nebo 1, případně poměry v intervalu
Přírodní polymery proteiny
Přírodní polymery proteiny Funkční úloha bílkovin 1. Funkce dynamická transport kontrola metabolismu interakce (komunikace, kontrakce) katalýza chemických přeměn 2. Funkce strukturální architektura orgánů
Úvod do optimalizace, metody hladké optimalizace
Evropský sociální fond Investujeme do vaší budoucnosti Úvod do optimalizace, metody hladké optimalizace Matematika pro informatiky, FIT ČVUT Martin Holeňa, 13. týden LS 2010/2011 O čem to bude? Příklady
Dynamické procesy & Pokročilé aplikace NMR. chemická výměna, translační difuze, gradientní pulsy, potlačení rozpouštědla, NMR proteinů
Dynamické procesy & Pokročilé aplikace NMR chemická výměna, translační difuze, gradientní pulsy, potlačení rozpouštědla, NMR proteinů Chemická výměna jakýkoli proces při kterém dané jádro mění svůj stav
Opakování
Slabé vazebné interakce Opakování Co je to atom? Opakování Opakování Co je to atom? Atom je nejmenší částice hmoty, chemicky dále nedělitelná. Skládá se z atomového jádra obsahujícího protony a neutrony
Typy molekul, látek a jejich vazeb v organismech
Typy molekul, látek a jejich vazeb v organismech Typy molekul, látek a jejich vazeb v organismech Organismy se skládají z molekul rozličných látek Jednotlivé látky si organismus vytváří sám z jiných látek,
REGRESNÍ ANALÝZA V PROSTŘEDÍ MATLAB
62 REGRESNÍ ANALÝZA V PROSTŘEDÍ MATLAB BEZOUŠKA VLADISLAV Abstrakt: Text se zabývá jednoduchým řešením metody nejmenších čtverců v prostředí Matlab pro obecné víceparametrové aproximační funkce. Celý postup
Studium enzymatické reakce metodami výpočetní chemie
Studium enzymatické reakce metodami výpočetní chemie 2. kolo Petr Kulhánek, Zora Střelcová kulhanek@chemi.muni.cz CEITEC - Středoevropský technologický institut Masarykova univerzita, Kamenice 5, 625 00
SEMESTRÁLNÍ PRÁCE X. Aproximace křivek Numerické vyhlazování
KATEDRA ANALYTICKÉ CHEMIE FAKULTY CHEMICKO TECHNOLOGICKÉ UNIVERSITA PARDUBICE - Licenční studium chemometrie LS96/1 SEMESTRÁLNÍ PRÁCE X. Aproximace křivek Numerické vyhlazování Praha, leden 1999 0 Úloha
Využití strojového učení k identifikaci protein-ligand aktivních míst
Využití strojového učení k identifikaci protein-ligand aktivních míst David Hoksza, Radoslav Krivák SIRET Research Group Katedra softwarového inženýrství, Matematicko-fyzikální fakulta Karlova Univerzita
Pravděpodobnost, náhoda, kostky
Pravděpodobnost, náhoda, kostky Radek Pelánek IV122 Výhled pravděpodobnost náhodná čísla lineární regrese detekce shluků Dnes lehce nesourodá směs úloh souvisejících s pravděpodobností připomenutí, souvislosti
Téma 4: Stratifikované a pokročilé simulační metody
0.007 0.006 0.005 0.004 0.003 0.002 0.001 Dlouhodobé nahodilé Std Distribution: Gumbel Min. EV I Mean Requested: 140 Obtained: 141 Std Requested: 75.5 Obtained: 73.2-100 0 100 200 300 Mean Std Téma 4:
Význam interakční konstanty, Karplusova rovnice. konfigurace na dvojné vazbě a na šestičlenných kruzích konformace furanosového kruhu TOCSY
Význam interakční konstanty, Karplusova rovnice konfigurace na dvojné vazbě a na šestičlenných kruzích konformace furanosového kruhu TOCSY Karplusova rovnice ve strukturní analýze J(H,H) = A + B cos f
Univerzita Pardubice. Fakulta chemicko-technologická Katedra analytické chemie. Licenční studium Statistické zpracování dat
Univerzita Pardubice Fakulta chemicko-technologická Katedra analytické chemie Licenční studium Statistické zpracování dat Semestrální práce Interpolace, aproximace a spline 2007 Jindřich Freisleben Obsah
OPTIMALIZAČNÍ ÚLOHY. Modelový příklad problém obchodního cestujícího:
OPTIMALIZAČNÍ ÚLOHY Problém optimalizace v různých oblastech: - minimalizace času, materiálu, - maximalizace výkonu, zisku, - optimalizace umístění komponent, propojení,... Modelový příklad problém obchodního
Vliv metody vyšetřování tvaru brusného kotouče na výslednou přesnost obrobku
Vliv metody vyšetřování tvaru brusného kotouče na výslednou přesnost obrobku Aneta Milsimerová Fakulta strojní, Západočeská univerzita Plzeň, 306 14 Plzeň. Česká republika. E-mail: anetam@kto.zcu.cz Hlavním
Molekulární biotechnologie č.9. Cílená mutageneze a proteinové inženýrství
Molekulární biotechnologie č.9 Cílená mutageneze a proteinové inženýrství Gen kódující jakýkoliv protein lze izolovat z přírody, klonovat, exprimovat v hostitelském organismu. rekombinantní protein purifikovat
Inovace studia molekulární a buněčné biologie
Inovace studia molekulární a buněčné biologie Tento projekt je spolufinancován Evropským sociálním fondem a státním rozpočtem České republiky. MBIO1/Molekulární biologie 1 Tento projekt je spolufinancován
PRŮZKUMOVÁ ANALÝZA JEDNOROZMĚRNÝCH DAT Exploratory Data Analysis (EDA)
PRŮZKUMOVÁ ANALÝZA JEDNOROZMĚRNÝCH DAT Exploratory Data Analysis (EDA) Reprezentativní náhodný výběr: 1. Prvky výběru x i jsou vzájemně nezávislé. 2. Výběr je homogenní, tj. všechna x i jsou ze stejného
Zada ní 1. Semina rní pra ce z pr edme tu Matematický software (KI/MSW)
Zada ní. Semina rní pra ce z pr edme tu Matematický software (KI/MSW) Datum zadání: 5.. 06 Podmínky vypracování: - Seminární práce se skládá z programové části (kódy v Matlabu) a textové části (protokol
Výukový materiál zpracován v rámci projektu EU peníze školám Registrační číslo projektu: CZ.1.07/1.5.00/34.0996
Výukový materiál zpracován v rámci projektu EU peníze školám Registrační číslo projektu: CZ.1.07/1.5.00/34.0996 Šablona: III/2 č. materiálu: VY_32_INOVACE_CHE_413 Jméno autora: Mgr. Alena Krejčíková Třída/ročník:
EXPERIMENTÁLNÍ MECHANIKA 2 Přednáška 5 - Chyby a nejistoty měření. Jan Krystek
EXPERIMENTÁLNÍ MECHANIKA 2 Přednáška 5 - Chyby a nejistoty měření Jan Krystek 9. května 2019 CHYBY A NEJISTOTY MĚŘENÍ Každé měření je zatíženo určitou nepřesností způsobenou nejrůznějšími negativními vlivy,
7. Rozdělení pravděpodobnosti ve statistice
7. Rozdělení pravděpodobnosti ve statistice Statistika nuda je, má však cenné údaje, neklesejte na mysli, ona nám to vyčíslí Jednou z úloh statistiky je odhad (výpočet) hodnot statistického znaku x i,
Blok 2 Sekundární struktura proteinů
Blok 2 Sekundární struktura proteinů C3211 Aplikovaná bioinformatika Přednášející: Josef Houser Struktura proteinů ADSQTSSNRAGEFSIPPNTDFRAIFFANAAE QQHIKLFIGDSQEPAAYHKLTTRDGPREATL NSGNGKIRFEVSVNGKPSATDARLAPINGKK
Algoritmy a struktury neuropočítačů ASN - P10. Aplikace UNS v biomedicíně
Aplikace UNS v biomedicíně aplikace v medicíně postup při zpracování úloh Aplikace UNS v medicíně Důvod: nalezení exaktnějších, levnějších a snadnějších metod určování diagnóz pro lékaře nalezení šetrnějších
Spektra 1 H NMR. Velmi zjednodušeně! Bohumil Dolenský
Spektra 1 MR Velmi zjednodušeně! Bohumil Dolenský Spektra 1 MR... Počet signálů C 17 18 2 O 2 MeO Počet signálů = počet neekvivalentních skupin OMe = informace o symetrii molekuly Spektrum 1 MR... Počet
Automatická detekce anomálií při geofyzikálním průzkumu. Lenka Kosková Třísková NTI TUL Doktorandský seminář, 8. 6. 2011
Automatická detekce anomálií při geofyzikálním průzkumu Lenka Kosková Třísková NTI TUL Doktorandský seminář, 8. 6. 2011 Cíle doktorandské práce Seminář 10. 11. 2010 Najít, implementovat, ověřit a do praxe
Pravděpodobnost, náhoda, kostky
Pravděpodobnost, náhoda, kostky Radek Pelánek IV122, jaro 2015 Výhled pravděpodobnost náhodná čísla lineární regrese detekce shluků Dnes lehce nesourodá směs úloh souvisejících s pravděpodobností krátké
ÚLOHY S POLYGONEM. Polygon řetězec úseček, poslední bod je totožný s prvním. 6 bodů: X1, Y1 až X6,Y6 Y1=X6, Y1=Y6 STANOVENÍ PLOCHY JEDNOHO POLYGONU
ÚLOHY S POLYGONEM Polygon řetězec úseček, poslední bod je totožný s prvním 6 bodů: X1, Y1 až X6,Y6 Y1=X6, Y1=Y6 STANOVENÍ PLOCHY JEDNOHO POLYGONU 3 úsečky (segmenty) v horní části 2 úsečky ve spodní části
Struktury a vazebné energie iontových klastrů helia
Společný seminář 11. června 2012 Struktury a vazebné energie iontových klastrů helia Autor: Lukáš Červenka Vedoucí práce: Doc. RNDr. René Kalus, Ph.D. Technický úvod Existují ověřené optimalizační algoritmy
4EK311 Operační výzkum. 5. Teorie grafů
4EK311 Operační výzkum 5. Teorie grafů 5. Teorie grafů definice grafu Graf G = uspořádaná dvojice (V, E), kde V označuje množinu n uzlů u 1, u 2,, u n (u i, i = 1, 2,, n) a E označuje množinu hran h ij,
Stanovení nejistot při výpočtu kontaminace zasaženého území
Stanovení nejistot při výpočtu kontaminace zasaženého území Michal Balatka Abstrakt Hodnocení ekologického rizika kontaminovaných území představuje komplexní úlohu, která vyžaduje celou řadu vstupních
KFC/STBI Strukturní bioinformatika
KFC/STBI Strukturní bioinformatika 06_predikce struktury Karel Berka 1 Predikce minule jsme se snažili najít způsob, jak spolu budou interagovat malé molekuly a proteiny. Ale co dělat, když strukturu proteinu
Ctislav Fiala: Optimalizace a multikriteriální hodnocení funkční způsobilosti pozemních staveb
16 Optimální hodnoty svázaných energií stropních konstrukcí (Graf. 6) zde je rozdíl materiálových konstant, tedy svázaných energií v 1 kg materiálu vložek nejmarkantnější, u polystyrénu je téměř 40krát
Markovovy modely v Bioinformatice
Markovovy modely v Bioinformatice Outline Markovovy modely obecně Profilové HMM Další použití HMM v Bioinformatice Analýza biologických sekvencí Biologické sekvence: DNA,RNA,protein prim.str. Sekvenování
Algoritmizace diskrétních. Ing. Michal Dorda, Ph.D.
Algoritmizace diskrétních simulačních modelů Ing. Michal Dorda, Ph.D. 1 Úvodní poznámky Při programování simulačních modelů lze hlavní dílčí problémy shrnout do následujících bodů: 1) Zachycení statických
Kombinatorická minimalizace
Kombinatorická minimalizace Cílem je nalézt globální minimum ve velké diskrétní množině, kde může být mnoho lokálních minim. Úloha obchodního cestujícího Cílem je najít nejkratší cestu, která spojuje všechny
COSY + - podmínky měření a zpracování dat ztráta rozlišení ve spektru. inphase dublet, disperzní. antiphase dublet, absorpční
y x COSY 90 y chem. posuv J vazba 90 x : : inphase dublet, disperzní inphase dublet, disperzní antiphase dublet, absorpční antiphase dublet, absorpční diagonální pík krospík + - - + podmínky měření a zpracování
analýzy dat v oboru Matematická biologie
INSTITUT BIOSTATISTIKY A ANALÝZ Lékařská a Přírodovědecká fakulta, Masarykova univerzita Komplexní přístup k výuce analýzy dat v oboru Matematická biologie Tomáš Pavlík, Daniel Schwarz, Jiří Jarkovský,
Translace (druhý krok genové exprese)
Translace (druhý krok genové exprese) Od RN k proteinu Milada Roštejnská Helena Klímová 1 enetický kód trn minoacyl-trn-synthetasa Translace probíhá na ribosomech Iniciace translace Elongace translace
Význam interakční konstanty, Karplusova rovnice
LEKCE 9 Význam interakční konstanty, Karplusova rovnice konfigurace na dvojné vazbě a na šestičlenných kruzích konformace furanosového kruhu TCSY T E E 1 E 1 T 0 6 T E 1 T 0 88 7 0 T E 0 0 E T 0 5 108
Analytické znaky laboratorní metody Interní kontrola kvality Externí kontrola kvality
Analytické znaky laboratorní metody Interní kontrola kvality Externí kontrola kvality RNDr. Alena Mikušková FN Brno Pracoviště dětské medicíny, OKB amikuskova@fnbrno.cz Analytické znaky laboratorní metody
Testy do hodin - souhrnný test - 6. ročník
Kolik procent škol jste předstihli Škola: Název: Obec: BCEH ZŠ a MŠ, Slezská 316 Slavkov - 6. ročník ČESKÝ JAZYK Máte lepší výsledky než 7 % zúčastněných škol. MATEMATIKA Máte lepší výsledky než 7 % zúčastněných
Struktura a funkce biomakromolekul
Struktura a funkce biomakromolekul KBC/BPOL 5. Metody určování struktury proteinů Ivo Frébort 3D struktury Smysl určování 3D struktur Pochopení funkce proteinů, mechanismu enzymových reakcí, design nových
P ro te i n o vé d a ta b á ze
Proteinové databáze Osnova Základní stavební jednotky proteinů Hierarchie proteinové struktury Stanovení proteinové struktury Důležitost proteinové struktury Proteinové strukturní databáze Proteinové klasifikační
Jak se matematika poučila v biologii
Jak se matematika poučila v biologii René Kalus IT4Innovations, VŠB TUO Role matematiky v (nejen) přírodních vědách Matematika inspirující a sloužící jazyk pro komunikaci s přírodou V 4 3 r 3 Matematika
Inovace studia molekulární a buněčné biologie reg. č. CZ.1.07/2.2.00/
Inovace studia molekulární a buněčné biologie reg. č. CZ.1.07/2.2.00/07.0354 Tento projekt je spolufinancován Evropským sociálním fondem a státním rozpočtem České republiky Populační genetika (KBB/PG)
PowerOPTI Řízení účinnosti tepelného cyklu
PowerOPTI Řízení účinnosti tepelného cyklu VIZE Zvýšit konkurenceschopnost provozovatelů elektráren a tepláren. Základní funkce: Spolehlivé hodnocení a řízení účinnosti tepelného cyklu, včasná diagnostika
Metoda Monte Carlo, simulované žíhání
co byste měli umět po dnešní lekci: integrovat pomocí metody Monte Carlo modelovat jednoduché mnočásticové systémy (Brownův pohyb,...) nalézt globální minimum pomocí simulovaného žíhání Určení čísla metodou
Modely a sémantika. Petr Šaloun VŠB-Technická univerzita Ostrava FEI, katedra informatiky
Modely a sémantika Petr Šaloun VŠB-Technická univerzita Ostrava FEI, katedra informatiky Úvod Existující problémy Prudký nárůst množství informací na webu Kognitivní přetížení Ztráta v informačním prostoru
Inženýrská statistika pak představuje soubor postupů a aplikací teoretických principů v oblasti inženýrské činnosti.
Přednáška č. 1 Úvod do statistiky a počtu pravděpodobnosti Statistika Statistika je věda a postup jak rozvíjet lidské znalosti použitím empirických dat. Je založena na matematické statistice, která je
KNIHOVNA MODELŮ TECHNOLOGICKÝCH PROCESŮ
KNIHOVNA MODELŮ TECHNOLOGICKÝCH PROCESŮ Radim Pišan, František Gazdoš Fakulta aplikované informatiky, Univerzita Tomáše Bati ve Zlíně Nad stráněmi 45, 760 05 Zlín Abstrakt V článku je představena knihovna
Stabilita v procesním průmyslu
Konference ANSYS 2009 Stabilita v procesním průmyslu Tomáš Létal VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ FAKULTA STROJNÍHO INŽENÝRSTVÍ ÚSTAV PROCESNÍHO A EKOLOGICKÉHO INŽENÝRSTVÍ, Adresa: Technická 2896/2, 616 69
U Úvod do modelování a simulace systémů
U Úvod do modelování a simulace systémů Vyšetřování rozsáhlých soustav mnohdy nelze provádět analytickým výpočtem.často je nutné zkoumat chování zařízení v mezních situacích, do kterých se skutečné zařízení
10. Předpovídání - aplikace regresní úlohy
10. Předpovídání - aplikace regresní úlohy Regresní úloha (analýza) je označení pro statistickou metodu, pomocí nichž odhadujeme hodnotu náhodné veličiny (tzv. závislé proměnné, cílové proměnné, regresandu
Využití tabulkového procesoru MS Excel
Semestrální práce Licenční studium Galileo srpen, 2015 Využití tabulkového procesoru MS Excel Ing Marek Bilko Třinecké železárny, a.s. Stránka 1 z 10 OBSAH 1. ÚVOD... 2 2. DATOVÝ SOUBOR... 2 3. APLIKACE...
Vyhledávání. doc. Mgr. Jiří Dvorský, Ph.D. Katedra informatiky Fakulta elektrotechniky a informatiky VŠB TU Ostrava. Prezentace ke dni 21.
Vyhledávání doc. Mgr. Jiří Dvorský, Ph.D. Katedra informatiky Fakulta elektrotechniky a informatiky VŠB TU Ostrava Prezentace ke dni 21. září 2018 Jiří Dvorský (VŠB TUO) Vyhledávání 242 / 433 Osnova přednášky
24.11.2009 Václav Jirchář, ZTGB
24.11.2009 Václav Jirchář, ZTGB Síťová analýza 50.let V souvislosti s potřebou urychlit vývoj a výrobu raket POLARIS v USA při závodech ve zbrojení za studené války se SSSR V roce 1958 se díky aplikaci
Pracovní celky 3.2, 3.3 a 3.4 Sémantická harmonizace - Srovnání a přiřazení datových modelů
Pracovní celky 3.2, 3.3 a 3.4 Sémantická harmonizace - Srovnání a datových modelů Obsah Seznam tabulek... 1 Seznam obrázků... 1 1 Úvod... 2 2 Metody sémantické harmonizace... 2 3 Dvojjazyčné katalogy objektů
Proteiny Genová exprese. 2013 Doc. MVDr. Eva Bártová, Ph.D.
Proteiny Genová exprese 2013 Doc. MVDr. Eva Bártová, Ph.D. Bílkoviny (proteiny), 15% 1g = 17 kj Monomer = aminokyseliny aminová skupina karboxylová skupina α -uhlík postranní řetězec Znát obecný vzorec
1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.
Prostá regresní a korelační analýza 1 1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004. Problematika závislosti V podstatě lze rozlišovat mezi závislostí nepodstatnou, čili náhodnou
2. Modelovací jazyk UML 2.1 Struktura UML 2.1.1 Diagram tříd 2.1.1.1 Asociace 2.1.2 OCL. 3. Smalltalk 3.1 Jazyk 3.1.1 Pojmenování
1. Teoretické základy modelování na počítačích 1.1 Lambda-kalkul 1.1.1 Formální zápis, beta-redukce, alfa-konverze 1.1.2 Lambda-výraz jako data 1.1.3 Příklad alfa-konverze 1.1.4 Eta-redukce 1.2 Základy
NUKLEOVÉ KYSELINY. Základ života
NUKLEOVÉ KYSELINY Základ života HISTORIE 1. H. Braconnot (30. léta 19. století) - Strassburg vinné kvasinky izolace matiére animale. 2. J.F. Meischer - experimenty z hnisem štěpení trypsinem odstředěním
SYLABUS PŘEDNÁŠKY 10 Z GEODÉZIE 1
SYLABUS PŘEDNÁŠKY 10 Z GEODÉZIE 1 (Souřadnicové výpočty 4, Orientace osnovy vodorovných směrů) 1. ročník bakalářského studia studijní program G studijní obor G doc. Ing. Jaromír Procházka, CSc. prosinec
GIS Geografické informační systémy
GIS Geografické informační systémy Obsah přednášky Prostorové vektorové modely Špagetový model Topologický model Převody geometrií Vektorový model Reprezentuje reálný svět po jednotlivých složkách popisu
ČVUT FEL X36PAA - Problémy a algoritmy. 4. úloha - Experimentální hodnocení algoritmů pro řešení problému batohu
ČVUT FEL X36PAA - Problémy a algoritmy 4. úloha - Experimentální hodnocení algoritmů pro řešení problému batohu Jméno: Marek Handl Datum: 3. 2. 29 Cvičení: Pondělí 9: Zadání Prozkoumejte citlivost metod
4. Na obrázku je rozdělovací funkce (hustota pravděpodobnosti) náhodné veličiny X. Jakou hodnotu musí mít parametr k?
A 1. Stanovte pravděpodobnost, že náhodná veličina X nabyde hodnoty menší než 6: P( X 6). Veličina X má rozdělení se střední hodnotou 6 a směrodatnou odchylkou 5: N(6,5). a) 0 b) 1/3 c) ½ 2. Je možné,
12. Predikce polymorfů. Příprava předmětu byla podpořena projektem OPPA č. CZ.2.17/3.1.00/33253
12. Predikce polymorfů Příprava předmětu byla podpořena projektem OPPA č. CZ.2.17/3.1.00/33253 1 Výpočetní chemie Predikce polymorfů rychle se vyvíjející se oblast růst výkonu počítačů možnost vypočítat
Struktura biomakromolekul
Struktura biomakromolekul ejvýznamnější biomakromolekuly l proteiny l nukleové kyseliny l polysacharidy l lipidy... měli bychom znát stavební kameny života Biomolekuly l proteiny l A DA, RA l lipidy l
Vzdělávací oblast: Matematika a její aplikace Vzdělávací obor: Matematický kroužek pro nadané žáky ročník 9.
Vzdělávací oblast: Matematika a její aplikace Vzdělávací obor: Matematický kroužek pro nadané žáky ročník 9. Školní rok 2013/2014 Mgr. Lenka Mateová Kapitola Téma (Učivo) Znalosti a dovednosti (výstup)
Ekonomické aspekty statistické regulace pro vysoce způsobilé procesy. Kateřina Brodecká
Ekonomické aspekty statistické regulace pro vysoce způsobilé procesy Kateřina Brodecká Vysoce způsobilé procesy s rozvojem technologií a důrazem kladeným na aktivity neustálého zlepšování a zeštíhlování
Korelační a regresní analýza. 1. Pearsonův korelační koeficient 2. jednoduchá regresní analýza 3. vícenásobná regresní analýza
Korelační a regresní analýza 1. Pearsonův korelační koeficient 2. jednoduchá regresní analýza 3. vícenásobná regresní analýza Pearsonův korelační koeficient u intervalových a poměrových dat můžeme jako
Úvod do teorie měření. Eva Hejnová
Úvod do teorie měření Eva Hejnová Literatura: Novák, R. Úvod do teorie měření. Ústí nad Labem: UJEP, 2003 Sprušil, B., Zieleniecová, P.: Úvod do teorie fyzikálních měření. Praha: SPN, 1985 Brož, J. a kol.
Počítačová chemie. výpočetně náročné simulace chemických a biomolekulárních systémů. Zora Střelcová
Počítačová chemie výpočetně náročné simulace chemických a biomolekulárních systémů Zora Střelcová Národní centrum pro výzkum biomolekul, Masarykova univerzita, Kotlářská 2, 611 37 Brno, Česká Republika
Buněčné automaty a mřížkové buněčné automaty pro plyny. Larysa Ocheretna
Buněčné automaty a mřížkové buněčné automaty pro plyny Larysa Ocheretna Obsah Buněčný automat: princip modelu, vymezení pojmů Mřížkový buněčný automat pro plyny Příklady aplikace principů mřížkových buněčných
Státnice odborné č. 20
Státnice odborné č. 20 Shlukování dat Shlukování dat. Metoda k-středů, hierarchické (aglomerativní) shlukování, Kohonenova mapa SOM Shlukování dat Shluková analýza je snaha o seskupení objektů do skupin
12 DYNAMIKA SOUSTAVY HMOTNÝCH BODŮ
56 12 DYNAMIKA SOUSTAVY HMOTNÝCH BODŮ Těžiště I. impulsová věta - věta o pohybu těžiště II. impulsová věta Zákony zachování v izolované soustavě hmotných bodů Náhrada pohybu skutečných objektů pohybem
METODY DOLOVÁNÍ V DATECH DATOVÉ SKLADY TEREZA HYNČICOVÁ H2IGE1
METODY DOLOVÁNÍ V DATECH DATOVÉ SKLADY TEREZA HYNČICOVÁ H2IGE1 DOLOVÁNÍ V DATECH (DATA MINING) OBJEVUJE SE JIŽ OD 60. LET 20. ST. S ROZVOJEM POČÍTAČOVÉ TECHNIKY DEFINICE PROCES VÝBĚRU, PROHLEDÁVÁNÍ A MODELOVÁNÍ
Markov Chain Monte Carlo. Jan Kracík.
Markov Chain Monte Carlo Jan Kracík jan.kracik@vsb.cz Princip Monte Carlo integrace Cílem je (přibližný) výpočet integrálu I(g) = E f [g(x)] = g(x)f (x)dx. (1) Umíme-li generovat nezávislé vzorky x (1),
Regresní a korelační analýza
Regresní a korelační analýza Mějme dvojici proměnných, které spolu nějak souvisí. x je nezávisle (vysvětlující) proměnná y je závisle (vysvětlovaná) proměnná Chceme zjistit funkční závislost y = f(x).
Stereochemie 7. Přednáška 7
Stereochemie 7 Přednáška 7 1 ptická čistota p = [ ]poz [ ]max x 100 = ee = [R] - [S] [R] + [S] x 100 p optická čistota [R], [S] molární frakce R a S enantiomerů ee + 100 %R = ee + %S = ee + 100 - %R =
Základy genomiky. I. Úvod do bioinformatiky. Jan Hejátko
Základy genomiky I. Úvod do bioinformatiky Jan Hejátko Masarykova univerzita, Oddělení funkční genomiky a proteomiky Laboratoř molekulární fyziologie rostlin Základy genomiky I. Zdrojová literatura ke
Molekulární základy dědičnosti. Ústřední dogma molekulární biologie Struktura DNA a RNA
Molekulární základy dědičnosti Ústřední dogma molekulární biologie Struktura DNA a RNA Ústřední dogma molekulární genetiky - vztah mezi nukleovými kyselinami a proteiny proteosyntéza replikace DNA RNA
GIS ANALÝZA VLIVU DÁLNIČNÍ SÍTĚ NA OKOLNÍ KRAJINU. Veronika Berková 1
GIS ANALÝZA VLIVU DÁLNIČNÍ SÍTĚ NA OKOLNÍ KRAJINU Veronika Berková 1 1 Katedra mapování a kartografie, Fakulta stavební, ČVUT, Thákurova 7, 166 29, Praha, ČR veronika.berkova@fsv.cvut.cz Abstrakt. Metody
Příručka k měsíčním zprávám ING fondů
Příručka k měsíčním zprávám ING fondů ING Investment Management vydává každý měsíc aktuální zprávu ke každému fondu, která obsahuje základní informace o fondu, jeho aktuální výkonnosti, složení portfolia