PREDIKCE VLIVU AMINOKYSELINOVÝCH MUTACÍ NA SEKUNDÁRNÍ STRUKTURU PROTEINŮ

VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ BRNO UNIVERSITY OF TECHNOLOGY FAKULTA INFORMAČNÍCH TECHNOLOGIÍ ÚSTAV INFORMAČNÍCH SYSTÉMŮ FACULTY OF INFORMATION TECHNOLOGY DEPARTMENT OF INFORMATION SYSTEMS PREDIKCE VLIVU AMINOKYSELINOVÝCH MUTACÍ NA SEKUNDÁRNÍ STRUKTURU PROTEINŮ PREDICTION THE EFFECT OF AMINO ACID SUBSTITUTIONS ON SECONDARY STRUCTURE OF PROTEINS DIPLOMOVÁ PRÁCE MASTER S THESIS AUTOR PRÁCE AUTHOR VEDOUCÍ PRÁCE SUPERVISOR MARTIN HYRŠ Ing. JAROSLAV BENDL BRNO 2013

Abstrakt V této práci zkoumám, jak mutace aminokyselionové sekvence proteinu poznamená jeho sekundární strukturu. Zjistil jsem, že sekundární struktura je vůči mutacím poměrně odolná, některé úseky si udrží svoji strukturu, i když jejich sekvence je zcela odlišná. Tato odolnost se projevuje i u náhodných sekvencí, je to tedy obecná vlastnost sekvencí aminokyselin. Jednotlivé konformace jsou ke změnám způsobeným mutací různě citlivé. Citlivost proteinu vůči mutacím závisí na složení jeho struktury. V počátečních kapitolách jsou popsány vybrané metody predikce sekundární struktury. Abstract In this thesis I investigate the effect of amino acid substitutions on secondary structure of proteins. I found that the secondary structure is relatively resistant to mutations, some regions hold the same secondary structure, even though their sequences are very different. Since this effect was observed also for random sequences, I conclude that it is a general property of the amino acid sequence. The particular elements of secondary structures are differentially sensitive to the changes caused by mutations. Protein s sensitivity to mutations depends on the composition of its secondary structure. Some methods of secondary structure prediction are described in the introductory section. Klíčová slova Mutace proteinů, sekundární struktura proteinů, evoluce in silico, odolnost sekundární struktury vůči mutaci, predikce sekundární struktury proteinu. Keywords Proteins mutations, secondary structure of proteins, evolution in silico, secondary structure resistance to a mutation, prediction of secondary structure of proteins. Citace Martin Hyrš: Predikce vlivu aminokyselinových mutací na sekundární strukturu proteinů, diplomová práce, Brno, FIT VUT v Brně, 2013.

Predikce vlivu aminokyselinových mutací na sekundární strukturu proteinů Prohlášení Prohlašuji, že jsem tuto diplomovou práci vypracoval samostatně pod vedením pana Ing. Jaroslava Bendla. Uvedl jsem všechny literární prameny a publikace, ze kterých jsem čerpal........................ Martin Hyrš 22. května 2013 Poděkování Na tomto místě chci poděkovat vedoucímu práce, panu Ing. Jaroslavu Bendlovi, za inspirativní rady při tvorbě experimentů. Dále chci poděkovat rodině a přátelům za morální oporu. c Martin Hyrš, 2013. Tato práce vznikla jako školní dílo na Vysokém učení technickém v Brně, Fakultě informačních technologií. Práce je chráněna autorským zákonem a její užití bez udělení oprávnění autorem je nezákonné, s výjimkou zákonem definovaných případů.

Obsah 1 Úvod 4 2 Proteiny 5 2.1 Stavba bílkovin.................................. 5 2.2 Struktura bílkovin................................ 7 2.3 Typy sekundární struktury........................... 8 2.4 Genetický kód................................... 8 2.5 Substituční matice................................ 9 3 Metody predikce sekundární struktury proteinu 14 3.1 Metriky pro posuzování kvality predikčních metod.............. 14 3.2 Chou-Fasman................................... 15 3.3 GOR........................................ 17 3.4 ZPRED...................................... 19 3.5 PHD........................................ 19 3.6 NNSSP...................................... 20 3.7 DSC........................................ 20 3.8 PREDATOR................................... 20 3.9 JPred....................................... 21 3.10 PSIPRED..................................... 21 3.11 Jnet........................................ 22 3.12 NPS@....................................... 22 3.13 Shrnutí metod predikce sekundární struktury proteinů............ 23 4 Návrh evolučních experimentů 24 4.1 Kostra experimentu............................... 24 4.2 Mutační protokol................................. 24 4.3 Získání sekundární struktury.......................... 25 4.4 Podmínka ukončení................................ 25 4.5 Rozšiřující experimenty............................. 26 5 Simulační nástroj a jeho implementace 27 5.1 Struktura aplikace................................ 27 5.2 Třída Sequence.................................. 27 5.3 Třída FileReader................................ 28 5.4 Třída MutationProtocol............................ 28 1

5.5 Třída SecondaryStructure........................... 29 5.6 Třída MutationSimulator............................ 29 5.7 Grafy typu boxplot................................ 29 6 Experimenty 31 6.1 Rychlost rozpadu sekundární struktury..................... 31 6.2 Mutace struktury náhodných sekvencí..................... 32 6.3 Mutační pravděpodobnosti odvozené z genetického kódu........... 34 6.4 Vyloučení škodlivých mutací.......................... 39 6.5 Míra mutace u různých sekundárních struktur................. 41 6.6 Shrnutí experimentů............................... 45 7 Závěr 46 A Doplňující poznámky k experimentům 50 A.1 Různá kritéria podobnosti............................ 50 A.2 Rozpad sekundární struktury proteinu..................... 51 A.3 Odolnost proteinů a složení jejich struktury.................. 54 B Obsah přiloženého CD 56 2

Seznam obrázků 2.1 Strukturní vzorec aminokyselin.......................... 5 2.2 Vznik dipeptidu.................................. 7 2.3 Kostra polypeptidu................................ 7 4.1 Schéma experimentu................................ 25 6.1 Vývoj sekundární struktury............................ 32 6.2 Závislost mezi sekvenční a strukturní podobností................ 33 6.3 Náhodné sekvence................................. 33 6.4 Vliv mutací spočítaných podle různých mutačních matic........... 37 6.5 Rychlost mutací podle různých mutačních matic................ 37 6.6 Vliv mutací spočítaných podle různých mutačních matic........... 38 6.7 Rychlost mutací podle různých mutačních matic................ 38 6.8 Škodlivé a neutrálních mutace.......................... 40 6.9 Škodlivé a neutrálních mutace.......................... 40 6.10 Třídimenzionální struktura dat.......................... 41 6.11 Strukturní složení proteinů............................ 42 6.12 Strukturní složení náhodných sekvencí...................... 42 6.13 Strukturní složení odolných proteinů....................... 44 6.14 Strukturní složení odolných proteinů....................... 44 A.1 Podobnost párová a podle PAM120....................... 50 A.2 Závislost mezi sekvenční (PAM120) a strukturní podobností......... 51 A.3 Vývoj sekvenční podobnosti........................... 52 A.4 Vývoj sekundární struktury............................ 52 A.5 Strukturní složení odolných proteinů různé kroky............... 55 3

Kapitola 1 Úvod Zpracování biologických dat je vědní oblast, která v dnešní době zažívá velký rozvoj. Díky rozvoji sekvenačních metod velmi prudce vzrůstá množství známých dat a bioinformatické metody umožňují získávání velkého počtu nových znalostí (např. tvorba fylogenetických stromů, analýza genové exprese, sekvenace genomů různých organismů, apod.). Do této oblasti spadá i analýza sekundární struktury proteinů. Pojem sekundární struktura proteinu označuje lokální prostorové rozmístění sousedních aminokyselin v molekule proteinu. Rozeznává se řada různých konformací, tři základní jsou α-helix, β-skládaný list a náhodná smyčka. Sekundární struktura proteinu má význam jako mezikrok během utváření terciární struktury. Při trojrozměrném zobrazení molekuly proteinu se často graficky znázorňují jednotlivé úseky sekundární struktury. Určité vzorce sekundární struktury mohou identifikovat vazebná místa proteinu, která jsou zodpovědná za jeho biologickou aktivitu. Tato práce zkoumá, do jaké míry bude poznamenána sekundární struktura proteinu, pokud dojde k mutaci jeho aminokyselinové sekvence. Zjistil jsem, že sekundární struktura proteinu je vůči mutacím sekvence poměrně odolná; míra odolnosti závisí na výskytu jednotlivých konformací ve struktuře daného proteinu. Kvůli vytváření a vyhodnocování mutantů jsem naprogramoval simulační nástroj, který postupně mutuje sekvenci proteinu a v každém mutačním kroku (použitím metody pro predikci sekundární struktury) vyhodnocuje změnu jeho sekundární struktury. Kapitola 2 shrnuje základní informace o proteinech, jejich chemickou stavbu, biologický význam, apod. Kapitola 3 je věnovaná metodám predikce sekundární struktury proteinu. V dalších kapitolách je pak popsán návrh experimentu (kapitola 4) a implementace výše zmíněného simulátoru (kapitola 5). V kapitole 6 jsou popsány jednotlivé experimenty, které jsem uskutečnil, a jsou zde uvedeny jejich výsledky. Závěrečná kapitola shrnuje dosažené výsledky a uzavírá celou práci. 4

Kapitola 2 Proteiny Proteiny (bílkoviny) jsou základní stavební složkou všech živých buněk. Plní v organismu například funkce stavební, vystupují jako katalyzátory biochemických pochodů (enzymy) či jako koordinátory chemických dějů (hormony), plní obrannou funkci (antigeny) a jiné. Tato kapitola je zpracována podle [18], [11], [7] a [28]. 2.1 Stavba bílkovin Z chemického hlediska se jedná o polypeptidy, rozsáhlé makromolekuly vzniklé polymerací aminokyselin. 2.1.1 Aminokyseliny Pojmem aminokyselina se v chemii obecně označuje kterákoliv molekula, která obsahuje karboxylovou (-COOH) a aminovou (-NH 2 ) skupinu. V užším slova smyslu se pod tímto pojmem rozumí pouze α-aminokyseliny L-řady, které se běžně vyskytují v přírodě jako součást proteinů (tzv. proteinogenní aminokyseliny). Obecný strukturní vzorec těchto aminokyselin je na obrázku 2.1. R O NH 2 CH C OH Obrázek 2.1: Strukturní vzorec aminokyselin. Proteinogenní aminokyseliny jsou známé pod svými triviálními názvy. Běžně se označují pomocí trojpísmenných zkratek, případně jedním velkým písmenem (například ve struktuře proteinu), viz tabulka 2.1. Zde jsou i uvedeny strukturní vzorce jejich postranních řetězců. Výjimkou z uvedené struktury je prolin, u něhož je aminoskupina součástí cyklu v postranním řetězci; z čehož plyne i jeho odlišná schopnost vytvářet lokální interakce. 5

Aminokyselina Zkratka Značka Postranní řetězec Glycin Gly G H Alanin Ala A H 3 C Valin Val V CH 3 CH CH 3 Leucin Leu L CH 3 CH 3 CH CH 2 Isoleucin Ile I CH 3 CH 2 CH CH 3 Kyselina asparagová Asp D O C CH 2 HO Asparagin Asn N O C CH 2 NH 2 Kyselina glutamová Glu E O C CH 2 CH 2 HO Glutamin Gln Q O C CH 2 CH 2 NH 2 NH Arginin Arg R NH 2 C NH CH 2 CH 2 CH 2 Lysin Lys K NH 2 CH 2 CH 2 CH 2 CH 2 N Histidin His H NH CH 2 Fenylalanin Phe F CH 2 Serin Ser S HO CH 2 Threonin Thr T CH 3 CH Tyrosin Tyr Y HO CH 2 Tryptofan Trp W NH OH CH 2 Methionin Met M CH 3 S CH 2 CH 2 Cystein Cys C HS CH 2 Prolin Pro P O C NH OH Tabulka 2.1: Kódové aminokyseliny a jejich struktura. 6

2.1.2 Peptidická vazba Peptidická vazba je druh kovalentní vazby. Vzniká mezi karboxylovou skupinou jedné molekuly a aminoskupinou ve druhé molekule za odštěpení jedné molekuly vody. Na obrázku 2.2 je znázorněn vznik dipeptidu. R NH 2 CH C O OH R NH 2 CH C O OH -H 2O R NH 2 CH O C NH R CH C O OH Obrázek 2.2: Vznik dipeptidu. Typický výskyt peptidické vazby je v molekulách peptidů a proteinů. Tyto makromolekuly vznikají polykondenzací aminokyselin jako peptidy se označují molekuly tvořené méně než sto aminokyselinovými zbytky, větší molekuly jsou nazývány proteiny. Posloupnost peptidických vazeb vytváří centrální páteř proteinu. Tato kostra, tvořící nevětvený řetězec, je společná všem proteinům. Její strukturní vzorec je na obrázku 2.3. Specifické vlastnosti proteinů jsou dány postranními řetězci (zbytky aminokyselin). U proteinu rozeznáváme N-konec (aminoskupina) a C-konec (karboxylová skupina). R O R O R O NH 2 CH C NH CH C NH CH C NH CH C NH CH C NH CH C OH O R O R O R Obrázek 2.3: Kostra polypeptidu. R označuje postranní řetězce. 2.2 Struktura bílkovin Primární struktura Jako primární struktura se označuje pořadí aminokyselin vázaných v polypeptidovém řetězci. Sekundární struktura Jako sekundární struktura se označuje lokální prostorové rozmístění sousedních aminokyselin. Existuje několik charakteristických typů této struktury, podrobněji budou popsány v následující části. Sekundární struktura je chemicky stabilizována zejména lokálně, pomocí vodíkových můstků mezi skupinami CO a NH. Terciární struktura Terciární struktura označuje prostorové rozmístění atomů v molekule. Snahou proteinu je zaujmout strukturu s co nejmenší vnitřní energií. Struktura je stabilizována elektrostatickými silami mezi COO a NH, tvorbou disulfidických můstků mezi molekulami cysteinu, vodíkovými můstky a interakcemi mezi nepolárními zbytky aminokyselin; přičemž k těmto interakcím dochází mezi aminokyselinami, které mohou být v proteinovém řetězci libovolně vzdálené. 7

Kvartérní struktura O kvartérní struktuře hovoříme u bílkovin, které jsou tvořeny více polypeptidickými řetězci, které nejsou vzájemně spojeny peptidovou vazbou. 2.3 Typy sekundární struktury Běžné typy sekundární struktury se obvykle označují pomocí velkých písmen. Tento způsob označování se nazývá DSSP (Dictionary of Protein Secondary Structure). Existuje osm různých konformací: [15] H = 4-helix (α-helix) je to nejčastěji se vyskytující druh struktury. Kostra proteinu tvoří šroubovici, aminokyselinové zbytky trčí ven do prostoru. Délka jednoho závitu šroubovice je 3,6 aminokyselinových zbytků. Struktura je stabilizována vodíkovými můstky mezi skupinami CO a NH v aminokyselinách vzdálených od sebe čtyři rezidua. B = reziduum v izolovaném β-můstku. Posloupnost těchto struktur vytváří β-list. E = β-skládaný list (angl. extended strand = natažené vlákno) druhá nejrozšířenější struktura. Tvoří ji dvě rovnoběžná vlákna (buď v paralelním nebo antiparalelním směru). Hlavní řetězec je skoro úplně úplně rozvinutý, vodíkové můstky vznikají mezi sousedními vlákny. G = 3-helix (3 10 -helix) vzácný typ šroubovice, v němž stabilizující vodíkové můstky vznikají na vzdálenost 3 rezidua. Šroubovice má menší průměr než α-helix. I = 5-helix (π-helix) vzácný typ šroubovice, v němž stabilizující vodíkové můstky vznikají na vzdálenost 5 reziduí. Šroubovice má větší průměr než α-helix. T = otočka (H-bonded turn) jedná se o smyčku vázanou vodíkovými můstky. Opakováním těchto úseků jsou vytvořeny helikální struktury. S = ohyb (bend) mírný ohyb polypeptidového vlákna. Tato konformace jako jediná není stabilizována vodíkovými můstky. C = smyčka (coil) souhrnné označení pro všechny ostatní druhy sekundární struktury. Pro účely predikce sekundární struktury proteinů se obvykle používají pouze tři konformace: H = helix (H, G, I), E = β-struktura (E) a C = náhodná smyčka (B, T, S, C). 2.4 Genetický kód Pravidla, podle kterých je informace uložená v DNA přepisována do sekvence proteinů, nazýváme genetický kód. Genetický kód používá čtyřprvkovou abecedu {A, C, G, T}, případně {A, C, G, U} (podle toho, zda pro zápis použijeme nukleotidy vyskytující se v DNA nebo RNA). Písmena genetického kódu se čtou po trojicích (tzv. kodon či triplet), každá trojice kóduje jednu aminokyselinu (viz tabulka 2.2). Jeden kodon, AUG (kódující methinonin), je startovací, od 8

tohoto místa přepis mrna do proteinu vždy začíná (samotný methionin je pak z proteinu obvykle odštěpen). Tři kodony jsou tzv. stop-kodony, ukončují transkripci. Genetický kód je, až na drobné výjimky, univerzálně platný pro všechny (známé) živé organismy na Zemi. Např. některé bakterie mají jiný start-kodon a některé bakterie a archea pomocí stop-kodonů kódují dvacátou první aminokyselinu (selenocystein) nebo dvacátou druhou (pyrolysin). Existuje 4 3 = 64 různých kodonů, ale je pouze dvacet standardních aminokyselin. Proto je většina aminokyselin kódována více než jedním kodonem, některé aminokyseliny jsou zakódovány až šesti různými kodony. Redundance obsažená v genetickém kódu způsobuje, že některé mutace nukleotidů nevyvolají změnu zakódované aminokyseliny (tzv. synonymní mutace). UUU } fenylalanin UCU UAU } UGU } tyrosin cystein UUC UCC serin UAC UGC UUA } UCA UAA STOP UGA STOP leucin UUG UCG UAG STOP UGG tryptofan CUU CCU CAU } CGU histidin CUC leucin CCC prolin CAC CGC CUA CCA CAA } CGA arginin glutamin CUG CCG CAG CGG AUU } ACU AAU } AGU } asparagin serin AUC isoleucin ACC threonin AAC AGC AUA ACA AAA } AGA } lysin arginine AUG methionin ACG AAG AGG GUU GCU GAU } GGU kys. asparagová GUC valin GCC alanin GAC GGC GUA GCA GAA } GGA glycin kys. glutamová GUG GCG GAG GGG Tabulka 2.2: Genetický kód. 2.5 Substituční matice Substituční matice slouží k vypočítání podobnosti dvou zarovnaných sekvencí. Je to čtvercová matice, jejíž sloupce a řádky odpovídají jednotlivým symbolům, které se mohou vyskytnout v sekvenci proteinu. Číselná hodnota uvedená na dané pozici v matici odpovídá přínosu vzájemné substituce aminokyselin uvedených na řádku a sloupci k celkové podobnosti sekvencí. Protože při výpočtu penalizace nezáleží na pořadí symbolů v páru, jsou matice diagonálně souměrné. 2.5.1 Matice PAM Historicky starší jsou matice PAM (Point Accepted Mutation). Jejich konstrukce vychází z empirického stanovení frekvence jednotlivých specifických záměn. [8] V sadě příbuzných sekvencí (superrodiny sekvencí, seskupené do fylogenetických stromů) jsou spočítány výskyty vzájemných záměn pro všechny dvojice aminokyselin 9

toto jsou mutace akceptované přírodním výběrem. Jejich výskyt je výsledkem dvou procesů: mutací příslušné nukleotidové sekvence a přijetím nová aminokyselina obvykle musí mít podobné fyzikálně-chemické vlastnosti jako ta původní. Z podílu počtu mutací, ve kterých se vyskytuje, a celkového počtu výskytů dané aminokyseliny je stanovena její relativní mutabilita. Aminokyseliny (např. cystein), které plní nenahraditelné funkce, mají velmi nízkou relativní mutabilitu. Prvek matice pravděpodobnosti mutací M ij udává pravděpodobnost, že aminokyselina j bude nahrazena aminokyselinou i po jednom mutačním kroku. Ne-diagonální, resp. diagonální prvky v matici jsou stanoveny jako: M ij = λm ja ij i A ij resp. M jj = 1 λm j kde A ij je položka matice akceptovaných mutací, λ je proporční konstanta a m j je mutabilita aminokyseliny j. Hodnota proporční konstanty je zvolena tak, aby výraz 100 f i M ii (tedy počet reziduí, která se nezmění během 100 kroků mutace) byl roven 99 (tedy 1 % mutací, jak je požadováno pro PAM1). Matice zisků R ij = M ij f i, kde f i je pravděpodobnost náhodného výskytu i ve druhé sekvenci, obsahuje pravděpodobnosti nahrazení výskytu i za výskyt j. Tato matice je symetrická. Kvůli snazšímu použití při výpočtu zarovnání (sčítání logaritmů namísto násobení původních hodnot) je matice R ij zlogaritmována S ij = 10 log 10 R ij a takto je získána skórovací matice PAM1. Pro snazší manipulaci jsou hodnoty ve skórovací matici vynásobeny vhodnou konstantou (toto nijak neovlivňuje přesnost výpočtu při zarovnávání sekvencí) a zaokrouhleny na celá čísla. Maticovým vynásobením matice PAM1 samé se sebou byla získána matice PAM2. Dalším vynásobením vznikla PAM3 atd. až po PAM250 = PAM1 250. Matice PAMxx odpovídá situaci, ve které dojde k xx mutacím ve sto-aminokyselinovém úseku. Pouze matice PAM1 vznikla z empirických údajů z blízce příbuzných sekvencí, všechny ostatní matice PAM vznikly extrapolací. Při praktickém použití platí, že vyšší číslo matice PAM odpovídá méně příbuzným sekvencím. V tabulkách 2.3 a 2.4 jsou uvedeny pravděpodobnosti mutací PAM1 a skórovací matice PAM120. V matici PAM120 jsou kromě značek pro standardní aminokyseliny použity i symboly B, Z, X. Toto jsou tzv. nejednoznačné aminokyseliny, B značí kyselinu asparagovou (D) nebo asparagin (N); Z kyselinu glutamovou (Q) nebo glutamin (E); X je libovolná aminokyselina. Pro symboly B, Z jsou počáteční pravděpodobnosti určeny jako průměr hodnot příslušných aminokyselin, pro X jsou všechny pravděpodobnosti rovny 1/20. 2.5.2 Matice BLOSUM Matice BLOSUM (Blocks of Amino Acid Substitution Matrix) jsou používány pro výpočet podobnosti evolučně nepříbuzných sekvencí. Všechny matice BLOSUM jsou odvozeny z empiricky zjištěných pravděpodobností mutace (na rozdíl od maticí PAM). [12] Při jejich odvození se vycházelo z lokálního zarovnání nepříbuzných sekvencí, pro další výpočet byly použity pouze velmi konzervované úseky sekvencí (bez mezer v zarovnání). V každém shluku zarovnaných úseků sekvencí byly spočítány frekvence výskytů jednotlivých aminokyselinových záměn. Hodnota v matici BLOSUM je pak dána jako dvojkový 10

A R N D C Q E G H I A 9867 2 9 10 3 8 17 21 2 6 R 1 9913 1 0 1 10 0 0 10 3 N 4 1 9822 36 0 4 6 6 21 3 D 6 0 42 9859 0 6 53 6 4 1 C 1 1 0 0 9973 0 0 0 1 1 Q 3 9 4 5 0 9876 27 1 23 1 E 10 0 7 56 0 35 9865 4 2 3 G 21 1 12 11 1 3 7 9935 1 0 H 1 8 18 3 1 20 1 0 9912 0 I 2 2 3 1 2 1 2 0 0 9872 L 3 1 3 0 0 6 1 1 4 22 K 2 37 25 6 0 12 7 2 2 4 M 1 1 0 0 0 2 0 0 0 5 F 1 1 1 0 0 0 0 1 2 8 P 13 5 2 1 1 8 3 2 5 1 S 28 11 34 7 11 4 6 16 2 2 T 22 2 13 4 1 3 2 2 1 11 W 0 2 0 0 0 0 0 0 0 0 Y 1 0 3 0 3 0 1 0 4 1 V 13 2 1 1 3 2 2 3 3 57 L K M F P S T W Y V A 4 2 6 2 22 35 32 0 2 18 R 1 19 4 1 4 6 1 8 0 1 N 1 13 0 1 2 20 9 1 4 1 D 0 3 0 0 1 5 3 0 0 1 C 0 0 0 0 1 5 1 0 3 2 Q 3 6 4 0 6 2 2 0 0 1 E 1 4 1 0 3 4 2 0 1 2 G 1 2 1 1 3 21 3 0 0 5 H 1 1 0 2 3 1 1 1 4 1 I 9 2 12 7 0 1 7 0 1 33 L 9947 2 45 13 3 1 3 4 2 15 K 1 9926 20 0 3 8 11 0 1 1 M 8 4 9874 1 0 1 2 0 0 4 F 6 0 4 9946 0 2 1 3 28 0 P 2 2 1 1 9926 12 4 0 0 2 S 1 7 4 3 17 9840 38 5 2 2 T 2 8 6 1 5 32 9871 0 2 9 W 0 0 0 1 0 1 0 9976 1 0 Y 1 0 0 21 0 1 1 2 9945 1 V 11 1 17 1 3 2 10 0 2 9901 Tabulka 2.3: Tabulka pravděpodobností mutací PAM1. Pro přehlednost jsou hodnoty v tabulce vynásobeny 10 000. [21] 11

A R N D C Q E G H I L K M F P S T W Y V B Z X * A 3-3 -1 0-3 -1 0 1-3 -1-3 -2-2 -4 1 1 1-7 -4 0 0-1 -1-8 R -3 6-1 -3-4 1-3 -4 1-2 -4 2-1 -5-1 -1-2 1-5 -3-2 -1-2 -8 N -1-1 4 2-5 0 1 0 2-2 -4 1-3 -4-2 1 0-4 -2-3 3 0-1 -8 D 0-3 2 5-7 1 3 0 0-3 -5-1 -4-7 -3 0-1 -8-5 -3 4 3-2 -8 C -3-4 -5-7 9-7 -7-4 -4-3 -7-7 -6-6 -4 0-3 -8-1 -3-6 -7-4 -8 Q -1 1 0 1-7 6 2-3 3-3 -2 0-1 -6 0-2 -2-6 -5-3 0 4-1 -8 E 0-3 1 3-7 2 5-1 -1-3 -4-1 -3-7 -2-1 -2-8 -5-3 3 4-1 -8 G 1-4 0 0-4 -3-1 5-4 -4-5 -3-4 -5-2 1-1 -8-6 -2 0-2 -2-8 H -3 1 2 0-4 3-1 -4 7-4 -3-2 -4-3 -1-2 -3-3 -1-3 1 1-2 -8 I -1-2 -2-3 -3-3 -3-4 -4 6 1-3 1 0-3 -2 0-6 -2 3-3 -3-1 -8 L -3-4 -4-5 -7-2 -4-5 -3 1 5-4 3 0-3 -4-3 -3-2 1-4 -3-2 -8 K -2 2 1-1 -7 0-1 -3-2 -3-4 5 0-7 -2-1 -1-5 -5-4 0-1 -2-8 M -2-1 -3-4 -6-1 -3-4 -4 1 3 0 8-1 -3-2 -1-6 -4 1-4 -2-2 -8 F -4-5 -4-7 -6-6 -7-5 -3 0 0-7 -1 8-5 -3-4 -1 4-3 -5-6 -3-8 P 1-1 -2-3 -4 0-2 -2-1 -3-3 -2-3 -5 6 1-1 -7-6 -2-2 -1-2 -8 S 1-1 1 0 0-2 -1 1-2 -2-4 -1-2 -3 1 3 2-2 -3-2 0-1 -1-8 T 1-2 0-1 -3-2 -2-1 -3 0-3 -1-1 -4-1 2 4-6 -3 0 0-2 -1-8 W -7 1-4 -8-8 -6-8 -8-3 -6-3 -5-6 -1-7 -2-6 12-2 -8-6 -7-5 -8 Y -4-5 -2-5 -1-5 -5-6 -1-2 -2-5 -4 4-6 -3-3 -2 8-3 -3-5 -3-8 V 0-3 -3-3 -3-3 -3-2 -3 3 1-4 1-3 -2-2 0-8 -3 5-3 -3-1 -8 B 0-2 3 4-6 0 3 0 1-3 -4 0-4 -5-2 0 0-6 -3-3 4 2-1 -8 Z -1-1 0 3-7 4 4-2 1-3 -3-1 -2-6 -1-1 -2-7 -5-3 2 4-1 -8 X -1-2 -1-2 -4-1 -1-2 -2-1 -2-2 -2-3 -2-1 -1-5 -3-1 -1-1 -2-8 * -8-8 -8-8 -8-8 -8-8 -8-8 -8-8 -8-8 -8-8 -8-8 -8-8 -8-8 -8 1 Tabulka 2.4: Skórovací matice PAM120. [20] 12

logaritmus podílu frekvence výskytu záměn dané dvojice aminokyselin ku frekvencím všech výskytů těchto aminokyselin. Číslo v názvu matice udává míru podobnosti použitých sekvencí. Například při odvození matice BLOSUM80 byly použity pouze takové zarovnané úseky, které v zarovnání obsahovaly alespoň 80 % identických aminokyselin. Platí tedy, že vyšší čísla matice odpovídají podobnějším sekvencím. Kromě skóre pro shodu či neshodu aminokyselin mohou matice obsahovat i penalizaci za vložení mezery. Penalizace za mezeru se skládá ze dvou částí vysoká penalizace za počátek mezery a obvykle mnohem menší penalizace za prodloužení existující mezery. Toto zohledňuje skutečnost, že pokud již mezera vznikla, je její prodloužení poměrně nepodstatnou změnou, která nemá velký vliv na nepodobnost sekvencí. 13

Kapitola 3 Metody predikce sekundární struktury proteinu V této kapitole podrobněji popisuji vybrané metody pro predikci sekundární struktury proteinu. Z hlediska postupného vývoje můžeme tyto metody rozčlenit do několika generací. Pro metody první generace je typické využívání pouze lokální informace. Jsou založeny na pravděpodobnosti výskytu dané aminokyseliny v určitém elementu sekundární struktury. Časově tyto metody spadají do 70. let 20. století. Metodami druhé generace jsou metody založené na znalostech, využívají další informace o aminokyselinách, jako je tvar a velikost jejich molekuly či fyzikální a chemické vlastnosti. Tyto metody vznikaly zejména v 80. letech. V 90. letech se objevují metody založené na strojovém učení, například neuronových sítích, či skrytých Markovových modelech. Poslední generaci tvoří metody konsensuální, které kombinují výsledky více nezávislých predikčních metod, čímž odstraňují jejich dílčí chyby a dosahují ještě vyšší přesnosti. [22] 3.1 Metriky pro posuzování kvality predikčních metod Nejpoužívanější metrikou je Q3. V této práci záměrně neuvádím žádnou přesnou hodnotu, které dosahují jednotlivé metody, protože metody byly testovány na rozdílných datasetech a souhrnné uvedení jejich výsledků by proto mohlo být zavádějící. Navíc se dá říci, že novější metody dosahují lepších výsledků částečně proto, že při jejich odvození (trénování) byla použita lepší trénovací množina, a starší metody by byly vzájemným srovnáním znevýhodněny. Zpracováno podle [13] a [27]. 3.1.1 Metrika Q 3 Metrika Q 3 (třístavová přesnost) udává, kolik procent reziduí má správně predikovanou strukturu. Uvažuje konformace α-helix (H), β-list (E) a náhodná smyčka (C). Přesnost pro jednu konformaci (stav) i je Q i = počet reziduí správně predikovaných do stavu i počet všech reziduí ve stavu i 100 14

Přesnost pro všechny stavy je Q 3 = počet správně predikovaných reziduí počet všech reziduí 100 3.1.2 Metrika SOV Metrika SOV (Segment OVerlap score) je založená na průměrné délce překryvu mezi pozorovaným a predikovaným segmentem sekundární struktury. Na rozdíl od Q 3 nevyhodnocuje jednotlivá rezidua, ale větší celky. Mějme pozorovanou sekundární strukturu S 1 a predikovanou strukturu S 2. Pro každou konformaci i {H, E, C} je S(i) množina dvojic segmentů z S 1 a S 2 ve stavu i, které se překrývají alespoň jedním reziduem. Tedy S(i) = {(s 1, s 2 ) s 1 s 2 s 1, s 2 jsou v konformaci i} a S (i) je množina všech segmentů, které se nepřekrývají S (i) = {s 1 s 2 : s 1 s 2 = s 1, s 2 jsou v konformaci i} Podobnost mezi sekvencemi S 1 a S 2, SOV (S 1, S 2 ), je určena jako SOV (S 1, S 2 ) = 1 N i {H,E,C} S(i) minov(s 1, s 2 )σ(s 1, s 2 ) l(s 1 ) maxov(s 1, s 2 ) kde minov(s 1, s 2 ) je délka společné části překryvu, kde jsou oba segmenty ve stavu i; maxov(s 1, s 2 ) je délka celého překryvu, kde alespoň jeden segment je ve stavu i; l(s 1 ) je délka úseku s 1 ; σ(s 1, s 2 ) je definována σ(s 1, s 2 ) = min maxov(s 1, s 2 ) minov(s 1, s 2 ) minov(s 1, s 2 ) l(s 1) 2 l(s 2) 2 a N je i {H,E,C} N(i) kde N(i) = S(i) l(s 1) S (i) l(s 1). Úlohy S 1 a S 2 nejsou symetrické, při výpočtu proto nelze vzájemně zaměnit predikovanou a skutečně pozorovanou strukturu. 3.2 Chou-Fasman Tuto metodu publikovali Peter Chou a Gerald Fasman v roce 1974. Na základě známých struktur 15 proteinů, získaných pomocí rentgenové krystalografie, stanovili pro každou aminokyselinu konformační parametry P α a P β, které popisují její potenciál vytvořit šroubovici α-helix nebo β-list. Spočítáním průměrů konformačních parametrů P α a P β pro libovolný polypeptidový úsek pak lze předpovědět jeho sekundární strukturu. Dále stanovili explicitní pravidla určení začátků a konců strukturních regionů. Za tímto účelem rozdělili aminokyseliny na základě parametrů P α a P β do tříd, viz tabulka 3.1, a stanovili tato pravidla: 15

Helikální rezidua P α Třída β-list rezidua P β Třída Glu 1,53 Met 1,67 Ala 1,45 H α Val 1,65 H β Leu 1,34 Ile 1,60 His 1,24 Cys 1,30 Met 1,20 Tyr 1,29 Gln 1,17 h α Phe 1,28 Trp 1,14 Gln 1,23 h β Val 1,14 Leu 1,22 Phe 1,12 Thr 1,20 Lys 1,07 I α Trp 1,19 Ile 1.00 Ala 0,97 I β Asp 0,98 Arg 0,90 Thr 0,82 Gly 0,81 i β Ser 0,79 i α Asp 0,80 Arg 0,79 Lys 0,74 Cys 0,77 Ser 0,72 Asn 0,73 b α His 0,71 b β Tyr 0,61 Asn 0,65 Pro 0,59 B α Pro 0,62 Gly 0,53 Glu 0,26 B β Tabulka 3.1: Rozdělení aminokyselin do tříd metody Chou-Fasman: H α, H β silný tvůrce; h α, h β tvůrce; I α, I β slabý tvůrce; i α, i β indiferentní; b α, b β lamač; B α, B β silný lamač. [2] 1. Najdi skupiny šesti reziduí, které obsahují alespoň čtyři helikální (h α nebo H α ). Slabě helikální I α se počítá jako 0.5h α. Úsek se nepočítá, obsahuje-li třetinu a více lamačů šroubovice, nebo méně než polovinu tvůrců šroubovice. 2. Rozšiřuj šroubovici na obě strany, dokud není ukončena tetrapeptidem s P α < 1.00. Úsek také může být ukončen lamači šroubovice nebo začátkem β-listu. 3. Prolin se nemůže objevit uvnitř šroubovice nebo na jejím C-konci. 4. Pro, Asp, Glu preferují N-konec šroubovice. His, Lys, Arg preferují C-konec. Pro a Asp blízko N-konce, stejně jako Arg blízko C-konce jsou klasifikovány jako I α, je-li to nezbytné ke splnění podmínky 1. 5. β-listy: tři β rezidua (h β nebo H β ) ve skupině pěti. Toto neplatí, obsahuje-li skupina třetinu a více lamačů β-listu, nebo méně jak polovinu tvůrců listu. 6. Ukončení β-listu je obdobné ukončení šroubovice. 7. Glu a Pro jsou vzácné v β-regionech. 8. Nabitá rezidua se jen výjimečně objevují na N-konci β-listu a jsou málo četné uvnitř a na C-konci. Trp se vyskytuje zejména na N-konci a jen vzácně na C-konci. 16

Autoři zmiňovali lokálnost metody jako pozitivní vlastnost, umožňující snadný výpočet. Dnes je toto vnímáno jako velká slabina, která způsobuje relativně malou přesnost v porovnání s komplexnějšími přístupy. Naprostým nedostatkem je odvození metody z pouhých 15 známých struktur. [2] 3.3 GOR Tato metoda, označovaná podle svých autorů Jeana Garniera, D. J. Osguthorpa a Barryho Robsona, byla zveřejněna v roce 1978. Metoda je založená na formalismu teorie informace a Bayesovské statistice. Metoda používá informační funkci I(S; R) definovanou jako: I(S; R) = log P (S R) P (S) = log P (S, R) P (R) P (S) kde S je jedna ze tří konformací, R jedna z dvaceti aminokyselin, P (S R) je podmíněná pravděpodobnost výskytu konformace S za přítomnosti rezidua R, P (S) je pravděpodobnost výskytu konformace S, P (S, R) je pravděpodobnost současného výskytu konformace S a rezidua R a P (R) je pravděpodobnost výskytu rezidua R. Tyto pravděpodobnosti mohou být stanoveny na základě frekvence výskytu jednotlivých jevů v databázi známých struktur, P (S) = f S N, P (R) = f R N v databázi a f x jsou jednotlivé četnosti. Tedy: a P (S, R) = f S,R, kde N je počet všech aminokyselin N I(S; R) = log f S,R N f S f R Takto mohou být získány všechny hodnoty funkce I(S; R). Další úpravy odstraňují závislost na počtu vzorků v databázi, je zavedena informační diference: I( S; R) = I(S; R) I( S; R) = log f S,R log f S f S,R f S kde S značí jinou konformaci než je S. Tyto rovnice mohou být rozšířeny pro lokální sekvence polypeptidu tvořené n následujícími aminokyselinami: I( S j ; R 1,..., R n ) = log P (S j, R 1,..., R n ) P ( S j, R 1,..., R n ) log P S P S kde P (S j, R 1,..., R n ) je pravděpodobnost současného výskytu konformace S na pozici j v lokální sekvenci a sekvence R 1,..., R n. Při predikci sekundární struktury se správná konformace určí podle nejvyšší hodnoty informační funkce nebo pravděpodobnosti. Je třeba brát v úvahu, že více konformací může mít pravděpodobnost blízkou nejvyšší hodnotě, pak rozhodnutí nemusí být jednoznačné. [10] 17

3.3.1 GOR I První verze metody GOR používala okolí osmi reziduí na každou stranu od zkoumané aminokyseliny. Tato vzdálenost byla stanovena na základě porovnání informačního obsahu různě velkých okolí. Při získávání hodnot informační funkce jsou počítány četnosti každé z dvaceti aminokyselin. Přičemž je požadováno, aby centrální reziduum bylo v dané konformaci, ale aproximace předpokládá, že mezi rezidui uvnitř okna sedmnácti aminokyselin nejsou žádné vzájemné vztahy (ačkoliv sekundární struktura je utvářena zejména mezi sousedními aminokyselinami). Tedy: I( S j ; R 1,..., R n ) 8 m= 8 I( S j ; R jm ) Tato metoda předpovídá čtyři konformace: H (α-helix), E (β-list), C (smyčka) a T (otočka). [10] 3.3.2 GOR III Aproximace představená v této verzi metody je založená na tzv. párové informaci využívá korelaci mezi typem předpovídaného rezidua a mezi typy ostatních reziduí v okně: I( S j ; R 1,..., R n ) I( S j ; R j ) I( S j ; R jm R j ) m,m 0 Výraz I( S j ; R jm R j ) označuje podmíněnou informaci, využívá četností R j a R jm, přičemž R j je v požadované konformaci S, resp. S (konformace rezidua R jm není uvažována). Pro získání všech hodnot informační funkce stačí vyhodnotit četnost 1200 kombinací (dvojice aminokyselin po dvaceti možnostech a tři možné konformace). [10] 3.3.3 GOR V Pátá verze metody GOR přináší zásadní změnu díky využití evoluční informace. Ideou této úpravy je to, že v průběhu evoluce je struktura konzervovanější než sekvence. Evoluční informace o proteinu je získána jeho zarovnáním vůči příbuzným proteinům. Nejprve je provedeno vícenásobné zarovnání mezi dotazovanou sekvencí a referenční databází. Pro jednotlivá zarovnání jsou pomocí metody GOR určeny pravděpodobnosti jednotlivých konformací; je-li na dané pozice mezera v zarovnání, pravděpodobnost je nulová. Následně je spočítán průměr pravděpodobností na jednotlivých pozicích napříč všemi zarovnáními a dané pozici v proteinu je přiřazena konformace s největší průměrnou pravděpodobností výskytu. Samotný výpočet GOR je inovován dvěma zásadnějšími způsoby. Při výpočtu jsou kromě samostatných reziduí (verze I, II) a dvojic (verze III, IV) používány i trojice reziduí. Velikost okna je proměnlivá, pro kratší proteiny je používáno menší okno toto má vliv na přesnost predikce zejména na koncích sekvence. [17] 18

3.4 ZPRED Tuto metodu představili Markéta Zvelebil a kol. v roce 1987. Metoda rozšiřuje metodu GOR, vychází z idei konzervovanosti proteinů a z pozorování, že největší rozdíly mezi zarovnanými homologními proteiny jsou v oblastech smyček spojujících ostatní prvky sekundární struktury. Nejprve je vytvořeno vícenásobné zarovnání pomocí opakovaného použití algoritmu Needleman-Wunsch. Mějme tedy N aminokyselinových sekvencí (označených jako sekvence 1 až sekvence N). Nejprve je zarovnána sekvence 2 oproti sekvenci 1, pak je zarovnána sekvence 3 proti zarovnání sekvencí 1 a 2, a tak dále pro sekvence 4 až N. Poté je znovu zarovnána sekvence 1 proti sekvencím 2 až N, sekvence 2 proti sekvencím 1, 3, 4 až N, atd. Pro každou pozici i v řetězci je spočítáno konzervační číslo C i 0, 1. Je porovnáváno deset chemických vlastností (hydrofobní, pozitivní, negativní, nabitá, polární, malá, maličká, alifatická, aromatická, je to prolin) a za každou vlastnost, v níž se zarovnané aminokyseliny na dané pozici liší, je zvýšena hodnota čítače P. Hodnota C i je vypočítána jako 0, 9 0, 1P. Pokud jsou všechny aminokyseliny na dané pozici stejné, je C i = 1, 0. Hodnota C i je ještě upravena v případě výskytů mezer v zarovnání nebo určitých aminokyselin. Zprůměrováním přes tři rezidua (i-1, i, i1) je určena vyhlazená hodnota CS i. Tato hodnota může být použitá ke zpřesnění predikce struktury smyčky obvykle mají nízkou hodnotu CS i. Ještě je vypočítána průměrná konzervační hodnota pro celý protein C av a je stanovena hodnota konstanty A (která reflektuje míru konzervovanosti proteinu, optimální hodnota je mezi 150 a 250). Je vypočítán rozdíl mezi průměrnou a vyhlazenou konzervační hodnotou, A(CS i C av ) a tento rozdíl je přičten k hodnotám informační funkce metody GOR pro α-helix a β-vlákno. [29] 3.5 PHD Metoda je založená na neuronových sítích, představili ji Burkhard Rost a Chris Sander v roce 1993. Používá tři dopředné vícevrstvé sítě. První síť klasifikuje sekvenci proteinu do tří tříd sekundární struktury (α-helix, β- list, smyčka). Vstupem je vícenásobné zarovnání sekvencí. Jeden vzorek tvoří zarovnání 13 následujících reziduí, každé reziduum v okně je reprezentováno 20 frekvencemi pro jednotlivé aminokyseliny. Výstupem je konformace centrálního rezidua. Okno je posouváno reziduum po reziduu celým proteinovým řetězcem. Aby okno mohlo přesáhnou přes konce řetězce, jsou vstupní neurony doplněny o 21. vstup, který indikuje prostor mimo řetězec. Druhá síť realizuje korelaci mezi sousedními rezidui, převádí strukturu na strukturu (například se snaží odstranit nereálně krátké úseky sekundární struktury). Jejím vstupem je 17 výstupů první sítě, výstup opět tvoří tři neurony pro tři možné konformace prostředního rezidua. Třetí síť odstraňuje citlivost neuronové sítě na koeficienty učení a nastavení počátečních vah. Kombinuje výstupy několika sítí druhé a první úrovně, naučených s různými parametry. [23] 19

3.6 NNSSP NNSSP je implementačně poměrně jednoduchá metoda, využívající nejbližšího sousedství a vícenásobného zarovnání. Jejími tvůrci jsou Asaf A. Salamov a Victor V. Solovyev, publikovali ji v roce 1995. Metoda postupuje 19prvkovým oknem, nalezne pro něj v databázi známých struktur 60 až 85 nejpodobnějších sekvencí a provede jejich vícenásobné zarovnání. Určí, která konformace se nejčastěji vyskytuje na centrální pozici a tuto předpoví pro centrální reziduum. Protože metoda předpovídá sekundární strukturu pro jednotlivá rezidua nezávisle, vzniká mnoho nereálně krátkých helixů a β-vláken. Proto je použita dodatečná filtrace, která podle určitých pravidel odstraňuje tyto krátké úseky buď je označí za smyčku, nebo je spojí do delšího úseku sekundární struktury. [24] 3.7 DSC DSC (Discrimination of Secondary structure Class) je metoda založená na dekompozici predikce sekundární struktury na základní koncepty a pak na jejich jednoduché kombinaci pomocí lineárních statistických metod. Na rozdíl od jiných metod typu černá skříňka (např. neuronové sítě) je její výpočet zcela transparentní. Publikovali ji Ross D. King a Michael J. E. Sternberg v roce 1996. Metoda začíná zarovnáním homologních sekvencí. Pro každou pozici rezidua počítá: střední GOR potenciál pro každou třídu sekundární struktury, vzdálenost ke konci řetězce, střední moment hydrofobicity za předpokladu α-helixu a β-vlákna, existence insercí, existence delecí a střední moment konzervovanosti sekundární struktury pro α-helix a β-vlákno. Těchto deset atributů je poté vyhlazeno a použitím lineární diskriminace je získána první úroveň predikce. Je spočítán podíl výskytů α-helixů a β-vláken a také poměr výskytu určitých aminokyselin v řetězci. Tyto hodnoty jsou použité pro další lineární diskriminaci a je získána predikce druhé úrovně. Lineární diskriminace nemůže podchytit všechny vlastnosti sekundární struktury, jako je např. autokorelace, zpětnovazební efekty sekundární struktury a omezení pro nejbližší okolí vyplývající ze struktury. Zpětná vazba je modelována ve dvou úrovních pomocí vyhlazených atributů a pomocí úseků α-helixů a β-vláken (úseky smyček by byly redundantní, lze je získat z míry výskytu α-helixů a β-vláken). Vyhlazování je prováděno pomocí standardních mediánových filtrů a Hanningova vyhlazování. Finální výsledek je ještě filtrován na odstranění nereálně krátkých úseků sekundární struktury. [16] 3.8 PREDATOR PREDATOR je metoda založená na znalostech a párovém zarovnání, publikovali ji Dmitrij Frishman a Patrick Argos v roce 1997. Na rozdíl od jiných metod nepoužívá vícenásobné zarovnání, ale místo toho zarovná samostatně zkoumanou sekvenci vůči jednotlivým sekvencím v databázi a do dalšího výpočtu uvažuje pouze úseky, které jsou dostatečně podobné. Pro každou vybranou sekvenci či její úsek metoda počítá tendence k vytvoření sedmi různých typů sekundární struktury. Tři zahrnují interakce na dlouhé vzdálenosti potenciální tvorbu vodíkových můstků mezi aminokyselinami v antiparalelním β-vlákně, v paralel- 20

ním β-vlákně a v α-helixu; tři další vycházejí z podobnosti zkoumané sekvence a sekvencí se známou strukturou (nejbližší sousedství) tendence vytvářet helix, β-vlákno a smyčku; a pravděpodobnost smyčky v okně čtyř reziduí. Výsledné tendence pro každou pozici v řetězci jsou spočítány jako vážený součet tendencí jednotlivých sekvencí. Váhy jsou odvozeny z podobnosti mezi zkoumanou sekvencí a zarovnaným úsekem. Pomocí několika pravidel a stanovených prahových hodnot jsou hodnoty tendencí převedeny na prvky sekundární struktury. Posledním krokem je postprocesing, který odstraňuje příliš krátké úseky sekundární struktury. [9] 3.9 JPred JPred je webový server poskytující interaktivní predikci sekundární struktury proteinu. V roce 1998 ho vytvořili James A. Cuff a kol. V době svého vzniku kombinoval predikci šesti tehdy nejdůležitějších metod. Server přijímá dva typy vstupních dat, rodinu zarovnaných proteinových sekvencí nebo jednu sekvenci. Je-li vstupem jedna sekvence, server automaticky vytvoří vícenásobné zarovnání potřebné pro predikci. Použité metody byly zvoleny tak, aby reprezentovaly tehdejší stav na poli predikce, každá používala jinou heuristiku. NNSSP využívá nejbližší sousedství, DSC lineární diskriminaci, PHD rozhodovací neuronové sítě, PREDATOR používá schopnost vytvářet vodíkové můstky, MULPRED konsensus několika jedno-sekvenčních metod a ZPRED je založena na konzervovanosti proteinů. Server navrací graficky zvýrazněné predikce jednotlivých metod, zarovnané oproti rodině sekvencí. Výstup také obsahuje pro každou aminokyselinu fyzikálně-chemické vlastnosti, úspěšnost predikce a hodnotu konzervovanosti. Server také navrací konsensuální výsledek získaný prostou většinou z metod NNSSP, DSC, PREDATOR a PHD. V případě nerozhodného výsledku je použit výsledek získaný metodou PHD. Tato kombinace byla v nezávislém testu autorů zvolena jako nejlepší, s nejvyšší úspěšností predikce. [6] 3.10 PSIPRED Metoda PSIPRED byla publikována v roce 1999, jejím autorem je David T. Jones. Tato metoda využívá neuronových sítí a evoluční informace získané vícenásobným zarovnáním sekvencí. Výpočet má tři fáze: generování sekvenčních profilů, prvotní odhad sekundární struktury a konečné filtrování předpovězené struktury. V první fázi je iterativně použit algoritmus PSI-BLAST pro získání pozičně specifických skórovacích matic (PSSM). PSSM v algoritmu PSI-BLAST slouží jako mezikrok před vytvořením vícenásobného zarovnání. Vytváření vícenásobného zarovnání je časově velmi náročné, PSIPRED tento krok vynechává a jako vstup do další fáze mu slouží přímo PSSM. Matice PSSM ke každé pozici v sekvenci proteinu obsahuje dvacet pravděpodobností (podle dvaceti aminokyselin) náhrady residua na dané pozici. Tyto pravděpodobnosti vychází z matice BLOSUM62. V závislosti na pokrytí dosaženém při zarovnávání sekvencí mohou být prvky v PSSM založeny na několika sekvencích nebo odpovídají pouze zkou- 21

mané sekvenci (v tom případě jsou prvky v PSSM identické s příslušným sloupcem v matici BLOSUM62). Druhá fáze je tvořená neuronovou sítí. Jedná se o standardní dopřednou síť typu backpropagation. Při učení sítě bylo 10 % trénovacích dat ponecháno stranou a sloužilo pouze pro testování: ve chvíli, kdy chyba testovacích dat přestala klesat a začala stoupat, bylo učení ukončeno (tím je zamezeno přeučení neuronové sítě). Neuronová síť načítá 15 sousedních pozic z PSSM, ke 20 hodnotám pro standardní aminokyseliny přidává ještě jeden vstup indikující N- a C-konec proteinového řetězce, celkově tedy obsahuje 315 vstupů. Síť dále tvoří jedna skrytá vrstva o 75 neuronech a tři výstupní uzly, které reprezentují základní konformace (α-helix, β-vlákno a smyčka). Na dodatečnou filtraci postupných výsledků slouží druhá neuronová síť. Tato síť má 60 vstupů (zkoumá 15 výstupů první sítě, každý výstup může být v jedné ze tří konformací nebo obsahovat ukončení řetězce), síť dále obsahuje 60 neuronů ve skryté vrstvě a tři výstupní uzly (opět jeden výstup pro jednu ze tří konformací). Ačkoliv je tato metoda výpočetně relativně nenáročná, poskytuje kvalitní výsledky. [14] 3.11 Jnet Tato metoda je založená na neuronových sítích; je podobná metodě PHD. Byla publikována v roce 2000, autory jsou James A. Cuff a Geoffrey J. Barton. Tvoří ji tři úrovně neuronových sítí: první úroveň provádí mapování sekvence-struktura, druhá struktura-struktura, třetí posuzuje a vybírá nejlepší výsledek. Na první úrovni je síť s posuvným oknem o 19 prvcích, obsahuje devět skrytých uzlů a tři výstupní. Druhá síť má za vstup okno 19 výstupů první sítě a opět má devět uzlů ve skryté vrstvě a tři uzly výstupní. Metoda je zaměřena na kvalitu trénovacího procesu. Pro trénování neuronových sítí je použito několik typů vícenásobných zarovnání stejných sekvencí. Pokud nedojde ke shodě při vybírání výsledné konformace, jsou sporné pozice v proteinu použity pro trénování separátní neuronové sítě a výstup z této nové sítě je použit jako predikce pro sporná rezidua. Díky tomu bylo dosaženo zvýšení úspěšnosti predikce. Také se zlepšila důvěryhodnost výsledků. [5] 3.12 NPS@ NPS@ je webový server, který zaštiťuje řadu nástrojů pro zpracování proteinových sekvencí. Byl vytvořený v roce 2000, jeho autory jsou Christophe Combet a kol. Server obsahuje nástroje umožňující vyhledávat homologní sekvence, vytvářet podmnožiny příbuzných sekvencí, provádět vícenásobné zarovnání, předpovídat sekundární strukturu a generovat konsensuální strukturu, zobrazovat fyzikálně-chemické profily (hydrofobicitu, membránové regiony apod.), detekovat funkční místa, předpovídat umístění coiled-coil regionů a identifikovat možné helix-turn-helix motivy. Z nástrojů pro sekundární predikci server obsahuje metody DPM, DSC, GOR I, GOR III, GOR IV, HNN, MLRC, PHD, PREDATOR, SIMPA96, SOPM a SOPMA. [3] 22

3.13 Shrnutí metod predikce sekundární struktury proteinů Všechny soudobé metody jsou si do určité míry podobné. Obvykle mají stejnou třístupňovou architekturu a liší se jen klasifikačními metodami použitými v jednotlivých stupních (přičemž kvalita jejich výsledků je navzájem srovnatelná, žádná metoda nevyčnívá výrazně nad ostatní). První stupeň provádí mapování z prostoru sekvencí do prostoru struktur, druhý stupeň mapuje strukturu na strukturu (např. se snaží zpracovat nelokálnost β-vláken, uplatňuje omezení vyplývající ze sousedství různých konformací, aj.) a třetí stupeň provádí dodatečnou filtraci, během které opravuje chyby (nereálně krátké struktury apod.) vzniklé v předešlých stupních. Vstupem většiny metod je vícenásobné zarovnání homologních sekvencí. Tato podobnost možná znamená, že to je nejlepší možný způsob pro predikci. Nebo možná přesně naopak, že existuje mnohem lepší metoda založená na úplně jiném principu, jen ji ještě nikdo neobjevil... Tato podobnost naznačuje, že vývoj predikčních metod by mohl probíhat modulárně, jednotlivé stupně by mohly být navrhovány, vytvářeny, testovány a zdokonalovány nezávisle na sobě a při použití by si uživatel zvolil tu nejvhodnější kombinaci podle svých specifických záměrů. Na závěr této části si dovolím malou prognózu do budoucna význam predikčních metod sekundární struktury bude klesat, protože s rozvojem metod predikce 3D struktury dojde k tomu, že bude přesnější stanovit celou prostorovou strukturu a z ní vyextrahovat informace o sekundární struktuře. Současně s tím poklesne i zájem o sekundární strukturu, protože její znalost již nebude mít velký praktický význam. 23

Kapitola 4 Návrh evolučních experimentů Tato kapitola se zabývá popisem plánovaného experimentu. Cílem experimentování je posoudit závislost mezi změnou sekvence proteinu a změnou jeho sekundární struktury. Tedy budu mutovat aminokyselinovou sekvenci proteinu a sledovat, jak se proměňuje jeho sekundární struktura. Podobný experiment již byl představen v článku Protein secondary structure appears to be robust under in silico evolution while protein disorder appears not to be [25]. 4.1 Kostra experimentu Samotný výpočet bude řešen nezávisle pro každý jednotlivý protein z testovací množiny. Pro tento nativní protein bude zjištěna jeho sekundární struktura a tato struktura bude sloužit jako referenční struktura po zbytek experimentu. Sekvenci každého proteinu budu postupně mutovat ve zvoleném počtu kroků. Po každém mutačním kroku zjistím sekundární strukturu vzniklého mutanta a vyhodnotím, jak moc se změnila struktura mutanta ve srovnání se strukturou původního proteinu. Výstupem experimentu jsou grafy, které zobrazí vzájemný vztah mezi mírou odlišnosti původní a zmutované sekvence a mezi mírou odlišnosti sekundárních struktur původní a zmutované sekvence. Na obrázku 4.1 je znázorněno schéma tohoto experimentu. 4.2 Mutační protokol V rámci jednoho mutačního kroku dojde ke zmutování předem zvoleného počtu aminokyselin v proteinu. Počet mutovaných reziduí bude zadán poměrně vůči délce proteinové sekvence, tak, aby počet mutovaných aminokyselin byl úměrný délce proteinu. Tím je zajištěno, aby různě dlouhé proteiny byly během jednoho kroku postiženy mutací ve stejné míře. Při každé jednotlivé mutaci aminokyseliny je náhodně vybrána pozice v sekvenci a zde se nacházející aminokyselina je náhodně nahrazena jinou aminokyselinou. Při mutaci může dojít k i tomu, že se aminokyselina nezmění v přírodě tomu odpovídají synonymní mutace nukleotidů (zmutovaný i původní kodon kódují tutéž aminokyselinu), také to vyjadřuje evoluční stabilitu na dané pozici, kdy přírodní výběr potlačuje zde vzniklé mutace. 24

Původní sekvence mutace 3 Původní sekundární struktura porovnání Zmutovaná sekvence 3 Zmutovaná sekundární struktura Obrázek 4.1: Schéma experimentu (iterace pro jeden protein). Pravděpodobnosti záměn pro každou dvojici aminokyselin, stejně tak jako počet aminokyselin mutovaných v jednom kroku, musí být modifikovatelné v konfiguraci simulátoru evoluce. 4.3 Získání sekundární struktury Ke zjišťování sekundární struktury zmutovaných sekvencí bude nutné použít nějakou predikční metodu, protože se nejedná o reálně existující proteiny, u nichž by mohla být struktura zjištěna experimentálně. Budu používat metodu PSIPRED. Je to metoda, která poskytuje kvalitní výsledky v rozumném čase a je dostupná ve stand-alone verzi. [14] [26] U některých nativních proteinů (které se vyskytují v prvním kroku výpočtu) může být známá jejich skutečná struktura. Zde by pak existovala možnost použít tuto skutečnou strukturu jako referenční, vůči které by se vyhodnocovaly změny sekundární struktury jednotlivých mutantů. Tím by ale došlo k zanesení systematické chyby do experimentu: za předpokladu, že predikční metoda není absolutně bezchybná, musí pro některé proteiny existovat rozdíl mezi skutečnou a predikovanou sekundární strukturou. Při použití skutečné struktury jako referenční by pak tento rozdíl poznamenal všechna porovnání predikované struktury zmutovaných sekvencí s referenční strukturou. Proto je nezbytně nutné, aby referenční sekundární struktura byla získána stejným způsobem, jakým bude zjišťována struktura mutantů. K vyhodnocení odlišností sekundárních struktur budu používat metriku Q 3 (třístavovou podobnost). Není to tedy použití metriky k jejímu původnímu účelu (změření chyby predikce), ale způsob použití je naprosto stejný. 4.4 Podmínka ukončení V experimentu má smysl pokračovat jen do té doby, dokud je zmutovaná sekvence alespoň trochu podobná původní sekvenci. Kdyby výpočet pokračoval, jakékoliv zjištěné informace by už neměly vztah k původnímu proteinu, ale popisovaly by vlastnosti náhodné aminokyselinové sekvence. 25