PREDIKCE VLIVU AMINOKYSELINOVÝCH MUTACÍ NA SEKUNDÁRNÍ STRUKTURU PROTEINŮ

Rozměr: px
Začít zobrazení ze stránky:

Download "PREDIKCE VLIVU AMINOKYSELINOVÝCH MUTACÍ NA SEKUNDÁRNÍ STRUKTURU PROTEINŮ"

Transkript

1 VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ BRNO UNIVERSITY OF TECHNOLOGY FAKULTA INFORMAČNÍCH TECHNOLOGIÍ ÚSTAV INFORMAČNÍCH SYSTÉMŮ FACULTY OF INFORMATION TECHNOLOGY DEPARTMENT OF INFORMATION SYSTEMS PREDIKCE VLIVU AMINOKYSELINOVÝCH MUTACÍ NA SEKUNDÁRNÍ STRUKTURU PROTEINŮ PREDICTION THE EFFECT OF AMINO ACID SUBSTITUTIONS ON SECONDARY STRUCTURE OF PROTEINS DIPLOMOVÁ PRÁCE MASTER S THESIS AUTOR PRÁCE AUTHOR VEDOUCÍ PRÁCE SUPERVISOR MARTIN HYRŠ Ing. JAROSLAV BENDL BRNO 2013

2 Abstrakt V této práci zkoumám, jak mutace aminokyselionové sekvence proteinu poznamená jeho sekundární strukturu. Zjistil jsem, že sekundární struktura je vůči mutacím poměrně odolná, některé úseky si udrží svoji strukturu, i když jejich sekvence je zcela odlišná. Tato odolnost se projevuje i u náhodných sekvencí, je to tedy obecná vlastnost sekvencí aminokyselin. Jednotlivé konformace jsou ke změnám způsobeným mutací různě citlivé. Citlivost proteinu vůči mutacím závisí na složení jeho struktury. V počátečních kapitolách jsou popsány vybrané metody predikce sekundární struktury. Abstract In this thesis I investigate the effect of amino acid substitutions on secondary structure of proteins. I found that the secondary structure is relatively resistant to mutations, some regions hold the same secondary structure, even though their sequences are very different. Since this effect was observed also for random sequences, I conclude that it is a general property of the amino acid sequence. The particular elements of secondary structures are differentially sensitive to the changes caused by mutations. Protein s sensitivity to mutations depends on the composition of its secondary structure. Some methods of secondary structure prediction are described in the introductory section. Klíčová slova Mutace proteinů, sekundární struktura proteinů, evoluce in silico, odolnost sekundární struktury vůči mutaci, predikce sekundární struktury proteinu. Keywords Proteins mutations, secondary structure of proteins, evolution in silico, secondary structure resistance to a mutation, prediction of secondary structure of proteins. Citace Martin Hyrš: Predikce vlivu aminokyselinových mutací na sekundární strukturu proteinů, diplomová práce, Brno, FIT VUT v Brně, 2013.

3 Predikce vlivu aminokyselinových mutací na sekundární strukturu proteinů Prohlášení Prohlašuji, že jsem tuto diplomovou práci vypracoval samostatně pod vedením pana Ing. Jaroslava Bendla. Uvedl jsem všechny literární prameny a publikace, ze kterých jsem čerpal Martin Hyrš 22. května 2013 Poděkování Na tomto místě chci poděkovat vedoucímu práce, panu Ing. Jaroslavu Bendlovi, za inspirativní rady při tvorbě experimentů. Dále chci poděkovat rodině a přátelům za morální oporu. c Martin Hyrš, Tato práce vznikla jako školní dílo na Vysokém učení technickém v Brně, Fakultě informačních technologií. Práce je chráněna autorským zákonem a její užití bez udělení oprávnění autorem je nezákonné, s výjimkou zákonem definovaných případů.

4 Obsah 1 Úvod 4 2 Proteiny Stavba bílkovin Struktura bílkovin Typy sekundární struktury Genetický kód Substituční matice Metody predikce sekundární struktury proteinu Metriky pro posuzování kvality predikčních metod Chou-Fasman GOR ZPRED PHD NNSSP DSC PREDATOR JPred PSIPRED Jnet NPS@ Shrnutí metod predikce sekundární struktury proteinů Návrh evolučních experimentů Kostra experimentu Mutační protokol Získání sekundární struktury Podmínka ukončení Rozšiřující experimenty Simulační nástroj a jeho implementace Struktura aplikace Třída Sequence Třída FileReader Třída MutationProtocol

5 5.5 Třída SecondaryStructure Třída MutationSimulator Grafy typu boxplot Experimenty Rychlost rozpadu sekundární struktury Mutace struktury náhodných sekvencí Mutační pravděpodobnosti odvozené z genetického kódu Vyloučení škodlivých mutací Míra mutace u různých sekundárních struktur Shrnutí experimentů Závěr 46 A Doplňující poznámky k experimentům 50 A.1 Různá kritéria podobnosti A.2 Rozpad sekundární struktury proteinu A.3 Odolnost proteinů a složení jejich struktury B Obsah přiloženého CD 56 2

6 Seznam obrázků 2.1 Strukturní vzorec aminokyselin Vznik dipeptidu Kostra polypeptidu Schéma experimentu Vývoj sekundární struktury Závislost mezi sekvenční a strukturní podobností Náhodné sekvence Vliv mutací spočítaných podle různých mutačních matic Rychlost mutací podle různých mutačních matic Vliv mutací spočítaných podle různých mutačních matic Rychlost mutací podle různých mutačních matic Škodlivé a neutrálních mutace Škodlivé a neutrálních mutace Třídimenzionální struktura dat Strukturní složení proteinů Strukturní složení náhodných sekvencí Strukturní složení odolných proteinů Strukturní složení odolných proteinů A.1 Podobnost párová a podle PAM A.2 Závislost mezi sekvenční (PAM120) a strukturní podobností A.3 Vývoj sekvenční podobnosti A.4 Vývoj sekundární struktury A.5 Strukturní složení odolných proteinů různé kroky

7 Kapitola 1 Úvod Zpracování biologických dat je vědní oblast, která v dnešní době zažívá velký rozvoj. Díky rozvoji sekvenačních metod velmi prudce vzrůstá množství známých dat a bioinformatické metody umožňují získávání velkého počtu nových znalostí (např. tvorba fylogenetických stromů, analýza genové exprese, sekvenace genomů různých organismů, apod.). Do této oblasti spadá i analýza sekundární struktury proteinů. Pojem sekundární struktura proteinu označuje lokální prostorové rozmístění sousedních aminokyselin v molekule proteinu. Rozeznává se řada různých konformací, tři základní jsou α-helix, β-skládaný list a náhodná smyčka. Sekundární struktura proteinu má význam jako mezikrok během utváření terciární struktury. Při trojrozměrném zobrazení molekuly proteinu se často graficky znázorňují jednotlivé úseky sekundární struktury. Určité vzorce sekundární struktury mohou identifikovat vazebná místa proteinu, která jsou zodpovědná za jeho biologickou aktivitu. Tato práce zkoumá, do jaké míry bude poznamenána sekundární struktura proteinu, pokud dojde k mutaci jeho aminokyselinové sekvence. Zjistil jsem, že sekundární struktura proteinu je vůči mutacím sekvence poměrně odolná; míra odolnosti závisí na výskytu jednotlivých konformací ve struktuře daného proteinu. Kvůli vytváření a vyhodnocování mutantů jsem naprogramoval simulační nástroj, který postupně mutuje sekvenci proteinu a v každém mutačním kroku (použitím metody pro predikci sekundární struktury) vyhodnocuje změnu jeho sekundární struktury. Kapitola 2 shrnuje základní informace o proteinech, jejich chemickou stavbu, biologický význam, apod. Kapitola 3 je věnovaná metodám predikce sekundární struktury proteinu. V dalších kapitolách je pak popsán návrh experimentu (kapitola 4) a implementace výše zmíněného simulátoru (kapitola 5). V kapitole 6 jsou popsány jednotlivé experimenty, které jsem uskutečnil, a jsou zde uvedeny jejich výsledky. Závěrečná kapitola shrnuje dosažené výsledky a uzavírá celou práci. 4

8 Kapitola 2 Proteiny Proteiny (bílkoviny) jsou základní stavební složkou všech živých buněk. Plní v organismu například funkce stavební, vystupují jako katalyzátory biochemických pochodů (enzymy) či jako koordinátory chemických dějů (hormony), plní obrannou funkci (antigeny) a jiné. Tato kapitola je zpracována podle [18], [11], [7] a [28]. 2.1 Stavba bílkovin Z chemického hlediska se jedná o polypeptidy, rozsáhlé makromolekuly vzniklé polymerací aminokyselin Aminokyseliny Pojmem aminokyselina se v chemii obecně označuje kterákoliv molekula, která obsahuje karboxylovou (-COOH) a aminovou (-NH 2 ) skupinu. V užším slova smyslu se pod tímto pojmem rozumí pouze α-aminokyseliny L-řady, které se běžně vyskytují v přírodě jako součást proteinů (tzv. proteinogenní aminokyseliny). Obecný strukturní vzorec těchto aminokyselin je na obrázku 2.1. R O NH 2 CH C OH Obrázek 2.1: Strukturní vzorec aminokyselin. Proteinogenní aminokyseliny jsou známé pod svými triviálními názvy. Běžně se označují pomocí trojpísmenných zkratek, případně jedním velkým písmenem (například ve struktuře proteinu), viz tabulka 2.1. Zde jsou i uvedeny strukturní vzorce jejich postranních řetězců. Výjimkou z uvedené struktury je prolin, u něhož je aminoskupina součástí cyklu v postranním řetězci; z čehož plyne i jeho odlišná schopnost vytvářet lokální interakce. 5

9 Aminokyselina Zkratka Značka Postranní řetězec Glycin Gly G H Alanin Ala A H 3 C Valin Val V CH 3 CH CH 3 Leucin Leu L CH 3 CH 3 CH CH 2 Isoleucin Ile I CH 3 CH 2 CH CH 3 Kyselina asparagová Asp D O C CH 2 HO Asparagin Asn N O C CH 2 NH 2 Kyselina glutamová Glu E O C CH 2 CH 2 HO Glutamin Gln Q O C CH 2 CH 2 NH 2 NH Arginin Arg R NH 2 C NH CH 2 CH 2 CH 2 Lysin Lys K NH 2 CH 2 CH 2 CH 2 CH 2 N Histidin His H NH CH 2 Fenylalanin Phe F CH 2 Serin Ser S HO CH 2 Threonin Thr T CH 3 CH Tyrosin Tyr Y HO CH 2 Tryptofan Trp W NH OH CH 2 Methionin Met M CH 3 S CH 2 CH 2 Cystein Cys C HS CH 2 Prolin Pro P O C NH OH Tabulka 2.1: Kódové aminokyseliny a jejich struktura. 6

10 2.1.2 Peptidická vazba Peptidická vazba je druh kovalentní vazby. Vzniká mezi karboxylovou skupinou jedné molekuly a aminoskupinou ve druhé molekule za odštěpení jedné molekuly vody. Na obrázku 2.2 je znázorněn vznik dipeptidu. R NH 2 CH C O OH R NH 2 CH C O OH -H 2O R NH 2 CH O C NH R CH C O OH Obrázek 2.2: Vznik dipeptidu. Typický výskyt peptidické vazby je v molekulách peptidů a proteinů. Tyto makromolekuly vznikají polykondenzací aminokyselin jako peptidy se označují molekuly tvořené méně než sto aminokyselinovými zbytky, větší molekuly jsou nazývány proteiny. Posloupnost peptidických vazeb vytváří centrální páteř proteinu. Tato kostra, tvořící nevětvený řetězec, je společná všem proteinům. Její strukturní vzorec je na obrázku 2.3. Specifické vlastnosti proteinů jsou dány postranními řetězci (zbytky aminokyselin). U proteinu rozeznáváme N-konec (aminoskupina) a C-konec (karboxylová skupina). R O R O R O NH 2 CH C NH CH C NH CH C NH CH C NH CH C NH CH C OH O R O R O R Obrázek 2.3: Kostra polypeptidu. R označuje postranní řetězce. 2.2 Struktura bílkovin Primární struktura Jako primární struktura se označuje pořadí aminokyselin vázaných v polypeptidovém řetězci. Sekundární struktura Jako sekundární struktura se označuje lokální prostorové rozmístění sousedních aminokyselin. Existuje několik charakteristických typů této struktury, podrobněji budou popsány v následující části. Sekundární struktura je chemicky stabilizována zejména lokálně, pomocí vodíkových můstků mezi skupinami CO a NH. Terciární struktura Terciární struktura označuje prostorové rozmístění atomů v molekule. Snahou proteinu je zaujmout strukturu s co nejmenší vnitřní energií. Struktura je stabilizována elektrostatickými silami mezi COO a NH, tvorbou disulfidických můstků mezi molekulami cysteinu, vodíkovými můstky a interakcemi mezi nepolárními zbytky aminokyselin; přičemž k těmto interakcím dochází mezi aminokyselinami, které mohou být v proteinovém řetězci libovolně vzdálené. 7

11 Kvartérní struktura O kvartérní struktuře hovoříme u bílkovin, které jsou tvořeny více polypeptidickými řetězci, které nejsou vzájemně spojeny peptidovou vazbou. 2.3 Typy sekundární struktury Běžné typy sekundární struktury se obvykle označují pomocí velkých písmen. Tento způsob označování se nazývá DSSP (Dictionary of Protein Secondary Structure). Existuje osm různých konformací: [15] H = 4-helix (α-helix) je to nejčastěji se vyskytující druh struktury. Kostra proteinu tvoří šroubovici, aminokyselinové zbytky trčí ven do prostoru. Délka jednoho závitu šroubovice je 3,6 aminokyselinových zbytků. Struktura je stabilizována vodíkovými můstky mezi skupinami CO a NH v aminokyselinách vzdálených od sebe čtyři rezidua. B = reziduum v izolovaném β-můstku. Posloupnost těchto struktur vytváří β-list. E = β-skládaný list (angl. extended strand = natažené vlákno) druhá nejrozšířenější struktura. Tvoří ji dvě rovnoběžná vlákna (buď v paralelním nebo antiparalelním směru). Hlavní řetězec je skoro úplně úplně rozvinutý, vodíkové můstky vznikají mezi sousedními vlákny. G = 3-helix (3 10 -helix) vzácný typ šroubovice, v němž stabilizující vodíkové můstky vznikají na vzdálenost 3 rezidua. Šroubovice má menší průměr než α-helix. I = 5-helix (π-helix) vzácný typ šroubovice, v němž stabilizující vodíkové můstky vznikají na vzdálenost 5 reziduí. Šroubovice má větší průměr než α-helix. T = otočka (H-bonded turn) jedná se o smyčku vázanou vodíkovými můstky. Opakováním těchto úseků jsou vytvořeny helikální struktury. S = ohyb (bend) mírný ohyb polypeptidového vlákna. Tato konformace jako jediná není stabilizována vodíkovými můstky. C = smyčka (coil) souhrnné označení pro všechny ostatní druhy sekundární struktury. Pro účely predikce sekundární struktury proteinů se obvykle používají pouze tři konformace: H = helix (H, G, I), E = β-struktura (E) a C = náhodná smyčka (B, T, S, C). 2.4 Genetický kód Pravidla, podle kterých je informace uložená v DNA přepisována do sekvence proteinů, nazýváme genetický kód. Genetický kód používá čtyřprvkovou abecedu {A, C, G, T}, případně {A, C, G, U} (podle toho, zda pro zápis použijeme nukleotidy vyskytující se v DNA nebo RNA). Písmena genetického kódu se čtou po trojicích (tzv. kodon či triplet), každá trojice kóduje jednu aminokyselinu (viz tabulka 2.2). Jeden kodon, AUG (kódující methinonin), je startovací, od 8

12 tohoto místa přepis mrna do proteinu vždy začíná (samotný methionin je pak z proteinu obvykle odštěpen). Tři kodony jsou tzv. stop-kodony, ukončují transkripci. Genetický kód je, až na drobné výjimky, univerzálně platný pro všechny (známé) živé organismy na Zemi. Např. některé bakterie mají jiný start-kodon a některé bakterie a archea pomocí stop-kodonů kódují dvacátou první aminokyselinu (selenocystein) nebo dvacátou druhou (pyrolysin). Existuje 4 3 = 64 různých kodonů, ale je pouze dvacet standardních aminokyselin. Proto je většina aminokyselin kódována více než jedním kodonem, některé aminokyseliny jsou zakódovány až šesti různými kodony. Redundance obsažená v genetickém kódu způsobuje, že některé mutace nukleotidů nevyvolají změnu zakódované aminokyseliny (tzv. synonymní mutace). UUU } fenylalanin UCU UAU } UGU } tyrosin cystein UUC UCC serin UAC UGC UUA } UCA UAA STOP UGA STOP leucin UUG UCG UAG STOP UGG tryptofan CUU CCU CAU } CGU histidin CUC leucin CCC prolin CAC CGC CUA CCA CAA } CGA arginin glutamin CUG CCG CAG CGG AUU } ACU AAU } AGU } asparagin serin AUC isoleucin ACC threonin AAC AGC AUA ACA AAA } AGA } lysin arginine AUG methionin ACG AAG AGG GUU GCU GAU } GGU kys. asparagová GUC valin GCC alanin GAC GGC GUA GCA GAA } GGA glycin kys. glutamová GUG GCG GAG GGG Tabulka 2.2: Genetický kód. 2.5 Substituční matice Substituční matice slouží k vypočítání podobnosti dvou zarovnaných sekvencí. Je to čtvercová matice, jejíž sloupce a řádky odpovídají jednotlivým symbolům, které se mohou vyskytnout v sekvenci proteinu. Číselná hodnota uvedená na dané pozici v matici odpovídá přínosu vzájemné substituce aminokyselin uvedených na řádku a sloupci k celkové podobnosti sekvencí. Protože při výpočtu penalizace nezáleží na pořadí symbolů v páru, jsou matice diagonálně souměrné Matice PAM Historicky starší jsou matice PAM (Point Accepted Mutation). Jejich konstrukce vychází z empirického stanovení frekvence jednotlivých specifických záměn. [8] V sadě příbuzných sekvencí (superrodiny sekvencí, seskupené do fylogenetických stromů) jsou spočítány výskyty vzájemných záměn pro všechny dvojice aminokyselin 9

13 toto jsou mutace akceptované přírodním výběrem. Jejich výskyt je výsledkem dvou procesů: mutací příslušné nukleotidové sekvence a přijetím nová aminokyselina obvykle musí mít podobné fyzikálně-chemické vlastnosti jako ta původní. Z podílu počtu mutací, ve kterých se vyskytuje, a celkového počtu výskytů dané aminokyseliny je stanovena její relativní mutabilita. Aminokyseliny (např. cystein), které plní nenahraditelné funkce, mají velmi nízkou relativní mutabilitu. Prvek matice pravděpodobnosti mutací M ij udává pravděpodobnost, že aminokyselina j bude nahrazena aminokyselinou i po jednom mutačním kroku. Ne-diagonální, resp. diagonální prvky v matici jsou stanoveny jako: M ij = λm ja ij i A ij resp. M jj = 1 λm j kde A ij je položka matice akceptovaných mutací, λ je proporční konstanta a m j je mutabilita aminokyseliny j. Hodnota proporční konstanty je zvolena tak, aby výraz 100 f i M ii (tedy počet reziduí, která se nezmění během 100 kroků mutace) byl roven 99 (tedy 1 % mutací, jak je požadováno pro PAM1). Matice zisků R ij = M ij f i, kde f i je pravděpodobnost náhodného výskytu i ve druhé sekvenci, obsahuje pravděpodobnosti nahrazení výskytu i za výskyt j. Tato matice je symetrická. Kvůli snazšímu použití při výpočtu zarovnání (sčítání logaritmů namísto násobení původních hodnot) je matice R ij zlogaritmována S ij = 10 log 10 R ij a takto je získána skórovací matice PAM1. Pro snazší manipulaci jsou hodnoty ve skórovací matici vynásobeny vhodnou konstantou (toto nijak neovlivňuje přesnost výpočtu při zarovnávání sekvencí) a zaokrouhleny na celá čísla. Maticovým vynásobením matice PAM1 samé se sebou byla získána matice PAM2. Dalším vynásobením vznikla PAM3 atd. až po PAM250 = PAM Matice PAMxx odpovídá situaci, ve které dojde k xx mutacím ve sto-aminokyselinovém úseku. Pouze matice PAM1 vznikla z empirických údajů z blízce příbuzných sekvencí, všechny ostatní matice PAM vznikly extrapolací. Při praktickém použití platí, že vyšší číslo matice PAM odpovídá méně příbuzným sekvencím. V tabulkách 2.3 a 2.4 jsou uvedeny pravděpodobnosti mutací PAM1 a skórovací matice PAM120. V matici PAM120 jsou kromě značek pro standardní aminokyseliny použity i symboly B, Z, X. Toto jsou tzv. nejednoznačné aminokyseliny, B značí kyselinu asparagovou (D) nebo asparagin (N); Z kyselinu glutamovou (Q) nebo glutamin (E); X je libovolná aminokyselina. Pro symboly B, Z jsou počáteční pravděpodobnosti určeny jako průměr hodnot příslušných aminokyselin, pro X jsou všechny pravděpodobnosti rovny 1/ Matice BLOSUM Matice BLOSUM (Blocks of Amino Acid Substitution Matrix) jsou používány pro výpočet podobnosti evolučně nepříbuzných sekvencí. Všechny matice BLOSUM jsou odvozeny z empiricky zjištěných pravděpodobností mutace (na rozdíl od maticí PAM). [12] Při jejich odvození se vycházelo z lokálního zarovnání nepříbuzných sekvencí, pro další výpočet byly použity pouze velmi konzervované úseky sekvencí (bez mezer v zarovnání). V každém shluku zarovnaných úseků sekvencí byly spočítány frekvence výskytů jednotlivých aminokyselinových záměn. Hodnota v matici BLOSUM je pak dána jako dvojkový 10

14 A R N D C Q E G H I A R N D C Q E G H I L K M F P S T W Y V L K M F P S T W Y V A R N D C Q E G H I L K M F P S T W Y V Tabulka 2.3: Tabulka pravděpodobností mutací PAM1. Pro přehlednost jsou hodnoty v tabulce vynásobeny [21] 11

15 A R N D C Q E G H I L K M F P S T W Y V B Z X * A R N D C Q E G H I L K M F P S T W Y V B Z X * Tabulka 2.4: Skórovací matice PAM120. [20] 12

16 logaritmus podílu frekvence výskytu záměn dané dvojice aminokyselin ku frekvencím všech výskytů těchto aminokyselin. Číslo v názvu matice udává míru podobnosti použitých sekvencí. Například při odvození matice BLOSUM80 byly použity pouze takové zarovnané úseky, které v zarovnání obsahovaly alespoň 80 % identických aminokyselin. Platí tedy, že vyšší čísla matice odpovídají podobnějším sekvencím. Kromě skóre pro shodu či neshodu aminokyselin mohou matice obsahovat i penalizaci za vložení mezery. Penalizace za mezeru se skládá ze dvou částí vysoká penalizace za počátek mezery a obvykle mnohem menší penalizace za prodloužení existující mezery. Toto zohledňuje skutečnost, že pokud již mezera vznikla, je její prodloužení poměrně nepodstatnou změnou, která nemá velký vliv na nepodobnost sekvencí. 13

17 Kapitola 3 Metody predikce sekundární struktury proteinu V této kapitole podrobněji popisuji vybrané metody pro predikci sekundární struktury proteinu. Z hlediska postupného vývoje můžeme tyto metody rozčlenit do několika generací. Pro metody první generace je typické využívání pouze lokální informace. Jsou založeny na pravděpodobnosti výskytu dané aminokyseliny v určitém elementu sekundární struktury. Časově tyto metody spadají do 70. let 20. století. Metodami druhé generace jsou metody založené na znalostech, využívají další informace o aminokyselinách, jako je tvar a velikost jejich molekuly či fyzikální a chemické vlastnosti. Tyto metody vznikaly zejména v 80. letech. V 90. letech se objevují metody založené na strojovém učení, například neuronových sítích, či skrytých Markovových modelech. Poslední generaci tvoří metody konsensuální, které kombinují výsledky více nezávislých predikčních metod, čímž odstraňují jejich dílčí chyby a dosahují ještě vyšší přesnosti. [22] 3.1 Metriky pro posuzování kvality predikčních metod Nejpoužívanější metrikou je Q3. V této práci záměrně neuvádím žádnou přesnou hodnotu, které dosahují jednotlivé metody, protože metody byly testovány na rozdílných datasetech a souhrnné uvedení jejich výsledků by proto mohlo být zavádějící. Navíc se dá říci, že novější metody dosahují lepších výsledků částečně proto, že při jejich odvození (trénování) byla použita lepší trénovací množina, a starší metody by byly vzájemným srovnáním znevýhodněny. Zpracováno podle [13] a [27] Metrika Q 3 Metrika Q 3 (třístavová přesnost) udává, kolik procent reziduí má správně predikovanou strukturu. Uvažuje konformace α-helix (H), β-list (E) a náhodná smyčka (C). Přesnost pro jednu konformaci (stav) i je Q i = počet reziduí správně predikovaných do stavu i počet všech reziduí ve stavu i

18 Přesnost pro všechny stavy je Q 3 = počet správně predikovaných reziduí počet všech reziduí Metrika SOV Metrika SOV (Segment OVerlap score) je založená na průměrné délce překryvu mezi pozorovaným a predikovaným segmentem sekundární struktury. Na rozdíl od Q 3 nevyhodnocuje jednotlivá rezidua, ale větší celky. Mějme pozorovanou sekundární strukturu S 1 a predikovanou strukturu S 2. Pro každou konformaci i {H, E, C} je S(i) množina dvojic segmentů z S 1 a S 2 ve stavu i, které se překrývají alespoň jedním reziduem. Tedy S(i) = {(s 1, s 2 ) s 1 s 2 s 1, s 2 jsou v konformaci i} a S (i) je množina všech segmentů, které se nepřekrývají S (i) = {s 1 s 2 : s 1 s 2 = s 1, s 2 jsou v konformaci i} Podobnost mezi sekvencemi S 1 a S 2, SOV (S 1, S 2 ), je určena jako SOV (S 1, S 2 ) = 1 N i {H,E,C} S(i) minov(s 1, s 2 )σ(s 1, s 2 ) l(s 1 ) maxov(s 1, s 2 ) kde minov(s 1, s 2 ) je délka společné části překryvu, kde jsou oba segmenty ve stavu i; maxov(s 1, s 2 ) je délka celého překryvu, kde alespoň jeden segment je ve stavu i; l(s 1 ) je délka úseku s 1 ; σ(s 1, s 2 ) je definována σ(s 1, s 2 ) = min maxov(s 1, s 2 ) minov(s 1, s 2 ) minov(s 1, s 2 ) l(s 1) 2 l(s 2) 2 a N je i {H,E,C} N(i) kde N(i) = S(i) l(s 1) S (i) l(s 1). Úlohy S 1 a S 2 nejsou symetrické, při výpočtu proto nelze vzájemně zaměnit predikovanou a skutečně pozorovanou strukturu. 3.2 Chou-Fasman Tuto metodu publikovali Peter Chou a Gerald Fasman v roce Na základě známých struktur 15 proteinů, získaných pomocí rentgenové krystalografie, stanovili pro každou aminokyselinu konformační parametry P α a P β, které popisují její potenciál vytvořit šroubovici α-helix nebo β-list. Spočítáním průměrů konformačních parametrů P α a P β pro libovolný polypeptidový úsek pak lze předpovědět jeho sekundární strukturu. Dále stanovili explicitní pravidla určení začátků a konců strukturních regionů. Za tímto účelem rozdělili aminokyseliny na základě parametrů P α a P β do tříd, viz tabulka 3.1, a stanovili tato pravidla: 15

19 Helikální rezidua P α Třída β-list rezidua P β Třída Glu 1,53 Met 1,67 Ala 1,45 H α Val 1,65 H β Leu 1,34 Ile 1,60 His 1,24 Cys 1,30 Met 1,20 Tyr 1,29 Gln 1,17 h α Phe 1,28 Trp 1,14 Gln 1,23 h β Val 1,14 Leu 1,22 Phe 1,12 Thr 1,20 Lys 1,07 I α Trp 1,19 Ile 1.00 Ala 0,97 I β Asp 0,98 Arg 0,90 Thr 0,82 Gly 0,81 i β Ser 0,79 i α Asp 0,80 Arg 0,79 Lys 0,74 Cys 0,77 Ser 0,72 Asn 0,73 b α His 0,71 b β Tyr 0,61 Asn 0,65 Pro 0,59 B α Pro 0,62 Gly 0,53 Glu 0,26 B β Tabulka 3.1: Rozdělení aminokyselin do tříd metody Chou-Fasman: H α, H β silný tvůrce; h α, h β tvůrce; I α, I β slabý tvůrce; i α, i β indiferentní; b α, b β lamač; B α, B β silný lamač. [2] 1. Najdi skupiny šesti reziduí, které obsahují alespoň čtyři helikální (h α nebo H α ). Slabě helikální I α se počítá jako 0.5h α. Úsek se nepočítá, obsahuje-li třetinu a více lamačů šroubovice, nebo méně než polovinu tvůrců šroubovice. 2. Rozšiřuj šroubovici na obě strany, dokud není ukončena tetrapeptidem s P α < Úsek také může být ukončen lamači šroubovice nebo začátkem β-listu. 3. Prolin se nemůže objevit uvnitř šroubovice nebo na jejím C-konci. 4. Pro, Asp, Glu preferují N-konec šroubovice. His, Lys, Arg preferují C-konec. Pro a Asp blízko N-konce, stejně jako Arg blízko C-konce jsou klasifikovány jako I α, je-li to nezbytné ke splnění podmínky β-listy: tři β rezidua (h β nebo H β ) ve skupině pěti. Toto neplatí, obsahuje-li skupina třetinu a více lamačů β-listu, nebo méně jak polovinu tvůrců listu. 6. Ukončení β-listu je obdobné ukončení šroubovice. 7. Glu a Pro jsou vzácné v β-regionech. 8. Nabitá rezidua se jen výjimečně objevují na N-konci β-listu a jsou málo četné uvnitř a na C-konci. Trp se vyskytuje zejména na N-konci a jen vzácně na C-konci. 16

20 Autoři zmiňovali lokálnost metody jako pozitivní vlastnost, umožňující snadný výpočet. Dnes je toto vnímáno jako velká slabina, která způsobuje relativně malou přesnost v porovnání s komplexnějšími přístupy. Naprostým nedostatkem je odvození metody z pouhých 15 známých struktur. [2] 3.3 GOR Tato metoda, označovaná podle svých autorů Jeana Garniera, D. J. Osguthorpa a Barryho Robsona, byla zveřejněna v roce Metoda je založená na formalismu teorie informace a Bayesovské statistice. Metoda používá informační funkci I(S; R) definovanou jako: I(S; R) = log P (S R) P (S) = log P (S, R) P (R) P (S) kde S je jedna ze tří konformací, R jedna z dvaceti aminokyselin, P (S R) je podmíněná pravděpodobnost výskytu konformace S za přítomnosti rezidua R, P (S) je pravděpodobnost výskytu konformace S, P (S, R) je pravděpodobnost současného výskytu konformace S a rezidua R a P (R) je pravděpodobnost výskytu rezidua R. Tyto pravděpodobnosti mohou být stanoveny na základě frekvence výskytu jednotlivých jevů v databázi známých struktur, P (S) = f S N, P (R) = f R N v databázi a f x jsou jednotlivé četnosti. Tedy: a P (S, R) = f S,R, kde N je počet všech aminokyselin N I(S; R) = log f S,R N f S f R Takto mohou být získány všechny hodnoty funkce I(S; R). Další úpravy odstraňují závislost na počtu vzorků v databázi, je zavedena informační diference: I( S; R) = I(S; R) I( S; R) = log f S,R log f S f S,R f S kde S značí jinou konformaci než je S. Tyto rovnice mohou být rozšířeny pro lokální sekvence polypeptidu tvořené n následujícími aminokyselinami: I( S j ; R 1,..., R n ) = log P (S j, R 1,..., R n ) P ( S j, R 1,..., R n ) log P S P S kde P (S j, R 1,..., R n ) je pravděpodobnost současného výskytu konformace S na pozici j v lokální sekvenci a sekvence R 1,..., R n. Při predikci sekundární struktury se správná konformace určí podle nejvyšší hodnoty informační funkce nebo pravděpodobnosti. Je třeba brát v úvahu, že více konformací může mít pravděpodobnost blízkou nejvyšší hodnotě, pak rozhodnutí nemusí být jednoznačné. [10] 17

21 3.3.1 GOR I První verze metody GOR používala okolí osmi reziduí na každou stranu od zkoumané aminokyseliny. Tato vzdálenost byla stanovena na základě porovnání informačního obsahu různě velkých okolí. Při získávání hodnot informační funkce jsou počítány četnosti každé z dvaceti aminokyselin. Přičemž je požadováno, aby centrální reziduum bylo v dané konformaci, ale aproximace předpokládá, že mezi rezidui uvnitř okna sedmnácti aminokyselin nejsou žádné vzájemné vztahy (ačkoliv sekundární struktura je utvářena zejména mezi sousedními aminokyselinami). Tedy: I( S j ; R 1,..., R n ) 8 m= 8 I( S j ; R jm ) Tato metoda předpovídá čtyři konformace: H (α-helix), E (β-list), C (smyčka) a T (otočka). [10] GOR III Aproximace představená v této verzi metody je založená na tzv. párové informaci využívá korelaci mezi typem předpovídaného rezidua a mezi typy ostatních reziduí v okně: I( S j ; R 1,..., R n ) I( S j ; R j ) I( S j ; R jm R j ) m,m 0 Výraz I( S j ; R jm R j ) označuje podmíněnou informaci, využívá četností R j a R jm, přičemž R j je v požadované konformaci S, resp. S (konformace rezidua R jm není uvažována). Pro získání všech hodnot informační funkce stačí vyhodnotit četnost 1200 kombinací (dvojice aminokyselin po dvaceti možnostech a tři možné konformace). [10] GOR V Pátá verze metody GOR přináší zásadní změnu díky využití evoluční informace. Ideou této úpravy je to, že v průběhu evoluce je struktura konzervovanější než sekvence. Evoluční informace o proteinu je získána jeho zarovnáním vůči příbuzným proteinům. Nejprve je provedeno vícenásobné zarovnání mezi dotazovanou sekvencí a referenční databází. Pro jednotlivá zarovnání jsou pomocí metody GOR určeny pravděpodobnosti jednotlivých konformací; je-li na dané pozice mezera v zarovnání, pravděpodobnost je nulová. Následně je spočítán průměr pravděpodobností na jednotlivých pozicích napříč všemi zarovnáními a dané pozici v proteinu je přiřazena konformace s největší průměrnou pravděpodobností výskytu. Samotný výpočet GOR je inovován dvěma zásadnějšími způsoby. Při výpočtu jsou kromě samostatných reziduí (verze I, II) a dvojic (verze III, IV) používány i trojice reziduí. Velikost okna je proměnlivá, pro kratší proteiny je používáno menší okno toto má vliv na přesnost predikce zejména na koncích sekvence. [17] 18

22 3.4 ZPRED Tuto metodu představili Markéta Zvelebil a kol. v roce Metoda rozšiřuje metodu GOR, vychází z idei konzervovanosti proteinů a z pozorování, že největší rozdíly mezi zarovnanými homologními proteiny jsou v oblastech smyček spojujících ostatní prvky sekundární struktury. Nejprve je vytvořeno vícenásobné zarovnání pomocí opakovaného použití algoritmu Needleman-Wunsch. Mějme tedy N aminokyselinových sekvencí (označených jako sekvence 1 až sekvence N). Nejprve je zarovnána sekvence 2 oproti sekvenci 1, pak je zarovnána sekvence 3 proti zarovnání sekvencí 1 a 2, a tak dále pro sekvence 4 až N. Poté je znovu zarovnána sekvence 1 proti sekvencím 2 až N, sekvence 2 proti sekvencím 1, 3, 4 až N, atd. Pro každou pozici i v řetězci je spočítáno konzervační číslo C i 0, 1. Je porovnáváno deset chemických vlastností (hydrofobní, pozitivní, negativní, nabitá, polární, malá, maličká, alifatická, aromatická, je to prolin) a za každou vlastnost, v níž se zarovnané aminokyseliny na dané pozici liší, je zvýšena hodnota čítače P. Hodnota C i je vypočítána jako 0, 9 0, 1P. Pokud jsou všechny aminokyseliny na dané pozici stejné, je C i = 1, 0. Hodnota C i je ještě upravena v případě výskytů mezer v zarovnání nebo určitých aminokyselin. Zprůměrováním přes tři rezidua (i-1, i, i1) je určena vyhlazená hodnota CS i. Tato hodnota může být použitá ke zpřesnění predikce struktury smyčky obvykle mají nízkou hodnotu CS i. Ještě je vypočítána průměrná konzervační hodnota pro celý protein C av a je stanovena hodnota konstanty A (která reflektuje míru konzervovanosti proteinu, optimální hodnota je mezi 150 a 250). Je vypočítán rozdíl mezi průměrnou a vyhlazenou konzervační hodnotou, A(CS i C av ) a tento rozdíl je přičten k hodnotám informační funkce metody GOR pro α-helix a β-vlákno. [29] 3.5 PHD Metoda je založená na neuronových sítích, představili ji Burkhard Rost a Chris Sander v roce Používá tři dopředné vícevrstvé sítě. První síť klasifikuje sekvenci proteinu do tří tříd sekundární struktury (α-helix, β- list, smyčka). Vstupem je vícenásobné zarovnání sekvencí. Jeden vzorek tvoří zarovnání 13 následujících reziduí, každé reziduum v okně je reprezentováno 20 frekvencemi pro jednotlivé aminokyseliny. Výstupem je konformace centrálního rezidua. Okno je posouváno reziduum po reziduu celým proteinovým řetězcem. Aby okno mohlo přesáhnou přes konce řetězce, jsou vstupní neurony doplněny o 21. vstup, který indikuje prostor mimo řetězec. Druhá síť realizuje korelaci mezi sousedními rezidui, převádí strukturu na strukturu (například se snaží odstranit nereálně krátké úseky sekundární struktury). Jejím vstupem je 17 výstupů první sítě, výstup opět tvoří tři neurony pro tři možné konformace prostředního rezidua. Třetí síť odstraňuje citlivost neuronové sítě na koeficienty učení a nastavení počátečních vah. Kombinuje výstupy několika sítí druhé a první úrovně, naučených s různými parametry. [23] 19

23 3.6 NNSSP NNSSP je implementačně poměrně jednoduchá metoda, využívající nejbližšího sousedství a vícenásobného zarovnání. Jejími tvůrci jsou Asaf A. Salamov a Victor V. Solovyev, publikovali ji v roce Metoda postupuje 19prvkovým oknem, nalezne pro něj v databázi známých struktur 60 až 85 nejpodobnějších sekvencí a provede jejich vícenásobné zarovnání. Určí, která konformace se nejčastěji vyskytuje na centrální pozici a tuto předpoví pro centrální reziduum. Protože metoda předpovídá sekundární strukturu pro jednotlivá rezidua nezávisle, vzniká mnoho nereálně krátkých helixů a β-vláken. Proto je použita dodatečná filtrace, která podle určitých pravidel odstraňuje tyto krátké úseky buď je označí za smyčku, nebo je spojí do delšího úseku sekundární struktury. [24] 3.7 DSC DSC (Discrimination of Secondary structure Class) je metoda založená na dekompozici predikce sekundární struktury na základní koncepty a pak na jejich jednoduché kombinaci pomocí lineárních statistických metod. Na rozdíl od jiných metod typu černá skříňka (např. neuronové sítě) je její výpočet zcela transparentní. Publikovali ji Ross D. King a Michael J. E. Sternberg v roce Metoda začíná zarovnáním homologních sekvencí. Pro každou pozici rezidua počítá: střední GOR potenciál pro každou třídu sekundární struktury, vzdálenost ke konci řetězce, střední moment hydrofobicity za předpokladu α-helixu a β-vlákna, existence insercí, existence delecí a střední moment konzervovanosti sekundární struktury pro α-helix a β-vlákno. Těchto deset atributů je poté vyhlazeno a použitím lineární diskriminace je získána první úroveň predikce. Je spočítán podíl výskytů α-helixů a β-vláken a také poměr výskytu určitých aminokyselin v řetězci. Tyto hodnoty jsou použité pro další lineární diskriminaci a je získána predikce druhé úrovně. Lineární diskriminace nemůže podchytit všechny vlastnosti sekundární struktury, jako je např. autokorelace, zpětnovazební efekty sekundární struktury a omezení pro nejbližší okolí vyplývající ze struktury. Zpětná vazba je modelována ve dvou úrovních pomocí vyhlazených atributů a pomocí úseků α-helixů a β-vláken (úseky smyček by byly redundantní, lze je získat z míry výskytu α-helixů a β-vláken). Vyhlazování je prováděno pomocí standardních mediánových filtrů a Hanningova vyhlazování. Finální výsledek je ještě filtrován na odstranění nereálně krátkých úseků sekundární struktury. [16] 3.8 PREDATOR PREDATOR je metoda založená na znalostech a párovém zarovnání, publikovali ji Dmitrij Frishman a Patrick Argos v roce Na rozdíl od jiných metod nepoužívá vícenásobné zarovnání, ale místo toho zarovná samostatně zkoumanou sekvenci vůči jednotlivým sekvencím v databázi a do dalšího výpočtu uvažuje pouze úseky, které jsou dostatečně podobné. Pro každou vybranou sekvenci či její úsek metoda počítá tendence k vytvoření sedmi různých typů sekundární struktury. Tři zahrnují interakce na dlouhé vzdálenosti potenciální tvorbu vodíkových můstků mezi aminokyselinami v antiparalelním β-vlákně, v paralel- 20

24 ním β-vlákně a v α-helixu; tři další vycházejí z podobnosti zkoumané sekvence a sekvencí se známou strukturou (nejbližší sousedství) tendence vytvářet helix, β-vlákno a smyčku; a pravděpodobnost smyčky v okně čtyř reziduí. Výsledné tendence pro každou pozici v řetězci jsou spočítány jako vážený součet tendencí jednotlivých sekvencí. Váhy jsou odvozeny z podobnosti mezi zkoumanou sekvencí a zarovnaným úsekem. Pomocí několika pravidel a stanovených prahových hodnot jsou hodnoty tendencí převedeny na prvky sekundární struktury. Posledním krokem je postprocesing, který odstraňuje příliš krátké úseky sekundární struktury. [9] 3.9 JPred JPred je webový server poskytující interaktivní predikci sekundární struktury proteinu. V roce 1998 ho vytvořili James A. Cuff a kol. V době svého vzniku kombinoval predikci šesti tehdy nejdůležitějších metod. Server přijímá dva typy vstupních dat, rodinu zarovnaných proteinových sekvencí nebo jednu sekvenci. Je-li vstupem jedna sekvence, server automaticky vytvoří vícenásobné zarovnání potřebné pro predikci. Použité metody byly zvoleny tak, aby reprezentovaly tehdejší stav na poli predikce, každá používala jinou heuristiku. NNSSP využívá nejbližší sousedství, DSC lineární diskriminaci, PHD rozhodovací neuronové sítě, PREDATOR používá schopnost vytvářet vodíkové můstky, MULPRED konsensus několika jedno-sekvenčních metod a ZPRED je založena na konzervovanosti proteinů. Server navrací graficky zvýrazněné predikce jednotlivých metod, zarovnané oproti rodině sekvencí. Výstup také obsahuje pro každou aminokyselinu fyzikálně-chemické vlastnosti, úspěšnost predikce a hodnotu konzervovanosti. Server také navrací konsensuální výsledek získaný prostou většinou z metod NNSSP, DSC, PREDATOR a PHD. V případě nerozhodného výsledku je použit výsledek získaný metodou PHD. Tato kombinace byla v nezávislém testu autorů zvolena jako nejlepší, s nejvyšší úspěšností predikce. [6] 3.10 PSIPRED Metoda PSIPRED byla publikována v roce 1999, jejím autorem je David T. Jones. Tato metoda využívá neuronových sítí a evoluční informace získané vícenásobným zarovnáním sekvencí. Výpočet má tři fáze: generování sekvenčních profilů, prvotní odhad sekundární struktury a konečné filtrování předpovězené struktury. V první fázi je iterativně použit algoritmus PSI-BLAST pro získání pozičně specifických skórovacích matic (PSSM). PSSM v algoritmu PSI-BLAST slouží jako mezikrok před vytvořením vícenásobného zarovnání. Vytváření vícenásobného zarovnání je časově velmi náročné, PSIPRED tento krok vynechává a jako vstup do další fáze mu slouží přímo PSSM. Matice PSSM ke každé pozici v sekvenci proteinu obsahuje dvacet pravděpodobností (podle dvaceti aminokyselin) náhrady residua na dané pozici. Tyto pravděpodobnosti vychází z matice BLOSUM62. V závislosti na pokrytí dosaženém při zarovnávání sekvencí mohou být prvky v PSSM založeny na několika sekvencích nebo odpovídají pouze zkou- 21

25 mané sekvenci (v tom případě jsou prvky v PSSM identické s příslušným sloupcem v matici BLOSUM62). Druhá fáze je tvořená neuronovou sítí. Jedná se o standardní dopřednou síť typu backpropagation. Při učení sítě bylo 10 % trénovacích dat ponecháno stranou a sloužilo pouze pro testování: ve chvíli, kdy chyba testovacích dat přestala klesat a začala stoupat, bylo učení ukončeno (tím je zamezeno přeučení neuronové sítě). Neuronová síť načítá 15 sousedních pozic z PSSM, ke 20 hodnotám pro standardní aminokyseliny přidává ještě jeden vstup indikující N- a C-konec proteinového řetězce, celkově tedy obsahuje 315 vstupů. Síť dále tvoří jedna skrytá vrstva o 75 neuronech a tři výstupní uzly, které reprezentují základní konformace (α-helix, β-vlákno a smyčka). Na dodatečnou filtraci postupných výsledků slouží druhá neuronová síť. Tato síť má 60 vstupů (zkoumá 15 výstupů první sítě, každý výstup může být v jedné ze tří konformací nebo obsahovat ukončení řetězce), síť dále obsahuje 60 neuronů ve skryté vrstvě a tři výstupní uzly (opět jeden výstup pro jednu ze tří konformací). Ačkoliv je tato metoda výpočetně relativně nenáročná, poskytuje kvalitní výsledky. [14] 3.11 Jnet Tato metoda je založená na neuronových sítích; je podobná metodě PHD. Byla publikována v roce 2000, autory jsou James A. Cuff a Geoffrey J. Barton. Tvoří ji tři úrovně neuronových sítí: první úroveň provádí mapování sekvence-struktura, druhá struktura-struktura, třetí posuzuje a vybírá nejlepší výsledek. Na první úrovni je síť s posuvným oknem o 19 prvcích, obsahuje devět skrytých uzlů a tři výstupní. Druhá síť má za vstup okno 19 výstupů první sítě a opět má devět uzlů ve skryté vrstvě a tři uzly výstupní. Metoda je zaměřena na kvalitu trénovacího procesu. Pro trénování neuronových sítí je použito několik typů vícenásobných zarovnání stejných sekvencí. Pokud nedojde ke shodě při vybírání výsledné konformace, jsou sporné pozice v proteinu použity pro trénování separátní neuronové sítě a výstup z této nové sítě je použit jako predikce pro sporná rezidua. Díky tomu bylo dosaženo zvýšení úspěšnosti predikce. Také se zlepšila důvěryhodnost výsledků. [5] 3.12 NPS@ NPS@ je webový server, který zaštiťuje řadu nástrojů pro zpracování proteinových sekvencí. Byl vytvořený v roce 2000, jeho autory jsou Christophe Combet a kol. Server obsahuje nástroje umožňující vyhledávat homologní sekvence, vytvářet podmnožiny příbuzných sekvencí, provádět vícenásobné zarovnání, předpovídat sekundární strukturu a generovat konsensuální strukturu, zobrazovat fyzikálně-chemické profily (hydrofobicitu, membránové regiony apod.), detekovat funkční místa, předpovídat umístění coiled-coil regionů a identifikovat možné helix-turn-helix motivy. Z nástrojů pro sekundární predikci server obsahuje metody DPM, DSC, GOR I, GOR III, GOR IV, HNN, MLRC, PHD, PREDATOR, SIMPA96, SOPM a SOPMA. [3] 22

26 3.13 Shrnutí metod predikce sekundární struktury proteinů Všechny soudobé metody jsou si do určité míry podobné. Obvykle mají stejnou třístupňovou architekturu a liší se jen klasifikačními metodami použitými v jednotlivých stupních (přičemž kvalita jejich výsledků je navzájem srovnatelná, žádná metoda nevyčnívá výrazně nad ostatní). První stupeň provádí mapování z prostoru sekvencí do prostoru struktur, druhý stupeň mapuje strukturu na strukturu (např. se snaží zpracovat nelokálnost β-vláken, uplatňuje omezení vyplývající ze sousedství různých konformací, aj.) a třetí stupeň provádí dodatečnou filtraci, během které opravuje chyby (nereálně krátké struktury apod.) vzniklé v předešlých stupních. Vstupem většiny metod je vícenásobné zarovnání homologních sekvencí. Tato podobnost možná znamená, že to je nejlepší možný způsob pro predikci. Nebo možná přesně naopak, že existuje mnohem lepší metoda založená na úplně jiném principu, jen ji ještě nikdo neobjevil... Tato podobnost naznačuje, že vývoj predikčních metod by mohl probíhat modulárně, jednotlivé stupně by mohly být navrhovány, vytvářeny, testovány a zdokonalovány nezávisle na sobě a při použití by si uživatel zvolil tu nejvhodnější kombinaci podle svých specifických záměrů. Na závěr této části si dovolím malou prognózu do budoucna význam predikčních metod sekundární struktury bude klesat, protože s rozvojem metod predikce 3D struktury dojde k tomu, že bude přesnější stanovit celou prostorovou strukturu a z ní vyextrahovat informace o sekundární struktuře. Současně s tím poklesne i zájem o sekundární strukturu, protože její znalost již nebude mít velký praktický význam. 23

27 Kapitola 4 Návrh evolučních experimentů Tato kapitola se zabývá popisem plánovaného experimentu. Cílem experimentování je posoudit závislost mezi změnou sekvence proteinu a změnou jeho sekundární struktury. Tedy budu mutovat aminokyselinovou sekvenci proteinu a sledovat, jak se proměňuje jeho sekundární struktura. Podobný experiment již byl představen v článku Protein secondary structure appears to be robust under in silico evolution while protein disorder appears not to be [25]. 4.1 Kostra experimentu Samotný výpočet bude řešen nezávisle pro každý jednotlivý protein z testovací množiny. Pro tento nativní protein bude zjištěna jeho sekundární struktura a tato struktura bude sloužit jako referenční struktura po zbytek experimentu. Sekvenci každého proteinu budu postupně mutovat ve zvoleném počtu kroků. Po každém mutačním kroku zjistím sekundární strukturu vzniklého mutanta a vyhodnotím, jak moc se změnila struktura mutanta ve srovnání se strukturou původního proteinu. Výstupem experimentu jsou grafy, které zobrazí vzájemný vztah mezi mírou odlišnosti původní a zmutované sekvence a mezi mírou odlišnosti sekundárních struktur původní a zmutované sekvence. Na obrázku 4.1 je znázorněno schéma tohoto experimentu. 4.2 Mutační protokol V rámci jednoho mutačního kroku dojde ke zmutování předem zvoleného počtu aminokyselin v proteinu. Počet mutovaných reziduí bude zadán poměrně vůči délce proteinové sekvence, tak, aby počet mutovaných aminokyselin byl úměrný délce proteinu. Tím je zajištěno, aby různě dlouhé proteiny byly během jednoho kroku postiženy mutací ve stejné míře. Při každé jednotlivé mutaci aminokyseliny je náhodně vybrána pozice v sekvenci a zde se nacházející aminokyselina je náhodně nahrazena jinou aminokyselinou. Při mutaci může dojít k i tomu, že se aminokyselina nezmění v přírodě tomu odpovídají synonymní mutace nukleotidů (zmutovaný i původní kodon kódují tutéž aminokyselinu), také to vyjadřuje evoluční stabilitu na dané pozici, kdy přírodní výběr potlačuje zde vzniklé mutace. 24

28 Původní sekvence mutace 3 Původní sekundární struktura porovnání Zmutovaná sekvence 3 Zmutovaná sekundární struktura Obrázek 4.1: Schéma experimentu (iterace pro jeden protein). Pravděpodobnosti záměn pro každou dvojici aminokyselin, stejně tak jako počet aminokyselin mutovaných v jednom kroku, musí být modifikovatelné v konfiguraci simulátoru evoluce. 4.3 Získání sekundární struktury Ke zjišťování sekundární struktury zmutovaných sekvencí bude nutné použít nějakou predikční metodu, protože se nejedná o reálně existující proteiny, u nichž by mohla být struktura zjištěna experimentálně. Budu používat metodu PSIPRED. Je to metoda, která poskytuje kvalitní výsledky v rozumném čase a je dostupná ve stand-alone verzi. [14] [26] U některých nativních proteinů (které se vyskytují v prvním kroku výpočtu) může být známá jejich skutečná struktura. Zde by pak existovala možnost použít tuto skutečnou strukturu jako referenční, vůči které by se vyhodnocovaly změny sekundární struktury jednotlivých mutantů. Tím by ale došlo k zanesení systematické chyby do experimentu: za předpokladu, že predikční metoda není absolutně bezchybná, musí pro některé proteiny existovat rozdíl mezi skutečnou a predikovanou sekundární strukturou. Při použití skutečné struktury jako referenční by pak tento rozdíl poznamenal všechna porovnání predikované struktury zmutovaných sekvencí s referenční strukturou. Proto je nezbytně nutné, aby referenční sekundární struktura byla získána stejným způsobem, jakým bude zjišťována struktura mutantů. K vyhodnocení odlišností sekundárních struktur budu používat metriku Q 3 (třístavovou podobnost). Není to tedy použití metriky k jejímu původnímu účelu (změření chyby predikce), ale způsob použití je naprosto stejný. 4.4 Podmínka ukončení V experimentu má smysl pokračovat jen do té doby, dokud je zmutovaná sekvence alespoň trochu podobná původní sekvenci. Kdyby výpočet pokračoval, jakékoliv zjištěné informace by už neměly vztah k původnímu proteinu, ale popisovaly by vlastnosti náhodné aminokyselinové sekvence. 25

Genetický kód. Jakmile vznikne funkční mrna, informace v ní obsažená může být ihned použita pro syntézu proteinu.

Genetický kód. Jakmile vznikne funkční mrna, informace v ní obsažená může být ihned použita pro syntézu proteinu. Genetický kód Jakmile vznikne funkční, informace v ní obsažená může být ihned použita pro syntézu proteinu. Pravidla, kterými se řídí prostřednictvím přenos z nukleotidové sekvence DNA do aminokyselinové

Více

Molekulární genetika IV zimní semestr 6. výukový týden ( )

Molekulární genetika IV zimní semestr 6. výukový týden ( ) Ústav biologie a lékařské genetiky 1.LF UK a VFN, Praha Molekulární genetika IV zimní semestr 6. výukový týden (5.11. 9.11.2007) Nondisjunkce u Downova syndromu 2 Tři rodokmeny rodin s dětmi postiženými

Více

Hemoglobin a jemu podobní... Studijní materiál. Jan Komárek

Hemoglobin a jemu podobní... Studijní materiál. Jan Komárek Hemoglobin a jemu podobní... Studijní materiál Jan Komárek Bioinformatika Bioinformatika je vědní disciplína, která se zabývá metodami pro shromážďování, analýzu a vizualizaci rozsáhlých souborů biologických

Více

Virtuální svět genetiky 1. Translace

Virtuální svět genetiky 1. Translace (překlad) je druhým krokem exprese genetické informace a ukončuje dráhu DNA > RNA > protein. probíhá mimo jádro, v cytoplazmě na ribozómech. Výchozími látkami pro translaci je 21 standardních aminokyselin,

Více

Populační genetika. ) a. Populační genetika. Castle-Hardy-Weinbergova zákonitost. Platí v panmiktické populaci za předpokladu omezujících podmínek

Populační genetika. ) a. Populační genetika. Castle-Hardy-Weinbergova zákonitost. Platí v panmiktické populaci za předpokladu omezujících podmínek Poulační genetika Poulační genetika ORGANISMUS Součást výše organizované soustavy oulace POPULACE Soubor jedinců jednoho druhu Genotyově heterogenní V určitém čase má řirozeně vymezený rostor Velký očet

Více

Molekulárn. rní genetika

Molekulárn. rní genetika Molekulárn rní genetika Centráln lní dogma molekulárn rní biologie cesta přenosu genetické informace: DNA RNA proteiny výjimkou reverzní transkripce retrovirů: RNA DNA Chemie nukleových kyselin dusíkaté

Více

Bílkoviny - proteiny

Bílkoviny - proteiny Bílkoviny - proteiny Proteiny jsou složeny z 20 kódovaných aminokyselin L-enantiomery Chemická struktura aminokyselin R představuje jeden z 20 různých typů postranních řetězců R Hlavní řetězec je neměnný

Více

Inovace studia molekulární a buněčné biologie

Inovace studia molekulární a buněčné biologie Inovace studia molekulární a buněčné biologie Tento projekt je spolufinancován Evropským sociálním fondem a státním rozpočtem České republiky. MBIO1/Molekulární biologie 1 Tento projekt je spolufinancován

Více

Molekulární genetika (Molekulární základy dědičnosti)

Molekulární genetika (Molekulární základy dědičnosti) Molekulární genetika (Molekulární základy dědičnosti) Struktura nukleové kyseliny Cukerná pentóza: 2-deoxy-D-ribóza D-ribóza Fosfátový zbytek: PO 4 3- Purin Pyrimidin Dusíkatá báze Adenin Guanin Tymin

Více

Studijní materiály pro bioinformatickou část ViBuChu. úloha II. Jan Komárek, Gabriel Demo

Studijní materiály pro bioinformatickou část ViBuChu. úloha II. Jan Komárek, Gabriel Demo Studijní materiály pro bioinformatickou část ViBuChu úloha II Jan Komárek, Gabriel Demo Adenin Struktura DNA Thymin 5 konec 3 konec DNA tvořena dvěmi řetězci orientovanými antiparalelně (liší se orientací

Více

Gymnázium Vysoké Mýto nám. Vaňorného 163, 566 01 Vysoké Mýto

Gymnázium Vysoké Mýto nám. Vaňorného 163, 566 01 Vysoké Mýto Gymnázium Vysoké Mýto nám. Vaňorného 163, 566 01 Vysoké Mýto SUBSTITUČNÍ DERIVÁTY KARBOXYLOVÝCH O KYSELIN R C O X karboxylových kyselin - substituce na vedlejším uhlovodíkovém řetězci aminokyseliny - hydroxykyseliny

Více

Struktura proteinů. - testík na procvičení. Vladimíra Kvasnicová

Struktura proteinů. - testík na procvičení. Vladimíra Kvasnicová Struktura proteinů - testík na procvičení Vladimíra Kvasnicová Mezi proteinogenní aminokyseliny patří a) kyselina asparagová b) kyselina glutarová c) kyselina acetoctová d) kyselina glutamová Mezi proteinogenní

Více

Propojení výuky oborů Molekulární a buněčné biologie a Ochrany a tvorby životního prostředí. Reg. č.: CZ.1.07/2.2.00/

Propojení výuky oborů Molekulární a buněčné biologie a Ochrany a tvorby životního prostředí. Reg. č.: CZ.1.07/2.2.00/ Propojení výuky oborů Molekulární a buněčné biologie a Ochrany a tvorby životního prostředí Reg. č.: CZ.1.07/2.2.00/28.0032 Molekulární genetika (Molekulární základy dědičnosti) 0 Gen - historie 1909 Johanssen

Více

Proteiny Genová exprese. 2013 Doc. MVDr. Eva Bártová, Ph.D.

Proteiny Genová exprese. 2013 Doc. MVDr. Eva Bártová, Ph.D. Proteiny Genová exprese 2013 Doc. MVDr. Eva Bártová, Ph.D. Bílkoviny (proteiny), 15% 1g = 17 kj Monomer = aminokyseliny aminová skupina karboxylová skupina α -uhlík postranní řetězec Znát obecný vzorec

Více

Aminokyseliny. Gymnázium a Jazyková škola s právem státní jazykové zkoušky Zlín. Tematická oblast Datum vytvoření Ročník Stručný obsah Způsob využití

Aminokyseliny. Gymnázium a Jazyková škola s právem státní jazykové zkoušky Zlín. Tematická oblast Datum vytvoření Ročník Stručný obsah Způsob využití Aminokyseliny Tematická oblast Datum vytvoření Ročník Stručný obsah Způsob využití Autor Kód Chemie přírodních látek proteiny 18.7.2012 3. ročník čtyřletého G Určování postranních řetězců aminokyselin

Více

základní znaky živých systémů (definice života výčtem jeho vlastností) složitá organizace a řád regulace a udržování vnitřní homeostázy získávání a

základní znaky živých systémů (definice života výčtem jeho vlastností) složitá organizace a řád regulace a udržování vnitřní homeostázy získávání a definice života živý organismus je přirozeně se vyskytující sám sebe reprodukující systém, který vykonává řízené manipulace s hmotou, energií a informací základní znaky živých systémů (definice života

Více

Molekulární genetika

Molekulární genetika Molekulární genetika Upozornění: ukončení semestru ZÁPOČTOVÝ TEST a) Dědičnost krevně skupinových systémů (AB0, MN, Rh) b) Přepis úseku DNA do sekvence aminokyselin c) Populační genetika výpočet frekvence

Více

PROTEINY. Biochemický ústav LF MU (H.P.)

PROTEINY. Biochemický ústav LF MU (H.P.) PROTEINY Biochemický ústav LF MU 2013 - (H.P.) 1 proteiny peptidy aminokyseliny 2 Aminokyseliny 3 Charakteristika základní stavební jednotky proteinů geneticky kódované 20 základních aminokyselin 4 a-aminokyselina

Více

Inovace studia molekulární a buněčné biologie

Inovace studia molekulární a buněčné biologie Inovace studia molekulární a buněčné biologie I n v e s t i c e d o r o z v o j e v z d ě l á v á n í reg. č. CZ.1.07/2.2.00/07.0354 Tento projekt je spolufinancován Evropským sociálním fondem a státním

Více

Genomické databáze. Shlukování proteinových sekvencí. Ivana Rudolfová. školitel: doc. Ing. Jaroslav Zendulka, CSc.

Genomické databáze. Shlukování proteinových sekvencí. Ivana Rudolfová. školitel: doc. Ing. Jaroslav Zendulka, CSc. Genomické databáze Shlukování proteinových sekvencí Ivana Rudolfová školitel: doc. Ing. Jaroslav Zendulka, CSc. Obsah Proteiny Zdroje dat Predikce struktury proteinů Cíle disertační práce Vstupní data

Více

b) Jak se změní sekvence aminokyselin v polypeptidu, pokud dojde v pozici 23 k záměně bázového páru GC za TA (bodová mutace) a s jakými následky?

b) Jak se změní sekvence aminokyselin v polypeptidu, pokud dojde v pozici 23 k záměně bázového páru GC za TA (bodová mutace) a s jakými následky? 1.1: Gén pro polypeptid, který je součástí peroxidázy buku lesního, má sekvenci 3'...TTTACAGTCCATTCGACTTAGGGGCTAAGGTACCTGGAGCCCACGTTTGGGTCATCCAG...5' 5'...AAATGTCAGGTAAGCTGAATCCCCGATTCCATGGACCTCGGGTGCAAACCCAGTAGGTC...3'

Více

Výukový materiál zpracován v rámci projektu EU peníze školám Registrační číslo projektu: CZ.1.07/1.5.00/34.0996

Výukový materiál zpracován v rámci projektu EU peníze školám Registrační číslo projektu: CZ.1.07/1.5.00/34.0996 Výukový materiál zpracován v rámci projektu EU peníze školám Registrační číslo projektu: CZ.1.07/1.5.00/34.0996 Šablona: III/2 č. materiálu: VY_32_INOVACE_CHE_413 Jméno autora: Mgr. Alena Krejčíková Třída/ročník:

Více

Translace (druhý krok genové exprese)

Translace (druhý krok genové exprese) Translace (druhý krok genové exprese) Od RN k proteinu Milada Roštejnská Helena Klímová 1 enetický kód trn minoacyl-trn-synthetasa Translace probíhá na ribosomech Iniciace translace Elongace translace

Více

Aminokyseliny příručka pro učitele. Obecné informace: Téma otevírá kapitolu Bílkoviny, která svým rozsahem překračuje rámec jedné vyučovací hodiny.

Aminokyseliny příručka pro učitele. Obecné informace: Téma otevírá kapitolu Bílkoviny, která svým rozsahem překračuje rámec jedné vyučovací hodiny. Obecné informace: Aminokyseliny příručka pro učitele Téma otevírá kapitolu Bílkoviny, která svým rozsahem překračuje rámec jedné vyučovací hodiny. Navazující učivo Před probráním tématu Aminokyseliny probereme

Více

Názvosloví cukrů, tuků, bílkovin

Názvosloví cukrů, tuků, bílkovin Názvosloví cukrů, tuků, bílkovin SACARIDY CUKRY MNSACARIDY LIGSACARIDY PLYSACARIDY (z mnoha molekul monosacharidů) ALDSY KETSY -DISACARIDY - TRISACARIDY - TETRASACARIDY atd. -aldotriosy -aldotetrosy -aldopentosy

Více

Obecná struktura a-aminokyselin

Obecná struktura a-aminokyselin AMINOKYSELINY Obsah Obecná struktura Názvosloví, třídění a charakterizace Nestandardní aminokyseliny Reaktivita - peptidová vazba Biogenní aminy Funkce aminokyselin Acidobazické vlastnosti Optická aktivita

Více

Molekulární základy dědičnosti. Ústřední dogma molekulární biologie Struktura DNA a RNA

Molekulární základy dědičnosti. Ústřední dogma molekulární biologie Struktura DNA a RNA Molekulární základy dědičnosti Ústřední dogma molekulární biologie Struktura DNA a RNA Ústřední dogma molekulární genetiky - vztah mezi nukleovými kyselinami a proteiny proteosyntéza replikace DNA RNA

Více

TRANSLACE - SYNTÉZA BÍLKOVIN

TRANSLACE - SYNTÉZA BÍLKOVIN TRANSLACE - SYNTÉZA BÍLKOVIN Translace - překlad genetické informace z jazyka nukleotidů do jazyka aminokyselin podle pravidel genetického kódu. Genetický kód - způsob zápisu genetické informace Kód Morseovy

Více

Metabolismus bílkovin. Václav Pelouch

Metabolismus bílkovin. Václav Pelouch ZÁKLADY OBECNÉ A KLINICKÉ BIOCHEMIE 2004 Metabolismus bílkovin Václav Pelouch kapitola ve skriptech - 3.2 Výživa Vyvážená strava člověka musí obsahovat: cukry (50 55 %) tuky (30 %) bílkoviny (15 20 %)

Více

Typy molekul, látek a jejich vazeb v organismech

Typy molekul, látek a jejich vazeb v organismech Typy molekul, látek a jejich vazeb v organismech Typy molekul, látek a jejich vazeb v organismech Organismy se skládají z molekul rozličných látek Jednotlivé látky si organismus vytváří sám z jiných látek,

Více

Aminokyseliny. Peptidy. Proteiny.

Aminokyseliny. Peptidy. Proteiny. Aminokyseliny. Peptidy. Proteiny. Struktura a vlastnosti aminokyselin 1. Zakreslete obecný vzorec -aminokyseliny. Která z kodovaných aminokyselin se z tohoto vzorce vymyká? 2. Které aminokyseliny mají

Více

Aminokyseliny, struktura a vlastnosti bílkovin. doc. Jana Novotná 2 LF UK Ústav lékařské chemie a klinické biochemie

Aminokyseliny, struktura a vlastnosti bílkovin. doc. Jana Novotná 2 LF UK Ústav lékařské chemie a klinické biochemie Aminokyseliny, struktura a vlastnosti bílkovin doc. Jana Novotná 2 LF UK Ústav lékařské chemie a klinické biochemie 1. 20 aminokyselin, kódovány standardním genetickým kódem, proteinogenní, stavebními

Více

Bílkoviny. Charakteristika a význam Aminokyseliny Peptidy Struktura bílkovin Významné bílkoviny

Bílkoviny. Charakteristika a význam Aminokyseliny Peptidy Struktura bílkovin Významné bílkoviny Bílkoviny harakteristika a význam Aminokyseliny Peptidy Struktura bílkovin Významné bílkoviny 1) harakteristika a význam Makromolekulární látky složené z velkého počtu aminokyselinových zbytků V tkáních

Více

Exprese genetické informace

Exprese genetické informace Exprese genetické informace Tok genetické informace DNA RNA Protein (výjimečně RNA DNA) DNA RNA : transkripce RNA protein : translace Gen jednotka dědičnosti sekvence DNA nutná k produkci funkčního produktu

Více

Využití metod strojového učení v bioinformatice David Hoksza

Využití metod strojového učení v bioinformatice David Hoksza Využití metod strojového učení v bioinformatice David Hoksza SIRET Research Group Katedra softwarového inženýrství, Matematicko-fyzikální fakulta Karlova Univerzita v Praze Bioinformatika Biologické inspirace

Více

Exprese genetického kódu Centrální dogma molekulární biologie DNA RNA proteinu transkripce DNA mrna translace proteosyntéza

Exprese genetického kódu Centrální dogma molekulární biologie DNA RNA proteinu transkripce DNA mrna translace proteosyntéza Exprese genetického kódu Centrální dogma molekulární biologie - genetická informace v DNA -> RNA -> primárního řetězce proteinu 1) transkripce - přepis z DNA do mrna 2) translace - přeložení z kódu nukleových

Více

Dědičnost x proměnlivost Neboli heredita je schopnost organismů vytvářet potomky se stejnými nebo podobnými znaky. Je to jedna ze základních

Dědičnost x proměnlivost Neboli heredita je schopnost organismů vytvářet potomky se stejnými nebo podobnými znaky. Je to jedna ze základních Mgr. Zbyněk Houdek Doporučenálit.: Alberts, B. a kol.: Základy buněčné biologie (1998) Kočárek, E.: Genetika (2008) Kubišta, V.: Buněčné základy životních dějů (1998) Otová, B. a kol.: Lékařská biologie

Více

Aminokyseliny, peptidy a bílkoviny

Aminokyseliny, peptidy a bílkoviny Aminokyseliny, peptidy a bílkoviny Dělení aminokyselin Z hlediska obsahu v živé hmotě Z hlediska významu ve výživě Z chemického hlediska Z hlediska rozpustnosti Dělení aminokyselin Z hlediska obsahu v

Více

Přírodní polymery proteiny

Přírodní polymery proteiny Přírodní polymery proteiny Funkční úloha bílkovin 1. Funkce dynamická transport kontrola metabolismu interakce (komunikace, kontrakce) katalýza chemických přeměn 2. Funkce strukturální architektura orgánů

Více

Molekulární genetika. DNA = deoxyribonukleová kyselina. RNA = ribonukleová kyselina

Molekulární genetika. DNA = deoxyribonukleová kyselina. RNA = ribonukleová kyselina Přehled GMH Seminář z biologie GENETIKA Molekulární genetika Základní dogma molekulární biologie Základním nosičem genetické informace je molekula DNA. Tato molekula se může replikovat (kopírovat). Informace

Více

ÚVOD DO BIOCHEMIE. Dělení : 1)Popisná = složení org., struktura a vlastnosti látek 2)Dynamická = energetické změny

ÚVOD DO BIOCHEMIE. Dělení : 1)Popisná = složení org., struktura a vlastnosti látek 2)Dynamická = energetické změny BIOCHEMIE 1 ÚVOD DO BIOCHEMIE BCH zabývá se chemickými procesy v organismu a chemickým složením živých organismů Biologie: bios = život + logos = nauka Biochemie: bios = život + chemie Dělení : Chemie

Více

PREDIKCE VLIVU AMINOKYSELINOVÝCH MUTACÍ NA SEKUNDÁRNÍ STRUKTURU PROTEINŮ

PREDIKCE VLIVU AMINOKYSELINOVÝCH MUTACÍ NA SEKUNDÁRNÍ STRUKTURU PROTEINŮ VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ BRNO UNIVERSITY OF TECHNOLOGY FAKULTA INFORMAČNÍCH TECHNOLOGIÍ ÚSTAV INFORMAČNÍCH SYSTÉMŮ FACULTY OF INFORMATION TECHNOLOGY DEPARTMENT OF INFORMATION SYSTEMS PREDIKCE VLIVU

Více

Molekulární biofyzika

Molekulární biofyzika Molekulární biofyzika Molekuly v živých systémech - polymery Lipidy (mastné kyseliny, fosfolipidy, isoprenoidy, sfingolipidy ) proteiny (aminokyseliny) nukleové kyseliny (nukleotidy) polysacharidy (monosacharidy)

Více

Genetika: cvičení č. 1-2 DNA, RNA, replikace, transkripce, translace a genetický kód, mutace. KBI/GENE Mgr. Zbyněk Houdek

Genetika: cvičení č. 1-2 DNA, RNA, replikace, transkripce, translace a genetický kód, mutace. KBI/GENE Mgr. Zbyněk Houdek Genetika: cvičení č. 1-2 DNA, RNA, replikace, transkripce, translace a genetický kód, mutace KBI/GENE Mgr. Zbyněk Houdek Témata cvičení 1. DNA, RNA, replikace, transkripce, translace, genetický kód, centrální

Více

Určení molekulové hmotnosti: ESI a nanoesi

Určení molekulové hmotnosti: ESI a nanoesi Cvičení Určení molekulové hmotnosti: ESI a nanoesi ) 1)( ( ) ( H m z H m z M k j j j m z z zh M Molekula o hmotnosti M se nabije z-krát protonem, pík iontu ve spektru je na m z : ) ( H m z M z Pro dva

Více

Základy genomiky. I. Úvod do bioinformatiky. Jan Hejátko

Základy genomiky. I. Úvod do bioinformatiky. Jan Hejátko Základy genomiky I. Úvod do bioinformatiky Jan Hejátko Masarykova univerzita, Oddělení funkční genomiky a proteomiky Laboratoř molekulární fyziologie rostlin Základy genomiky I. Zdrojová literatura ke

Více

Struktura nukleových kyselin Vlastnosti genetického materiálu

Struktura nukleových kyselin Vlastnosti genetického materiálu Struktura nukleových kyselin Vlastnosti genetického materiálu V předcházejících kapitolách bylo konstatováno, že geny jsou uloženy na chromozomech a kontrolují fenotypové vlastnosti a že chromozomy se

Více

MOLEKULOVÉ MODELOVÁNÍ - STRUKTURA. Monika Pěntáková Katedra Farmaceutické chemie

MOLEKULOVÉ MODELOVÁNÍ - STRUKTURA. Monika Pěntáková Katedra Farmaceutické chemie MOLEKULOVÉ MODELOVÁNÍ - STRUKTURA Monika Pěntáková Katedra Farmaceutické chemie Chemická struktura a geometrie KONFORMACE = můžeme změnit pouhým otočením kolem kovalentní vazby KONFIGURACE = při změně

Více

Josef Reischig, Jiří Hatina, Marie Ludvíková OBECNÁ GENETIKA. Praktická cvičení

Josef Reischig, Jiří Hatina, Marie Ludvíková OBECNÁ GENETIKA. Praktická cvičení Josef Reischig, Jiří Hatina, Marie Ludvíková OBECNÁ GENETIKA Praktická cvičení Popis průběhu spermatogeneze a meiózv u sarančat Spermatocyty I. řádu po proběhlé S fázi (2n, 4C) prochází prvním meiotickým

Více

Vzdělávací materiál. vytvořený v projektu OP VK. Anotace. Název školy: Gymnázium, Zábřeh, náměstí Osvobození 20. Číslo projektu:

Vzdělávací materiál. vytvořený v projektu OP VK. Anotace. Název školy: Gymnázium, Zábřeh, náměstí Osvobození 20. Číslo projektu: Vzdělávací materiál vytvořený v projektu P VK Název školy: Gymnázium, Zábřeh, náměstí svobození 20 Číslo projektu: Název projektu: Číslo a název klíčové aktivity: CZ.1.07/1.5.00/34.0211 Zlepšení podmínek

Více

Schéma průběhu transkripce

Schéma průběhu transkripce Molekulární základy genetiky PROTEOSYNTÉZA A GENETICKÝ KÓD Proteosyntéza je složitý proces tvorby bílkovin, který zahrnuje proces přepisu genetické informace z DNA do kratšího zápisu v informační mrna

Více

Faculty of Nuclear Sciences and Physical Engineering Czech Technical University in Prague

Faculty of Nuclear Sciences and Physical Engineering Czech Technical University in Prague 1 / 23 Faculty of Nuclear Sciences and Physical Engineering Czech Technical University in Prague 2 / 23 biologové často potřebují najít často se opakující sekvence DNA tyto sekvence bývají relativně krátké,

Více

Tomáš Oberhuber. Faculty of Nuclear Sciences and Physical Engineering Czech Technical University in Prague

Tomáš Oberhuber. Faculty of Nuclear Sciences and Physical Engineering Czech Technical University in Prague Tomáš Faculty of Nuclear Sciences and Physical Engineering Czech Technical University in Prague Buňka buňka je základní stavební prvek všech živých organismů byla objevena Robertem Hookem roku 1665 jednodušší

Více

Molekulárn. rní. biologie Struktura DNA a RNA

Molekulárn. rní. biologie Struktura DNA a RNA Molekulárn rní základy dědičnosti Ústřední dogma molekulárn rní biologie Struktura DNA a RNA Ústřední dogma molekulárn rní genetiky - vztah mezi nukleovými kyselinami a proteiny proteosyntéza replikace

Více

Evropský sociální fond Praha & EU: Investujeme do vaší budoucnosti URČOVÁNÍ PRIMÁRNÍ STRUKTURY BÍLKOVIN

Evropský sociální fond Praha & EU: Investujeme do vaší budoucnosti URČOVÁNÍ PRIMÁRNÍ STRUKTURY BÍLKOVIN Evropský sociální fond Praha & EU: Investujeme do vaší budoucnosti URČOVÁNÍ PRIMÁRNÍ STRUKTURY BÍLKOVIN Primární struktura primární struktura bílkoviny je dána pořadím AK jejích polypeptidových řetězců

Více

Inovace bakalářského studijního oboru Aplikovaná chemie http://aplchem.upol.cz

Inovace bakalářského studijního oboru Aplikovaná chemie http://aplchem.upol.cz Inovace bakalářského studijního oboru Aplikovaná chemie http://aplchem.upol.cz Z.1.07/2.2.00/15.0247 Tento projekt je spolufinancován Evropským sociálním fondem a státním rozpočtem České republiky. Funkční

Více

Aminokyseliny, proteiny, enzymy Základy lékařské chemie a biochemie 2014/2015 Ing. Jarmila Krotká Metabolismus základní projev života látková přeměna souhrn veškerých dějů, které probíhají uvnitř organismu

Více

Projekční algoritmus. Urychlení evolučních algoritmů pomocí regresních stromů a jejich zobecnění. Jan Klíma

Projekční algoritmus. Urychlení evolučních algoritmů pomocí regresních stromů a jejich zobecnění. Jan Klíma Urychlení evolučních algoritmů pomocí regresních stromů a jejich zobecnění Jan Klíma Obsah Motivace & cíle práce Evoluční algoritmy Náhradní modelování Stromové regresní metody Implementace a výsledky

Více

aminokyseliny a proteiny

aminokyseliny a proteiny aminokyseliny a proteiny funkce proteinů : proteiny zastávají téměř všechny biologické funkce, s výjimkou přenosu informace stavební funkce buněk a tkání biokatalyzátory-urychlují biochemické reakce -

Více

Metabolismus aminokyselin. Vladimíra Kvasnicová

Metabolismus aminokyselin. Vladimíra Kvasnicová Metabolismus aminokyselin Vladimíra Kvasnicová Aminokyseliny aminokyseliny přijímáme v potravě ve formě proteinů: důležitá forma organicky vázaného dusíku, který tak může být v těle využit k syntéze dalších

Více

Molekulární biotechnologie č.9. Cílená mutageneze a proteinové inženýrství

Molekulární biotechnologie č.9. Cílená mutageneze a proteinové inženýrství Molekulární biotechnologie č.9 Cílená mutageneze a proteinové inženýrství Gen kódující jakýkoliv protein lze izolovat z přírody, klonovat, exprimovat v hostitelském organismu. rekombinantní protein purifikovat

Více

5. Umělé neuronové sítě. Neuronové sítě

5. Umělé neuronové sítě. Neuronové sítě Neuronové sítě Přesný algoritmus práce přírodních neuronových systémů není doposud znám. Přesto experimentální výsledky na modelech těchto systémů dávají dnes velmi slibné výsledky. Tyto systémy, včetně

Více

Struktura aminokyselin, peptidů a bílkovin.

Struktura aminokyselin, peptidů a bílkovin. Struktura aminokyselin, peptidů a bílkovin. Ústav lékařské chemie a klinické biochemie 2.LF UK a FN Motol MUDr. Bc. Matej Kohutiar, Ph.D. matej.kohutiar@lfmotol.cuni.cz Praha 2018 I. Struktura aminokyselin

Více

Algoritmy a struktury neuropočítačů ASN - P10. Aplikace UNS v biomedicíně

Algoritmy a struktury neuropočítačů ASN - P10. Aplikace UNS v biomedicíně Aplikace UNS v biomedicíně aplikace v medicíně postup při zpracování úloh Aplikace UNS v medicíně Důvod: nalezení exaktnějších, levnějších a snadnějších metod určování diagnóz pro lékaře nalezení šetrnějších

Více

Dobývání znalostí. Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze

Dobývání znalostí. Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze Dobývání znalostí Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze Dobývání znalostí Pravděpodobnost a učení Doc. RNDr. Iveta Mrázová,

Více

Organická chemie 3.ročník studijního oboru - kosmetické služby.

Organická chemie 3.ročník studijního oboru - kosmetické služby. Organická chemie 3.ročník studijního oboru - kosmetické služby. T-7 Funkční a substituční deriváty karboxylových kyselin Zpracováno v rámci projektu Zlepšení podmínek ke vzdělávání Registrační číslo projektu:

Více

Algoritmy a struktury neuropočítačů ASN - P11

Algoritmy a struktury neuropočítačů ASN - P11 Aplikace UNS při rozpoznání obrazů Základní úloha segmentace obrazu rozdělení obrazu do několika významných oblastí klasifikační úloha, clusterová analýza target Metody Kohonenova metoda KSOM Kohonenova

Více

Testové úlohy aminokyseliny, proteiny. post test

Testové úlohy aminokyseliny, proteiny. post test Testové úlohy aminokyseliny, proteiny post test 1. Které aminokyseliny byste hledali na povrchu proteinů umístěných uvnitř fosfolipidových membrán a které na povrchu proteinů vyskytujících se ve vodném

Více

7. Rozdělení pravděpodobnosti ve statistice

7. Rozdělení pravděpodobnosti ve statistice 7. Rozdělení pravděpodobnosti ve statistice Statistika nuda je, má však cenné údaje, neklesejte na mysli, ona nám to vyčíslí Jednou z úloh statistiky je odhad (výpočet) hodnot statistického znaku x i,

Více

Neuronové časové řady (ANN-TS)

Neuronové časové řady (ANN-TS) Neuronové časové řady (ANN-TS) Menu: QCExpert Prediktivní metody Neuronové časové řady Tento modul (Artificial Neural Network Time Series ANN-TS) využívá modelovacího potenciálu neuronové sítě k predikci

Více

Aminokyseliny a dlouhodobá parenterální výživa. Luboš Sobotka

Aminokyseliny a dlouhodobá parenterální výživa. Luboš Sobotka Aminokyseliny a dlouhodobá parenterální výživa Luboš Sobotka Reakce na hladovění a stres jsou stejné asi 4000000 let Přežít hladovění a akutní stav Metody sledování kvality AK roztoků Vylučovací metoda

Více

NUKLEOVÉ KYSELINY. Základ života

NUKLEOVÉ KYSELINY. Základ života NUKLEOVÉ KYSELINY Základ života HISTORIE 1. H. Braconnot (30. léta 19. století) - Strassburg vinné kvasinky izolace matiére animale. 2. J.F. Meischer - experimenty z hnisem štěpení trypsinem odstředěním

Více

DUM č. 15 v sadě. 22. Ch-1 Biochemie

DUM č. 15 v sadě. 22. Ch-1 Biochemie projekt GML Brno Docens DUM č. 15 v sadě 22. Ch-1 Biochemie Autor: Martin Krejčí Datum: 30.04.2014 Ročník: 6AF, 6BF Anotace DUMu: Rozdělení aminokyselin, chemické vzorce aminokyselin, amnokyseliny, významné

Více

Exprese genetické informace

Exprese genetické informace Exprese genetické informace Stavební kameny nukleových kyselin Nukleotidy = báze + cukr + fosfát BÁZE FOSFÁT Nukleosid = báze + cukr CUKR Báze Cyklické sloučeniny obsahující dusík puriny nebo pyrimidiny

Více

I N V E S T I C E D O R O Z V O J E V Z D Ě L Á V Á N Í

I N V E S T I C E D O R O Z V O J E V Z D Ě L Á V Á N Í I V E S T I E D Z V J E V Z D Ě L Á V Á Í AMIKYSELIY PEPTIDY AMIKYSELIY = substituční/funkční deriváty karboxylových kyselin = základní jednotky proteinů (α-aminokyseliny) becný vzorec 2-aminokyselin (α-aminokyselin):

Více

Degenerace genetického kódu

Degenerace genetického kódu AJ: degeneracy x degeneration CJ: degenerace x degenerace Degenerace genetického kódu Genetický kód je degenerovaný, resp. redundantní, což znamená, že dva či více kodonů může kódovat jednu a tutéž aminokyselinu.

Více

Molekulární diagnostika infekční bronchitidy v České republice a na Slovensku. Richard J W Currie

Molekulární diagnostika infekční bronchitidy v České republice a na Slovensku. Richard J W Currie Molekulární diagnostika infekční bronchitidy v České republice a na Slovensku Richard J W Currie Virus infekční bronchitidy RNA (nukleová kyselina) uvnitř Proteiny (spike proteiny S1 a S2) na vnější straně

Více

Metabolismus aminokyselin - testík na procvičení - Vladimíra Kvasnicová

Metabolismus aminokyselin - testík na procvičení - Vladimíra Kvasnicová Metabolismus aminokyselin - testík na procvičení - Vladimíra Kvasnicová Vyberte esenciální aminokyseliny a) Asp, Glu b) Val, Leu, Ile c) Ala, Ser, Gly d) Phe, Trp Vyberte esenciální aminokyseliny a) Asp,

Více

Aplikovaná bioinformatika

Aplikovaná bioinformatika Aplikovaná bioinformatika Číslo aktivity: 2.V Název klíčové aktivity: Na realizaci se podílí: Implementace nových předmětů do daného studijního programu doc. RNDr. Michaela Wimmerová, Ph.D., Mgr. Josef

Více

VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ FRAKTÁL V SEKVENCI DNA BAKALÁŘSKÁ PRÁCE FAKULTA ELEKTROTECHNIKY A KOMUNIKAČNÍCH TECHNOLOGIÍ ÚSTAV RADIOELEKTRONIKY

VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ FRAKTÁL V SEKVENCI DNA BAKALÁŘSKÁ PRÁCE FAKULTA ELEKTROTECHNIKY A KOMUNIKAČNÍCH TECHNOLOGIÍ ÚSTAV RADIOELEKTRONIKY VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ BRNO UNIVERSITY OF TECHNOLOGY FAKULTA ELEKTROTECHNIKY A KOMUNIKAČNÍCH TECHNOLOGIÍ ÚSTAV RADIOELEKTRONIKY FACULTY OF ELECTRICAL ENGINEERING AND COMMUNICATION DEPARTMENT OF

Více

První testový úkol aminokyseliny a jejich vlastnosti

První testový úkol aminokyseliny a jejich vlastnosti První testový úkol aminokyseliny a jejich vlastnosti Vysvětlete co znamená pojem α-aminokyselina Jaký je rozdíl mezi D a L řadou aminokyselin Kolik je základních stavebních aminokyselin a z čeho jsou odvozeny

Více

Genetika zvířat - MENDELU

Genetika zvířat - MENDELU Genetika zvířat DNA - primární struktura Několik experimentů ve 40. a 50. letech 20. století poskytla důkaz, že genetický materiál je tvořen jedním ze dvou typů nukleových kyselin: DNA nebo RNA. DNA je

Více

Aminokyseliny, Peptidy, Proteiny

Aminokyseliny, Peptidy, Proteiny Aminokyseliny, Peptidy, Proteiny Proteiny jsou nejrozšířenější biologické makromolekuly Proteiny jsou tvořeny kombinací 20 α-aminokyselin Aminokyseliny sdílejí společné základní strukturní vlastnosti α-uhlík

Více

Bioinformatika a výpočetní biologie KFC/BIN. I. Přehled

Bioinformatika a výpočetní biologie KFC/BIN. I. Přehled Bioinformatika a výpočetní biologie KFC/BIN I. Přehled RNDr. Karel Berka, Ph.D. Univerzita Palackého v Olomouci Definice bioinformatiky (Molecular) bio informatics: bioinformatics is conceptualising biology

Více

AMINOKYSELINY Substituční deriváty karboxylových kyselin ( -COOH, -NH 2 nebo -NH-) Prolin α-iminokyselina

AMINOKYSELINY Substituční deriváty karboxylových kyselin ( -COOH, -NH 2 nebo -NH-) Prolin α-iminokyselina Aminokyseliny - Základní stavební jednotky peptidů a proteinů - Proteinogenní (kódované) 20 AK - Odvozené chemické modifikace, metabolity - Esenciální AK AMINOKYSELINY Substituční deriváty karboxylových

Více

Rozpoznávání písmen. Jiří Šejnoha Rudolf Kadlec (c) 2005

Rozpoznávání písmen. Jiří Šejnoha Rudolf Kadlec (c) 2005 Rozpoznávání písmen Jiří Šejnoha Rudolf Kadlec (c) 2005 Osnova Motivace Popis problému Povaha dat Neuronová síť Architektura Výsledky Zhodnocení a závěr Popis problému Jedná se o praktický problém, kdy

Více

PEPTIDY, BÍLKOVINY. Reg. č. projektu CZ.1.07/1.1.00/14.0143

PEPTIDY, BÍLKOVINY. Reg. č. projektu CZ.1.07/1.1.00/14.0143 PEPTIDY, BÍLKOVINY Definice: Bílkoviny (proteiny) jsou makromolekulární látky, které vznikají spojením sto a více molekul různých aminokyselin peptidickou vazbou. Obsahují atomy uhlíku (50 až 55%), vodíku

Více

Opakování

Opakování Slabé vazebné interakce Opakování Co je to atom? Opakování Opakování Co je to atom? Atom je nejmenší částice hmoty, chemicky dále nedělitelná. Skládá se z atomového jádra obsahujícího protony a neutrony

Více

Pravděpodobnost v závislosti na proměnné x je zde modelován pomocí logistického modelu. exp x. x x x. log 1

Pravděpodobnost v závislosti na proměnné x je zde modelován pomocí logistického modelu. exp x. x x x. log 1 Logistická regrese Menu: QCExpert Regrese Logistická Modul Logistická regrese umožňuje analýzu dat, kdy odezva je binární, nebo frekvenční veličina vyjádřená hodnotami 0 nebo 1, případně poměry v intervalu

Více

AMINOKYSELINOVÝCH MUTACÍ NA STABILITU PROTEINU

AMINOKYSELINOVÝCH MUTACÍ NA STABILITU PROTEINU VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ BRNO UNIVERSITY OF TECHNOLOGY FAKULTA INFORMAČNÍCH TECHNOLOGIÍ ÚSTAV INFORMAČNÍCH SYSTÉMŮ FACULTY OF INFORMATION TECHNOLOGY DEPARTMENT OF INFORMATION SYSTEMS STROJOVÉ UČENÍ

Více

Blok 2 Sekundární struktura proteinů

Blok 2 Sekundární struktura proteinů Blok 2 Sekundární struktura proteinů C3211 Aplikovaná bioinformatika Přednášející: Josef Houser Struktura proteinů ADSQTSSNRAGEFSIPPNTDFRAIFFANAAE QQHIKLFIGDSQEPAAYHKLTTRDGPREATL NSGNGKIRFEVSVNGKPSATDARLAPINGKK

Více

"Učení nás bude více bavit aneb moderní výuka oboru lesnictví prostřednictvím ICT ". Základy genetiky, základní pojmy

Učení nás bude více bavit aneb moderní výuka oboru lesnictví prostřednictvím ICT . Základy genetiky, základní pojmy "Učení nás bude více bavit aneb moderní výuka oboru lesnictví prostřednictvím ICT ". Základy genetiky, základní pojmy 1/75 Genetika = věda o dědičnosti Studuje biologickou informaci. Organizmy uchovávají,

Více

STATISTICKÉ CHARAKTERISTIKY

STATISTICKÉ CHARAKTERISTIKY STATISTICKÉ CHARAKTERISTIKY 1 Vytvořeno s podporou projektu Průřezová inovace studijních programů Lesnické a dřevařské fakulty MENDELU v Brně (LDF) s ohledem na discipliny společného základu (reg. č. CZ.1.07/2.2.00/28.0021)

Více

CHEMIE. Pracovní list č. 10 - žákovská verze Téma: Bílkoviny. Mgr. Lenka Horutová

CHEMIE. Pracovní list č. 10 - žákovská verze Téma: Bílkoviny. Mgr. Lenka Horutová www.projektsako.cz CHEMIE Pracovní list č. 10 - žákovská verze Téma: Bílkoviny Lektor: Mgr. Lenka Horutová Projekt: Student a konkurenceschopnost Reg. číslo: CZ.1.07/1.1.07/03.0075 Teorie: Název proteiny

Více

Typy nukleových kyselin. deoxyribonukleová (DNA); ribonukleová (RNA).

Typy nukleových kyselin. deoxyribonukleová (DNA); ribonukleová (RNA). Typy nukleových kyselin Existují dva typy nukleových kyselin (NA, z anglických slov nucleic acid): deoxyribonukleová (DNA); ribonukleová (RNA). DNA je lokalizována v buněčném jádře, RNA v cytoplasmě a

Více

Arnoldiho a Lanczosova metoda

Arnoldiho a Lanczosova metoda Arnoldiho a Lanczosova metoda 1 Částečný problém vlastních čísel Ne vždy je potřeba (a někdy to není ani technicky možné) nalézt celé spektrum dané matice (velké řídké matice). Úloze, ve které chceme aproximovat

Více

Algoritmy pro shlukování prostorových dat

Algoritmy pro shlukování prostorových dat Algoritmy pro shlukování prostorových dat Marta Žambochová Katedra matematiky a informatiky Fakulta sociálně ekonomická Univerzita J. E. Purkyně v Ústí nad Labem ROBUST 21. 26. leden 2018 Rybník - Hostouň

Více

STRUKTURA PROTEINŮ

STRUKTURA PROTEINŮ projekt GML Brno Docens DUM č. 17 v sadě 22. Ch-1 Biochemie Autor: Martin Krejčí Datum: 03.05.2014 Ročník: 6AF, 6BF Anotace DUMu: Struktura proteinů Materiály jsou určeny pro bezplatné používání pro potřeby

Více

jedné aminokyseliny v molekule jednoho z polypeptidů hemoglobinu

jedné aminokyseliny v molekule jednoho z polypeptidů hemoglobinu Translace a genetický kód Srpkovitý tvar červených krvinek u srpkovité anémie: důsledek záměny Srpkovitý tvar červených krvinek u srpkovité anémie: důsledek záměny jedné aminokyseliny v molekule jednoho

Více