Genomické databáze. Shlukování proteinových sekvencí. Ivana Rudolfová. školitel: doc. Ing. Jaroslav Zendulka, CSc.



Podobné dokumenty
Inovace studia molekulární a buněčné biologie

Bílkoviny - proteiny

Hemoglobin a jemu podobní... Studijní materiál. Jan Komárek

Výukový materiál zpracován v rámci projektu EU peníze školám Registrační číslo projektu: CZ.1.07/1.5.00/

Struktura proteinů. - testík na procvičení. Vladimíra Kvasnicová

Gymnázium Vysoké Mýto nám. Vaňorného 163, Vysoké Mýto

BÍLKOVINY. V organismu se nedají nahradit jinými sloučeninami, jen jako zdroj energie je mohou nahradit sacharidy a lipidy.

Základy genomiky. I. Úvod do bioinformatiky. Jan Hejátko

PROTEINY. Biochemický ústav LF MU (H.P.)

Bílkoviny. Charakteristika a význam Aminokyseliny Peptidy Struktura bílkovin Významné bílkoviny

Evropský sociální fond Praha & EU: Investujeme do vaší budoucnosti URČOVÁNÍ PRIMÁRNÍ STRUKTURY BÍLKOVIN

Testové úlohy aminokyseliny, proteiny. post test

Aminokyseliny. Gymnázium a Jazyková škola s právem státní jazykové zkoušky Zlín. Tematická oblast Datum vytvoření Ročník Stručný obsah Způsob využití

V organismu se bílkoviny nedají nahradit žádnými jinými sloučeninami, jen jako zdroj energie je mohou nahradit sacharidy a lipidy.

Bioinformatika a výpočetní biologie KFC/BIN. I. Přehled

Přírodní polymery proteiny

Proteiny Genová exprese Doc. MVDr. Eva Bártová, Ph.D.

NUKLEOVÉ KYSELINY. Základ života

Studijní materiály pro bioinformatickou část ViBuChu. úloha II. Jan Komárek, Gabriel Demo

Exprese genetické informace

Typy molekul, látek a jejich vazeb v organismech

Metabolismus bílkovin. Václav Pelouch

Využití metod strojového učení v bioinformatice David Hoksza


VÝZNAM FUNKCE PROTEINŮ V MEDICÍNĚ

Metabolismus aminokyselin. Vladimíra Kvasnicová

Využití strojového učení k identifikaci protein-ligand aktivních míst

Exprese genetické informace

Názvosloví cukrů, tuků, bílkovin

Molekulární biotechnologie č.9. Cílená mutageneze a proteinové inženýrství

Služby pro predikci struktury proteinů. Josef Pihera

Vazebné interakce protein s DNA

Určení molekulové hmotnosti: ESI a nanoesi

Aminokyseliny, struktura a vlastnosti bílkovin. doc. Jana Novotná 2 LF UK Ústav lékařské chemie a klinické biochemie

Struktura biomakromolekul

Metabolismus aminokyselin 2. Vladimíra Kvasnicová

jedné aminokyseliny v molekule jednoho z polypeptidů hemoglobinu

Biologie buňky. systém schopný udržovat se a rozmnožovat

I N V E S T I C E D O R O Z V O J E V Z D Ě L Á V Á N Í

USPOŘÁDEJTE HESLA PODLE PRAVDIVOSTI DO ŘÁDKŮ

Bílkoviny. Bílkoviny. Bílkoviny Jsou

Aminokyseliny příručka pro učitele. Obecné informace: Téma otevírá kapitolu Bílkoviny, která svým rozsahem překračuje rámec jedné vyučovací hodiny.

Enzymové pexeso. L: lactose P: operon

Aminokyseliny, proteiny, enzymologie

P ro te i n o vé d a ta b á ze

Lodish et al, Molecular Cell Biology, 4-6 vydání Alberts et al, Molecular Biology of the Cell, 4 vydání

CHEMIE. Pracovní list č žákovská verze Téma: Bílkoviny. Mgr. Lenka Horutová

Bílkoviny a rostlinná buňka

BÍLKOVINY. Autor: Mgr. Stanislava Bubíková. Datum (období) tvorby: Ročník: devátý

První testový úkol aminokyseliny a jejich vlastnosti

MOLEKULOVÉ MODELOVÁNÍ - STRUKTURA. Monika Pěntáková Katedra Farmaceutické chemie

Aminokyseliny, peptidy a bílkoviny

BÍLKOVINY = PROTEINY Polymery aminokyselin propojených peptidovou vazbou

ÚVOD DO BIOCHEMIE. Dělení : 1)Popisná = složení org., struktura a vlastnosti látek 2)Dynamická = energetické změny

NMR biomakromolekul RCSB PDB. Progr. NMR

TRANSLACE - SYNTÉZA BÍLKOVIN

STRUKTURA PROTEINŮ

TEST + ŘEŠENÍ. PÍSEMNÁ ČÁST PŘIJÍMACÍ ZKOUŠKY Z CHEMIE bakalářský studijní obor Bioorganická chemie 2010

8. Polysacharidy, glykoproteiny a proteoglykany

Nukleosidy, nukleotidy, nukleové kyseliny, genetická informace

Kosterní svalstvo tlustých a tenkých filament

Chemická reaktivita NK.

b) Jak se změní sekvence aminokyselin v polypeptidu, pokud dojde v pozici 23 k záměně bázového páru GC za TA (bodová mutace) a s jakými následky?

Genetika zvířat - MENDELU

Translace (druhý krok genové exprese)

Aminokyseliny. Peptidy. Proteiny.

Výukový materiál zpracován v rámci projektu EU peníze školám

CHEMIE - Úvod do organické chemie

2. Z následujících tvrzení, týkajících se prokaryotické buňky, vyberte správné:

Typy nukleových kyselin. deoxyribonukleová (DNA); ribonukleová (RNA).

Toxikologie PřF UK, ZS 2016/ Toxikodynamika I.

Opakování

Struktura a funkce biomakromolekul

Obecná struktura a-aminokyselin

Chemie a fyzika pevných látek p3

Virtuální svět genetiky 1. Translace

Evropský sociální fond Praha & EU: Investujeme do vaší budoucnosti. Translace, techniky práce s DNA

Aplikovaná bioinformatika

Struktura aminokyselin, peptidů a bílkovin.

Vzdělávací materiál. vytvořený v projektu OP VK. Anotace. Název školy: Gymnázium, Zábřeh, náměstí Osvobození 20. Číslo projektu:

Biochemie I 2016/2017. Makromolekuly buňky. František Škanta

5. Lipidy a biomembrány

Biosyntéza a metabolismus bílkovin

ve srovnání s eukaryoty (životnost v řádu hodin) u prokaryot kratší (životnost v řádu minut) na životnost / stabilitu molekuly mají vliv

PEPTIDY, BÍLKOVINY. Reg. č. projektu CZ.1.07/1.1.00/

Molekulární biofyzika

Struktura a funkce nukleových kyselin

Molekulární základy dědičnosti. Ústřední dogma molekulární biologie Struktura DNA a RNA

Genetický kód. Jakmile vznikne funkční mrna, informace v ní obsažená může být ihned použita pro syntézu proteinu.

Struktura biomakromolekul

Cysteinové adukty globinu jako potenciální biomarkery expozice styrenu

Inovace studia molekulární a buněčné biologie reg. č. CZ.1.07/2.2.00/

Nukleové kyseliny Replikace Transkripce, RNA processing Translace

Vyhledávání podobných sekvencí BLAST

Klonování DNA a fyzikální mapování genomu

Nukleové kyseliny. Nukleové kyseliny. Genetická informace. Gen a genom. Složení nukleových kyselin. Centrální dogma molekulární biologie

Genetický polymorfismus

Co se o sobě dovídáme z naší genetické informace

ENZYMY A NUKLEOVÉ KYSELINY

Transkript:

Genomické databáze Shlukování proteinových sekvencí Ivana Rudolfová školitel: doc. Ing. Jaroslav Zendulka, CSc.

Obsah Proteiny Zdroje dat Predikce struktury proteinů Cíle disertační práce Vstupní data Shlukování proteinů 1. metoda Shlukování proteinů založené na hustotě Shrnutí 8. 10. 2007 2

Proteiny Nejrůznější funkce: stavební funkce (kolagen) katalyzátory chemických reakcí (enzymy) transport látek v organismu (hemoglobin) pohybová (myosin) zásobní (ferritin) signální (insulin) receptory (rhodopsin) regulace genové exprese Složitá 3D struktura vzniká po vytvoření peptidického vlákna (protein folding) 8. 10. 2007 3

Proteiny Protein sekvence aminokyselin, řetězec nad abecedou aminokyselin Složení aminokyselin: aminoskupina, alfa uhlík, karboxylová skupina Aminokyseliny: hodrofobní, polární, aminokyseliny s nábojem Sekvence aminokyselin = primární struktura proteinu Primární struktura určuje fyzikální a chemické vlastnosti proteinu, jeho prostorovou strukturu a biologickou funkci 8. 10. 2007 4

Proteiny 8. 10. 2007 5

Proteiny 8. 10. 2007 6

Proteiny Atomy mimo postranní řetězce kostra proteinu Délky vazeb a planární vazebné úhly vazeb atomů páteře proteinu jsou víceméně pevné Ohebnost páteře proteinu je odvozena od torzních úhlů φ a ψ Nejběžnější lokální struktury: α-helix, β-sheet 8. 10. 2007 7

Proteiny 8. 10. 2007 8

Proteiny Oblasti sekundární struktury a méně strukturované oblasti vytváří celkový prostorový tvar proteinu terciární struktura Kvartérní struktura komplex tvořený více proteinovými řetězci 8. 10. 2007 9

Obsah Proteiny Zdroje dat Predikce struktury proteinů Cíle disertační práce Vstupní data Shlukování proteinů 1. metoda Shlukování proteinů založené na hustotě Shrnutí 8. 10. 2007 10

Zdroje dat Primární databáze biologických dat: databáze sekvencí nukleotidů (EMBL-Bank, DDBJ) databáze sekvencí proteinů (Swiss-Prot, TrEMBL) databáze struktur proteinů (PDB, MSD) genomové databáze (Ensembl) databáze s informacemi o expresi genů (ArrayExpress) Sekundární databáze: informace získané analýzou dat v primárních databázích (Prosite, Blocks) 8. 10. 2007 11

Obsah Proteiny Zdroje dat Predikce struktury proteinů Cíle disertační práce Vstupní data Shlukování proteinů 1. metoda Shlukování proteinů založené na hustotě Shrnutí 8. 10. 2007 12

Predikce struktury proteinů pokud dokážeme odhadnout strukturu proteinů, můžeme odhadnout i jejich funkci molekula zaujme prostorovou konfiguraci na základě přitažlivých a odpudivých sil jednotlivých atomů (konfigurace s nejmenší energií) strukturu je možné určit pouze na základě těchto sil příliš výpočetně složité 8. 10. 2007 13

Predikce struktury proteinů Modelování struktury na základě homologie (porovnávání primárních struktur, databáze sekvencí, nástroje BLAST) Threading (porovnání energetické výhodnosti uspořádání sekvence do jednotlivých známých struktur, rodiny proteinů) Ab initio modelování (modelování na základě energetické výhodnosti) Skládání ze sekvenčně-strukturních fragmentů (I-sites library, Ch. Bystroff a D. Baker ) 8. 10. 2007 14

Sekvenčně-strukturní fragmenty APSKPDNP CPSKPDNP APSKPENP. LITRQR LVTRQR VITRQR prostor sekvencí prostor struktur 8. 10. 2007 15

Obsah Proteiny Zdroje dat Predikce struktury proteinů Cíle disertační práce Vstupní data Shlukování proteinů 1. metoda Shlukování proteinů založené na hustotě Shrnutí 8. 10. 2007 16

Cíle disertační práce nalezení shlukovací metody, která umožní nalézt takové skupiny sekvencí aminokyselin, které se v přírodě vyskytují v omezeném počtu strukturních elementů získání vhodných vstupních dat pro shlukování ověření existence těchto sekvencí nalezení vzdálenostní funkce pro hodnocení podobnosti sekvencí shlukování sekvencí 8. 10. 2007 17

Obsah Proteiny Zdroje dat Predikce struktury proteinů Cíle disertační práce Vstupní data Shlukování proteinů 1. metoda Shlukování proteinů založené na hustotě Shrnutí 8. 10. 2007 18

Vstupní data zdroj dat: databáze PDB výběr záznamů z PDB: sekvence pod 40% podobnosti rozlišení lepší než 2,5Å (http://dunbrack.fccc.edu/pisces.php) ATOM 61 N THR A 8 25.403-4.103 23.195 1.00 29.15 N ATOM 62 CA THR A 8 24.928-5.170 22.299 1.00 30.32 C ATOM 63 C THR A 8 23.791-4.609 21.452 1.00 31.84 C ATOM 64 O THR A 8 22.738-4.247 21.978 1.00 32.86 O ATOM 65 CB THR A 8 24.489-6.445 23.044 1.00 31.50 C ATOM 66 OG1 THR A 8 25.705-7.000 23.581 1.00 31.53 O ATOM 67 CG2 THR A 8 23.871-7.434 22.043 1.00 34.60 C ATOM 68 N LEU A 9 23.986-4.585 20.109 1.00 34.02 N ATOM 69 CA LEU A 9 22.834-4.113 19.291 1.00 31.51 C 8. 10. 2007 19

Vstupní data výpočet torzních úhlů φ, ψ a ω pro jednotlivé AK (torsion.c) pdb1aba.ent PHI PSI OMEGA ----------------------------------------------- 1 MET 9999.000 149.203 169.010 2 PHE -73.440 150.925 176.171 3 LYS -118.516 127.200-177.035 4 VAL -120.498 113.770 175.150 5 TYR -91.440 133.671 178.822 6 GLY -173.910-157.307 179.997 7 TYR -114.851 146.967 170.889 8 ASP -78.496 124.390-176.234 9 SER -69.858-16.892 170.189 8. 10. 2007 20

Vstupní data konverze souborů s torzními úhly na: soubor s kódy AK (1 znak) soubor s kódy pro úhly jednotlivých AK (5 znaků) soubor s názvy pdb souborů #***MFKVYGYDSNIHKCGPCDNAKRLLTVKKQPF EFINIMPEKGVFDDEKIAELLTKLGRDTQIGLTMP QVFAPDGSHIGGFDQLREYFK#****KNSLLEKR #####***************Mxx65M2166M1261 M1158M1762M0104M1365M2060M2232M2230 M1626M0758M2461M0653M2426M2528M2326 M2228M2328M2326M2426M2229M2327M2328 M2326 pdb1aba.ent pdb1afw.ent pdb1agj.ent pdb1aho.ent pdb1ah7.ent pdb1aie.ent pdb1ajs.ent 8. 10. 2007 21

Vstupní data Vytvoření databáze se vstupními daty tabulky pro délku sekvencí: 4 14 AK ID, sekvence, struktura, pdb soubor 58 AAAA M2426M2226M2428M2328 pdb1o66 59 AAAA M2327M2326M2227M2229 pdb1rm6 60 AAAA M2327M2426M2327M2327 pdb1rm6 61 AAAA M2327M2326M2327M2327 pdb1svd 62 AAAA M2227M2327M2328M1541 pdb1tca 63 AAAA M2227M2327M2327M2227 pdb1tca 64 AAAA M2128M2227M2327M2327 pdb1uuq 65 AAAA M2428M2228M2227M2328 pdb1u4b 8. 10. 2007 22

Obsah Proteiny Zdroje dat Predikce struktury proteinů Cíle disertační práce Vstupní data Shlukování proteinů 1. metoda Shlukování proteinů založené na hustotě Shrnutí 8. 10. 2007 23

Shlukování proteinů 1. metoda nalezení všech struktur pro všechny sekvence AK (délka 4 až 14) shlukování nalezených struktur počet různých prostorových konformací pro danou sekvenci AK podobné struktury hodnoty úhlů φ a ψ se nacházejí v sousedních polích Ramachandrovy mapy výstup: sekvence AK nalezeny min. 10x počet shluků struktur < 8 8. 10. 2007 24

Shlukování proteinů 1. metoda ALALEUALAALAPHEALA: nalezeno 24 x pocet konformaci 1 ALATYRILEGLNTHRARG: nalezeno 22 x pocet konformaci 2 ARGGLYALAASPTHRARG: nalezeno 22 x pocet konformaci 4 ARGPHELYSASPGLUILE: nalezeno 24 x pocet konformaci 2 ASNTRPGLYTHRASPLEU: nalezeno 24 x pocet konformaci 2 ASPGLUILETHRARGGLU: nalezeno 24 x pocet konformaci 2 ASPGLYVALASNVALILE: nalezeno 22 x pocet konformaci 2 ASPLEUGLYMETGLUSER: nalezeno 24 x pocet konformaci 2 ASPLEUILEPROSERMET: nalezeno 24 x pocet konformaci 2 ASPLYSGLYGLUVALLEU: nalezeno 22 x pocet konformaci 3 ASPSERALAALALEUALA: nalezeno 24 x pocet konformaci 2 GLNGLUTYRLEUASPSER: nalezeno 24 x pocet konformaci 2 8. 10. 2007 25

Shlukování proteinů 1. metoda LEUARGSERTYRASP: nalezeno 14 x pocet konformaci 1 LEUARGSERTYRASPGLN: nalezeno 14 x pocet konformaci 1 LEUARGSERTYRASPGLNHIS: nalezeno 14 x pocet konformaci 1 LEUARGSERTYRASPGLNHISMET: nalezeno 14 x pocet konformaci 1 LEUARGSERTYRASPGLNHISMETASN: nalezeno 14 x pocet konformaci 1 LEUARGSERTYRASPGLNHISMETASNLEUVAL: nalezeno 14 x pocet konformaci 1 LEUARGSERTYRASPGLNHISMETASNLEUVALLEUSER: nalezeno 14 x pocet konformaci 1 LEUARGSERTYRASPGLNHISMETASNLEUVALLEUSERASP: nalezeno 14 x pocet konformaci 1 8. 10. 2007 26

Shlukování proteinů 1. metoda Délka sekvence Počet cílových sekvencí Celkový počet sekvencí Teoreticky možný počet sekvencí 4 1893 133908 1,10e+12 5 1779 486121 9,54e+13 6 1156 589579 3,66e+15 7 1040 595634 7,98e+16 8 955 592702 1,15e+18 9 870 589010 1,22e+19 10 798 585188 1,00e+20 11 739 581340 6,72e+20 12 693 577487 3,83e+20 13 657 573651 1,90e+22 14 632 569835 8,37e+22 8. 10. 2007 27

Slukování proteinů 1. metoda ASNLEUVALLYSGLYLEUALAALAGLU: nalezeno 12 x pocet konformaci 1 A2128MA2427MA2527MA2227MA2327MA2226MA2428MA2426MA2030M ASNSERLEUARGLYSLEUALAILEGLU: nalezeno 12 x pocet konformaci 1 A2326MA2427MA2227MA2426MA2328MA2228MA2327MA2327MA2327M skóre: 21 8. 10. 2007 28

Obsah Proteiny Zdroje dat Predikce struktury proteinů Cíle disertační práce Vstupní data Shlukování proteinů 1. metoda Shlukování proteinů založené na hustotě Shrnutí 8. 10. 2007 29

Shlukování proteinů založené na hustotě Shluky = oblasti s velkou hustotou objektů v prostoru dat oddělené oblastmi s malou hustotou vyskytujících se objektů Shluky různých tvarů Jsou schopné vypořádat se s výskytem šumu a odlehlých hodnot v datech Využití distribučních funkcí hustoty Funkce vlivu odvozená od vzdálenosti mezi dvěma objekty f Gauss ( x y) ( x, y ) d 2 2σ, = e 2 ( x, y) ( x y) 0 pro d f Square ( x, y) = 1 pro d, > σ σ 8. 10. 2007 30

Shlukování proteinů založené na hustotě 8. 10. 2007 31

Shlukování proteinů založené na hustotě 1 1 3 1 1 3 5 3 1 1 3 1 1 1 1 3 1 1 8. 10. 2007 32

Shlukování proteinů založené na hustotě 1 1 3 1 1 1 1 3 1 1 1 1 1 1 3 1 1 6 2 5 1 1 2 3 7 2 1 4 4 3 1 2 1 1 1 4 1 2 6 2 1 4 1 1 2 1 1 1 3 1 1 3 1 1 8. 10. 2007 33 1

Shlukování proteinů založené na hustotě 1kifA 3 3 VVVIGAGVI 3grs _ 23 EEEE SHH 9090 143.98 0.45 0.34 26.3 1nhp_ 152 152 VVVIGSGYI 3grs _ 23 EEEE SHH 9090 141.37 0.45 0.17 19.9 2dldA 149 149 VGVVGTGHI 3grs _ 23 EEEE SHH 9090 140.59 0.45 0.43 38.2 2nacA 194 194 VGTVAAGRI 3grs _ 23 EEEE SHH 9090 140.28 0.45 0.45 26.9 3grs_ 173 190 SVIVGAGYI 3grs _ 23 EEEE SHH 9090 135.58 0.45 0.54 36.7 1psdA 148 154 LGIIGYGHI 3grs _ 23 EEEE SHH 9090 134.09 0.45 0.44 44.0 1nhp_ 3 3 VIVLGSSHG 3grs _ 23 EEEE SHH 9090 129.79 0.45 0.43 36.4 1pbe_ 5 5 VAIIGAGPS 3grs _ 23 EEEE SHH 9090 129.48 0.45 0.22 20.7 9ldtA 22 24 ITVVGVGAV 3grs _ 23 EEEE SHH 9090 129.26 0.45 0.21 18.8 1fcdA 5 5 VVVVGGGTG 3grs _ 23 EEEE SHH 9090 128.52 0.45 0.22 55.8 2pgd_ 5 5 IALIGLAVM 3grs _ 23 EEEE SHH 9090 125.51 0.45 0.48 33.3 3grs_ 6 23 YLVIGGGSG 3grs _ 23 EEEE SHH 9090 123.87 0.45 0.00 0.0 3cox_ 10 14 ALVIGSGYG 3grs _ 23 EEEE SHH 9090 123.44 0.45 0.22 27.3 2tmdA 392 392 VLIVGAGPS 3grs _ 23 EEEE SHH 9090 123.00 0.45 0.22 21.4 1gadO 4 3 VGINGFGRI 3grs _ 23 EEEE SHH 9090 119.87 0.45 0.22 29.9 1cdoA 196 196 CAVFGLGAV 3grs _ 23 EEEE SHH 9090 118.34 0.45 0.31 35.4 1din_ 117 117 VGLVGYXLG 3grs _ 23 EEEE SHH 9090 114.72 0.41 1.72 156.6 1ncfA 109 119 LCLNGTVHL 3grs _ 23 EEEE SHH 9090 68.80 0.01 2.59 170.1 8. 10. 2007 34

Shlukování proteinů založené na hustotě 8. 10. 2007 35

Obsah Proteiny Zdroje dat Predikce struktury proteinů Cíle disertační práce Vstupní data Shlukování proteinů 1. metoda Shlukování proteinů založené na hustotě Shrnutí 8. 10. 2007 36

Shrnutí Vytvořena databáze se vstupními daty (sekvence délky 4 14 AK) Shlukování proteinů pomocí 1. metody: -ověření existence sekvenčně-strukturních fragmentů Shlukování proteinů založené na hustotě: - funkce vlivu - propojení shluků pro jednotlivé pozice Databáze nalezených sekvenčně strukturních fragmentů 8. 10. 2007 37