Genomické databáze Shlukování proteinových sekvencí Ivana Rudolfová školitel: doc. Ing. Jaroslav Zendulka, CSc.
Obsah Proteiny Zdroje dat Predikce struktury proteinů Cíle disertační práce Vstupní data Shlukování proteinů 1. metoda Shlukování proteinů založené na hustotě Shrnutí 8. 10. 2007 2
Proteiny Nejrůznější funkce: stavební funkce (kolagen) katalyzátory chemických reakcí (enzymy) transport látek v organismu (hemoglobin) pohybová (myosin) zásobní (ferritin) signální (insulin) receptory (rhodopsin) regulace genové exprese Složitá 3D struktura vzniká po vytvoření peptidického vlákna (protein folding) 8. 10. 2007 3
Proteiny Protein sekvence aminokyselin, řetězec nad abecedou aminokyselin Složení aminokyselin: aminoskupina, alfa uhlík, karboxylová skupina Aminokyseliny: hodrofobní, polární, aminokyseliny s nábojem Sekvence aminokyselin = primární struktura proteinu Primární struktura určuje fyzikální a chemické vlastnosti proteinu, jeho prostorovou strukturu a biologickou funkci 8. 10. 2007 4
Proteiny 8. 10. 2007 5
Proteiny 8. 10. 2007 6
Proteiny Atomy mimo postranní řetězce kostra proteinu Délky vazeb a planární vazebné úhly vazeb atomů páteře proteinu jsou víceméně pevné Ohebnost páteře proteinu je odvozena od torzních úhlů φ a ψ Nejběžnější lokální struktury: α-helix, β-sheet 8. 10. 2007 7
Proteiny 8. 10. 2007 8
Proteiny Oblasti sekundární struktury a méně strukturované oblasti vytváří celkový prostorový tvar proteinu terciární struktura Kvartérní struktura komplex tvořený více proteinovými řetězci 8. 10. 2007 9
Obsah Proteiny Zdroje dat Predikce struktury proteinů Cíle disertační práce Vstupní data Shlukování proteinů 1. metoda Shlukování proteinů založené na hustotě Shrnutí 8. 10. 2007 10
Zdroje dat Primární databáze biologických dat: databáze sekvencí nukleotidů (EMBL-Bank, DDBJ) databáze sekvencí proteinů (Swiss-Prot, TrEMBL) databáze struktur proteinů (PDB, MSD) genomové databáze (Ensembl) databáze s informacemi o expresi genů (ArrayExpress) Sekundární databáze: informace získané analýzou dat v primárních databázích (Prosite, Blocks) 8. 10. 2007 11
Obsah Proteiny Zdroje dat Predikce struktury proteinů Cíle disertační práce Vstupní data Shlukování proteinů 1. metoda Shlukování proteinů založené na hustotě Shrnutí 8. 10. 2007 12
Predikce struktury proteinů pokud dokážeme odhadnout strukturu proteinů, můžeme odhadnout i jejich funkci molekula zaujme prostorovou konfiguraci na základě přitažlivých a odpudivých sil jednotlivých atomů (konfigurace s nejmenší energií) strukturu je možné určit pouze na základě těchto sil příliš výpočetně složité 8. 10. 2007 13
Predikce struktury proteinů Modelování struktury na základě homologie (porovnávání primárních struktur, databáze sekvencí, nástroje BLAST) Threading (porovnání energetické výhodnosti uspořádání sekvence do jednotlivých známých struktur, rodiny proteinů) Ab initio modelování (modelování na základě energetické výhodnosti) Skládání ze sekvenčně-strukturních fragmentů (I-sites library, Ch. Bystroff a D. Baker ) 8. 10. 2007 14
Sekvenčně-strukturní fragmenty APSKPDNP CPSKPDNP APSKPENP. LITRQR LVTRQR VITRQR prostor sekvencí prostor struktur 8. 10. 2007 15
Obsah Proteiny Zdroje dat Predikce struktury proteinů Cíle disertační práce Vstupní data Shlukování proteinů 1. metoda Shlukování proteinů založené na hustotě Shrnutí 8. 10. 2007 16
Cíle disertační práce nalezení shlukovací metody, která umožní nalézt takové skupiny sekvencí aminokyselin, které se v přírodě vyskytují v omezeném počtu strukturních elementů získání vhodných vstupních dat pro shlukování ověření existence těchto sekvencí nalezení vzdálenostní funkce pro hodnocení podobnosti sekvencí shlukování sekvencí 8. 10. 2007 17
Obsah Proteiny Zdroje dat Predikce struktury proteinů Cíle disertační práce Vstupní data Shlukování proteinů 1. metoda Shlukování proteinů založené na hustotě Shrnutí 8. 10. 2007 18
Vstupní data zdroj dat: databáze PDB výběr záznamů z PDB: sekvence pod 40% podobnosti rozlišení lepší než 2,5Å (http://dunbrack.fccc.edu/pisces.php) ATOM 61 N THR A 8 25.403-4.103 23.195 1.00 29.15 N ATOM 62 CA THR A 8 24.928-5.170 22.299 1.00 30.32 C ATOM 63 C THR A 8 23.791-4.609 21.452 1.00 31.84 C ATOM 64 O THR A 8 22.738-4.247 21.978 1.00 32.86 O ATOM 65 CB THR A 8 24.489-6.445 23.044 1.00 31.50 C ATOM 66 OG1 THR A 8 25.705-7.000 23.581 1.00 31.53 O ATOM 67 CG2 THR A 8 23.871-7.434 22.043 1.00 34.60 C ATOM 68 N LEU A 9 23.986-4.585 20.109 1.00 34.02 N ATOM 69 CA LEU A 9 22.834-4.113 19.291 1.00 31.51 C 8. 10. 2007 19
Vstupní data výpočet torzních úhlů φ, ψ a ω pro jednotlivé AK (torsion.c) pdb1aba.ent PHI PSI OMEGA ----------------------------------------------- 1 MET 9999.000 149.203 169.010 2 PHE -73.440 150.925 176.171 3 LYS -118.516 127.200-177.035 4 VAL -120.498 113.770 175.150 5 TYR -91.440 133.671 178.822 6 GLY -173.910-157.307 179.997 7 TYR -114.851 146.967 170.889 8 ASP -78.496 124.390-176.234 9 SER -69.858-16.892 170.189 8. 10. 2007 20
Vstupní data konverze souborů s torzními úhly na: soubor s kódy AK (1 znak) soubor s kódy pro úhly jednotlivých AK (5 znaků) soubor s názvy pdb souborů #***MFKVYGYDSNIHKCGPCDNAKRLLTVKKQPF EFINIMPEKGVFDDEKIAELLTKLGRDTQIGLTMP QVFAPDGSHIGGFDQLREYFK#****KNSLLEKR #####***************Mxx65M2166M1261 M1158M1762M0104M1365M2060M2232M2230 M1626M0758M2461M0653M2426M2528M2326 M2228M2328M2326M2426M2229M2327M2328 M2326 pdb1aba.ent pdb1afw.ent pdb1agj.ent pdb1aho.ent pdb1ah7.ent pdb1aie.ent pdb1ajs.ent 8. 10. 2007 21
Vstupní data Vytvoření databáze se vstupními daty tabulky pro délku sekvencí: 4 14 AK ID, sekvence, struktura, pdb soubor 58 AAAA M2426M2226M2428M2328 pdb1o66 59 AAAA M2327M2326M2227M2229 pdb1rm6 60 AAAA M2327M2426M2327M2327 pdb1rm6 61 AAAA M2327M2326M2327M2327 pdb1svd 62 AAAA M2227M2327M2328M1541 pdb1tca 63 AAAA M2227M2327M2327M2227 pdb1tca 64 AAAA M2128M2227M2327M2327 pdb1uuq 65 AAAA M2428M2228M2227M2328 pdb1u4b 8. 10. 2007 22
Obsah Proteiny Zdroje dat Predikce struktury proteinů Cíle disertační práce Vstupní data Shlukování proteinů 1. metoda Shlukování proteinů založené na hustotě Shrnutí 8. 10. 2007 23
Shlukování proteinů 1. metoda nalezení všech struktur pro všechny sekvence AK (délka 4 až 14) shlukování nalezených struktur počet různých prostorových konformací pro danou sekvenci AK podobné struktury hodnoty úhlů φ a ψ se nacházejí v sousedních polích Ramachandrovy mapy výstup: sekvence AK nalezeny min. 10x počet shluků struktur < 8 8. 10. 2007 24
Shlukování proteinů 1. metoda ALALEUALAALAPHEALA: nalezeno 24 x pocet konformaci 1 ALATYRILEGLNTHRARG: nalezeno 22 x pocet konformaci 2 ARGGLYALAASPTHRARG: nalezeno 22 x pocet konformaci 4 ARGPHELYSASPGLUILE: nalezeno 24 x pocet konformaci 2 ASNTRPGLYTHRASPLEU: nalezeno 24 x pocet konformaci 2 ASPGLUILETHRARGGLU: nalezeno 24 x pocet konformaci 2 ASPGLYVALASNVALILE: nalezeno 22 x pocet konformaci 2 ASPLEUGLYMETGLUSER: nalezeno 24 x pocet konformaci 2 ASPLEUILEPROSERMET: nalezeno 24 x pocet konformaci 2 ASPLYSGLYGLUVALLEU: nalezeno 22 x pocet konformaci 3 ASPSERALAALALEUALA: nalezeno 24 x pocet konformaci 2 GLNGLUTYRLEUASPSER: nalezeno 24 x pocet konformaci 2 8. 10. 2007 25
Shlukování proteinů 1. metoda LEUARGSERTYRASP: nalezeno 14 x pocet konformaci 1 LEUARGSERTYRASPGLN: nalezeno 14 x pocet konformaci 1 LEUARGSERTYRASPGLNHIS: nalezeno 14 x pocet konformaci 1 LEUARGSERTYRASPGLNHISMET: nalezeno 14 x pocet konformaci 1 LEUARGSERTYRASPGLNHISMETASN: nalezeno 14 x pocet konformaci 1 LEUARGSERTYRASPGLNHISMETASNLEUVAL: nalezeno 14 x pocet konformaci 1 LEUARGSERTYRASPGLNHISMETASNLEUVALLEUSER: nalezeno 14 x pocet konformaci 1 LEUARGSERTYRASPGLNHISMETASNLEUVALLEUSERASP: nalezeno 14 x pocet konformaci 1 8. 10. 2007 26
Shlukování proteinů 1. metoda Délka sekvence Počet cílových sekvencí Celkový počet sekvencí Teoreticky možný počet sekvencí 4 1893 133908 1,10e+12 5 1779 486121 9,54e+13 6 1156 589579 3,66e+15 7 1040 595634 7,98e+16 8 955 592702 1,15e+18 9 870 589010 1,22e+19 10 798 585188 1,00e+20 11 739 581340 6,72e+20 12 693 577487 3,83e+20 13 657 573651 1,90e+22 14 632 569835 8,37e+22 8. 10. 2007 27
Slukování proteinů 1. metoda ASNLEUVALLYSGLYLEUALAALAGLU: nalezeno 12 x pocet konformaci 1 A2128MA2427MA2527MA2227MA2327MA2226MA2428MA2426MA2030M ASNSERLEUARGLYSLEUALAILEGLU: nalezeno 12 x pocet konformaci 1 A2326MA2427MA2227MA2426MA2328MA2228MA2327MA2327MA2327M skóre: 21 8. 10. 2007 28
Obsah Proteiny Zdroje dat Predikce struktury proteinů Cíle disertační práce Vstupní data Shlukování proteinů 1. metoda Shlukování proteinů založené na hustotě Shrnutí 8. 10. 2007 29
Shlukování proteinů založené na hustotě Shluky = oblasti s velkou hustotou objektů v prostoru dat oddělené oblastmi s malou hustotou vyskytujících se objektů Shluky různých tvarů Jsou schopné vypořádat se s výskytem šumu a odlehlých hodnot v datech Využití distribučních funkcí hustoty Funkce vlivu odvozená od vzdálenosti mezi dvěma objekty f Gauss ( x y) ( x, y ) d 2 2σ, = e 2 ( x, y) ( x y) 0 pro d f Square ( x, y) = 1 pro d, > σ σ 8. 10. 2007 30
Shlukování proteinů založené na hustotě 8. 10. 2007 31
Shlukování proteinů založené na hustotě 1 1 3 1 1 3 5 3 1 1 3 1 1 1 1 3 1 1 8. 10. 2007 32
Shlukování proteinů založené na hustotě 1 1 3 1 1 1 1 3 1 1 1 1 1 1 3 1 1 6 2 5 1 1 2 3 7 2 1 4 4 3 1 2 1 1 1 4 1 2 6 2 1 4 1 1 2 1 1 1 3 1 1 3 1 1 8. 10. 2007 33 1
Shlukování proteinů založené na hustotě 1kifA 3 3 VVVIGAGVI 3grs _ 23 EEEE SHH 9090 143.98 0.45 0.34 26.3 1nhp_ 152 152 VVVIGSGYI 3grs _ 23 EEEE SHH 9090 141.37 0.45 0.17 19.9 2dldA 149 149 VGVVGTGHI 3grs _ 23 EEEE SHH 9090 140.59 0.45 0.43 38.2 2nacA 194 194 VGTVAAGRI 3grs _ 23 EEEE SHH 9090 140.28 0.45 0.45 26.9 3grs_ 173 190 SVIVGAGYI 3grs _ 23 EEEE SHH 9090 135.58 0.45 0.54 36.7 1psdA 148 154 LGIIGYGHI 3grs _ 23 EEEE SHH 9090 134.09 0.45 0.44 44.0 1nhp_ 3 3 VIVLGSSHG 3grs _ 23 EEEE SHH 9090 129.79 0.45 0.43 36.4 1pbe_ 5 5 VAIIGAGPS 3grs _ 23 EEEE SHH 9090 129.48 0.45 0.22 20.7 9ldtA 22 24 ITVVGVGAV 3grs _ 23 EEEE SHH 9090 129.26 0.45 0.21 18.8 1fcdA 5 5 VVVVGGGTG 3grs _ 23 EEEE SHH 9090 128.52 0.45 0.22 55.8 2pgd_ 5 5 IALIGLAVM 3grs _ 23 EEEE SHH 9090 125.51 0.45 0.48 33.3 3grs_ 6 23 YLVIGGGSG 3grs _ 23 EEEE SHH 9090 123.87 0.45 0.00 0.0 3cox_ 10 14 ALVIGSGYG 3grs _ 23 EEEE SHH 9090 123.44 0.45 0.22 27.3 2tmdA 392 392 VLIVGAGPS 3grs _ 23 EEEE SHH 9090 123.00 0.45 0.22 21.4 1gadO 4 3 VGINGFGRI 3grs _ 23 EEEE SHH 9090 119.87 0.45 0.22 29.9 1cdoA 196 196 CAVFGLGAV 3grs _ 23 EEEE SHH 9090 118.34 0.45 0.31 35.4 1din_ 117 117 VGLVGYXLG 3grs _ 23 EEEE SHH 9090 114.72 0.41 1.72 156.6 1ncfA 109 119 LCLNGTVHL 3grs _ 23 EEEE SHH 9090 68.80 0.01 2.59 170.1 8. 10. 2007 34
Shlukování proteinů založené na hustotě 8. 10. 2007 35
Obsah Proteiny Zdroje dat Predikce struktury proteinů Cíle disertační práce Vstupní data Shlukování proteinů 1. metoda Shlukování proteinů založené na hustotě Shrnutí 8. 10. 2007 36
Shrnutí Vytvořena databáze se vstupními daty (sekvence délky 4 14 AK) Shlukování proteinů pomocí 1. metody: -ověření existence sekvenčně-strukturních fragmentů Shlukování proteinů založené na hustotě: - funkce vlivu - propojení shluků pro jednotlivé pozice Databáze nalezených sekvenčně strukturních fragmentů 8. 10. 2007 37