Počítačová analýza lokálních podobností mezi biologickými sekvencemi

Rozměr: px
Začít zobrazení ze stránky:

Download "Počítačová analýza lokálních podobností mezi biologickými sekvencemi"

Transkript

1 MASARYKOVA UNIVERZITA V BRNĚ Fakulta informatiky Michal VAVERKA Počítačová analýza lokálních podobností mezi biologickými sekvencemi Bakalářská práce Vedoucí práce: Ing. Matej Lexa, Ph.D. Brno 2006

2 Prohlašuji, že tato práce je mým původním autorským dílem, které jsem vypracoval(a) samostatně. Všechny zdroje prameny a literaturu, které jsem při vypracování používal(a) nebo z nich čerpal(a), v práci řádně cituji s uvedením úplného odkazu na příslušný zdroj. V Brně dne vlastnoruční podpis autora

3 Děkuji Ing. Matejovi Lexovi, Ph.D. vedoucímu bakalářské práce za nesmírnou pomoc a trpělivost.

4 Shrnutí Anotace v českém jazyce: V moderní biologii a bioinformatice se používá míra podobnosti mezi sekvencemi proteinů k odvození jejich možné funkce nebo struktury. Cesta ke globální podobnosti mezi sekvencemi často vede přes určování kratších, lokálních podobností. Program vytvářený s touto prací vyhodnocuje vzájemnou podobnost proteinů na základě výskytů lokálních segmentů a důležitosti vlastností funkčnosti a struktury. Annotation in English: In modern biology and bioinformatics, the degree of similarity between protein sequences is used to derive their function or structure. Global similarity between sequences can be estimated from identification and evaluation of shorter local similarities. This program developed with this work evaulate the global similarity of protein sequences based on correllation of local segment occurence in databases which is typically high for sequences with the same structure and function. Klíčová slova: Bioinformatika, segment, lokální podobnost, Blosum, Dialign, protein, databáze, sekvence Key words: Bioinformatics, segment, local similarity, Blosum, Dialign, protein, databases, sequence

5 Obsah 1. Úvod Molekulární biologie Genomika Databáze proteinových sekvencí Formáty záznamu sekvencí FASTA EMBL GENBANK PIR SWISSPROT Porovnávání biologických sekvencí Přístupy pro lokální zarovnávání DIALIGN SEA Divide and conquer ProLoP Myšlenka algoritmu Algoritmus ohodnocení Návrh programu Seznámení s jednotlivými funkcemi programu Jaká data jsou vstupem Implementace hodnotícího algoritmu GUI Instalace a požadavky na systém Ukázka vstupu do programu a zpracování Ukázka vyhodnocení a graf výsledku Zhodnocení běhu programu Závěr...21

6

7 1. Úvod Základem všech živých organismů jsou buňky. U složitějších organismů jsou v jádře buňky přenášeny kromě jiného i genetické informace ve formě DNA (deoxyribonukleová kyselina). Ta je tvořena velkými makromolekulami. Tyto makromolekuly tvoří řetězce, které v praxi reprezentujeme jako sekvence symbolů, označující dané aminokyseliny, pro které dokážeme určovat vlastnosti. Na základě podobnosti můžeme předvídat funkční a strukturní vlastnosti dosud neznámé sekvence. 1.1 Molekulární biologie Stavba každého organizmu je určena instrukcemi, které jsou zapsané chemickým kódem v DNA (deoxyribonukleové kyselině). DNA tvoří dvojité spirálovité molekuly uložené v jádrech buněk živých organizmů. Každý gen je odpovědný za část těla nebo za její vlastnosti. V jádře buňky je DNA uspořádaná do chromozómů, které jsou tvořené komplexem DNA s proteinem[1]. Gen je část chromozómu, která obsahuje pokyny pro vytváření bílkoviny. Genetická informace je v jádru přepisována (transkripce) do molekul RNA (ribonukleová kyselina), které se převádějí mimo jádro, kde řídí syntézu proteinů. Ještě před objevem genu formuloval základní pravidla dědičnosti Gregor Mendel, opat augistiánského kláštera v Brně. Během studia botaniky objevil způsob, jakým se dědí některé vlastnosti. Při křížení hrachu zjistil, že vlastnosti se křížením nemíchají, ale dědí se po párech. V každém páru se obvykle projeví jen jedna vlastnost. Roku 1954 biofyzik Francis Crick a americký genetik James Watson objevili strukturu DNA[1]. Na základě zkoumání a pozorování dospěli k závěrům, že genetický materiál vytváří kopie sám sebe, DNA je genetický materiál a je to dlouhá molekula zakroucená do spirály(obr. 2). DNA je složená ze dvou cukr fosfátových řetězců spojených fosfodiesterovou vazbou a 4 dusíkatých bází. Dusíkaté báze (Obr. 1) jsou odvozeny od purinu (adenin, guanin) a pyrimidinu (cytosin, thymin, uracil). Obr. 1: Chemická struktura bází Dále určili, že v molekule DNA dochází k párování bází systémem adenin thymin a cytosinguanin, a to přibližně v poměru 1:1. Na základě těchto poznatků vytvořili možné hypotézy o uspořádání cukrů, fosfátů a bází v DNA. Vytvořili několik různých modelů molekul popisujících jednotlivé hypotézy. Model, který popisoval všechny hypotézy, byla dvojitá šroubovice spárovaných bází směrem dovnitř. 1.2 Genomika Genomika je biologický obor, který vznikl v 90. letech. Cílem je stanovit úplnou dědičnou informaci organismů a interpretovat ji v termínech životních pochodů. Někdy se genomika rozděluje na tzv. 1

8 strukturní genomiku, spočívající ve stanovení sledu nukleotidů genomu organismu, na bioinformatiku, jež počítačovými metodami a prací v databázích interpretuje přečtenou dědičnou informaci, a na funkční genomiku, kde se experimentem, například vyřazením nějakého genu z činnosti, snažíme přiřadit funkci neznámým genům, případně funkci genů studovat. Protože informace je uložena v pořadí milionů až miliard molekul bází, je získávání a zpracování informací uložených v DNA poměrně časově náročná činnost. Obr. 2: Šroubovice DNA Proteiny jsou lineární sekvence jednodušších molekul nazývaných aminokyseliny. V proteinech se běžně vyskytuje dvacet různých aminokyselin, které jsou označeny 1 písmenem nebo třípísmennou zkratkou (viz Tabulka 1). Dále existuje úzká vazba mezi sekvencí DNA a proteinovou sekvencí. K tomu, aby buňka produkovala daný protein, přečte sekvenci tří nukleotidů z řetězce DNA, nazývanou kodon, ze které vygeneruje danou aminokyselinu. 1písmenné 3písmenné 1písmenné 3písmenné Jméno označení označení označení označení Jméno A Ala Alanin M Met Methionin C Cys Cystein N Asn Asparagin D Asp Asparagová kyselina P Pro Prolin E Glu Glutamová kyselina Q Gln Glutamin F Phe Fenylalanin R Arg Arginin G Gly Glycin S Ser Serin H His Histidin T Thr Threonin I Ile Isoleucin U Val Valin K Lys Lysin W Trp Tryptofan L Leu Leucin Y Tyr Tyrosin Tabulka 1: Seznam aminokyselin Protože v buňkách dochází k složitým biochemickým procesům, které určují kdy a jakým způsobem dochází k produkci proteinu, bude dobré je alespoň částečně vysvětlit. Je známo, že sekvence DNA, která nese genetické informace, je nesena v jádře buňky. Pokud je třeba, tak je aktivován určitý gen, který svými vlastnostmi určuje, že má například dojít k vytváření proteinů. Pomocí procesů transkripce a translace dochází v buňce k interpretaci DNA na požadovaný protein (Obr. 3), který plní potřebnou funkci. Takový protein má kromě své specifické funkce také strukturu, která může souviset s jeho funkcí. Všechny tyto soubory informací je vhodné uchovávat, pokud známe, jakým způsobem došlo k jaké přeměně. Díky tomu a různým metodám pro určování podobnosti je tento princip jednodušší na pochopení u nových neznámých sekvencí. Pro každý takový protein existuje zpětná vazba k danému procesu vznik nebo dochází k interak 2

9 cím mezi jednotlivými proteiny nebo k dalším možným případům. Tím vzniká obrovská síť (např. člověk má asi proteinů) různých propojení mezi funkcemi, vlastnostmi atd., které je vhodné použít jako zdroj informací. Jedním takovým příkladem je třeba využití v podobnosti. Obr. 3: Proces vzniku proteinu 2. Databáze proteinových sekvencí Z velkého množství takto uložených sekvencí vyplývá potřeba v těchto databázích vyhledávat. Existuje několik různých způsobů vyhledávání. Hledanou sekvenci je možné specifikovat přímo podle unikátního identifikátoru nebo pomocí klíčových slov. Velké databáze umožňují také vyhledávat podle dalších rozšiřujících kritérií, jako je druh organismu, autor, rok původu a další. Díky tomu, že je dostupné nepřeberné množství takovýchto databází, vznikly různé projekty, které jsou zaměřeny na získávání informací o těchto zdrojích dat. Tyto zdroje poskytují ucelený výčet možností získávání dat z různých typů výzkumu a také umožňují snazší možnosti získání informací o požadovaném typu dat. Jedním projektem tohoto typu je kolekce molekulárně biologických databází (The Molecular Biology Database Collection)[2]. Všechny databáze, které jsou uvedeny v tomto projektu, jsou zdarma dostupné pro veřejnost a v současné době je v tomto seznamu zahrnuto 719 databází. Tento počet se od roku 2004 do roku 2005 zvedl zhruba o 170 položek, což ukazuje, k jak velkému růstu biologických dat ukládaných pro pozdější využití dochází. Následující tabulka(tabulka 2) uvádí krátký výtah databází, které jsou nejznámější a často využívané v oblasti bioinformatiky. V těchto databázích se ukládají data týkající se různých projektů, které jsou zaměřeny na různé oblasti výzkumu, od databází uchovávající nukleotidové sekvence, sekvence RNA, informace o strukturách a vlastnostech jednotlivých proteinů, až po výsledky výzkumu, který se týká lidského genomu. Jednou z těchto skupin jsou například data, která používají bioinformatici k otestování funkčnosti a případně porovnatelnosti svých metod výzkumu s jinými již hotovými projekty. Je to důležité zejména v dostupnosti určité vzorové skupiny informací o biologických datech, na které je možné provádět testování a jež zahrnuje data, která jsou ověřena z minulosti. Příkladem můžou být například sekvence 3

10 proteinů, které jsou zarovnávány, aby bylo možné určit vlastnosti či možnou funkční podobnost s ostatními sekvencemi, jež jsou známé. V dnešní době již existuje mnoho různých projektů, které umožňují vícenásobné zarovnání (multiple alignment), a z toho také vyvstává potřeba tyto metody navzájem porovnat. K tomuto účelu vnikla databáze BAliBASE (Benchmark Alignment database)[3]. Jedná se o zdroj dat poskytující ručně vybrané a kategorizované sekvence, které jsou vzájemně zarovnané. Jsou rozdělené do několika kategorií obsahující různé typy obvykle se vyskytujících případů, které slouží pro testování. Sekvence, které jsou do databáze vybrány z databází struktur, jako je HOMSTRAD nebo FSSP, nebo také z ručně provedených zarovnání, které jsou zmiňovány v literatuře. Databáze ve verzi 2.0 obsahuje 167 vzorových zarovnání mezi více než 2100 sekvencemi, které jsou rozděleny do 8 referenčních množin. BaliBASE 2.0[4] je dostupná k prohlížení na adrese: igbmc.u strasbg.fr/bioinfo/balibase2 nebo ke stažení z ftp serveru: ftp://ftp igbmc.u strasbg.fr/pub/balibase2/ Název Poznámka URL odkaz GeneBank Známe nukleotidové a proteinové sekvence DDBJ DNA Data Bank of Známe nukleotidové a proteinové Japan sekvence EMBL Nucleotide Sequence Známe nukleotidové a proteinové Database sekvence ASAP Alternative spliced isoforms ASDB Proteinové produkty a vzory expresí alternativního splicingu ExInt Struktury Exonů intronů v eukariotních genech EXProt Sekvence proteinů s experimentální verifikační funkcí NCBI Protein database Proteinové sekvence PIR Informace o proteinových sekvencích Swiss Prot Databáze proteinových sekvencí ADDA Databáze proteinových domén InterPro Zdroje proteinových domén ahttp:// ProDom Rodiny proteinových domén HOMSTRAD Databáze zarovnání homologních struktur cryst.bioc.cam.ac.uk/homstrad PDB Databanka proteinových struktur GO Gene Ontolgy GOA EBI gene ontology annotation project Tabulka 2: Bioinformatické zdroje dat Tato databáze nyní poskytuje data pro většinu testovaných případů, které se zkouší při určování a zarovnávání sekvencí. Také je nyní dostupný program pro porovnávání programů provádějících určování nebo zarovnávání a umožňuje ukázat, kde by mohl mít testovaný program slabá či silná místa. 4

11 Odkazy na databáze, programy a další informace lze nalézt například na portálu na adrese: Formáty záznamu sekvencí Formátů pro záznam sekvencí a jejich variant je velké množství, proto zmíním jenom nejběžnějších z nich, tj. těch, které jsou používány v základních databázích a které jsou v textové formě a jsou použitelné i pro neodborníka FASTA FASTA formát je nejběžnější a (když pomineme "holou" sekvenci) nejjednodušší formát, ve kterém se sekvence distribuují a uchovávají. Je stejný pro DNA i proteiny. Jeho hlavní výhodou je velikost. Je kompaktní a obsahuje pouze minimum dodatečných informací o sekvenci a chybí informace o typu sekvence (nukleotidy/aminokyseliny) EMBL První dva znaky na řádku pojmenovávají identifikátor, od šestého znaku následuje vlastní obsah. Jednotlivé skupiny identifikátoru jsou odděleny XX, celý záznam končí //. Nejdůležitější identifikátory: ID, AC: unikátní identifikátor; DE: popis; OS,OC: organismus, klasifikace; RN,RP,RA,RT,RL: citace; FT: features, dodatečné informace (např. propojení na další databáze, popis jednotlivých částí); SQ: sekvence GENBANK Distribuční formát nukleotidové databáze GENBANK v trochu jiné formě obsahuje totéž, co formát EMBL. Místo dvoupísmenného identifikátoru používá celé slovo. Koncovka pro asociaci aplikací je.gb nebo.gbk PIR Stejně jako v případě EMBL/SWISSPROT je i formát PIR požívaný pro proteiny analogický nukleotidovému formátu GENBANK. Jako koncovky běžně používá.gbk nebo.pir. PIR (Protein lnformation Resource) je proteinová databáze získávající data z nukleotidových databází. Spolu s dalšími organizacemi vytváří PIR International anotovanou databázi analogickou SWlSSPROT SWISSPROT Swissprot je databáze proteinových sekvencí. Byla vytvořena pracovníky Department of Medical Biochemistry of the University of Geneva a Swiss Institute of Bioinformatics a EMBL Data Library. Kvůli standardizaci je formát Swiss Prot velmi podobný EMBL Nucledotid Sequence Database. Záznamy jsou strukturovány tak, aby byly jednoduše čitelné pro člověka, stejně jako pro počítačové programy. Veškeré popisy, klasifikace a jiné poznámky jsou psané jednoduchou angličtinou a tam, kde je to možné, jsou použity způsoby zápisu běžné pro biochemiky a molekulární biology. Jednotlivé záznamy sekvencí jsou tvořeny řádky různých typů a každý tento typ má svůj formát. Každý řádek začíná dvouznakovým kódem řádku, který určuje typ dat obsažených na daném řádku. Jednotlivé pořadí řádků je přesně definováno a dokumentováno. Tuto definici je možné najít v uživatelském manuálu 5

12 k formátu Swiss Prot na adrese Záznam sekvence vždy začíná identifikací (ID). Identifikační záznam je složen ze jména záznamu, třídy dat, typu molekuly a délky molekuly. 3. Porovnávání biologických sekvencí Porovnávání sekvencí, ať už nukleotidových, nebo aminokyselinových, se v jednom směru významně liší od všech ostatních typů vyhledávání většinou se snažíme najít sekvenci pouze podobnou, s mnoha záměnami, inzercemi a delecemi. Proto není možné použít běžný vyhledávací algoritmus, ale bylo nutno vyvinout algoritmus specifický pro tento typ problému. Automatická metoda vyhledávání byla poprvé popsána v roce 1970 a je známa jako Needleman Wunschovo hledání[5]. Jejím principem je tzv. "pairwise alignment", srovnávání sekvencí aminokyselin pár po páru a nalezení maximální podobnosti. Posléze byla rozšířena a upravena pro identifikaci lokálních podobností a tato novější verze je známa jako Smith Watermanovo hledání[6]. Na začátku by bylo vhodné také zmínit, co vlastně podobnost mezi sekvencemi vyjadřuje. Podobnost tedy vyjadřuje určitou metrickou vzdálenost, která určuje přijatelnou míru mutací aminokyselin, která nastala a byla přijata v prostředí a nezpůsobila zánik konkrétního organismu. Tyto možné záměny mezi jednotlivými aminokyselinami jsou definovány pomocí různých metod založených na statistice a pravděpodobnosti a na jejich základě vznikly matice podobnosti (similarity matrix), které slouží také pro vyhodnocení možné vzniklé změny. Možným příkladem je například matice PAM (Point Accepted Mutation)[7] nebo BLOSUM (BLOcks Substitution Matrix)[6]. Pro provádění porovnávání se dnes využívají dvě odlišné strategie. Jedna vytváří globální srovnávání a druhá umožňuje detekování lokálních podobností mezi vstupními sekvencemi. Metody globálního srovnávání v dnešní době vytváří zarovnání pomocí synchronizace informací všech vstupních sekvencí. Tyto metody jsou však výpočetně náročné a jejich aplikace je proto omezená. Díky těmto omezením byly vyvinuty alternativní přístupy, kde je problém zarovnávání redukován na sérii párových srovnání profilů. Jednou z těchto metod je CLUSTAL W. Avšak výsledky tohoto přístupu jsou hodně závislé na pořadí, ve kterém bylo provedeno srovnání profilů, což se jeví jako nevýhoda. Pokud jsou sekvence součástí jedné rodiny tak mají obvykle více než 75% shodu mezi aminokyselinami. S možností rozdělení sekvencí do rodin, přišly také nové přístupy na provádění srovnání, které jsou zaměřeny na určování podobnosti na základě souvisejících segmentů sekvencí. Tyto směry dosahují lepších výsledků nad tradičními metodami v situacích, kdy testované data obsahují mnoho mezer, které je třeba vložit do správného zarovnání, nebo se jedná o málo související typy sekvencí. Příkladem může být metoda použitá v programu DIALIGN[8]. Avšak zatím není známá žádná metoda, která by byla univerzální a optimální pro provádění zarovnání. Současný trend vývoje ukazuje, že je vhodné kombinovat metody pro globální i lokální zarovnávání, což umožňuje dostávat informační hodnotu, která by byla za použití pouze jednoho typu 6

13 srovnání menší nebo případně nepoužitelná. 3.1 Přístupy pro lokální zarovnávání Jak už bylo zmíněno výše, v dnešní době existuje mnoho různých přístupů na porovnávání sekvencí. Základním a také rozšířeným přístupem je použití algoritmu Needleman Wunch[9]. Daná podobnost je určena maticí podobnosti, která udává skóre každému páru z hodnocených sekvencí jako sumu hodnot podobnosti daného páru aminokyselinových zbytků minus penalizaci za každou vloženou mezeru (gap). Tento algoritmus dosahuje slušných výsledků pro zarovnání, pokud jsou dané sekvence úzce související a pokud je třeba vložit jen malé množství mezer. V roce 1981 vytvořili Smith a Waterman lokální verzi algoritmu, která umožňuje srovnávání dvou sekvencí, které mají společnou oblast s vysokou podobností a mimo ni nejsou navzájem podobné. Pokud sekvence mají společných oblastí podobnosti víc, které jsou odděleny nesouvisejícími regiony, je situace zarovnání ještě složitější. Toto může nastat například u intronů v DNA nebo smyček u proteinů. Tímto případem se zabývá několik různých přístupů založených na principu vyhledávání a zarovnávání na základě celých segmentů sekvencí DIALIGN Přístupem, který provádí zarovnání na základě určování segmentů, se zabývá několik výzkumů. Asi nejznámější je algoritmus, který je použit v programu DIALIGN od Burkharda Mogensterna[8]. Základní myšlenka tohoto algoritmu spočívá v návrhu zarovnání a porovnávání celých segmentů (částí bez mezer). Zarovnání je sestaveno z dvojic segmentů, které mají stejnou délku a jsou bez mezer (gapfree). Tyto páry jsou uvažovány jako tzv. diagonály v porovnání dvou sekvencí pomocí metody dotmatrix. Jedná se o metodu, která umožňuje vizuální vyhodnocení možných zarovnání mezi dvěma sekvencemi. Je možné, aby se diagonály navzájem křížily. Obr. 4: Ukázka práce se segmenty v progrmau Dialign Každé diagonále hodnotící funkce přiřadí hodnotu. Na základě tohoto ohodnocení je vytvořeno následujícím způsobem vícenásobné zarovnání. V prvním kroku jsou stanovena všechna optimální párová zarovnání (pairwise alignmenty). Diagonály, které díky tomu dostaneme, jsou uspořádány podle jejich váhového ohodnocení a také podle stupně překrytí s ostatními diagonálami v pořadí, které zdů 7

14 razňuje vzory vyskytující se ve vice než 2 sekvencích. Tato množina je použita k sestavení samotného vícenásobného zarovnání, které využívá tzv. hladový způsob (greedy manner). To znamená, že diagonála s větší hodnotou váhové funkce je vybrána jako první. Pak se vezme další ze seznamu a prověří se, jestli neporušuje konzistenci. Pokud vyhovuje, tak je zařazena do výsledného zarovnání. Tímto způsobem se pokračuje, dokud nejsou vybrány všechny diagonály. V konečném kroku DIALIGN vkládá mezery (gaps) mezi sekvence, dokud nejsou všechny residua spojené vybranou diagonálou řádně uspořádána. Nejdůležitější součástí tohoto algoritmu je váhová funkce, která provádí ohodnocení jednotlivých diagonál. Funkce vychází z myšlenky, kterou navrhli Altschul a Erickson (1986), kde daná diagonála D má určitou délku l D. Označíme součet hodnot podobností jednotlivých aminokyselinových párů uvnitř diagonály jako sd. Tyto hodnoty lze určit například pomocí substituční matice BLOSUM62, která se obvykle používá, pokud porovnáváme proteinové sekvence. Dále P 1(l D,s D) vyjadřuje pravděpodobnost, že náhodná diagonála délky l D má alespoň stejnou sumu s D hodnot podobnosti. Samotná váhová funkce w 1(D) diagonály D je definována takto: w 1 = log P 1 l D, s D Altschul a Erickson také ukázali, že důležitou vlastností tohoto způsobu měření podobnosti segmentů je, že může být porovnávána hodnota dvojic segmentů, které mají rozdílnou délku. Což umožnilo do tohoto programu začlenit vlastnost umožňující práci s diagonálami rozdílných délek. Toto ohodnocení je použito v DIALIGN 1[8] a provádí sestavení zarovnání většinou z mnoha krátkých diagonál než z několika dlouhých, což může vést ke ztrátě informace o lokální podobnosti mezi malými náhodnými segmenty, které tvoří šum. Aby autoři docílili omezení tohoto jevu, upravili způsob hodnocení. Zavedli možnost určení prahové hodnoty pro váhu diagonál, kterou je nutné dosáhnout, aby byla diagonála zahrnuta do výpočtu zarovnání. A také je nutné, aby každá diagonála měla minimální délku 7 residuí. Dalším vylepšením vlastností tohoto algoritmu dosáhl Morgenstern přepracováním váhové funkce[9] pomocí pravděpodobnosti P2(lD,sD) pro vyhledání diagonály délky ld, která má sumu hodnot jednotlivých podobností alespoň stejně velkou, jako je s D SEA Podobný přístup k provádění zarovnání je implementován algoritmem SEA (SEgment Alignment algortihm)[10]. Tento algoritmus porovnává proteiny, které jsou popsané jako kolekce předpovězených struktur lokálních segmentů, jenž odpovídají neohodnocenému grafu, který zapisují jako síť, a každá určitá struktura ať už je skutečná, nebo předpovězená odpovídá nějaké cestě v tomto grafu. SEA využívá přístupu srovnávání několika sítí k nalezení dvou co nejvíce podobných cest v těchto sítích, které reprezentují dva proteiny. SEA pro vyhledání optimálního výsledku využívá prohledávání nejistoty a rozličností, které vznikly při predikci lokální struktury. Díky tomu je zároveň řešen úkol provedení 8

15 zarovnání dvou proteinů a určení lokální struktury každého z nich. Pro využití této metody si autoři určili a označili tzv. lokální strukturu segmentů (LSSs), která je určena jako maximální strukturní jednotka, sdílená mezi porovnávanými proteiny. Každý takovýto úsek může být předvídán metodami pro určení nejbližšího souseda (nearest neighbor), které vytvářejí seznam předpovězených segmentů lokálních struktur (PLSSs). SEA pak hledá nejlepší výsledek podobnosti mezi všemi cestami, jimiž lze procházet PLSS grafy, které jsou reprezentací dvou srovnávaných proteinů, a také díky tomuto mohou být použity rozdíly mezi segmenty k provedení globálního zarovnání. Jak bylo uvedeno dříve, tato metoda srovnává proteiny pomocí charakteristiky lokální (sekundární struktury). To znamená, že není prováděno porovnávání jednotlivých residuových zbytků, ale nejprve je určena sekundární struktura. Pro předpovězení struktury využívá algoritmus přístup k programu ROSSETA, který je speciálně pro tuto predikci navržen. Pro ohodnocení podobnosti[10] je použito následující schéma hodnocení, i, j =W a Aa i, Aa j W s, kde W a a W s jsou váhy podobnosti sekvence a podobnosti lokální struktury, kde W a + W s = 1. Dále potom Δ(Aa i, Aa j ) je podobnost sekvence definovaná maticí BLOSUM62 (). Δ(α, β) určuje podobnost mezi lokálními strukturami. Tato podobnost je určena hodnotící maticí, která je odvozena z vybrané podmnožiny databáze HOMSTRAD, jež obsahuje 706 proteinů, které jsou zatříděni do 177 strukturních rodin Divide-and-conquer Další možností, jak provádět zarovnávání biologických sekvencí, je kombinace několika metod. Tento způsob je využit v přístupu Divide and conquer multilple alignment (DCA)[11]. Tento algoritmus kombinuje navzájem dvě metody pro výpočet zarovnání. Při výpočtu je použita kombinace DCA[11], tato část algoritmu provádí globální zarovnání, a dále program pro lokální zarovnání založený na porovnávání segmentů DIALIGN. Tento algoritmus provádí zarovnání následujícím způsobem. V prvním kroku je aplikován segment base aligmnent v takovém pořadí, aby byla získána konzistentní množina fragmentů F, reprezentující strukturu pro další upřesnění. Tyto fragmenty, nebo jejich vhodná podmnožina, jsou použity jako omezení pro další krok algoritmu. Ve druhém kroku je použita metoda divide and conquer, která provede dokončení zarovnání pro úseky, které nebyly zařazeny do původní skupiny fragmentů F. A to tak, že DCA provádí výpočet optimálního vícenásobného zarovnání za použití dodatečných omezení v závislosti na množině F. 9

16 4. ProLoP Jak už bylo zmíněno výše, existují metody pro určování podobnosti mezi sekvencemi proteinů, které využívají možné funkční nebo strukturní podobnosti podobných sekvencí. Těchto možností je v dnešní době již nepřeberné množství, ale stále nebyla nalezena zcela optimální cesta pro určování vlastností proteinů. Proto je tato oblast vývoje aplikací a algoritmů zcela otevřená a umožňuje rozvoj bioinformatiky. Cílem této práce je implementace způsobu porovnávání a určování podobností sekvencí, který bude na rozdíl od klasických metod jako Smith Waterman postaven na možnosti využití určitých segmentů sekvence. Program, který je součástí této práce, se jmenuje ProLoP (PROteinové Lokální Podobnosti). 4.1 Myšlenka algoritmu Nechť máme nějakou biologickou sekvenci A. Pro tuto sekvenci máme definován seznam lokálních podobností proti databázi sekvencí X 1...X n. Tím myslím, že je dána množina podřetězců a 1...a i sekvence A takových, pro které byly identifikovány podobné podřetězce x1 1...xn j z dané databáze podobných sekvencí X 1...X n. Algoritmus pak provede ohodnocení stupně podobnosti mezi každou dvojicí sekvencí (A,X i ) takovým způsobem, že budou zohledňovány důležité vlastnosti pro možnou strukturu nebo funkci. Mezi tyto vlastnosti patří například relativní pozice segmentů, počet shodných nebo podobných segmentů. 4.2 Algoritmus ohodnocení Důležitou vlastností pro výpočet podobnosti sekvencí je možnost práce s daty, které je možné získat z veřejně dostupných zdrojů. Nejdůležitější je možnost získávání informací, které umožní vybrat z hodnocené sekvence hledané segmenty. Tuto funkčnost je možné zajistit s využitím některé metody, která takové segmenty identifikují. Je možné použít například algoritmus použitý v programu DIALIGN, který má funkční webové rozhraní, přes které s ním lze pracovat. V tomto projektu jsou jako vstup použita data, která poskytuje program PEPTIMEX[12], jehož autorem je Ing. Matej Lexa a vyhledává segmenty peptidů. PEPTIMEX vyhledává výskyt peptidových sekvencí o délce 7 20 aminokyselin. Výsledek tohoto vyhledávání je dostupný ve formě strukturovaného textu, kde jsou jednotlivé položky navzájem odděleny mezerou a každý záznam je na samostatném řádku. Tento vstup je zpracován třídou PeptimexInput, která je popsána v kapitole Způsob jakým provádím vyhodnocování podobnosti je založen na opakovaném výskytu několika segmentů společně, které mohou mít určitý vliv na určitý předpoklad funkce srovnávaného proteinu. Jedno z kritérií, které dává daném segmentu větší váhu k důležitosti, může být statistický výskyt tohoto segmentu v prohledávané databázi. Z toho také vyplývají následné kombinace několika segmentů. Protože možných kombinací je velké množství, je kladen důraz na podobnost mezi segmentem ze sekvence A a segmentem ze sekvence X i. 10

17 Mezi dvojicemi segmentů může hrát také určitou roli vzdálenost, která je mezi dvojicí segmentů, a může vypovídat například o tom, že pokud je mezi segmenty ze sekvence A určitá vzdálenost a mezi podobnými segmenty z X i bude vzdálenost jiná (např. větší) a víme, že segmenty z X i byla třeba určitá interakce, může se sekvence A svou funkčností podobat proteinové sekvenci X i a přitom mít odlišné strukturu. Tento možný stav schématicky znázorňuje obrázek Obr. 6. Znázorněný příklad je možný v důsledku toho, že proteiny, které mají podobnou funkci, vytvářejí struktury, které mají podobné fyzické uspořádání. Obr. 5: Interakce v proteinech Dalším faktorem pro hodnocení je statistika výskytu určitých dvojic v prohledávané databázi. Pro každou dvojici A 1 a A 2 dokážeme, určit jaká je jejich vzájemná míra informace (mutual information, MI). Tuto hodnotu lze vypočítat podle následujících vztahů. P x 1, x 2 MI =log 2 P x 1 P x 2 Kde P(x1) je pravděpodobnost výskytu segmentu x1, P(x2) je pravděpodobnost výskytu segmentu x2 a P(x1,x2) je pravděpodobnost výskytu obou segmentů v proteinu současně. Například pokud víme, že x 1 se vyskytuje 1250x a x 2 se bude vyskytovat 800x, tak dokážeme zjistit, že společně se vyskytují například 12x. Způsob, jakým vypočteme jejich vzájemnou informaci, odpovídá příkladu. Pokud víme, že databáze obsahuje například aminokyselin, potom frekvence výskytu x 1 a x 2 je P x 1 = P x 2 = Pak by měl být náhodný výskyt obou segmentů A 1 a A 2 dán součinem frekvencí výskytů jednotlivých segmentů. To je s frekvencí 1/ MI slouží ke zjištění, jaký je poměr reality k této teoretické náhodné hodnotě. Pokud jde pouze o čistě náhodné údaje, bude hodnota MI = 1, a pokud výskytu dvojice něco pomáhá nebo brání (např. nějaké strukturní nebo biologické pravidlo), bude hodnota MI různá od 1. MI =log 2 12 = 3,58 Další metodou, jak ohodnotit sekvence, může být pomocí základního ohodnocení jednotlivých 11

18 segmentů pomocí metody pro párové ohodnocování jako u metody Smith Waterman. Pro vzájemné porovnání dvou segmentů je použita matice podobnosti Blosum62(Tabulka 3), která obsahuje ohodnocení pro možné záměny či srovnání dvou aminokyselin na určité pozici v segmentu. Podobnost je stanovena jako součet hodnot z matice pro dané páry[6]. Ta je definovaná vztahem: n A, X i = 0 Blosum62[ i, j] Pro tuto rovnici je určeno, že n značí délku menšího ze segmentů a hodnoty i,j určují řádek a sloupec pro konkrétní aminokyselinu v matici podobnosti. Když máme takto ohodnoceny jednotlivé dvojice segmentů, tak je možné je zahrnout do obecnějšího ohodnocení podobnosti. Pro takové dvojice segmentů provádíme další porovnání takovým způsobem, že vytvoříme matici vzdáleností mezi jednotlivými segmenty X i jedné sekvence. To provedeme pro každý protein, který je dostupný ve výsledku vyhledávání. Celkové ohodnocení proteinu se vypočítá pomocí jedné ze dvou metod zahrnující výpočet vzájemné informace S MI nebo pomocí ohodnocení mezi jednotlivými segmenty podle Δ(A i,x i ), ve výsledném vzorci značeno S F. Hodnocení může být také složeno z obou možností s tím, že hodnocení, na které bude kladen větší důraz, lze ovlivnit parametrem p. Hodnocení je tedy pro každý možný protein určen jako součet: A R N D C Q E G H I L K M F P S T W Y V A R N D C Q E G H I L K M F P S T W Y V Tabulka 3: Matice Blosum62 S = p S MI 1 p S F Funkce S MI značí součet vzájemné informace mezi každou dvojicí segmentu z jednotlivého proteinu. Funkce SF se spočítá jako součet ohodnocení každého segmentu v proteinu. Ve výsledném ohodnocení pak budou mít nejlepší ohodnocení proteiny, u kterých byly identifikovány segmenty, které se častěji vyskytují ve dvojicích. A také proteiny, které budou mít větší shodu podobností pomocí 12

19 základního ohodnocení. Následující obrázek tuto myšlenku pro lepší představu graficky znázorňuje. Obr. 6: Znázornění vlivu nalezených segmentů na celkové hodnocení Spojnice mezi segmenty znázorňují hodnocení pomocí funkce S F a vlastnost většího výskytu určitého páru segmentů (a1, a2 a pro ně identifikované x1.1, x2.1 a x1.2, x2.2) přidají v proteinu X1 a X2 větši míru informace než v proteinu Xi, tudíž budou mít lepší hodnocení. 4.3 Návrh programu Tato část pojednává o objektově orientovaném návrhu programu popisem klíčových modulů a tříd. Hlubší zaměření je pouze na důležité součásti a ostatní součásti budou zmíněny pouze okrajově. O způsobu, jakým je prováděno ohodnocení podobnosti mezi danými dvojicemi sekvencí (A,X i ), pojednává kapitola 5.2, protože jde o nejdůležitější součást programu. Popisy, které zahrnují termíny a syntaxi zápisu v Javě, jsou vysázeny fontem Courier New, umožní to zejména přehlednější orientaci. Díky hierarchickému uspořádání objektů je možné v Javě implementovat jednotlivé třídy programu tak, že jsou rozděleny do balíčků podle dané funkčnosti. Proto je tento program rozdělen do několika základních částí, tak jak je ukázáno na následujícím obrázku (Obr. 7). Sequence: obsahuje třídy, které zahrnují algoritmus na vyhodnocení podobností IO: zahrnuje třídy, které slouží pro vstupně výstupní operace programu GUI: tato část implementuje GUI rozhraní pro ovládání programu Obr. 7: Balíčky a třídy 13

20 Pro snadnější ovládání je součástí aplikace také jednoduché grafické rozhraní (GUI), které má uživateli umožnit nastavování různých parametrů pro ohodnocení, určování zdroje dat, výsledek poté zobrazit ve vhodně čitelné formě a případně uložit výstup do externího souboru. 4.4 Seznámení s jednotlivými funkcemi programu Jaká data jsou vstupem Jak už bylo uvedeno výše, vstupem dat jsou hodnoty z programu PEPTIMEX[12]. Tato data je možné načíst ze dvou různých zdrojů. Je možné mít data na nějakém lokálním úložišti a pak si v programu vyberete cestu a soubor, který požadujete. Druhou možností je zvolit si přímo adresu serveru na internetu, na kterém PEPTIMEX běží. Pro tyto účely a možnost testování je možné využívat URL: bin/peptimex_client.cgi Aby bylo možné získat informace, je potřeba, aby byla zadána krátká sekvence aminokyselin a také zdroj, na kterém má být vyhledávání provedeno. V současné době je zdroj dat pouze Arabidopsis thaliana. Aby bylo možné provádět porovnávání, je nutné ještě zadat sekvenci A, na které bude provedeno určení segmentů pomocí pohyblivého okna, jehož velikost je možné ovlivnit v rozsahu 8 20 aminokyselin. Tyto segmenty pak slouží jako vstup do programu PEPTIMEX[12]. Následuje příklad, v jakém formátu vrátí PEPTIMEX vyhledané podobnosti pro různé proteiny. 0 MASAQSF-Y MASA-TFSF At1g MASAQSFY- MASA-SYYF At3g MASAQSFY MASAQSFY At5g MASAQSFY VASA At1g MASAQSFY VASA At5g MASAQSFY IASA At4g MASAQSFY LASA At2g Ukázka zahrnuje jednotlivé položky v následujícím pořadí: Číslo primeru Sekvence, použitá při vyhledávání Sekvence, kterou PEPTIMEX identifikoval Identifikátor proteinu Globální pozice, na které je identifikovaná sekvence Lokální pozice, na které je identifikovaná sekvence Vlákno Skóre, reprezentující počet shodujících se bází 14

21 Tato data jsou získávána pomocí standardních postupů, kde se využívá InputStreamReader a také BufferedReader, díky těmto třídám, které jsou součástí běžného Java API, je možné určit pro vstup soubor nebo URL. Pokud použijeme jako vstup data lokálního souboru jsou postupně načítány jednotlivé řádky, které jsou ukládány do tzv. HashMap, kde je každý řádek rozdělen po jednotlivých položkách, které je možné potom z objektu SegmentLine zpřístupnit. Toto dynamické ukládání umožňuje vyhledávání jednotlivých položek pomocí klíče. V našem případě je klíč pořadí, ve kterém byl daný řádek načten ze vstupu. Pokud je zvolen jako vstup zdroj z internetu, je pro ukládání vstupních dat použita databáze, kde jsou jednotlivé řádky opět ukládány, zároveň s tímto je také vytvořen seznam možných proteinů, kterým je potom přiřazeno vypočítané hodnocení. Tento odlišný přístup je zvolen z následujícího důvodu. Databáze nám poskytuje jednoduché a optimalizované nástroje pro práci s uloženými daty ve formě dotazovacího jazyku SQL a umožňuje také v případě velké vstupní sekvence přesunout paměťové nároky na stroj, který má odpovídající výkon. Pokud je vstup ze souboru, tak jsou v něm data, která se týkají segmentů pro sekvenci, která tvoří jediné posuvné okno. Naopak pokud je brán jako zdroj PEPTIMEX a zadaná sekvence je delší než stanovená velikost okna. Dojde k získání velkého množství dat. Např. pokud je sekvence dlouhá 16 znaků, bude databáze obsahovat až kolem 200 záznamů o segmentech Výsledky, kterých je docíleno provedením výpočtu podobnosti, je možné vyexportovat ve formátu XML. Díky tomu, že většina zpracovávaných informací má určitou možnou hierarchii, je pro uchovávání a průběžnou práci vhodná nějaká stromová struktura, která lze do formátu XML zapsat. Výhoda pro tento způsob je v tom, že lze připravit nějakou XSLT transformační šablonu pro převod do jiného formátu. Například umožnit vizualizaci schematickou vizualizaci jednotlivých segmentu nebo upravit výstup pro použití do jiného typu aplikace. Následující ukázka zobrazuje příklad, jakým způsobem je možné uložit získaná vstupní data. V podstatě jde pouze o konkrétní určení, jakou vlastnost má konkrétní položka. <input> <segment_line> <query_seq>masaqsf-y</query_seq> <genomi_seq>masa-tfsf</genomi_seq> <gi_id>at1g54500</gi_id> <position> </positon> </segment_line>... </input> 15

22 4.5 Implementace hodnotícího algoritmu Z takto získaných dat dostaneme základní informace o segmentech, na jejichž základě budeme vyhodnocovat celkovou podobnost. První částí je provedení vyhodnocení podobnosti mezi jednotlivými segmenty A a X i. A to takovým způsobem, že v každém řádku je druhá položka brána jako segment ze sekvence A a položka třetí je segment vhodný k porovnání, který se nachází v sekvenci X i. To, který řádek patří k porovnávání A a daného X i, určuje identifikační kód proteinu, ve kterém se segment nachází. Toto ohodnocení jednotlivých segmentů slouží pro výpočet podobnosti pomocí základního ohodnocení funkcí S F. Ohodnocení mezi jednotlivými segmenty je implementováno třídou ScoreBlosum62, která provádí vyhodnocování mezi jednotlivými segmenty. Obsahuje pouze metodu compare, která přebírá jako vstupní parametry dva řetězce, které určují dané segmenty, a provede výpočet skóre podle matice BLOSUM62 (Tabulka 3). Druhá část celkového ohodnocení se vypočítává pomocí postupného sčítání vzájemné míry informace mezi každým možným párem segmentů z daného proteinu. Tyto výpočty se postupně provádí pro všechny segmenty a v průběhu výpočtu se postupně jednotlivá dílčí hodnocení postupně přičítají k hodnotě podobnosti pro daný protein. Po průchodu všemi segmenty je pro každou identifikovanou proteinovou sekvenci známo celkové ohodnocení. Vyhodnocení výsledků podobnosti vypisuje program do speciálního pole, které je dostupné na záložce Výstup. Výstup je textového formátu a obsahuje informace o datech, která jsou zpracovávána a vyhodnocována. První část výpisu obsahuje informace, které jsou relevantní pro danou hodnotu posuvného okna. Každý řádek na konci obsahuje informaci o hodnotě, která vznikla porovnáním páru segmentů (A,X i ) pomocí ohodnocení maticí BLOSUM62 (Tabulka 3). Pak je na výstup zařazen výsledek ohodnocení pro jednotlivé proteiny X i, včetně jejich identifikátoru. Poslední výsledek zobrazuje nejvyšší dosaženou hodnotu hodnocení. Kromě vyhodnocování výsledků pomocí textového výstupu program také vytvoří okno grafu, ve kterém jsou výsledky lépe čitelné a umožňují vytvořit si lepší představu o stavu vyhodnocení rozdílů mezi jednotlivými segmenty, které byly porovnávány. Výstup je ve formě sloupcového grafu. V grafu jsou zobrazeny hodnoty porovnání, toto vyjadřuje výška sloupce, a každý sloupec je označen popiskem, který napovídá, ve kterém proteinu byl porovnávaný segment nalezen. Tento graf je možné uložit ve formátu png. Funkce pro generování grafu je zajištěna pomocí nástrojů, které jsou převzaty z volně použitelného balíku jfreechar. Tento balík obsahuje mimo jiné také nástroje pro vytváření jiných typů grafů, jako jsou grafy koláčové, spojnicové. Tento balík poskytuje komplexní řešení pro práci s grafy a umožňuje tak usnadnit práci s vizualizaci výsledků. Balík je dostupný volně ke stažení na adrese: Protože je výpočet hodnocení založen také na některých matematických funkcích, které nejsou v Javě standardně implementovány, byl k programu připojen balíček flanagan.jar, jehož autorem 16

23 je Michael Thomas Flanagan[13] a jsou pro nekomerční účely volně použitelné. Obsahují kromě funkcí pro integrální výpočet již hotové statistické metody pro základní pravděpodobnost, ale i jiné složitější funkce, které nejsou běžně v Javě implementovány. Vše je dostupné ve formě jar archivu na stránkách autora: Další balík, který program využívá, umožňuje vytvoření spojení a práci s databází MySql. Tento balík je také volně šiřitelný a pochází přímo od tvůrců databáze. Jedná se o balík mysqlconnector-java bin.jar, který je dostupný na adrese: Tento balík poskytuje metody pro práci s databází MySQL, ke které se z programu připojujeme, protože uložení některých dat v tabulce umožňuje získávat informace o počtech jednotlivých nalezených segmentech jednoduchým způsobem pomocí dotazovacího jazyka SQL. Využití tohoto přístupu zjednodušuje práci s daty pro výpočet vzájemné informace mezi jednotlivými dvojicemi segmentů. Informace získané touto metodou nahrazují ukládání a zpravování výpočtů v poli, které by plnilo funkci tabulky a které může být obecně velmi velké. Databáze je pro takovéto účely více než vhodným řešením navíc umožňuje, aby se data částečně zpracovávala na odděleném serveru, který má většinou dostatečný výkon pro tyto vlastnosti. Parametry serveru pro připojení může uživatel snadno ovlivnit, pokud je zapíše do souboru database.conf. V souboru lze nastavit adresu a port serveru, jméno databáze, přihlašovací jméno a heslo. Strukturu databáze je možné vytvořit pomocí přiloženého skriptu create_data.sql GUI Uživatelské rozhraní, které poskytuje pohodlné ovládání programu, je vytvořeno tak, aby bylo pro uživatele programu co nejlépe na první pohled pochopitelné. Umožňuje nastavit základní vlastnosti, tak aby mohly být použity například i jiné zdroje vstupních dat než ty, které jsou předem definované. Pomocí posuvníku je možné nastavit velikost klouzajícího okna. Obr. 8: Uživatelské rozhraní 17

24 4.6 Instalace a požadavky na systém Počítačový program, který je součástí této práce, je napsán v jazyce Java. Z toho vyplývají určité výhody a nevýhody použití. Mezi největší z výhod bych zařadil možnost spouštění na libovolné platformě, pro kterou existuje běhové prostředí Javy (JRE, Java Runtime Environment). V dnešní době by se mohlo zdát, že běh programu bude pomalejší než běžné programy, které jsou kompilované přímo do konkrétního binárního formátu určeného pouze pro konkrétní systém. Tato zdánlivá nevýhoda je však téměř zanedbatelná, protože současné implementace kompilátorů Javy provádí dostatečnou optimalizaci, která zaručí dostatečnou rychlost. Program je sestaven formou archivu jar, což umožní jednodušší možnosti pro nahrání a spuštění programu. Aby bylo možné program použít, je třeba mít nainstalované JRE ve verzi 1.5 nebo vyšší. Program není třeba instalovat. Stačí pouze nahrát adresář, který rozbalíte z archivu prolop.zip na požadované, místo odkud by měl být spouštěn. V archivu je kromě samotného balíčku, který se spouští, také konfigurační soubor pro nastavení připojení k databázi, skript pro vytvoření databáze pro průběžné výpočty a adresář lib, který obsahuje dodatečné balíky nutné pro běh programu. Balíček je sestaven tak, že se automaticky spustí grafické rozhraní a není třeba ručně určovat třídu, která má být spuštěna. Program se spouští následujícím příkazem: java -jar ProLoP.jar Požadavky programu na systém jsou tedy hlavně závislé na doporučení pro konkrétní JRE. Pro verzi Sun Java Runtime Environment 1.5.0_xx jsou tyto požadavky podporované následující operační systémy: Solaris SPARC, Solaris x86, JDS, Red Hat Linux, SUSE Linux, Windows 98, Windows ME, Windows 2000 (SP4+), Windows XP (SP1 SP2), Windows Požadavky programu na diskový prostor jsou minimální kolem 1 MB. Doporučená velikost operační paměti je 512 MB a více. Pro funkčnost programu doporučuji přístupu k internetu, aby byla zaručena funkčnost získávání podobností z programu PEPTIMEX. Program využívá pro výpočet data, která jsou zapsána do databáze, proto je nutné mít přístup k databázi MySQL a v ní mít vytvořenu příslušnou databázi. 4.7 Ukázka vstupu do programu a zpracování Obr. 9: Ukázka práce s programem 18

25 Aby bylo názorně vidět program funguje, je zde uveden konkrétní příklad zpracovávaných dat. Jako vzorek sekvence, kterou se budeme snažit ohodnotit, bude posloupnost aminokyselin MASAQSFY. Tato sekvence je význačná pro Arabidopsis thaliana, která má značení At5g Po spuštění programu, tedy do pole sekvence(obr. 9 bod 1) zadáme MASAQSFY, nastavíme velikost posuvného okna na požadovanou velikost(obr. 9 bod 2). V tomto případě je to 8, protože větší okno by vzhledem k délce sekvence stejně nemělo žádný význam. Dále můžeme změnit nastavení parametru p pomocí posuvného jezdce(obr. 9 bod 3). Ovlivníme tím, jestli se při výpočtu váhové funkce bude brát ohled více na hodnotu MI(Mutual Information) nebo hodnotu standardizovaného rozložení. Pro spuštění ohodnocení zvolíme zdroj z internetu(obr. 9 bod 4). Zde je zdrojem dat výstup z programu PEPTIMEX. Vrácené hodnoty jsou načteny do databáze, ze které jsou tyto hodnoty použity pro výpočet hodnocení. Zároveň se také v databázi vytvoří seznam možných proteinů, kterým bude později přiřazeno hodnocení. 4.8 Ukázka vyhodnocení a graf výsledku Po dokončení ohodnocení jednotlivých proteinů je programem vypsáno ohodnocení jednotlivých proteinů a maximální dosažené hodnocení. V záložce graf jsou tyto výsledky znázorněny pomocí grafu(obr. 9 bod 5). Pro každý protein je zde jeden sloupec, který znázorňuje dosažené hodnocení. Obr. 10: Výsledek vyhodnocení Na obrázku(obr. 10) je ukázáno, že hodnocení vyšlo nejlépe pro proteiny At5g07210 a At2g Proto tyto dva nejlépe ohodnocené proteiny lze považovat jako kandidáty pro podobnost. U At5g07210 je to opravdu, to co jsme hledali, druhý však dosáhl velkého hodnocení díky tomu, že při analýze vstupu byly identifikovány dva segmenty z jednoho proteinu, tudíž je hodnocení takto vysoké. Toto ovšem není chyba, protože hodnocení má pro každý nalezený segment spočítat hodnocení pro všechny identifikované segmenty. 19

26 Tato ukázka sloužila pro testování, zda ohodnocení vrací předpokládané hodnoty. Aby byly vidět rozdíly ve výsledcích, použijeme pro ukázku sekvenci MASAQSFYMA, na této sekvenci ukážeme, že v programu dochází k ohodnocení také podle posuvného okna, které vytváří podsekvence. Opět nastavíme parametry a to takto: Posuvné okno necháme na nejmenší hodnotu 8, parametr p necháme na hodnotu 50, aby do hodnocení byly zahrnuty obě části hodnotící funkce a opět zvolíme vstup z internetu. Obr. 11: Výsledek pro sekveci MASAQSFYMA Z obrázku(obr. 11) je již více zřetelné, že nejvíce podobná sekvence je At5g Při tomto pokusu došlo navíc k tomu, že bylo hodnocení provedeno pro více segmentů, které jsem dostali, protože se zde 2 krát posunulo okno. Pro každý tento posuv byly získány další segmenty, které následně přispěly do hodnocení jednotlivých proteinů. 4.9 Zhodnocení běhu programu Program lze provozovat na jakémkoliv počítači, kde je JRE a je zde připojení k internetu. Nevýhodou je však velké vytížení procesoru díky náročným výpočtům funkce pro vzájemnou informaci mezi segmenty. Toto se projevuje v délce výpočtu, která je závislá zejména na velikosti vstupní sekvence. Díky tomu, že hodnocení proteinu se provádí pro každou dvojici segmentů, které jsou pro něj identifikovány, je počet výpočtů pro jeden protein určen počtem možných dvojic segmentů jako: V 2, n = n! n 2! Výpočet se provádí pro každý identifikovaný protein, takže výpočet se provádí celkem m krát, kde m je počet identifikovaných proteinů. 20

27 5. Závěr Oblast, která se zabývá tímto oborem, je pole plné možností. Pokud se zabýváme touto oblastí, je nesmírně důležité zpracovat velké množství informací, které není snadné leckdy jednoduše najít a získat. Je důležité pokusit se udělat si přehled o dané problematice, například najít různé podobné metody, které se týkají podobného problému, proto je část práce zaměřena na způsoby, jakým fungují ostatní dostupné metody. Program podává uživateli nápovědu, podle které může postupovat při porovnání proteinových sekvencí. Z výstupu dostane informaci, která může sloužit jako výchozí bod pro podrobnější analýzu zpracovávané sekvence. Využívá k tomu vstup z vědeckého projektu PEPTIMEX a pro jednoduché zpracování dat také připojení na databázi. Díky tomu lze jednoduše zjišťovat potřebné informace, které slouží pro výpočet hodnocení. Díky tomu, že z databáze dostáváme výsledky pomocí jazyka SQL, lze v případě potřeby jednoduše modifikovat funkci pro hodnocení. Výsledky pro výpočet hodnocení podobnosti jsou použitelné pro další hodnocení a myslím, že můžou být použity například pro ukázku ve výuce základů bioinformatiky pro pochopení, jakým způsobem lze pracovat s dostupnými produkty, a pro získání představy, jakým způsobem jsou postaveny ostatní projekty pro hodnocení podobnosti. 21

Hemoglobin a jemu podobní... Studijní materiál. Jan Komárek

Hemoglobin a jemu podobní... Studijní materiál. Jan Komárek Hemoglobin a jemu podobní... Studijní materiál Jan Komárek Bioinformatika Bioinformatika je vědní disciplína, která se zabývá metodami pro shromážďování, analýzu a vizualizaci rozsáhlých souborů biologických

Více

Základy genomiky. I. Úvod do bioinformatiky. Jan Hejátko

Základy genomiky. I. Úvod do bioinformatiky. Jan Hejátko Základy genomiky I. Úvod do bioinformatiky Jan Hejátko Masarykova univerzita, Oddělení funkční genomiky a proteomiky Laboratoř molekulární fyziologie rostlin Základy genomiky I. Zdrojová literatura ke

Více

Studijní materiály pro bioinformatickou část ViBuChu. úloha II. Jan Komárek, Gabriel Demo

Studijní materiály pro bioinformatickou část ViBuChu. úloha II. Jan Komárek, Gabriel Demo Studijní materiály pro bioinformatickou část ViBuChu úloha II Jan Komárek, Gabriel Demo Adenin Struktura DNA Thymin 5 konec 3 konec DNA tvořena dvěmi řetězci orientovanými antiparalelně (liší se orientací

Více

Genomické databáze. Shlukování proteinových sekvencí. Ivana Rudolfová. školitel: doc. Ing. Jaroslav Zendulka, CSc.

Genomické databáze. Shlukování proteinových sekvencí. Ivana Rudolfová. školitel: doc. Ing. Jaroslav Zendulka, CSc. Genomické databáze Shlukování proteinových sekvencí Ivana Rudolfová školitel: doc. Ing. Jaroslav Zendulka, CSc. Obsah Proteiny Zdroje dat Predikce struktury proteinů Cíle disertační práce Vstupní data

Více

Proteiny Genová exprese. 2013 Doc. MVDr. Eva Bártová, Ph.D.

Proteiny Genová exprese. 2013 Doc. MVDr. Eva Bártová, Ph.D. Proteiny Genová exprese 2013 Doc. MVDr. Eva Bártová, Ph.D. Bílkoviny (proteiny), 15% 1g = 17 kj Monomer = aminokyseliny aminová skupina karboxylová skupina α -uhlík postranní řetězec Znát obecný vzorec

Více

1 Webový server, instalace PHP a MySQL 13

1 Webový server, instalace PHP a MySQL 13 Úvod 11 1 Webový server, instalace PHP a MySQL 13 Princip funkce webové aplikace 13 PHP 14 Principy tvorby a správy webového serveru a vývojářského počítače 14 Co je nezbytné k instalaci místního vývojářského

Více

Inovace studia molekulární a buněčné biologie

Inovace studia molekulární a buněčné biologie Inovace studia molekulární a buněčné biologie Tento projekt je spolufinancován Evropským sociálním fondem a státním rozpočtem České republiky. MBIO1/Molekulární biologie 1 Tento projekt je spolufinancován

Více

Bioinformatika a výpočetní biologie KFC/BIN. I. Přehled

Bioinformatika a výpočetní biologie KFC/BIN. I. Přehled Bioinformatika a výpočetní biologie KFC/BIN I. Přehled RNDr. Karel Berka, Ph.D. Univerzita Palackého v Olomouci Definice bioinformatiky (Molecular) bio informatics: bioinformatics is conceptualising biology

Více

Struktura nukleových kyselin Vlastnosti genetického materiálu

Struktura nukleových kyselin Vlastnosti genetického materiálu Struktura nukleových kyselin Vlastnosti genetického materiálu V předcházejících kapitolách bylo konstatováno, že geny jsou uloženy na chromozomech a kontrolují fenotypové vlastnosti a že chromozomy se

Více

Aminokyseliny. Gymnázium a Jazyková škola s právem státní jazykové zkoušky Zlín. Tematická oblast Datum vytvoření Ročník Stručný obsah Způsob využití

Aminokyseliny. Gymnázium a Jazyková škola s právem státní jazykové zkoušky Zlín. Tematická oblast Datum vytvoření Ročník Stručný obsah Způsob využití Aminokyseliny Tematická oblast Datum vytvoření Ročník Stručný obsah Způsob využití Autor Kód Chemie přírodních látek proteiny 18.7.2012 3. ročník čtyřletého G Určování postranních řetězců aminokyselin

Více

Faculty of Nuclear Sciences and Physical Engineering Czech Technical University in Prague

Faculty of Nuclear Sciences and Physical Engineering Czech Technical University in Prague 1 / 23 Faculty of Nuclear Sciences and Physical Engineering Czech Technical University in Prague 2 / 23 biologové často potřebují najít často se opakující sekvence DNA tyto sekvence bývají relativně krátké,

Více

PRODUKTY. Tovek Tools

PRODUKTY. Tovek Tools Analyst Pack je desktopovou aplikací určenou k vyhledávání informací, tvorbě různých typů analýz a vytváření přehledů a rešerší. Jsou vhodné pro práci i s velkým objemem textových dat z různorodých informačních

Více

PRODUKTY. Tovek Tools

PRODUKTY. Tovek Tools jsou desktopovou aplikací určenou k vyhledávání informací, tvorbě různých typů analýz a vytváření přehledů a rešerší. Jsou vhodné pro práci i s velkým objemem textových dat z různorodých informačních zdrojů.

Více

MBI - technologická realizace modelu

MBI - technologická realizace modelu MBI - technologická realizace modelu 22.1.2015 MBI, Management byznys informatiky Snímek 1 Agenda Technická realizace portálu MBI. Cíle a principy technického řešení. 1.Obsah portálu - objekty v hierarchiích,

Více

xrays optimalizační nástroj

xrays optimalizační nástroj xrays optimalizační nástroj Optimalizační nástroj xoptimizer je součástí webového spedičního systému a využívá mnoho z jeho stavebních bloků. xoptimizer lze nicméně provozovat i samostatně. Cílem tohoto

Více

1. Webový server, instalace PHP a MySQL 13

1. Webový server, instalace PHP a MySQL 13 Úvod 11 1. Webový server, instalace PHP a MySQL 13 Princip funkce webové aplikace 13 PHP 14 Principy tvorby a správy webového serveru a vývojářského počítače 14 Co je nezbytné k instalaci místního vývojářského

Více

Základy algoritmizace. Pattern matching

Základy algoritmizace. Pattern matching Základy algoritmizace Pattern matching 1 Pattern matching Úloha nalézt v nějakém textu výskyty zadaných textových vzorků patří v počítačové praxi k nejfrekventovanějším. Algoritmy, které ji řeší se používají

Více

Molekulární základy dědičnosti. Ústřední dogma molekulární biologie Struktura DNA a RNA

Molekulární základy dědičnosti. Ústřední dogma molekulární biologie Struktura DNA a RNA Molekulární základy dědičnosti Ústřední dogma molekulární biologie Struktura DNA a RNA Ústřední dogma molekulární genetiky - vztah mezi nukleovými kyselinami a proteiny proteosyntéza replikace DNA RNA

Více

NUKLEOVÉ KYSELINY. Složení nukleových kyselin. Typy nukleových kyselin:

NUKLEOVÉ KYSELINY. Složení nukleových kyselin. Typy nukleových kyselin: NUKLEOVÉ KYSELINY Deoxyribonukleová kyselina (DNA, odvozeno z anglického názvu deoxyribonucleic acid) Ribonukleová kyselina (RNA, odvozeno z anglického názvu ribonucleic acid) Definice a zařazení: Nukleové

Více

Genetika zvířat - MENDELU

Genetika zvířat - MENDELU Genetika zvířat DNA - primární struktura Několik experimentů ve 40. a 50. letech 20. století poskytla důkaz, že genetický materiál je tvořen jedním ze dvou typů nukleových kyselin: DNA nebo RNA. DNA je

Více

Algoritmus pro hledání nejkratší cesty orientovaným grafem

Algoritmus pro hledání nejkratší cesty orientovaným grafem 1.1 Úvod Algoritmus pro hledání nejkratší cesty orientovaným grafem Naprogramoval jsem v Matlabu funkci, která dokáže určit nejkratší cestu v orientovaném grafu mezi libovolnými dvěma vrcholy. Nastudoval

Více

Experimentální systém pro WEB IR

Experimentální systém pro WEB IR Experimentální systém pro WEB IR Jiří Vraný Školitel: Doc. RNDr. Pavel Satrapa PhD. Problematika disertační práce velmi stručný úvod WEB IR information retrieval from WWW, vyhledávání na webu Vzhledem

Více

Algoritmizace Dynamické programování. Jiří Vyskočil, Marko Genyg-Berezovskyj 2010

Algoritmizace Dynamické programování. Jiří Vyskočil, Marko Genyg-Berezovskyj 2010 Dynamické programování Jiří Vyskočil, Marko Genyg-Berezovskyj 2010 Rozděl a panuj (divide-and-conquer) Rozděl (Divide): Rozděl problém na několik podproblémů tak, aby tyto podproblémy odpovídaly původnímu

Více

Typy nukleových kyselin. deoxyribonukleová (DNA); ribonukleová (RNA).

Typy nukleových kyselin. deoxyribonukleová (DNA); ribonukleová (RNA). Typy nukleových kyselin Existují dva typy nukleových kyselin (NA, z anglických slov nucleic acid): deoxyribonukleová (DNA); ribonukleová (RNA). DNA je lokalizována v buněčném jádře, RNA v cytoplasmě a

Více

Relační DB struktury sloužící k optimalizaci dotazů - indexy, clustery, indexem organizované tabulky

Relační DB struktury sloužící k optimalizaci dotazů - indexy, clustery, indexem organizované tabulky Otázka 20 A7B36DBS Zadání... 1 Slovníček pojmů... 1 Relační DB struktury sloužící k optimalizaci dotazů - indexy, clustery, indexem organizované tabulky... 1 Zadání Relační DB struktury sloužící k optimalizaci

Více

NUKLEOVÉ KYSELINY. Základ života

NUKLEOVÉ KYSELINY. Základ života NUKLEOVÉ KYSELINY Základ života HISTORIE 1. H. Braconnot (30. léta 19. století) - Strassburg vinné kvasinky izolace matiére animale. 2. J.F. Meischer - experimenty z hnisem štěpení trypsinem odstředěním

Více

Kontingenční tabulky v MS Excel 2010

Kontingenční tabulky v MS Excel 2010 Kontingenční tabulky v MS Excel 2010 Autor: RNDr. Milan Myšák e-mail: milan.mysak@konero.cz Obsah 1 Vytvoření KT... 3 1.1 Data pro KT... 3 1.2 Tvorba KT... 3 2 Tvorba KT z dalších zdrojů dat... 5 2.1 Data

Více

Aminokyseliny příručka pro učitele. Obecné informace: Téma otevírá kapitolu Bílkoviny, která svým rozsahem překračuje rámec jedné vyučovací hodiny.

Aminokyseliny příručka pro učitele. Obecné informace: Téma otevírá kapitolu Bílkoviny, která svým rozsahem překračuje rámec jedné vyučovací hodiny. Obecné informace: Aminokyseliny příručka pro učitele Téma otevírá kapitolu Bílkoviny, která svým rozsahem překračuje rámec jedné vyučovací hodiny. Navazující učivo Před probráním tématu Aminokyseliny probereme

Více

"Učení nás bude více bavit aneb moderní výuka oboru lesnictví prostřednictvím ICT ". Molekulární základy genetiky

Učení nás bude více bavit aneb moderní výuka oboru lesnictví prostřednictvím ICT . Molekulární základy genetiky "Učení nás bude více bavit aneb moderní výuka oboru lesnictví prostřednictvím ICT ". Molekulární základy genetiky 1/76 GENY Označení GEN se používá ve dvou základních významech: 1. Jako synonymum pro vlohu

Více

Zpráva o zhotoveném plnění

Zpráva o zhotoveném plnění Zpráva o zhotoveném plnění Aplikace byla vytvořena v souladu se Smlouvou a na základě průběžných konzultací s pověřenými pracovníky referátu Manuscriptorium. Toto je zpráva o zhotoveném plnění. Autor:

Více

Využití metod strojového učení v bioinformatice David Hoksza

Využití metod strojového učení v bioinformatice David Hoksza Využití metod strojového učení v bioinformatice David Hoksza SIRET Research Group Katedra softwarového inženýrství, Matematicko-fyzikální fakulta Karlova Univerzita v Praze Bioinformatika Biologické inspirace

Více

WORKWATCH ON-LINE EVIDENCE PRÁCE A ZAKÁZEK

WORKWATCH ON-LINE EVIDENCE PRÁCE A ZAKÁZEK WORKWATCH ON-LINE EVIDENCE PRÁCE A ZAKÁZEK Systém WorkWatch je určen pro malé a střední firmy, které se zabývají službami nebo zakázkovou výrobou. Zajistí dokonalý přehled o všech zakázkách a jejich rozpracovanosti.

Více

Translace (druhý krok genové exprese)

Translace (druhý krok genové exprese) Translace (druhý krok genové exprese) Od RN k proteinu Milada Roštejnská Helena Klímová 1 enetický kód trn minoacyl-trn-synthetasa Translace probíhá na ribosomech Iniciace translace Elongace translace

Více

BALISTICKÝ MĚŘICÍ SYSTÉM

BALISTICKÝ MĚŘICÍ SYSTÉM BALISTICKÝ MĚŘICÍ SYSTÉM UŽIVATELSKÁ PŘÍRUČKA Verze 2.3 2007 OBSAH 1. ÚVOD... 5 2. HLAVNÍ OKNO... 6 3. MENU... 7 3.1 Soubor... 7 3.2 Měření...11 3.3 Zařízení...16 3.4 Graf...17 3.5 Pohled...17 1. ÚVOD

Více

Využití tabulkového procesoru MS Excel

Využití tabulkového procesoru MS Excel Semestrální práce Licenční studium Galileo srpen, 2015 Využití tabulkového procesoru MS Excel Ing Marek Bilko Třinecké železárny, a.s. Stránka 1 z 10 OBSAH 1. ÚVOD... 2 2. DATOVÝ SOUBOR... 2 3. APLIKACE...

Více

Tabulkový procesor. Základní rysy

Tabulkový procesor. Základní rysy Tabulkový procesor Tabulkový procesor je počítačový program zpracovávající data uložená v buňkách tabulky. Program umožňuje použití vzorců pro práci s daty a zobrazuje výsledné hodnoty podle vstupních

Více

Určení molekulové hmotnosti: ESI a nanoesi

Určení molekulové hmotnosti: ESI a nanoesi Cvičení Určení molekulové hmotnosti: ESI a nanoesi ) 1)( ( ) ( H m z H m z M k j j j m z z zh M Molekula o hmotnosti M se nabije z-krát protonem, pík iontu ve spektru je na m z : ) ( H m z M z Pro dva

Více

Tovek Tools. Tovek Tools jsou standardně dodávány ve dvou variantách: Tovek Tools Search Pack Tovek Tools Analyst Pack. Připojené informační zdroje

Tovek Tools. Tovek Tools jsou standardně dodávány ve dvou variantách: Tovek Tools Search Pack Tovek Tools Analyst Pack. Připojené informační zdroje jsou souborem klientských desktopových aplikací určených k indexování dat, vyhledávání informací, tvorbě různých typů analýz a vytváření přehledů a rešerší. Jsou vhodné pro práci s velkým objemem textových

Více

"Učení nás bude více bavit aneb moderní výuka oboru lesnictví prostřednictvím ICT ". Základy genetiky, základní pojmy

Učení nás bude více bavit aneb moderní výuka oboru lesnictví prostřednictvím ICT . Základy genetiky, základní pojmy "Učení nás bude více bavit aneb moderní výuka oboru lesnictví prostřednictvím ICT ". Základy genetiky, základní pojmy 1/75 Genetika = věda o dědičnosti Studuje biologickou informaci. Organizmy uchovávají,

Více

analýzy dat v oboru Matematická biologie

analýzy dat v oboru Matematická biologie INSTITUT BIOSTATISTIKY A ANALÝZ Lékařská a Přírodovědecká fakulta, Masarykova univerzita Komplexní přístup k výuce analýzy dat v oboru Matematická biologie Tomáš Pavlík, Daniel Schwarz, Jiří Jarkovský,

Více

Gymnázium, Brno, Elgartova 3

Gymnázium, Brno, Elgartova 3 Gymnázium, Brno, Elgartova 3 Šablona: III/2 Inovace a zkvalitnění výuky prostřednictvím ICT Název projektu: GE Vyšší kvalita výuky Číslo projektu: CZ.1.07/1.5.00/34.0925 Autor: Mgr. Hana Křivánková Téma:

Více

Zobrazte si svazy a uspořádané množiny! Jan Outrata

Zobrazte si svazy a uspořádané množiny! Jan Outrata LatVis Zobrazte si svazy a uspořádané množiny! Jan Outrata Motivace potřeba visualizovat matematické (algebraické) struktury rychle, přehledně a automaticky počítačovými prostředky ruční kreslení je zdlouhavé

Více

2 PŘÍKLAD IMPORTU ZATÍŽENÍ Z XML

2 PŘÍKLAD IMPORTU ZATÍŽENÍ Z XML ROZHRANÍ ESA XML Ing. Richard Vondráček SCIA CZ, s. r. o., Thákurova 3, 160 00 Praha 6 www.scia.cz 1 OTEVŘENÝ FORMÁT Jednou z mnoha užitečných vlastností programu ESA PT je podpora otevřeného rozhraní

Více

Nápověda k systému CCS Carnet Mini. Manuál k aplikaci pro evidenci knihy jízd

Nápověda k systému CCS Carnet Mini. Manuál k aplikaci pro evidenci knihy jízd Nápověda k systému CCS Carnet Mini Manuál k aplikaci pro evidenci knihy jízd Vážený zákazníku, vítejte v našem nejnovějším systému pro evidenci knihy jízd - CCS Carnet Mini. V následujících kapitolách

Více

Přehledy pro Tabulky Hlavním smyslem této nové agendy je jednoduché řazení, filtrování a seskupování dle libovolných sloupců.

Přehledy pro Tabulky Hlavním smyslem této nové agendy je jednoduché řazení, filtrování a seskupování dle libovolných sloupců. Přehledy pro Tabulky V programu CONTACT Professional 5 naleznete u firem, osob a obchodních případů záložku Tabulka. Tuto záložku lze rozmnožit, přejmenovat a sloupce je možné definovat dle vlastních požadavků

Více

Instalace a první spuštění Programu Job Abacus Pro

Instalace a první spuštění Programu Job Abacus Pro Instalace a první spuštění Programu Job Abacus Pro Pro chod programu je nutné mít nainstalované databázové úložiště, které je připraveno v instalačním balíčku GAMP, který si stáhnete z našich webových

Více

Vyhledávání podobných sekvencí BLAST

Vyhledávání podobných sekvencí BLAST Vyhledávání podobných sekvencí BLAST Základní informace Následující text je součástí učebních textů předmětu Analýza sekvencí DNA a je určen hlavně pro studenty Matematické biologie. Může být ovšem přínosný

Více

Typy souborů ve STATISTICA. Tento článek poslouží jako přehled hlavních typů souborů v programu

Typy souborů ve STATISTICA. Tento článek poslouží jako přehled hlavních typů souborů v programu StatSoft Typy souborů ve STATISTICA Tento článek poslouží jako přehled hlavních typů souborů v programu STATISTICA, ukáže Vám jejich možnosti a tím Vám dovolí využívat program efektivněji. Jistě jste již

Více

Tomáš Oberhuber. Faculty of Nuclear Sciences and Physical Engineering Czech Technical University in Prague

Tomáš Oberhuber. Faculty of Nuclear Sciences and Physical Engineering Czech Technical University in Prague Tomáš Faculty of Nuclear Sciences and Physical Engineering Czech Technical University in Prague Buňka buňka je základní stavební prvek všech živých organismů byla objevena Robertem Hookem roku 1665 jednodušší

Více

Genetický kód. Jakmile vznikne funkční mrna, informace v ní obsažená může být ihned použita pro syntézu proteinu.

Genetický kód. Jakmile vznikne funkční mrna, informace v ní obsažená může být ihned použita pro syntézu proteinu. Genetický kód Jakmile vznikne funkční, informace v ní obsažená může být ihned použita pro syntézu proteinu. Pravidla, kterými se řídí prostřednictvím přenos z nukleotidové sekvence DNA do aminokyselinové

Více

Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek, M. Cvanová. 5. Statistica

Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek, M. Cvanová. 5. Statistica Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek, M. Cvanová 5. Statistica StatSoft, Inc., http://www.statsoft.com, http://www.statsoft.cz. Verze pro Mac i PC, dostupná

Více

Průzkumník IS DP. Návod k obsluze informačního systému o datových prvcích (IS DP) vypracovala společnost ASD Software, s. r. o.

Průzkumník IS DP. Návod k obsluze informačního systému o datových prvcích (IS DP) vypracovala společnost ASD Software, s. r. o. Průzkumník IS DP Návod k obsluze informačního systému o datových prvcích (IS DP) vypracovala společnost ASD Software, s. r. o. dokument ze dne 13. 09. 2018, verze 1.00 Průzkumník IS DP Návod k obsluze

Více

Gymnázium Vysoké Mýto nám. Vaňorného 163, 566 01 Vysoké Mýto

Gymnázium Vysoké Mýto nám. Vaňorného 163, 566 01 Vysoké Mýto Gymnázium Vysoké Mýto nám. Vaňorného 163, 566 01 Vysoké Mýto SUBSTITUČNÍ DERIVÁTY KARBOXYLOVÝCH O KYSELIN R C O X karboxylových kyselin - substituce na vedlejším uhlovodíkovém řetězci aminokyseliny - hydroxykyseliny

Více

Úprava naměřených stavů

Úprava naměřených stavů Návod na používání autorizovaného software Úprava naměřených stavů V Ústí nad Labem 8. 10. 2010 Vytvořil: doc. Ing., Ph.D. Návod pro úpravu stavů_v1 1 z 9 8.10.2010 Obsah 1Úvod...3 2Instalace...4 3Spuštění

Více

Co se o sobě dovídáme z naší genetické informace

Co se o sobě dovídáme z naší genetické informace Genomika a bioinformatika Co se o sobě dovídáme z naší genetické informace Jan Pačes, Mgr, Ph.D Ústav molekulární genetiky AVČR, CZECH FOBIA (Free and Open Bioinformatics Association) hpaces@img.cas.cz

Více

Uživatelský manuál. Aplikace GraphViewer. Vytvořil: Viktor Dlouhý

Uživatelský manuál. Aplikace GraphViewer. Vytvořil: Viktor Dlouhý Uživatelský manuál Aplikace GraphViewer Vytvořil: Viktor Dlouhý Obsah 1. Obecně... 3 2. Co aplikace umí... 3 3. Struktura aplikace... 4 4. Mobilní verze aplikace... 5 5. Vytvoření projektu... 6 6. Části

Více

Nový způsob práce s průběžnou klasifikací lze nastavit pouze tehdy, je-li průběžná klasifikace v evidenčním pololetí a školním roce prázdná.

Nový způsob práce s průběžnou klasifikací lze nastavit pouze tehdy, je-li průběžná klasifikace v evidenčním pololetí a školním roce prázdná. Průběžná klasifikace Nová verze modulu Klasifikace žáků přináší novinky především v práci s průběžnou klasifikací. Pro zadání průběžné klasifikace ve třídě doposud existovaly 3 funkce Průběžná klasifikace,

Více

Aplikace pro srovna ní cen povinne ho ruc ení

Aplikace pro srovna ní cen povinne ho ruc ení Aplikace pro srovna ní cen povinne ho ruc ení Ukázkový přiklad mikroaplikace systému Formcrates 2010 Naucrates s.r.o. Veškerá práva vyhrazena. Vyskočilova 741/3, 140 00 Praha 4 Czech Republic tel.: +420

Více

PRŮZKUMNÍK ISDP NÁVOD K OBSLUZE INFORMAČNÍHO SYSTÉMU O DATOVÝCH PRVCÍCH (ISDP)

PRŮZKUMNÍK ISDP NÁVOD K OBSLUZE INFORMAČNÍHO SYSTÉMU O DATOVÝCH PRVCÍCH (ISDP) PRŮZKUMNÍK ISDP NÁVOD K OBSLUZE INFORMAČNÍHO SYSTÉMU O DATOVÝCH PRVCÍCH (ISDP) Obsah Úvod...2 Co je ISDP...2 Jaké jsou funkce ISDP...2 Slovník pojmů...2 Dílčí DP...2 DS...2 ISDP...2 JeDP...2 OS...2 SlDP...2

Více

Nápověda k systému CCS Carnet Mini

Nápověda k systému CCS Carnet Mini Nápověda k systému CCS Carnet Mini Manuál k aplikaci pro evidenci knihy jízd Vážený zákazníku, vítejte v našem nejnovějším systému pro evidenci knihy jízd - CCS Carnet Mini. V následujících kapitolách

Více

Manuál Multitag čtečka

Manuál Multitag čtečka Manuál Multitag čtečka 2005,2006 1. Instalace ovladače pro USB port 2. Nastavení programu 2.1 DETEKCE portu 2.2. Nastavení ukládání čísla karty(cíl ukládaných dat) 2.3 Formát ukládaných dat 3 Automatický

Více

ALGORITMIZACE A PROGRAMOVÁNÍ

ALGORITMIZACE A PROGRAMOVÁNÍ Metodický list č. 1 Algoritmus a jeho implementace počítačovým programem Základním cílem tohoto tematického celku je vysvětlení pojmů algoritmus a programová implementace algoritmu. Dále je cílem seznámení

Více

FORTANNS. havlicekv@fzp.czu.cz 22. února 2010

FORTANNS. havlicekv@fzp.czu.cz 22. února 2010 FORTANNS manuál Vojtěch Havlíček havlicekv@fzp.czu.cz 22. února 2010 1 Úvod Program FORTANNS je software určený k modelování časových řad. Kód programu má 1800 řádek a je napsán v programovacím jazyku

Více

WNC::WebNucleatCreator

WNC::WebNucleatCreator Tomáš Dlouhý WNC::WebNucleatCreator Verze: 5.1 1 Obsah Obsah...2 Úvod...3 Novinky...3 Požadavky...4 Instalace...4 Přihlášení se do WNC...6 Moduly...7 Modul Blog...7 Modul Categories...8 Modul News...8

Více

KAPITOLA 9 - POKROČILÁ PRÁCE S TABULKOVÝM PROCESOREM

KAPITOLA 9 - POKROČILÁ PRÁCE S TABULKOVÝM PROCESOREM KAPITOLA 9 - POKROČILÁ PRÁCE S TABULKOVÝM PROCESOREM CÍLE KAPITOLY Využívat pokročilé možnosti formátování, jako je podmíněné formátování, používat vlastní formát čísel a umět pracovat s listy. Používat

Více

Moderní systémy pro získávání znalostí z informací a dat

Moderní systémy pro získávání znalostí z informací a dat Moderní systémy pro získávání znalostí z informací a dat Jan Žižka IBA Institut biostatistiky a analýz PřF & LF, Masarykova universita Kamenice 126/3, 625 00 Brno Email: zizka@iba.muni.cz Bioinformatika:

Více

Gymnázium Vysoké Mýto nám. Vaňorného 163, 566 01 Vysoké Mýto

Gymnázium Vysoké Mýto nám. Vaňorného 163, 566 01 Vysoké Mýto Gymnázium Vysoké Mýto nám. Vaňorného 163, 566 01 Vysoké Mýto Registrační číslo projektu Šablona Autor Název materiálu / Druh CZ.1.07/1.5.00/34.0951 III/2 INOVACE A ZKVALITNĚNÍ VÝUKY PROSTŘEDNICTVÍM ICT

Více

Transformace digitalizovaného obrazu

Transformace digitalizovaného obrazu Transformace digitalizovaného obrazu KIV/PPR Martina Málková (tina.malkova@centrum.cz) *15.10.1984 1 Zadání Realizujte transformaci digitalizovaného obrazu zadaného jako matice (m,n) s celočíselnými prvky.

Více

Návod k práci s programem MMPI-2

Návod k práci s programem MMPI-2 Návod k práci s programem MMPI-2 Výchozím vstupním heslem je název programu psaný malými písmeny, tedy mmpi-2. Po zadání hesla stiskněte Enter nebo tlačítko Dále. Hlavní obrazovka programu zobrazuje přehled

Více

Metabolismus aminokyselin. Vladimíra Kvasnicová

Metabolismus aminokyselin. Vladimíra Kvasnicová Metabolismus aminokyselin Vladimíra Kvasnicová Aminokyseliny aminokyseliny přijímáme v potravě ve formě proteinů: důležitá forma organicky vázaného dusíku, který tak může být v těle využit k syntéze dalších

Více

Microsoft Office. Excel vyhledávací funkce

Microsoft Office. Excel vyhledávací funkce Microsoft Office Excel vyhledávací funkce Karel Dvořák 2011 Vyhledávání v tabulkách Vzhledem ke skutečnosti, že Excel je na mnoha pracovištích používán i jako nástroj pro správu jednoduchých databází,

Více

Struktura biomakromolekul

Struktura biomakromolekul Struktura biomakromolekul ejvýznamnější biomolekuly proteiny nukleové kyseliny polysacharidy lipidy... měli bychom znát stavební kameny života Proteiny Aminokyseliny tvořeny aminokyselinami L-α-aminokyselinami

Více

ZÁKLADY STATISTICKÉHO ZPRACOVÁNÍ ÚDAJŮ 5. hodina , zapsala Veronika Vinklátová Revize zápisu Martin Holub,

ZÁKLADY STATISTICKÉHO ZPRACOVÁNÍ ÚDAJŮ 5. hodina , zapsala Veronika Vinklátová Revize zápisu Martin Holub, ZÁKLADY STATISTICKÉHO ZPRACOVÁNÍ ÚDAJŮ 5. hodina - 22. 3. 2018, zapsala Revize zápisu Martin Holub, 27. 3. 2018 I. Frekvenční tabulky opakování z minulé hodiny Frekvenční tabulka je nejzákladnější nástroj

Více

Grafy opakování a prohloubení Při sestrojování grafu označíme tabulku a na kartě Vložit klikneme na zvolený graf

Grafy opakování a prohloubení Při sestrojování grafu označíme tabulku a na kartě Vložit klikneme na zvolený graf Pátek 30. září Grafy opakování a prohloubení Při sestrojování grafu označíme tabulku a na kartě Vložit klikneme na zvolený graf Nástroje grafu (objeví se při označeném grafu) - 3 záložky návrh, rozložení,

Více

Instalace. Produkt je odzkoušen pro MS SQL server 2008 a Windows XP a Windows 7. Pro jiné verze SQL server a Windows nebyl testován.

Instalace. Produkt je odzkoušen pro MS SQL server 2008 a Windows XP a Windows 7. Pro jiné verze SQL server a Windows nebyl testován. Instalace Produkt se neinstaluje. Stačí soubor uložit na libovolné místo na Vašem počítací (klikněte pravým tlačítkem a dejte 'uložit cíl jako ), pak jen spustit. Požadavky na software Produkt je odzkoušen

Více

1. Podmínky chodu aplikace

1. Podmínky chodu aplikace 1 / 15 1. Podmínky chodu aplikace Licenční instalace určení pro značku, lokální instalace, nebo síťová licencovaná MAS serverem. 1.1. Instalace podpory MicroCat na lokální stanici Na dané stanici musí

Více

Nephele systém. Akademie výtvarných umění v Praze. Ústav teorie informace a automatizace AV ČR, v.v.i. Ústav anorganické chemie AV ČR, v.v.i.

Nephele systém. Akademie výtvarných umění v Praze. Ústav teorie informace a automatizace AV ČR, v.v.i. Ústav anorganické chemie AV ČR, v.v.i. Nephele systém Akademie výtvarných umění v Praze Ústav teorie informace a automatizace AV ČR, v.v.i. Ústav anorganické chemie AV ČR, v.v.i. RNDr. Mgr. M. Beneš, RNDr. B. Zitová, PhD., RNDr. J. Hradilová,

Více

APS Web Panel. Rozšiřující webový modul pro APS Administrator. Webové rozhraní pro vybrané funkce programového balíku APS Administrator

APS Web Panel. Rozšiřující webový modul pro APS Administrator. Webové rozhraní pro vybrané funkce programového balíku APS Administrator APS Web Panel Rozšiřující webový modul pro APS Administrator Webové rozhraní pro vybrané funkce programového balíku APS Administrator Instalační a uživatelská příručka 2004 2016,TECH FASS s.r.o., Věštínská

Více

Vstupní požadavky, doporučení a metodické pokyny

Vstupní požadavky, doporučení a metodické pokyny Název modulu: Základy PHP Označení: C9 Stručná charakteristika modulu Modul je orientován na tvorbu dynamických stánek aktualizovaných podle kontextu volání. Jazyk PHP umožňuje velmi jednoduchým způsobem

Více

Angličtina program k procvičování slovní zásoby

Angličtina program k procvičování slovní zásoby Středoškolská technika 2011 Setkání a prezentace prací středoškolských studentů na ČVUT Angličtina program k procvičování slovní zásoby Kamil Hanus Střední průmyslová škola elektrotechniky a informačních

Více

SOFTWARE 5P. Instalace. SOFTWARE 5P pro advokátní praxi 2010. Oldřich Florian

SOFTWARE 5P. Instalace. SOFTWARE 5P pro advokátní praxi 2010. Oldřich Florian SOFTWARE 5P Instalace SOFTWARE 5P pro advokátní praxi 2010 Oldřich Florian 2010 Instalace Stránka 1 z 16 Obsah Instalace Runtime Access 2010... 2 Instalace klienta (programu)... 3 Instalace databáze...

Více

Molekulárn. rní. biologie Struktura DNA a RNA

Molekulárn. rní. biologie Struktura DNA a RNA Molekulárn rní základy dědičnosti Ústřední dogma molekulárn rní biologie Struktura DNA a RNA Ústřední dogma molekulárn rní genetiky - vztah mezi nukleovými kyselinami a proteiny proteosyntéza replikace

Více

UŽIVATELSKÁ PŘÍRUČKA K INTERNETOVÉ VERZI REGISTRU SČÍTACÍCH OBVODŮ A BUDOV (irso 4.x) VERZE 1.0

UŽIVATELSKÁ PŘÍRUČKA K INTERNETOVÉ VERZI REGISTRU SČÍTACÍCH OBVODŮ A BUDOV (irso 4.x) VERZE 1.0 UŽIVATELSKÁ PŘÍRUČKA K INTERNETOVÉ VERZI REGISTRU SČÍTACÍCH OBVODŮ A BUDOV (irso 4.x) VERZE 1.0 OBSAH 1 ÚVOD... 3 1.1 HOME STRÁNKA... 3 1.2 INFORMACE O GENEROVANÉ STRÁNCE... 4 2 VYHLEDÁVÁNÍ V ÚZEMÍ...

Více

PALSTAT s.r.o. systémy řízení jakosti PALSTAT CAQ verze. 3.00.01.16 Výstupní kontrola 07.1/2009. 1 Obsah

PALSTAT s.r.o. systémy řízení jakosti PALSTAT CAQ verze. 3.00.01.16 Výstupní kontrola 07.1/2009. 1 Obsah 1 Obsah 1 Obsah... 1 2 Úvod... 2 2.1 Výhody... 2 2.2 Základní ovládání... 2 3 Menu... 3 3.1 Menu Soubor... 3 3.1.1 Menu Soubor/Filtr... 3 3.1.2 Menu Soubor/Tisk vybraného záznamu... 3 3.1.3 Menu Soubor/Tisk

Více

Nukleosidy, nukleotidy, nukleové kyseliny, genetická informace

Nukleosidy, nukleotidy, nukleové kyseliny, genetická informace Nukleosidy, nukleotidy, nukleové kyseliny, genetická informace Centrální dogma Nukleové kyseliny Fosfátem spojené nukleotidy (cukr s navázanou bází a fosfátem) Nukleotidy Nukleotidy stavební kameny nukleových

Více

Maturitní projekt do IVT Pavel Doleček

Maturitní projekt do IVT Pavel Doleček Maturitní projekt do IVT Pavel Doleček CO FILMBOOK JE Filmbook je uzavřená webová aplikace pro celkovou správu informací a dat souvisejících se sledováním filmů. Primárně je zaměřen na uchovávání a spravování

Více

Struktura proteinů. - testík na procvičení. Vladimíra Kvasnicová

Struktura proteinů. - testík na procvičení. Vladimíra Kvasnicová Struktura proteinů - testík na procvičení Vladimíra Kvasnicová Mezi proteinogenní aminokyseliny patří a) kyselina asparagová b) kyselina glutarová c) kyselina acetoctová d) kyselina glutamová Mezi proteinogenní

Více

Postup přechodu na podporované prostředí. Přechod aplikace BankKlient na nový operační systém formou reinstalace ze zálohy

Postup přechodu na podporované prostředí. Přechod aplikace BankKlient na nový operační systém formou reinstalace ze zálohy Postup přechodu na podporované prostředí Přechod aplikace BankKlient na nový operační systém formou reinstalace ze zálohy Obsah Zálohování BankKlienta... 3 Přihlášení do BankKlienta... 3 Kontrola verze

Více

VYUŽITÍ PRAVDĚPODOBNOSTNÍ METODY MONTE CARLO V SOUDNÍM INŽENÝRSTVÍ

VYUŽITÍ PRAVDĚPODOBNOSTNÍ METODY MONTE CARLO V SOUDNÍM INŽENÝRSTVÍ VYUŽITÍ PRAVDĚPODOBNOSTNÍ METODY MONTE CARLO V SOUDNÍM INŽENÝRSTVÍ Michal Kořenář 1 Abstrakt Rozvoj výpočetní techniky v poslední době umožnil také rozvoj výpočetních metod, které nejsou založeny na bázi

Více

Struktura seminární práce

Struktura seminární práce Struktura seminární práce Úvodní strana Velikost písma zde užíváte podle vlastního uvážení. Důležité je, aby největší byl nadpis pro práci, druhý největší byl název školy a menší písmo je dobré použít

Více

Příloha č. I: Schéma zapojení vývojové desky PVK-PRO

Příloha č. I: Schéma zapojení vývojové desky PVK-PRO Příloha č. I: Schéma zapojení vývojové desky PVK-PRO Schéma zapojení vývojové desky PVK-PRO (http://poli.cs.vsb.cz/edu/arp/down/pvk-pro.png) Příloha č. III: Organizace registrů v bankách PIC 16F84 Příloha

Více

Vývoj moderních technologií při vyhledávání. Patrik Plachý SEFIRA spol. s.r.o. plachy@sefira.cz

Vývoj moderních technologií při vyhledávání. Patrik Plachý SEFIRA spol. s.r.o. plachy@sefira.cz Vývoj moderních technologií při vyhledávání Patrik Plachý SEFIRA spol. s.r.o. plachy@sefira.cz INFORUM 2007: 13. konference o profesionálních informačních zdrojích Praha, 22. - 24.5. 2007 Abstrakt Vzhledem

Více

Struktura a funkce nukleových kyselin

Struktura a funkce nukleových kyselin Struktura a funkce nukleových kyselin ukleové kyseliny Deoxyribonukleová kyselina - DA - uchovává genetickou informaci Ribonukleová kyselina RA - genová exprese a biosyntéza proteinů Složení A stavební

Více

Uživatelská příručka

Uživatelská příručka www.rexcontrols.cz www.contlab.eu www.pidlab.com Ovladač systému REX pro 1-Wire (modul OwsDrv) Uživatelská příručka REX Controls s.r.o. Verze 2.10.7 (revize 2) Plzeň 16.12.2015 Obsah 1 Ovladač OwsDrv a

Více

Registrační číslo projektu: Škola adresa: Šablona: Ověření ve výuce Pořadové číslo hodiny: Třída: Předmět: Název: MS Excel I Anotace:

Registrační číslo projektu: Škola adresa: Šablona: Ověření ve výuce Pořadové číslo hodiny: Třída: Předmět: Název: MS Excel I Anotace: Registrační číslo projektu: CZ.1.07/1.4.00/21.3712 Škola adresa: Základní škola T. G. Masaryka Ivančice, Na Brněnce 1, okres Brno-venkov, příspěvková organizace Na Brněnce 1, Ivančice, okres Brno-venkov

Více

Maturitní otázky z předmětu PROGRAMOVÁNÍ

Maturitní otázky z předmětu PROGRAMOVÁNÍ Wichterlovo gymnázium, Ostrava-Poruba, příspěvková organizace Maturitní otázky z předmětu PROGRAMOVÁNÍ 1. Algoritmus a jeho vlastnosti algoritmus a jeho vlastnosti, formy zápisu algoritmu ověřování správnosti

Více

Reporting. Ukazatele je možno definovat nad libovolnou tabulkou Helios Orange, která je zapsána v nadstavbě firmy SAPERTA v souboru tabulek:

Reporting. Ukazatele je možno definovat nad libovolnou tabulkou Helios Orange, která je zapsána v nadstavbě firmy SAPERTA v souboru tabulek: Finanční analýza Pojem finanční analýza Finanční analýza umožňuje načítat data podle dimenzí a tyto součty dlouhodobě vyhodnocovat. Pojem finanční analýza není nejpřesnější, protože ukazatele mohou být

Více

Databázový systém označuje soubor programových prostředků, které umožňují přístup k datům uloženým v databázi.

Databázový systém označuje soubor programových prostředků, které umožňují přístup k datům uloženým v databázi. Databáze Základní pojmy Pojem databáze označuje obecně souhrn informací, údajů, dat o nějakých objektech. Úkolem databáze je hlídat dodržení všech omezení a dále poskytovat data při operacích. Objekty

Více