Komprese DNA pomocí víceproudé komprese a predikce báz. Jan Jelínek, Radek Miček



Podobné dokumenty
Komprese a dotazování nad XML dokumenty

Komprese dat Obsah. Komprese videa. Radim Farana. Podklady pro výuku. Komprese videa a zvuku. Komprese MPEG. Komprese MP3.

Základní pojmy informačních technologií

Informační Systém pro Psychiatrii HIPPO

Procesor. Procesor FPU ALU. Řadič mikrokód

KOMPRESE OBRAZŮ. Václav Hlaváč. Fakulta elektrotechnická ČVUT v Praze katedra kybernetiky, Centrum strojového vnímání. hlavac@fel.cvut.

Mini PC HAL3000 NUC Passive Kč s DPH

AutoCAD Plant 3D 2017

KOMPRESE OBRAZŮ. Václav Hlaváč, Jan Kybic. Fakulta elektrotechnická ČVUT v Praze katedra kybernetiky, Centrum strojového vnímání.

AKČNÍ NABÍDKA BAREVNÝCH NOTEBOOKŮ - 15,6"

1. SYSTÉMOVÉ POŽADAVKY / DOPORUČENÁ KONFIGURACE HW A SW Databázový server Webový server Stanice pro servisní modul...

Výzva k podání nabídky včetně zadávací dokumentace na veřejnou zakázku malého rozsahu

Semestrální práce KIV/PC Řešení kolizí frekvencí sítě vysílačů Zdeněk Bečvář A14B0466P 10. ledna 2016

Písemná zpráva zadavatele

ZADÁVACÍ DOKUMENTACE PRO VEŘEJNOU ZAKÁZKU

Rodina notebooků VAIO E se rozrůstá:

Autodesk Inventor 2017


Algoritmy komprese dat

Architektura Intel Atom

Embedded Linux a možnosti zrychlení startu zařízení

Fujitsu Siemens Lifebook S752

Stručně o XML (výhody, nevýhody) Proč komprimovat XML? Metody komprese XML XMill. Optimalizace komprese XML. Závěr

Ultra-elegantní a responsivní, plně vybavený. potřebnými rozhraními: Sony představuje první. Ultrabook TM

Představení: Luxusní notebook - tablet Toshiba v akci

Hardware. Příklad převodu čísla: =1*32+0*16+0*8+1*4+0*2+1*1= Převod z dvojkové na desítkovou Sčítání ve dvojkové soustavě

AKČNÍ NABÍDKA BAREVNÝCH NOTEBOOKŮ

Úvod Seznámení s předmětem Co je.net Vlastnosti.NET Konec. Programování v C# Úvodní slovo 1 / 25

produktů. produkty: AutoCAD Mechanical Showcase Autodesk Autodesk Designer SketchBook Autodesk Mudbox Vault Autodesk Ultimate Intel Xeon Intel Core

Přednáška. Systémy souborů. FAT, NTFS, UFS, ZFS. Katedra počítačových systémů FIT, České vysoké učení technické v Praze Jan Trdlička, 2012

Výkonnost mikroprocesoru ovlivňují nejvíce dvě hlediska - architektura mikroprocesoru a tzv. taktovací frekvence procesoru.

Informační Systém PINEL plus

Kompresní techniky. David Bařina. 15. února David Bařina Kompresní techniky 15. února / 37

Písemná zpráva zadavatele

Mezipaměti počítače. L2 cache. L3 cache

Michal Krátký. Úvod do programovacích jazyků (Java), 2006/2007

Vícejádrový procesor. Dvě nebo více nezávislých jader Pro plné využití. podporovat multihreading

Novinky. Autodesk Vault helpdesk.graitec.cz,

Sběrnicová struktura PC Procesory PC funkce, vlastnosti Interní počítačové paměti PC

Řešení problému vážené splnitelnosti booleovské formule pokročilou iterativní metodou

Lineární datové struktury

Tiskárny. OKI B432dn. Černobílý tisk běžný - 35 kusů

HP EliteBook 8440p. Záruka: 12 měsíců Cena: 5 690,- kč s DPH

Komprese dat (Komprimace dat)

Datasheet Fujitsu LIFEBOOK A512 Notebook

Testovací protokol USB token etoken PRO 32K

Nasazení EIS JASU CS v rezortu Ministerstva zdravotnictví ČR vč. všech podřízených OSS

12 Metody snižování barevného prostoru

Testovací protokol čipová karta etoken PRO SmartCard 32K

6 990,- ZÁŘÍ 2014 AKČNÍ NABÍDKA PRODUKTŮ. Notebook ACER E15

Herní PC HAL3000 Artemis výkonný lovec pro nekončící zábavu

brašna v balení laser. myš USB záruka: 3 roky NBD on-site

X-Sign Basic Uživatelská příručka

Autodesk Inventor 2016

Základní deska (1) Parametry procesoru (2) Parametry procesoru (1) Označována také jako mainboard, motherboard

INTEGROVANÁ STŘEDNÍ ŠKOLA TECHNICKÁ BENEŠOV Černoleská 1997, Benešov. Tematický okruh. Technické vybavení počítače - Test. Ročník 1.

Licencování: Serverové OS

Interpret jazyka IFJ2011

VÝZVA K PODÁNÍ NABÍDKY

Autoevaluace v práci učitele

Data Sheet Fujitsu LIFEBOOK AH552/SL Notebook

Výpočetní technika pro město Moravská Třebová


Návod na použití. Panenka Barbie Video Girl

Informační systémy ve zdravotnictví

GPGPU Aplikace GPGPU. Obecné výpočty na grafických procesorech. Jan Vacata

nutné smazat zároveň i všechna ostatní zainteresovaná paměťová místa přepisovaném

PINEL plus. Informace, doporučení a nutná nastavení pro zajištění správné funkce v operačních systémech MS Windows a Linux

- kvalitní dokumentace k SW je vyžadovaným STANDARDEM. vzájemná provázanost SW (IS) ve velkých společnostech. aktuální přehledná srozumitelná

Hardwarová akcelerace HD videa v návaznosti na architektury čipu grafických karet

Testovací protokol USB Token Cryptomate

Spolehlivý pracant HAL3000 EliteWork II s nízkou spotřebou energie

Měření teploty, tlaku a vlhkosti vzduchu s přenosem dat přes internet a zobrazování na WEB stránce

1) PC učebna ZŠ Přichystalova 6ks

Faculty of Nuclear Sciences and Physical Engineering Czech Technical University in Prague

Příloha č.2 - Technická specifikace předmětu veřejné zakázky

BPC2E_C09 Model komunikačního systému v Matlabu

Testujeme notebook pro opravdové hráče: Toshiba X200

AIDA64 Extreme. Příručka k nastavení. v

Průvodce vnitřkem počítače II

BM100. Kompaktní bezventilátorový IPC z rodiny Intel Apollo Lake. REM-Technik je výhradním partnerem společnosti ASEM na českém a slovenském trhu.

2.Také poptáváme externí disk, min. 100 GB pro dokumentaci projektu, max. cena 2000 Kč.

Data Sheet Fujitsu LIFEBOOK AH531 Notebook

TECHNICKÁ UNIVERZITA V LIBERCI

ČVUT FEL X36PAA - Problémy a algoritmy. 4. úloha - Experimentální hodnocení algoritmů pro řešení problému batohu

Komprese dat. Jan Outrata KATEDRA INFORMATIKY UNIVERZITA PALACKÉHO V OLOMOUCI. přednášky

Philips 234E5QSB - LED monitor 23

Testovací protokol čipová karta ACOS5

Výzva k podání nabídky včetně zadávací dokumentace na veřejnou zakázku malého rozsahu

Stavba operačního systému

Projekt: 1.5, Registrační číslo: CZ.1.07/1.5.00/ Zoner Photo Studio

VÝPOČETNĚ NÁROČNÉ APLIKACE S VYUŽITÍM VIRTUALIZACE PRACOVNÍCH STANIC NA BÁZI INTEGRACE TECHNOLOGIÍ MICROSOFT VDI A SUN RAY

Operační systémy. Jednoduché stránkování. Virtuální paměť. Příklad: jednoduché stránkování. Virtuální paměť se stránkování. Memory Management Unit

5 790,- únor ceník. HCOMP AMD 4020 Trinity. Záruka 2 roky. Příplatky a software: Cena s DPH. Počítač: 4GB DDR3 RAM AMD HD GB HDD

brašna v balení laser. myš USB záruka: 3 roky NBD on-site

Analýza staročeské morfologie v Excelu

Přednáška. Správa paměti II. Katedra počítačových systémů FIT, České vysoké učení technické v Praze Jan Trdlička, 2012

Plugin TIS pro SketchUp. Návod k použití

Instalace Microsoft SQL serveru 2012 Express

Transkript:

Komprese DNA pomocí víceproudé komprese a predikce báz Jan Jelínek, Radek Miček

Víceproudá komprese angl. Multistream compression (MSC) statistická metoda autoři: Kochánek, Lánský, Uzel, Žemlička lze použít místo Huffmanova kódování nebo aritmetického kódování

Úvod do predikce báz v DNA inspirováno PPM hádá následující znak vstupu na základě kontextu kontext = několik znaků, jenž těsně předchází hádanému znaku podívá se, jaké znaky následovaly kontext v již zpracované části vstupu, a podle toho zkusí uhádnout následující znak při kompresi textu se typicky používá kontext délky 6-8 znaků, který se v případě potřeby zkracuje

Úvod do predikce báz v DNA (2) protože báze jsou malé, použijeme delší kontext v kontextu povolíme díry (znaky na vybraných pozicích budeme ignorovat)

Predikce báz v DNA konkrétně používáme kontexty délky 32, 16, 8, 4, 2, 1 báz kontext délky 16 báz udržujeme ve třech variantách: neposunutý posunutý o jednu bázi (báze těsně před hádaným znakem se nemusí shodovat) posunutý o dvě báze pro každý kontext si udržujeme statistiky báz, které se v daném kontextu vyskytly z nich odvodíme pravděpodobnosti výskytu báz v onom kontextu příliš staré výskyty zapomínáme uvažujeme pouze posledních 12 milionů báz (má výrazný vliv na spotřebu paměti)

Transformace DNA pomocí predikce predikce nám seřadí báze podle pravděpodobnosti výskytu v daném kontextu báze na vstupu transformujeme podle pravděpodobnosti výskytu: 1. nejpravděpodobnější báze a 2. nejpravděpodobnější báze c 3. nejpravděpodobnější báze g 4. nejpravděpodobnější báze t

Důsledky transformace DNA výstup bude (v ideálním případě) obsahovat hodně bází a, méně bází c, výhodné pro statistické metody komprese transformace Manziniho DNA korpusu: Počty báz ve všech souborech 300000000 250000000 200000000 150000000 100000000 Před transformací pomocí predikce Po transformaci pomocí predikce 50000000 0 A C T G

Účinnost komprese Účinnost komprese (malé soubory) 30,00% 25,00% 20,00% 15,00% Původní/4 xz -9 MSC s prediktorem MSC GenCompress 10,00% 5,00% 0,00% chmpxx.txt chntxx.txt hehcmv.txt humdyst.txt humghcs.txt humhbb.txt humhdab.txt humprtb.txt mpomtcg.txt mtpacga.txt vaccg.txt mm19.txt mmy.txt y1.txt y14.txt y4.txt ymit.txt

Účinnost komprese (2) Účinnost komprese (velké soubory) 30,00% 25,00% 20,00% 15,00% Původní/4 xz -9 MSC s prediktorem MSC GenCompress 10,00% 5,00% 0,00% at1.txt at3.txt at4.txt hs13.txt hs2.txt hs22.txt hsx.txt hsy.txt mm11.txt mm7.txt mmx.txt

Rychlost komprese Čas komprese (malé soubory) 350 300 250 200 150 100 50 0 chmpxx.txt chntxx.txt hehcmv.txt humdyst.txt humghcs.txt humhbb.txt humhdab.txt humprtb.txt mpomtcg.txt mtpacga.txt vaccg.txt mm19.txt mmy.txt Sekundy xz -9 MSC s prediktorem MSC GenCompress y1.txt y14.txt y4.txt ymit.txt

Rychlost komprese (bez GC) Čas komprese (malé soubory) 12 10 8 Sekundy 6 4 xz -9 MSC s prediktorem 2 0 chmpxx.txt chntxx.txt hehcmv.txt humdyst.txt humghcs.txt humhbb.txt humhdab.txt humprtb.txt mpomtcg.txt mtpacga.txt vaccg.txt mm19.txt mmy.txt y1.txt y14.txt y4.txt MSC ymit.txt

Rychlost komprese (2) Čas komprese (velké soubory) 1800 1600 1400 1200 1000 800 600 400 200 0 at1.txt at3.txt at4.txt hs13.txt hs2.txt hs22.txt hsx.txt Sekundy xz -9 MSC s prediktorem MSC GenCompress hsy.txt mm11.txt mm7.txt mmx.txt

Poznámky k experimentům testy byly prováděny na notebooku s procesorem Intel Core i3 M380, 4 GB RAM, Windows 7 Home Premium SP1 (64 bit) testované programy byly 32-bitové aplikace GenCompress nebyl schopen některé soubory zkomprimovat u největších souborů ihned po spuštění ohlásil, že nelze alokovat potřebnou pamět u středních souborů docela dlouho (i více než hodinu) komprimoval, a poté provedl neplatnou operaci a byl ukončen OS

Implementace predikce predikce je implementována v jazyce F# aby se zbytečně nezatěžoval garbage collector, jsou alokované objekty poolovány vyhledávání v kontextech je implementováno pomocí třídy Dictionary<K, V> prediktor využil 1.7 GB paměti nezávisle na komprimovaném souboru, použitím jiné datové struktury (např. judy array) by šlo spotřebu paměti snížit používané kontexty lze snadno změnit např. díry lze nastavit na libovolné pozice

Závěr predikce báz v DNA téměř vždy pomohla k lepší kompresi pomocí MSC nevýhodou navržené transformace je, že vůbec nezohledňuje velikost pravděpodobností výskytu báz vůči sobě (např. pravděpodobnosti 0.9, 0.09, 0.01, 0 vyústí ve stejné chování jako pravděpodobnosti 0.34, 0.33, 0.32, 0.01) jako rozšíření projektu by bylo možné uvažovat prediktor, který by automaticky nastavil délky kontextů a pozice děr

Zdroje Manziniho DNA korpus: http://people.unipmn.it/~manzini/dnacorpus/ GenCompress pro Windows (32-bit): http://www.cs.cityu.edu.hk/~cssamk/gencomp/downgen.htm xz 5.0.3 pro Windows (32-bit): http://tukaani.org/xz/