VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ

Transkript

1

2 VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ Fkult informčních technologií doc. Ing. Jn Holub, Ph.D. Stringologie, komprese dt biologie Stringology, dt compression nd biology TEZE PŘEDNÁŠKY K PROFESORSKÉMU JMENOVACÍMU ŘÍZENÍ V OBORU Výpočetní technik informtik Brno 2014

3 KLÍČOVÁ SLOVA Komprese dt, stringologie, vyhledávání, úplný index, utoindex, DNA, minokyselin, bioinformtik. KEYWORDS Dt compression, stringology, pttern mtching, fulltext index, self-index, DNA, minocid, bioinformtics. Jn Holub, 2014 ISBN ISSN X

4 Obsh Předstvení utor 4 1 Úvod 5 2 Stringologie Přesné vyhledávání Úplný index Přibližné vyhledávání Autoindex Dlší problémy stringologie Problémy stringologie řešené utorem jeho týmem Algoritmy přesného vyhledávání Simulce NKA pro přibližné vyhledávání Neurčité řetězce Implementce kompktního sufixového utomtu Komprese dt Sttistické metody Slovníkové metody Kontextové metody Problémy komprese dt řešené utorem jeho týmem Komprese přirozeného textu Porovnání kompresních metod Biologie Sekvenování genomů Komprese podobných sekvencí Problémy bioinformtiky řešené utorem jeho týmem Vyhledávání v genomech Komprese podobných sekvencí Závěr 22 Litertur 23 Abstrkt 31 Abstrct 31 3

5 Předstvení utor Jn Holub (nrozen v Prze) vystudovl Fkultu elektrotechnickou (FEL) ČVUT v Prze, obor Výpočetní technik ( ). Poté pokrčovl v interní formě doktorského studi n téže fkultě v roce 2000 získl titul Ph.D. v oboru Informtik výpočetní technik. V roce 1999 nstoupil n ktedru počítčů ČVUT FEL jko odborný sistent. V roce 2008 se hbilitovl n ČVUT FEL v oboru Výpočetní technik informtik. V roce 2009, součsně se vznikem Fkulty informčních technologií (FIT) ČVUT v Prze, byl jmenován vedoucím ktedry teoretické informtiky ( ) zároveň i proděknem pro vnější vzthy ( ) n nově vzniklé fkultě. Absolvovl několik odborných stáží v zhrničí. Jednlo se zejmén o dvě stáže celkem n 3 měsíce n Université de Mrne-l-Vllée, Frncie, v letech , dvoutýdenní stáž n School of Computing, Curtin University, Perth, Austrálie, v roce 1999, roční postdoktorskou stáž n McMster University, Hmilton, Ontrio, Knd, v letech měsíční stáž n McMster University, Hmilton, Ontrio, Knd, v roce Odbornými zájmy jsou teorie konečných utomtů, stringologie komprese dt. Jn Holub je utorem nebo spoluutorem více než 28 recenzovných konferenčních článků, více než 10 článků v čsopisech jedné kpitoly v knize. Jeho práce mjí více než 100 citcí (bez utocitcí) ve Web of Science společnosti Thomson Reuters dlších 43 ve Scopusu. Byl 4 krát zvným řečníkem n konferencích workshopech. Ztím působil 15 krát jko editor sborníku mezinárodní konference, 9 krát jko editor speciálního čísl zhrničního čsopisu (v 7 přípdech impktovného). Vedl jednu bklářskou 20 diplomových prcí, z nichž 6 získlo cenu děkn z vynikjící diplomovou práci. Jn Holub vede vědeckouvýzkumnou skupinu Prgue Stringology Club n FIT ČVUT v Prze. Recenzovl mnoho článků pro mezinárodní čsopisy konference le tké řdu projektů českých i zhrničních grntových gentur. Sám získl 4 národní (FRVŠ, GAČR) jeden zhrniční grnt (NSERC, Knd). Po dvě funkční období ( , ) působil v hodnotícím pnelu P202 Informtik Grntové gentury ČR. Jn Holub kždoročně od jejího vzniku v roce 1996 spolupořádá mezinárodní konferenci Prgue Stringology Conference (od roku 2006 jko předsed progrmového výboru), která je indexován ve Scopusu Web of Science společnosti Thomson Reuters. Dále byl členem 17 progrmových výborů dlších mezinárodních konferencí (npř. CIAA, CPM, FSMNLP, IWOCA, SPIRE), z toho jednou jko předsed (CIAA). V letech působil jko člen poroty v letech jko předsed soutěže Czech ACM Chpter & Slovki ACM Chpter Student Project of the Yer (ACM SPY). Jn Holub je v součsné době grntem oboru Systémové progrmování v mgisterském studijním progrmu Informtik n FIT ČVUT v Prze, přednášejícím dvou bklářských, dvou mgisterských jednoho doktorndského předmětu. Jn Holub je společně s doc. Dnem Svozilem z VŠCHT v Prze tvůrcem meziuniverzitního bklářského i mgisterského studijního oboru Bioinformtik, který byl kreditován v září 2013 bude vyučován ve spolupráci VŠCHT, FIT ČVUT v Prze AV ČR. Dále je členem Vědecké rdy FIT ČVUT v Prze, místopředsedou Oborové rdy doktorského studijního progrmu n FIT ČVUT v Prze člen Rdy doktorského studijního oboru 4I2 Softwrové systémy n MFF UK v Prze, členem Etické komise ČVUT v Prze. 4

6 1 Úvod Stringologie je počítčová věd o zprcování řetězců posloupností symbolů. Ačkoliv první problémy v této oblsti zčly být řešeny v sedmdesátých letech dvcátého století, pojem stringologie zvedl Zvi Glil ž v roce 1984 n workshopu NATO Advnced Reserch Workshop on Combintoril Algorithms on Word [41]. První řešené úlohy se týkly nlezení vzorku v textu. V textech se objevují tké chyby, tkže dlší plikcí bylo přibližné vyhledávání, kdy se hledjí výskyty vzorku s chybou. Stringologie se pk vyvíjel směrem k úplným indexům, různým definicím chyb vyhledávání prvidelností v textech. Komprese dt je počítčová věd o úsporném ukládání dt. První metod se objevil už v roce 1949, většího rozmchu se všk dočkl ž v sedmdesátých letech dvcátého století. První metody (sttistické) uvžovly pouze sttistické rozdělení jednotlivých symbolů. Nejčstějším symbolům byly přidělovány nejkrtší kódy. Dlší metody (slovníkové) využívly opkování částí textu. Opkující se části textu nhrzovly ukzteli n předchozí výskyty. Kontextové metody využívjí kontextu k předvídání následujícího symbolu. Nvíc umožnily i fultextové vyhledávání v komprimovných dtech. Stringologie Komprese dt přesné vyhledávání přibližné vyhledávání indexování neurčité řetězce sttistické metody slovníkové metody kontextové metody komprese přirozeného jzyk Biologie sekvence genomu sestvení genomu Bioinformtik ukládání genomů vyhledávání v genomech fylogenetická nlýz Obrázek 1: Vzájemný vzth Stringologie, Komprese dt Biologie Biologie je věd zkoumjící veškeré orgnismy od úrovně subcelulární ž po úroveň populcí, společenstev ekosystémů. Aplikcí informtiky v molekulární biologii se zbývá bioinformtik. Pojem bioinformtik byl zveden již v polovině osmdesátých let dvcátého století. Tehdy všk byl definice tohoto pojmu velmi obecná. Jedním z hlvních úkolů bio- 5

7 informtiky je zprcování nlýz DNA. Toto tém je rozděleno n dvě hlvní části [90]: 1. funkční genomik, která se zbývá určením role sekvence v životě buňky; 2. komprtivní genomik, ve které jsou sekvence různých orgnismů, le i jednotlivců jednoho druhu, porovnávány k určení původů korelcí nemocí. Oblsti stringologie, komprese dt biologie se vyvíjely poměrně nezávisle. Postupem čsu se zčly k sobě přibližovt oblst stringologie s hlvním úkolem vyhledávt komprese dt s hlvním úkolem dt komprimovt, efektivně ukládt. Dále úkoly ze stringologie ncházely upltnění v bioinformtice nebo nopk bioinformtik vytvářel úkoly pro stringologii. Poslední vývoj v oblsti biologie, kde nové technologie produkují obrovská množství dt, ve kterých je potřeb vyhledávt, volá po společné plikci stringologie komprese dt v oblsti bioinformtiky. Získná dt je nutné především efektivně uložit vyhledávt v nich. Vzby mezi těmito obory jsou znázorněny n obrázku 1. Tento text obshuje stručný přehled zákldních lgoritmů dtových struktur v oblsti stringologie (v kpitole 2) komprese dt (v kpitole 3). Aplikci stringologie komprese dt v biologii pk popisuje kpitol 4. 6

8 2 Stringologie Cílem této kpitoly je předstvit typické úlohy stringologie, jko je přesné přibližné vyhledávání, vytváření úplného indexu, komprimovného úplného indexu, či práce s neurčitými řetězci. Sekce 2.6 pk shrnuje práci v oblsti stringologie s účstí utor tohoto textu. 2.1 Přesné vyhledávání První úlohou stringologie bylo nlezení výskytu vzorku p = p[1..m] délky m v textu t = t[1..n] délky n, kde p i t jsou řetězce nd becedouσ(znčíme p, t Σ ). Problém je možné řešit pomocí mnoh lgoritmů., g, t c c c 0 c c c g, t g, t, g, t 4 5 g, t, g, t Obrázek 2: Deterministický konečný utomt pro vyhledání vzorku p = cc, Σ = {,c,g,t} Jedním z prvních řešení bylo použití deterministického konečného utomtu [3] (DKA, viz obrázek 2), který je definován jko uspořádná pětice M= (Q,Σ,δ, q 0, F), kde Q je konečná množin stvů,σje konečná vstupní beced,δ je přechodová funkce Q Σ Q, q 0 Q je počáteční stv F Q je množin koncových stvů. Tento utomt zprcovává vstupní text přechodem do koncového stvu hlásí jednotlivé výskyty vzorku p v textu t., g, t c c Obrázek 3: KMP utomt pro vyhledání vzorku p=cc,σ={,c,g,t} (fil funkce f zobrzen tečkovnou čárou) Dlším velmi známý řešením je lgoritmus Knuth-Morris-Prtt [63] (KMP, viz obrázek 3). Tento utomt má nvíc definovnou tzv. fil funkci f, která se upltní v situci, kdy pro dný vstupní symbol není definován přechod v přechodové funkci δ. Výhodou utomtu KMP je, že má obě přechodové funkce δ i f prostorově nenáročné, potřebují pmět o velikosti jen O(m). DKA přitom vyžduje pro uložení přechodové funkce δ pmět o velikosti O(m Σ ). 7

9 Ob dv výše uvedené lgoritmy prcují v čseo(n), čili lineárním s délkou textu t. V průměru sublineárního čsu Ω(n/m) doshuje lgoritmus Boyer-Moore [18], prcující n principu protisměrného vyhledávání, kdy se vzorek k textu přikládá zlev doprv, le vzorek se s ním porovnává zprv dolev. V přípdě nlezení neshody mezi vzorkem textem, se vzorek posune doprv. Pro posun se využívjí funkce bd-chrcter shift good-suffix shift. Funkce bd-chrcter shift posouvá vzorek tk, by proti ktuálnímu symbolu v textu ležel nejprvější výskyt tohoto symbolu ve vzorku. Funkce good-suffix shift zse využívá informci o již porovnné příponě u vzorku posouvá vzorek tk, by výskyt u v textu ležel proti druhému výskytu u zprv ve vzorku. Algoritmus Boyer-Moore dl vzniknout celé tzv. rodině Boyer-Mooreových lgoritmů, npříkld [55, 102, 97, 59]. Dále byly tyto lgoritmy rozšířeny o možnost vyhledávt několik vzorků njednou. Rozšířením lgoritmu KMP vznikl lgoritmus Aho-Corsick [2] pro sousměrné vyhledávání více vzorků rozšířením lgoritmu Boyer-Moore vznikl lgoritmus Commentz-Wlter [28] pro protisměrné vyhledávání více vzorků. Výše uvedené lgoritmy si předzprcovly vzorek poté procházely textem. Nivní lgoritmus vzorek nepředzprcovává. Pouze přikládá vzorek k textu porovnává s textem. Při neshodě posune vzorek o jednu pozici znovu porovnává. Tento lgoritmus prcuje v čse O(nm), což je v podsttě chování lgoritmu Boyer-Moore v nejhorším přípdě pro ptologický vzorek text. sufixový strom c minimlizce c c c zhutnění sufixový utomt kompktní sufixový strom c c c c c c c kompktní sufixový utomt zhutnění c, c minimlizce c c Obrázek 4: Vzthy mezi sufixovým stromem, kompktním sufixovým stromem, sufixovým utomtem kompktním sufixovým utomtem ( p = cc) 8

10 2.2 Úplný index Dlším přístupem k přesnému vyhledávání v textu je předzprcování smotného textu, kdy se nd textem t vytvoří úplný index vzorek plze pk vyhledt v čseo(m), čili nezávisle n délce textu t. Pro tyto účely byl zkonstruován sufixový strom [40] (nglicky suffix trie). Sufixový strom (viz obrázek 4) je deterministický konečný utomt, který přijímá všechny přípony (sufixy) dného textu. Nvíc dokáže rozpoznt i všechny podřetězce dného textu. Pokud pro řetězec u existuje cest z počátečního stvu do nějkého stvu v sufixovém utomtu, pk je u podřetězcem textu t. Jestliže tto cest končí v koncovém stvu, pk je u nvíc i příponou textu t. Pokud sufixový strom zminimlizujeme 1, získáme sufixový utomt [16, 15, 29, 12] (nglicky suffix utomton nebo DAWG 2 ; viz obrázek 4), což je minimální deterministický utomt přijímjící všechny přípony textu t. Pokud n druhou strnu tzv. zhutníme sufixový strom, získáme kompktní sufixový strom [100, 73, 99] (nglicky suffix tree; viz obrázek 4), ve kterém jsou přechody ohodnoceny řetězci místo symbolů. Při procesu zhutnění (nglicky compction) se kždá posloupnost přechodů, která se nevětví neobshuje koncové stvy, nhrdí jedním přechodem ohodnoceným řetězcem složeným ze symbolů ohodnocující původní posloupnost přechodů. Procesem minimlizce sufixového utomtu nebo procesem zhutnění kompktního sufixového stromu získáme kompktní sufixový utomt [17, 31, 61, 50] (nglicky compct suffix utomton nebo CDAWG 3 ; viz obrázek 4). c c c 5 Obrázek 5: Fktorový orcle pro text t = cc Pokud bychom v sufixovém utomtu oznčili všechny stvy jko koncové eliminovli všechny stvy mimo tzv. páteř (nejdelší posloupnost přechodů), získáme fktorový orcle [4] (nglicky fctor orcle; viz obrázek 5). Jelikož tento utomt má méně stvů než minimální deterministický utomt přijímjící všechny podřetězce (neboli fktory) textu t, něco ztrácíme. Tím je odpověd p je podřetězec textu t. Fktorový orcle přijímá všechny podřetězce textu t, le tké dlší řetězce, jejichž množin nštěstí není velká. Pokud fktorový orcle odpoví p není podřetězec textu t, můžeme se n tuto odpověd spolehnout. Pokud nám odpoví p prvděpodobně je podřetězec textu t, musíme tuto hypotézu ověřit. Fktorový orcle lze tedy použít jko filtr, který nám propustí mlé procento flešných t c c $ SA $ c c $ c c $ $ c $ $ Tbulk 1: Sufixové pole pro text t=cc výskytů. Toto je trend v nejnovějších metodách pro přesné vyhledávání, kdy je n celý text použit velmi jednoduchý rychlý stroj, jehož výsledky je potřeb ověřit. 1 Jedná se o stndrdní minimlizci deterministického konečného utomtu. 2 DAWG znmená Directed Acyclic Word Grph. 3 CDAWG znmená Compct Directed Acyclic Word Grph. 9

11 Sufixové pole [71] (nglicky suffix rry; viz řádek SA v tbulce 1) pro text t je pole indexů identifikujících všechny přípony textu t seřzené lexikogrficky. Sufixové pole lze sice vytvořit v čse O(n), všk podle [89] je v prxi nejrychlejším lgoritmem [72] běžícím v čse O(n 2 log n). Indexovcí utomty hrjí svoji roli i ve vyhledávání, kdy předzprcujeme text t. V lgoritmu BDM (Bckwrd DAWG Mtching) [30] je vytvořen sufixový utomt pro reverzovný vzorek p. Tento utomt je použit místo porovnávání vzorku textu v lgoritmu Boyer-Moore. Dokáže njít předponu textu tím identifikovt mximální možný posun vzorku textem. Metod BNDM (Bckwrd Nondeterministic DAWG Mtching) [81] používá nedeterministickou verzi sufixového utomtu jeho simulci pomocí bitového prlelismu [34, 10, 47]. Metod BOM (Bckwrd Orcle Mtching) [4] pk využívá fktorový orcle. Metody zložené n protisměrném vyhledávání jsou nejrychlejšími metodmi [35] pro přesné vyhledávání. čs vyhledání čs konstrukce mx. velikost sufixový strom O(m) O(n 2 ) n 2 (kompktní) sufixový strom O(m) O(n log Σ ) 2n sufixový utomt O(m) O(n log Σ ) 2n 1 (kompktní) sufixový utomt O(m) O(n log Σ ) n + 1 fktorový orcle O(m) O(n log Σ ) n + 1 sufixové pole O(m + log n) O(n 2 log n) n Tbulk 2: Zákldní chrkteristiky indexovcích struktur Tbulk 2 ukzuje přehled indexovcích struktur s čsy vyhledávání, konstrukce mximální velikostí, která udává mximální počet stvů utomtu nebo mximální velikost sufixového pole. 2.3 Přibližné vyhledávání Protikldem k přesnému vyhledávání je přibližné vyhledávání, kdy nlezené výskyty vzorku p v textu t mohou obshovt nějkou chybu. Odlišnost od vzorku je dán editční vzdáleností, která je pro dv řetězce u, v Σ definován jko minimální počet editčních opercí, které jsou zpotřebí pro převedení řetězce u n řetězec v. Hmmingov vzdálenost [46] zná jen jednu operci, kterou je substituce, čili nhrzení symbolu jiným. Levenshteinov vzdálenost [69] nvíc uvžuje i operce vložení symbolu odstrnění symbolu. Dmeruov vzdálenost [32] k výše uvedeným opercím přidává operci trnspozice, při které jsou dv sousední symboly prohozeny přičemž kždý symbol se může zúčstnit mximálně jedné operce trnspozice. Vzdálenost indel (z nglického insert delete) povoluje pouze operce vložení symbolu odstrnění symbolu. Při přibližném vyhledávání je pro dný vzorek p vytvořen vyhledávcí utomt [75, 76], který reprezentuje všechny řetězce v povolené vzdálenosti od vzorku p. Tento utomt dostne jko vstup text t nlezne v něm všechny přibližné výskyty vzorku p. Jelikož je tento utomt nedeterministický determinizce by vedl n příliš velký deterministický konečný utomt, používjí se simulční metody nzvné bitový prlelismus [34, 10, 47] dynmické progrmování [94, 98, 48]. 10

12 vzorek není předzprcován je předzprcován text není předzprcován je předzprcován nivní lgoritmus (kompktní) sufixový strom, (kompktní) sufixový utomt, fktorový orcle, sufixové pole DKA, KMP, BM,... utomt průniku Tbulk 3: Zákldní klsifikce lgoritmů podle předzprcování vzorku /nebo textu Pokud chceme zkrátit čs vyhledávání, který je dán délkou textu t, můžeme jko v přípdě přesného vyhledávání předzprcovt text t, čili vytvořit indexovcí utomt pro text t. Avšk místo předložení vzorku p tomuto utomtu, což by vedlo k nlezení jen přesných výskytů vzorku p, použijeme vyhledávcí utomt vytvořený pro vzorek p reprezentující množinu řetězců v povolené vzdálenosti od vzorku p. Z těchto dvou utomtů vytvoříme utomt průniku [51], který přijímá průnik jzyků původních utomtů tím získáme všechny přibližné výskyty vzorku p v textu t. V tbulce 3 je uveden souhrn popisovných metod podle toho, zd předzprcovávjí vzorek /nebo text. 2.4 Autoindex V posledních letech je snh zkonstruovt pro text t dtovou strukturu pro indexování, která by byl prostorově méně náročná než předchozí struktury. Byl zveden pojem zhuštěný index [80] (nglicky succinct index), který je co do velikosti úměrný délce textu t (do délky 2n). Dále byl zveden pojem utoindex [80] (nglicky self-index), což je zhuštěný index schopný nhrdit původní text t. Kromě schopnosti vyhledávt totiž umožňuje efektivně zobrzit libovolný podřetězec textu t. Prvním utoindexem byl FM-Index [37], jehož zákldem je Burrows-Wheelerov trnsformce [22]. Tto trnsformce využívá sufixové pole umožňuje vyhledávt vzorek p v textu t zprv dolev. Dlším utoindexem je komprimovné sufixové pole [43, 93] (nglicky compressed suffix rry), které je komprimovnou formou sufixového pole [71]. Princip použití tohoto pole je stejný, jen přístup do pole je pomlejší. Autoindexy jsou postveny n implementcích opercí rnk select [62, 78, 25] prcujících v konstntním čse nd bitovým vektorem B. Výsledkem operce rnk b (B, i) je počet bitů b v bitovém vektoru B do pozice i. Výsledkem operce select b (B, i) je nopk pozice i-tého bitu b v bitovém vektoru B. Pokud chceme podobně prcovt s řetězcem vytvořeném nd větší než binární becedou, využíváme struktury zvné vlnkový strom [42] (nglicky wvelet tree; viz obrázek 6). Vlnkový strom má v kořeni celý text t, z nějž vytvoří řetězeccc obshující symboly z první poloviny becedy ({, c}) řetězec tgttt obshující symboly z druhé poloviny becedy ({g, t}). Celý proces pk pokrčuje rekurzivně dále směrem k listům, které odpovídjí jednotlivým symbolům becedy. Ve stromu jsou uloženy pouze bitové vektory indikující, do které poloviny becedy příslušný symbol řetězce ptří. Operce rnk select pk 11

13 c t g c t t t {,c} {g,t} c c t g t t t {} {c} {g} {t} c g t Obrázek 6: Vlnkový strom pro text t = ctgcttt prcují nd řetězci s becedou Σ, Σ > 2, v čse O(log Σ ), který je dán mximální hloubkou vlnkového stromu. 2.5 Dlší problémy stringologie Ve všech výše uvedených úlohách je vzorek i text jsně dán. Stringologie všk řeší i problémy, kdy vzorek je popsán svými vlstnostmi. Vzorek může být npříkld specifikován jko řetězec, který se v textu opkuje minimálně n krát. Vyhledávání opkujících se vzorků v textu je velmi důležité pro oblst komprese dt. Úloh tké může znít jko nlezení všech řetězců, které se ve stejném pořdí vyskytují ve všech textech z dné množiny [7]. Dlší dimenzí problémů je práce s řetězci, ve kterých jsou speciální symboly. Tk zvný neurčitý symbol [53] (nglicky indeterminte, degenerte nebo generlized) je symbol, který zstupuje více než jeden symbol zákldní becedy. Neurčitý symbol je zobecněním don t cre symbolu [39, 60], který zstupuje libovolný symbol becedy. Máme-li npř. zákldní becedu Σ={,c,g,t}, pk rozšířená becedσ = 2 Σ \{ } obshuje i neurčité symboly, reprezentující více než jednoprvkovou podmnožinu zákldní becedy Σ. Jedním tkovým symbolem může být symbol b={,c}, který reprezentuje dv symboly ze zákldní becedy. Důvodem může být, že při čtení (npříkld při OCR 4 ) textu není jsné, jestli dný symbol n dné pozici v řetězci bylneboc, nebo že pro ob symboly mjí v dné plikci stejný význm. Zjímvým problémem je i vyhledávání prmetrizovných řetězců [11, 6] (nglicky prmetrized string mtching). Mějme dvě disjunktní množiny Σ Π, které reprezentují becedu konstntních symbolů becedu prmetrových symbolů. Řetězec u (Π Σ) vytvořený nd těmito becedmi nzveme prmetrizovný řetězec neboli p-řetězec. Pro dv stejně dlouhé p-řetězce u v říkáme, že prmetrizovně souhlsí, pokud existuje bijektivní zobrzení f :Π Π, které převede u n v. Necht Σ={A,B,C,D},Π={e,g,h}, u= AegeeBChggDe v=aghggbcehhdg, pk u v prmetrizovně souhlsí ( f (e)=g, f (g)=h, f (h)=e ). Tento problém nchází upltnění v oblstech jko udržování zdrojových kódů detekce plgiátů. 4 Opticl chrcter recognition 12

14 2.6 Problémy stringologie řešené utorem jeho týmem Algoritmy přesného vyhledávání V sekci 2.2 byly zmíněny nejrychlejší metody pro přesné vyhledávání, které jsou zloženy n sufixovém utomtu. Autor tohoto textu se podílel n vývoji dlších metod pro přesné vyhledávání [35]: Byl nvržen nová metod FNDM (Forwrd Nondeterministic DAWG Mtching), která kombinuje sufixový utomt pro dopředné vyhledávání bd-chrcter shift. Metod BNDMq vylepšuje metodu BNDM [81]. Metod SBNDMq vylepšuje metodu SBNDM [83]. Metod FNDMq vylepšuje metodu FNDM. Vylepšení spočívá v použití q-grmů, čili řetězců o délce q, místo jednotlivých symbolů Simulce NKA pro přibližné vyhledávání V oblsti přibližného vyhledávání (sekce 2.3) utor tohoto textu ukázl [47, 48], že existující lgoritmy pro přibližné vyhledávání bitový prlelismus [34, 10] dynmické progrmování [94, 98] simulují běh nedeterministického konečného utomtu pro přibližné vyhledávání. Dále ukázl zákldní simulční metodu, ze které obě výše zmíněné metody vycházejí. Způsob simulce NKA pomocí bitového prlelismu dynmického progrmování umožňuje rychlé nlezení řešení pro příbuzné problémy, jko přípdě Dmeruovy vzdálenosti Neurčité řetězce V oblsti neurčitých řetězců (sekce 2.5) utor tohoto textu určil zákldní vlstnosti neurčitých řetězců [53] nvrhl lgoritmus n výpočet border rry, což je zákldní struktur použitá v lgoritmech vyhledávání jko je KMP [63] BM [18]. Dále pk nvrhl efektivní lgoritmus [54] pro vyhledávání v neurčitých řetězcích Implementce kompktního sufixového utomtu V oblsti úplného indexu (sekce 2.2) utor vytvořil velmi efektivní implementci kompktního sufixového utomtu [50]. Zde byly stvy utomtu rozděleny n 4 třídy podle mximální délky ohodnocení odchozího přechodu. Kždá tková tříd byl zkódován speciálním způsobem, čímž vznikl pmět ově velmi efektivní implementce ve formě bitového proudu. Ztímco předchozí známá implementce potřebovl cc bytů n jeden znk vstupního textu, tto implementce potřebuje jen 1,5 3,02 bytů n jeden znk vstupního textu. U DNA sekvencí to bylo snížení z 23,55 n 5,24 bytů n jeden znk vstupního textu. 13

15 3 Komprese dt Zákldem komprese je odstrnění redundnce (ndbytečnosti) z dt. Existuje mnoho způsobů, jk toho dosáhnout. Sttistické metody uvžují pouze frekvence symbolů v textu. Slovníkové metody nhrzují celé řetězce ukzteli do slovníku vytvořeného z již zkomprimovné části textu. Kontextové metody využívjí znlosti kontextu k predikci následujícího symbolu. U metod komprese dt se v posledních letech přidává podpor opercí vyhledávání v komprimovných dtech. Ztímco u sttistických metod se jedná jen o lineární procházení zkomprimovného textu, u slovníkových hlvně u kontextových metod se jedná o tvorbu úplného indexu. Cílem této kpitoly je uvést typické lgoritmy komprese v sekci 3.4 pk předstvit práci utor v oblsti komprese dt. 3.1 Sttistické metody frekvence: symbol: l d h n i o t e Obrázek 7: Huffmnův kódovcí strom První metody komprese dt, Shnnon-Fnovo kódování [36] Huffmnovo kódování [58] využívjí pouze znlosti frekvence symbolů v textu. Nejčstější symboly jsou kódovány krtšími kódy než méně čsté symboly. N obrázku 7 je vidět Huffmnův kódovcí strom zkonstruovný pro symbolyσ={,d,e,h,i,l,n,o,t} podle jejich frekvencí. Cest z kořene stromu k listu udává kód symbolu v listu. Nejčstějším symbolem je symbol e má tké nejkrtší kód 11. N druhou strnu jedním z nejméně čstých symbolů je symbold, který má kód Vzth mezi minimální délkou kódových slov jednotlivých symbolů jejich prvděpodobností je dán Krft-McMillnovou nerovností [64, 74]. Pokud je porušen, výsledný kód není jednoznčný. Huffmnovo kódování se používá v mnoh kompresních formátech (npř. gzip, pkzip, bzip2) pro kompresi některých dílčích částí. Ještě lepších výsledků doshuje Aritmetické kódování [1, 91, 82], které nepřiřzuje kódové slovo kždému symbolu, le bitový řetězec je přiřzen celému komprimovnému textu. Nevzniká tm tedy ztrát kompresního poměru při zokrouhlování n celé bity při tvorbě kódových slov pro jednotlivé symboly. 14

16 3.2 Slovníkové metody Lepšího kompresního poměru dokáží dosáhnout slovníkové metody, které si tvoří slovník z již zkomprimovných dt. Komprimovná dt se pk sestávjí z odkzů do tohoto slovníku. s i r s i d e s t m n e s i l y zkomprimovná část nezkomprimovná část Obrázek 8: Posuvné okno metody LZ77 Metod LZ77 [103] (neboli metod posuvného okn) posouvá textem okno, které má zkomprimovnou nezkomprimovnou část (viz obrázek 8). Řetězec v nezkomprimovné části okn je zkomprimován odkzem do zkomprimovné části okn. Npříkld řetězec esi n obrázku 8 se komprimuje jko (8, 3,i): od pozice 8 zkopíruj 3 symboly připoj symbol 0 i. Poté se okno posune o 4 symboly doprv. Vrint metody c b LZ77 zvná deflte od P. Ktze je použit npříkld v kompresním progrmech zip, gzip. b Metod LZ78 [104] (neboli metod rostoucího slovníku) vytváří 2 3 slovník ze zkomprimovných dt tk, že stávjící frázi ve slovníku rozšíří o jeden symbol. Dt se pk komprimují číslem použité fráze následujícím symbolem. Máme-li npříkld b 7 5 slovník n obrázku 9, pk řetězec bb se zkomprimuje jko (7,b), čili jko fráze číslo 7 rozšířená o symbol b. Následně se 6 do slovníku vloží fráze bb, jkožto fráze číslo 9 rozšiřující frázi číslo 7 o symbol b. Velmi používnou vrintou této metody je metod LZW [101], která byl použit npříkld v kompresním Obrázek 9: Slovník metody LZ78 progrmu compress, winzip nebo formátech GIF, TIFF, PDF. Ptent, který vypršel v roce 2004, omezil větší rozšíření této metody. 3.3 Kontextové metody Kontextové metody využívjí kontextu ktuálního symbolu k dosžení efektivnější komprese. V ngličtině se npříkld po symbolu q v % vyskytuje symbol u. Metod PPM [27, 77] (Prediction with Prtil Mtching) je metod, která si ství sufixový strom s omezenou hloubkou k. V tomto stromu má uloženy všechny kontexty délky k 1 v nich se vyskytující symboly. Aktuální symbol je zkódován vzhledem k rozložení prvděpodobností jednotlivých symbolů v dném kontextu. V přípdě, že se symbol v dném kontextu ještě nevyskytovl, je kontext zkrácen. K zkódování ktuálního symbolu v dném kontextu se pk používá ritmetické kódování. Metod BW [22] (Burrows-Wheeler) používá Burrows-Wheelerovu trnsformci (BWT), která vytvoří všechny cyklické rotce textu t lexikogrficky je seřdí. Výsledkem trnsformce je pk poslední sloupec L, viz obrázek 10. V metodě BW pk z trnsformcí následuje metod Move-to-Front [14] Huffmnovo kódování. BWT lze vypočítt pomocí sufixového 15

17 t s w i s s m i s s SA BWT SA F L 5: missswiss 2: iss misssw 7: issswiss m 6: missswiss 4: s missswis 3: ss missswi 8: ssswiss mi 9: sswiss mis 0: swiss miss 1: wiss misss Obrázek 10: Burrows-Wheelerov trnsformce pole. Oproti metodě PPM, kde je kontext kždého symbolu vlevo, v této metodě je díky cyklické rotci kontext vprvo od ktuálního symbolu. To tké určuje směr vyhledávání v metodě FM-Index [37], která je postven nd Burrows-Wheelerovu trnsformcí. Metod FM-Index si uloží sloupec L pomocí vlnkového stromu. Tím umožní rychlé nlezení pozice i-tého symbolu c v řetězci L (operce select c (L, i)), nebo nopk zjištění, kolik symbolů c se vyskytuje do pozice j v řetězci L (operce rnk c (L, j)). Pro sloupec F si stčí pro kždý symbol becedy zpmtovt jeho počáteční pozici v řetězci. Vyhledávání vzorku p pk probíhá od posledního symbolu. Nlezneme pozici prvního (sp) posledního (ep) výskytu symbolu p[m] v řetězci F. V řetězci L pk nlezneme symboly L[sp] L[ep], vyskytující se před těmito symboly v původním textu. Nyní pomocí opercí rnk select nlezneme pozici prvního (sp ) posledního (ep ) výskytu symbolu p[m 1] v podřetězci L[sp..ep]. Poté nlezneme ekvivlentní pozice v řetězci F celý proces pokrčuje. 3.4 Problémy komprese dt řešené utorem jeho týmem Pod vedením utor byl prováděn výzkum oblsti hustých kódů, vytvoření testovcícho korpusu Prgue Corpus vytvoření knihovny implementcí kompresních lgoritmů ExCom. Při vytváření této knihovy byly využity poslední pozntky z oblsti stringologie, tkže vznikl vylepšení vybrných metod [38] Komprese přirozeného textu V oblsti komprese přirozených textů se prosdil tzv. slovní komprese (nglicky word-bsed compression). V ní jsou z zdrojové jednotky brán celá slov místo jednotlivých symbolů. Vznikly tké metody jko slovní Hufmnnovo kódování [56] slovní LZW [56]. Dlším přístupem ke slovní kompresi jsou husté kódy [21, 19, 20, 84, 85, 87] (nglicky dense codes). V těchto metodách se slovům z komprimovných textů přiřdí jedno- nebo více-bjtové kódy. Výhodou slovní komprese je její mlý kompresní poměr. Práce s bjty místo bity velmi zrychlí kompresi dekompresi, všk nezhorší o tolik kompresní poměr. V této oblsti jsme nvrhli rámec pro popis všech hustých kódů nzvný Open Dense Code (ODC) [84, 87]. Dále jsme nvrhli kód Two Byte Dense Code (TBDC) [84, 87], který omezuje 16

18 kódová slov n mximálně dv bjty. To je pro obyčejné texty dostčující. Pro mlé soubory jsme dosáhli nejlepšího kompresního poměru ze všech hustých kódů. Semidptivní vrint Semi-dptive Two Byte Dense Code (STBDC) [85] zse doshuje nejlepšího kompresního poměru pro vícejzyčné texty. Pokud máme mnoho reltivně krátkých textů, můžeme je zkomprimovt pomocí kombince globálního slovníku, který obshuje slov společná všem souborům, lokálního slovníku, který obshuje slov speciální pro ten který soubor [86]. V tkovém systému pk lze efektivně vyhledávt [86] vzorek s využitím znlostí dt v jednotlivých slovnících. Vznikl tk vlstně utoindex postvený n hustých kódech Porovnání kompresních metod Pokud chceme porovnávt různé kompresní lgoritmy, je potřeb získt implementce porovnávných lgoritmů nebo testy spustit n stejných dtech. Z toho důvodu vznikly různé korpusy jko npříkld Clgry Coprus [13], Cnterbury Corpus [9], Silesi [33] Prgue Corpus [52]. Nové metody jsou otestovány n stejných dtech, proto je možné porovnt tyto metody bez nutnosti získání té které implementce. Tímto způsobem se djí ovšem porovnt jen kompresní poměry. U kompresní lgoritmů je ovšem důležité porovnt i čs komprese dekomprese. V tkovém přípdě je již nutné získt implementce všech porovnávných metod. Ne vždy se le podří získt zdrojové kódy od utorů implementcí. I když se to podří, je nutné implementce ještě uprvit popř. převést do jiného progrmovcího jzyk. To bylo motivcí pro vytvoření veřejně přístupné knihovny zdrojových kódů implementcí kompresních metod ExCom 5 [52] (Extendible Compression librry). Cílem knihovny je nejen poskytnout zdrojové kódy pro účely porovnání kompresních metod, le nvíc i testovcí prostředí. Dále má knihovn sloužit progrmátorům plikcí, by nemuseli implementovt již implementovné lgoritmy, le mohli přímo použít tuto knihovnu. Nevíme o žádné jiné knihovně, která by obshovl tkové množství implementcí kompresních lgoritmů

19 4 Biologie Cílem této kpitoly je ukázt ktuální problém v biologii, kterým je obrovské množství dt, které je potřeb zprcovt. Sekce 4.1 zběžně předstvuje motivci k problému sekce 4.2 pk ukzuje řešení, n nichž se podílel utor tohoto textu. 4.1 Sekvenování genomů Genetická informce je v orgnismech uchováván v DNA, neboli deoxyribonukleové kyselině. DNA má formu dvojšroubovice (viz obrázek 11 6.) skládá se ze čtyř nukleových bází: denin (), gunin (g), cytosin (c) thymin (t). Můžeme se tedy n DNA dívt jko n řetězec nd becedouσ={,c,g,t}. DNA sekvence obshuje geny nekódující sekvence. Veškerou genetickou informci obsženou v DNA konkrétního orgnismu pk nzýváme genomem. Lidský genom má 3,3 milirdy symbolů. Poprvé byl sekvenován (přečten) před 15 lety. Trvlo to celkem 13 let cen byl 3,3 milirdy dolrů. Dnes to trvá se sekvenátory nové generce (viz obrázek 12 7 ) jen dv dny cen je dolrů. Sekvenátory nové generce produkují ž 60 GB denně [70]. Sekvenční centr mjí tkových strojů stovky, produkují tedy ž terbjty dt denně. Obrázek 11: DNA Obrázek 12: Illumin HiSeq 2500 sekvenátor nové generce Tkové množství dt je důležité velmi efektivně uložit přitom umožnit rychlé vyhledávání. Tím se dostáváme k využití jk oblsti stringologie tk oblsti komprese dt v biologii. Genom se v rámci jednoho druhu jen velmi málo liší. Npříkld u lidí se genomy dvou jedinců liší 6 Převzto zhttp:// 7 Převzto zhttp:// 18

20 v 0,1 % symbolech [95]. Tuto vlstnost všk běžné kompresní metody neumí využít, je nutné použít specilizovné metody. Čstější změnou mezi dvěm genomy je změn typu SNP [95] (nglicky Single-nucleotide polymorphism) neboli jedno-nukleotidový polymorfismus. Je to v podsttě náhrd jednoho nukleotidu jiným, řečí stringologie je to editční operce substituce. Méně čstými změnmi jsou pk vložení odstrnění. 4.2 Komprese podobných sekvencí Předpokládejme, že máme r řetězců t 0, t 1,...,t r 1 Σ,Σ = {,c,g,t}, obshujících DNA sekvence různých jedinců stejného druhu. Úkolem je vytvořit nd touto sdou sekvencí utoindex umožňující v nich efektivně vyhledávt. Při kompresi DNA sekvencí vidíme dv hlvní přístupy, jk se postvit ke změnám typu SNP indel. První zhrnuje nlezení využití opkování části referenční sekvence v komprimovné sekvenci. Druhý nopk zznmenává změny oproti referenční sekvenci. Algoritmy z první skupiny jsou obvykle zloženy n LZ fktorizci [103] sekvencí. Jedním z prvních lgoritmů zložených n LZ kompresi byl Biocompress [44]. Biocompress byl prvním lgoritmem, který význmně překonl obecné kompresní lgoritmy při kompresi DNA sekvencí. Inspirovl podobně změřené lgoritmy pro kompresi DNA jko npříkld Cfct [92] Off-line [8]. Nicméně výpočet LZ fktorizce je čsově velmi náročný může být překážkou nszení v prxi. Proto utoři [67] přišli s myšlenkou reltivní fktorizce (RLZ), která je zložen n odkzech do referenční sekvence. Dlším velmi důležitým reprezentntem LZ fktorizce je LZ77 self-index [65], který kombinuje kompresi indexování podobných DNA sekvencí. Dlším typem kompresních lgoritmů, které využívjí opkování biologických sekvencí, jsou lgoritmy zložené n grmtikách. Tyto metody obvykle nhrzují nejčstější bigrmy (dvoupísmenné řetězce) neterminálním symbolem tyto substituce pk formují prvidl grmtiky. Jednou z nejúspěšnějších kompresních metod je Comrd [66], která je zložen n lgoritmu Ry [23]. Dlší velmi slibnou metodou speciálně pro sekvence s vysokou podobností pro hledání krátkých sekvencí je Grmmr-compressed self-index [26] zložená n lgoritmu RePir [68]. První metodou druhého přístupu, čili zznmenávání změn, je metod Christie kol. [24], kde je dosženo komprese ukládáním změn komprimovné sekvence oproti referenční sekvenci. Dlší metodou je Generlized compressed suffix rry (GCSA) [96], která je zložen n principu ukládání sekvencí jko konečného utomtu, který je pk zindexován pomocí komprimovného sufixového pole. Dlší metod byl nvržen v [57]. Používá Burrows- Wheelerovu trnsformci [22] n shodné segmenty sufixové pole n změnové segmenty, by mohl detekovt všechny výskyty hledného vzorku. 4.3 Problémy bioinformtiky řešené utorem jeho týmem Vyhledávání v genomech Pro vyhledávání v genomech se djí využít techniky pro přesné vyhledávání (viz sekce ) i pro přibližné vyhledávání (viz sekce 2.3). Ve vyhledávání se využívjí i neurčité řetězce. Npříkld minokyselin isoleucin je kódován jko th, kde H zstupuje symboly, c t. Podrobněji o tomto témtu pojednává kpitol v knize [49]. 19

21 4.3.2 Komprese podobných sekvencí t 0 $... t vlnkový strom BWT(t 0 ) isloc loc $ c g t Obrázek 13: FM-index I 0 vytvořený pro referenční sekvenci t 0 t 0 t i c smplestrt $ #... # t vlnkový strom lc 1 d # c # BWT(d) isloc loc $ # 101 c g t Index + BsePos Offset Op Obrázek 14: FM-index I d vytvořený pro zřetězení záznmů změn d Metod BIO-FMI [88] využívá metody FM-index [37]. Touto metodou vytvoří index I 0 (viz obrázek 13) nd referenční sekvencí t 0 oddělený index I d (viz obrázek 14) nd řetězci reprezentujícími změny jednotlivých sekvencí t i, 0<i < r, oproti referenční sekvenci t 0. Prmetrem této metody je délk l c, n kterou je hledný vzorek p rozdělen. Jednotlivé části vzorku p jsou pk vyhledávány jk v I 0 tk v I d. Z nlezených výskytů jsou nkonec poskládány všechny výskyty vzorku p ve všech sekvencích t i. Z experimentálních výsledků uvedených v tbulce 4 vyplývá, že pro mlé velikosti délky l c doshuje tto metod nejlepšího kompresního poměru (ž 2,26 %) nejrychlejšího čsu vyhledávání. N stroji s procesorem Intel R Core TM 2 Duo CPU T6600 2, 20 GHz s 4 GB RAM je rychlost vyhledávání pro nejmenší vzorky (5 znků) 2, 56 µs. Jiný přístup byl zvolen u metody [79], kde se vytváří kompktní sufixový strom. Máme-li dv řetězce t 0 = bbbb# t 1 = bbbbb$. Ob tyto řetězce mohu zpst jko řetězec s vricemi t 0+1 = b(bb/bbb)b#. Metod [79] vytváří kompktní sufixový strom pro řetězec t 0+1 (viz obrázek 15). Výsledný strom se pk dá použít stejně jko stndrdní kompktní sufixový strom. N rozdíl od zobecněného kompktního sufixového stromu (nglicky generlized suffix tree) [5, 45], který ství kompktní sufixový 20

22 File s001 s005 m l c BIO-FMI 2.26 % 2.26 % 2.99 % 2.99 % 5.08 % 6.01 % 6.01 % 8.69 % 8.69 % % 2.56 µs µs 3.80 µs µs µs 2.37 µs µs 3.71 µs µs µs RLCSA 6.38 % 6.38 % 6.38 % 9.32 % 9.32 % 9.32 % µs µs µs µs µs µs LZ % 3.47 % 3.47 % 8.18 % 8.18 % 8.18 % µs µs µs µs µs µs LZ-End 6.19 % 6.19 % 6.19 % % % % µs µs µs µs µs µs Tbulk 4: Kompresní poměr čsy nlezení pro soubory s001 s005 (prvděpodobnost změny mezi t i t 0 je 0, 1 % respektive 0, 5 %). strom pro zřetězení obou řetězců má pmět ovou náročnost dnou součtem obou řetězců, má metod [79] složitost dánu jkoo(n + l d + l 1 ), kde l d je součet délek odlišných segmentů l 1 je součet některých společných segmentů. b # b b b b (bb/bbb)b# bb# bbb# b bbb# # bb# b# b b# bbb# b bbb# bb# # b# b# Obrázek 15: Kompktní sufixový strom pro řetězec s vricemi 21

23 5 Závěr V textu byly předstveny vybrné problémy z oblsti stringologie komprese dt jejich řešení. Tyto obory spojily své úsilí, které vedlo ke vzniku zhuštěných indexů utoindexů poskytujích plnou funkcionlitu úplného indexu zároveň úsporně ukládjích vstupní text. Nástup nových technologií v biologii, které generují obrovská množství dt, přináší nové výzvy pro kompresi dt v podobě nutnosti úsporného ukládání. Nvíc nd tkto zkomprimovnými dty je potřeb provádět vyhledávání, což je výzv pro stringologii. Úspěšné zvládnutí prvního problému znmená, že sekvenční centr nebudou muset získná dt po prohledání mzt, le budou je moci uchovávt pro dlší použití. Úspěšné zvládnutí druhého problému pk znmená vyhledávání v dtech bez jejich dekomprese, což podsttně urychlí proces vyhledávání. Ob dv tyto problémy řeší metod BIO-FMI [88], což bylo podpořeno provedenými experimenty ukzujícími kompresní poměr ž 2,26 %. Dlší řešení pomocí kompktního sufixového stromu pro řetězce s vricemi [79] n své experimentální vyhodnocení teprve čeká. Obě metody využívjí vysoké podobnosti komprimovných dt, která v přípdě lidských genomů různých jedinců činí 99,9 %. Autor tohoto textu se podílel n určení zákldních vlstností neurčitých řetězců [53], které se djí použít npříkld pro popis vyhledávání minokyselin. Dále se podílel n návrhu prvního efektivního lgoritmu [54] pro vyhledávání v neurčitých řetězcích, Mezi dlší práce utor ptří efektivní implementce indexovcí struktury zvné kompktní sufixový utomt, kde dosáhl význmného zlepšení pmět ové složitosti (cc 5 krát), čímž se tento utomt stl prkticky použitelný. Dále utor dosáhl význmných výsledků v oblsti komprese přirozeného jzyk pomocí hustých kódů [84, 85, 87] v oblsti testování výkonnosti kompresních metod (knihovn efektivních implementcí kompresních metod ExCom [52] testovcí sd souborů Prgue Corpus [52]). V oblsti stringologie pk ukázl, že metody používné pro přibližné vyhledávání simulují práci nedeterministického konečného utomtu pro přibližné vyhledávání [47, 48]. O oblst komprese dt je velký zájem. Dtová centr při použití efektivních lgoritmů n kompresi dt šetří nákldy n energie z servery jejich chlzení. Komprese dt urychluje přenos dt. Biologie bez efektivní komprese dt nemůže uchovávt získná dt. Spojení oblstí stringologie komprese dt umožňuje vyhledávání nd rozsáhlými biologickými dty, což je velmi důležité pro identifikci příčin nemocí nlezení efektivní léčby. 22

24 Použitá litertur [1] N. Abrmson. Informtion Theory nd Coding. McGrw-Hill, New York, [2] A. V. Aho nd M. J. Corsick. Efficient string mtching: n id to bibliogrphic serch. Commun. ACM, 18(6): , [3] A. V. Aho, J. E. Hopcroft, nd J. D. Ullmn. The design nd nlysis of computer lgorithms. Addison-Wesley, Reding, MA, [4] C. Alluzen, M. Crochemore, nd M. Rffinot. Fctor orcle: A new structure for pttern mtching. In J. Pvelk, G. Tel, nd M. Brtošek, editors, SOFSEM 99, Theory nd Prctice of Informtics, number 1725 in Lecture Notes in Computer Science, pges , Milovy, Czech Republic, Springer-Verlg, Berlin. [5] A. Amir, M. Frch, Z. Glil, R. Gincrlo, nd K. Prk. Dynmic dictionry mtching. J. Comput. Syst. Sci., 49(2): , [6] A. Amir, M. Frch, nd S. Muthukrishnn. Alphbet dependence in prmeterized mtching. Inf. Process. Lett., 49(3): , [7] P. Antoniou, J. Holub, C. S. Iliopoulos, B. Melichr, nd P. Peterlongo. Finding common motifs with gps using finite utomt. In O. H. Ibrr nd H.-C. Yen, editors, Implementtion nd Appliction of Automt, number 4094 in Lecture Notes in Computer Science, pges Springer-Verlg, Heidelberg, [8] A. Apostolico nd S. Lonrdi. Compression of biologicl sequences by greedy off-line textul substitution. In J. A. Storer nd M. Cohn, editors, Proceedings Dt Compression Conference, pges , Snowbird, UT, IEEE Computer Society Press. [9] R. Arnold nd T. C. Bell. A corpus for the evlution of lossless compression lgorithms. In Dt Compression Conference, pges , [10] R. A. Bez-Ytes nd G. H. Gonnet. A new pproch to text serching. Commun. ACM, 35(10):74 82, [11] B. S. Bker. A theory of prmeterized pttern mtching: lgorithms nd pplictions. In Proceedings of the 25th ACM Symposium on the Theory of Computing, pges 71 80, Sn Diego, CA, ACM Press. [12] M. Blík. DAWG versus suffix rry. In J.-M. Chmprnud nd D. Murel, editors, Implementtion nd Appliction of Automt, number 2608 in Lecture Notes in Computer Science, pges Springer-Verlg, Heidelberg, [13] T. C. Bell, I. H. Witten, nd J. G. Clery. Modeling for text compression. ACM Comput. Surv., 21(4): , [14] J. L. Bentley, D. D. Sletor, R. E. Trjn, nd V. H. Wei. A loclly dptive dt compression scheme. Commun. ACM, 29(4): , April

25 [15] A. Blumer, J. Blumer, A. Ehrenfeucht, D. Hussler, M. T. Chen, nd J. Seifers. The smllest utomton recognizing the subwords of text. Theor. Comput. Sci., 40(1):31 55, [16] A. Blumer, J. Blumer, A. Ehrenfeucht, D. Hussler, nd R. McConnel. Liner size finite utomt for the set of ll subwords of word: n outline of results. Bull. Eur. Assoc. Theor. Comput. Sci., 21:12 20, [17] A. Blumer, A. Ehrenfeucht, nd D. Hussler. Averge size of suffix trees nd DAWGS. Discret. Appl. Mth., 24:37 45, [18] R. S. Boyer nd J. S. Moore. A fst string serching lgorithm. Commun. ACM, 20(10): , [19] N. R. Brisbo, A. Friñ, G. Nvrro, nd M. F. Esteller. (S, C)-dense coding: An optimized compression code for nturl lnguge text dtbses. In M. A. Nscimento, E. S. de Mour, nd A. L. Oliveir, editors, Proceedings of String Processing nd Informtion Retrievl, volume 2857 of Lecture Notes in Computer Science, pges Springer-Verlg, Berlin, [20] N. R. Brisbo, A. Friñ, G. Nvrro, nd J. R. Prmá. Lightweight nturl lnguge text compression. Inf. Retr., 10(1):1 33, Jnury [21] N. R. Brisbo, E. L. Iglesis, G. Nvrro, nd J. R. Prm. An efficient compression code for text dtbses. In F. Sebstini, editor, Advnces in Informtion Retrievl, volume 2633 of Lecture Notes in Computer Science, pges Springer-Verlg, Berlin, [22] M. Burrows nd D. J. Wheeler. A block-sorting lossless dt compression lgorithm. SRC Reserch Report 124, Digitl Equipment Corportion, [23] A. Cnnne nd H. E. Willims. Generl-purpose compression for efficient retrievl. J. Am. Soc. Inf. Sci. Technol, 52(5): , [24] S. Christley, Y. Lu, C. Li, nd X. Xie. Humn genomes s emil ttchments. Bioinformtics, 25(2): , [25] D. R. Clrk. Compct pt trees. PhD thesis, University of Wterloo, Wterloo, Ont., Cnd, Cnd, [26] F. Clude, A. Friñ, M. A. Mrtinez-Prieto, nd G. Nvrro. Compressed q-grm indexing for highly repetitive biologicl sequences. In BioInformtics nd BioEngineering, pges IEEE Computer Society, [27] J. G. Clery nd I. H. Witten. Dt compression using dptive coding nd prtil string mtching. IEEE Trns. Comput., 32: , [28] B. Commentz-Wlter. A string mtching lgorithm fst on the verge. In H. A. Murer, editor, Proceedings of the 6th Interntionl Colloquium on Automt, Lnguges nd Progrmming, number 71 in Lecture Notes in Computer Science, pges , Grz, Austri, Springer-Verlg, Berlin. 24

26 [29] M. Crochemore. Trnsducers nd repetitions. Theor. Comput. Sci., 45(1):63 86, [30] M. Crochemore nd W. Rytter. Text lgorithms. Oxford University Press, [31] M. Crochemore nd R. Vérin. Direct construction of compct directed cyclic word grphs. In A. Apostolico nd J. Hein, editors, Proceedings of the 8th Annul Symposium on Combintoril Pttern Mtching, number 1264 in Lecture Notes in Computer Science, pges , Arhus, Denmrk, Springer-Verlg, Berlin. [32] F. Dmeru. A technique for computer detection nd correction of spelling errors. Commun. ACM, 7(3): , [33] S. Deorowicz. Silesi Corpus. PhD thesis, Silesin University of Technology, Polnd, [34] B. Dömölki. An lgorithm for syntcticl nlysis. Computtionl Linguistics, 3:29 46, Hungrin Acdemy of Science, Budpest. [35] B. Ďurin, J. Holub, H. Peltol, nd J. Trhio. Improving prcticl exct string mtching. Inf. Process. Lett., 110(4): , [36] R. Fno. The trnsmission of informtion. Technicl Report 65, Reserch Lbortory of Electronics, MIT, [37] P. Ferrgin nd G. Mnzini. Opportunistic dt structures with pplictions. In FOCS 2000: Proceedings of the 41st Annul Symposium on Foundtions of Computer Science, pges , Wshington, DC, USA, IEEE Computer Society. [38] M. Fil nd J. Holub. Dc using suffix rrys. In J. A. Storer nd M. W. Mrcellin, editors, Dt Compression Conference, pge 516. IEEE Computer Society, [39] M. J. Fischer nd M. Pterson. String mtching nd other products. In R. M. Krp, editor, Proceedings SIAM-AMS Complexity of Computtion, pges , Providence, RI, [40] E. Fredkin. Trie memory. Commun. ACM, 3(9): , [41] Z. Glil. Open problems in stringology. In A. Apostolico nd Z. Glil, editors, Combintoril Algorithms on Words, volume 12 of NATO ASI Series F, pges 1 8. Springer- Verlg, Berlin, [42] R. Grossi, A. Gupt, nd J. Vitter. High-order entropy-compressed text indexes. In Proc. 14th Annul ACM-SIAM Symp. on Discrete Algorithms (SODA 03), pges , [43] R. Grossi nd J. S. Vitter. Compressed suffix rrys nd suffix trees with pplictions to text indexing nd string mtching. In Proceedings ACM Symposium on the Theory of Computing, pges , Portlnd, Oregon, ACM Press. [44] S. Grumbch nd F. Thi. Compression of dn sequences. In J. A. Storer nd M. Cohn, editors, Dt Compression Conference, pges IEEE Computer Society,

27 [45] D. Gusfield. Algorithms on strings, trees nd sequences: computer science nd computtionl biology. Cmbridge University Press, Cmbridge, [46] R. W. Hmming. Error detecting nd error correcting codes. The Bell System Technicl Journl, 29(2): , [47] J. Holub. Bit prllelism NFA simultion. In B.W. Wtson nd D. Wood, editors, Implementtion nd Appliction of Automt, number 2494 in Lecture Notes in Computer Science, pges Springer-Verlg, Heidelberg, [48] J. Holub. Dynmic progrmming NFA simultion. In J.-M. Chmprnud nd D. Murel, editors, Proceedings of the 7th Conference on Implementtions nd Applictions of Automt, pges , University of Tours, Tours, Frnce, [49] J. Holub. Finite utomt in pttern mtching. In M. Elloumi nd A. Y. Zomy, editors, Algorithms in Computtionl Moleculr Biology: Techniques, Approches nd Applictions, pges John Wiley & Sons, [50] J. Holub nd M. Crochemore. On the implementtion of compct DAWG s. In J.-M. Chmprnud nd D. Murel, editors, Implementtion nd Appliction of Automt, number 2608 in Lecture Notes in Computer Science, pges Springer-Verlg, Heidelberg, [51] J. Holub nd B. Melichr. Approximte string mtching using fctor utomt. Theor. Comput. Sci., 249(2): , [52] J. Holub, J. Řezníček, nd F. Šimek. Lossless dt compression testbed: ExCom nd Prgue Corpus. In J. A. Storer nd M. W. Mrcellin, editors, Dt Compression Conference, pge 457. IEEE Computer Society, [53] J. Holub nd W. F. Smyth. Algorithms on indeterminte strings. In M. Miller nd K. Prk, editors, Proceedings of the 14th Austrlsin Workshop On Combintoril Algorithms, pges Seoul Ntionl University, Seoul, Kore, [54] J. Holub, W. F. Smyth, nd S. Wng. Fst pttern-mtching on indeterminte strings. J. Discret. Algorithms, 6(1):37 50, [55] R. N. Horspool. Prcticl fst serching in strings. Softw. Prct. Exp., 10(6): , [56] R.N. Horspool nd G.V. Cormck. Constructing word-bsed text compression lgorithms. In J.A. Storer nd M. Cohn, editors, Dt Compression Conference, pges 62 81, Snowbird, Uth, Mrch IEEE Computer Society Press, Los Almitos, Cliforni. [57] S. Hung, T. W. Lm, W.-K. Sung, S.-L. Tm, nd S.-M. Yiu. Indexing similr dn sequences. In B. Chen, editor, Algorithmic Aspects in Informtion nd Mngement, volume 6124 of Lecture Notes in Computer Science, pges Springer, [58] D. A. Huffmn. A method for the construction of minimum-redundncy codes. Proceedings of the Institute of Rdio Engineers, 40(9): , September

Zobrazit více