Compression of a Dictionary

Podobné dokumenty
WORKSHEET 1: LINEAR EQUATION 1

Next line show use of paragraf symbol. It should be kept with the following number. Jak může státní zástupce věc odložit zmiňuje 159a.

USING VIDEO IN PRE-SET AND IN-SET TEACHER TRAINING

Tento materiál byl vytvořen v rámci projektu Operačního programu Vzdělávání pro konkurenceschopnost.

CHAIN TRANSMISSIONS AND WHEELS

Tento materiál byl vytvořen v rámci projektu Operačního programu Vzdělávání pro konkurenceschopnost.

Dynamic Development of Vocabulary Richness of Text. Miroslav Kubát & Radek Čech University of Ostrava Czech Republic

Theme 6. Money Grammar: word order; questions

Gymnázium, Brno, Slovanské nám. 7, SCHEME OF WORK Mathematics SCHEME OF WORK. cz

VŠEOBECNÁ TÉMATA PRO SOU Mgr. Dita Hejlová

Gymnázium, Brno, Slovanské nám. 7 WORKBOOK. Mathematics. Teacher: Student:

Digitální učební materiály

Transportation Problem

GUIDELINES FOR CONNECTION TO FTP SERVER TO TRANSFER PRINTING DATA

Just write down your most recent and important education. Remember that sometimes less is more some people may be considered overqualified.

SEMI-PRODUCTS. 2. The basic classification of semi-products is: standardized semi-products non-standardized semi-products

Tabulka 1 Stav členské základny SK Praga Vysočany k roku 2015 Tabulka 2 Výše členských příspěvků v SK Praga Vysočany Tabulka 3 Přehled finanční

Air Quality Improvement Plans 2019 update Analytical part. Ondřej Vlček, Jana Ďoubalová, Zdeňka Chromcová, Hana Škáchová

CHAPTER 5 MODIFIED MINKOWSKI FRACTAL ANTENNA

DC circuits with a single source

Využití hybridní metody vícekriteriálního rozhodování za nejistoty. Michal Koláček, Markéta Matulová

Číslo projektu: CZ.1.07/1.5.00/ Název projektu: Inovace a individualizace výuky

2. Entity, Architecture, Process

ČSN EN ed. 3 OPRAVA 1

Introduction to MS Dynamics NAV

PART 2 - SPECIAL WHOLESALE OFFER OF PLANTS SPRING 2016 NEWS MAY 2016 SUCCULENT SPECIAL WHOLESALE ASSORTMENT

ŽÁDOST O UZNÁNÍ ZAHRANIČNÍHO VYSOKOŠKOLSKÉHO VZDĚLÁNÍ A KVALIFIKACE APPLICATION FOR THE RECOGNITION OF FOREIGN EDUCATION IN THE CZECH REPUBLIC

Škola: Střední škola obchodní, České Budějovice, Husova 9. Inovace a zkvalitnění výuky prostřednictvím ICT

Britské společenství národů. Historie Spojeného království Velké Británie a Severního Irska ročník gymnázia (vyšší stupeň)

Dynamic programming. Optimal binary search tree

Střední průmyslová škola strojnická Olomouc, tř.17. listopadu 49

Obsah. D) Česká písnička - Když jsem já sloužil... 9

LOGOMANUÁL / LOGOMANUAL

Aktivita CLIL Chemie III.

On large rigid sets of monounary algebras. D. Jakubíková-Studenovská P. J. Šafárik University, Košice, Slovakia

The Over-Head Cam (OHC) Valve Train Computer Model

RYBÁŘSKÉ ŘETĚZY FISHING CHAINS

The Czech education system, school

Počítačové kognitivní technologie ve výuce geometrie

Cambridge International Examinations Cambridge International General Certificate of Secondary Education

Programování v Pythonu

CZ.1.07/1.5.00/

CASTING HAND PRODUCTION USING MOULDS

Digital Electronics. Jaroslav Bernkopf. 17 October 2008

Aktivita CLIL Fyzika 2

Enabling Intelligent Buildings via Smart Sensor Network & Smart Lighting

II/2 Inovace a zkvalitnění výuky cizích jazyků na středních školách

PAINTING SCHEMES CATALOGUE 2012

These connections are divided into: a) with a form-contact b) with a force-contact

Úvod do datového a procesního modelování pomocí CASE Erwin a BPwin

Škola: Střední škola obchodní, České Budějovice, Husova 9. Inovace a zkvalitnění výuky prostřednictvím ICT

Czech Crystal in Chengdu 2016 捷克水晶闪亮成都

Bibliometric probes into the world of scientific publishing: Economics first

Energy vstupuje na trh veterinárních produktů Energy enters the market of veterinary products

Čipové karty Lekařská informatika

Gymnázium, Brno, Slovanské nám. 7 WORKBOOK. Mathematics. Student: Draw: Convex angle Non-convex angle

Radiova meteoricka detekc nı stanice RMDS01A

kterou se provádí zákon č. 122/2000 Sb., o ochraně sbírek muzejní povahy a o změně některých dalších zákonů

HASHING GENERAL Hashovací (=rozptylovací) funkce

Name: Class: Date: RELATIONSHIPS and FAMILY PART A

1 st International School Ostrava-mezinárodní gymnázium, s.r.o. Gregorova 2582/3, Ostrava. IZO: Forma vzdělávání: denní

Databázové systémy II. KIV/DB2 LS 2007/2008. Zadání semestrální práce

Mechanika Teplice, výrobní družstvo, závod Děčín TACHOGRAFY. Číslo Servisní Informace Mechanika:

Friction drives have constant or variable drives (it means variators). Friction drives are used for the transfer of smaller outputs.

Why PRIME? 20 years of Erasmus Programme Over 2 million students in total Annually

MIKROPROCESORY PRO VÝKONOVÉ SYSTÉMY. Stručný úvod do programování v jazyce C 2.díl. České vysoké učení technické Fakulta elektrotechnická

1 st International School Ostrava-základní škola a gymnázium, s.r.o. Gregorova 2582/3, Ostrava. IZO: Forma vzdělávání: denní

VY_32_INOVACE_06_Předpřítomný čas_03. Škola: Základní škola Slušovice, okres Zlín, příspěvková organizace

Klepnutím lze upravit styl předlohy. nadpisů. nadpisů.

Jak importovat profily do Cura (Windows a

II_ _Listening Pracovní list č. 2.doc II_ _Listening Pracovní list č. 3.doc II_ _Listening Řešení 1,2.doc

Uni- and multi-dimensional parametric tests for comparison of sample results

Fourth School Year PISTON MACHINES AND PISTON COMPRESSORS

AIC ČESKÁ REPUBLIKA CZECH REPUBLIC

Distribution of Sorbus thayensis in the Czech Republic

VOLKSWAGEN. CORRADO 1989 to 1995 NOTES

Bioinformatika a výpočetní biologie. KFC/BIN VII. Fylogenetická analýza

GREAT BRITAIN. III/2 Inovace a zkvalitnění výuky prostřednictvím ICT. Anglický jazyk Třída 3.A Téma hodiny Druh materiálu

The tension belt serves as a tension unit. After emptying the belt is cleaned with a scraper.

SUBSTRUCTURES underground structures

Vánoční sety Christmas sets

SSOS_AJ_3.18 British education


SSOS_AJ_3.17 Czech education

FIRE INVESTIGATION. Střední průmyslová škola Hranice. Mgr. Radka Vorlová. 19_Fire investigation CZ.1.07/1.5.00/

Digitální učební materiál

Contact person: Stanislav Bujnovský,

Co vím o Ázerbájdžánu?

Klepnutím lze upravit styl předlohy. Klepnutím lze upravit styl předlohy. nadpisů. nadpisů. Aleš Křupka.

Gymnázium a Střední odborná škola, Rokycany, Mládežníků 1115

EXACT DS OFFICE. The best lens for office work

Cambridge International Examinations Cambridge International General Certificate of Secondary Education

THE MARKING OF BOVINE ANIMALS IN THE CZECH REPUBLIC

My Year Manager is Vedoucí našeho ročníku je. P.E. is on Tělocvik mám v

EU peníze středním školám digitální učební materiál

Izolační manipulační tyče typ IMT IMT Type Insulated Handling Rod

CZ.1.07/1.5.00/

Socrates / Comenius Czech rep. 2006/2007

BOOK LEATHER COLLECTION 2015

Rozvoj vzdělávání žáků karvinských základních škol v oblasti cizích jazyků Registrační číslo projektu: CZ.1.07/1.1.07/

Transkript:

Compression of a Dictionary Jan Lánský, Michal Žemlička zizelevak@matfyz.cz michal.zemlicka@mff.cuni.cz Dept. of Software Engineering Faculty of Mathematics and Physics Charles University

Synopsis Introduction Existing methods Trie-based methods Results Conclusion

Introduction Why we are compressing a dictionary?

Large Alphabet Compression Text Files - Compression over alphabet of words or syllables. Alphabet (Dictionary) must be transferred with the coded message Word-based methods Moffat 1989 Syllable-based methods Lánský, Žemlička 2005

Influence of File Size Large files Dictionary takes small part of message Influence of compression of the dictionary on compression ratio is small Small files Dictionary takes large part of message Influence of compression of the dictionary on compression ratio is large

Existing methods Common used methods for compression of a dictionary of words or syllables

Character by Character (CD) Code of string is composed from Code of string type Moffat: 2 types of words (word, non-word) Lánský, Žemlička: 5 types of syllables Encoded length of the string Symbol codes

Character by Character (CD) Examples code("to") = codetype(lower), codelength(2), codelower('t'), codelower('o') code("153") = codetype(numeric), codelength(3), codedigit('1'), codedigit('5'), codedigit('3')

External Compression All strings from dictionary are concatenated by using separator This resulting string is compressed by LZW (we denote LZWD) Bzip2 (we denote bzipd)...

Trie-based methods TD1, TD2, TD3 Compression of a dictionary using its structure

Dictionary Data structure trie Nodes may represent strings Father represents a prefix of its sons Mapping between strings and its order is unique in whole dictionary Order is obtained during compression

Trie data structure For each node we know Whether a node represents a string (represents) Number of sons (count) Array of sons (son) Extension of each son (extension)

TD1 - encoding EncodeTD1 () EncodeGamma number of sons count Encode represents ( bit 0 or 1) For each son s Distance = s.extension previous(s).extension EncodeDelta(Distance) EncodeNode(s)

TD1 - Example... Code node 'C': Code(1) count Bit(1) repr. Code(67-0) dist Code node 'M'... Dictionary: "the", "to", "ACM", "AC", ".\n "

TD2 - Improvement In TD1 version the distances between sons are coded. Distances are calculated according binary values of the extending symbols These distances are encoded by Elias delta coding representing smaller numbers by shorter codes larger numbers by longer codes. Goal decrease distances

TD2 - Improvement Reordering alphabet Primary according symbol type Secondary according symbol frequency 0-27 lower-case letter, 28-53 upper-case letters, 54-63 digits, 64-255 other symbols TD2 - Distances between sons are counting in this new alphabet TD2 gives shorter distances and its codes

... Code node 'C': TD2 - Example Code(1) count Bit(1) repr. Code(34-0) dist Code node 'M'... Dictionary: "the", "to", "ACM", "AC", ".\n "

TD3 - Improvement 5 types of words and syllables Lower ("hour") Upper ("HOUR") Mixed ("Hour") Numeric ("123") Other ("???") After coding 1-2 symbols from a string we can determine its type and improve its coding 2 symbols per Mixed/ Upper, 1 symbol otherwise

TD3 - Improvement Function first First(lower-case letter) = 0 First(upper-case letter) = 28 First(digit) = 54 First(other) = 64 TD3 if we know the type of the string, we decrease the distance of the first son by the value of function first for the son extension

... Code node 'M': TD3 - Example Code(1) count Bit(1) repr. Code(33-28-0) dist Return to node 'C'... Dictionary: "the", "to", "ACM", "AC", ".\n "

Results Comparison of TD1, TD2, TD3, CD, LZWD and BzipD on dictionaries of words and syllables in Czech, English and German

Results - syllables

Results - syllables TD3 outperforms other methods on all languages and file sizes Syllables are short Trie of syllables is dense Example 10Kb Czech file 770 bytes of dictionary by TD3 1540 bytes of dictionary by CD (second best)

Results - words

Results - words Czech On 50kB and larger files is TD3 best Long words, dense trie of words English On 200kB and larger files is TD3 best Short words, quite dense trie of words German On 2MB and larger files is TD3 best Long words, quite sparse trie of words

Results - words How are methods succesfull on? Smaller files 1. CD, 2.-3.TD3, 2.-3. BzipD, 4. LZWD Middle-sized files 1. BzipD, 2. TD3, 3. CD, 4. LZWD Larger files 1. TD3, 2. BzipD, 3. CD, 4. LZWLD

Conclusion On what types of dictionaries is TD3 good?

Conclusion Where is TD3 successful Dense tries with short string Dictionaries of syllables Larger dictionaries of words TD3 is not bad on other types of dictionaries TD3 is usually at least the second best method