ČESKÉ VYSOKÉ UČENÍ TECHNICKÉ V PRAZE FAKULTA STAVEBNÍ OBOR GEODÉZIE A KARTOGRAFIE KATEDRA MAPOVÁNÍ A KARTOGRAFIE Konverze textových formátů semestrální práce Němcová Lenka Vlčková Renata V Praze dne 2. 5. 2008 Kartografická polygrafie a reprografie
Úvod Při vyhledávání informací pro naši semestrální práci na téma Konverze textových formátů jsme na internetu narazily na zajímavou možnost online konverze. Proto jsme se rozhodly seznámit Vás s touto možností, o které asi ne každý z vás věděl. Online konvertor nabízí všechny možné konverze textů, obrázků, videí či hudby. Jelikož se naše semestrální práce týká výhradně textových formátů, zaměřily jsme se pouze na ně. Ale určitě stojí za to si stránky projít a vyzkoušet si, co vše nabízí. 1
1 Online konvertor 1.1 Internetový odkaz http://media-convert.com 1.2 Použití online konvertoru Maximální velikost konvertovaného souboru je 150Mb. Služba je absolutně zdarma a pro konverzi online není třeba si instalovat žádný software. Obsluha online je velice jednoduchá, je třeba však mít základy angličtiny. V menu Services vyberete první záložku Free online File convertor. Stránky nabízejí mnoho možností. My využijeme záložku Local File Conversion. V menu File si klasicky vybereme na svém disku soubor, který chceme konvertovat. Podle formátu se sám změní obsah v menu Input format. V menu Output format poté vybereme z nabízených formátu námi požadovaný formát výstupního dokumentu a dáme OK. Poté musíme chvíli počkat, než se soubor zkonvertuje. Pokud vše proběhlo v pořádku objeví se File successfull converted! Nyní si můžeme zkonvertovaný soubor stáhnout. Většinou lze soubor stáhnout bud zrovna v požadovaném výstupním formátu nebo je nám ještě nabídnuto stáhnout si zkomprimovaný soubor ve formátu *.zip. 1.3 Vyzkoušení online konvertoru Provedena byla řada pokusů s původním dokumentem utvořeným v programu MS Word pokus.doc. Záměrně jsou v pokusném dokumentu různé druhy písma, diakritika, vzorce, internetový odkaz a obrázek. Pokud převádíme z PDF do *.rtf konvertor nám podá ještě tyto informace: Pozn.: Tyto informace se konkrétně týkají převodu souboru pokus.pdf na pokus.rtf 2
1.4 Výsledky pokusů Takto vypadá původní pokus.doc Takto vypadá výsledný pokus.txt převedený konvertorem z původního pokus.doc 3
Takto vypadá výsledný pokus.pdf převedený konvertorem z původního pokus.doc 4
Takto vypadá výsledný pokus.rtf převedený konvertorem z původního pokus.pdf Samozřejmě je třeba vždy po konverzi výsledné dokumenty zkontrolovat a případně opravit chyby. 5
2 Nejpoužívanější formáty Nyní věnujme část své práce seznámení s jednotlivými nejpoužívanějšími formáty. 2.1 *.txt Formát TXT by se mohl zdát nejjednodušším a nejméně problematickým ze všech formátů. Ano i ne. Pokud bychom byli ochotni se vzdát diakritiky a veškerého formátování, pak je skutečně *.txt jedním z nejjednodušších a nejbezpečnějších formátů. Písmenka jsou v něm uložena v tzv. ASCII kódu (každé písmenko má své číslo v ASCII tabulce) - at text otevřete v jakémkoli programu na jakémkoli počítači, mělo by se vám objevit to samé. 2.2 *.doc *.doc je přípona nativního formátu aplikace MS Word. Pod jednotnou příponou se může schovávat celá řada variant formátu podle toho v jaké verzi Wordu byl dokument uložen. V zásadě by se dalo říci, že novější verze Wordu jsou navzájem kompatibilní. Soubor uložený ve Word 2000 lze otevřít ve Word 97 atp. Výhodou wordovského formátu je, že s sebou nese všechny informace o formátování dokumentu a jeho relativní rozšířenost. 2.3 *.rtf Rich text format je jakýmsi pokusem o univerzální formát, který by s sebou oproti formátu *.txt nesl také informace o formátování. Je dosti oblíben a používán. Lze otevřít jak v MS Word, tak v OpenOffice. Což je velice dobré, protože textové dokumenty z Open- Office *.sxw a *.odt v MS Word otevřít nelze. 2.4 *.ps Adobe PostScript je programovací jazyk určený ke grafickému popisu tisknutelných dokumentů vyvinutý v r. 1985 firmou Adobe Systems Incorporated. Díky svým rozsáhlým možnostem se však brzy stal i formátem k ukládání obrázků. Pro interpretaci tohoto formátu se používá např. volně šiřitelný program GhostScript s grafickou nadstavbou GhostView. Bounding Box (obdélník ohraničující tisknutelnou oblast) kopíruje formát listu papíru. PostScript byl později částečně nahrazen formátem *.pdf užitečné odkazy: http://cs.wikipedia.org/wiki/postscript http://www.root.cz/clanky/grafika-v-unixu-ix-postscript/ http://www.grafika.cz/art/polygrafie/encpostscript.html 2.5 *.pdf Portable Document Format Přenosný formát dokumentů PDF je souborový formát vyvinutý firmou Adobe pro ukládání dokumentů nezávisle na softwaru i hardwaru, na kterém byly pořízeny. Soubor typu PDF může obsahovat text i obrázky. Tento formát zajišt uje, že se libovolný dokument na všech zařízeních 6
zobrazí stejně. Pro formát PDF existují volně dostupné prohlížeče pro mnoho platforem, nejznámějším je oficiální prohlížeč mateřské firmy Adobe Adobe Reader. Kromě oficiálního Adobe Readeru existuje celá řada programů schopných pracovat s formátem PDF. Patří mezi ně např. prohlížeč Foxit, nebo open source prohlížeč Xpdf, který obsahuje i programy na extrahování textu, fontů a obrázků z PDF a též i převod PDF na PostScript. Formát PDF je založen na jazyce PostScript. Formát PDF také obsahuje systém pro uložení různých částí dokumentu do jediného souboru s použitím komprese, text komprimuje algoritmem LZW84. užitečné odkazy: http://www.adobe.com/devnet/pdf/pdf reference.html Adobe Reader http://www.adobe.com/products/acrobat/readstep2.html Foxit http://www.foxitsoftware.com/pdf/rd intro.php Xpdf http://www.foolabs.com/xpdf/ Pdf Creator http://www.pdfcreator.de.vu/ 2.6 *.tif, *.tiff Tagged Image File Format je jeden z souborových formátů pro ukládání rastrové počítačové grafiky. Formát TIFF tvoří neoficiální standard pro ukládání snímků určených pro tisk. TIFF je složitější formát oproti jiným formátům pro ukládání rastrové grafiky. Tento formát vytvořila v roce 1986 společnost Aldus. TIFF umožňuje jako jeden z mála grafických formátů vícestránkové soubory a proto se často používá například pro ukládání přijatých faxů přijatých pomocí počítače. TIFF byl původně vytvořen na zkoušku, za účelem získání jednotného formátu pro stolní skenery v polovině 80.let. Schopnost ukládat obrazová data v bezeztrátovém formátu dělá z TIFF souborů užitečnou metodu pro archivaci obrázků. Na rozdíl od standardních JPEG souborů, TIFF soubory, využívající bezeztrátovou kompresi, mohou být editovány a znovu ukládány bez utrpění kompresních ztrát. TIFF má možnost využívat LZW kompresi, bezeztrátovou datovou kompresní techniku pro redukci velikosti souboru. TIFF formát je standardem pro dokumentové zobrazování a systémy dokumentové správy. V tomto prostředí je běžně využíván s kompresí, která podporuje černobílé obrazy. Protože TIFF formát podporuje vícenásobnost stránek, mnohostránkové dokumenty mohou být uloženy jako jednotlivé TIFF soubory, spíše než jako série souborů pro každou naskenovanou stranu. užitečné odkazy: stránky společnosti Adobe odkaz na specifikaci a využití TIFF http://partners.adobe.com/public/developer/tiff/index.html 2.7 *.pdb AportisDoc Palm DB Na internetu můžete nalézt stovky či spíše tisíce souborů s příponou *.PDB - většinou na něj člověk narazí jako na knihu v elektronické formě. PDB je textový formát s velmi 7
účinnou kompresí. Vytvořit PDB ebook na Windows je celkem jednoduché - stačí mít knihu ve formátu TXT a tu uložit do PDB v některém z programů pro tvorbu e-booků. PDB a jeho komprimace záleží na použitém SW pro tvorbu knihy. PDB lze rozdělit na dva poddruhy: jednoduché PDB umožňující jen formátování pomocí odstavců orientační komprimovaná velikost - 70% z původní velikosti textu můžeme vytvořit například pomocí: PSPAD, DocReader,... formátované PDB lze formátovat podobně jako HTML - tj. zarovnávání, tučnost, kurzíva, stránkování orientační komprimovaná velikost - 50% z původní velikosti textu můžeme vytvořit pomocí: DropBook, Palm ebook Studio... užitečné odkazy: http://www.pdb.estranky.cz/stranka/format-pdb 8
3 LaTeX Na závěr ještě trocha slov k TeX dokumentům Latexovský dokument je obyčejný textový soubor - soubor příkazů pro překladač, které určují podobu výsledného dokumentu a vlastního textu. Text je tedy promíchán s příkazy. Výstupní soubor se dostane až překladem tohoto souboru. Vznikne nám tedy přímo výstup v *.pdf. Typy konverzí: Microsoft Word - poslední verze programu mswordview umí export do LaTeXu, a to z velmi široké škály verzí Wordu. Word2TeX a TeX2Word jsou překladače od Chikrii Softlab (http://www.chikrii.com/). Ohlasy uživatelů jsou příznivé. Program nebylo možné vyzkoušet jelikož je zpoplatněný. Excel - Excel2Latex konvertuje soubor Excelu do LaTeXovského prostředí tabular. Dodává se jako.xls soubor definující makra Excelu pro vytvoření výstupu v novém formátu. Pro zájemce: FAQ Wilfrieda Henningse, zabývající se zvláště konverzemi mezi formáty na bázi TeXu a formáty textových procesorů, poskytuje detailní informace jakožto i tabulky umožňující rychlé srovnání vlastností: http://www.tug.org/utilities/texconv/index.html 9
Závěr Cílem této práce je seznámit s možnostmi konverze textových formátů. Na internetu lze nalézt řadu programů určených právě k jejich konverzi. Programy jsou různých kvalit, většinou v závislosti na tom, zda je program zdarma či zpoplatněn. Nám však přišlo velmi zajímavé, že jde konverzi provézt i online a zdarma. Proto jsme pro vás online konverzi vyzkoušely a věříme, že i řada z vás tuto možnost konverze využije nebo alespoň pro zajímavost vyzkouší. V Praze, dne 2.5.2008 Němcová Lenka Vlčková Renata 10
Použitá literatura Využito bylo internetových zdrojů: [1] Media Convert: www stránky, [online], URL: <http://media-convert.com> [2] Wikipedie - otevřená encyklopedie: www stránky, [online], URL: <http://cs.wikipedia.org/wiki/postscript> [3] Brabec, S.: www stránky, [online], URL: <http://www.root.cz/clanky/grafika-v-unixu-ix-postscript/> [4] Krejčí, R.: www stránky, [online], URL: <http://www.grafika.cz/art/polygrafie/encpostscript.html> [5] Adobe developer connection: www stránky, [online], URL: <http://www.adobe.com/devnet/pdf/pdf_reference.html> [6] Adobe: www stránky, [online], URL: <http://www.adobe.com/products/acrobat/readstep2.html> [7] Foxit Software Company: www stránky, [online], URL: <http://www.foxitsoftware.com/pdf/rd_intro.php> [8] Wardigo, A., J.: www stránky, [online], URL: <http://www.foolabs.com/xpdf/> [9] pdfforge: www stránky, [online], URL: <http://www.pdfcreator.de.vu/> [10] Adobe developer connection: www stránky, [online], URL: <http://partners.adobe.com/public/developer/tiff/index.html> [11] www stránky, [online], URL: <http://www.pdb.estranky.cz/stranka/format-pdb> [12] Hennings, W.: www stránky, [online], URL: <http://www.tug.org/utilities/texconv/index.html> [13] Cikrii Softlab: www stránky, [online], URL: <http://www.chikrii.com/> 11