Konverze textových formátů

Podobné dokumenty
Konverze textových formátů

Dnešní téma. Oblasti standardizace v ICT. Oblasti standardizace v ICT. Oblasti standardizace v ICT

Tato tematika je zpracována v Záznamy přednášek: str materiál: PrikladyZobrazeniCisel.pdf

Zmatky při pouţívání češtiny a moţná řešení

OCR systémy. Semestrální práce z předmětu Kartografická polygrafie a reprografie. Jakub Žlábek, Zdeněk Švec. Editor: Věra Peterová. Praha, květen 2010

FAKULTA STAVEBNÍ OBOR GEODÉZIE A KARTOGRAFIE KATEDRA MAPOVÁNÍ A KARTOGRAFIE

Osnova přednášky. Formáty uložení dat. Vyjádření hodnot datového typu. Vyjádření hodnot datového typu. Datové formáty. Výpočetní technika I

Přednáška 3: Vnitřní reprezentace dat. Uložení dat v paměti počítače. Organizace dat na discích. Datové formáty. Přednáška 3:

Vnitřní reprezentace dat Výpočetní technika I

Publikování map na webu - WMS

Jak v Javě primitivní datové typy a jejich reprezentace. BD6B36PJV 002 Fakulta elektrotechnická České vysoké učení technické

b) červená, zelená, modrá, c) černá, bílá, d) černá, bílá, šedá. 5. PNG je formát: a) textový,

Algoritmy a datové struktury

VY_32_INOVACE_INF3_18. Textové formáty PDF, TXT, RTF, HTML, ODT

Práce s textovými proměnnými v DetStudiu

POČÍTAČE A PROGRAMOVÁNÍ

Zobrazení dat Cíl kapitoly:

Tvorba jednoduchých WWW stránek. VŠB - Technická univerzita Ostrava Katedra informatiky

Základy informatiky. 02 Elektronické publikování. Kačmařík/Szturcová/Děrgel/Rapant

Úvod do informačních technologií

Konverze grafických rastrových formátů

L A TEX Barevné profily tiskových zařízení (tiskárny, plotry)

Programy pro psaní textů. textové editory, textové procesory

Krejčí Richard Písmo - Font Sazba Postscriptová písma

84. Barvové profily (monitory, skenery)

Informační a komunikační technologie

Vnitřní reprezentace dat

Dělba rolí. Tvorba el. dokumentace (BI-TED) Publikační proces. Motivace. 2. Oddělení formy a obsahu. Autor

Reprezentace dat. INP 2008 FIT VUT v Brně

Systém L A TEX tvorba prezentací

Informatika Datové formáty

Převody datových formátů

Jak psát správné znaky

Základy XML struktura dokumentu (včetně testových otázek)

Digitální signály a kódy

Inovace výuky prostřednictvím šablon pro SŠ

Úvod do jazyka C. Ing. Jan Fikejz (KST, FEI) Fakulta elektrotechniky a informatiky Katedra softwarových technologií

Počítač jako elektronické, Číslicové zařízení

Název školy: Základní škola a Mateřská škola Žalany. Číslo projektu: CZ. 1.07/1.4.00/ Téma sady: Informatika pro pátý až šestý ročník

Nejvyšší řád čísla bit č. 7 bit č. 6 bit č.5 bit č. 4 bit č. 3 bit č. 2 bit č. 1 bit č. 0

Základy informatiky. 03 HTML, tvorba webových stránek. Kačmařík/Szturcová/Děrgel/Rapant

Inovace výuky prostřednictvím šablon pro SŠ

Data v počítači. Informační data. Logické hodnoty. Znakové hodnoty

3 Jednoduché datové typy Interpretace čísel v paměti počítače Problémy s matematickými operacemi 5

Základy informatiky. 02 Elektronické publikování. Michal Kačmařík upraveno z přednášek D. Szturcové a P. Děrgela

Název DUM: VY_32_INOVACE_2B_9_Software_-_základní_programové_vybavení_počítače

DUM 02 téma: Úvod do textového editoru MS Word a výběr klávesových zkratek

Formáty WWW zdrojů. Mgr. Filip Vojtášek.

Úvod do informačních technologií

úvod Historie operačních systémů

Značkovací jazyky a spol. HTML/XHTML XML JSON YAML Markdown, Texy!

Základy informatiky. HTML, tvorba WWW stránek. Daniela Szturcová Část převzata z přednášky P. Děrgela

Export z OpenOffice Writer do L A T E X 2ε

Syntaxe XML XML teorie a praxe značkovacích jazyků (4IZ238)

Color Management System

Formáty uložení dat. Výpočetní technika I. Ing. Pavel Haluza ústav informatiky PEF MENDELU v Brně

Úvod do aplikací internetu a přehled možností při tvorbě webu

Typografické programy (1) WYSIWYG

Systém GIMP (barvy, vrstvy, transformace, průhlednost)

Formáty pro rastrovou grafiku

Registrační číslo projektu: Škola adresa: Šablona: Ověření ve výuce Pořadové číslo hodiny: Třída: Předmět: Název: Zpracování informací Anotace:

DTP a jeho softwarová báze

Elektronické publikování. doc. RNDr. Petr Šaloun, Ph.D. katedra informatiky FEI VŠB TU Ostrava

Tvorba jednoduchých WWW stránek. VŠB - Technická univerzita Ostrava Katedra informatiky

ALGORITMIZACE A DATOVÉ STRUKTURY (14ASD) 1. cvičení

Znaky. IAJCE Přednáška č. 10. každému znaku je nutné přiřadit nějaké číslo (nezáporné přímé mapování znak <->

Aplikovaná informatika. Podklady předmětu Aplikovaná informatika pro akademický rok 2006/2007 Radim Farana. Obsah. Obsah předmětu

[1] samoopravné kódy: terminologie, princip

Tiskárny - tisk z PC

Inovace výuky prostřednictvím šablon pro SŠ

Formátová specifikace má tvar (některé sekce nemají smysl pro načítání) %

Skenery (princip, parametry, typy)

Přesměrování vstupu a výstupu. Posloupnost příkazů. Příkazy pro informaci o uživatelích

CZ.1.07/1.5.00/

Základy informatiky. HTML, tvorba WWW stránek. Daniela Szturcová Část převzata z přednášky P. Děrgela

Základní typografická pravidla

Identifikátor materiálu: ICT-1-20

Název materiálu: Open Office

Gymnázium Vysoké Mýto nám. Vaňorného 163, Vysoké Mýto

Úvod Sítotisková technologie Předtisková příprava Historie sítotisku Závěr Literatura Konec. Sítotisk. Autor: Ondřej Kočí Editor: Helena Míková

Základní příkazy UNIXu (Linuxu)

Základy informatiky. Elektronické publikování. Daniela Szturcová Část převzata z přednášky P. Děrgela

Odborný článek. Petr Klán, VŠE v Praze, IMRAD Introduction, Material and Method, Results, Discussion

ČESKÉ VYSOKÉ UČENÍ TECHNICKÉ V PRAZE FAKULTA STAVEBNÍ, OBOR GEODÉZIE A KARTOGRAFIE KATEDRA MAPOVÁNÍ A KARTOGRAFIE

Stejná stránka se v různých prohlížečích může zobrazit odlišně.

Skenery princip, parametry, typy

Digitalizace dat metodika

FAKULTA STAVEBNÍ OBOR GEODÉZIE A KARTOGRAFIE KATEDRA MAPOVÁNÍ A KARTOGRAFIE. Beamer. aneb prezentace trochu jinak

VÝUKOVÝ MATERIÁL. Bratislavská 2166, Varnsdorf, IČO: tel Číslo projektu

O projektu Nasazení OpenOffice.org v praxi

Operační systémy Rozdělení a popis. Autor: Ing. Jan Nožička SOŠ a SOU Česká Lípa VY_32_INOVACE_1124_Operační systémy Rozdělení a popis_pwp

XML terminologie a charakteristiky. Roman Malo

Elektronická pošta. elementární služba, výchozí pro některé další jedna z prvních síťových služeb vůbec. základní principy popisují

Informatika pro moderní fyziky (8) CSS - stylování dokumentů, SVG - tvorba obrázků, složitější interaktivní dokument

Inovace výuky prostřednictvím šablon pro SŠ

Maturitní otázka webové stránky (technologie tvorby webu) Co znamená pojem Web? Web, www stránky, celým názvem World Wide Web,

O projektu OpenOffice.org a IBM OS/2 OS/2 a Open Source

Základy informatiky. Elektronické publikování. Daniela Szturcová Část převzata z přednášky P. Děrgela

Transkript:

ČESKÉ VYSOKÉ UČENÍ TECHNICKÉ V PRAZE FAKULTA STAVEBNÍ OBOR GEODÉZIE A KARTOGRAFIE KATEDRA MAPOVÁNÍ A KARTOGRAFIE Konverze textových formátů semestrální práce Martin Setnička Michal Šatava Miroslav Kopecký (editor) V Praze dne 23. 4. 2011 Kartografická polygrafie a reprografie

Úvod Tento text pojednává o problematice vyjadřování textu v elektronické podobě. Ta v sobě zahrnuje kódování znaků, jejich interpretaci a nakonec i konverzi na jiné textové formáty. 1 Základní pojmy Pro začátek je vhodné si ujasnit některé pojmy, se kterými text pracuje. Terminologie je dosti nejednoznačná, proto jsou uváděny i alternativní pojmenování. Znaková sada Nebo také kódování je kód, který obecně přiřazuje každému znaku z dané množiny (většinou abecedy) jinou reprezentaci sekvencí přirozených čísel, bytů či jiným způsobem (například Morseova abeceda - tečky a čárky). Dokument Soubor obsahující vlastní text a formátovací značky. Podle zápisu obsahu se jedná o textový nebo binární formát. Formát je popsán příponou a nebo v záhlaví souboru. Textový formát Každému znaku (symbolu) je přiřazeno celé nezáporné číslo, podle dané znakové sady (kódová tabulka, kód). Toto číslo je podle kódovacího schématu (charset) zapsáno n celými byty (podle velikosti znakové sady). Nezabývá se vizuální prezentací znaku (glyf ) Např: HTML, XML, PostScript, TeX, CPP, RTF, CSV, SVG,... Binární formát Alespoň část informací je vyjádřena jinak než v textovém formátu. Většinou se jedná o dokumenty tvořené editory typu WYSIWYG ( What you see is what you get ). Např: DOC, XDOC, ODT, Text602,... 2 Textový formát 2.1 Jednobytové znakové sady 2.1.1 ASCII ASCII je zkratka pro American Standard Code for Information Interchange (americký standardní kód pro výměnu informací). Jde o historicky nejúspěšnější znakovou sadu. Sedm bitů definuje znaky anglické abecedy a jiné znaky používané v informatice. Osmý bit je nulový. Obsahuje tedy 128 znaků (viz obr. 1). 1

Obr. 1: Tabulka ASCII kódu [3] 2.1.2 8-bitová kódování (extended text) Jedná se rozšíření využívající osmého bitu ASCII kódu, která obsahují dalších 128 znaků, které pojímají například neanglické znaky evropských národních abeced. Rozšířený kód je však přesto malý na to, aby pojmul třeba jen všechny evropské abecedy. Vzniklo tedy mnoho znakových sad s různým významem kódů nad 127 (viz kapitola 2.3). Výhody Jednoduché kódování (pevná šířka znaku - 8bit) Malý objem dat Nevýhody Nedostatečný rozsah datové sady Stovky nejrůznějších jednobytových sad 2.2 Vícebytové znakové sady - Unicode S rozvojem Internetu je potřeba výměny dokumentů mezi různými platformami a různými národními jazyky. Řešením je vícebytová znaková sada (dále jen Unicode). Do její přípravy se bohužel najednou pouštějí dvě různé organizace: ISO (International Organization for Standardization) od 1989, znaková sada ISO/IEC 10646, ve zkratce UCS (Universal Character Set). Unicode (Unicode Consortium) od 1990, znaková sada Unicode, ve zkratce Unicode. Naštěstí obě organizace od roku 1991 spolupracují. V současnosti jsou číselné hodnoty (code points) jednotlivých znaků identické. Liší se kódovací schéma. 2

Vývoj Unicode 1991-16bitová znaková sada: BMP (Basic Multilingual Plane) 1996 - rozšíření na 32 bitů (používáno 21 bitů, tj. asi milion znaků) Kódovací schéma UTF-32 : každý znak - 4 byty UTF-16 : každý znak v BMP - 2 byty, ostatní znaky - 4 byty UTF-8 : proměnná délka 1-6 bytů na znak (prakticky 1-4) Další: UCS-2, UCS-4, UTF-16BE, UTF-16LE, UTF-32BE, UTF-32LE UTF-8 Výhody Znaky ASCII se kódují stejně kompatibilita. Pro akcentované znaky (diakritiku) stačí 2 byty relativní úspora dat. Nevýhody Znaky nemají stejnou délku není možné skočit o určitý počet znaků. 2.3 Znakové sady podporující češtinu Pojmenování charsetů se řídí Internet Assigned Numbers Authority (IANA). V závorkách jsou uvedena alternativní označení. 1. ISO-8859-2 (ISO Latin 2, IBM912): Osmibitové kódování češtiny v UNIXových systémech. Specifikováno normou ISO-8859-2 (z roku 1987). 2. Bratři Kameničtí (KEYBCS2, CP895, MJK) 3. Cork (T1): Kódování Cork používá většina evropských TUG (národní TeX Users Groups) pro TeXovské mezinárodní písmo T1. 4. CP852 (IBM852, PC Latin 2, PC L2): Osmibitové kódování češtiny v systému MS- DOS (Konzole v MS Windows). Toto kódování má všechny tisknutelné znaky sady ISO-8859-2 (ISO Latin 2), diakritická písmenka jsou však na jiných pozicích. 5. KOI8-ČS (KOI8ČS): Toto kódování bylo používáno na starých terminálech. Např. program T602 stále dovoluje jeho používání. Obsahuje ch jako zvláštní znak. 6. Mac OS Central European (MacCE, CE, Mac, apple-ce, x-mac-ce...): Tuto znakovou sadu používá lokalizovaný Mac OS (především počítače Apple Macintosh). 7. Windows-1250 (CP1250, WinCS, WinEE): Téměř shodné s ISO Latin 2. Čtrnáct znaků je však na jiných pozicích. Písma s koncovkou CE. 8. Unicode (UTF-8) 3

2.4 Problémy textového formátu Různé řídící znaky v různých operačních systémech (např. konec řádku Unix - LF, Mac - CR, MS - CR+LF). Různé znakové sady s různým rozsahem a různá kódovací schémata (charset). Řešení U dokumentů uvádět (např. v hlavičce HTML) použitý charset. Používat software umožňující rozpoznání a konverzi. Snaha o sjednocení jednotný národní charset, jednotný světový Unicode. 3 Binární formát Výhody Vhodné pro okamžité zpracování (formát dat shodný s tvarem v operační paměti). Možnost utajení formátu. Nevýhody V případě poškození části dat těžko opravitelné. Nutnost použití specifického programu. Složitější interpretace. 4 Otevřené a uzavřené formáty Otevřený formát Jeho specifikace je volně dostupná. Většinou lépe přenositelný (umí ho číst více programů ve více operačních systémech). Je prostředkem pro výměnu informací, efektivní využití a zpracování dat. Např.: ODF, prostý text,... Uzavřený formát Umožňuje získat monopol pro jeho zpracování a zároveň silně omezuje možnosti využití uložených dat. Např. MS Office. 4

5 Konverze formátů Často se uživatel dostane do situace, kdy požaduje data ve specifickém formátu, který se liší od toho, který má k dispozici (např. spolupráce programů, z nichž každý pracuje s jiným formátem). Konverzí formátu se rozumí v ideálním případě jeho změna bez ztráty, nebo pozbytí informačního obsahu. To zdaleka ne vždy platí. Více viz kapitola 5.3. 5.1 Rozpoznání (čtení) Pro správnou konverzi je nutné znát formát souboru, který je potřeba převést. Pro textový formát je podstatné vědět, v jakém je kódování a z jakého je operačního systému. V případě binárního souboru napoví přípona. Pokud ji soubor nemá, musí se použít speciální program na určení kódování. 5.2 Provedení konverze 5.2.1 Speciálním programem Test konvertorů kódování češtiny: http://vorisekd.wz.cz/test.htm Jsou i zpřístupněné programy pro konverzi on-line, například: http://www.zamzar.com/ 5.2.2 Službami Open a Save (As) běžných programů Např. pomocí OpenOffice.org lze pomocí funkce uložit jako konvertovat DOC na ODT a opačně. V textovém editoru PSPad lze editačními nástroji měnit charset i typ zalamování řádků. Pro konverzi většího množství souborů je vhodné použít makra. Více např. na http://www.openoffice.cz/navody/. 5.3 Problémy konverze 5.3.1 Různý rozsah znakových sad U textových formátů se lze setkat s problémem vyjádření znaků, které nemají ve výstupním formátu ekvivalent. Řešením můžou být: ESC sekvence a HTML kódy: Jeden nebo několik znaků následujících znak ESC (v HTML &) nejsou interpretovány jako ASCII kódy. Např. Ä můžeme v HTML zapsat jako Ä. Transliterace: Např. ť lze aproximovat pomocí t nebo t. 5

5.3.2 Binární formát Zde je především obtížná interpretace vstupního souboru a řešením může být snad jen zjednodušení požadavků na výstupní formát nebo volba kvalitnějšího konverzního nástroje. V případě uzavřených formátů jsou problémy obecně častější a závažnější. Závěr Text tohoto dokumentu je pouze jen úvodem do problematiky. Přesto věřím, že poslouží k jednoduché orientaci ve světě znakových kódování a poslouží i k vyřešení jednodušších problémů s konverzí. Literatura [1] Rybička, J.: WWW stránky, [online], [cit. 2009-03-29], URL: <http://old.mendelu. cz/~rybicka/> [2] Herout, P.: WWW stránky, [online], [cit. 2009-03-29], URL: <http://www-kiv.zcu. cz/~herout/> [3] Wikipedia: WWW stránky, [online], [cit. 2009-03-29], URL: <http://en.wikipedia. org/> [4] Wikipedie. Znaková sada. WWW stránky, [online], [cit. 2011-04-23], URL: <http:// cs.wikipedia.org/wiki/znakov%c3%a1_sada> 6