Konverze textových formátů

Podobné dokumenty
Konverze textových formátů

Dnešní téma. Oblasti standardizace v ICT. Oblasti standardizace v ICT. Oblasti standardizace v ICT

Tato tematika je zpracována v Záznamy přednášek: str materiál: PrikladyZobrazeniCisel.pdf

Zmatky při pouţívání češtiny a moţná řešení

OCR systémy. Semestrální práce z předmětu Kartografická polygrafie a reprografie. Jakub Žlábek, Zdeněk Švec. Editor: Věra Peterová. Praha, květen 2010

Osnova přednášky. Formáty uložení dat. Vyjádření hodnot datového typu. Vyjádření hodnot datového typu. Datové formáty. Výpočetní technika I

FAKULTA STAVEBNÍ OBOR GEODÉZIE A KARTOGRAFIE KATEDRA MAPOVÁNÍ A KARTOGRAFIE

Vnitřní reprezentace dat Výpočetní technika I

Přednáška 3: Vnitřní reprezentace dat. Uložení dat v paměti počítače. Organizace dat na discích. Datové formáty. Přednáška 3:

VY_32_INOVACE_INF3_18. Textové formáty PDF, TXT, RTF, HTML, ODT

Jak v Javě primitivní datové typy a jejich reprezentace. BD6B36PJV 002 Fakulta elektrotechnická České vysoké učení technické

Práce s textovými proměnnými v DetStudiu

Publikování map na webu - WMS

Konverze grafických rastrových formátů

b) červená, zelená, modrá, c) černá, bílá, d) černá, bílá, šedá. 5. PNG je formát: a) textový,

Zobrazení dat Cíl kapitoly:

Systém L A TEX tvorba prezentací

Základy informatiky. 02 Elektronické publikování. Kačmařík/Szturcová/Děrgel/Rapant

POČÍTAČE A PROGRAMOVÁNÍ

L A TEX Barevné profily tiskových zařízení (tiskárny, plotry)

Programy pro psaní textů. textové editory, textové procesory

Úvod do jazyka C. Ing. Jan Fikejz (KST, FEI) Fakulta elektrotechniky a informatiky Katedra softwarových technologií

Informační a komunikační technologie

Úvod do informačních technologií

Algoritmy a datové struktury

Převody datových formátů

84. Barvové profily (monitory, skenery)

Základy informatiky. 02 Elektronické publikování. Michal Kačmařík upraveno z přednášek D. Szturcové a P. Děrgela

Jak psát správné znaky

Krejčí Richard Písmo - Font Sazba Postscriptová písma

Informatika Datové formáty

Inovace výuky prostřednictvím šablon pro SŠ

Název školy: Základní škola a Mateřská škola Žalany. Číslo projektu: CZ. 1.07/1.4.00/ Téma sady: Informatika pro pátý až šestý ročník

Dělba rolí. Tvorba el. dokumentace (BI-TED) Publikační proces. Motivace. 2. Oddělení formy a obsahu. Autor

Nejvyšší řád čísla bit č. 7 bit č. 6 bit č.5 bit č. 4 bit č. 3 bit č. 2 bit č. 1 bit č. 0

Vnitřní reprezentace dat

Reprezentace dat. INP 2008 FIT VUT v Brně

Formáty uložení dat. Výpočetní technika I. Ing. Pavel Haluza ústav informatiky PEF MENDELU v Brně

Počítač jako elektronické, Číslicové zařízení

Základy XML struktura dokumentu (včetně testových otázek)

Tvorba jednoduchých WWW stránek. VŠB - Technická univerzita Ostrava Katedra informatiky

Systém GIMP (barvy, vrstvy, transformace, průhlednost)

Název DUM: VY_32_INOVACE_2B_9_Software_-_základní_programové_vybavení_počítače

Data v počítači. Informační data. Logické hodnoty. Znakové hodnoty

Typografické programy (1) WYSIWYG

úvod Historie operačních systémů

Formáty WWW zdrojů. Mgr. Filip Vojtášek.

Syntaxe XML XML teorie a praxe značkovacích jazyků (4IZ238)

Skenery princip, parametry, typy

Základy informatiky. Elektronické publikování. Daniela Szturcová Část převzata z přednášky P. Děrgela

Odborný článek. Petr Klán, VŠE v Praze, IMRAD Introduction, Material and Method, Results, Discussion

Skenery (princip, parametry, typy)

Export z OpenOffice Writer do L A T E X 2ε

Inovace výuky prostřednictvím šablon pro SŠ

FAKULTA STAVEBNÍ OBOR GEODÉZIE A KARTOGRAFIE KATEDRA MAPOVÁNÍ A KARTOGRAFIE. Beamer. aneb prezentace trochu jinak

Úvod do informačních technologií

Inovace výuky prostřednictvím šablon pro SŠ

Elektronické publikování. doc. RNDr. Petr Šaloun, Ph.D. katedra informatiky FEI VŠB TU Ostrava

Název materiálu: Open Office

Formáty pro rastrovou grafiku

Základy informatiky. Elektronické publikování. Daniela Szturcová Část převzata z přednášky P. Děrgela

Bohumila Skřivanová. Petr Vít. editor: Petr Vaverka

Znaky. IAJCE Přednáška č. 10. každému znaku je nutné přiřadit nějaké číslo (nezáporné přímé mapování znak <->

3 Jednoduché datové typy Interpretace čísel v paměti počítače Problémy s matematickými operacemi 5

Úvod Sítotisková technologie Předtisková příprava Historie sítotisku Závěr Literatura Konec. Sítotisk. Autor: Ondřej Kočí Editor: Helena Míková

Systém GIMP - tvorba jednoduchých animací a grafiky pro web

Aplikovaná informatika. Podklady předmětu Aplikovaná informatika pro akademický rok 2006/2007 Radim Farana. Obsah. Obsah předmětu

Přesměrování vstupu a výstupu. Posloupnost příkazů. Příkazy pro informaci o uživatelích

Color Management System

Tiskárny - tisk z PC

Operační systémy Rozdělení a popis. Autor: Ing. Jan Nožička SOŠ a SOU Česká Lípa VY_32_INOVACE_1124_Operační systémy Rozdělení a popis_pwp

VÝUKOVÝ MATERIÁL. Bratislavská 2166, Varnsdorf, IČO: tel Číslo projektu

Wichterlovo gymnázium, Ostrava-Poruba, příspěvková organizace. Maturitní otázky z předmětu INFORMATIKA A VÝPOČETNÍ TECHNIKA

Algoritmizace a programování

[1] samoopravné kódy: terminologie, princip

Registrační číslo projektu: Škola adresa: Šablona: Ověření ve výuce Pořadové číslo hodiny: Třída: Předmět: Název: Zpracování informací Anotace:

ALGORITMIZACE A DATOVÉ STRUKTURY (14ASD) 1. cvičení

Základní příkazy UNIXu (Linuxu)

SADA VY_32_INOVACE_PP1

Inovace výuky prostřednictvím šablon pro SŠ

Kódy a kódování dat. Binární (dvojkové) kódy. Kód Aikenův

Gymnázium Jana Pivečky a Střední odborná škola Slavičín. III/2 - Inovace a zkvalitnění výuky prostřednictvím ICT

INFORMAČNĚ TECHNOLOGICKÝ ZÁKLAD

Analogově-číslicové převodníky ( A/D )

Název DUM: VY_32_INOVACE_5A_8_Zaklady_prezentace_v_powerpointu Vyučovací předmět: Informatika

Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek, M. Cvanová. 5. Statistica

5.15 INFORMATIKA A VÝPOČETNÍ TECHNIKA

Ošetřování chyb v programech

XML terminologie a charakteristiky. Roman Malo

Analýza dat na PC I.

Základní typografická pravidla

Identifikátor materiálu: ICT-1-20

Úvod Digitální tisk Firma Xeikon Společnost Hewlett-Packard Literatura Konec. Digitální tisk

MS EXCEL základy programování a algoritmizace ve VBA. Vedoucí týmu: Kristina Balogová Členové týmu: Miroslava Saňáková Nikola Pálfiová Michal Machů

Registrační číslo projektu: CZ.1.07/1.5.00/ Elektronická podpora zkvalitnění výuky CZ.1.07 Vzděláním pro konkurenceschopnost

Kartografická webová aplikace. Přednáška z předmětu Počítačová kartografie (KMA/POK) Otakar Čerba Západočeská univerzita

Digitalizace dat metodika

Information technology - ISO 7-bit coded character set for information interchange

Transkript:

ČESKÉ VYSOKÉ UČENÍ TECHNICKÉ V PRAZE FAKULTA STAVEBNÍ OBOR GEODÉZIE A KARTOGRAFIE KATEDRA MAPOVÁNÍ A KARTOGRAFIE Konverze textových formátů semestrální práce Martin Setnička Michal Šatava V Praze dne 29. 3. 2009 Kartografická polygrafie a reprografie

Úvod Následující text by měl především vyložit základní pojmy z oblasti vyjadřování textu v elektronické podobě, pojednat o problémech při čtení a konverzi textových formátů a nastínit cestu, kterou se ubírat při jejich řešení. 1 Základní pojmy Terminologie je dosti nejednoznačná, proto uvádím krom základních pojmenování i ostatní jména v závorce. Dokument Soubor obsahující vlastní text a formátovací značky. Podle zápisu obsahu se jedná o textový nebo binární formát. Formát je popsán příponou a nebo v záhlaví souboru. Textový formát Každému znaku (symbolu) je přiřazeno celé nezáporné číslo, podle dané znakové sady (kódová tabulka, kód). Toto číslo je podle kódovacího schématu (charset) zapsáno n celými byty (podle velikosti znakové sady). Nezabývá se vizuální prezentací znaku (glyf ) Např: HTML, XML, PostScript, TeX, CPP, RTF, CSV, SVG,... Binární formát Alespoň část informací je vyjádřena jinak než v textovém formátu. Např: DOC, ODT, Text602,... 2 Textový formát 2.1 Jednobytové znakové sady 2.1.1 US-ASCII ASCII je zkratka pro American Standard Code for Information Interchange (americký standardní kód pro výměnu informací). Jde o první znakovou sadu. Sedm bitů definuje znaky anglické abecedy a jiné znaky používané v informatice. Osmý bit je nulový. Obsahuje tedy 128 znaků (viz Obr. 1). 2.1.2 8-bitová kódování (extended text) Rozšíření využívající osmého bitu US-ASCII kódu, která obsahují dalších 128 kódů. Jsou bohužel i případy, kdy prvních 128 znaků není totožných s US-ASCII. 1

Obr. 1: Tabulka ASCII kódů [3] Rozšířený kód je přesto malý na to, aby pojmul třeba jen evropské národní abecedy. Vzniklo tedy mnoho znakových sad s různým významem kódů nad 127 (Viz kapitolu 2.3). Výhody Jednoduché kódování (pevná šířka znaku - 8bit). Malý objem dat. Nevýhody Malý rozsah znakové sady. Existují stovky jednobytových sad (ISO, ČSN, další závislé na platformě,...). 2.2 Vícebytové znakové sady - Unicode S rozvojem Internetu je potřeba výměny dokumentů mezi různými platformami a různými národními jazyky. Řešením je vícebytová znaková sada (dále jen Unicode). Do její přípravy se bohužel najednou pouštějí dvě různé organizace: ISO (International Organization for Standardization) od 1989, znaková sada ISO/IEC 10646, ve zkratce UCS (Universal Character Set). Unicode (Unicode Consortium) od 1990, znaková sada Unicode, ve zkratce Unicode. Naštěstí obě organizace od roku 1991 spolupracují. V současnosti jsou číselné hodnoty (code points) jednotlivých znaků identické. Liší se kódovací schéma. Vývoj Unicode 1991-16bitová znaková sada: BMP (Basic Multilingual Plane) 1996 - rozšíření na 32 bitů (používáno 21 bitů, tj. asi milion znaků) 2

Kódovací schéma UTF-32 : každý znak - 4 byty UTF-16 : každý znak v BMP - 2 byty, ostatní znaky - 4 byty UTF-8 : proměnná délka 1-6 bytů na znak (prakticky 1-4) Další: UCS-2, UCS-4, UTF-16BE, UTF-16LE, UTF-32BE, UTF-32LE UTF-8 Výhody Znaky US-ASCII se kódují stejně => kompatibilita. Pro akcentované znaky stačí 2 byty => relativní úspora dat. Nevýhody Znaky nemají stejnou délku => není možné skočit o určitý počet znaků. 2.3 Znakové sady pro češtinu Pojmenování charsetů se řídí Internet Assigned Numbers Authority (IANA). V závorce jsou uvedeny alternativní označení. 1. ISO-8859-2 (ISO Latin 2, IBM912): Osmibitové kódování češtiny v UNIXových systémech. Specifikováno normou ISO-8859-2 (z roku 1987). 2. Bratři Kameničtí (KEYBCS2, CP895, MJK) 3. Cork (T1): Kódování Cork používá většina evropských TUG (národní TeX Users Groups) pro TeXovské mezinárodní písmo T1. 4. CP852 (IBM852, PC Latin 2, PC L2): Osmibitové kódování češtiny v systému MS- DOS (Konzole v MS Windows). Toto kódování má všechny tisknutelné znaky sady ISO-8859-2 (ISO Latin 2), diakritická písmenka jsou však na jiných pozicích. 5. KOI8-ČS (KOI8ČS): Toto kódování bylo používáno na starých terminálech. Např. program T602 stále dovoluje jeho používání. Obsahuje "ch"jako zvláštní znak. 6. Mac OS Central European (MacCE, CE, Mac, apple-ce, x-mac-ce...): Tuto znakovou sadu používá lokalizovaný Mac OS (především počítače Apple Macintosh). 7. Windows-1250 (CP1250, WinCS, WinEE): Téměř shodné s ISO Latin 2. Čtrnáct znaků je však na jiných pozicích. Písma s koncovkou CE. 8. Unicode (UTF-8) 2.4 Problémy textového formátu Různé řídící znaky v různých operačních systémech (např. konec řádku Unix - LF, Mac - CR, MS - CR+LF). Různé znakové sady s různým rozsahem a různá kódovací schémata (charset). 3

Řešení U dokumentů uvádět (např. v hlavičce HTML) použitý charset. Používat software umožňující rozpoznání a konverzi. Snaha o sjednocení => jednotný národní charset, jednotný světový Unicode. 3 Binární formát Výhody Vhodné pro okamžité zpracování (formát dat shodný s tvarem v operační paměti). V případě poškození části dat těžko opravitelné. Nevýhody Možnost utajení formátu. Nutnost použití specifického programu. Složitější interpretace, viry,... 4 Otevřené a uzavřené formáty Otevřený formát Jeho specifikace je volně dostupná. Většinou lépe přenositelný (umí ho číst více programů ve více operačních systémech). Je prostředkem pro výměnu informací, efektivní využití a zpracování dat. Např.: ODF, prostý text,... Uzavřený formát Umožňuje získat monopol pro jeho zpracování a zároveň silně omezuje možnosti využití uložených dat. Např. MS Office. 5 Konverze formátů Často se dostaneme do situace, kdy požadujeme data ve specifickém formátu, který se liší od toho, který máme k dispozici. Např. spolupráce programů, z nichž každý pracuje s jiným formátem. Konverzí formátu se rozumí v ideálním případě jeho změna bez ztráty, nebo nabytí informačního obsahu. To zdaleka ne vždy platí. Viz kapitolu 5.3. 4

5.1 Rozpoznání (čtení) Pro správnou konverzi je nutné znát formát souboru, který chceme převést. Pro textový formát je podstatné v jakém je kódování a z jakého operačního systému. V případě binárního souboru nám napoví přípona. Pokud ji soubor nemá musíme použít speciální program. Nejkrajnější nouzové řešení je pak zkoušení, který program soubor přečte + editace přípony. 5.2 Provedení konverze 5.2.1 Speciálním programem Test mnoha programů pro změnu kódování http://vorisekd.wz.cz/test.htm Jsou i programy pro konverzi zpřístupněné on-line http://media-convert.com/, http://www.zamzar.com/ 5.2.2 Službami Open a Save (As) běžných programů Např. pomocí OpenOffice.org lze pomocí uložit jako konvertovat DOC na ODT a opačně. V textovém editoru PSPad lze editačními nástroji měnit charset i typ zalamování řádků. Tento postup je však vhodný pro konverzi velkého množství souborů až se současným použitím maker. Více např na http://www.openoffice.cz/navody/. 5.3 Problémy konverze 5.3.1 Různý rozsah znakových sad U textových formátů se setkáváme s problémem vyjádření znaků, které nemají ve výstupním formátu ekvivalent. Řešením můžou být: ESC sekvence a HTML kódy: Jeden nebo několik znaků následujících znak ESC (v HTML &) nejsou interpretovány jako ASCII kódy. Např. Ä můžeme v HTML zapsat jako Ä. Transliterace: Např. ť lze aproximovat pomocí t nebo t. 5.3.2 Textové formátovací značky... užívají pouze základní US-ASCII, takže zde problémy převážně nejsou. 5.3.3 Binární formát Zde je především obtížná interpretace vstupního souboru a řešením může být snad jen zjednodušení požadavků na výstupní formát, nebo volba kvalitnějšího konverzního nástroje. V případě uzavřených formátů jsou problémy obecně častější a závažnější. 5

Závěr Text tohoto dokumentu je samozřejmě jen úvodem do problematiky. Obsahuje však dost odborných pojmů, které čtenáři pomůžou při studování další literatury. Věřím, že tento dokument poslouží i k řešení praktických problémů s kódováním a konverzí. Literatura [1] Rybička, J.: WWW stránky, [online], [cit. 2009-03-29], URL: <http://old.mendelu. cz/~rybicka/> [2] Herout, P.: WWW stránky, [online], [cit. 2009-03-29], URL: <http://www-kiv.zcu. cz/~herout/> [3] Wikipedia: WWW stránky, [online], [cit. 2009-03-29], URL: <http://en.wikipedia. org/> 6