DML-CZ zpracování článků z retro-born-digital období



Podobné dokumenty
Česká digitální matematická knihovna

Česká digitální matematická knihovna

Příloha E.6. Záznam metadat ve schématu Dublin Core ve struktuře Resource Description Framework

Jak se dělá digitální matematická knihovna

Elektronické publikování. doc. RNDr. Petr Šaloun, Ph.D. katedra informatiky FEI VŠB TU Ostrava

DML-CZ: Česká digitální matematická knihovna

Digitalizace knihovních dokumentů. Jiří Polišenský

Manuál pro autory/editory sborníků vydávaných ve Vydavatelství Mendelovy univerzity v Brně

Typografické programy (1) WYSIWYG

PRINCIPY VÁLEÈNÉ CHIRURGIE

PRINCIPY VÁLEÈNÉ CHIRURGIE

Lenka Maixnerová, Filip Kříž, Helena Bouzková, Ondřej Horsák, Adéla Jarolímková, Eva Lesenková

}w!"#$%&'()+,-./012345<ya

OCR systémy. Semestrální práce z předmětu Kartografická polygrafie a reprografie. Jakub Žlábek, Zdeněk Švec. Editor: Věra Peterová. Praha, květen 2010

PRŮVODCE FORMÁLNÍMI ÚPRAVAMI DISERTAČNÍCH PRACÍ NA PŘÍRODOVĚDECKÉ FAKULTĚ MU

Škola: Gymnázium, Brno, Slovanské náměstí 7 III/2 Inovace a zkvalitnění výuky prostřednictvím ICT Název projektu: Inovace výuky na GSN

Prezentace XML. XML popisuje strukturu dat, neřeší vzhled definice vzhledu:

DTP 2. Radek Fiala. Podpořeno z projektu FRVŠ 584/2011. Radek Fiala DTP 2

Základy informatiky. Elektronické publikování. Daniela Szturcová Část převzata z přednášky P. Děrgela

Ado d b o e b e A cr c ob o a b t Představení programu

Úvod do TEXu. Přesun informací v L A TEXu Tvorba obsahu Literatura citace Slovník k programu WinEdt. Brno, 2010

ProArc. open source řešení pro produkci a archivaci digitálních dokumentů. Martina NEZBEDOVÁ Knihovna AV ČR, v. v. i., Praha nezbedova@knav.

TVORBA TEXTOVÉHO DOKUMENTU PROSTŘEDKY, PŘENOSITELNOST

EOD - Elektronické knihy na objednávku

Instalace TEX Live 2007 pro Windows

SCOPUS a WEB OF SCIENCE

Masarykova univerzita Fakulta informatiky. Kramerius PV070. Jan Holman

Lenka Maixnerová, Filip Kříž, Ondřej Horsák, Helena Bouzková

Text Encoding Initiative TEI

Jak otevřít přístup k Open Access? Iva Burešová Knihovna AV ČR, v. v. i., Praha buresova@knav.cz

Lidé komunikují prostřednictvím dokumentů připravovaných elektronicky.

Typografické programy (1) WYSIWYG

DML-CZ SOUČASNOST A BUDOUCNOST. Oldřich Ulrych a Jiří Veselý

Česká digitální matematická knihovna vznik, fungování a vyhlídky

ZPŘÍSTUPNĚNÍ A ARCHIVACE PLNÝCH

dodavatele rekonstrukce prostor záložního pracoviště NDA [2], tak nacházet by se mělo pravděpodobně v okolí Hluboké nad Vltavou.

Dnešní téma. Oblasti standardizace v ICT. Oblasti standardizace v ICT. Oblasti standardizace v ICT

Příspěvek do sborníku. Kamrádková, Kateřina Pospíšilíková, Věra

Jak nastavit export do tiskového PDF z Corel Draw:

Modul MWA - Publikace a články

. Seznámení se systémem TEX. Zpracování textů na počítači. Ing. Pavel Haluza, Ph.D. ústav informatiky PEF MENDELU v Brně haluza@mendelu.

EOD Elektronické knihy na objednávku. Rostislav Krušinský

Ústřední knihovna VŠB-TU Ostrava Zpráva o činnosti za rok 2016

Tzv. životní cyklus dokumentů u původce (Tematický blok č. 4) 1. Správa podnikového obsahu 2. Spisová služba

L A TEX Barevné profily tiskových zařízení (tiskárny, plotry)

Správa barev. PS a PDF. Správa barev. Vytvořila: Jana Zavadilová Vytvořila dne: 13. února DUM číslo: 18 Název: PS a PDF

Základy počítačové sazby v systému

Virtuáln. lní knihovny přístup k dokumentům a službám kdykoliv a odkudkoliv

Představení systému. rev (duben 2015)

Zpráva o plnění cílů projektu VISK3. WebArchiv - vytvoření podmínek pro zpřístupnění českých webových zdrojů

DC.contributor.advisor -1-

1 Webový server, instalace PHP a MySQL 13

v rámci grantu G0142

Jak na CrossRef, DOI, CrossCheck, OJS a další? Lenka Němečková Věra Pilecká Ústřední knihovna ČVUT

XML jako prostředek pro citování informačních zdrojů

Journal Citation Reports (JCR)

Národní technická knihovna Oddělení Digitální Národní technické knihovny. Zařazení šedé literatury do Národního úložiště šedé literatury

Tomáš Drusa

CrossRef využití DOI pro citation-linking u vědeckých publikací

INFORMATIKA. Grafické studio ve škole

Vložení identifikátorů DOI, UT WOS, UT SCOPUS a PubMed ID do záznamu

þÿ O k t á v o d i g i t á l n í k n i h o v n a F F

FAKULTA STAVEBNÍ OBOR GEODÉZIE A KARTOGRAFIE KATEDRA MAPOVÁNÍ A KARTOGRAFIE

Kde hledat odborné články?

Typogra e Pøedtisková pøíprava

Jednota českých matematiků a fyziků ve 150. roce aktivního života

(Nepříliš) stručně o systémech TEX a L A TEX

E-knihy Nakladatelství Karolinum. Mgr. BcA. Vít Krobot

DigiDepot: JPEG 2000 jako ukládací formát

Úvod do programovacího jazyka Python

NÁVOD PRO VYHLEDÁVÁNÍ V DATABÁZI C.E.E.O.L. (CENTRAL AND EASTERN EUROPEAN ONLINE LIBRARY) / /

Novinky v e-zdrojích NLK. Adéla Jarolímková, NLK

Osobní archivy publikovaných odborných prací v medicíně jako součást Digitální knihovny NLK

I. kategorie Publikace (Týká se drtivé většiny publikačních výstupů na FFÚ VŠE v Praze)

Základy informatiky. Elektronické publikování. Daniela Szturcová Část převzata z přednášky P. Děrgela

ROZVOJ E-LEARNINGU NA 1. LF UK PRAHA

Ústřední knihovna VŠB-TU Ostrava Zpráva o činnosti za rok 2015

Elektronické publikování. Základní pojmy. B žné systémy. Publika ní nástroje. doc. RNDr. Petr Šaloun, Ph.D. FEI VŠB TU Ostrava

BUDOVÁNÍ DIGITÁLNÍ KNIHOVNY VUT V BRNĚ

Obsah 1. Obsah. Sazba dokumentů v LATEXu 2 Úvod... 2 Vstupy... 3 Ceník... 6 Kontakt... 7 Ukázky Tvorba hudebnin v prostředí LilyPond 10

Z papíru na web a ke čtenáři aneb Digitalizace není jen skenování. Mgr. Monika Oravová Moravskoslezská vědecká knihovna v Ostravě

Zpráva o zhotoveném plnění

PODPORA VÝUKY MATEMATIKY E-LEARNINGOVÝMI KURZY S MULTIMEDIÁLNÍMI STUDIJNÍMI

MODELOVÁNÍ PLANÁRNÍCH ANTÉN POMOCÍ UMĚLÝCH NEURONOVÝCH SÍTÍ

Kartografické zdroje jako kulturní dědictví - výsledky stejnojmenného projektu

Úvod do TeXu. Jan Vaněk. Nové Hrady 2011

Počítačové řešení elektrických obvodů

Digitální knihovny v České republice

Co nového ve výměně publikací. Jarmila Kučerová Knihovna Národního muzea

Akvizice periodické literatury

Web of Science. Bibliotheca Academica

zaměřením na spokojenost uživatelů se soudobými softwarovými produkty Ing. Josef Horák, Ph.D

Elektronické zdroje a digitální knihovny pro zrakově postižené

Open Bibliography Data. ( Matouš Jobánek

KDE A JAK HLEDAT KONKRÉTNÍ DOKUMENT

InD PS PDF. Vytvoření korektního InD dokumentu

OBSAH. Kontrola aktualizací... 18

Přehled modelů reputace a důvěry na webu

Metadata, sémantika a sémantický web. Ing. Vilém Sklenák, CSc.

Transkript:

DML-CZ zpracování článků z retro-born-digital období <http://www.dml.cz/> Michal Růžička (1. ročník FI MU N-IN BIT, UČO: 143424, e-mail: <mruzicka@mail.muni.cz>) 15. prosince 2008 Abstrakt Článek popisuje proces transformace archivních elektronických článků do podoby vhodné pro potřeby projektu České digitální matematické knihovny (DML-CZ). Ze zdrojové podoby článků ve formátech AMS-TEX a L A TEX byla získána metadata. Původní PostScript soubory s vysázenými články byly opraveny a převedeny pro potřeby projektu DML-CZ. Úvod Od roku 2005 je v České republice vyvíjena digitální matematická knihovna. Cílem projektu České digitální matematické knihovny (DML-CZ) [1, 2, 3, 4, 5] je uchovávání digitální podoby většiny matematické literatury, která byla kdy publikována na území českých zemí a poskytování volného přístupu k digitálnímu obsahu a bibliografickým datům. [6] Z hlediska obsahu jsou zde tři hlavní období, se kterými se musí projekt digitální knihovny vypořádat. 1. retro-digitalizační období Dokumenty jsou dostupné pouze v papírové podobě a pro potřeby digitální knihovny musí být digitalizovány. 2. retro-born-digital období Dokumenty jsou již dostupné v elektronické podobě, ale byly připraveny bez ohledu na potřeby digitální knihovny. Formát těchto dokumentů je tak často nevhodný pro přímé vložení do digitální knihovny. 1

3. born-digital období Dokumenty jsou pořizovány elektronickou cestou takovým způsobem, aby byly uspokojeny jak požadavky vydavatele, tak potřeby digitální knihovny. Tento článek se zabývá zpracováním retro-born-digital AMS-TEXem/L A TEXem sázených časopisů za účelem získání dat potřebných pro projekt DML-CZ. Postup zpracování bude předveden na příkladu časopisu Archivum Mathematicum [7], jehož digitalizace je součástí projektu DML-CZ. Zpracování časopisu Archivum Mathematicum Časopis Archivum Mathematicum byl od roku 1992 vydáván elektronicky. Sazba byla prováděna AMS-TEXem a L A TEXem. Během tohoto období se několikrát změnily stylové soubory a z původní směsi AMS-TEXových a L A TEXových zdrojových textů se postupně téměř stala monokultura amsart.cls L A TEXu. Od roku 1992 se udály také změny v personálu redakce časopisu. Výše uvedené přispělo k tomu, že pro potřeby projektu nebylo možné shromáždit zdrojové texty všech vydaných čísel časopisu, což ztížilo zpracování dat pro digitální knihovnu. Problémy s nedostupností zdrojových textů některých článků nebo celých čísel se týkaly i dalších časopisů. Získávání bibliografických metadat Pro projekt DML-CZ bylo nutné získat zejména bibliografická metadata, konkrétně seznam referencí z každého článku, který ho obsahuje. Další metadata o článcích a číslech časopisu již byla dostupná z jiných zdrojů. Rozdíly mezi AMS-TEXovými a L A TEXovými zdrojovými texty Jak bylo zmíněno výše, formát zdrojových textů článků nebyl homogenní a měnil se nejen číslo od čísla, ale i mezi články v rámci jednoho čísla. V zásadě zde byly dva hlavní formáty článků (z celkového počtu článků byl každý z nich zastoupen zhruba v 50 % případů) články napsané za použití AMS-TEXu a články užívající L A TEXovou třídu amsart.cls. V průběhu času zde byla tendence využívat spíše druhý zmíněný formát. Kromě potřeby mírně odlišného procesu extrakce metadat byl mezi oběma skupinami jeden výrazný rozdíl AMS-TEX obsahuje pro sazbu bibliografie sadu logických 2

maker. I na výstupu tedy bylo možné zachovat strukturní informaci všech bibliografických záznamů. 1 Oproti tomu L A TEXové prostředí thebibliography obsahuje pouze vizuální, ne logické (strukturní) značkování. Předzpracování článků Interní formát DML-CZ metadat je XML. Bylo proto žádoucí uložit metadata získaná z původního TEXového formátu přímo do XML. Velmi dobrý nástroj pro převod L A TEXových dokumentů do XML je program Tralics [8, 9]. Tralics je ale L A TEXový konvertor. Bylo tedy nutné nejprve provést předzpracování AMS-TEXových článků. Jelikož byly z článků extrahovány pouze seznamy použité literatury, byly i L A TEXové články zpracovány obdobným způsobem za účelem získání L A TEXových vstupních souborů obsahujících pouze seznam literatury. Jak pro AMS-TEXové, tak pro L A TEXové články byly za tímto účelem připraveny skripty (v tomto případě v jazyce programu ex 2 ), které převáděly zdrojové texty normálních AMS-TEXových/L A TEXových článků na minimální L A TEXové dokumenty připravené pro další zpracování Tralicsem. Proces zpracování můžete vidět na obrázku 1 na straně 5. Následuje příklad minimálního L A TEXového dokumentu získaného z AMS-TEXového článku: \documentclass{archivum} \begin{document} \Refs \ref \key1\by Gancarzewicz, J., Michor P. W.\paper Natural... \endref \ref \key2\by Zajtz, A.\paper On the order of natural... \endref... \endrefs \end{document} 1 Bohužel, ne všichni autoři používali tato makra řádně a nezanedbatelná část AMS-TEXových článků obsahovala položky jako vydavatel, rok vydání apod. vyznačeny za použití společného makra \paperinfo bez dalšího jemnějšího strukturování. 2 Program ex je součástí instalace oblíbeného unixového textového editoru vim. 3

Převod L A TEXových zdrojových textů do XML programem Tralics Minimální L A TEXový dokument zmíněný výše je připraven pro další zpracování Tralicsem. Bylo třeba připravit dvě odlišné konfigurace pro AMS-TEXovou a L A TEXovou skupinu bibliografických maker. Tyto konfigurační soubory řídily Tralics při převodu vstupních TEXových maker do výstupního XML souboru. Ve snaze udržet konfiguraci Tralicsu co nejjednodušší byly jeho konfigurační soubory utvořeny tak, aby produkovaly neutrální XML výstup obsahující pouze strukturně označkovaná bibliografická data odrážející původní AMS-TEXové značkování (v případě článků původně pořízených v AMS-TEXu). Konfigurace Tralicsu obsahovala nové definice AMS-TEXových biliografických maker napsané s použitím specifických příkazů pro výstup do XML poskytovaných Tralicsem. Tato definice bibliografických maker vzala své argumenty a na výstupu je uzavřela do XML elementů nesoucích jména původních maker. Převod neutrálních XML souborů do finálního XML formátu byl proveden pomocí XSLT (vizte obrázek 1 na následující straně). Následuje příklad výstupního XML souboru: <?xml version="1.0" encoding="utf-8"?> <references> <reference id="1"> <prefix>[1]</prefix> <title>natural...</title> <authors>gancarzewicz, J., Michor P. W.</authors>... </reference> <reference id="2"> <prefix>[2]</prefix> <title>on the order of natural...</title> <authors>zajtz, A.</authors>... </reference>... </references> Články původně pořízené v L A TEXu neobsahovaly žádné strukturní značkování. Neutrální XML produkované Tralicsem tedy odráželo spíše vizuální podobu záznamů než jejich sémantickou strukturu. V tomto případě tedy byla XSLT provedena tak, aby na výstupu produkovala pouze čistý text s minimálním značkováním, kdy 4

Obrázek 1: Schéma zpracování časopisů z retro-born-digital období byl každý bibliografický záznam oddělovačem // rozdělen do polí autor, název a zbytek. Protože vizuální značkování bylo u jednotlivých autorů a článků lehce odlišné, nebyla tato metoda dostatečně spolehlivá a byla nutná ruční kontrola výstupních souborů člověkem. Převod článků z PostScriptu do PDF Pro digitální knihovnu projektu DML-CZ bylo třeba získat nejen metadata o článcích, ale také elektronickou podobu článků samotných. Vzhledem ke změnám ve stylových souborech a nekompletnosti zdrojových textů nebylo možné všechny články znovu přeložit. I malá změna výstupu oproti původnímu originálu je totiž pro účely digitální knihovny silně nežádoucí. Naštěstí byly téměř všechny články z retro-born-digital období dostupné jako PostScriptové soubory. Tento formát však nebyl přímo použitelný pro digitální knihovnu (která používá PDF) a PostScripty samotné navíc nebyly v úplně správném tvaru. 5

Automatizované úpravy PostScriptových souborů První problém PostScriptových souborů byl jejich BoundingBox myšlený nejmenší obdélník, který plně uzavírá všechny elementy na stránce. PostScripty měly nekorektní jak BoundingBoxy, tak informaci o formátu papíru, takže pozice textu na stránce byla také chybná. Počet článků vyžadujících úpravy byl takový, že bylo nutné proces automatizovat. BoundingBox každého PostScriptu byl automatizovaně detekován programem ps2eps ze standardní distribuce TEX Live [10] a v PostScriptu opraven. S užitím správné hodnoty BoundingBoxu bylo také možné vypočítat a opravit pozici textu na stránce. Vizte obrázek 1 na předchozí straně. Náhrada bitmapových fontů Druhý problém PostScriptových souborů se týkal vložených bitmapových fontů s nízkým rozlišením, které nebyly nejvhodnější pro budoucí potřeby uživatelů digitální knihovny. Bitmapové fonty s daným rozlišením (v tomto případě 300 DPI) jsou vhodné k použití v onom rozlišení. V porovnání s vektorovými fonty je však vizuální kvalita bitmapových fontů horší při jejich škálování a jiných transformacích. V současné době jsou publikace tištěny v mnohem vyšším rozlišení, takže 300DPI bitmapové fonty jsou méně vhodné než fonty vektorové. Navíc jsou publikace v digitální knihovně velmi často čteny z obrazovky a počítačový monitor má typicky mnohem nižší rozlišení než 300 DPI. Bitmapové fonty tedy nejsou vhodné ani k tomuto účelu. Bylo tedy vyzkoušeno několik způsobů náhrady původních bitmapových fontů jejich vektorovými alternativami. Všechny archivní PostScriptové soubory byly vytvořeny programem dvips a od roku 1992 u nich došlo k několika změnám ve vkládání fontů. Ve starších článcích byly vloženy bitmapové fonty s rozlišením 300 DPI, novější články již obsahovaly fonty vektorové. Několik metod náhrady fontů je zmíněno v [11]. Bohužel, program FixFont [12] zmíněný v článku při zkušebních převodech souborů neuspěl. Navíc neposkytl ani žádné užitečné chybové hlášení. Plugin FontRep pro Adobe Acrobat [12], který je také zmíněn v [11], je pak ze své domovské stránky úplně nedostupný a chybí i kontakt na jeho autora. Nakonec byl částečně úspěšný program PStill [13]. PStill je schopen náhrady bitmapových fontů v PostScriptových souborech vytvořených programem dvips při jejich konverzi do PDF. Úspěch PStillu však závisí na přítomnosti jmen použitých 6

fontů v komentářích v PostScriptovém kódu. Starší verze programu dvips tyto komentáře do svých výstupů nevkládaly. Bitmapové fonty tedy nemohly být nahrazeny ve všech PostScriptech. Zbytek článků byl zkonvertován dobře známým programem GhostScript. Vizte obrázek 1 na straně 5. Závěr Předvedený postup získávání metadata a konverze plných textů článků byl vyvinut a vyzkoušen na retro-born-digital číslech časopisu Archivum Mathematicum z let 1992 2007. Ukázal se jako použitelný, a proto byl dále rozvinut a přizpůsoben pro potřeby konverze dalších časopisů. Do současnosti byla konverze provedena na retro-born-digital datech časopisů Archivum Mathematicum a Acta Universitatis Palackianae Olomucensis, časopis Applications of Mathematics [14] je těsně před dokončením. Do konce roku by měly být zpracovány i retro-born-digital články časopisů Czechoslovak Mathematical Journal [15] a Mathematica Bohemica [16]. Získávání metadat přímo z původních (kvalitně označkovaných) zdrojových textů je mnohem přesnější a méně náročné (časově i na lidské zdroje) než alternativní postup uplatňovaný u článků z born-digital období OCR naskenovaných časopisů a jejich následné ruční zpracování. Poděkování Projekt byl podpořen grantem č. 1ET200190513 Akademie věd České republiky. Reference [1] Sojka, P.: From Scanned Image to Knowledge Sharing. In Tochtermann, K., Maurer, H., eds.: Proceedings of I-KNOW 05: Fifth International Conference on Knowledge Management, Graz, Austria, Know-Center in coop. with Graz Uni, Joanneum Research and Springer Pub. Co. (June 2005) 664 672. ISSN: 0948-6968. [2] Bartošek, M., Lhoták, M., Rákosník, J., Sojka, P., Šárfy, M.: DML-CZ: The Objectives and the First Steps. In Borwein, J., Rocha, E.M., Rodrigues, J.F., eds.: CMDE 2006: Communicating Mathematics in the Digital Era. A. K. Peters, MA, USA (2008) 69 79. ISBN: 978-3-540-85109-7. 7

[3] Sojka, P., Panák, R., Mudrák, T.: Optical Character Recognition of Mathematical Texts in the DML-CZ Project. Technical report, Masaryk University, Brno (September 2006) presented at CMDE 2006 conference in Aveiro, Portugal. [4] Bartošek, M., Krejčíř, V.: Jak se dělá digitální matematická knihovna. In Sborník konference AKP 2007, Liberec, Czech Republic (2007). ISBN: 978-80-01-03691-4. Available from WWW: <http://dml.muni.cz/docs/ akp2007-sbornik.pdf>. [5] Czech Digital Mathematics Library [online]. [cit. 2008-05-30]. Available from WWW: <http://dml.cz/>. [6] Czech Digital Mathematics Library: About DML-CZ [online]. [cit. 2008-06-22]. Available from WWW: <http://dml.cz/about/>. [7] Archivum Mathematicum [online]. Masaryk University, Brno. Last modified 14 May 2008 [cit. 2008-05-18]. Available from WWW: <http://www.emis.de/ journals/am/>. [8] Grimm, J.: Tralics, a L A TEX to XML Translator. In Proceedings of EuroTEX, TUGboat 24(3) (2003) 377 388. ISSN: 0896-3207. [9] Tralics: a LaTeX to XML translator [online]. Last modified $Date: 2008/05/13 09:32:16 $ [cit. 2008-05-18]. Available from WWW: <http://www-sop.inria. fr/apics/tralics/>. [10] TeX Live [online]. $Date: 2008/05/17 00:21:31 $ [cit. 2008-05-25]. Available from WWW: <http://www.tug.org/texlive/>. [11] Probets, S., Brailsford, D.: Substituting outline fonts for bitmap fonts in archived PDF files. Software-Practice and Experience. 33(9) (2003) 885 899. ISSN: 0038-0644. [12] Research - Fonts [online]. [cit. 2008-05-25]. Available from WWW: <http: //www.eprg.org/research/fonts/>. [13] Siegert, F.: PStill:...generate, reprocess, normalize and extract content for PDF, EPS and PS. [online]. [cit. 2008-05-25]. Available from WWW: <http: //www.pstill.com/>. 8

[14] Applications of Mathematics [online]. Institute of Mathematics, Academy of Sciences of the Czech Republic. Last changed January 23, 2007 [cit. 2008-12-05]. Available from WWW: <http://am.math.cas.cz/>. [15] Czechoslovak Mathematical Journal [online]. Institute of Mathematics, Academy of Sciences of the Czech Republic. Last changed February 29, 2008 [cit. 2008-12-05]. Available from WWW: <http://cmj.math.cas.cz/>. [16] Mathematica Bohemica [online]. Institute of Mathematics, Academy of Sciences of the Czech Republic. Last changed March 18, 2008 [cit. 2008-12-05]. Available from WWW: <http://mb.math.cas.cz/>. Dublin Core metadata <?xml version="1.0" encoding="iso-8859-2"?> <rdf:rdf xmlns:rdf="http://www.w3.org/1999/02/22-rdf-syntax-ns#" xmlns:dc="http://purl.org/dc/elements/1.1/" xmlns:dcq="http://purl.org/dc/documents/rec/dcmes-qualifiers-20000711.htm"> <rdf:description rdf:about="dml-cz - zpracování článků z retro-born-digital období"> <dc:title>dml-cz - zpracování článků z retro-born-digital období</dc:title> <dc:creator> <rdf:bag> <dcq:creatortype>personalname</dcq:creatortype> <rdf:value>růžička, Michal</rdf:value> <dcq:creatortype>address</dcq:creatortype> <rdf:value>mruzicka@mail.muni.cz</rdf:value> </rdf:bag> </dc:creator> <dc:subject> <rdf:bag> TeX LaTeX DML-CZ 9

metadata retro-born-digital PV070 digitální knihovny </rdf:bag> </dc:subject> <dc:description> <dcq:descriptiontype>abstract</dcq:descriptiontype> <rdf:value> Článek popisuje proces transformace archivních elektronických článků do podoby vhodné pro potřeby projektu České digitální matematické knihovny (DML-CZ). Ze zdrojové podoby článků ve formátech AMS-TeX a LaTeX byla získána metadata. Původní PostScript soubory s vysázenými články byly opraveny a převedeny pro potřeby projektu DML-CZ. </rdf:value> </dc:description> <dc:date> <rdf:bag> <dcq:datetype>created</dcq:datetype> <dcq:datescheme>w3c-dtf</dcq:datescheme> <rdf:value>2008-12-05</rdf:value> <dcq:datetype>modified</dcq:datetype> <dcq:datescheme>w3c-dtf</dcq:datescheme> <rdf:value>2008-12-15</rdf:value> </rdf:bag> </dc:date> <dc:type> <dcq:typesheme>dcmitype</dcq:typesheme> <rdf:value>text</rdf:value> </dc:type> <dc:format> <dcq:formatsheme>imt</dcq:formatsheme> 10

<rdf:value>application/pdf</rdf:value> </dc:format> <dc:format> <dcq:formattype>medium</dcq:formattype> <rdf:value>computerfile</rdf:value> </dc:format> <dc:identifier> <rdf:bag> <dcq:sourcescheme>issn</dcq:sourcescheme> <rdf:value>0948-6968</rdf:value> <dcq:sourcescheme>isbn</dcq:sourcescheme> <rdf:value>978-3-540-85109-7</rdf:value> <dcq:sourcescheme>isbn</dcq:sourcescheme> <rdf:value>978-80-01-03691-4</rdf:value> <rdf:value>http://dml.muni.cz/docs/akp2007-sbornik.pdf</rdf:value> <rdf:value>http://dml.cz/</rdf:value> <rdf:value>http://dml.cz/about/</rdf:value> 11

<rdf:value>http://www.emis.de/journals/am/</rdf:value> <dcq:sourcescheme>issn</dcq:sourcescheme> <rdf:value>0896-3207</rdf:value> <rdf:value>http://www-sop.inria.fr/apics/tralics/</rdf:value> <rdf:value>http://www.tug.org/texlive/</rdf:value> <dcq:sourcescheme>issn</dcq:sourcescheme> <rdf:value>0038-0644 </rdf:value> <rdf:value>http://www.eprg.org/research/fonts/</rdf:value> <rdf:value>http://www.pstill.com/</rdf:value> 12

<rdf:value>http://am.math.cas.cz/</rdf:value> <rdf:value>http://cmj.math.cas.cz/</rdf:value> <rdf:value>http://mb.math.cas.cz/</rdf:value> </rdf:bag> </dc:identifier> <dc:language> <dcq:languagescheme>rfc3066</dcq:languagescheme> <rdf:value>cze</rdf:value> </dc:language> </rdf:rdf> 13