Běžný výběr textu v PDF

Podobné dokumenty
Excel 2013 balada o tabulkovém procesoru

ÚPRAVA BAKALÁŘSKÉ A DIPLOMOVÉ PRÁCE

Office podrobný průvodce. Tomáš Šimek

Obsah. Základy práce s databází 13. Tabulky 43. Obsah. Úvod 9 Poděkování 12

Analýza dat na PC I.

FAKULTA STAVEBNÍ OBOR GEODÉZIE A KARTOGRAFIE KATEDRA MAPOVÁNÍ A KARTOGRAFIE

Srovnání aplikací pro převod dat z formátu PDF do Excelu

Word podrobný průvodce. Tomáš Šimek

Ukázka knihy z internetového knihkupectví

Obsah. Seznámení s prostředím Excelu. Poděkování 25 O přiloženém CD 26 Co je na CD 26 Použití CD 26 Systémové požadavky 26 Podpora 27

Manuál k užívání aplikace Monitoringrejstriku.cz

DUM 01 téma: Obecné vlastnosti tabulkového editoru, rozsah, zápis do buňky, klávesové zkratky

Obsah. Úvodem 9 Komu je kniha určena 9 Co si v knize přečtete 9

www. www g. r g ad ra a d.c a. z Kniha obsahuje tato témata: Příklady k procvičování zdarma ke stažení na

Článek je napsán pro českou verzi Excelu 2010, ale věřím, že i v jných verzích si dovedete poradit.

Úvod...12 Součásti aplikace Použité konvence... 13

KAPITOLA 1 Několik slov o Excelu Pás karet 10 Panel nástrojů Rychlý přístup 11 Tlačítko Office 11

Přechod z Google Apps na Office 365 pro firmy

Ceník. Sestavení nového PC. platný od Druh práce Cena Popis činnosti. Windows v ceně. Vše v jednom. Proč my?

Číslo a název šablony III/2 Inovace a zkvalitnění výuky prostřednictvím ICT H/01 Kuchař - Číšník. IKT Informační a komunikační technologie

Software je ve světě IT vše, co není Hardware. Do softwaru patří aplikace, program, proces, algoritmus, ale i data (text, obrázky), operační systém

INFORMATIKA Charakteristika volitelného předmětu

Obsah. Úvodem 9 Komu je kniha určena 9 Co v knize najdete 9

EU-OPVK:VY_32_INOVACE_FIL20 Vojtěch Filip, 2014

Ukázka knihy z internetového knihkupectví

instaluj Naučte se víc...

Obsah Vysvětlivky k prvkům použitým v knize: 10 POJMY A PRVKY POUŽITÉ V TEXTU 10 JAK S KNIHOU PRACOVAT? JAK JE KNIHA ČLENĚNA? 11

Další servery s elektronickým obsahem

Projekt Konsolidace IT a nové služby TC ORP Litomyšl

Návod na instalaci a používání obslužného programu dataloggeru

ALVA - řada BC6. Stručný průvodce Verze 4. UDC-02026A 2014 Optelec, Nizozemsko. Všechna práva vyhrazena (T) Spektra vdn, 2014

Univerzita Jana Evangelisty Purkyně v Ústí nad Labem. Jak na PDF

ESTATIX INFORMAČNÍ SYSTÉM REALITNÍCH KANCELÁŘÍ UŽIVATELSKÁ PŘÍRUČKA UŽIVATELSKÁ PŘÍRUČKA STRANA 1 / 23

Prezentační software a tvorba posterů

software Ruční měřicí přístroje Zobrazovače / Regulátory Loggery / EASYBus GDUSB FastView EASYControl net EASYBus Configurator GSOFT 3050 GSOFT 40k

Vzdělávání v egoncentru ORP Louny

Semestrální projekt. Předmět: Programování v jazyce C. Zadání: Operace s maticemi. Uživatelský manuál. ver. 1.0

Ing. Mgr. Jiří Svoboda ICT Kurzy

Programy pro psaní textů. textové editory, textové procesory

Informační centra digitálního vzdělávání. Mgr. Eva Řádková

ICT plán školy

Návod na instalaci a používání obslužného programu dataloggeru DS100

Úvod Používané konvence Seznámení s Outlookem...17

Název DUM: VY_32_INOVACE_2B_15_Základy_práce_v_tabulkovém_editoru_EXCEL_2007

Změňte styly nadpisů takto: Nadpis úvodní styl: Nadpis1 Nadpisy kurzivou Nadpis2 Podtržené nadpisy Nadpis3. Do dokumentu vložte č. stránek.

Odstavení automatického zpracování hypertextových odkazů

Word 2007 Word 2007 egon. Spuštění, vzhled, zobrazení dokumentu

5 Tabulky a seznamy dat Příklad 3 Excel 2010

OCR systémy. Semestrální práce z předmětu Kartografická polygrafie a reprografie. Jakub Žlábek, Zdeněk Švec. Editor: Věra Peterová. Praha, květen 2010

VY_32_INOVACE_INF3_18. Textové formáty PDF, TXT, RTF, HTML, ODT

TVORBA FORMULÁŘŮ V MS EXCEL

DUM 02 téma: Úvod do textového editoru MS Word a výběr klávesových zkratek

ABBYY Automatizované zpracování dokumentů

PRÁCE NA POČÍTAČI Charakteristika vyučovacího předmětu

1. Dříve než začneme Trocha historie nikoho nezabije Co budete potřebovat Microsoft versus zbytek světa...

Standardně máme zapnutý panel nástrojů Formátování a Standardní.

Inovace výuky prostřednictvím ICT v SPŠ Zlín, CZ.1.07/1.5.00/ Vzdělávání v informačních a komunikačních technologií

Microsoft Office 2003 Souhrnný technický dokument white paper

Tvorba PDF Práce s Adobe Acrobatem

Návod na e-learning Alfa Human Service

Registrační číslo projektu: CZ.1.07/1.5.00/ Název projektu: Moderní škola 21. století. Zařazení materiálu: Ověření materiálu ve výuce:

DUM 20 téma: Formátování rozsáhlého dokumentu

Obsah Přístupné PDF Přehled klávesových zkratek pro styly a formátování Nadpisy a text odstavce... 3

PowerPoint - klávesové zkratky

Obsah. Část I Začínáme s jazykem AppleScript

SEZNÁMENÍ S PROGRAMEM

PRAVIDLA PRO ŽADATELE A PŘÍJEMCE DOTACE Z OPERAČNÍHO PROGRAMU PODNIKÁNÍ A INOVACE PRO KONKURENCESCHOPNOST ZVLÁŠTNÍ ČÁST

Během zadávání textu může aplikace Word občas některá slova podtrhnout červeně, zeleně nebo modře.

Konfigurace pracovní stanice pro ISOP-Centrum verze

PRAVIDLA PRO ŽADATELE A PŘÍJEMCE DOTACE Z OPERAČNÍHO PROGRAMU PODNIKÁNÍ A INOVACE PRO KONKURENCESCHOPNOST ZVLÁŠTNÍ ČÁST

Sada 2 - MS Office, Excel

Téma, učivo Rozvíjené kompetence, očekávané výstupy Mezipředmětové vztahy Poznámky MS Word. Žák rozlišuje základní prvky (nadpisy, obrázky,

OBSAH. Kontrola aktualizací... 18

Generátor list nastavení

K vyplnění žádosti je nutné mít nainstalován v počítači program 602XML Filler

Tabulkové processory MS Excel (OpenOffice Calc)

MS Word Strana 1. Michaela Mudrochová

Tato stručná uživatelská příručka vám pomůže začít používat produkt IRISPen TM Executive 7.

Střední škola informačních technologií a sociální péče, Brno, Purkyňova 97. Vybrané části Excelu. Ing. Petr Adamec

SIMOCODE ES 2007 pro SIMOCODE pro


MANUÁL MOBILNÍ APLIKACE GOLEM PRO OPERAČNÍ SYSTÉM ANDROID 4.X A VYŠŠÍ

Adobe Acrobat. PDF, využití, seznámení a funkce AA9

PROPOJENÍ OBJEDNÁVEK s GOOGLEM

SPZ Uživatelská příručka

Uživatelská příručka systému pro administrátory obcí a manuál pro správce portálu

MANUÁL. k snadnému vyplnění webové žádosti o dotaci z Královéhradeckého kraje. Zpracoval: Ing. Marcel Zadrobílek, vedoucí oddělení krajských dotací

Windows 10 (5. třída)

Databázový systém ACCESS

Evropský zemědělský fond pro rozvoj venkova: Evropa investuje do venkovských oblastí IZR. Vedení evidence léčení a evidence léků. Podklady pro školení

Datasheet Fujitsu LIFEBOOK A512 Notebook

Gymnázium Jana Pivečky a Střední odborná škola Slavičín. III/2 - Inovace a zkvalitnění výuky prostřednictvím ICT. Informační a komunikační technologie

MS Wodrd pro pokročilé

Transkript:

Formát PDF je výborný pro archivaci dat, faktur apod. Takový soubor si přečtete téměř na libovolném operačním systému a zařízení, včetně elektronických čteček či mobilních telefonů s Androidem. Pokud na počítači s Windows nechcete instalovat tak trochu megalomanský Adobe Reader, vyzkoušejte kupříkladu (portable) aplikaci Sumatra PDF. Dříve jsme byli nuceni export z Office provádět prostřednictvím tisku na virtuální PDF tiskárnu (z instalace GhostScriptu, velmi dobrý BullZip s podporou pro VBA a příkazový řádek aj.). Od verze Office 2007 (se service packem) je již export do PDF dostupný v rámci Excelu nativně. Nedej bože, pokud ale z PDF potřebujeme dostat data zpět do Office. Word 2013 sice přichází s editací takových dokumentů, ale Mějme soubor, ze kterého jsem čerpal data obsahující informace o množství vitaminu C v potravinách. Jedná se o dvě dvousloupcové tabulky vedle sebe (potravina obsah vitaminu C). Běžný výběr textu v PDF 1. Text se pokusím vybrat v Readeru běžným způsobem, zkopírovat přes schránku a vložit do Excelu (ale i jinam). Výsledek nebude valný. kapusta růžičková 787 melouny, dýně 220 kedlubny bílé 448 rybíz červený, bílý 330 Excelplus.NET 1

křen 1 125 rybíz černý 1 360 květák 383 ananas 206 Nejenže Excel nepochopí obsah jako tabulku, ve výsledku nejsou rozlišeny hranice buněk (mezi texty, čísly i jako oddělovač tisíců jsou prosté mezery). Poradíte si s tím v Excelu? Horko těžko. Podle mezer můžete text naporcovat na listu přes Data / Text do sloupců, pod VBA přes pole, Split a dvojité užití WorksheetFunction.Transpose. V obou případech si pak ale budete muset najít čísla a vracet mezery tam, kam patří. Leckdy špatný formát PDF způsobí při kopírování přes schránku degradaci českého kódování a podle mě není cesty, jak si s tím poradit. Je potřeba také zdůraznit, že formát PDF umožňuje ochranu proti kopírování a tisku. A ano, existují nástroje, které ji odstraní, ale z pochopitelných důvodů zde nebudu psát návod, jak to provést. Tip: Víte o tom, že pokud v řadě textových editorů použijete klávesu ALT před samotným textovým výběrem, probíhá výběr přes sloupce a ne řádky? A v Readeru to také jde (klávesa ALT musí být držena ještě před označením počátku tažení myškou!). Není to zázrak, ale při psaní článku jsem postupoval stejně. Výběr textu v PDF s přidržením klávesy ALT (stav před) Excelplus.NET 2

Výběr textu v PDF s přidržením klávesy ALT (stav po) 2. Adobe Reader umožňuje exportovat z PDF text (Soubor / Uložit jako jiné / Text). Výsledek nebude použitelný, stejně jako v předchozím způsobu. 3. Adode Reader obsahuje volbu Soubor / Uložit jako jiné / Word nebo Excel online (odkaz). Je to ale jen lákadlo, které vás přijde na cca 25 eur ročně a nevím, nakolik je tento nástroj kvalitní. 4. Nevím o freeware nebo levném editoru, který by daný problém řešil (např. Foxit PDF Editor). A za verzi Adobe Acrobat XI Standard, který by to měla umět, zaplatíte 138 eur 5. Mám hodně rád HyperSnap pro snímání obrazovky, který uměl i přebírat z okna text (např. seznam souborů z okna Total Commanderu). Naneštěstí leckdy nečisté technologie vykreslování, DirectX apod. tento nástroj poslaly k ledu a tak jeho tvůrci od něj prakticky upustili. Jednoduše řečeno, HyperSnap není schopen rozpoznat text v okně Adobe Readeru. Okna už jednoduše nejsou, co bývala, a nejspíš by to bylo peklo i s podporou API. 6. Řešení nabízí regulární výrazy. Pro práci s nimi mně osobně vyhovuje RegexBuddy (který ale stojí 30 eur). Pokud potřebujete freeware, zkuste se podívat na Google. Excelplus.NET 3

Regulární výrazy analýza textového řetězce (oddělovač svislice) Excelplus.NET 4

Regulární výrazy analýza textového řetězce (oddělovač tabulátor) Šablona (maska) v regulárním výrazů říká, že hledám celá čísla, mezi nimiž může a nemusí být mezera a do výběru přidávám i mezery před a za. V rámci nahrazování používám backreference (vnější závorky v šabloně a následně \1, ve VBA níže $1). Kouzlo druhého uvedeného příkladu je v tom, že tabulátor coby oddělovač (\t) Excel pochopí jako hranici buňky a při vkládání výsledku regulárního výrazu ze schránky jednoduše obsah rozdělí do buněk, provede i do jisté míry ořez a pochopí formát. Pozn. Pokud zkopírujete výsledek se svislicí, vložíte jej ze schránky do listu, provedete rozdělení prostřednictvím Data / Text do sloupců, tak při opakovaném kopírování ze schránky bude Excel svislici již brát jako hranici buňky bez nutnosti dalšího zpracování! Takové chování se promítá i kupříkladu při načítání CSV souborů do Excelu. Tip: O regulární výrazy můžete obohatit i VBA (objekt RegExp je obsažen ve VBScriptu, WSH), bohužel se jedná o starší verzi, která ne úplně dobře respektuje českou znakovou sadu, neumí některé dopředné a zpětné vyhledávání a zástupné symboly. Excelplus.NET 5

Regulární výrazy pod VBA Uvedené zpracování ve VBA mělo ještě kromě popisovaných problémů další háček. Kopírováním z okna Immediate přes schránku jsem přišel o správné kódování A pak najednou z ničeho nic daný problém vyšuměl. Je to alchymie K regulárním výrazům se určitě někdy vrátíme. Excelplus.NET 6

7. Svého času jsem prováděl testování specializovaných aplikací typu pdf to xl, ať už těch desktopových, nebo online. A i dnes je mým vítězem PDF2XL. Trial verze vám poslouží na 7 dní a 50 konverzí, do výsledku přidá dodatečné informace, které ale nečuní kopírovaná data. Placená verze PDF2XL Basic 5 přijde na docela dost 82 eur. Ostatní aplikace vykazovaly řadu chyb od kódování češtiny po špatně naformátované buňky po překopírování. Zde je ukázka podrobnějšího testu v PDF2XL. Překonatelným problémem byla nutnost korekce hlavičky a prvního řádku (nutný ruční split). PDF2XL detailnější testování Na rozdíl od dříve testované verze 3 jsem nemusel ve verzi 5 už zasahovat do nastavení formátu buněk, ale pokud potřebujete, navrhuji následující úpravy: Excelplus.NET 7

PDF2XL nastavení 8. Vždycky mějte na paměti jednu věc co vidíte, dokážete i zkopírovat. To platí pro elektronickou i papírovou formu dat, tabulek, fotografií. Jak? Kouzlo se skrývá za skenováním (u papírové dokumentace) a třemi písmenky OCR, čili rozpoznáváním textu. Podle mě nejsofistikovanějším softwarem pro tyto účely je ABBYY FineReader, který si velmi solidně poradí i s češtinou a tabulkami (bohužel nemohu v tuto chvíli nabídnout relevantní obrázek). Výsledky kopírování do Excelu: Excelplus.NET 8

Výsledky kopírování z PDF PDF2XL výsledek podrobnějšího testu Testovací soubory: Excelplus.NET 9

excel-test-pdf.zip Excelplus.NET 10