ÚSTAV ORGANICKÉ TECHNOLOGIE

Podobné dokumenty
Excel Asistent Magazín PREMIUM 03/2005

MS SQL Server 2008 Management Studio Tutoriál

Gymnázium Vysoké Mýto nám. Vaňorného 163, Vysoké Mýto

7. Enterprise Search Pokročilé funkce vyhledávání v rámci firemních datových zdrojů

1 Tabulky Příklad 3 Access 2010

GEOGRAFICKÉ INFORMAČNÍ SYSTÉMY CVIČENÍ 4

Gymnázium Vysoké Mýto nám. Vaňorného 163, Vysoké Mýto

Řazení tabulky, dotazu nebo formuláře

Návod pro práci s aplikací

2 PŘÍKLAD IMPORTU ZATÍŽENÍ Z XML

Práce se styly 1. Styl

Jak vytvořit sestavy na míru v registru zvířat (IZR)

Microsoft Office. Word hromadná korespondence

MS Word 2007 Šablony programu MS Word

soubor dat uspořádaných do řádků a sloupců

Tento projekt je spolufinancován Evropským sociálním fondem a státním rozpočtem České republiky. PORTÁL KUDY KAM. Manuál pro administrátory. Verze 1.

Lokality a uživatelé

Hromadná korespondence

Microsoft Word - Styly, obsah a další

Vlastnosti dokumentu/stránky

Zdokonalování gramotnosti v oblasti ICT. Kurz MS Excel kurz 6. Inovace a modernizace studijních oborů FSpS (IMPACT) CZ.1.07/2.2.00/28.

Začínáme s Tovek Tools

1. Umístěte kurzor do sloupce Datový typ na řádek s polem, ve kterém vytvořit chcete seznam.

Hromadná korespondence

My si nyní takovou sestavu vytvoříme na příkladu jednoduché kanceláře. Začneme vytvořením takové kanceláře.

Stručný manuál k ovládání programu STATISTICA. Mgr. Petra Beranová

Možnosti tisku v MarushkaDesignu

Návod na základní používání Helpdesku AGEL

STATISTICA Téma 1. Práce s datovým souborem

E-NABÍDKA PARTNER.REDA.CZ

Databázový systém označuje soubor programových prostředků, které umožňují přístup k datům uloženým v databázi.

Nový způsob práce s průběžnou klasifikací lze nastavit pouze tehdy, je-li průběžná klasifikace v evidenčním pololetí a školním roce prázdná.

14 Deník poradny. Popis modulu. Záložka Deník poradny

Přílohy. Příloha 1. Obr. P1.1 Zadání úlohy v MS Excel

Uživatelská dokumentace

Manuál: Editace textů v textovém editoru SINPRO Úprava tabulek a internetových odkazů, řádkování

Úvod do problematiky ÚPRAVY TABULKY

Redakční systém Joomla. Prokop Zelený

Gymnázium a Střední odborná škola, Rokycany, Mládežníků 1115

ZARÁŽKY A TABULÁTORY V MS OFFICE WORD

EBSCO. EBSCOhost Web. Databáze je přístupná na adrese Poté se můžete buď přihlásit, nebo vstoupit jako host.

Formátování pomocí stylů

Uživatelský manuál. Aplikace GraphViewer. Vytvořil: Viktor Dlouhý

Manuál pro mobilní aplikaci Patron-Pro. verze pro operační systém Symbian

WR Reality. Web Revolution. Uživatelský manuál administračního rozhraní

KAPITOLA 3 - ZPRACOVÁNÍ TEXTU

InsideBusiness Payments CEE

Obr. P1.1 Zadání úlohy v MS Excel

Interaktivní tabule SMART Notebook

THEOPHILOS. (návod k použití)

Popis a ovládání. Aplikace 602XML Filler

Zpracování chybějících dat a dat mimo rozsah

Vytvoření uživatelské šablony

Gabriela Janská. Středočeský vzdělávací institut akademie J. A. Komenského

Vzdělávání v egoncentru ORP Louny

PRODUKTY. Tovek Tools

Gymnázium Vysoké Mýto nám. Vaňorného 163, Vysoké Mýto

Návod na použití univerzitní aplikace

KAPITOLA 4 ZPRACOVÁNÍ TEXTU

1 Příručka používání Google Apps

Import a export dat EU peníze středním školám Didaktický učební materiál

1. Blok Bloky a hladiny Barva a typ čáry v blocích 2. Vytvoření bloku příkaz BLOK [BLOCK]

Výukový materiál pro projekt Elektronická školička reg. č. CZ.1.07/1.3.05/ "Interaktivní DUMy"- interaktivity lze dosáhnout i v MS PowerPoint

aneb velice zjednodušené vysvětlení základních funkcí a možností systému Vypracoval: Tomáš Dluhoš tomas.d@centrum.cz

Dealer Extranet 3. Správa objednávek

Soukromá střední odborná škola Frýdek-Místek, s.r.o. VY_32_INOVACE_49_IVT_MSOFFICE_05_Word

Základní principy vyhledávání firem

FIN3D Výukovápříručka

Microsoft Office. Excel ověření dat

Pravidla a plánování

Beton 3D Výuková příručka Fine s. r. o. 2010

Jak vložit položku do GDSN

Pracovní list č. 14 Microsoft Word 2010 jazykové nástroje, reference I Jazykové nástroje

ERP informační systém

UŽIVATELSKÝ MANUÁL PERSONALIZACE MOJE SODEXO V

Export tabulky výsledků

Návod na tvorbu časové přímky v programu Microsoft PowerPoint 2013

UniLog-D. v1.01 návod k obsluze software. Strana 1

Návod - katalog. ANTEE s.r.o. - tel.: , fax: , helpdesk: ,

Vytvoření tabulky: V následujícím okně si editujete okno tabulky. Vyzkoušejte si viz podklad Cv_09_Podklad_tabulka.xls a Cv_09_Tabulka.dwg.

PRODUKTY. Tovek Tools

Gymnázium Vysoké Mýto nám. Vaňorného 163, Vysoké Mýto

Spuštění a ukončení databázové aplikace Access

Cvičení 6 PARAMETRICKÉ 3D MODELOVÁNÍ TVORBA VÝKRESU OBROBKU Inventor Professional 2012

Word 2007 praktická práce

45 Plánovací kalendář

1. Aplikační a systémové opravy Odkaz na Nahlížení do KN (Info ČÚZK) Tisk mapy... 4

Microsoft Excel. Základní operace s buňkami. Formát buňky

Microsoft Access. Typy objektů databáze: Vytvoření a návrh nové tabulky. Vytvoření tabulky v návrhovém zobrazení

Manuál SW lokalizace problémů a hodnot v dynamické mapě

Práce v programu Word 2003

Vkládání dalších objektů

31 APZ Organizace. Popis modulu

Ovládání Open Office.org Calc Ukládání dokumentu : Levým tlačítkem myši kliknete v menu na Soubor a pak na Uložit jako.

Vkládání prvků do dokumentu MS Word

PRACUJEME S TSRM. Modul Samoobsluha

Moje-Projekty.cz Dokumentace k aplikaci

ERP informační systém

Transkript:

LABORATOŘ OBORU I ÚSTAV ORGANICKÉ TECHNOLOGIE (111) H Práce s chemickými bázemi dat Vedoucí práce: Ing. Jaroslav Šilhánek, CSc. Umístění práce: 67b 1

Laboratoře organické technologie Práce se strukturními chemickými bázemi dat: Předpokladem pro tuto laboratorní práci je absolvování předmětu Chemická informatika (příp. Chemické báze dat), resp. základní znalost o existenci strukturních chemických bází a povědomí o jejich umístění na síti školy a schopnost s nimi pracovat. Práce je proto zaměřena na pokročilejší problematiku strukturních rešerší a z možností, které jsou na VŠCHT k disposici se soustředí na práci s bází dat CrossFire Beilstein, která nabízí nejširší paletu nástrojů pro efektivní práci s chemickými strukturními bázemi dat. Hlavním účelem a smyslem této práce je seznámit posluchače se současnými možnostmi a metodami práce se strukturními chemickými bázemi dat na praktickém úkolu. Vlastní práce se soustředí na dva aspekty praktického využívání strukturních a reakčních bází dat pro výzkumnou práci v chemii. Především je to otázka formulace strukturního, resp. substrukturního dotazu a procvičení alespoň hlavních možností, které tyto báze poskytují, včetně alespoň částečného procvičení ladění, t.j. postupného upřesňování dotazu tak, aby byl získán smysluplný a dále použitelný výsledek. Druhá složka práce se soustředí na logicky následnou otázku, a to jsou možnosti, jak s nalezenými informacemi dále nakládat, a to jak v případě, kdy chceme jen výsledek zpracovat do podoby zprávy, tak i v případě, kdy máme zájem s výsledky dále pracovat v jiných aplikacích, ať již rovněž strukturních, tak i faktografických. Důležitou součástí bude alespoň úvodní seznámení se s možnostmi exportů dat v takovém rozsahu, které potřebujeme, tedy otázky volby formátů a výběr polí. Přesto, že využívání strukturních bází dat je pochopitelně závislé na konkrétním případě a příslušném klienty, existuje mnoho logických kroků, které fungují stejně u jakékoliv strukturní báze dat a pokud víme, co máme požadovat, tak daleko snáze budeme pracovat s bází, kterou předem neznáme. Z hlediska možností prakticky neomezeného přístupu bude práce realizována v bázi dat Beilstein. Kromě provedení zadání podle návodu, což by mělo sloužit k tomu, naučit se s těmito nástroji pracovat, dostane každá skupina samostatné zadání struktury, resp. skupiny strukturně podobných sloučenin nebo substruktur. Návod: 1. Formulace strukturního dotazu: Chceme-li v jakémkoliv zdroji vyhledat chemickou sloučeniny na základě její struktury, musíme mít především možnost požadovanou strukturu formulovat, tedy nakreslit se všemi atributy, které daná strukturní báze dat umožňuje použít. Jinými slovy, formulovat podmínky, 1

kterým má hledaná struktura vyhovovat. K tomu jsou univerzálně používány tzv. strukturní editory, které mohou být určeny právě jen pro účely zadávání strukturních dotazu, nebo to mohou být zcela univerzální nástroje pro kreslení struktur chemických sloučenin k jakýmkoliv účelům, tedy především k representaci do zpráv, publikací apod. Rozdíl je v tom, že v prvním případě není třeba, aby nakreslená struktura odpovídala grafickým standardům, tedy např. aby šestiúhelníky byly pravidelné, všechny vazby měly stejnou délku (nastavenou) a atomy byly spojeny ve stejných úhlech apod. Zatímco, v prvním případě jsou strukturní editory navrhovány přímo s možnostmi formulovat strukturní zadání, např. stanovit vlastnosti atomu či vazby ve zvolených rozmezích, ve druhém případě je nutné, aby takové nástroje byly do univerzálních grafických strukturních editorů doplněny, což někdy dělá určité potíže. Tato poznámka ilustruje skutečnost, že vyhledávací nástroje (aplikační programy nebo klienti) umožňují často volbu mezi různými editory a je nutné vědět proč tomu tak je a jaké to může mít důsledky. Právě s takovou volbou se setkáte při práci s bází dat Beilstein a klientem CrossFire Commander. Nabídky strukturních editorů se v průběhu posledních let do značné míry stabilizovala a v současné době jsou neužívanější dva univerzální strukturní editory, a to ISISDraw, resp. MDL ISISDraw, později jen MDLDraw, a editor ChemDraw. Editor ISISDraw, resp. MDLDraw je součástí klienta CrossFire Commander, struktury z editoru ChemDraw je nutné do editoru exportovat. V zásadě doporučujeme naučit se pracovat s editorem ISISDraw (nebo ChemDraw), jako zcela univerzálním nástrojem pro prezentaci struktur např. pro vkládání do souborů ve Wordu a v tomto editoru také nakreslit zadané struktury pro strukturní rešerše, ale následně použít editor CrossFire Structure Editor, ve kterém je možné podstatně názorněji demonstrovat různé nástroje a zadávat požadavky na formulaci strukturního dotazu. Postup pro volbu strukturního editoru: V CrossFire Commanderu zvolíme v Menu Option nabídku Select Structure Editor a nastavíme alternativu MDL ISIS/Draw. Nakreslíme základní strukturu, jejíž varianty máme za úkol vyhledat a převedeme do programu CrossFire Commander. Následně stejným způsobem zvolíme strukturní editor CrossFire Structure Editor, vrátíme do něj nakreslenou strukturu a v tomto editoru nastavíme takové strukturní parametry, které charakterizují požadované struktury, resp. jejich soubor. Dále si ujasněme hlavní alternativy strukturních rešerší, které nabízejí v té či oné podobě všechny obdobné strukturní báze dat. Jedná se o následující nejdůležitější aplikační možností práce se strukturními bázemi dat: Exact Search v tomto případě systém vyhledává struktury přesně a pouze v takové podobě, v jaké jsou nakresleny strukturním editorem. Implicitně bývají do tohoto příkazu zahrnovány i isotopicky modifikované alternativy, struktury obsahující náboje nebo nepárové elektrony (radikály) a hlavně takové případy, kdy je požadovaná struktura součástí vícesložkové sloučeniny, např. soli nebo komplexu. 2

Substructure Search - tento pojem vychází z představy, že nakreslená struktura je zabudována do více či méně složitější struktury, neboli představuje součást molekuly, které může být přisuzována např. biologická účinnost. Proto substructure. V širším kontextu je to pak prakticky jakýkoliv dotaz, kdy požadujeme vyhledání souboru struktur obsahující alternativní složky, např. substituenty, funkční skupiny, alternativní atomy v kruzích nebo na jakýchkoliv místech výchozí molekuly. Tato funkční alternativa bude vlastním předmětem této laboratorní práce. Similarity Search široký pojem, který je zpravidla založen na nějaké koncepci podobnosti mezi strukturami, tato koncepce je zabudována do vyhledávacího algoritmu, na kterém pak závisí výsledek a jedná se tudíž o duševní vlastnictví autorů a proto většinou není přesně známá. V této práci se touto možností nebudeme zabývat. Příklad: Máme za úkol vyhledat všechny estery kyseliny benzoové, která mají v para poloze jakýkoliv halogen. Toto zadání je možné obecně formulovat následujícím způsobem: O O R1 F,Cl,Br,I Obr. 1 1. Výchozí zadání: Otevřeme klienta CrossFire Commander, nastavíme editor MDL ISIS/Draw a nakreslíme strukturu v nejjednodušší formě (Obr. 2): 3

O O Obr. 2 V této podobě převedeme strukturu na obrazovku klienta a změníme nastavení strukturního editoru na CrossFire Structure Editor a převedeme do něj nakreslenou strukturu. Dále budeme strukturu postupně upravovat a upřesňovat zadání pro rešerši. Současně se tím seznámíme s univerzálními logickými kroky, které jsou v té či oné podobě součástí jakýchkoliv vyhledávacích nástrojů a představují obecnou koncepci vyhledávání chemických sloučenin na základě jejich struktur. 2. Editace jednotlivých atomů dané struktury: Jestliže v editoru CrossFire Commander najedeme kurzorem (nástroj tužka ) na jednotlivý atom (pod kurzorem se objeví symbol atomu), otevře se editační okno umožňující nastavit vlastnosti daného atomu v poměrně velmi širokých mezích. Především rozbalením nabídky Symbol určíme vlastní kvalitu atomu (jinou než implicitní uhlík). Rozbalený seznam ale obsahuje kromě nejčastějších atomů také obecné symboly A, M, a X a pak nabídky Elements a Generics. Otevřením nabídky Help v tomto okně se dozvíte, co tyto možnosti znamenají. Neuniverzálnější nabídka pro vyhledání alternativních struktur je označena jako Free Sites, což umožňuje otevřít tento atom pro jakoukoliv substituci, neboli z tohoto atomu může vycházet vazba vedoucí k jakémukoliv dalšímu atomu. Omezujícím faktorem je pochopitelně valence, většinou je nejjednodušší zvolit možnost MAX. Použijeme tuto možnost pro splnění první části zadání, a to pro vyhledání všech esterů otevřením substituce na atomu kyslíku, což je sice nepochybně širší zadání, ale umožní, aby ve výsledku se také objevily všechny existující estery. Prohlédněte si podrobně editační okno atomu a všimněte si, jaké možnosti nabízí. Kromě logických nastavení valence, náboje, hmotnosti (tedy atomové číslo) a existenci daného atomu jako radikálu, jsou užitečné možnosti skryté pod označením Topology. Volby ring, chain a ring or chain umožňují určit, že daný atom může (nebo nemůže) být součástí kruhu, nebo musí být jen součástí lineárního řetězce nebo obojí. Je rovněž užitečné vyzkoušet alternativní možnosti nastavení počtu vodíkových atomů vycházejících z daného atomu. Pro splnění druhé částí zadání, tj. vyhledání všech esterů obsahujících v para poloze jakýkoliv halogen, využijeme častou možnost obecné definice halogenů symbolem X, který najdeme v rozbaleném seznamu Symbol. Konečné strukturní zadání pak bude vypadat následovně (Obr. 3): 4

O O* X Hvězdička u atomu kyslíku označuje free sites pro tento atom. Obr. 3 Odesláním takto formulovaného dotazu na obrazovku klienta a příkazem Search dostaneme soubor celkem cca 6640 struktur 1 a jejich orientační inspekce ukáže, že vyhovují zadání. Takový výsledek sice plně vyhovuje zadání, ale je prakticky nepoužitelný, protože obsahuje příliš velký počet struktur, se kterými by se jen těžko pracovalo. Je proto nutné strukturní dotaz formulovat přesněji. To je typická situace pro většinu tzv. substrukturních vyhledávání, volba free sites je sice velice pohodlná, ale zpravidla příliš obecná. Každý strukturní editor by proto měl mít i možnost zadat požadované alternativy podstatně konkrétněji nebo naprosto přesně. 3. Upřesnění zadání, volba generických skupin Je evidentní, že hlavní podíl velkého počtu struktur připadá na příliš široký záběr vzniklý obecným otevřením substituce na kyslíku, zatímco počet různých halogenovaných esterů nebude příliš rozhodující. Uvědomme si, že v chemii často charakterizujeme některé skupiny atomů (nebo tzv. funkční skupiny ) obecným názvem, z nichž jsme již v daném případě využili označení halogeny. Velmi běžnou takovou skupinou je označení Alkyl pro uhlíkaté řetězce, typicky methyl, ethyl, propyl atd. Takové skupiny se označují jako generické skupiny a většina strukturních editorů nabídku takových skupin obsahuje. Klient CrossFire Commander má poměrně velmi širokou nabídku generických skupin (nebo atomů) jako součást editačního okna v seznamu Symbol. Klinknutím na volbu Generic dostaneme další okno s celou řadou možností. I když asi odhadneme, že alkylové skupiny budou pod označením ALK, kliknutím na Help se dozvíme přesné definice jednotlivých zkratek a také vysvětlení rozdílu mezi ALK a ALH, i když je opět snadno pochopitelné. Volbou jedné z nabídnutých možností se zkratka převede do editačního okna atomu a potvrzením editačního okna do struktury. 1 Uvdený počet struktur platí pro dobu, kdy byl příklad realizován. Jelikož se báze průběžně aktualizuje, může být toto číslo pochopitelně jiné.kromě toho také závisí na tom, jaké případné další omezující faktory použijeme pro konečnou formulaci vyhledávání viz dále. 5

POZOR. Nejdříve ale musíme v zadané struktuře doplnit příslušný atom, který bude definován jako alkyl, tedy např. dokreslit uhlík připojený na esterový kyslík. Výsledný vzorec pak bude vypadat následovně (Obr. 4): O O ALK X Obr. 4 Převedením takto upraveného vzorce do CrossFire Commanderu a spuštěním hledání dostaneme tentokrát jen 95 struktur, což je výrazně správnější a s takovým souborem je už možné celkem rozumně dále pracovat. Vyzkoušejte si při této příležitosti i možnosti, které poskytuje výchozí obrazovka CrossFire Commanderu, a které jsou shromážděny v prvém horním rohu. Jsou to různá obecná omezení výběru na určité alternativní modifikace zadaných struktur (viz vysvětlení u Exact Search) a přesvědčete se, jak fungují a jak významně mohou ovlivnit výsledné soubory. V každém případě si vyzkoušejte, že volbou různých omezení typu vyloučení isotopů, radikálů a dalších alternativ, se počet sloučenin ve výsledku výrazně změní. Přesto ale i v tomto případě a v řadě dalších vede obecná volba generické skupiny, tedy např. ALK, k příliš velkému počtu látek a i v daném případě asi všech 95 struktur nevyužijeme. A také je naprosto logické, že strukturní editor a vyhledávací algoritmus musí nějak umožňovat formulaci přesně definovaného souboru požadovaných sloučenin jako výsledek vyhledávání. 4. Přesná univerzální formulace zadání Naprosto přesné zadání libovolné skupiny struktur s konkrétními požadavky jak na kvalitu, tak i topologii struktury, je poněkud složitější, ale představuje určitý, celkem logický sled kroků, které nakonec všechny strukturní editory musí akceptovat. Je proto důležité v tomto bodě nepostupovat mechanicky podle uvedeného návodu, ale uvědomovat si smysl jednotlivých kroků. Pro ilustraci omezíme zadání na vyhledání v para poloze halogenových methyl, ethyl, isopropyl a n-butyl esterů benzoové kyseliny. 1. krok: Především je nutné označit, na kterých místech výchozí struktury budeme požadovat zcela konkrétní alternativní atomy, skupiny nebo jiné strukturní prvky, např. i alternativní atomy. To se zpravidla vyjadřuje obecným označením typu R1, R2 nebo obdobnou formou. Tuto 6

možnost tedy hledejme mezi možnostmi editace atomu, protože o to vlastně jde. Samozřejmě zcela obecně musí být možné na jednom místě požadovat skupiny označené jako R1 a na jiném místě výchozí struktury skupiny R2 nebo na určitém místě struktury skupinu atomů A atd. 2. krok: Dalším logickým krokem je definovaní strukturních prvků, např. skupin, které požadujeme na místě R1, R2 nebo atomu A apod. Ty musíme nakreslit každý zvlášť jako samostatnou strukturu bez vazby na výchozí strukturu, tedy v jejím sousedství (krátká zkušenost nás naučí, v jakém uspořádání je vhodné požadované struktury kreslit, aby bylo možné s nimi dále pracovat). 3. krok Nyní je nutné určit, že tato skupina substituentů nebo jiných strukturních prvků je definována jako R1 a jiná skupina jako R2, resp. G1, G2, případně že tyto atomy mohou být alternativně ve struktuře místo obecného atomu A, atd. Tento krok je asi nejvíce závislý na konkrétním nástroji, tedy klientu dané báze dat. V případě klienta CrossFire Commander k tomu slouží nástroje na levé straně obrazovky strukturního editoru označené jako A n a G n. První slouží pro přiřazení atomů a druhý k přiřazení skupin G. Logika tohoto kroku je ale celkem evidentní a je důležité si tuto logiku uvědomit. Nejdříve je nutné příslušné nakreslené skupiny vybrat (typické použití Lasso tool ), v případě daného editoru obdélníkové vybrání (zde si uvědomíme nutnost inteligentního nakreslení skupin substituentů tak, aby je bylo možné bez problémů vybrat). Následující kliknutí na výše uvedené tools, v daném případě G n, se otevře další okno, ve kterém v případě jen jednoho G n je implicitně toto číslo, v případě více G n pochopitelně více a příslušnou volbou tak definujeme, které struktury mají být G1, které G2 atd. a zcela obdobně v případě obecných atomů A n. 4. krok To ale není vše, protože si musíme uvědomit, že nakreslené struktury mohou být do základní struktury připojeny buď na konkrétním určitém místě nebo i na více místech. Je tedy dále opět zcela logicky nutné určit, kterým svým atomem má být ta které alternativní skupina připojena na základní strukturu. K tomu opět použijeme editační nástroj pro atom. Ve strukturním editoru CrossFire Structure Editor otevřeme okno pro atom, který chceme, aby byl připojen na základní strukturu a klikneme na nabídku Attachment (POZOR: kurzor musí být pod nástrojem tužka, tedy aktivní). Protože se nejčastěji bude jednat o právě jedno přípojné místo, implicitně se v dalším otevřeném okně objeví jen jedna možnost určení počtu připojení, které zaškrtneme a po odkliknutí tohoto okna a editačního okna atomu se objeví indikace připojení malou číslicí na nakreslené struktuře. Výsledek by měl vypadat asi následovně (Obr. 5): 7

O C O G 1 [G1]: 1 1 X 1 Obr. 5 V této podobě je formulace dotazu dokončena a měla by přesně splňovat požadovaný úkol, tj. vyhledání methyl, ethyl, iso-propyl a n-butyl esterů benzoové kyseliny s jakýmkoliv halogenen v para poloze. Odesláním takto definované struktury ze strukturního editoru do CrossFire Commanderu pak zahájíme vlastní vyhledávání. V daném případě bychom měli dostat cca 26 2 sloučenin, které vyhovují všem strukturním požadavků, tj. jedná se o jednoduché estery p-halogen benzoových kyselin. Úkoly: Ověřte si, že jste pochopili principy zadávání strukturních dotazů v libovolné podobě a proveďte následující rozšíření strukturního dotazu: 1. Zahrňte do možných substituentů v para poloze benzenového jádra i nitroskupinu. V tomto případě nitroskupina je substituent, tedy označuje se jako G, zatímco halogeny jsou atomy, ale můžete si vyzkoušet, že můžeme zahrnout obecnou definici halogenů i jako substituent, tedy použít nástroj G n. Poznámka: Kromě ověření schopnosti formulovat tento dotaz se seznámíte i s problémem formulace struktury, která může být nakreslena s náboji nebo s plnými valencemi příslušných atomů, což má někdy důsledky pro vyhledávání. Jinak řečeno, vyhledávají algoritmu dané aplikace buď takovou strukturu akceptuje nebo ne. 2. Formulujte dotaz na vyhledání esterů p-halogenovaných benzoových kyselin s dvojsytnými alkoholy, tedy s diethylenglykolem resp. 1,2-ethandiolem, 1,3-propandiolem a 1,2- propandiolem. 2 Platí stejná poznámka jako v obecném případě výsledku. 8

2. Vytvoření zprávy a export výsledků Je logické, že práce s tak silným nástrojem práce s chemickými informacemi nemůže skončit tím, že budeme z obrazovky opisovat nalezené výsledky. Nejedná se pochopitelně jen o vlastní struktury, ale především o data, která se ke strukturám váží a jsou konce konců tím nejdůležitějším výsledkem rešerší. V širším slova smyslu se jedná o prakticky jakékoliv další zpracovávání a manipulace se souborem nalezených výsledků, což je zcela obecná záležitost, ve které se uplatňují jak vlastní zkušenosti s prací s nejběžnějšími počítačovými programy, např. Excelu, tak i speciální nástroje dané aplikace sloužící k provádění strukturních rešerší, tedy v našem případě klienta CrossFire Commanderu. Pomineme-li nejjednodušší cestu, tj. kombinaci výběru údajů, které nás zaujmou, myší a jejich překopírování např. do Wordu, což v případě, kdy nám jde právě o jeden nebo jen několik jednoduchých údajů, nelze zcela zavrhovat, je užitečné se zajímat o nástroje, které daná aplikace nabízí. V současné době prakticky všechny obdobné aplikace respektují existenci nejrozšířenějších programů, konkrétně Microsoft Office, a nabízejí různé formy usnadňující výběr a další zpracování výsledků. Před vlastním popisem možností si připomeňme první krok dalšího zpracovávání výsledků rešerše, kdy dostáváme soubor odpovědí, a to je více či míně ruční výběr takových záznamů, které buď v pravém slova smyslu odpovídají zadání, nebo nás zaujmou, či je vybereme poté, co nám celkové výsledky ukáží svůj celkový charakter. Nejčastějším způsobem, jak realizujeme výběr konečných informací je zaškrtnutí příslušného malého okna nebo výběr myší. V některých následných postupech jsme pak dotázáni, zda chceme dále zpracovávat všechny informace nebo jen jejich výběr, ale pokud takový krok chybí, implicitně se dále zpracovávají všechna data, což může vést k velmi obsáhlým souborům. Příprava zpráv (reportů) Pod tímto označením chápe aplikace CrossFire Commander nástroje, které umožňují vybírat z celého souboru nalezených dat takové, které chceme dále uchovat a dále je používat, ale zpravidla nikoliv pro jiné aplikace, jen pro vytváření přehlednějších nebo k nějakým podobným účelům sloužících zpráv. Strukturní báze jako je Beilstein, může poskytovat dvojí typ výstupní zprávy: Zpráva o nalezených strukturách Zpráva o vlastnostech nalezených struktur (sloučenin) a) Zpráva o nalezených strukturách 9

Především hned výsledná obrazovka nabídne možnost To Report, který otevřen dialogové okno s možností definovat (pojmenovat soubor), do kterého ale bude uložena právě jen tato stránka se souhrnným výsledkem v podobě, v jaké ji vidíme na obrazovce. Pro další možnost je nutné soubor struktur otevřít v podobě mřížky (grid). Nejprve se musíme rozhodnout, zda budeme podávat zprávu o všech nalezených strukturách, nebo vybereme jen některé, zaškrtnutím příslušného okénka v levém horním rohu pole. Další možností je prakticky jen tisk nalezených struktur, kdy ale můžeme v celkem širokém rozmezí určit řadu atributů vlastního tisku. Typicky pak dostaneme soubor struktur v podobě několika rámečků na tiskové straně formátu A4. Tento tiskový soubor nelze ukládat. Podstatně silnější nástroj je pak export dat, o kterém pojednáme dále. b) Zpráva o vlastnostech nalezených sloučenin Jak již bylo řečeno, nejčastěji potřebujeme uchovat soubor vlastností nalezeného souboru struktur, ať proto, že je chceme nějakým způsobem korelovat, nebo hledat optimální hodnoty pro náš konkrétní účel nebo k čemukoliv jinému. Filosofie vytváření zpráv je pak založena na definování a otevření souboru pro zprávu, do kterého jsou postupně průběžně ukládána data tak, jak je nalézáme u jednotlivých sloučenin, např. soubory bodů tání, bodů varu, hustot, odkazů na spektra apod. Univerzálním krokem je zobrazení dané vlastností (především ale souboru identifikačních parametrů dané sloučeniny), kliknutí pravou myší na horní okraj rámečku dané vlastnosti a výběru způsobu uložení dat do zprávy, kterou zvolíme za otevřené nabídky. Tak např. po výše zmíněném pojmenování a otevření zprávy klikneme pravou myší na horní okraj souboru identifikačních parametrů a zvolíme nejčastěji buď zprávu ve formátu Word nebo zprávu ve formátu HTML. Dále najdeme v souboru všech vlastností dané sloučeny tu, která nás zajímá a stejným způsobem ji přidáme k identifikaci. A obdobně můžeme pokračovat až vyčerpáme vše, co potřebujeme. Ruční postup je možné zjednodušit a využít současně možností dané aplikace tím, že výsledný soubor struktur dále omezíme jen na takové, které obsahují data, které hledáme. K tomu využijeme kombinace strukturního vyhledávání a faktografického vyhledávání, které je součástí aplikace CrossFire Commander. Postup: Vrátíme se do dotazu Query a v levém sloupci faktografických nástrojů zvolíme možnost Search Fields. Dále buď odhadneme, ve kterém hierarchickém stupni bude námi požadovaná vlastnost, nebo využijeme možnost Find. Předpokládejme, že hledáme hustoty esterů p-halogenovaných benzoových kyselin. V tomto případě nalezneme údaj o hustotě ( Density ) pod Physical Properties, dále Single Component Systems a Physical States a konečně Other Physical and Mechanical Properties a Density of Liquids.Dvojklikem převedeme název pole do dolního formuláře faktografického vyhledávání a v rozbalovacím okně Relations zvolíme Exist. Logika celého dotazu pak je: Vyhledej všechny struktury vyhovující strukturnímu zadání, ale současně obsahující jakýkoliv údaj o hustotě dané sloučeniny. Výsledem bude podstatně menší soubor sloučenin a abychom nemuseli pracně hledat hustoty v souborech všech vlastností, využijeme dále možnost zobrazit jen to, co jsme požadovali, tedy výše formulovaný úkol. K tomu využijeme nabídku View v horním menu 10

aplikace, která nám po rozbalení nabídne možnost Hit only. Po této volbě dostaneme na obrazovku vždy jen identifikační blok pro danou sloučeninu a dále jen rámeček s údaji o hustotě sloučenin. Příprava zprávy (reportu) je pak výrazně rychlejší. Úkol: Vytvořte zprávu o výsledku dotazu na existenci dat pro hustoty esterů p-halogenbenzoových kyselin sestávající s identifikace sloučeniny a dat pro hustoty esterů jako soubor ve Wordu. Výsledek zpracujte do podoby zprávy, do které ale zahrnete jen ty sloučeniny, pro které skutečně existují data pro hustotu (pro některé látky je v bázi dat Beilstein jen odkaz na původní práci, kde jsou data pravděpodobně v podobě tabulky, která do báze nebyla převedena). Zprávu zpracujte ve formátu Word a pokuste se ji upravit jak, aby zahrnovala jen podstatná data (např. nikoliv všechny alternativní názvy nebo jiné nadbytečné identifikační údaje) a byla dostatečně přehledná. Export nalezených dat Exportování souborů nalezených dat je podstatně důležitější součást dalšího zpracovávání výsledků, protože jednak potřebujeme trvalý záznam provedené práce, ať již pro jakýkoliv účel a jednak v řadě případů budeme se souborem dále pracovat. Např. různým způsobem třídit, hledat souvislosti apod. Současné aplikační programy nabízejí poměrně širokou paletu nástrojů pro možnost exportů dat. Současně je ale nutné si uvědomit, že se v zásadě nemůže jednat o triviální záležitost. Je velmi doporučitelné si prohlédnout alespoň část plných záznamů o nalezených sloučeninách a uvědomit si jednak šíři dat a hlavně jejich pestrost a získat tak představu o jaký problém se jedná. A také velkou různorodost v jednotlivých konkrétních případech. Pro některé sloučeniny existuje jen několik faktografických údajů, pro jiné je jich téměř nepřeberné množství. To vše je v bázi obsaženo a úkolem chemika je se s tímto problémem vypořádat a nejenom hledané informace najít, ale také je inteligentním způsobem uložit, připravit pro další účely a presentovat v přehledné a srozumitelné podobě. Další návod je proto nutné kompromisem mezi případnou (a dříve samozřejmou) nutností naučit se programovat tak, aby byla možnost vytvářet použitelné soubory nezávisle, nebo se seznámit s nástroji nabízenými producentem báze dat, kdy je nutné počítat s tím, že nabídka nemůže být vyčerpávající. Obecně platí: čím je nabídka na formát exportovaných souborů jednodušší, tím menší jsou možnosti vyhovět všem požadavkům. Příklad vytvoření exportních souborů: Pro účely demonstrace možností exportů nalezených dat si vytvořme soubor výsledků, který bude zahrnovat jak struktury sloučenin, tak i jim příslušná faktografická data. Protože se bude jednat o demonstraci funkce exportu, vytvoříme takový soubor, který bude relativně malý, 11

protože pro tyto účely bude postačovat, zatímco větší a ž velký (ale realistický soubor) soubor by svou velikostí překrýval podstatné aspekty. Jako výchozí strukturní zadání zvolíme to, které je na Obr. 4 tohoto návodu, ale současně budeme požadovat vyhledání jen takových esterů, pro které existují jakákoliv farmakologická nebo ekologická data. Obecně tedy data pro biologickou aktivitu. Takový soubor získáme stejným způsobem kombinací strukturních požadavků s požadavky na přítomnost faktografických informací, jak je popsáno výše v popisu přípravy reportů. Po vytvoření takového souboru (měl by mít celkem jen 4 sloučeniny), budeme dále řešit export tohoto souboru. Nabídka exportu: Předpokladem je, že máme vytvořený soubor, který chceme exportovat, ať už získaný výše uvedeným postupem, nebo vytvořený ručním výběrem ze souboru nalezených dat. V každém případě je nutné se rozhodnout mezi dvěma zásadními alternativami. Export bude zahrnovat struktury sloučenin + data týkající se právě jen struktury Export se omezí jen na nestrukturní identifikaci sloučenin + jakákoliv data známá o dané sloučenině podle konkrétního výběru Doplňme důležitý dodatek, že struktury sloučenin mohou být součástí exportů (ale i reportů) jako názorná součást identifikace, tj. na první pohled vidíme o jakou sloučeninu se jedná, nebo bude struktura využitelná v následných nástrojích, typicky lokálních nebo individuálních strukturních bázích dat, kde bude požadováno, aby struktury byla dále strukturně vyhledatelné, nebo daná další strukturní báze dat umožňuje i substrukturní vyhledávání. Otevřeme-li nabídku Export v hlavním menu, otevře se nám další okno s poměrně obsáhlou tabulkou možností. Zásadně můžeme využít formát exportu z této nabídky nebo můžeme formát z nabídky upravit (editovat) nebo si můžeme vytvořit zcela samostatný jiný formát pro soubor exportovaných dat. K uváděným informacím doplňme následující vysvětlení: SD = univerzální označení formátu pro export souboru nalezených (a vybraných) informací zahrnující struktury chemických sloučenin (SD = structure data, struktury jsou exportovány ve formátu mol,file) včetně příslušejících dat, např. fyzikálně-chemických nebo biologických vlastností. RD = obdobný univerzální formát pro export souboru nalezených a vybraných informací, ale zahrnující strukturní representaci chemických reakcí, tedy reakčních schémat (RD = reaction data ), včetně k nim příslušejících informací, tedy tzv. reaction details ID = identifikační data chemických sloučenin zahrnující nebo nezahrnující struktury Okno s nabídkou exportních formátů vypadá následovně: 12

Jedná se vlastně o seznam přednastavených formátů, které v některých případech můžeme použít tak, jak jsou nabízeny, ale nejčastěji si je musíme upravit pro své potřeby. Není účelem této práce naučit se pracovat se všemi formáty, ale pochopit základní koncepci a filosofii vytváření takových exportních formátů, které potřebujeme pro další práci. Pro demonstraci použijeme např. nabídku Compound ID to SD-table. Po této volbě se aktivuje celá nabídka menu na pravé straně a pro další práci logicky musíme zvolit Edit, neboli chceme zvolený přednastavený formát editovat pro naše účely s využitím těch nastavení, které nám vyhovují. Kliknutím na nabídku Edit se otevře celá skupina dalších oken umožňující nastavení řady dalších atributů, je ale nutné zdůraznit, že ne všechny jsou navzájem kompatibilní a volba některých vylučuje volbu jiných. Na první pohled je patrné, že volba není zcela triviální a plně platí zásada, že čím je volba možností jednodušší, tím méně možností můžeme volit. První editační okno: 13

Protože nemáme k disposici zatím žádný další chemický strukturní databázový systém, ale chceme získat přehledný výstup, zvolíme nabídku MS Excel, což znamená, že výsledek bude ve formátu HTML. Protože v tuto chvíli nemáme jiné požadavky, zatím nebudeme uvažovat možnost spuštění nějaké akce v okamžiku exportu a ani bližší definici místa, kam budeme soubor exportovat a přejdeme na další okno. To je celkem přehledné, ale obsahuje klíčová nastavení. Pokud není implicitně zaškrtnuto políčko Facts, musíme tak učinit a dále kliknout na tlačítko Select Facts to View, což je logický krok znamenající, že budeme definovat, která fakta chceme zobrazit. Níže můžeme ještě zaškrtnou políčko incl. Reference, protože pochopitelně budeme chtít vědět odkaz na uvedená data a popř. políčko Hit only. Okno Select Facts to view obsahuje jen několik nabídek týkajících se různých přednastavených formátů exportu struktur a hlavní nabídku označenou All, což znamená, že chceme vybírat ze všech dat. Proto v tomto okně musíme dále opět zvolit možnost Edit, neboli možnost editovat/vybírat z nabídky všech faktografických dat. Tato akce je poměrně značně univerzální pro řady aplikací a spočívá v zobrazení seznamu na levé straně rozděleného okna, ze kterého vybíráme jednotlivé položky a převádíme je na 14

pravou stranu okna (dvojšipky mezi okny), čímž vytváříme seznam polí, které chceme zobrazit. Protože nás zajímají farmakologická nebo ekologická data, zvolíme právě tyto dvě pole, kromě pochopitelně identifikačních polí jako první možnosti. Výsledek by pak měl vypadat následovně: Když tento výběr odklikneme, vrátíme se zpět do okna s nabídkou možností výběru, ve kterém zvolíme možnost Apply, čímž říkáme, že budeme aplikovat na export právě nastavený výběr. Tím se vrátíme na druhou obrazovku a můžeme pokračovat dál. Třetí, poslední okno, pak sumarizuje nastavené formáty, přičemž se nesmíme nechat zmást tvrzením, že HTML formát je disabbled a pak velkým počtem podpolí. To je důsledkem toho, že jsme zvolili nejvyšší hierarchický stupeň daného souboru vlastností. POZOR: Po kliknutí na nabídku Dokončit je položena zásadní otázka, zda chceme nebo nechceme přepsat původní formát, tedy formát, ze kterého jsme vyšli a který jsme editovali. Zde musíme zvolit možnost NE, protože jinak by v seznamu možných formátů zůstal původní název, ale s naší, často velmi zásadní úpravou. Záporná volba pak vede k možnosti zvolit pro námi editovaný formát samostatný název, pod kterým bude uložen a objeví se v seznamu možností na počátku nastavení exportu a budeme mít možnost jej použít při další příležitosti. Pokud jsem se dostali úspěšně až sem, zbývá poslední krok a to zahájit export kliknutím na první tlačítko Start export. V případě, že se nám podařilo správně nastavit všechny volby proběhne jak export, tak se automaticky otevře konečný soubor v Excelu a budeme moci zkontrolovat, zda výsledek odpovídá našim představám. Pokud ne, musíme se vrátit k celému postupu a hledat chybu. I když výsledek v zásadě odpovídá našemu záměru, získaná tabulky v Excelu s největší pravděpodobností bude vyžadovat další úpravy, protože v nativní podobě bude velmi málo přehledná. To už je ale záležitost práce s programem Excel a nemá s aplikačním programem 15

CrossFire Commander nic společného. V každém případě ale je to součást této práce a bude Vaším úkolem připravit získaný soubor cca 4 sloučenin a k nim příslušejících farmakologických nebo ekologických dat do přehledné stručné tabulky obsahující všechny důležité údaje, ale žádné nadbytečné, které výsledek znepřehledňují. Úkol: Vyzkoušejte si možnost, nastavit volbu zobrazovaných údajů na nižší hierarchické úrovni a nikoliv jen v celém rozsahu farmakologických nebo ekologických dat. Za tím účelem si musíte z původního souboru zobrazit příslušná data a zjistit si, pod jakými kódy jsou jednotlivé součásti údajů uloženy. Podstatně jednodušší, ale mírně složitější z jiného důvodu, je požadovat zobrazení některých jednodušších fyzikálně-chemických údajů, jako např. bodů tání nebo bodů varu, případně hustot nebo indexů lomu. Ty sestávají zpravidla jen z údajů o teplotě měření nebo teplotě referenční a pochopitelně odkazů, které rovněž v těchto případech nemusí být součástí výsledné tabulky. Důležité upozornění:!!! Po skončení laboratorní práce vymažte všechny vytvořené exportní nebo jiné soubory, ať již je máte uloženy kdekoliv (některé jsou ukládány na server, na kterém je instalován celý systém CrossFire a báze dat Beilstein či Gmelin, jiné se ukládají na PC ze kterého se systémem komunikujete. 16