Informace a jejich výměna v chemii informace = veškeré údaje, kterými lze popsat věci, jevy či události, které se staly, dějí nebo nastanou bit = nejmenší rozdíl, který znamená rozdíl (0 nebo 1) je známo, že = bylo publikováno nějakým autorem, někdy a někde, že... nutná podmínka rozvoje exaktních věd výměna informací Chemické informační zdroje Rešerše Experiment a pracovní záznamy zpětná vazba Publikace Historie využití informací v chemii kupelace: bible (Jer. 6, 29) ČSN EN ISO 11426 (2000) Plavení, tavba a vážení kovů v Egyptě (asi 2500 př Kr.) 1
Historie využití informací v chemii středověk spis De diversis artibus (12. století) knižní forma předávání nových informací převládá až do poloviny 19. století 17. století první vědecké časopisy: Observationum chymico-physico- -medicarum curiosarum mensibus singulis bono cum Deo continuandarum (Frankfurt a Lipsko, 1697) 1753 první chemický časopis: Chemische Experimente einer Gesellschaft in dem Erzgebürge (Berlin) Historie využití informací v chemii 1862 první analytický časopis: Zeitschrift für analytische Chemie (vychází dodnes pod názvem Analytical and Bioanalytical Chemistry) 1828 první česká chemická kniha: Lučba čili chemie zkusná 1869 první český chemický časopis: Časopis chemiků českých 2
Historie využití informací v chemii 20. století 60. léta počátky elektronických informačních zdrojů 90. léta konstituce chemické informatiky (angl. chemoinformatics) chemická informatika disciplína, která v sobě zahrnuje návrh, vytvoření, organizaci, ukládání, vyhledávání, analýzu, šíření, zviditelňování a využívání chemických informací, nejenom jako takových, ale také jako nástroj nebo index, který je zastupuje pro získávání jiných dat, informací a znalostí chemický informační zdroj (dříve chemická literatura) jakýkoliv dokument nebo jiný informační materiál, nějakým způsobem zveřejněný a dostupný, zachycující informace o chemii a umožňující tak jejich výměnu Druhy chemických informačních zdrojů primární zdroje časopisy, patenty, normy, diplomové a disertační práce, výzkumné zprávy, materiály odborných konferencí Archivace sekundární zdroje monografie a kompendia, tabulky, atlasy, sbírky, literatura pro technickou praxi, učebnice, firemní literatura Sumarizace referátové zdroje Vyhledávání 3
Druhy chemických informačních zdrojů vznik a studium chemických informačních zdrojů zna- losti zobecnění informace kontext data měření, výpočty Druhy chemických informačních zdrojů informační explose v chemii během 20./21. století Chemical Abstracts zahrnují více než 43 milionů abstraktů Chemical Abstracts evidují více než 120 milionů látek (+ 66 mil. sekvencí) práce [tisíce] 1000 800 600 Počet prací abstrahovaných v CA za jeden rok abstrakty [miliony] 25 20 15 Kumulativní počet abstraktů v CA 400 10 200 5 0 1900 1920 1940 1960 1980 2000 rok 1900 1920 1940 1960 1980 2000 rok 4
Formy informačních zdrojů tištěné informační zdroje fotografické formy informačních zdrojů mikrofilmy mikrofiše Formy informačních zdrojů elektronické informační zdroje elektronické soubory (*.txt, *.doc, *.xls, *.dfb, *.html) PDF (Portable Document Format) dokumenty rekonverze, scanování (OCR, Optical Character Recognition) CD-ROM, DVD, Internet problémy se stabilitou a kompatibilitou (Digital Dark Age) 5
typy informačních údajů v chemii numerické alfanumerické topologické (chemické struktury) grafické (spektrální údaje) převod ADC (analog-to-digital) Klíčová slova numerické a alfanumerické údaje názvy operací, technik, přístrojů jména autorů, institucí názvy sloučenin, slitin klíčová slova nekontrolovaný slovník tvořená ad hoc kontrolovaný slovník rejstříky, thesaurus problémy varianty pravopisu: sulphur sulfur, Růžička Ruzicka Ruziczka synonyma seznamy klíčových slov (rejstříky) permutace, př. Butanamide, 2-(Acetylamino)-3-methyl, (S)- 6
Popis chemických struktur (topologické údaje) chemické názvosloví triviální názvy názvosloví IUPAC cizojazyčné verse propionic acid; adofeed; antischim b; carboxyethane; ethanecarboxylic acid; ethylformic acid; luprosil; metacetonic acid; methylacetic acid; monoprop; propcorn; propkorn; prozoin; pseudoacetic acid; toxi-check Šilhánek, J.: Chem. listy 91:4 (1997), 237 250. sumární vzorce Hillův systém 1. u sloučenin uhlíku se sumární vzorec píše v pořadí uhlík, vodík a ostatní prvky v abecedním pořadí 2. u neuhlíkatých sloučenin se sumární vzorec píše ve striktně abecedním pořadí prvků 3. posledním kritériem je počet jednotlivých prvků Richterův způsob zápisu sumárního vzorce: C, H, O, N, Cl, Br, I, F, S, P OH Br C 2 H 5 BrO C 2 H 5 OBr 7
CAS Registry Number unikátní číslo přiřazené každému chemickému individuu (směsi, sekvenci) od Chemical Abstracts Service široce užíváno v databázích Systematický název sloučeniny CAS Registry Number Copper(II) sulfate [7758-98-7] Copper(II) sulfate, pentahydrate [7758-99-8] 1-Butanol [71-36-3] 2-Butanol [78-92-2] (+/ )-2-Butanol [15892-23-6] R-( )-2-Butanol [14898-79-4] S-(+)-2-Butanol [4221-99-2] kódování chemických struktur převod grafické informace do alfanumerického formátu cílem zachování jedinečnosti informace za předpokladu možnosti vyhledávání fragmentační kódování (Wiswesserova lineární notace) zejména SMILES = Simplified Molecular Input Line Entry Specification, InChI = IUPAC International Chemical Identifier 4-Isopropyl-3-propyl-hept-1-ene C=CC(C(CCC)C(C)C)CCC Weininger, D.: J. Chem. Inf. Comput. Sci. 28 (1988), 31 36. 8
maticové kódování (connection table), např. formát MDL Molfile řada dalších formátů, např. ChemDraw (*.cdx), Sketch Files (*.skc), HyperChem *.hin Kombinace kódovaných informací v elektronických bázích dat zkracování částí vyhledávaných termínů (angl. wild card) * = žádné nebo naopak neomezený počet písmen sulf* = sulfur, sulfate, sulfuric, sulfurous, sulfide? = tolik písmen, kolikrát je ho použito mixe? = mixer, mixed druhy zkracování (angl. truncation) pravostranné: pow* uvnitř slova: pow*er = power, powder logické operátory: AND, OR, NOT hierarchické kombinace logických operátorů: (analysis and copper) not titration vždy nutno zkontrolovat zda je v dané bázi uplatnitelné 9