Chemické formáty Bedřich Košata
SMILES Simplified Molecular Input Line Entry Specification Navržen pro použití lidmi Podobná normálnímu zápisu chemických struktur Umožňuje ale nevyžaduje kanonickou formu
Pravidla pro SMILES Symboly atomů se píšou do hranatých závorek spolu s počtem vodíků, specifikací isotopu a nábojem: [CH4], [CH3]-[CH3], [C], [Pb], [Zn++], [Zn2+], [14CH3-],[2H+] Prvky běžné v organické chemii patří do tzv. "organic subset" "organické podmnožiny". U těch není třeba používat hranaté závorky a uvádět počet vodíků explicitně mají implicitní vaznost. Patří sem [B, C, N,O, P, S, F, Cl, Br, I]
SMILES - vazby Vazby Jednoduchá "-" Dvojná "=" Trojná "#" Čtverná "$" Aromatická ":" Nulová "." Pro vyjádření solí, komplexů, apod. Např. [Na+].[Cl-] místo [Na]Cl, CC(=O)[O-].[NH4+], apod.
SMILES - atomy Mezi atomy se předpokládá jednoduchá vazba: "CCC" = "C-C-C" Aromatická vazba mezi atomy z "organic subset" je implikovaná pokud je symbol zapsán malými písmeny: "C:1:C:C:C:C:C:1" = "c1ccccc1"
SMILES větvení Větvení se zapisuje pomocí závorek: CC(C) (C)CCl je 1-chlor-2,2-dimethylpropan Větvení lze rekurzivně vkládat do sebe, ve větvích lze používat čísla pro vytváření kruhů: CC(C(C(C)C)C)CC
SMILES kruhy Kruhy se vytváří pomocí čísel za symbolem atomu. Odpovídající čísla se spojí vazbou. Čísla, která se jednou spojí lze recyklovat: "C1CC1C2CC2" = "C1CC1C1CC1" Čísla jsou pouze jednociferná "C12" neznamená jeden kruh s číslem 12, ale dva s čísly 1 a 2
SMILES cis-trans isomerie Pro vyjádření isomerie na dvojných vazbách se používají odlišné symboly pro jednoduchá vazby - "\" a "/" "\" značí směr dolů, "/" směr nahoru C\C=C\C trans-but-2-en
Molfile Rodina formátů CTFile Základem je connection table (CT, spojovací tabulka)
Molfile Connection table comment comment comment 12 12 0 0 0 0 0 0 0 0999 V2000 134.6302 181.9725 0.0000 C 0 0 0 0 0 0 0 0 0 0 0 0 157.3151 195.0787 0.0000 C 0 0 0 0 0 0 0 0 0 0 0 0 180.0000 181.9725 0.0000 C 0 0 0 0 0 0 0 0 0 0 0 0 180.0000 155.8114 0.0000 C 0 0 0 0 0 0 0 0 0 0 0 0 134.6302 155.8114 0.0000 C 0 0 0 0 0 0 0 0 0 0 0 0 157.3151 142.7052 0.0000 C 0 0 0 0 0 0 0 0 0 0 0 0 202.6908 195.0684 0.0000 C 0 0 0 0 0 0 0 0 0 0 0 0 225.3777 181.9656 0.0000 C 0 5 0 0 0 0 0 0 0 0 0 0 202.6948 221.2673 0.0000 O 0 0 0 0 0 0 0 0 0 0 0 0 248.0685 195.0616 0.0000 C 0 0 0 0 0 0 0 0 0 0 0 0 111.9394 142.7154 0.0000 O 0 0 0 0 0 0 0 0 0 0 0 0 89.2525 155.8183 0.0000 C 0 0 0 0 0 0 0 0 0 0 0 0 3 4 1 0 0 0 0 3 7 1 0 0 0 0 5 6 1 0 0 0 0 4 6 2 0 0 0 0 8 10 1 0 0 0 0 11 12 1 0 0 0 0 7 9 2 0 0 0 0 5 11 1 0 0 0 0 1 5 2 0 0 0 0 2 3 2 0 0 0 0 7 8 1 0 0 0 0 1 2 1 0 0 0 0 M END O O
Rodina CTFile Struktura Reakce Víc kusů Popis Molfile ano ne ne Rnxfile ano ano ne SDFile ano ne ano RDFile ano ano ano XDFile ano ano ano založený na XML
InChI Velice mladý formát (~2005) Produkt spolupráce IUPAC a NIST Kanonický formát Vysoký stupeň normalizace Vrstevnatá struktura Umožňuje porovnávat struktury na různých úrovních detailu V roce 2009 vzniklo tzv. Standardní InChI, které neumožňuje nijak nastavovat parametry výstupu, jako to uměla předchozí verze. Označuje se 1S/ na začátku InChI.
InChI - struktura Vrstvy jsou oddělené lomítkem Čísla atomů jsou přiřazená v pořadí sumárního vzorce Např. 1-11 = C, 12 = N, 13,14 = O 14 6 5 O 11 9 8 1 verze 7 O 13 10 4 3 HN12 2 H InChI=1S/C11H15NO2/c1-8(12-2)5-9-3-4-10-11(6-9)14-7-13-10/h3-4,6,8,12H,5,7H2,1-2H3/t8-/m1/s1 sumární vzorec konektivita vodíky stereochemie
InChI - struktura OH 1S/C5H8O/c1-2-3-4-5-6/h6H,2,5H2,1H3 1S/C6H10/c1-3-5-6-4-2/h3-4H2,1-2H3 1S/C6H10/c1-6-4-2-3-5-6/h4H,2-3,5H2,1H3 1S/C6H10/c1-6-4-2-3-5-6/h2,4,6H,3,5H2,1H3
InChI normalizace Tautomery mají stejné InChI InChI neukládá řády vazeb, takže tautomery se liší pouze umístěním atomů vodíku Vrstva popisující vodíky obsahuje u tauteomerů informaci typu "2 atomy vodíku rozprostřené po 3 atomech kyslíku". Standardní InChI defaultně obsahuje tzv. FixedH, což způsobí přidání další vrstvy, která popisuje skutečné umístění vodíků H 3 C O H 3 C OH OH O InChI=1/C2H4O2/c1-2(3)4/h1H3,(H,3,4)
InChI normalizace OH O N NH N OH N O H InChI=1/C4H4N2O2/c7-3-1-2-5-4(8)6-3/h1-2H,(H2,5,6,7,8) InChI bez zafixovaných vodíků /f/h7-8h /f/h5-6h Vrstva pro zafixované vodíky
InChI cvičení Pokuste se nakreslit následující sloučenin podle jejich InChI: InChI=1/C3H8O/c1-2-3-4/h4H,2-3H2,1H3 InChI=1/C4H4O/c1-2-4-5-3-1/h1-4H InChI=1/C3H8O3S/c1-2-3-7(4,5)6/h2-3H2,1H3, (H,4,5,6)/f/h4H InChI=1/C4H10O3/c5-1-3-7-4-2-6/h5-6H,1-4H2 InChI=1/C5H5NO/c7-5-3-1-2-4-6-5/h1-4H,(H,6,7) InChI=1/C9H11NO/c1-3-7-6-8(10)4-5-9(7)11-2/h3-6H,1,10H2,2H3
InChIKey Hash konstantní délky založená na InChI Skládá se ze tří částí 14 znaků pro strukturu 10 znaků pro stereo, fixedh, a další 1 znak pro protonaci/deprotonaci (N=0,M=-1,O=+1) Ukázky WPYMKLBDIGXBTP-UHFFFAOYSA-N (kyselina benzoová)
Zajímavé InChIKey (starší formát) 609021 2-phenyl-5-propan-2-yl-1,3-thiazole DIBUSZLHFVADTN-UHFFFAOYAR 23409537 N-(3-chloro-4-methylphenyl)-2-(2- methyl-3-oxo-1,4-benzoxazin-4-yl)acetamide KLIMTWNPOCEKDX-UYBDAZJACN 23023269 (dicyclohexylamino) phenyl phosphate CECHVCXOELQOQU- CDOZQSGQCX 24264883 2-(pyridin-3-ylmethyl)butanoic acid PRASEVZRVWVPGQ-XWKXFZRBCR
CML XML formát Bohužel implementace pokulhává za nápady autorů Z hlediska XML obsahuje problematický design x2,y2 vs. x3,y3,z3 Jako standard má také některé záporné stránky Přílišná volnost v oblastech kde by jediný způsob vyjádření stačil Atribut convention umožňuje použít definice z jiných standardů, např. convention="mdl" umožňuje označit stereochemii podle specifikace Molfile
CML <?xml version="1.0"?><cml> <molecule id="molecule57132"> <atomarray> <atom elementtype="c" id="atom43832" x2="159.625730994" y2="218.984795322"/> <atom elementtype="c" id="atom55076" x2="182.306432749" y2="205.885380117"/> <atom elementtype="c" id="atom12319" x2="204.987134503" y2="218.984795322"/> <atom elementtype="c" id="atom9876" x2="204.987134503" y2="245.14619883"/> <atom elementtype="c" id="atom61464" x2="159.625730994" y2="245.14619883"/> <atom elementtype="c" id="atom98258" x2="182.306432749" y2="258.283040936"/> <atom elementtype="c" id="atom51255" x2="227.705263158" y2="205.885380117"/> <atom elementtype="o" id="atom24164" x2="227.705263158" y2="179.686549708"/> <atom elementtype="n" id="atom34948" x2="182.306432749" y2="284.481871345"/> <atom elementtype="o" formalcharge="-1" id="atom21705" x2="250.385964912" y2="219.022222222"/> </atomarray> <bondarray> <bond atomrefs2="atom51255 atom24164" order="2"/> O <bond atomrefs2="atom98258 atom34948" order="1"/> <bond atomrefs2="atom43832 atom61464" order="2"/> <bond atomrefs2="atom51255 atom21705" order="1"/> O <bond atomrefs2="atom43832 atom55076" order="1"/> - <bond atomrefs2="atom12319 atom9876" order="1"/> <bond atomrefs2="atom61464 atom98258" order="1"/> <bond atomrefs2="atom55076 atom12319" order="2"/> <bond atomrefs2="atom9876 atom98258" order="2"/> <bond atomrefs2="atom12319 atom51255" order="1"/> NH 2 </bondarray> </molecule> </cml>
CDX a CDXML Formáty ChemDraw CDX = binární formát CDXML = XML podoba CDX http://www.cambridgesoft.com/services/documenta Nejedná se o nezávislý standard, ale jeho dokumentace umožňuje použití mimo ChemDraw Jediný z prezentovaných formátů, který řeší I zobrazení struktury, např. barvy apod.
Konverze formátů OpenBabel - http://openbabel.org/wiki/main_page free software umožňuje konvertovat několik desítek formátů umožňuje i filtrovat struktury má bindingy do Pythonu, Ruby, Perlu, C# a dalších