Chemické formáty. Bedřich Košata



Podobné dokumenty
LINEÁRNÍ REPREZENTACE CHEMICKÝCH STRUKTUR. JIŘÍ JIRÁT a,b a DANIEL SVOZIL a,b. Obsah. 1. Úvod co jsou linearizované zápisy chemických struktur?

Typy vzorců v organické chemii

CHEMIE - Úvod do organické chemie

Chemické báze dat. Problematika vyhledávání anorganických sloučenin v bázích Chemical Abstracts a Reaxys. Jaroslav Šilhánek

Chemické repetitorium. Václav Pelouch

Názvosloví anorganických sloučenin

Základy chemického názvosloví

Organická chemie - úvod

Gymnázium Vysoké Mýto nám. Vaňorného 163, Vysoké Mýto

II. Chemické názvosloví

Úvod do studia organické chemie

Chemické databáze. Bedřich Košata

Informace a jejich výměna v chemii

Výukový materiál zpracován v rámci operačního projektu. EU peníze školám. Registrační číslo projektu: CZ.1.07/1.5.00/

ORGANICKÉ SLOUČENINY

Absorpční fotometrie

Organická chemie 3.ročník studijního oboru - kosmetické služby.

Složení látek a chemická vazba Číslo variace: 1

Organická chemie - úvod

U Ústav procesní a zpracovatelské techniky FS ČVUT

Částicové složení látek atom,molekula, nuklid a izotop

Izomerie a stereochemie

Orbitaly, VSEPR 1 / 18

Autoři: Pavel Zachař, David Sýkora Ukázky spekter k procvičování na semináři: Tento soubor je pouze prvním ilustrativním seznámením se základními prin

Orbitaly, VSEPR. Zdeněk Moravec, 16. listopadu / 21

DUM VY_52_INOVACE_12CH24

DUM VY_52_INOVACE_12CH29

Jazyky pro popis dat

Opakování učiva organické chemie Smart Board

OPVK CZ.1.07/2.2.00/

Chemické názvosloví anorganických sloučenin 2

ANORGANICKÁ ORGANICKÁ

SPEKTROSKOPIE NUKLEÁRNÍ MAGNETICKÉ REZONANCE

Chemické názvosloví anorganických sloučenin 1

Chemie. Mgr. Petra Drápelová Mgr. Jaroslava Vrbková. Gymnázium, SOŠ a VOŠ Ledeč nad Sázavou

KOMPLEXOTVORNÉ REAKCE

Mgr. Jakub Janíček VY_32_INOVACE_Ch1r0118

Organická chemie. názvosloví acyklických uhlovodíků

Teorie hybridizace. Vysvětluje vznik energeticky rovnocenných kovalentních vazeb a umožňuje předpovědět prostorový tvar molekul.

Hmotnost atomů a molekul 6 Látkové množství 11. Rozdělení směsí 16 Separační metody 20. Hustota, hmotnostní a objemový zlomek 25.

P7 Počítání vodíků CH3 C=CH-OH CH3. Příklad: CC(CC(C)O)=C je: CH3 CH3 C-CH-CH-OH CH3. jednoduše považujte c za zvláštní druh atomu.

Organická chemie. v jednoduchém názvosloví. Organická chemie, uhlovodíky

INTERSTENO 2015 Budapest World championship professional Word Processing

SADA VY_32_INOVACE_CH1

DUM VY_52_INOVACE_12CH05

Uhlovodíky -pracovní list

DUM VY_52_INOVACE_12CH01

Zpracování informací a vizualizace v chemii (C2150) 1. Úvod, databáze molekul

Úvod do strukturní analýzy farmaceutických látek

I. NÁZVOSLOVN ZVOSLOVÍ

17. Organické názvosloví

1. Webové služby. K čemu slouží? 2. RPC Web Service. 3. SOA Web Service. 4. RESTful Web services

Výukový materiál zpracován v rámci projektu EU peníze školám

Alkany a cykloalkany

CHEMICKÝ PRVEK, SLOUČENINA

Oxidační číslo je rovno náboji, který by atom získal po p idělení všech vazebných elektronových párů atomům s větší elektronegativitou.

Uhlovodíky modelování pomocí soupravy základní struktury

CHO cvičení, FSv, ČVUT v Praze

DUM VY_52_INOVACE_12CH31

EU peníze středním školám digitální učební materiál

Teorie chemické vazby a molekulární geometrie Molekulární geometrie VSEPR

Uhlovodíky Ch_026_Uhlovodíky_Uhlovodíky Autor: Ing. Mariana Mrázková

11. Anorganicke na zvoslovı

2.3 CHEMICKÁ VAZBA. Molekula bílého fosforu P 4 a kyseliny sírové H 2 SO 4. Předpona piko p je dílčí jednotkou a udává velikost m.

Aromacké uhlovodíky reakce

stechiometrický vzorec, platné číslice 1 / 10

Jméno autora: Mgr. Ladislav Kažimír Datum vytvoření: Číslo DUMu: VY_32_INOVACE_14_Ch_OB Ročník: I. Vzdělávací oblast: Přírodovědné

Univerzita Karlova v Praze Matematicko-fyzikální fakulta BAKALÁŘSKÁ PRÁCE

Gymnázium Vysoké Mýto nám. Vaňorného 163, Vysoké Mýto

NÁZVOSLOVÍ ANORGANICKÝCH SLOUČENIN

Doplňte počet uhlíků k předponě:

Tematická oblast: Obecná chemie (VY_32_INOVACE_03_3)

TEST 2. Anotace: Očekávaný výstup: Klíčová slova Organizace řízení učební činnosti: Nutné pomůcky:

Výukový materiál zpracován v rámci operačního projektu. EU peníze školám. Registrační číslo projektu: CZ.1.07/1.5.00/

Chemie 2018 CAUS strana 1 (celkem 5)

O Minimální počet valencí potřebných ke spojení vícevazných atomů = (24 C + 3 O + 7 N 1) * 2 = 66 valencí

Substituční deriváty karboxylových kyselin

Základní škola a mateřská škola Hutisko Solanec. žák uvede základní druhy uhlovodíků, jejich použití a zdroje. Chemie - 9. ročník

DUM VY_52_INOVACE_12CH04

Novinky mobilních aplikací imos a imiks

INTERPRETACE INFRAČERVENÝCH SPEKTER

Moderní technologie ve studiu aplikované fyziky CZ.1.07/2.2.00/ Množiny, funkce

Ch - Uhlovodíky VARIACE

Microsoft Office. Excel vlastní formát buněk

Karboxylové kyseliny. Ing. Lubor Hajduch ZŠ Újezd Kyjov

DUSÍK NITROGENIUM 14,0067 3,1. Doplňte:

EU PENÍZE ŠKOLÁM Operační program Vzdělávání pro konkurenceschopnost

Procvičování uhlovodíky pracovní list

Názvosloví. Názvosloví binárních sloučenin. Struktura prezentace: DOPORUČENÍ OXIDAČNÍ ČÍSLA. Při cvičení se vzorci a názvy si vždy pište


Základy rozpočtování s využitím IT

Tento materiál byl vytvořen v rámci projektu Operačního programu

Struktura proteinů. - testík na procvičení. Vladimíra Kvasnicová

ALKYNY. Autor: Mgr. Stanislava Bubíková. Datum (období) tvorby: Ročník: devátý

3. V nádobách na obrázku č. 2 jsou látky, které můžeme mít doma. Některé z nich jsou anorganické

EU peníze středním školám digitální učební materiál

Transkript:

Chemické formáty Bedřich Košata

SMILES Simplified Molecular Input Line Entry Specification Navržen pro použití lidmi Podobná normálnímu zápisu chemických struktur Umožňuje ale nevyžaduje kanonickou formu

Pravidla pro SMILES Symboly atomů se píšou do hranatých závorek spolu s počtem vodíků, specifikací isotopu a nábojem: [CH4], [CH3]-[CH3], [C], [Pb], [Zn++], [Zn2+], [14CH3-],[2H+] Prvky běžné v organické chemii patří do tzv. "organic subset" "organické podmnožiny". U těch není třeba používat hranaté závorky a uvádět počet vodíků explicitně mají implicitní vaznost. Patří sem [B, C, N,O, P, S, F, Cl, Br, I]

SMILES - vazby Vazby Jednoduchá "-" Dvojná "=" Trojná "#" Čtverná "$" Aromatická ":" Nulová "." Pro vyjádření solí, komplexů, apod. Např. [Na+].[Cl-] místo [Na]Cl, CC(=O)[O-].[NH4+], apod.

SMILES - atomy Mezi atomy se předpokládá jednoduchá vazba: "CCC" = "C-C-C" Aromatická vazba mezi atomy z "organic subset" je implikovaná pokud je symbol zapsán malými písmeny: "C:1:C:C:C:C:C:1" = "c1ccccc1"

SMILES větvení Větvení se zapisuje pomocí závorek: CC(C) (C)CCl je 1-chlor-2,2-dimethylpropan Větvení lze rekurzivně vkládat do sebe, ve větvích lze používat čísla pro vytváření kruhů: CC(C(C(C)C)C)CC

SMILES kruhy Kruhy se vytváří pomocí čísel za symbolem atomu. Odpovídající čísla se spojí vazbou. Čísla, která se jednou spojí lze recyklovat: "C1CC1C2CC2" = "C1CC1C1CC1" Čísla jsou pouze jednociferná "C12" neznamená jeden kruh s číslem 12, ale dva s čísly 1 a 2

SMILES cis-trans isomerie Pro vyjádření isomerie na dvojných vazbách se používají odlišné symboly pro jednoduchá vazby - "\" a "/" "\" značí směr dolů, "/" směr nahoru C\C=C\C trans-but-2-en

Molfile Rodina formátů CTFile Základem je connection table (CT, spojovací tabulka)

Molfile Connection table comment comment comment 12 12 0 0 0 0 0 0 0 0999 V2000 134.6302 181.9725 0.0000 C 0 0 0 0 0 0 0 0 0 0 0 0 157.3151 195.0787 0.0000 C 0 0 0 0 0 0 0 0 0 0 0 0 180.0000 181.9725 0.0000 C 0 0 0 0 0 0 0 0 0 0 0 0 180.0000 155.8114 0.0000 C 0 0 0 0 0 0 0 0 0 0 0 0 134.6302 155.8114 0.0000 C 0 0 0 0 0 0 0 0 0 0 0 0 157.3151 142.7052 0.0000 C 0 0 0 0 0 0 0 0 0 0 0 0 202.6908 195.0684 0.0000 C 0 0 0 0 0 0 0 0 0 0 0 0 225.3777 181.9656 0.0000 C 0 5 0 0 0 0 0 0 0 0 0 0 202.6948 221.2673 0.0000 O 0 0 0 0 0 0 0 0 0 0 0 0 248.0685 195.0616 0.0000 C 0 0 0 0 0 0 0 0 0 0 0 0 111.9394 142.7154 0.0000 O 0 0 0 0 0 0 0 0 0 0 0 0 89.2525 155.8183 0.0000 C 0 0 0 0 0 0 0 0 0 0 0 0 3 4 1 0 0 0 0 3 7 1 0 0 0 0 5 6 1 0 0 0 0 4 6 2 0 0 0 0 8 10 1 0 0 0 0 11 12 1 0 0 0 0 7 9 2 0 0 0 0 5 11 1 0 0 0 0 1 5 2 0 0 0 0 2 3 2 0 0 0 0 7 8 1 0 0 0 0 1 2 1 0 0 0 0 M END O O

Rodina CTFile Struktura Reakce Víc kusů Popis Molfile ano ne ne Rnxfile ano ano ne SDFile ano ne ano RDFile ano ano ano XDFile ano ano ano založený na XML

InChI Velice mladý formát (~2005) Produkt spolupráce IUPAC a NIST Kanonický formát Vysoký stupeň normalizace Vrstevnatá struktura Umožňuje porovnávat struktury na různých úrovních detailu V roce 2009 vzniklo tzv. Standardní InChI, které neumožňuje nijak nastavovat parametry výstupu, jako to uměla předchozí verze. Označuje se 1S/ na začátku InChI.

InChI - struktura Vrstvy jsou oddělené lomítkem Čísla atomů jsou přiřazená v pořadí sumárního vzorce Např. 1-11 = C, 12 = N, 13,14 = O 14 6 5 O 11 9 8 1 verze 7 O 13 10 4 3 HN12 2 H InChI=1S/C11H15NO2/c1-8(12-2)5-9-3-4-10-11(6-9)14-7-13-10/h3-4,6,8,12H,5,7H2,1-2H3/t8-/m1/s1 sumární vzorec konektivita vodíky stereochemie

InChI - struktura OH 1S/C5H8O/c1-2-3-4-5-6/h6H,2,5H2,1H3 1S/C6H10/c1-3-5-6-4-2/h3-4H2,1-2H3 1S/C6H10/c1-6-4-2-3-5-6/h4H,2-3,5H2,1H3 1S/C6H10/c1-6-4-2-3-5-6/h2,4,6H,3,5H2,1H3

InChI normalizace Tautomery mají stejné InChI InChI neukládá řády vazeb, takže tautomery se liší pouze umístěním atomů vodíku Vrstva popisující vodíky obsahuje u tauteomerů informaci typu "2 atomy vodíku rozprostřené po 3 atomech kyslíku". Standardní InChI defaultně obsahuje tzv. FixedH, což způsobí přidání další vrstvy, která popisuje skutečné umístění vodíků H 3 C O H 3 C OH OH O InChI=1/C2H4O2/c1-2(3)4/h1H3,(H,3,4)

InChI normalizace OH O N NH N OH N O H InChI=1/C4H4N2O2/c7-3-1-2-5-4(8)6-3/h1-2H,(H2,5,6,7,8) InChI bez zafixovaných vodíků /f/h7-8h /f/h5-6h Vrstva pro zafixované vodíky

InChI cvičení Pokuste se nakreslit následující sloučenin podle jejich InChI: InChI=1/C3H8O/c1-2-3-4/h4H,2-3H2,1H3 InChI=1/C4H4O/c1-2-4-5-3-1/h1-4H InChI=1/C3H8O3S/c1-2-3-7(4,5)6/h2-3H2,1H3, (H,4,5,6)/f/h4H InChI=1/C4H10O3/c5-1-3-7-4-2-6/h5-6H,1-4H2 InChI=1/C5H5NO/c7-5-3-1-2-4-6-5/h1-4H,(H,6,7) InChI=1/C9H11NO/c1-3-7-6-8(10)4-5-9(7)11-2/h3-6H,1,10H2,2H3

InChIKey Hash konstantní délky založená na InChI Skládá se ze tří částí 14 znaků pro strukturu 10 znaků pro stereo, fixedh, a další 1 znak pro protonaci/deprotonaci (N=0,M=-1,O=+1) Ukázky WPYMKLBDIGXBTP-UHFFFAOYSA-N (kyselina benzoová)

Zajímavé InChIKey (starší formát) 609021 2-phenyl-5-propan-2-yl-1,3-thiazole DIBUSZLHFVADTN-UHFFFAOYAR 23409537 N-(3-chloro-4-methylphenyl)-2-(2- methyl-3-oxo-1,4-benzoxazin-4-yl)acetamide KLIMTWNPOCEKDX-UYBDAZJACN 23023269 (dicyclohexylamino) phenyl phosphate CECHVCXOELQOQU- CDOZQSGQCX 24264883 2-(pyridin-3-ylmethyl)butanoic acid PRASEVZRVWVPGQ-XWKXFZRBCR

CML XML formát Bohužel implementace pokulhává za nápady autorů Z hlediska XML obsahuje problematický design x2,y2 vs. x3,y3,z3 Jako standard má také některé záporné stránky Přílišná volnost v oblastech kde by jediný způsob vyjádření stačil Atribut convention umožňuje použít definice z jiných standardů, např. convention="mdl" umožňuje označit stereochemii podle specifikace Molfile

CML <?xml version="1.0"?><cml> <molecule id="molecule57132"> <atomarray> <atom elementtype="c" id="atom43832" x2="159.625730994" y2="218.984795322"/> <atom elementtype="c" id="atom55076" x2="182.306432749" y2="205.885380117"/> <atom elementtype="c" id="atom12319" x2="204.987134503" y2="218.984795322"/> <atom elementtype="c" id="atom9876" x2="204.987134503" y2="245.14619883"/> <atom elementtype="c" id="atom61464" x2="159.625730994" y2="245.14619883"/> <atom elementtype="c" id="atom98258" x2="182.306432749" y2="258.283040936"/> <atom elementtype="c" id="atom51255" x2="227.705263158" y2="205.885380117"/> <atom elementtype="o" id="atom24164" x2="227.705263158" y2="179.686549708"/> <atom elementtype="n" id="atom34948" x2="182.306432749" y2="284.481871345"/> <atom elementtype="o" formalcharge="-1" id="atom21705" x2="250.385964912" y2="219.022222222"/> </atomarray> <bondarray> <bond atomrefs2="atom51255 atom24164" order="2"/> O <bond atomrefs2="atom98258 atom34948" order="1"/> <bond atomrefs2="atom43832 atom61464" order="2"/> <bond atomrefs2="atom51255 atom21705" order="1"/> O <bond atomrefs2="atom43832 atom55076" order="1"/> - <bond atomrefs2="atom12319 atom9876" order="1"/> <bond atomrefs2="atom61464 atom98258" order="1"/> <bond atomrefs2="atom55076 atom12319" order="2"/> <bond atomrefs2="atom9876 atom98258" order="2"/> <bond atomrefs2="atom12319 atom51255" order="1"/> NH 2 </bondarray> </molecule> </cml>

CDX a CDXML Formáty ChemDraw CDX = binární formát CDXML = XML podoba CDX http://www.cambridgesoft.com/services/documenta Nejedná se o nezávislý standard, ale jeho dokumentace umožňuje použití mimo ChemDraw Jediný z prezentovaných formátů, který řeší I zobrazení struktury, např. barvy apod.

Konverze formátů OpenBabel - http://openbabel.org/wiki/main_page free software umožňuje konvertovat několik desítek formátů umožňuje i filtrovat struktury má bindingy do Pythonu, Ruby, Perlu, C# a dalších