Chemické databáze. Bedřich Košata



Podobné dokumenty
Chemické formáty. Bedřich Košata

Experimentální systém pro WEB IR

Obecné principy chemických strukturních bází dat předmět projektu VaVpI ChemEIZ

Cvičení 5. Přednášející: Mgr. Rudolf B. Blažek, Ph.D. prof. RNDr. Roman Kotecký, DrSc.

Hardwarová realizace konečných automatů

Datové typy a struktury

Metodologie pro ISK 2, jaro Ladislava Z. Suchá

Modely vyhledávání informací 4 podle technologie. 1) Booleovský model. George Boole Aplikace booleovské logiky

Dolování asociačních pravidel

Tabulkový procesor. Základní rysy

Semestrální práce 2 znakový strom

PRODUKTY. Tovek Tools

Zobrazování barev Josef Pelikán CGG MFF UK Praha.

5 Orientované grafy, Toky v sítích

Základy algoritmizace. Pattern matching

ÚLOHY S POLYGONEM. Polygon řetězec úseček, poslední bod je totožný s prvním. 6 bodů: X1, Y1 až X6,Y6 Y1=X6, Y1=Y6 STANOVENÍ PLOCHY JEDNOHO POLYGONU

Zadání druhého zápočtového projektu Základy algoritmizace, 2005

Inovace a zkvalitnění výuky prostřednictvím ICT Základy programování a algoritmizace úloh. Ing. Hodál Jaroslav, Ph.D. VY_32_INOVACE_25 09

Číslo projektu: CZ.1.07/1.5.00/ Název projektu: Inovace a individualizace výuky Autor: Mgr. Martin Fryauf Název materiálu: Daktyloskopie

VYHLEDÁVÁNÍ V DATABÁZI WEB OF SCIENCE. Helena Landová Akademická knihovna JU

metoda Regula Falsi 23. října 2012

DETEKCE ANOMÁLNÍHO CHOVÁNÍ UŽIVATELŮ KATASTRÁLNÍCH MAPOVÝCH SLUŽEB

Princip funkce počítače

Úvod do programování 6. hodina

DOKUMENTACE Identifikace pomocí otisků prstů

1 Webový server, instalace PHP a MySQL 13

1. Databázové systémy (MP leden 2010)

ČVUT FEL X36PAA - Problémy a algoritmy. 4. úloha - Experimentální hodnocení algoritmů pro řešení problému batohu

4. Určete definiční obor elementární funkce g, jestliže g je definována předpisem

Vyšší odborná škola, Obchodní akademie a Střední odborná škola EKONOM, o. p. s. Litoměřice, Palackého 730/1

Výhody a nevýhody jednotlivých reprezentací jsou shrnuty na konci kapitoly.

Tovek Tools. Tovek Tools jsou standardně dodávány ve dvou variantách: Tovek Tools Search Pack Tovek Tools Analyst Pack. Připojené informační zdroje

CHEMICKÉ VÝPOČTY I. ČÁST LÁTKOVÉ MNOŽSTVÍ. HMOTNOSTI ATOMŮ A MOLEKUL.

PRODUKTY. Tovek Tools

Michal Krátký, Miroslav Beneš

jednoduchá heuristika asymetrické okolí stavový prostor, kde nelze zabloudit připustit zhoršují cí tahy Pokročilé heuristiky

Vícerozměrné statistické metody

Vývoj moderních technologií při vyhledávání. Patrik Plachý SEFIRA spol. s.r.o.

Instalace. Produkt je odzkoušen pro MS SQL server 2008 a Windows XP a Windows 7. Pro jiné verze SQL server a Windows nebyl testován.

Metodologie pro Informační studia a knihovnictví 2

Databázové a informační systémy

Využití nekorelovaných vícebodových farmakoforových otisků při virtuálním screeningu. Katedra softwarového inženýrství

Výpočet stechiometrického a sumárního vzorce

STANOVISKO č. 3/2009 květen 2009, poslední revize červen 2017

1. Umístěte kurzor do sloupce Datový typ na řádek s polem, ve kterém vytvořit chcete seznam.

S databázemi se v běžném životě setkáváme velmi často. Uvádíme běžné použití databází velkého rozsahu:

Databáze. Velmi stručný a zjednodušený úvod do problematiky databází pro programátory v Pythonu. Bedřich Košata

Uživatelský manuál. Aplikace GraphViewer. Vytvořil: Viktor Dlouhý

Statistické vyhodnocení průzkumu funkční gramotnosti žáků 4. ročníku ZŠ

Třetí skupina zadání projektů do předmětu Algoritmy II, letní semestr 2017/2018

Kategorie vytvořené na základě RVP a projektu Evaluace inf. gramotnosti žáků ZŠ.

Mužský princip a ženský princip

AUTOMATICKÉ ŘÍZENÍ S INTERNETOVOU KOMUNIKACÍ V PHP Automatic Control with Internet Communication in PHP

Faculty of Nuclear Sciences and Physical Engineering Czech Technical University in Prague

11. Tabu prohledávání

KRY. Projekt č. 2. Kamil Dudka xdudka00

Algoritmizace řazení Bubble Sort

Autoři: Pavel Zachař, David Sýkora Ukázky spekter k procvičování na semináři: Tento soubor je pouze prvním ilustrativním seznámením se základními prin

DesignCAD Express poznámky k vydání verze z 22/07/2015

Chemie. 8. ročník. Úvod do chemie. historie a význam chemie

Digitální učební materiál

Výukový materiál zpracován v rámci projektu EU peníze školám

JPEG Formát pro archivaci a zpřístupnění.

Věc: VZ: CEITEC Software k vyhodnocení výsledků pulzní gelové elektroforézy, dodatečné informace č.1 odpověď na dotaz uchazeče

CSS Paged Media aneb Gutenberg v prohlížeči Jirka Kosek

Vizuální dotazování v chemických databázích pomocí SMARTS vzorů

ČVUT FEL X36PAA - Problémy a algoritmy. 5. úloha - Seznámení se se zvolenou pokročilou iterativní metodou na problému batohu

Metodický koncept k efektivní podpoře klíčových odborných kompetencí s využitím cizího jazyka ATCZ62 - CLIL jako výuková strategie na vysoké škole

Gymnázium Vysoké Mýto nám. Vaňorného 163, Vysoké Mýto

Množina v C++ (set, multiset).

Webové stránky. 16. Obrázky na webových stránkách, optimalizace GIF. Datum vytvoření: str ánk y. Vytvořil: Petr Lerch.

Jazyk C++ II. STL knihovna kontejnery část 2

Lineární Regrese Hašovací Funkce

Informační systémy ve zdravotnictví

PSK2-5. Kanálové kódování. Chyby

Úvod do informatiky. Miroslav Kolařík. Zpracováno dle učebního textu R. Bělohlávka: Úvod do informatiky, KMI UPOL, Olomouc 2008.

Základní informace: vysoce komfortnímu prostředí je možné se systémem CP Recorder efektivně pracovat prakticky okamžitě po krátké zaškolení.

RELACE, OPERACE. Relace

Diagnostika infarktu myokardu pomocí pravidlových systémů

UNIVERZITA PARDUBICE Fakulta chemicko-technologická Katedra analytické chemie Nám. Čs. Legií 565, Pardubice

Zpracování informací a vizualizace v chemii (C2150) 1. Úvod, databáze molekul

12 Metody snižování barevného prostoru

Střední průmyslová škola strojnická Olomouc, tř.17. listopadu 49

Algoritmizace a programování

Gymnázium Jiřího Ortena, Kutná Hora

Základy interpretace hmotnostních spekter

CryptoNote exploit. aneb proč se musí body na Curve25519 validovat (pro Monero, ByteCoin...) abyssal

Způsoby realizace této funkce:

TGH09 - Barvení grafů

Bibliometrie v Národní technické knihovně ~ metody, zkušenosti, mise a vize. Mgr. Jakub Szarzec Národní technická knihovna

Algoritmizace prostorových úloh

Zdokonalování gramotnosti v oblasti ICT. Kurz MS Excel kurz 3. Inovace a modernizace studijních oborů FSpS (IMPACT) CZ.1.07/2.2.00/28.

VYTVÁŘENÍ DATABÁZÍ, VKLÁDÁNÍ ÚDAJŮ

LZ77 KNIHOVNA PRO KOMPRESI A DEKOMPRESI DAT POMOCÍ ALGORITMU LZ77. Příručka uživatele a programátora

Dílčí projekt: Systém projektování textilních struktur 1.etapa: tvorba systému projektování vlákno - příze - tkanina

Algoritmizace prostorových úloh

1. července 2010

Systém adresace paměti

Test. a) Osoba, zvíře, věc, která má svůj tvar rozměry a polohu. b) Věc, která tvoří látky c) Voda v lahvi d) Židla

Vyhledávání. doc. Mgr. Jiří Dvorský, Ph.D. Katedra informatiky Fakulta elektrotechniky a informatiky VŠB TU Ostrava. Prezentace ke dni 12.

Transkript:

Chemické databáze Bedřich Košata

Porovnávání molekul Hledání stejných struktur Hledání struktur obsahující fragment Hledání podobných molekul

Hledání stejných struktur Vyžaduje použití algoritmů pro isomorfii grafů Vyžaduje načtení grafu do paměti z úložného formátu Pro prosté grafy existuje polynomiální řešení Přesto porovnávání není rychlé Vyžaduje testování všech možných mapování mezi atomy Cesta ven je přes kanonický zápis Stačí porovnat InChI a máme výsledek Porovnávání stringů je rychlé a indexovatelné

Substrukturní vyhledávání Kanonický zápis nám nepomůže Porovnávání struktur je jediný způsob, který může dát definitivní odpověď Porovnávání struktur je pomalé při 1000 struktur / s => 1000000 struktur => 1000 s => 17 min. A co pro 10 000 000 sloučenin? A co při pouze 100 struktur / s? Potřebujeme metody pro screening chceme vyřadit co nejvíce kandidátů bez nutnosti dělat substrukturní vyhledávání

Screening Možné metody Molekulová hmotnost Počet atomů Počet atomů určitého prvku Počet kruhů Výskyt definovaných fragmentů

Jak ukládat data pro screening Čísla Výskyt fragmentů booleovské hodnoty velký počet ukládání po jedné je neefektivní => bitová pole => fingerprinty (otisky prstů)

Druhy fingerprintů Předdefinované Je předem známý seznam fragmentů, které se mají hledat MACCS keys 166 nebo 320 bitové Pokud má molekula daný bit nastavený, určitě obsahuje daný fragment Hash fingerprinty Pokud má molekula daný bit nastavený, možná obsahuje daný fragment Pokud nemá molekula daný bit nastavený, určitě neobsahuje daný fragment

MACCS keys 0 >= 4 H 1 >= 8 H 2 >= 16 H 3 >= 32 H 4 >= 1 Li 5 >= 2 Li 6 >= 1 B 7 >= 2 B 8 >= 4 B... Section 2: Rings in a canonic Extended Smallest Set of Smallest Rings (ESSSR) ring set... 115 >= 1 any ring size 3 116 >= 1 saturated or aromatic carbon-only ring size 3 117 >= 1 saturated or aromatic nitrogen-containing ring size 3 118 >= 1 saturated or aromatic heteroatom-containing ring size 3 119 >= 1 unsaturated non-aromatic carbon-only ring size 3... Section 7: Complex SMARTS patterns... 713 Cc1ccc(C)cc1 714 Cc1ccc(O)cc1

Hash fingerprinty Nalezneme v molekule všechny fragmenty podle nějakého pravidla např. všechny lineální fragmenty od 3 do 7 atomů (Daylight fingerprint) Nějakou hash funkcí jim přiřadíme číslo od 0 do velikosti fingerprintu např. 0-1023 (1024 bitů, 128 bytů) pro zajištění rozsahu použijem % (x % 1024 <= 1024) Nastavíme bit s tímto číslem na 1

Hash fingerprinty Vzhledem k použití hash funkce může víc fragmentů spadnout do jedné hodnoty => nelze na základě nastaveného bitu usoudit na existenci => lze na základě neexistence bitu usoudit na neexistenci fragmentu => to nám pro screening stačí

Jak porovnávat fingerprinty Hledaný fragment => fp1 Zkoumaná molekula => fp2 zkoumaná molekula musí mít všechny fragmenty z hledané fp2 musí obsahovat všechny bity z fp1 fp2 & fp1 == fp1 (žádný bit z fp1 se nesmí vynulovat) (fp2 & fp1) ^ fp1 == 0

Hledání podobných struktur Podobnost je subjektivní věc Methanol a ethanol jsou pro chemika často zaměnitelné, ale při pití je to rozdíl Někdy lze použít isomorfii grafů k posouzení jak velká část molekul je totožná nepřekousne např. rozdíl mezi cyklopenanem a cyklohexanem v jinak naprosto totožné struktuře Fingerprinty jsou opět cesta vpřed sloučeniny s podobnými otisky prstů jsou nejspíš podobné

Jak určit podobnost fingerprintů Nejde jen o množství stejných fragmentů Je třeba počítat i s rozdíly a = počet společných bitů (průnik, fp1 & fp2) b = počet všech nastavených bitů (sjednocení, fp1 fp2) Tanimoto koeficient a/b od 0 do 1 stejné fingerprinty 1, žádný průnik 0 jeden v 10 mimo => 9/10 => 0.9

Pár věcí na závěr Né všechny fingerprinty jsou stejně vhodné kratší fingerprinty nemají rozlišovací schopnost delších Fingerprinty založené na předdefinovaných fragmentech se liší schopností popsat některé molekuly (mohou a nemusí obsahovat bit pro specifickou skupinu) Algoritmus pro získání hash fingerprintu ovlivňuje jeho selektivitu

Volně dostupné implementace OpenBabel umí počítat a porovnávat fingeprinty Mychem a Pgchem implementace chemických funkcí na MySQL a PostgreSQL s pomocí OpenBabelu CDK Chemistry Development Kit