LISp-Miner Na lékal kařských datech. Martin Šulc Cikháj 5.-4..005 4..005
Abstrakt Tato přednp ednáška je o systému vyvíjen jeném m na VŠE V E v Praze a o jeho aplikaci na data, která jsou genetickým obrazem lidí s rakovinou v různr zném stádiu.
Abstrakt Tato přednp ednáška je o systému vyvíjen jeném m na VŠE V E v Praze a o jeho aplikaci na data, která jsou genetickým obrazem lidí s rakovinou v různr zném stádiu. yly vyhledávány asociační pravidla, popisující geny, které reagují na onemocnění svou aktivitou.
Abstrakt Nemalou část projektu zabrala příprava prava dat, proto je obsahem přednášky i důkladný d popis databáze pro lepší pochopení toho co vlastně hledáme.
LISp-Miner Akademický softwarový systém LISp-Miner, který je vyvíjen na Fakultě informatiky a statistiky VŠE v Praze od roku 996, je určen studentům pro seznámení se s procesem dobývání znalostí z databází. Autoři: M. Šimůnek, J. Rauch, P. erka
LISp-Miner Skládá se čtyř základních modulů LMAdmin pro inicializaci databáze a metabáze (slouží pro ukládání nastavení a nalezených výsledků). LMDataSource pro přípravu p pravu dat. 4ftTask pro vytvářen ení úloh a dolování. 4ftResult pro analýzu výsledků.
Zdroj dat Lidé Zdravý (A) Nádor se vyvíjí () Metastáze (C)
Zdroj dat Geny Čtení scannerem - nastávají první chyby při čtení (šum, nečistoty). 6-bitové číslo pro každý fluorochrom zvlášť (0 až 65535), které udává intenzitu jasu flourohromu. U malých hodnot může nastat větší chyba.
Zdroj dat Analýza obrazu Používaj vají se různr zné programy (algoritmy) pro určen ení intenzity bodu. ScanAlyze GenePix Spot http://rana.lbl.gov/eisensoftware.htm
Zdroj dat Analýza obrazu Pro snímání obrazu scannerem se používaj vají dvě barvy. Cy3 zelená fluorescentní barva a Cy5 červená fluorescenční barva. Tyto dva obrazy se sloučí (sečtou) a analyzuje se výsledný obraz. Pro data, která byla použita v tomto projektu, byla použita barva Cy3 jako hlavní a Cy5 jako kontrolní u některých lidí.
Zdroj dat Čísla: pacientů,, každý měl m l dva sloupce Z jako zdravý, N jako nemocný 6 pacientů mělo navíc c kontrolní sloupce Dohromady tedy 36 sloupců
Zdroj dat Čísla: člověk k v kategorii A 5 lidí v kategorii 6 lidí v kategorii C Kategorie A a mají k sobě velmi blízko proto byli sloučeny (6 A a 6 C)
Zdroj dat Čísla: Databáze obsahovala záznam z znam o 90 genech, každý gen byl dvakrát skenovaný, takže e bylo celkem 3840 řádků. Ne všechny v geny byly pacientů.
Zdroj dat Na sklíčku ku byly: Geny pacientů Kontrolní body Jasně svítící body na sklíčku ku jsou použity jako negativní kontrola. Geny rostliny Arabidopsis Thaliana To je pozitivní kontrola, která se používá i jako kalibr.
Zdroj dat Mezi geny pacientů se přidp idávají geny rostliny Arabidopsis thaliana, které slouží jako pozitivní kontrola. Má na sto milionů genetických jednotek sloučených ve 6 000 genech a z těch t je třetina t podobných lidským. V rostlině je také asi polovina ze závaz važných humánn nních onemocnění,, kterých je asi 89. http://www.arabidopsis.org/
Příprava dat prava dat 4 64 5 58 50 50 80 845 446 74 494 805 545 439 78 48 497 75 7 65 39 30 98 50 4 49 93 30 55 50 4 64 85 40 9 5 43 64 69 4 9 50 686 557 65 58 55 930 600 550 77 069 7 800 4 49 86 4 88 65 4 64 49 3 333 65 3NC 3ZC NC ZC NC ZC
Příprava dat prava dat 4 64 5 58 50 50 80 845 446 74 494 805 545 439 78 48 497 75 7 65 39 30 98 50 4 49 93 30 55 50 4 64 85 40 9 5 43 64 69 4 9 50 686 557 65 58 55 930 600 550 77 069 7 800 4 49 86 4 88 65 4 64 49 3 333 65 3NC 3ZC NC ZC NC ZC Chyba
Příprava dat Významná data: Data jsou významná,, je-li významný rozdíl l nebo podíl l mezi stavem zdravý a nemocný, protože e tím t m vyniknou geny, které na rakovinu reagují. Významný rozdíl l je většív než 500. Významný podíl l je většív než,5. Co použít t pro výpočet?
Příprava dat Rozdíl l nebo podíl?
Příprava dat Rozdíl l nebo podíl? Není v tom rozdíl. Proč? Potřebujeme upravit data tak, aby nám n říkala zda je gen stabilní,, aktivní nebo snižuje svou aktivitu. A to se dád poznat z rozdílu i podílu. Například ale 64 / 4 = 3,9, přitom p ale čísla 64 a 4 jsou nevýznamná.. Data upravíme me
Příprava dat Rozdíl l nebo podíl? Zvolil jsem podíl. Je však v zapotřeb ebí data ještě před výpočtem podílu připravit. p Data je nutné zjednodušit.
Příprava dat Čísla jsou v intervalu od 0 do 65535, pokud nemocný mám hodnotu do 500 a zdravý také do 500, tak je to nevýznamný rozdíl.
Příprava dat Čísla jsou v intervalu od 0 do 65535, pokud nemocný mám hodnotu do 500 a zdravý také do 500, tak je to nevýznamný rozdíl. Zajímaj mají nás s rozdíly kde by zdravý měl l hodnotu například do 500 a nemocný hodnotu řádově násobku 500, to je viditelná změna a dád se říci, že e gen reaguje na onemocnění.
Příprava dat Vydělením databáze číslem 500 a zaokrouhlením nahoru, získáme hodnoty až 3. Pak Z/N. Výsledkem byly čísla menší, rovny nebo vetší než jedna, která říkala jestli je gen aktivnější, stabilní nebo snižuje svou aktivitu.
Příprava dat prava dat,5 0,5,666667 0,8 0,75,75,5,5 0,5
Příprava dat Na data použijeme funkci: (PS: data jsem upravoval v Microsoft Excel) =KDYŽ(W3840=;;KDY (W3840=;;KDYŽ(W3840>;;0))(W3840>;;0)) Respektive: if (x = ) { } elseif (x > ) { } else { 0 }
Příprava dat Popis upravených dat: Řádky, které jsou naplněny ny jen jedničkami jsou geny, které na onemocnění nereagují nebo je to Arabidopsis Thaliana. Číslo nula značí, že e gen zvyšuje svou aktivitu. Dvojka je u genu, který snižuje svou aktivitu.
Příprava dat prava dat 0 0 0 0 0 5C 4A 3C C C Sou Současn asná podoba dat: podoba dat:
Příprava dat Potřebn ebná podoba dat:,,,,,0,,0,,,,,,,0,,,,,,0,0,,,,,c,,,,0,0,0,0,,,,,,,,,,,,,,,,,,,c,,0,,,,0,,,,,,0,0,,,,,,,,,,,0,0,3c,,,,,0,,,,0,,,0,0,,0,,,,,0,0,,,0,0,4a 0,0,0,0,,,0,0,,,0,0,,,,,,,,,0,,,,,,5C,,,,,,,,,,,,,,,,,,,,0,,0,,,,6C,,,,0,0,,,,,,,,,,,,,,,,,,,,,7C,,,,,,,,,,,,,,,,,,,,0,,,,,,8 0,,,,,,,,,,,,,,,,,,,,,,,,0,,9
Příprava dat LISp-Miner pracuje s databází Microsoft Access, která je omezená na 56 sloupců.
Příprava dat LISp-Miner pracuje s databází Microsoft Access, která je omezená na 56 sloupců. Otočená databáze obsahuje 3840 sloupců s daty, plus jeden ID, atributy (A,, C) a atributy (R, N).
Příprava dat LISp-Miner pracuje s databází Microsoft Access, která je omezená na 56 sloupců. Otočená databáze obsahuje 3840 sloupců s daty, plus jeden ID, atributy (A,, C) a atributy (R, N). To byl pro LISp-Miner ještě před půl rokem problém. Sytém se ale vyvíjí
Příprava dat Import do databáze Microsoft Acess:
Import dat do LISp-Mineru Nová funkce pro import dat s více v než 56 sloupci:
Analýza dat Implicitní nastavení: Antecedent byly všechny v geny Succedent byl atribut C
Analýza dat Implicitní nastavení: Antecedent byly všechny v geny Succedent byl atribut C Výsledky Natavení je nevhodné pro tento typ dolování,, protože antecedent je nastaven na rozsah 0 aža 99 a my hledáme jeden gen, takže e potřebujeme aža.
Analýza dat Vlastní nastavení parametrů: ase 8 znamená, že e to bude platit nejméně pro 8 pacientů.
Analýza dat Výsledky: Nalezeno 50 hypotéz z (asociačních ch pravidel)
Analýza dat Pacient 37 38 C Podrobnější pohled na gen 37(38). Opravíme chyby 3 4 5 6 0 C C C C C 7 C 8 9 0 3 (4) 4 (8) 5 (9) 6 (0) 7 () 8 ()
Analýza dat Hledání chyb.
Analýza dat Hledání chyb.
Analýza dat Podrobnější pohled na gen 37(38). Opravíme chyby. Procenta: 00 % pro -> > C 66 % pro -> > ID 3 4 5 6 7 8 9 0 37 38 C C C C C C C 3 (4) 4 (8) 5 (9) 6 (0) 7 () 8 ()
Analýza dat Co nám n říká gen 37 (38)? Vezmeme-li náhodnn hodné lidi, tak pokud jejich gen nebude v hodnotě kolem 4000, ale pod hodnotu 000, tak se dád s 84% pravděpodobnost podobností říci, že e daný člověk k mám problém Procenta jsou však v jen orientační,, protože bylo k dispozici je jen pacientů a platilo to pro 0 z -ti.
Prostor na otázky Ptejte se