Podobné dokumenty
Microsoft Excel 2007 pokročilé metody a funkce

Microsoft Excel 2010 pokročilé metody a funkce

Náhodný pokus každá opakovatelná činnost, prováděná za stejných nebo přibližně stejných podmínek, jejíž výsledek je nejistý a závisí na náhodě.

Obsah. Základy práce s databází 13. Tabulky 43. Obsah. Úvod 9 Poděkování 12

LISp-Miner Martin Šulc Projekt do předmětu Vyhledávání znalostí v databázích

IB108 Sada 1, Příklad 1 Vypracovali: Tomáš Krajča (255676), Martin Milata (256615)

Analýza spolehlivosti tlakové nádoby metodou Monte Carlo


Dobývání znalostí z databází (MI-KDD) Přednáška číslo 9 Využití doménových znalostí

Lenka Zalabová. Ústav matematiky a biomatematiky, Přírodovědecká fakulta, Jihočeská univerzita. zima 2012

5 Tabulky a seznamy dat Příklad 3 Excel 2010

Informační systémy pro podporu rozhodování

Intervalové stromy. Představme si, že máme posloupnost celých čísel p 0, p 1,... p N 1, se kterou budeme. 1. Změna jednoho čísla v posloupnosti.

Predispozice pro výuku IKT (2015/2016)

Informatika I. ení 5 - podpora

DYNAMICKÉ PROGRAMOVÁNÍ A PROBLÉM BATOHU

VÝUKA IVT na 1. stupni

Stravenky Exit. 1. Spuštění modulu Stravenky Exit

Determinant. Definice determinantu. Permutace. Permutace, vlastnosti. Definice: Necht A = (a i,j ) R n,n je čtvercová matice.

Algoritmizace a programování

Kód uchazeče ID:... Varianta: 14

KAPITOLA 2.4 LÁTKY OHROŽUJÍCÍ ŽIVOTNÍ PROSTŘEDÍ (VODNÍ PROSTŘEDÍ)

Doc. Ing. Stanislav Kocman, Ph.D.

Digitalizace signálu (obraz, zvuk)

6. Lineární (ne)rovnice s odmocninou

Regresní a korelační analýza

Teoretická rozdělení

LED_007.c Strana: 1/5 C:\Michal\AVR\Výukové programy\archiv\ Poslední změna: :01:48

4ST201 STATISTIKA CVIČENÍ Č. 8

Inovace výuky prostřednictvím ICT v SPŠ Zlín, CZ.1.07/1.5.00/ Vzdělávání v informačních a komunikačních technologií

. Určete hodnotu neznámé x tak, aby

Některé zákony rozdělení pravděpodobnosti. 1. Binomické rozdělení

DUM 01 téma: Obecné vlastnosti tabulkového editoru, rozsah, zápis do buňky, klávesové zkratky

Prognóza poruchovosti vodovodních řadů pomocí aplikace Poissonova rozdělení náhodné veličiny

Kód uchazeče ID:... Varianta: 15

Úloha č. 1 Rozměry fotografie jsou a = 12 cm a b = 9 cm. Fotografii zvětšíme v poměru 5 : 3. Určete rozměry zvětšené fotografie.

PROJEKT DO STATISTIKY PRŮZKUM V TECHNICKÉ MENZE

Y36SAP - aritmetika. Osnova

Vzorový příklad Energetický model (zelená louka)

1)! 12 a) 14 a) K = { 1 }; b) K = { 6 }; c) K ={ 2 }; d) K ={ 3 }; e) K ={ 4 }; f) K = 0 ! ; N; 17 a) K =N; b) K ={ 2; 3;

Pomůcka pro cvičení: 3. semestr Bc studia

Masarykova univerzita. Fakulta informatiky. Evoluce pohybu

Maticové operace projekt č. 3

N-trophy. kvalifikace KVÍK! Soòa Dvoøáèková - Kristýna Fousková - Martin Hanžl. Gymnázium, Brno-Øeèkovice.

Cvičení ze statistiky - 4. Filip Děchtěrenko

Manuál pro WebRSD. verze 2.0 z

Zásoby_Evidenční výroba Návod pro uživatele +1367

Problémy konstrukce a implementace modelů strukturální analýzy

Přírodopis v očích žáků II. stupně základních škol

Přednáška 5. Výběrová šetření, Exploratorní analýza

Digitální učební materiál

Příprava na 1. čtvrtletní písemku pro třídu 1EB

5 Rekurze a zásobník. Rekurzivní volání metody

UNIVERZITA PARDUBICE Fakulta chemicko-technologická Katedra analytické chemie Nám. Čs. Legií 565, Pardubice

PROGRAM ACS Control návod k použití

1. a) Přirozená čísla

5. Maticová algebra, typy matic, inverzní matice, determinant.

DPH v Exact Globe Next 2013

Profesionální software pro tvorbu a správu internetového obchodu verze 3.0

20. Projekt Domácí mediotéka

Pokyny pro platby příspěvků zaměstnavatele


Návod na E-Shop. tel.: , fax: , helpdesk: ,

CZ.1.07/1.5.00/

Poznámky k předmětu Aplikovaná statistika, 9.téma

Jak pracovat s absolutními hodnotami

Organizační pokyny k přednášce. Matematická statistika. Přehled témat. Co je statistika?

2. Začínáme. Uživatelský manuál

Vzdělávání v egoncentru ORP Louny

Návod k obsluze programu ERVE4

MINISTERSTVO PRO MÍSTNÍ ROZVOJ UŽIVATELSKÁ PŘÍRUČKA IS KP 14+ PRO INTEGROVANÉ NÁSTROJE: ŽÁDOST O PODPORU STRATEGIE CLLD. Verze: 1.

1. Problematika účetních výkazů a jejich aktualizace

STUDIE. SEVERNÍHO OBCHVATU MĚSTA PŘELOUČ silnice č. I/2 PROJEKTANT VYPRACOVAL KRESLIL KONTROLOVAL DOC. DOLEŽEL ING.LOPOUR ING.LOPOUR DOC.

SPRÁVA STÁTNÍCH HMOTNÝCH REZERV

Univerzitní informační systém. Mendelova univerzita v Brně. Ubytování. Svazek 7. Verze: 1.43 Datum: 10. března 2016 Autor: Jitka Šedá, Martin Tyllich

Plexo komplety IP 55 IK 07

Stav: červen TRACK-Guide

Řízení spotřeby Uživatelská příručka

LOGIC. Stavebnice PROMOS Line 2. Technický manuál

VYSOKÁ ŠKOLA EKONOMICKÁ V PRAZE. Optimalizace trasy při revizích elektrospotřebičů


Napájení. Uživatelská příručka

4ft-Miner pro začátečníky Získávání znalostí z databází

Pracovní list VY_32_INOVACE_33_15 Databáze Databáze Databáze Test Ing. Petr Vilímek

4. POČÍTAČOVÉ CVIČENÍ

Název DUM: VY_32_INOVACE_2B_15_Základy_práce_v_tabulkovém_editoru_EXCEL_2007

METODICKÉ LISTY. výstup projektu Vzdělávací středisko pro další vzdělávání pedagogických pracovníků v Sokolově

Odbor odpadů Vršovická 65, Praha 10 V Praze dne 28. ledna 2016 S D Ě L E N Í

U ivatelské ovládání systému. (práce v re imech Hand a Auto)

přirozený algoritmus seřadí prvky 1,3,2,8,9,7 a prvky 4,5,6 nechává Metody řazení se dělí:

Manuál k užívání aplikace Monitoringrejstriku.cz

Regulátor topení, komunikativní

Použití ovládacích prvků formulářů v listu aplikace Excel

6. T e s t o v á n í h y p o t é z

UŽIVATELSKÁ PŘÍRUČKA

Sada 2 - MS Office, Excel

11 Soustavy rovnic a nerovnic, Determinanty a Matice

10. Editor databází dotazy a relace

Semestrální projekt. do předmětu Statistika. Vypracoval: Adam Mlejnek Oponenti: Patrik Novotný Jakub Nováček Click here to buy 2

Matematická statistika

Transkript:

LISp-Miner Na lékal kařských datech. Martin Šulc Cikháj 5.-4..005 4..005

Abstrakt Tato přednp ednáška je o systému vyvíjen jeném m na VŠE V E v Praze a o jeho aplikaci na data, která jsou genetickým obrazem lidí s rakovinou v různr zném stádiu.

Abstrakt Tato přednp ednáška je o systému vyvíjen jeném m na VŠE V E v Praze a o jeho aplikaci na data, která jsou genetickým obrazem lidí s rakovinou v různr zném stádiu. yly vyhledávány asociační pravidla, popisující geny, které reagují na onemocnění svou aktivitou.

Abstrakt Nemalou část projektu zabrala příprava prava dat, proto je obsahem přednášky i důkladný d popis databáze pro lepší pochopení toho co vlastně hledáme.

LISp-Miner Akademický softwarový systém LISp-Miner, který je vyvíjen na Fakultě informatiky a statistiky VŠE v Praze od roku 996, je určen studentům pro seznámení se s procesem dobývání znalostí z databází. Autoři: M. Šimůnek, J. Rauch, P. erka

LISp-Miner Skládá se čtyř základních modulů LMAdmin pro inicializaci databáze a metabáze (slouží pro ukládání nastavení a nalezených výsledků). LMDataSource pro přípravu p pravu dat. 4ftTask pro vytvářen ení úloh a dolování. 4ftResult pro analýzu výsledků.

Zdroj dat Lidé Zdravý (A) Nádor se vyvíjí () Metastáze (C)

Zdroj dat Geny Čtení scannerem - nastávají první chyby při čtení (šum, nečistoty). 6-bitové číslo pro každý fluorochrom zvlášť (0 až 65535), které udává intenzitu jasu flourohromu. U malých hodnot může nastat větší chyba.

Zdroj dat Analýza obrazu Používaj vají se různr zné programy (algoritmy) pro určen ení intenzity bodu. ScanAlyze GenePix Spot http://rana.lbl.gov/eisensoftware.htm

Zdroj dat Analýza obrazu Pro snímání obrazu scannerem se používaj vají dvě barvy. Cy3 zelená fluorescentní barva a Cy5 červená fluorescenční barva. Tyto dva obrazy se sloučí (sečtou) a analyzuje se výsledný obraz. Pro data, která byla použita v tomto projektu, byla použita barva Cy3 jako hlavní a Cy5 jako kontrolní u některých lidí.

Zdroj dat Čísla: pacientů,, každý měl m l dva sloupce Z jako zdravý, N jako nemocný 6 pacientů mělo navíc c kontrolní sloupce Dohromady tedy 36 sloupců

Zdroj dat Čísla: člověk k v kategorii A 5 lidí v kategorii 6 lidí v kategorii C Kategorie A a mají k sobě velmi blízko proto byli sloučeny (6 A a 6 C)

Zdroj dat Čísla: Databáze obsahovala záznam z znam o 90 genech, každý gen byl dvakrát skenovaný, takže e bylo celkem 3840 řádků. Ne všechny v geny byly pacientů.

Zdroj dat Na sklíčku ku byly: Geny pacientů Kontrolní body Jasně svítící body na sklíčku ku jsou použity jako negativní kontrola. Geny rostliny Arabidopsis Thaliana To je pozitivní kontrola, která se používá i jako kalibr.

Zdroj dat Mezi geny pacientů se přidp idávají geny rostliny Arabidopsis thaliana, které slouží jako pozitivní kontrola. Má na sto milionů genetických jednotek sloučených ve 6 000 genech a z těch t je třetina t podobných lidským. V rostlině je také asi polovina ze závaz važných humánn nních onemocnění,, kterých je asi 89. http://www.arabidopsis.org/

Příprava dat prava dat 4 64 5 58 50 50 80 845 446 74 494 805 545 439 78 48 497 75 7 65 39 30 98 50 4 49 93 30 55 50 4 64 85 40 9 5 43 64 69 4 9 50 686 557 65 58 55 930 600 550 77 069 7 800 4 49 86 4 88 65 4 64 49 3 333 65 3NC 3ZC NC ZC NC ZC

Příprava dat prava dat 4 64 5 58 50 50 80 845 446 74 494 805 545 439 78 48 497 75 7 65 39 30 98 50 4 49 93 30 55 50 4 64 85 40 9 5 43 64 69 4 9 50 686 557 65 58 55 930 600 550 77 069 7 800 4 49 86 4 88 65 4 64 49 3 333 65 3NC 3ZC NC ZC NC ZC Chyba

Příprava dat Významná data: Data jsou významná,, je-li významný rozdíl l nebo podíl l mezi stavem zdravý a nemocný, protože e tím t m vyniknou geny, které na rakovinu reagují. Významný rozdíl l je většív než 500. Významný podíl l je většív než,5. Co použít t pro výpočet?

Příprava dat Rozdíl l nebo podíl?

Příprava dat Rozdíl l nebo podíl? Není v tom rozdíl. Proč? Potřebujeme upravit data tak, aby nám n říkala zda je gen stabilní,, aktivní nebo snižuje svou aktivitu. A to se dád poznat z rozdílu i podílu. Například ale 64 / 4 = 3,9, přitom p ale čísla 64 a 4 jsou nevýznamná.. Data upravíme me

Příprava dat Rozdíl l nebo podíl? Zvolil jsem podíl. Je však v zapotřeb ebí data ještě před výpočtem podílu připravit. p Data je nutné zjednodušit.

Příprava dat Čísla jsou v intervalu od 0 do 65535, pokud nemocný mám hodnotu do 500 a zdravý také do 500, tak je to nevýznamný rozdíl.

Příprava dat Čísla jsou v intervalu od 0 do 65535, pokud nemocný mám hodnotu do 500 a zdravý také do 500, tak je to nevýznamný rozdíl. Zajímaj mají nás s rozdíly kde by zdravý měl l hodnotu například do 500 a nemocný hodnotu řádově násobku 500, to je viditelná změna a dád se říci, že e gen reaguje na onemocnění.

Příprava dat Vydělením databáze číslem 500 a zaokrouhlením nahoru, získáme hodnoty až 3. Pak Z/N. Výsledkem byly čísla menší, rovny nebo vetší než jedna, která říkala jestli je gen aktivnější, stabilní nebo snižuje svou aktivitu.

Příprava dat prava dat,5 0,5,666667 0,8 0,75,75,5,5 0,5

Příprava dat Na data použijeme funkci: (PS: data jsem upravoval v Microsoft Excel) =KDYŽ(W3840=;;KDY (W3840=;;KDYŽ(W3840>;;0))(W3840>;;0)) Respektive: if (x = ) { } elseif (x > ) { } else { 0 }

Příprava dat Popis upravených dat: Řádky, které jsou naplněny ny jen jedničkami jsou geny, které na onemocnění nereagují nebo je to Arabidopsis Thaliana. Číslo nula značí, že e gen zvyšuje svou aktivitu. Dvojka je u genu, který snižuje svou aktivitu.

Příprava dat prava dat 0 0 0 0 0 5C 4A 3C C C Sou Současn asná podoba dat: podoba dat:

Příprava dat Potřebn ebná podoba dat:,,,,,0,,0,,,,,,,0,,,,,,0,0,,,,,c,,,,0,0,0,0,,,,,,,,,,,,,,,,,,,c,,0,,,,0,,,,,,0,0,,,,,,,,,,,0,0,3c,,,,,0,,,,0,,,0,0,,0,,,,,0,0,,,0,0,4a 0,0,0,0,,,0,0,,,0,0,,,,,,,,,0,,,,,,5C,,,,,,,,,,,,,,,,,,,,0,,0,,,,6C,,,,0,0,,,,,,,,,,,,,,,,,,,,,7C,,,,,,,,,,,,,,,,,,,,0,,,,,,8 0,,,,,,,,,,,,,,,,,,,,,,,,0,,9

Příprava dat LISp-Miner pracuje s databází Microsoft Access, která je omezená na 56 sloupců.

Příprava dat LISp-Miner pracuje s databází Microsoft Access, která je omezená na 56 sloupců. Otočená databáze obsahuje 3840 sloupců s daty, plus jeden ID, atributy (A,, C) a atributy (R, N).

Příprava dat LISp-Miner pracuje s databází Microsoft Access, která je omezená na 56 sloupců. Otočená databáze obsahuje 3840 sloupců s daty, plus jeden ID, atributy (A,, C) a atributy (R, N). To byl pro LISp-Miner ještě před půl rokem problém. Sytém se ale vyvíjí

Příprava dat Import do databáze Microsoft Acess:

Import dat do LISp-Mineru Nová funkce pro import dat s více v než 56 sloupci:

Analýza dat Implicitní nastavení: Antecedent byly všechny v geny Succedent byl atribut C

Analýza dat Implicitní nastavení: Antecedent byly všechny v geny Succedent byl atribut C Výsledky Natavení je nevhodné pro tento typ dolování,, protože antecedent je nastaven na rozsah 0 aža 99 a my hledáme jeden gen, takže e potřebujeme aža.

Analýza dat Vlastní nastavení parametrů: ase 8 znamená, že e to bude platit nejméně pro 8 pacientů.

Analýza dat Výsledky: Nalezeno 50 hypotéz z (asociačních ch pravidel)

Analýza dat Pacient 37 38 C Podrobnější pohled na gen 37(38). Opravíme chyby 3 4 5 6 0 C C C C C 7 C 8 9 0 3 (4) 4 (8) 5 (9) 6 (0) 7 () 8 ()

Analýza dat Hledání chyb.

Analýza dat Hledání chyb.

Analýza dat Podrobnější pohled na gen 37(38). Opravíme chyby. Procenta: 00 % pro -> > C 66 % pro -> > ID 3 4 5 6 7 8 9 0 37 38 C C C C C C C 3 (4) 4 (8) 5 (9) 6 (0) 7 () 8 ()

Analýza dat Co nám n říká gen 37 (38)? Vezmeme-li náhodnn hodné lidi, tak pokud jejich gen nebude v hodnotě kolem 4000, ale pod hodnotu 000, tak se dád s 84% pravděpodobnost podobností říci, že e daný člověk k mám problém Procenta jsou však v jen orientační,, protože bylo k dispozici je jen pacientů a platilo to pro 0 z -ti.

Prostor na otázky Ptejte se