Moderní systémy pro získávání znalostí z informací a dat



Podobné dokumenty
Ing. Petr Hájek, Ph.D. Podpora přednášky kurzu Aplikace umělé inteligence

ZÍSKÁVÁNÍ ZNALOSTÍ Z DATABÁZÍ

ZÍSKÁVÁNÍ ZNALOSTÍ Z DATABÁZÍ

Automatické vyhledávání informace a znalosti v elektronických textových datech

Katedra kybernetiky laboratoř Inteligentní Datové Analýzy (IDA) Katedra počítačů, Computational Intelligence Group

Algoritmy a struktury neuropočítačů ASN P9 SVM Support vector machines Support vector networks (Algoritmus podpůrných vektorů)

Učící se klasifikátory obrazu v průmyslu

Pokročilé operace s obrazem

Využití metod strojového učení v bioinformatice David Hoksza

Algoritmy a struktury neuropočítačů ASN - P10. Aplikace UNS v biomedicíně

Umělá inteligence a rozpoznávání

METODY DOLOVÁNÍ V DATECH DATOVÉ SKLADY TEREZA HYNČICOVÁ H2IGE1

K možnostem krátkodobé předpovědi úrovně znečištění ovzduší statistickými metodami. Josef Keder

5. Umělé neuronové sítě. Neuronové sítě

Rozdělování dat do trénovacích a testovacích množin

Neuronové sítě Ladislav Horký Karel Břinda

Datová věda (Data Science) akademický navazující magisterský program

Projekční algoritmus. Urychlení evolučních algoritmů pomocí regresních stromů a jejich zobecnění. Jan Klíma

UČENÍ BEZ UČITELE. Václav Hlaváč

Václav Matoušek KIV. Umělá inteligence a rozpoznávání. Václav Matoušek / KIV

StatSoft Úvod do neuronových sítí

1. Data mining. Strojové učení. Základní úlohy.

Strojové učení Marta Vomlelová

DOBÝVÁNÍ ZNALOSTÍ Z DATABÁZÍ

Lineární klasifikátory

Dolování z textu. Martin Vítek

analýzy dat v oboru Matematická biologie

Ambasadoři přírodovědných a technických oborů. Ing. Michal Řepka Březen - duben 2013

ANALÝZA A KLASIFIKACE BIOMEDICÍNSKÝCH DAT. Institut biostatistiky a analýz

Základy business intelligence. Jaroslav Šmarda

DATABÁZOVÉ SYSTÉMY. Metodický list č. 1

Úvod do optimalizace, metody hladké optimalizace

Trénování sítě pomocí učení s učitelem

Biologicky inspirované výpočty. Schématické rozdělení problematiky a výuky

Neuronové sítě (11. přednáška)

Strojové učení se zaměřením na vliv vstupních dat

přetrénování = ztráta schopnosti generalizovat vlivem přílišného zaměření klasifikátorů na rozeznávání pouze konkrétních trénovacích dat

Otázky ke státní závěrečné zkoušce

Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek, M. Cvanová. 5. Statistica

Katedra kybernetiky, FEL, ČVUT v Praze.

Analytické metody v motorsportu

Automatizační a měřicí technika (B-AMT)

OSA. maximalizace minimalizace 1/22

UITS / ISY. Ústav inteligentních systémů Fakulta informačních technologií VUT v Brně. ISY: Výzkumná skupina inteligentních systémů 1 / 14

Automatická detekce anomálií při geofyzikálním průzkumu. Lenka Kosková Třísková NTI TUL Doktorandský seminář,

Multirobotická kooperativní inspekce

Úvodem Dříve les než stromy 3 Operace s maticemi

Základy umělé inteligence

Získávání dat z databází 1 DMINA 2010

Dolování v objektových datech. Ivana Rudolfová

Ústav automatizace a měřicí techniky.

1.3 Prezentace vlastní přednášky. v Power-Pointu

Algoritmy a struktury neuropočítačů ASN - P11

Přednáška 13 Redukce dimenzionality

Institut teoretické informatiky (ITI) na FI MU

Informace o studiu. Životní prostředí a zdraví Matematická biologie a biomedicína. studijní programy pro zdravou budoucnost

prekrocena mez ukazatele kvality.

1. Vlastnosti diskretních a číslicových metod zpracování signálů... 15

Fenomén Big Data Pohled technický

Umělé neuronové sítě

Lineární diskriminační funkce. Perceptronový algoritmus.

Fiala P., Karhan P., Ptáček J. Oddělení lékařské fyziky a radiační ochrany Fakultní nemocnice Olomouc

Databáze Bc. Veronika Tomsová

Pokročilé neparametrické metody. Klára Kubošová

CHEMICKO-INŽENÝRSKÉ VZDĚLÁVÁNÍ VE STRUKTUROVANÉM STUDIU

GRR. získávání znalostí v geografických datech Autoři. Knowledge Discovery Group Faculty of Informatics Masaryk Univerzity Brno, Czech Republic

ANALÝZA A KLASIFIKACE DAT

Deep learning v jazyku Python

Jak se matematika poučila v biologii

Časová a prostorová složitost algoritmů

5. Umělé neuronové sítě. neuronové sítě. Umělé Ondřej Valenta, Václav Matoušek. 5-1 Umělá inteligence a rozpoznávání, LS 2015

Popis zobrazení pomocí fuzzy logiky

NP-ÚPLNÉ PROBLÉMY. Doc. RNDr. Josef Kolář, CSc. Katedra teoretické informatiky, FIT České vysoké učení technické v Praze

Dobývání znalostí. Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze

Kybernetika a umělá inteligence, cvičení 10/11

Velmi stručný úvod do použití systému WEKA pro Data Mining (Jan Žižka, ÚI PEF)

Obsah. 1.1 Práce se záznamy Stránka Dnes Kontakt se zákazníkem... 5

Vytěžování znalostí z dat

Úloha - rozpoznávání číslic

Využití strojového učení k identifikaci protein-ligand aktivních míst

Obsah přednášky Jaká asi bude chyba modelu na nových datech?

ANALÝZA BIOLOGICKÝCH A KLINICKÝCH DAT V MEZIOBOROVÉM POJETÍ

Informační a komunikační technologie

Czech National e-infrastructure. Projekt MetaCentrum. Jan Kmuníček CESNET. meta.cesnet.cz

Popis projektu Jednotlivé experimenty. Projekt BAYES. Jan Zeman. Colosseum, a.s. 21. května 2008

Informace pro výběr bakalářského oboru

Ing. Alena Šafrová Drášilová, Ph.D.

Automatizované řešení úloh s omezeními

Obsah. Kapitola 1. Kapitola 2. Kapitola 3. Úvod 9

Modelov an ı biologick ych syst em u Radek Pel anek

Analýza dat pomocí systému Weka, Rapid miner a Enterprise miner

Obsah. Seznam obrázků... XV. Seznam tabulek... XV

Datové struktury 2: Rozptylovací tabulky

INVESTICE DO ROZVOJE VZDĚLÁVÁNÍ. Modernizace studijního programu Matematika na PřF Univerzity Palackého v Olomouci CZ.1.07/2.2.00/28.

NG C Implementace plně rekurentní

Uživatelská podpora v prostředí WWW

8. přednáška z předmětu GIS1 Rastrový datový model a mapová algebra

Změkčování hranic v klasifikačních stromech

Markov Chain Monte Carlo. Jan Kracík.

Algoritmy a struktury neuropočítačů ASN - P1

Transkript:

Moderní systémy pro získávání znalostí z informací a dat Jan Žižka IBA Institut biostatistiky a analýz PřF & LF, Masarykova universita Kamenice 126/3, 625 00 Brno Email: zizka@iba.muni.cz

Bioinformatika: Aplikace výpočetních a statistických technik na zpracování a analýzu biologických dat. Strojové učení (machine learning, ML), umělá inteligence (artificial intelligence, AI), dolování z dat (data mining): Moderní systémy pro zpracování informace a získávání znalostí z dat. Rozšiřují a doplňují tradiční aplikace matematických a informatických metod také na biomedicínská data. V komplikovaných případech, typických pro realitu, slouží jako alternativní metody, inspirované zpracováním informace inteligentními biologickými systémy.

Hierarchický vztah data informace znalost (z hlediska algoritmů strojového učení) data + šum filtrace šumu z dat pocházejících z reálného světa data filtrace nerelevantních dat (výběr dat zajímavých pro řešený problém) informace generalizace primární cíl znalost znalost o znalosti metaznalost

Moderní přístupy umělé inteligence se zaměřují na vyhledávání stanoveného cíle ve vysoce složitých prostorech obsahujících takové množství stavů, že z praktického hlediska nelze použít systematické prohledávání. Induktivní strojové učení využívá možnost objevovat znalost na základě zobecnění omezeného množství vzorů. Dolování znalostí z dat zahrnuje přípravu dat, hledání účinného algoritmu pro zobecnění, a nakonec interpretaci.

Vzdoruje-li reálný problém tradičním analytickým metodám, matematickému modelování, apod., pak lze k řešení použít simulaci přístupu inteligentních biologických systémů schopných se učit a zobecňovat. Hledání skutečné znalosti v datech se často podobá hledání nejvyššího vrcholku kopce ve velmi zvlněné zamlžené krajině (lokální extrémy, globální extrém, nelinearita, nespojité funkce, apod.).

Vytěžit použitelnou znalost ze surových dat vyžaduje pochopit vlastnosti disponibilních metod, navrhnout a provést řadu časově náročných experimentů (výpočetní složitost čas a paměť) a správně interpretovat získané znalosti pro jejich použití. Induktivní učení z příkladů poskytne trénovaným algoritmům potřebné parametry. Natrénované algoritmy pak lze použít pro náročné regresní a klasifikační problémy.

Natrénované algoritmy lze rozdělit podle typu poskytované znalosti, která se aplikuje na případy v budoucnosti: reálný svět černá skříňka nesrozumitelná znalost trénovací příklady šedá skříňka bílá skříňka částečně srozumitelná znalost srozumitelná znalost

Funkčnost algoritmů ovšem nemusí (ale i může) odpovídat srozumitelnosti znalosti získané trénováním: reálný svět černá skříňka znalost odpovědi chyba odpovědí x % neznámé budoucí instance? dotazy šedá skříňka bílá skříňka y % z %

Algoritmy lze také rozdělit podle typu učení: s učitelem (zpětná vazba, oprava chyb vně algoritmu: např. umělé neuronové sítě trénované zpětným šířením chyb) bez učitele (oprava chyb uvnitř algoritmu: např. shlukování, Kohonenovy mapy, adaptivní resonanční teorie) Predikce pro případy neznámé při trénování

Data jsou nejčastěji uspořádána formou tabulky, kde řádky představují instance (příklady, vzorky, ) a sloupce atributy (dimenze, parametry, proměnné, vlastnosti, ): jeden z atributů názvy atributů klasifikační třída jeden z příkladů (Wisconsin breast-cancer data)

V současnosti existuje již řada uživatelsky pohodlných nástrojů pro dolování znalostí strojovým učením, např. WEKA:

WEKA obsahuje i editor dat typu spreadsheet, který nemá typická omezení (např. pouze 256 sloupců a 65 536 řádků):

WEKA podporuje také zobrazování, např. rozložení hodnot všech atributů včetně klasifikační třídy:

Lze zobrazit třeba i klasifikační chyby jednotlivých příkladů pro zvolené atributy ( je chybně, x je správně):

Příklad automaticky generovaného rozhodovacího stromu pro reálná data Wisconsin breast-cancer (klasifikace dle vlastností odebraného vzorku buněk) algoritmem J48 systému WEKA: testy v kořeni stromu je test na nejvýznamnější atribut v listech jsou odpovědi

Obdobný systém YALE (Yet Another Learning Environment) také umožňuje vytvořit složitý proces dolování z dat:

Optimalizace genetickými algoritmy umožňuje mj. řešit úlohy, které lze převést na problém obchodního cestujícího, např. hledat nejúčinnější a nejekonomičtější stanovení druhů a pořadí testů vyšetření:

Vysoce efektivní profesionální generátor rozhodovacích stromů a pravidel je systém C5/See5, používaný pro různé aplikace: END