ANALÝZA A KLASIFIKACE DAT

Podobné dokumenty
Následující text je součástí učebních textů předmětu Bi0034 Analýza a klasifikace dat a je určen

ANALÝZA A KLASIFIKACE DAT

ANALÝZA BIOLOGICKÝCH A KLINICKÝCH DAT V MEZIOBOROVÉM POJETÍ

ANALÝZA A KLASIFIKACE DAT

ANALÝZA A KLASIFIKACE DAT

ZÍSKÁVÁNÍ ZNALOSTÍ Z DATABÁZÍ

ZÍSKÁVÁNÍ ZNALOSTÍ Z DATABÁZÍ

SIGNÁLY A LINEÁRNÍ SYSTÉMY

Úvodem Dříve les než stromy 3 Operace s maticemi

Využití metod strojového učení v bioinformatice David Hoksza

Pokročilé neparametrické metody. Klára Kubošová

Dolování z textu. Martin Vítek

Kybernetika a umělá inteligence, cvičení 10/11

Přednáška 13 Redukce dimenzionality

RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr.

Statistické metody v ekonomii. Ing. Michael Rost, Ph.D.

Strojové učení Marta Vomlelová

Katedra kybernetiky laboratoř Inteligentní Datové Analýzy (IDA) Katedra počítačů, Computational Intelligence Group

Umělá inteligence a rozpoznávání

UČENÍ BEZ UČITELE. Václav Hlaváč

Katedra kybernetiky, FEL, ČVUT v Praze.

Algoritmy a struktury neuropočítačů ASN P9 SVM Support vector machines Support vector networks (Algoritmus podpůrných vektorů)

Ing. Petr Hájek, Ph.D. Podpora přednášky kurzu Aplikace umělé inteligence

Václav Matoušek KIV. Umělá inteligence a rozpoznávání. Václav Matoušek / KIV

Cvičná bakalářská zkouška, 1. varianta

Využití strojového učení k identifikaci protein-ligand aktivních míst

Jasové transformace. Karel Horák. Rozvrh přednášky:

1. Vlastnosti diskretních a číslicových metod zpracování signálů... 15

Úloha - rozpoznávání číslic

NAIL072 ROZPOZNÁVÁNÍ VZORŮ

Moderní systémy pro získávání znalostí z informací a dat

Teorie systémů TES 1. Úvod

Profilování vzorků heroinu s využitím vícerozměrné statistické analýzy

AVDAT Mnohorozměrné metody, metody klasifikace

ÚVOD DO ROZPOZNÁVÁNÍ

Elektronická podpora výuky na ÚBMI

Ing. Michael Rost, Ph.D.

ANALÝZA A KLASIFIKACE DAT. Institut biostatistiky a analýz

SIGNÁLY A LINEÁRNÍ SYSTÉMY

1. Data mining. Strojové učení. Základní úlohy.

5. Umělé neuronové sítě. Neuronové sítě

1. Číselné posloupnosti - Definice posloupnosti, základní vlastnosti, operace s posloupnostmi, limita posloupnosti, vlastnosti limit posloupností,

Grafický a číselný popis rozložení dat 3.1 Způsoby zobrazení dat Metody zobrazení kvalitativních a ordinálních dat Metody zobrazení kvan

Úvod do optimalizace, metody hladké optimalizace

Speciální numerické metody 4. ročník bakalářského studia. Cvičení: Ing. Petr Lehner Přednášky: doc. Ing. Martin Krejsa, Ph.D.

Klasifikační metody pro genetická data: regularizace a robustnost

Získávání dat z databází 1 DMINA 2010

Vícerozměrné metody. PSY117/454 Statistická analýza dat v psychologii Přednáška 12. Schematický úvod

ANALÝZA A KLASIFIKACE BIOMEDICÍNSKÝCH DAT. Institut biostatistiky a analýz

ANALÝZA BIOLOGICKÝCH A KLINICKÝCH DAT V MEZIOBOROVÉM POJETÍ

analýzy dat v oboru Matematická biologie

Dobývání a vizualizace znalostí

Bayesovská klasifikace digitálních obrazů

ZÁKLADY AUTOMATICKÉHO ŘÍZENÍ

Klasifikace a rozpoznávání. Lineární klasifikátory

Evropský sociální fond Praha & EU: Investujeme do vaší budoucnosti

Rozdělování dat do trénovacích a testovacích množin

VZTAH MEZI STATISTICKÝM A STRUKTURNÍM ROZPOZNÁVÁNÍM

Vícerozměrné statistické metody

Získávání znalostí z dat

U Úvod do modelování a simulace systémů

ANALÝZA A KLASIFIKACE BIOMEDICÍNSKÝCH DAT. Institut biostatistiky a analýz

ANALÝZA A KLASIFIKACE DAT. Institut biostatistiky a analýz

ÚVOD DO MATEMATICKÉ BIOLOGIE I. UKB, pav. A29, RECETOX, dv.č.112 Institut biostatistiky a analýz

Biofyzikální ústav LF MU Brno. jarní semestr 2011

Automatické vyhledávání informace a znalosti v elektronických textových datech

PV021: Neuronové sítě. Tomáš Brázdil

5 Vícerozměrná data - kontingenční tabulky, testy nezávislosti, regresní analýza

TECHNICKÁ UNIVERZITA V LIBERCI

Diskriminační analýza hodnocení rozdílů mezi 2 nebo více skupinami objektů charakterizovanými více znaky

Vícerozměrné statistické metody

Umělé neuronové sítě

Lineární a adaptivní zpracování dat. 2. SYSTÉMY a jejich popis v časové doméně a frekvenční doméně

Dobývání a vizualizace znalostí. Olga Štěpánková et al.

Asociační i jiná. Pravidla. (Ch )

ROZPOZNÁVÁNÍ Úvod, vymezení hřiště

Metody zpracování a analýzy medicínských obrazových dat: možnosti využití v neurovědním výzkumu

Poznámky k předmětu Aplikovaná statistika, 4. téma

Popis zobrazení pomocí fuzzy logiky

Strukturální rozpoznávání

Pokročilé operace s obrazem

Vytěžování znalostí z dat

Poznámky k předmětu Aplikovaná statistika, 4. téma

Statistika. Regresní a korelační analýza Úvod do problému. Roman Biskup

Učící se klasifikátory obrazu v průmyslu

Univerzita Pardubice 8. licenční studium chemometrie

SIGNÁLY A LINEÁRNÍ SYSTÉMY

INVESTICE DO ROZVOJE VZDĚLÁVÁNÍ. Modernizace studijního programu Matematika na PřF Univerzity Palackého v Olomouci CZ.1.07/2.2.00/28.

Digitalizace a zpracování obrazu

Markovovy modely v Bioinformatice

Transformace obrazu Josef Pelikán KSVI MFF UK Praha

Lineární a adaptivní zpracování dat. 2. SYSTÉMY a jejich popis v časové doméně a frekvenční doméně

Obsah Úvod Kapitola 1 Než začneme Kapitola 2 Práce s hromadnými daty před analýzou

STATISTICKÉ METODY; ZÍSKÁVÁNÍ INFORMACÍ Z DRUHOVÝCH A ENVIRONMENTÁLNÍCH DAT

STATISTIKA. Inovace předmětu. Obsah. 1. Inovace předmětu STATISTIKA Sylabus pro předmět STATISTIKA Pomůcky... 7

Usuzování za neurčitosti

PŘEDNÁŠKA KURZU MPOV

ANALÝZA DAT V R 7. KONTINGENČNÍ TABULKA. Mgr. Markéta Pavlíková Katedra pravděpodobnosti a matematické statistiky MFF UK.

Dobývání a vizualizace znalostí

9. listopadu Rozvoj aplikačního potenciálu (RAPlus) CZ.1.07/2.4.00/

Transkript:

ANALÝZA A KLASIFIKACE DAT prof. Ing. Jiří Holčík, CSc. INVESTICE Institut DO biostatistiky ROZVOJE VZDĚLÁVÁNÍ a analýz

LITERATURA Holčík, J.: přednáškové prezentace Holčík, J.: Analýza a klasifikace signálů. [Učební texty VŠ], Brno, FE VUT 1992.

LITERATURA Duda,R.O., Hart,P., Stork,D.G. Pattern Classification. New York, John Wiley & Sons 2001 Theodoridis S., Koutroumbas K., Pattern Recognition. Amsterdam, Elsevier 2009 McLachlan,G.J.: Discriminant Analysis and Statistical Pattern Recognition. J.Wiley&Sons, Hoboken 2004 Webb,A.: Statistical Pattern Recognition. J.Wiley&Sons, Chichester 2002 Meloun, M., Militký,J.: Statistická analýza experimentálních dat. Praha, Academia 2004.

0. ČEM TO BUDE?

ANOTACE Předmět poskytne informaci o základních metodách a algoritmech pro výběr popisu, hodnocení a klasifikaci biomedicínských dat. Zabývá se základním tříděním klasifikačních přístupů příznakové a strukturální a uvádí principy obou přístupů. Dále se zabývá podrobně zejména metodami příznakovými. Klasifikace podle diskriminačních funkcí (princip a stanovení diskriminačních funkcí na základě statistických vlastností množiny obrazů) a minimální vzdálenosti. Sekvenční klasifikace. Volba a výběr příznaků. Selekce a extrakce příznaků analýza hlavních a nezávislých komponent, faktorová analýza. Učení klasifikátorů. Shlukování podobnost mezi obrazy, podobnost mezi shluky, metody shlukování. Klasifikace pomocí neuronových sítí.

ANOTACE Předmět poskytne informaci o základních metodách a algoritmech pro výběr popisu, hodnocení a klasifikaci biomedicínských dat. Zabývá se základním tříděním klasifikačních přístupů příznakové a strukturální a uvádí principy obou přístupů. Dále se zabývá podrobně zejména metodami příznakovými. Klasifikace podle diskriminačních funkcí (princip a stanovení diskriminačních funkcí na základě statistických vlastností množiny obrazů) a minimální vzdálenosti. Sekvenční klasifikace. Volba a výběr příznaků. Selekce a extrakce příznaků analýza hlavních a nezávislých komponent, faktorová analýza. Učení klasifikátorů. Shlukování podobnost mezi obrazy, podobnost mezi shluky, metody shlukování. Klasifikace pomocí neuronových sítí.

OSNOVA Klasifikace dat základní terminologie. Klasifikace vs. diskriminační analýza vs. predikce. Klasifikace vs. regrese. Třídění klasifikačních algoritmů - klasifikace pomocí minimální vzdálenosti, pomocí ztotožnění s etalony, pomocí diskriminačních funkcí (lineární, nelineární), pomocí definice hranic mezi jednotlivými třídami. Parametrické vs. neparametrické přístupy. Učení s učitelem, bez učitele, s nedokonalým učitelem. Strukturální popis a klasifikace. Primitiva a relace, hierarchický a nehierarchický popis, reprezentace klasifikačních tříd pomocí gramatiky, automatu. Strukturální metriky. Příznakové metody. Příznak, znak, diskriminátor, prediktor. Klasifikace podle minimální vzdálenosti metrika, funkce podobnosti, vzdálenost mezi obrazy, vzdálenost mezi obrazem a množinou obrazů. Příklady metrik deterministické, pravděpodobnostní. Příklady funkcí podobnosti - asociační koeficienty, korelační koeficienty. Příznaková klasifikace podle diskriminačních funkcí Fisherův algoritmus, Bayesův klasifikátor. Stanovení diskriminačních funkcí na základě statistických vlastností množiny obrazů.

OSNOVA Příznaková klasifikace podle diskriminačních funkcí Fisherův algoritmus, Bayesův klasifikátor. Stanovení diskriminačních funkcí na základě statistických vlastností množiny obrazů. Lineární diskriminační funkce dichotomický a multikategoriální problém, zobecněné lineární diskriminační funkce. Lineárně separabilní a neseparabilní případy. Logistická diskriminace. Kontextová klasifikace Bayesův klasifikátor, Markovovy modely, Viterbiho klasifikátor, skryté Markovovy modely, Volba a výběr příznaků. Selekce a extrakce (generování) příznaků, Transformace dat a redukce dimenzionality. Ordinační metody. Kritéria a algoritmy selekce příznaků. Faktorová analýza princip, důsledky. Analýza komponent. Analýza hlavních komponent princip, důsledky. Analýza nelineárních komponent princip, důsledky. Analýza nezávislých komponent princip, důsledky. Sekvenční klasifikace. Princip, Waldovo a Reedovo kritérium, jejich modifikované varianty.

UKONČENÍ PŘEDMĚTU Požadavky: ústní zkouška dvě části: učená rozprava o některém z témat, která budou náplní předmětu; diskuze nad vyřešeným problémem týkajícím se problematiky klasifikace dat a používajícím některé z technik, které budou náplní předmětu;

I. ZAČÍNÁME

OBECNÉ SCHÉMA ZPRACOVÁNÍ DAT

OBECNÉ SCHÉMA ZPRACOVÁNÍ DAT

OBECNÉ SCHÉMA ZPRACOVÁNÍ DAT ZPRACOVÁNÍ předzpracování filtrace rušivých složek x zvýraznění užitečných složek signálu; rekonstrukce a doplnění chybějících údajů; konverze typu dat; redukce dat; (A/Č převod); analýza dat určení hodnot příznaků (reprezentativních parametrů) pro příznakové klasifikátory; nalezení primitiv (charakteristických tvarových segmentů) strukturální klasifikátory klasifikátor zatřídění do diagnostických kategorií

OBECNÉ SCHÉMA ZPRACOVÁNÍ DAT ZPRACOVÁNÍ předzpracování filtrace rušivých složek x zvýraznění užitečných složek signálu; rekonstrukce a doplnění chybějících údajů; konverze typu dat; redukce dat; (A/Č převod); analýza dat určení hodnot příznaků (reprezentativních parametrů) pro příznakové klasifikátory; nalezení primitiv (charakteristických tvarových segmentů) strukturální klasifikátory klasifikátor zatřídění do diagnostických kategorií

OBECNÉ SCHÉMA ZPRACOVÁNÍ DAT Analýza (z řečtiny rozbor, rozčlenění) je vědecká metoda založená na dekompozici celku na elementární části. Cílem analýzy je identifikovat podstatné a nutné vlastnosti elementárních částí celku, poznat jejich podstatu a zákonitosti.

OBECNÉ SCHÉMA ZPRACOVÁNÍ DAT Analýza (z řečtiny rozbor, rozčlenění) je vědecká metoda založená na dekompozici celku na elementární části. Cílem analýzy je identifikovat podstatné a nutné vlastnosti elementárních částí celku, poznat jejich podstatu a zákonitosti. Syntéza je obecné označení pro proces spojení dvou nebo více částí do jednoho celku. S tímto pojmem se lze setkat v různých spojeních: syntéza obrazu, syntéza řeči, syntéza zvuku, chemická syntéza, jaderná syntéza, termonukleární syntéza, syntéza látek, fotosyntéza, proteosyntéza, biosyntéza, evoluční syntéza.

ANALÝZA V bloku analýzy se vytváří formální (abstraktní) popis zpracovávaných dat, který nese podstatnou informaci z hlediska kvality rozhodování při klasifikaci. Abstraktní popis se často nazývá obrazem (pattern) rozpoznávání obrazů (pattern recognition). V datech je vybrána určitá množina elementárních vlastností, příp. jejich elementárních částí a jejich vazeb, jejichž způsob popisu je apriori znám.

KLASIFIKACE rozumí se rozdělení (konkrétní či teoretické) dané skupiny (množiny) předmětů či jevů na konečný počet dílčích skupin (podmnožin), v nichž všechny předměty či jevy mají dostatečně podobné společné vlastnosti. Vlastnosti podle nichž lze klasifikaci zadat či provádět, určují klasifikační kritéria. Předměty (jevy), které mají podobnou uvažovanou vlastnost tvoří třídu.

KLASIFIKÁTOR Klasifikátor je stroj (algoritmus, ) s jedním diskrétním výstupem, který udává třídu, do které klasifikátor zařadil vstupní reprezentaci dat ω r = d(x) d(x) je funkce argumentu x představujícího reprezentaci vstupních dat, kterou nazýváme rozhodovací pravidlo klasifikátoru; ω r je identifikátor klasifikační třídy; ω r r=1,,r

PRINCIPY KLASIFIKACE

PRINCIPY KLASIFIKACE pomocí diskriminačních funkcí funkcí, které určují míru příslušnosti k dané klasifikační třídě; pomocí definice hranic mezi jednotlivými třídami a logických pravidel; pomocí vzdálenosti od reprezentativních obrazů (etalonů) klasifikačních tříd; pomocí ztotožnění s etalony;

OBECNÉ SCHÉMA ZPRACOVÁNÍ DAT

OBECNÉ SCHÉMA ZPRACOVÁNÍ DAT učení klasifikátoru UČENÍ nastavení klasifikačních kritérií; s učitelem dokonalým nedokonalým bez učitele typicky shlukování výběr prvků popisu dat stanovení reprezentativních charakteristických rysů zpracovávaného dat;

TYPY KLASIFIKÁTORŮ Základní členění vychází z reprezentace vstupních dat příznakové každý vstupní data jsou vyjádřena vektorem hodnot (příznaků); paralelní (např. Bayesův klasifikátor, ) sekvenční (např. klasifikační stromy, ) strukturální (syntaktické) vstupní data jsou popsána relačními strukturami; kombinované jednotlivá primitiva jsou doplněna příznakovým popisem

TYPY KLASIFIKÁTORŮ Deterministický klasifikátor každá deterministická klasifikace musí být jednoznačná a úplná, tzn., že každý obraz (předmět, jev) musí patřit do nějaké třídy a nemůže být současně ve dvou či více třídách. Pravděpodobnostní klasifikátor pravděpodobnostní klasifikátor stanoví pravděpodobnost zařazení obrazů do daných klasifikačních tříd

TYPY KLASIFIKÁTORŮ Na základě typů klasifikačních a učících algoritmů: parametrické; neparametrické

KLASIFIKACE x PREDIKCE predikce (z lat. prae-, před, a dicere, říkat) zjevně nese časové hledisko, když jej používáme ve významu předpověď či prognózu, jako soud o tom, co se stane nebo nestane v budoucnosti. V tomto významu je používán např. v analýze či zpracování časových řad. (prediction x forecasting)

KLASIFIKACE x PREDIKCE pojem klasifikace je používán, použije-li se klasifikačního algoritmu pro známá data. Pokud jsou data nová, pro která apriori neznáme klasifikační třídu, pak hovoříme o predikci klasifikační třídy. http://www.kdnuggets.com/faq/classification-vsprediction.html (23.8.2010)

KLASIFIKACE x PREDIKCE pojem klasifikace používáme, pokud vybíráme identifikátor klasifikační třídy z určitého diskrétního konečného počtu možných identifikátorů. Pokud určujeme (predikujeme) spojitou hodnotu, např. pomocí regrese, pak hovoříme o predikci, i když tento pojem nemá časovou dimenzi. Han, J., Kamber, M.: Data Mining Concepts and Techniques. The Morgan Kaufmann Series in Data Management Systems. 2 nd edition, Elsevier; Amsterdam(2005), 800 s.

DISKRIMINAČNÍ ANALÝZA týká se obecně vztahu mezi kategoriální proměnnou a množinou vzájemně vázaných příznakových proměnných. Konkrétně, předpokládejme že existuje konečný počet, řekněme R, různých a priori známých populací, kategorií, tříd nebo skupin, které označujeme ω r, r=1,,r a úkolem diskriminační analýzy je nalézt vztah, na základě kterého pro daný vektor příznaků popisujících konkrétní objekt tomuto vektoru přiřadíme hodnotu ω r.

OBECNÉ SCHÉMA ZPRACOVÁNÍ DAT

ZÁVĚREM SHRNUTÍ co je to klasifikace? klasifikace vs. predikce vs. diskriminační analýza základní principy klasifikace parametrická vs. neparametrická klasifikace

Příprava nových učebních materiálů pro obor Matematická biologie je podporována projektem ESF č. CZ.1.07/2.2.00/07.0318 VÍCEOBOROVÁ INOVACE STUDIA MATEMATICKÉ BIOLOGIE INVESTICE DO ROZVOJE VZDĚLÁVÁNÍ