MASARYKOVA UNIVERZITA INSTITUT BIOSTATISTIKY A ANALÝZ LF A PŘF MU. v obrazech mozku z magnetické rezonance
|
|
- Barbora Černá
- před 7 lety
- Počet zobrazení:
Transkript
1 MASARYKOVA UNIVERZITA PŘÍRODOVĚDECKÁ FAKULTA INSTITUT BIOSTATISTIKY A ANALÝZ LF A PŘF MU CENTRUM PRO VÝZKUM TOXICKÝCH LÁTEK V PROSTŘEDÍ Multirezoluční výběr příznaků pro rozpoznávání v obrazech mozku z magnetické rezonance Diplomová práce Petr Dluhoš Vedoucí práce: Ing. Daniel Schwarz, Ph.D. Brno 2013
2 Bibliografický záznam Autor: Název práce: Mgr. Petr Dluhoš Přírodovědecká fakulta, Masarykova univerzita Institut biostatistiky a analýz LF a PřF MU Centrum pro výzkum toxických látek v prostředí Multirezoluční výběr příznaků pro rozpoznávání v obrazech mozku z magnetické rezonance Studijní program: Biologie/Experimentální biologie (po ) Studijní obor: Vedoucí práce: Matematická biologie Ing. Daniel Schwarz, Ph.D. Akademický rok: 2012/2013 Počet stran: 86 Klíčová slova: schizofrenie; klasifikace; diagnostika; algoritmus podpůrných vektorů; multirezoluční reprezentace; vlnková transformace; zobrazování magnetickou rezonancí; rozpoznávání; strojové učení; analýza obrazů
3 Bibliographic Entry Author: Title of Thesis: Mgr. Petr Dluhoš Faculty of Science, Masaryk University Institute of Biostatistics and Analyses MU Research Centre for Toxic Compounds in the Environment Multiresolution feature selection for recognition in magnetic resonance brain images Degree Programme: Biology/Experimental Biology (after Aug 12th, 2012) Field of Study: Supervisor: Mathematical Biology Ing. Daniel Schwarz, Ph.D. Academic Year: 2012/2013 Number of Pages: 86 Keywords: schizophrenia; classification; diagnosis; support vector machines; multiresolution representation; wavelet transform; magnetic resonance imaging; pattern recognition; machine learning; image analysis
4 Abstrakt Diplomová práce se zabývá metodami strojového učení pro automatické rozpoznávání a počítačovou podporu diagnostiky neuropsychiatrických poruch z obrazových dat. Kromě rešerše existujících přístupů je součástí práce také návrh na klasifikační algoritmus využívající multirezoluční reprezentaci obrazů ve vlnkové doméně. Tento algoritmus je implementován v prostředí MATLAB a otestován na dvou datových souborech obsahujících MRI data pacientů s první epizodou schizofrenie a PET obrazy pacientů s Alzheimerovou chorobou. V práci jsou prezentovány výsledky experimentů provedených za účelem nalezení nejlepších parametrů algoritmu a určení přesných odhadů jeho úspěšnosti. Zdrojový kód algoritmu a datové soubory převedené na koeficienty diskrétní vlnkové transformace jsou přiloženy na DVD. Abstract This thesis deals with machine learning methods for automatic recognition and computeraided diagnosis of neuro-psychiatric disorders based on data from neuroimaging. Existing approaches are reviewed and a new classification algorithm based on multiresolution representation of images in the wavelet domain is introduced. The algorithm is implemented in MATLAB and tested on two different image data sets. The first one contains MRI data obtained from patients with the first episode of schizophrenia; the second one contains PET images obtained from patients with Alzheimer s disease. Results of experiments carried out to refine parameters of the algorithm and to obtain estimates of its efficiency are presented. The source code and both data sets transformed into discrete wavelet coefficients are included on the attached DVD.
5
6
7 Poděkování Na tomto místě bych rád poděkoval Ing. Danielu Schwarzovi, Ph.D. za odborné vedení a trpělivost při usměrňování mých vzletných myšlenek. Také bych chtěl poděkovat Katherine R. Gray, Ph.D. za poskytnutí předzpracovaných dat z databáze ADNI. Prohlášení Prohlašuji, že jsem svoji diplomovou práci vypracoval samostatně s využitím informačních zdrojů, které jsou v práci citovány. Brno 20. května Petr Dluhoš
8 Institut biostatistiky a analýz Lékařské a Přírodovědecké fakulty Masarykovy univerzity spolupracuje na organizačním zajištění výuky studijního oboru Matematická biologie s Centrem pro výzkum toxických látek v prostředí Přírodovědecké fakulty MU.
9 Obsah Seznam zkratek xi Kapitola 1. Úvod Kapitola 2. Schizofrenie a zobrazování mozku Schizofrenie Zobrazování pomocí magnetické rezonance Morfologické analýzy obrazů mozku Kapitola 3. Klasifikace v neurovědním výzkumu Problém klasifikace Klasifikace obrazových dat Využití klasifikace obrazů v diagnostice schizofrenie Kapitola 4. Řídkost a multirezoluční reprezentace Řídkost (Sparsity) Vlnková transformace (WT - Wavelet Transform) Multirezoluční analýza Diskrétní vlnková transformace (DWT - Discrete Wavelet Transform) Kapitola 5. Cíle diplomové práce Kapitola 6. Popis datových souborů Datový soubor FES Datový soubor ADNI Kapitola 7. Klasifikační algoritmus Struktura algoritmu Odhad úspěšnosti klasifikace Adaptace pro datový soubor ADNI Implementace Kapitola 8. Výsledky Datový soubor FES Porovnání korektní a nekorektní křížové validace Datový soubor ADNI ix
10 Kapitola 9. Diskuze Datový soubor FES Porovnání korektní a nekorektní křížové validace Datový soubor ADNI Kapitola 10.Závěr Literatura
11 Seznam zkratek Zde je pro snazší orientaci v textu uveden seznam zkratek, které se v diplomové práci vyskytují. U zkratky je vždy uveden plný anglický název a případně i používaný český překlad. AD ANN BOLD CAD CT CWT DA DBM dmri DSI DTI DWI DWT FDA FDR FDR FES FFT Alzheimer s disease (Alzheimerova nemoc) Artificial Neural Network (umělá neuronová sít ) Blood-Oxygen-Level-Dependent signal Computer-Aided Diagnosis (počítačem podporovaná diagnostika) Computed Tomography (výpočetní tomografie) Continuous Wavelet Transform (spojitá vlnková transformace) Discriminant Analysis / Discriminant function Analysis (diskriminační analýza) Deformation-Based Morphometry (morfometrie založená na deformacích) diffusion Magnetic Resonance Imaging (difuzní zobrazování) Diffusion Spectrum Imaging (zobrazování spektra difuze) Diffusion Tensor Imaging (zobrazování tenzorů difuze) Diffusion Weighted MRI (difuzně váhované MRI) Discrete Wavelet Transform (diskrétní vlnková transformace) Fisher linear Discriminant Analysis (Fisherova lineární diskriminační analýza) False Discovery Rate Fisher s Discriminant Ratio (Fisherovo diskriminační kritérium) First Episode Schizophrenia (první epizoda schizofrenie) Fast Fourier Transform (rychlá Fourierova transformace) xi
12 Seznam zkratek xii FIR fmri GLM ICA INU Finite Impulse Response filter (filtr s konečnou impulzní odezvou) functional Magnetic Resonance Imaging (zobrazování funkční magnetickou rezonancí) General Linear Model (obecný lineární model) Independent Component Analysis (analýza nezávislých komponent) Intensity Non-Uniformity artifact (nelinearita v přenosu obrazové informace) JointMMCC Joint Maximum-Margin Classification and Clustering KNN LDA MCI MLDA MRI NC PBM PCA PD PET PFLDA PV effect RF ROI SBM SMLR SNP SPM SPM K-Nearest Neighbor algorithm (algoritmus k-nejbližších sousedů) Linear Discriminant Analysis (lineární diskriminační analýza) Mild Cognitive Impairment (mírná kognitivní porucha) Maximum-uncertainity Linear Discriminant Analysis Magnetic Resonance Imaging (zobrazování magnetickou rezonancí) Normal Control (kontrolní subjekt - zdravý dobrovolník) Pattern-Based Morphometry Principal Component Analysis (analýza hlavních komponent) Proton Density (protonová hustota) Positron Emission Tomography (pozitronová emisní tomografie) Pseudo-Fisher Linear Discriminant Analysis Partial Volume effect (efekt částečného objemu) Radio Frequency (radiofrekvenční) Region Of Interest (oblast zájmu) Source-Based Morphometry (morfometrie založená na zdrojích) Sparse Multinomial Logistic Regression Single Nucleotide Polymorphism (jednonukleotidový polymorfizmus) software Statistical Parametric Mapping Statistical Parametric Map (statistická parametrická mapa) SPM8 software Statistical Parametric Mapping, verze 8
13 Seznam zkratek xiii SVM TBM VBM WT 2D-DWT 3D-DWT Support Vector Machines (algoritmus podpůrných vektorů) Tensor-Based Morphometry (morfometrie založená na tenzorech) Voxel-Based Morphometry (morfometrie založená na voxelech) Wavelet Transform (vlnková transformace) 2D Discrete Wavelet Transform (dvourozměrná diskrétní vlnková transformace) 3D Discrete Wavelet Transform (trojrozměrná diskrétní vlnková transformace)
14 Kapitola 1 Úvod Metody strojového učení pomáhají s větší či menší mírou úspěšnosti v různých oblastech medicíny, kde poskytují například včasnou diagnózu nebo předpověd budoucího vývoje choroby. Přispívají tím nejen ke zvýšení efektivity léčby, ale v nemalé míře také ulevují od emoční a finanční zátěže působící na pacienta. V případě psychických poruch je jejich využití o to žádanější, protože se k výše zmíněným výhodám přidává ještě potenciál pro vytvoření nového objektivního standardu pro definování a odlišení jednotlivých nemocí. Ten by mohl nahradit nebo doplnit dnešní zlatý standard, kterým jsou subjektivní metody hodnocení založené na pozorování chování jedince, rozhovorech s lékařem, dotaznících a sebehodnocení. Nezanedbatelným přínosem může být také lepší porozumění procesům probíhajícím v mozku a jejich přesnější lokalizace. Rozvoj neinvazivních metod pro zobrazování mozku poskytl rozsáhlé množství komplexních dat, na které je pro vytěžení maxima informací třeba aplikovat sofistikované metody strojového učení a umělé inteligence. Cílem této práce je jednak poskytnou přehled těchto přístupů zaměřených na klasifikaci pacientů se schizofrenií z obrazových dat, jednak s využitím algoritmu vlnkové transformace navrhnout a implementovat vlastní klasifikátor schopný odlišit pacienty od zdravých kontrol. Práce je tvořena touto úvodní kapitolou, osmi hlavními kapitolami a závěrečnou kapitolou. Ve druhé kapitole je uveden teoretický úvod do problematiky zobrazování magnetickou rezonancí a morfologických analýz. Třetí kapitola se zabývá klasifikací obrazových dat a obsahuje rešerši výsledků dosažených v oblasti automatické diagnostiky schizofrenie. Čtvrtá kapitola představuje teoretický úvod do metod multirezoluční reprezentace a vlnkové transformace. Pátá kapitola uzavírá teoretickou část práce a předkládá cíle praktické části. Ta obsahuje čtyři kapitoly zabývající se datovými soubory, na kterých byly prováděny experimenty, návrhem a implementací klasifikačního algoritmu, výsledky provedených experimentů a v poslední kapitole diskuzí úspěšnosti algoritmu a budoucího vývoje automatické klasifikace v kontextu výsledků v současné literatuře. Práci shrnuje a uzavírá závěrečná kapitola. 1
15 Kapitola 2 Schizofrenie a zobrazování mozku 2.1 Schizofrenie Schizofrenie je duševní porucha patřící mezi psychotická onemocnění (Bankovská Motlová & Koukolík, 2004; Picchioni & Murray, 2008). Projevuje se zkresleným vnímáním reality (nejčastěji sluchové halucinace), bludy, dezorganizací myšlení a chování. Schizofrenie se vyskytuje ve všech geografických oblastech světa s prevalencí 1 asi 0,7 % a incidencí 2 15 na obyvatel za rok (McGrath et al., 2008). Nejčastěji je diagnostikována v pozdní adolescenci a časné dospělosti, avšak může se objevit v různém věku (Rajji et al., 2009). Výskyt schizofrenie je silně ovlivňován mnoha faktory, jako je pohlaví (McGrath et al., 2004) (vyšší riziko u mužů), prostředí (McGrath et al., 2004) (vyšší riziko ve městech) nebo genetické predispozice (riziko u nejbližších příbuzných až 6 % (Kendler KS, 1993), u jednovaječných dvojčat přes 40 % (Cardno AG, 1999)). Výsledné riziko výskytu schizofrenie je pak dáno složitou interakcí biologických faktorů, sociálních faktorů a většího počtu genů (Riley & Kendler, 2006). Vztah mozku a schizofrenního onemocnění je studován na různých úrovních. V současné době existuje několik teorií snažících se vysvětlit fyziologické mechanizmy vzniku psychotických projevů schizofrenie (Kapur, 2003; Javitt & Zukin, 1991; Bošković et al., 2011). S onemocněním jsou svázány také strukturální změny v mozku, které je možno detekovat pomocí neurozobrazovacích metod, z nichž nejdůležitější je magnetická rezonance (viz sekci 2.2). Studium těchto změn není důležité jen pro pochopení podstaty schizofrenie a následné nalezení způsobů léčby, ale lze je využít i pro diagnostické účely (viz Kapitolu 3). K postupným změnám v různých oblastech mozku dochází průběžně od propuknutí nemoci (FES - First Episode Schizophrenia) i během jejího průběhu (Haren et al., 2012). V případě chronických pacientů je však třeba brát v úvahu, že změny mohou být způsobeny farmakologickou léčbou (Puri, 2011; Vita et al., 2012). Nálezů týkajících se změny struktury mozku v souvislostí se schizofrenií bylo publikováno velké množství a výsledky byly shrnuty v mnoha přehledových studiích a meta-analýzách (Shenton et al., 2001; Ho- 1 Prevalence je podíl obyvatel trpících danou nemocí vzhledem k celé populaci. 2 Incidence je počet nově nemocných za dané časové období vztažený na celou populaci. 2
16 Kapitola 2. Schizofrenie a zobrazování mozku 3 nea et al., 2005; Ellison-Wright et al., 2008; Sun et al., 2009b). Ovšem výsledné nálezy jsou nekonzistentní a v některých případech dokonce i protichůdné, což může indikovat heterogenitu samotné nemoci (Nenadic et al., 2012). Podle velkého meta-review (Shepherd et al., 2012) shrnujícího výsledky 32 dříve publikovaných přehledových článků, které splňovaly určité požadavky kladené na kvalitu, dochází k úbytku šedé hmoty ve frontálním laloku, insule, thalamu, opaskovém závitu (gyrus cinguli), postcentrálním závitu (gyrus postcentralis) a mediálních oblastech temporálního laloku. Dále také k úbytku bílé hmoty v oblasti kalózního tělesa (corpus callosum) a ke zvětšení objemu komor. Opět je ale třeba mít na zřeteli, že tyto změny mohou být ovlivněny použitou léčbou (Ho B, 2011). 2.2 Zobrazování pomocí magnetické rezonance První úspěšné studie neuropatologických změn souvisejících se schizofrenií byly provedeny v 80. letech 19. století za použití výpočetní tomografie (CT - Computed Tomography) (Shenton et al., 2001), k prudkému rozvoji těchto metod ovšem došlo až po objevu zobrazování pomocí magnetické rezonance (MRI - Magnetic Resonance Imaging), za což byla panu Paulu C. Lauterburovi a siru Peteru Mansfieldovi v roce 2003 udělena Nobelova cena. (Nobelova cena, 2003). Zobrazováním pomocí magnetické rezonance jsem se zabýval již ve své bakalářské práci (Dluhoš, 2011). Zde uvádím upravenou verzi tohoto textu Magnetická rezonance Zobrazování pomocí magnetické rezonance je neinvazivní zobrazovací metoda, která k přenosu informace využívá elektromagnetické vlnění v radiofrekvenčním spektru (3-100 MHz) (Reimer et al., 2006; Drastich, 2004). Pacient je vložen do silného homogenního magnetického pole, ve kterém se větší část protonů obsažených v jeho tkáních (převážně v molekulách vody) zorientuje paralelně s tímto polem. Pacient je poté vystaven sérii rychlých radiofrekvenčních (RF) impulzů, které dodají protonům energii a část z nich změní svou orientaci na antiparalelní. Po ukončení působení RF impulzu dochází k postupnému návratu orientace protonů do původního rovnovážného stavu, což generuje změny magnetického pole, které jsme schopni pomocí citlivých přístrojů detekovat. K úplnému obnovení rovnovážného stavu nedochází ve všech tkáních stejně rychle, takže pokud vyšleme další RF impulz v rychlém sledu za prvním, můžeme od sebe jednotlivé typy tkání odlišit. Různou kombinací impulzů lze docílit několika odlišných typů zobrazení. Mezi nejdůležitější z nich patří T1-, T2- a PD-váhované obrazy (Obr. 2.1). U PD-váhovaného obrazu (Proton Density weighted image) je intenzita signálu úměrná hustotě protonových jader, kdežto u T1- a T2-váhovaných obrazů je zobrazovaným parametrem čas, za který dojde k obnovení rovnovážného stavu po určité sérii RF impulzů. Tento čas závisí na řadě fyzikálních i chemických vlastností molekul v zobrazovaných tkáních.
17 Kapitola 2. Schizofrenie a zobrazování mozku 4 Obrázek 2.1: Stejná scéna zobrazená pomocí tří různých typů zobrazení. Zleva doprava T1-, T2- a PD-váhovaný obraz (BIC-B, aktualizace ) Další způsoby zobrazovaní s využitím jevu magnetické rezonance Na principu magnetické rezonance fungují i další metody, které se používají pro zobrazování jiných tkání nebo dějů. Například funkční magnetická rezonance (fmri - functional Magnetic Resonance Imaging) měří tzv. BOLD (Blood-Oxygen-Level-Dependent) signál, který závisí na podílu okysličené a neokysličené krve (Ogawa & Sung, 2007). Změny BOLD signálu souvisí s neurální aktivitou v daném místě, a tak lze při opakovaném skenování získat informace nejen o prostorové lokalizaci, ale také o časovém průběhu mozkové aktivity. Další používanou modalitou je difuzní zobrazování (dmri - diffusion Magnetic Resonance Imaging), které měří směry, ve kterých probíhá difuze malých molekul (převážně vody). Mezi difuzní zobrazovací metody patří například zobrazování tenzorů difuze (DTI - Diffusion Tensor Imaging) (Filler, 2009) a zobrazování spektra difuze (DSI - Diffusion Spectrum Imaging) (Wedeen et al., 2005) Artefakty v MRI obrazech Při tvorbě MRI obrazů vzniká celá řada artefaktů 3, které ovlivňují výsledky následného zpracování. Proto má smysl se těmito vadami a metodami jejich eliminace zabývat. Na tomto místě je uvedeno jen několik nejvýznamnějších artefaktů, podrobnější přehled je možno nalézt v (Drastich, 2004) nebo (Hashemi et al., 2010). Efekt částečného objemu (PV - Partial Volume effect) Je způsoben diskrétní povahou voxelů 4 (Drastich, 2004). Nachází-li se v jednom voxelu přechod mezi dvěma tkáněmi, jejich příspěvek k výsledné intenzitě se průměruje. Výsled- 3 Artefaktem se myslí umělá struktura v obrazu způsobená snímacím přístrojem nebo metodou zpracování dat. 4 Voxel je objemový element reprezentující bod na třírozměrné mřížce. Je to třírozměrná obdoba dvourozměrného prostorového elementu - pixelu.
18 Kapitola 2. Schizofrenie a zobrazování mozku 5 kem je neostré rozhraní mezi těmito tkáněmi, což může snižovat přesnost jejich vymezení (Obr. 2.2). Tento problém můžeme částečně odstranit zvýšením prostorového rozlišení obrazů, pokud nám to dovolují fyzikální omezení zobrazovací techniky. Obrázek 2.2: Zleva doprava T1-váhované obrazy s velikostí voxelu 1, 5 a 9 mm (BIC-B, aktualizace ). Šum (RF-noise artifact) Je způsoben hlavně vlastním šumem elektronických součástek, přispívají k němu ale i externí zdroje, jako například televize, blikající fluorescenční zdroje světla, měřící přístroje umístěné poblíž pacienta apod. (Drastich, 2004). Řešení tohoto problému představuje zlepšení odstínění zobrazovacích přístrojů od nežádoucích signálů, případně odstranění zdrojů, které je způsobují (Obr. 2.3). Obrázek 2.3: Zleva doprava T1-váhované obrazy se vzrůstajícím šumem (BIC-B, aktualizace ). Nelinearita v přenosu obrazové informace (INU - Intensity Non-Uniformity artifact) Jedná se o pozvolné změny intenzity MRI obrazu způsobené různými faktory, mezi něž patří nehomogenita RF excitačního pole, neuniformní citlivost přijímacích cívek nebo
19 Kapitola 2. Schizofrenie a zobrazování mozku 6 vířivé proudy (Sled & Pike, 1998) (Obr. 2.4). I když tyto rozdíly nemusí být patrné pouhým okem, mohou způsobit problémy při registraci obrazů, protože jednomu typu tkáně odpovídá v různých částech obrazu různá intenzita. K odstranění těchto artefaktů se používá například kompenzačních obvodů, aktivního stínění v průběhu akvizice obrazu (Drastich, 2004) nebo algoritmů aplikovaných na výsledný obraz (Dawant et al., 1993). Obrázek 2.4: Zleva doprava T1-váhované obrazy se vzrůstajícím INU efektem. Síla artefaktu se plynule mění podél osy z. Pro lepší ilustraci INU efektu bylo v šedotónním obrazu provedeno pseudobarvení (BIC-B, aktualizace ). 2.3 Morfologické analýzy obrazů mozku Magnetická rezonance umožnila díky vysokému rozlišení (řádově mm 3 ) snímaných obrazů studovat morfologii mozku na těchto obrazech nejen kvalitativně, ale i kvantitativně (měření objemu, polohy nebo tvaru tkání a anatomických struktur). Kvantitativním popisem morfologie se zabývá morfometrie Volumetrie Nejstarší morfometrickou metodou je volumetrie (Kašpárek & Schwarz, 2009). Spočívá ve vymezení oblasti zájmu (ROI - Region Of Interest) a určení obsahu (v případě dvourozměrného řezu) nebo objemu (u trojrozměrného obrazu) této oblasti. Objem se v nejjednodušším případě počítá jako součin velikosti objemového elementu a počtu těchto elementů ve vymezené oblasti. Nevýhodou této metody je potřeba ROI přesně vymezit, což je často nutné provádět manuálně (Honea et al., 2005), někdy nejde daný útvar od okolních odlišit vůbec (Kašpárek & Schwarz, 2009). Při nižším rozlišení obrazů je třeba se potýkat s efektem částečného objemu (viz 2.2.3), kdy dochází v jednom voxelu k mísení více tkání nebo oblastí zájmu. Ve skupinových studiích je nutná také korekce rozdílů velikostí mozků v rámci subjektů, což se provádí například pomocí regrese k celkovému objemu mozku nebo k výšce pacienta (Kašpárek & Schwarz, 2009).
20 Kapitola 2. Schizofrenie a zobrazování mozku Morfometrie založená na voxelech (VBM - Voxel-Based Morphometry) Jednoduchou a široce používanou metodou automatické morfometrie je VBM (Frackowiak et al., 2004). Tato metoda hledá statistické rozdíly v objemu tkáně na úrovni jednotlivých voxelů. Před samotným statistickým vyhodnocením je potřeba provést poměrně složité předzpracování vstupních obrazů, aby bylo zajištěno, že výsledky budou smysluplné. Všechny obrazy jsou nejprve prostorově normalizovány do jednotného stereotektického prostoru 5. Při tomto kroku může dojít ke změně objemu jednotlivých voxelů, proto je nutné tuto změnu zaznamenat a dále s ní počítat. Dalším krokem je segmentace obrazů, tedy určení míry výskytu tkání v jednotlivých voxelech (nejčastěji se dále pracuje jen s hodnotami koncentrace šedé hmoty). Následuje vyhlazení obrazů (např. konvoluce s Gaussovským jádrem). Tento krok zprůměruje množství tkáně v okolních voxelech, čímž se sníží vliv šumu a artefaktů vzniklých při registraci na výslednou statistiku (viz 2.2.3). Posledním krokem je samotná statistická analýza, při které se hledají rozdíly v množství tkáně v odpovídajících si voxelech mezi skupinami pacientů. Nejčastěji používanou statistickou metodou je obecný lineární model (GLM - General Linear Model) (Friston et al., 1994), který modeluje závislost naměřené veličiny Y j (např. množství šedé hmoty v daném voxelu) na lineární kombinaci vysvětlujících proměnných x ji (např. příslušnost ke skupině zdravý / nemocný) a na chybě ε j vztahem: Y j = L i=1 x ji β i + ε j j {1,...,N}, kde β i jsou neznámé parametry definující tuto závislost, ε j jsou nezávislé normálně rozdělené náhodné veličiny s nulovou střední hodnotou a konstantním rozptylem a N je počet voxelů v testované oblasti. Pomocí GLM je možno testovat i složitější hypotézy zahrnující interakce několika vysvětlujících proměnných nebo další zavádějící faktory (confounders), jako je například věk nebo pohlaví pacienta (Friston et al., 1994). Vliv takových proměnných se snažíme odfiltrovat, aby nedocházelo ke zkreslení při výpočtu vlivu primárně sledovaných proměnných. Výsledkem testování je statistická parametrická mapa (SPM - Statistical Parametric Map) popisující pro každý voxel statistickou významnost rozdílů mezi skupinami subjektů ve studii. Při výpočtu této významnosti bylo ovšem použito velké množství testů (v závislosti na modelu například jeden t-test pro každý voxel) a je tedy nutno provést korekci pro mnohočetná testování. Běžně používaná Bonferroniho korekce je pro velké množství testů (řádově miliony voxelů v obrazu) příliš restriktivní (statistická významnost žádného voxelu by po korekci nepřekročila požadovaný práh). Proto se používají jiné přístupy, 5 Nejčastěji se jedná o Talairachův stereotaktický prostor (Talairach & Tournoux, 1988) a registrace probíhá podle atlasů MNI305 (Evans et al., 1993) nebo ICBM152 (BIC-A, aktualizace ).
21 Kapitola 2. Schizofrenie a zobrazování mozku 8 například metody založené na teorii náhodných polí (Random fields theory) (Frackowiak et al., 2004), které místo s jednotlivými voxely pracují s jejich shluky. Alternativou je odlišný přístup zvaný False Discovery Rate (FDR) (Benjamini & Hochberg, 1995), kdy se místo s pravděpodobností falešně pozitivního výsledku pracuje s očekávanou četností falešně pozitivních voxelů. Další možností je použít anatomicky informovanou hypotézu (Anatomically closed hypothesis), tj. omezit testování pouze na určitou oblast, ve které očekáváme, že se odlišnosti mezi skupinami pacientů projeví (Flandin & Friston, 2008). Pokud nejsme schopni oblast očekávaného rozdílu vymezit dostatečně dobře dopředu, je možno použít metodu, kterou navrhl Friston (1997). Nejdříve spočítáme statistickou parametrickou mapu bez korekce pro mnohonásobná testování a poté najdeme shluk signifikantních bodů, který leží nejblíže této oblasti. Na tento shluk pak aplikujeme výše zmiňované přístupy založené na teorii náhodných polí. Před aplikací vybrané statistické metody je třeba zvolit, o jaké úrovni prostorového rozlišení bude testovaná hypotéza vypovídat. Může se jednat o závěry na úrovni celého mozku, konkrétních oblastí nebo jednotlivých voxelů. Obvykle platí, že za přesnější lokalizaci hledané oblasti platíme snížením významnosti získaných výsledků (Flandin & Friston, 2008) Morfometrie založená na deformacích (DBM - Deformation- Based Morphometry) DBM hodnotí změny pozice, velikosti a tvaru oblastí mozku vzhledem k vybrané šabloně (Frackowiak et al., 2004). Studované obrazy jsou nejdříve pomocí nelineárního algoritmu zaregistrovány ke společnému templátu. Při této registraci vznikne pro každý obraz deformační pole, které vyjadřuje, jak se musel každý voxel obrazu posunout, aby se ocitl na odpovídajícím místě templátu. U trojrozměrných obrazů se tedy jedná o tři hodnoty pro každý voxel 6. Takto získaná deformační pole se dále hodnotí pomocí statistických metod. Aplikují se bud vícerozměrné metody přímo na deformační pole, nebo je možné nejdříve vypočítat pro každý voxel vybranou skalární hodnotu (například determinant jakobiánu určuje míru lokální změny objemu (Gaser et al., 2001)) a poté použít jednorozměrný přístup obdobně jako u VBM (viz 2.3.2). Aby DBM zachycovala jen skutečné rozdíly v morfologii a nedocházelo ke slévání existujících nebo vytváření falešných anatomických struktur, provádí se před výpočtem deformačního pole jedna z rigidních forem registrace (Gaser et al., 2001), případně se aplikují složitější preventivní metody (Schwarz & Kašpárek, 2011). Podobným přístupem jako DBM je morfometrie založená na tenzorech (TBM - Tensor- Based Morphometry) (Frackowiak et al., 2004). Stejně jako u DBM je nejprve provedena 6 Pro zakódování posunu ve směru os x,y a z je třeba tří reálných hodnot.
22 Kapitola 2. Schizofrenie a zobrazování mozku 9 registrace obrazů, čímž získáme vektorové deformační pole. Toto pole je převedeno na tenzorové pole 7 a z těchto tenzorů jsou teprve počítány různé hodnoty popisující deformaci v daném místě (Lepore et al., 2008) Morfometrie založená na zdrojích (SBM - Source-Based Morphometry) Relativně novým přístupem k automatické morfometrii mozku je SBM (Xu et al., 2008). Jedná se o vícerozměrnou techniku, která podobně jako předchozí metody umožňuje identifikovat oblasti, v nichž dochází k morfologickým odlišnostem mezi studovanými skupinami subjektů. Prvním krokem je předzpracování obrazů shodné s postupem při VBM - obrazy jsou prostorově normalizovány, segmentovány a vyhlazeny. Místo aplikace jednorozměrných statistických metod je však na vzniklé obrazy (na které se můžeme dívat jako na dlouhé jednorozměrné vektory 8 ) aplikován rozklad pomocí analýzy nezávislých komponent (ICA - Independent Component Analysis) (Calhoun et al., 2001). Získáme tak několik komponent (skupin voxelů s vysokým stupněm vzájemné kovariance) a míru, s jakou se tyto komponenty projevují u jednotlivých subjektů. Následně je od komponent odečten vliv vnějších proměnných (confounding variables), jako je například věk, pohlaví (Xu et al., 2008) nebo celkový objem šedé hmoty (Kašpárek et al., 2010). Poté je aplikována komparativní statistická metoda (například dvouvýběrový t-test) s cílem identifikovat ty komponenty, jejichž míra působení se mezi skupinami subjektů významně odlišuje (Obr. 2.5). Také u SBM je nutné provádět korekci mnohonásobného testování, která ale není díky malému počtu komponent (řádově desítky 9 ) nijak restriktivní. Díky tomu má SBM větší statistickou sílu než VBM a je tak schopna odhalit i méně výrazné změny (Xu et al., 2008; Kašpárek et al., 2010). Další výhodou SBM je možnost uvažovat morfologické odlišnosti šedé i bílé hmoty zároveň, aniž by došlo k významnému nárůstu dimenzionality problému (Xu et al., 2008) Další morfometrické metody Mimo výše popsané nejfrekventovanější přístupy existuje ještě řada dalších metod. Jmenujme například morfometrii využívající povrchové reprezentace (Surface-based morphometry (Chung et al., 2003; Pantazis et al., 2004). Tento přístup nejprve generuje sférickou reprezentaci piálního 10 povrchu a rozhraní mezi šedou a bílou hmotou (viz Obrázek 2.6). Na tuto reprezentaci aplikuje obdoby dříve popsaných morfometrických metod. Výhodou 7 Tenzor je zobecněním vektoru do více dimenzí, tj. například matice. Tenzorové pole tak může uchovávat komplexnější informaci o lokální deformaci obrazu (například údaje o rotaci a zkosení). 8 Hodnoty koncentrace šedé hmoty v jednotlivých voxelech obrazu seřadíme za sebe do jednoho dlouhého vektoru. 9 Počet nezávislých komponent se stanoví například pomocí Akaikeho informačního kritéria (Li et al., 2007). 10 Piální povrch je plocha mezi omozečnicí (pia mater) a povrchem mozku (viz Obrázek 2.6).
23 Kapitola 2. Schizofrenie a zobrazování mozku 10 Obrázek 2.5: Výsledek SBM analýzy (Kašpárek et al., 2010). Barevně jsou vyznačeny tři signifikantní komponenty, ve kterých vykazovali pacienti s první epizodou schizofrenie menší objem šedé hmoty proti kontrolám. sférické reprezentace je přesnější zarovnání anatomických struktur (odpovídají si jednotlivé závity a rýhy 11 ) a možnost charakterizovat morfologickou odlišnosti pomocí jiných veličin (křivost, tloušt ka mozkové kůry) (Thesen et al., 2011). Metoda s názvem Pattern-Based Morphometry (PBM) (Gaonkar et al., 2011) je založená na řídké reprezentaci obrazů pomocí algoritmu K-SVD (Aharon et al., 2005). Nejprve je vzájemným odčítáním vygenerováno velké množství obrazů reprezentující rozdíly mezi studovanými skupinami, poté je aplikován algoritmus K-SVD a je nalezena řídká reprezentace těchto rozdílových obrazů a následně jsou z této reprezentace vypočítány vzory představující morfologické rozdíly mezi skupinami subjektů. 11 U člověka je koncový mozek pokryt závity (gyri) a rýhami (sulci) (viz Obrázek 2.6). Toto zvrásnění umožňuje zvětšit plochu mozkové kůry.
24 Kapitola 2. Schizofrenie a zobrazování mozku 11 Obrázek 2.6: Koronální řez mozkem v zobrazení magnetickou rezonancí. Červenou linkou je vyznačen piální povrch, žlutou linkou rozhraní mezi bílou a šedou hmotou. Převzato z IMAGELAB (aktualizace ); upraveno.
25 Kapitola 3 Klasifikace v neurovědním výzkumu 3.1 Problém klasifikace Pod pojmem klasifikace rozumíme úlohu zařazení objektů do správných tříd. V kontextu strojového učení se jedná o problém nalezení algoritmu schopného tuto úlohu co nejlépe řešit, a to pomocí metod strojového učení. Rozeznáváme dva základní typy konstrukce klasifikačních algoritmů - klasifikace s učitelem (Supervised classification) a klasifikaci bez učitele (Unsupervised classification) (Costaridou, 2005). Existují ale i metody ležící mimo toto dělení, například zpětnovazební (neboli posilované) učení (Reinforced learning) (Sutton & Barto, 1998; Wiering et al., 2011), kde není předem známa trénovací množina dvojic objekt-správné zařazení jako u klasifikace s učitelem, ale v průběhu učení dochází k oceňování dosavadního postupu. Tato práce se zabývá příznakovou klasifikací, tedy klasifikací objektů popsaných pomocí vektoru příznaků. Jedná se o veličiny popisující vlastnosti objektu uspořádané do vektoru. Prostor všech hodnot, kterých tyto vektory mohou nabývat, budeme označovat jako prostor příznaků (feature space) Klasifikace s učitelem (Supervised classification) Cílem této metody strojového učení je nalézt algoritmus schopný zařadit objekty do k předem známých tříd (Kotsiantis, 2007). Jako výchozí znalosti k nalezení hledaného algoritmu slouží trénovací množina - množina dvojic objektů spolu s jejich správnou klasifikací 1. Cílem je extrahovat informaci o vztahu mezi objekty a třídami obsaženou v testovací množině a aplikovat tuto znalost na nové objekty, které v testovací množině obsaženy nejsou. Typický průběh klasifikace s učitelem V této sekci je popsán typický průběh klasifikace s učitelem. Detailnější informace k této problematice lze nalézt v učebnici Analýza a klasifikace dat (Holčík, 2012): 1 Odtud pojem učení s učitelem - učitel poskytuje příklady objektů a jejich správné zařazení, počítač se jako žák učí tento postup generalizovat. 12
26 Kapitola 3. Klasifikace v neurovědním výzkumu 13 Získávání dat, předzpracování - nejprve je třeba naměřit data popisující objekty, jejichž klasifikací se chceme zabývat. Tato data mohou mít obecně podobu nejen příznakovou, tedy popisující charakteristiky daných objektů pomocí hodnot různých veličin, ale také mohou vyjadřovat strukturu objektů nebo vztahy mezi elementy, kterými jsou objekty tvořeny. V dalším textu se budeme zabývat pouze příznakovým popisem - data budeme uvažovat ve formě vektoru příznaků. Po naměření je typicky potřeba provést čištění dat a odstranění artefaktů nebo rušivých signálů, způsobených měřícím přístrojem nebo okolím (pro MRI data viz 2.2.3). Dále můžeme data různě transformovat (centrovat, normalizovat) za účelem srovnání hodnot více veličin, případně odstraníme nebo opravíme chybějící hodnoty. Analýza dat - dalším krokem je analýza dat, kdy zjišt ujeme vlastnosti příznakových proměnných a jejich vzájemné vztahy. Výsledkem tohoto snažení je získat ty příznaky, které nesou o klasifikovaných objektech nejvíce informace. Zároveň chceme počet příznaků redukovat, což vede k usnadnění samotné klasifikace a k lepším výsledkům. Není znám žádný obecně použitelný algoritmus, jak těchto cílů dosáhnout, postup se navíc může odvíjet také od volby klasifikátoru, který použijeme v následujícím kroku. Obecně lze příznaky získat dvěma přístupy: selekcí a extrakcí. Selekce - volba podmnožiny takových příznakových proměnných, které nejlépe separují klasifikované objekty. Extrakce - transformace příznakových proměnných na jiné, které umožní lepší klasifikaci. Příklady konkrétních metod pro získání menšího počtu příznaků, které navíc poskytují více informace pro klasifikaci, lze nalézt v sekcích 2.3 a 4.2. Výběr klasifikátoru - neexistuje jeden univerzální klasifikátor, který by byl nejlepší pro libovolný problém (Wolpert, 2001). Výsledná úspěšnost klasifikace závisí na charakteru vstupních dat a na použitých metodách předzpracování a výběru příznaků (některé klasifikátory například vyžadují určité pravděpodobnostní rozdělení vstupních veličin, jejich nezávislost nebo pracují efektivně jen pro vhodný počet příznaků). Výběr správného klasifikátoru a nastavení některých jeho parametrů je často subjektivní a závisí na zkušenostech uživatele. Trénování (učení) klasifikátoru - pod pojmem trénování klasifikátoru rozumíme postup nastavení parametrů klasifikátoru tak, aby dokázal objekty co nejlépe klasifikovat do zadaných tříd. Během učení je třeba zabránit tzv. přetrénování (overfitting) 2. K tomu se používají různé metody, jako je například rozdělení dat na testovací a trénovací množinu (Bishop, 2006). Klasifikátor se pak učí na testovací množině, ale jeho výkon je ověřován na testovací množině. Učení probíhá tak dlouho, dokud se zlepšuje úspěšnost klasifikátoru na testovací množině. 2 Přetrénování je situace, kdy je klasifikátor příliš přizpůsobený datům, na kterých byl natrénován (včetně šumu, který je v datech obsažen). Přetrénovaný klasifikátor pak na nich dosahuje podstatně lepších výsledků, než na nových datech, na která nebyl naučen.
27 Kapitola 3. Klasifikace v neurovědním výzkumu 14 Hodnocení úspěšnosti klasifikace - existují různé míry pro vyjádření úspěšnosti klasifikace (Baldi et al., 2000). Výsledky klasifikace můžeme zapsat do matice záměn (confusion matrix), což je matice, jejíž prvek na pozici i, j udává počet objektů patřících do třídy i, které klasifikátor zařadil do třídy j. V případě binární klasifikace za účelem určení klinické diagnózy (nemocný / zdravý) vypadá matice takto (Costaridou, 2005): klasifikován jako nemocný klasifikován jako zdravý nemocný zdravý TP FP poz. pred. hodnota T P/(T P + FP) FN TN neg. pred. hodnota T N/(FN + T N) senzitivita specificita T P/(T P + FN) T N/(FP + T N) Senzitivita (SENS - sensitivity) vyjadřuje schopnost klasifikátoru rozpoznat skutečně nemocné osoby. Specificita (SPEC - specificity) vyjadřuje schopnost rozpoznat osoby bez přítomnosti nemoci. Prediktivní hodnota pozitivního testu (PPV - positive predictive value) vyjadřuje pravděpodobnost, že je osoba skutečně nemocná, pokud byla jako nemocná klasifikována. Prediktivní hodnota negativního testu (NPV - negative predictive value) vyjadřuje pravděpodobnost, že osoba skutečně není nemocná, pokud byla klasifikována jako zdravá. Další míry: Přesnost (PREC - precision) Úplnost (REC - recall) PREC = PPV = REC = SENS = Celková správnost (ACC - accuracy) ACC = Celková chyba (ERR - error rate) T P T P + FP T P T P + FN T P + T N T P + FP + FN + T N ERR = 1 ACC
28 Kapitola 3. Klasifikace v neurovědním výzkumu 15 Hodnocení kvality klasifikátoru - naučený klasifikátor chceme většinou používat pro klasifikaci nových objektů, se kterými se klasifikátor ještě nesetkal a jejichž správnou klasifikaci neznáme. Proto potřebujeme odhadnout, jakou úspěšnost bude mít klasifikátor na těchto datech. Tento odhad však nelze odvozovat z úspěšnosti klasifikace na stejných datech, na kterých byl klasifikátor natrénován, protože by mohl být velmi nadhodnocený. Existuje několik metod, jak získat kvalitnější odhady výkonnosti klasifikátoru (Michie et al., 1994): Nezávislá testovací množina (train-and-test / holdout) - nejlepší je mít k dispozici druhou nezávislou sadu dat, na které výkon klasifikátoru otestujeme. V ideálním případě by se mělo jednat o data získaná z jiné nemocnice, měřená jinými přístroji a zpracovaná jinými lidmi (Demirci et al., 2008a), aby bylo dosaženo validních výsledků. Ne vždy jsou však taková data k dispozici. V tom případě lze postupovat tak, že rozdělíme datový soubor na dvě podmnožiny - trénovací a testovací. Na trénovací množině klasifikátor naučíme a na testovací pak ověříme jeho výkonnost. Nevýhodou tohoto přístupu je nutnost mít dostatečné množství dat. Protože tím, že učíme klasifikátor jen na části dostupných dat, ztrácíme určitou část informace. To má negativní dopad na kvalitu klasifikátoru, obzvlášt při malém počtu objektů. Křížová validace (cross-validation) - pokud nemáme k dispozici dostatečné množství dat, můžeme použít metodu křížové validace. Datový soubor rozdělíme na m stejně velkých částí a poté vždy na m 1 z těchto podsouborů klasifikátor natrénujeme a otestujeme ho na zbývajícím podsouboru. Tento postup opakujeme m krát a výsledný odhad úspěšnosti klasifikátoru získáme jako průměr úspěšností v každém kroku. Speciálním případem tohoto přístupu je metoda leave-one-out, kdy je m rovno velikosti celého datového souboru. V tomto případě tedy postupně oddělíme vždy jeden objekt, na zbylých datech klasifikátor naučíme a pak ho testujeme na dříve odděleném objektu. Nevýhodou křížové validace je u některých klasifikátorů to, že je musíme opakovaně trénovat, což může být časově náročné. Problémy mohou nastat také v případě, kdy mají jednotlivé podsoubory nestejný počet objektů z každé třídy. Obzvláště v případě validace typu leave-one-out můžeme v tomto případě získat zkreslené odhady (Kohavi, 1995). Další nevýhodou je, že při menším množství dat jsou intervaly spolehlivosti pro úspěšnost klasifikátoru zjištěné metodou křížové validace široké (Michie et al., 1994). Bootstrap - širokým intervalům spolehlivosti při odhadech se můžeme vyhnout použitím metody zvané bootstrap. Ta funguje tak, že z celého datového souboru o velikosti n objektů vybíráme s opakováním trénovací soubor o velikosti rovněž n. Pro testování pak použijeme ty objekty, které se v trénovacím souboru nevyskytly ani jednou (je jich v průměru asi 37% (Kohavi, 1995)). Celý postup pak opakujeme mnohokrát. Tím získáme odhad úspěšnosti klasifikátoru, přičemž interval spolehlivosti je užší než u metody křížové validace. Daní, kterou platíme za zvýšenou přesnost odhadu, je to, že je nadhodnocený (Michie et al., 1994).
29 Kapitola 3. Klasifikace v neurovědním výzkumu 16 Je důležité si uvědomit, že činnosti, jako je nastavování parametrů klasifikátoru nebo výběr vhodných příznaků, které budou použity pro klasifikaci, by se měly provádět jen na základě trénovacích dat, tj. až po rozdělení datové sady na trénovací a testovací podmnožinu. V opačném případě by docházelo k nadhodnocení odhadu úspěšnosti klasifikátoru (Demirci et al., 2008a). Samotný výběr příznaků pak může probíhat opět s využitím metod křížové validace nebo bootstrap - ve vnořeném cyklu dělíme trénovací množinu na podmnožiny a kvalitu parametrů testujeme jen na části z nich. Dalším častým prohřeškem vůči korektnímu postupu je uvádět pouze celkovou správnost klasifikátoru v případě, kdy máme nevyrovnané počty objektů v jednotlivých třídách. V takové situaci je lepší zároveň uvádět další míry kvality klasifikátoru, jako je například senzitivita a specificita (Demirci et al., 2008a) Klasifikace bez učitele (Unsupervised classification) V případě klasifikace bez učitele nemáme k dispozici trénovací množinu (Costaridou, 2005). Předem známy nemusí být ani třídy, do kterých chceme objekty klasifikovat. Rozdělení do tříd a samotná konstrukce tříd tedy probíhá na základě vnitřní struktury dat. Lze tak například odhalit odlišné podskupiny ve skupině objektů, o které jsme si mysleli, že je homogenní, nebo zjistit, s jakou frekvencí a s jakými kombinacemi příznaků se objekty vyskytují. 3.2 Klasifikace obrazových dat Klasifikace obrazových dat se uplatňuje v mnoha oblastech medicíny. Například v systémech počítačem podporované diagnostiky (CAD - Computer-Aided Diagnosis) (Doi, 2007), kde slouží jako nezávislá kontrola diagnózy stanovené lékařem. V oblasti duševních poruch, kde bývá stanovení přesné diagnózy v raných stádiích nemoci obtížné, se objevují snahy o objektivní diagnostiku pomocí obrazových dat místo stávajících metod založených na subjektivních rozhovorech lékaře s pacientem (Haubold et al., 2012; Klöppel et al., 2012) Problém malého vzroku (Small sample size, Curse of dimensionality) U mnohorozměrných dat, jako jsou například medicínské obrazy, se můžeme setkat s tzv. problémem malého vzorku (small sample size / curse of dimensionality) (Bishop, 2006). Tento problém nastává, když má prostor příznaků příliš velkou dimenzi v porovnání s počtem objektů v trénovací množině. Prostor je pak objekty vyplněn příliš řídce a může být obtížné najít vhodný klasifikátor. Platí například, že pokud má prostor příznaků stejnou nebo vyšší dimenzi, než kolik je k dispozici objektů v dané množině, lze vždy nalézt lineární klasifikátor správně klasifikující všechny objekty, a to i v tom případě, kdy jsou jejich příznaky vygenerovány náhodně (Duin, 2000).
30 Kapitola 3. Klasifikace v neurovědním výzkumu 17 Tento problém by se projevil například v případě, pokud bychom chtěli klasifikovat pacienty podle intenzity jednotlivých voxelů v obrazech mozku pořízených magnetickou rezonancí. Anatomické MRI snímky mají při rozlišení v řádech milimetrů běžně přes milion voxelů, kdežto počet subjektů se pohybuje v řádech desítek, nejvýše stovek jedinců. Proto je třeba bud vybrat jen některé příznaky (například pomocí vymezení určitých morfologických struktur (viz 2.3) nebo s využitím nějaké regularizační 3 techniky (Bickel et al., 2006)), převést data do vhodného prostoru poskytující řídkou reprezentaci (viz Kapitolu 4)), nebo zredukovat dimenzi prostoru příznaků (například použitím analýzy hlavních komponent (PCA - Principal Component Analysis) (Janoušová et al., 2010) nebo nějaké shlukovací metody (Fan et al., 2007)). Z takto získaných příznaků můžeme dále vybírat ty, které nejlépe diskriminují mezi jednotlivými třídami (viz například Zhang et al. (2006)). 3.3 Využití klasifikace obrazů v diagnostice schizofrenie V této části je uvedena rešerše automatických klasifikačních metod používaných v souvislosti se schizofrenií. Zmíněny jsou jen ty přístupy, které jako vstupní data využívají medicínské obrazy mozku. Rešerše je zaměřena na jednotlivé typy klasifikátorů a na úspěšnost výsledné klasifikace. V případě nevyrovnaných počtů subjektů v jednotlivých třídách lze za úspěšný algoritmus považovat ten, který dosahuje kromě vysokých hodnot celkové správnosti také vysoké hodnoty senzitivity a specificity Klasifikace s učitelem (Supervised classification) Algoritmus podpůrných vektorů (SVM - Support Vector Machines) Velmi rozšířeným a úspěšným klasifikačním algoritmem používaným nejen v neurovědách je SVM (Vapnik, 1999). Algoritmus hledá v prostoru příznaků takovou nadrovinu, která co nejlépe separuje objekty do dvou zadaných tříd. V případě, že jsou třídy v prostoru příznaků lineárně separovatelné, maximalizuje nalezená nadrovina vzdálenost nejbližších objektů k této nadrovině (Obr. 3.1a). Těm se říká podpůrné vektory (support vectors). V případě, že objekty v trénovací množině nejsou lineárně separovatelné, zavádí se do výpočtu volné proměnné (slack variables), které vyjadřují, o jaký úsek bychom museli problematické objekty posunout, aby už byly dané třídy lineárně separovatelné. Metoda v tomto případě hledá takovou nadrovinu, která opět leží co nejdále od těch objektů, které lze lineárně separovat, ale zároveň minimalizuje součet volných proměnných (Obr. 3.1b). Zavedení volných proměnných lze kombinovat s dalším přístupem, který řeší situaci, kdy třídy nelze separovat lineárně. V takovém případě se používá jádrových transformací (kernel transformations) Boser et al. (1992). Objekty se transformují do prostoru o více dimenzích, než měl původní prostor příznaků a zde je již možno třídy separovat pomocí lineární nadroviny. 3 Regularizační metody zavádí do problému nové podmínky, které typicky omezují počet proměnných a tím snižují riziko přetrénování.
31 příznak 2 příznak 2 Kapitola 3. Klasifikace v neurovědním výzkumu 18 d d d d ξ 1 ξ 2 ξ 3 0 příznak 1 (a) Lineárně separovatelné třídy. 0 příznak 1 (b) Lineárně neseparovatelné třídy. Obrázek 3.1: Lineární separace objektů pomocí SVM do dvou tříd ve dvourozměrném prostoru příznaků. Dělící nadrovina (zde plná čára) odděluje obě třídy tak, aby vzdálenost d mezi objekty ležícími nejblíže k dělící nadrovině (tzv. podpůrné vektory - na Obrázku (a) zakroužkovány) a touto nadrovinou byla maximální. V případě, že objekty nelze lineárně separovat, zavádí se volné proměnné ξ i vyjadřující míru nesprávnosti klasifikace u špatně zařazených objektů (na Obrázku (b) zakroužkovány). V takovém případě se minimalizuje jak d, tak ξ i. V poslední době se objevuje množství článků využívajících SVM k úspěšnému odlišení pacientů se schizofrenií od zdravých dobrovolníků jak ze strukturních obrazů z magnetické rezonance (Castellani et al., 2012) (správnost %), (Liu et al., 2004) (správnost 88 %), (Fan et al., 2007) (správnost 90 %), tak z funkčních dat (Shen et al., 2010) (správnost 87 %), (Liu et al., 2011) (správnost 78 %) nebo pomocí obrazů z difuzní tenzorové traktografie (DTI) (Ingalhalikar et al., 2010) (správnost 90 %). Ovšem všechny tyto studie byly provedeny na poměrně malém vzorku pacientů (několik desítek) a při testování klasifikace na řádově větší množině subjektů (277) nebylo takto dobrých výsledků dosaženo (Nieuwenhuis et al., 2012) (správnost 70 %). Existují také pokusy o predikci budoucího vývoje u pacientů s prvními příznaky schizofrenie (Mourao-Miranda et al., 2012). Pomocí SVM bylo podle MRI obrazů klasifikováno 100 pacientů do tří tříd podle úspěšnosti klinické léčby se správností 54 až 67 procent. Obdobného výsledku (73 %) dosáhli Zanetti et al. (2013) při klasifikaci 62 pacientů s první epizodou schizofrenie (FES - First Episode Schizophrenia) a 62 kontrol pomocí SVM aplikované na MRI segmentované obrazy šedé hmoty, bílé hmoty i mozkomíšního moku. Časté jsou také pokusy o kombinaci klasifikátorů nad různými typy dat. Například Yang et al. (2010) kombinují klasifikaci pomocí SVM z fmri obrazů s klasifikací pomocí jed-
Metody zpracování a analýzy medicínských obrazových dat: možnosti využití v neurovědním výzkumu
Metody zpracování a analýzy medicínských obrazových dat: možnosti využití v neurovědním výzkumu Ing. Daniel Schwarz, Ph.D. Bc. Eva Janoušov ová INVESTICE DO ROZVOJE VZDĚLÁVÁNÍ O čem budu mluvit? Neurovědy
Algoritmy a struktury neuropočítačů ASN P9 SVM Support vector machines Support vector networks (Algoritmus podpůrných vektorů)
Algoritmy a struktury neuropočítačů ASN P9 SVM Support vector machines Support vector networks (Algoritmus podpůrných vektorů) Autor: Vladimir Vapnik Vapnik, V. The Nature of Statistical Learning Theory.
ANALÝZA A KLASIFIKACE DAT
ANALÝZA A KLASIFIKACE DAT RNDr. Eva Janoušová INVESTICE DO ROZVOJE VZDĚLÁVÁNÍ HODNOCENÍ ÚSPĚŠNOSTI KLASIFIKACE A SROVNÁNÍ KLASIFIKÁTORŮ ÚVOD Vstupní data Subjekt Objem hipokampu Objem komor Skutečnost
Obsah přednášky Jaká asi bude chyba modelu na nových datech?
Obsah přednášky Jaká asi bude chyba modelu na nových datech? Chyba modelu Bootstrap Cross Validation Vapnik-Chervonenkisova dimenze 2 Chyba skutečná a trénovací Máme 30 záznamů, rozhodli jsme se na jejich
RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr.
Analýza dat pro Neurovědy RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr. Jaro 2014 Institut biostatistiky Janoušová, a analýz Dušek: Analýza dat pro neurovědy Blok 6 Jak analyzovat kategoriální a binární
TERMINOLOGIE ... NAMĚŘENÁ DATA. Radek Mareček PŘEDZPRACOVÁNÍ DAT. funkční skeny
PŘEDZPRACOVÁNÍ DAT Radek Mareček TERMINOLOGIE Session soubor skenů nasnímaných během jednoho běhu stimulačního paradigmatu (řádově desítky až stovky skenů) Sken jeden nasnímaný objem... Voxel elementární
Kybernetika a umělá inteligence, cvičení 10/11
Kybernetika a umělá inteligence, cvičení 10/11 Program 1. seminární cvičení: základní typy klasifikátorů a jejich princip 2. počítačové cvičení: procvičení na problému rozpoznávání číslic... body za aktivitu
Přednáška 13 Redukce dimenzionality
Vytěžování Dat Přednáška 13 Redukce dimenzionality Miroslav Čepek Fakulta Elektrotechnická, ČVUT Evropský sociální fond Praha & EU: Investujeme do vaší budoucnosti ČVUT (FEL) Redukce dimenzionality 1 /
Moderní systémy pro získávání znalostí z informací a dat
Moderní systémy pro získávání znalostí z informací a dat Jan Žižka IBA Institut biostatistiky a analýz PřF & LF, Masarykova universita Kamenice 126/3, 625 00 Brno Email: zizka@iba.muni.cz Bioinformatika:
Úloha - rozpoznávání číslic
Úloha - rozpoznávání číslic Vojtěch Franc, Tomáš Pajdla a Tomáš Svoboda http://cmp.felk.cvut.cz 27. listopadu 26 Abstrakt Podpůrný text pro cvičení předmětu X33KUI. Vysvětluje tři způsoby rozpoznávání
Analýza časového vývoje 3D dat v nukleární medicíně
Diplomová práce Analýza časového vývoje 3D dat v nukleární medicíně Jan Kratochvíla Prezentováno Seminář lékařských aplikací 12. prosince 2008 Vedoucí: Mgr. Jiří Boldyš, PhD., ÚTIA AV ČR Konzultant: Ing.
Pokročilé operace s obrazem
Získávání a analýza obrazové informace Pokročilé operace s obrazem Biofyzikální ústav Lékařské fakulty Masarykovy univerzity Brno prezentace je součástí projektu FRVŠ č.2487/2011 (BFÚ LF MU) Získávání
RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr.
Analýza dat pro Neurovědy RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr. Jaro 2014 Institut biostatistiky Janoušová, a analýz Dušek: Analýza dat pro neurovědy Blok 7 Jak hodnotit vztah spojitých proměnných
Úvodem Dříve les než stromy 3 Operace s maticemi
Obsah 1 Úvodem 13 2 Dříve les než stromy 17 2.1 Nejednoznačnost terminologie 17 2.2 Volba metody analýzy dat 23 2.3 Přehled vybraných vícerozměrných metod 25 2.3.1 Metoda hlavních komponent 26 2.3.2 Faktorová
DETEKCE HRAN V BIOMEDICÍNSKÝCH OBRAZECH
DETEKCE HRAN V BIOMEDICÍNSKÝCH OBRAZECH Viktor Haškovec, Martina Mudrová Vysoká škola chemicko-technologická v Praze, Ústav počítačové a řídicí techniky Abstrakt Příspěvek je věnován zpracování biomedicínských
VÝBĚR A JEHO REPREZENTATIVNOST
VÝBĚR A JEHO REPREZENTATIVNOST Induktivní, analytická statistika se snaží odhadnout charakteristiky populace pomocí malého vzorku, který se nazývá VÝBĚR neboli VÝBĚROVÝ SOUBOR. REPREZENTATIVNOST VÝBĚRU:
ANALÝZA A KLASIFIKACE DAT
ANALÝZA A KLASIFIKACE DAT prof. Ing. Jiří Holčík, CSc. INVESTICE Institut DO biostatistiky ROZVOJE VZDĚLÁVÁNÍ a analýz LITERATURA Holčík, J.: přednáškové prezentace Holčík, J.: Analýza a klasifikace signálů.
Dobývání znalostí. Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze
Dobývání znalostí Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze Dobývání znalostí Pravděpodobnost a učení Doc. RNDr. Iveta Mrázová,
Algoritmy a struktury neuropočítačů ASN - P10. Aplikace UNS v biomedicíně
Aplikace UNS v biomedicíně aplikace v medicíně postup při zpracování úloh Aplikace UNS v medicíně Důvod: nalezení exaktnějších, levnějších a snadnějších metod určování diagnóz pro lékaře nalezení šetrnějších
Vytěžování znalostí z dat
Vytěžování znalostí z dat Department of Computer Systems Faculty of Information Technology Czech Technical University in Prague Přednáška 5: Hodnocení kvality modelu BI-VZD, 09/2011 MI-POA Evropský sociální
Následující text je součástí učebních textů předmětu Bi0034 Analýza a klasifikace dat a je určen
11. Klasifikace V této kapitole se seznámíme s účelem, principy a jednotlivými metodami klasifikace dat, jež tvoří samostatnou rozsáhlou oblast analýzy dat. Klasifikace umožňuje určit, do které skupiny
Jasové transformace. Karel Horák. Rozvrh přednášky:
1 / 23 Jasové transformace Karel Horák Rozvrh přednášky: 1. Úvod. 2. Histogram obrazu. 3. Globální jasová transformace. 4. Lokální jasová transformace. 5. Bodová jasová transformace. 2 / 23 Jasové transformace
Pokročilé neparametrické metody. Klára Kubošová
Pokročilé neparametrické metody Klára Kubošová Pokročilé neparametrické metody Výuka 13 přednášek doplněných o praktické cvičení v SW Úvod do neparametrických metod + princip rozhodovacích stromů Klasifikační
analýzy dat v oboru Matematická biologie
INSTITUT BIOSTATISTIKY A ANALÝZ Lékařská a Přírodovědecká fakulta, Masarykova univerzita Komplexní přístup k výuce analýzy dat v oboru Matematická biologie Tomáš Pavlík, Daniel Schwarz, Jiří Jarkovský,
Využití magneticko-rezonanční tomografie v měřicí technice. Ing. Jan Mikulka, Ph.D. Ing. Petr Marcoň
Využití magneticko-rezonanční tomografie v měřicí technice Ing. Jan Mikulka, Ph.D. Ing. Petr Marcoň Osnova Podstata nukleární magnetické rezonance (MR) Historie vývoje MR Spektroskopie MRS Tomografie MRI
AVDAT Mnohorozměrné metody, metody klasifikace
AVDAT Mnohorozměrné metody, metody klasifikace Josef Tvrdík Katedra informatiky Přírodovědecká fakulta Ostravská univerzita Mnohorozměrné metody Regrese jedna náhodná veličina je vysvětlována pomocí jiných
Matematika pro geometrickou morfometrii
Matematika pro geometrickou morfometrii Václav Krajíček Vaclav.Krajicek@mff.cuni.cz Department of Software and Computer Science Education Faculty of Mathematics and Physics Charles University Přednáška
2 Zpracování naměřených dat. 2.1 Gaussův zákon chyb. 2.2 Náhodná veličina a její rozdělení
2 Zpracování naměřených dat Důležitou součástí každé experimentální práce je statistické zpracování naměřených dat. V této krátké kapitole se budeme věnovat určení intervalů spolehlivosti získaných výsledků
Strojové učení Marta Vomlelová
Strojové učení Marta Vomlelová marta@ktiml.mff.cuni.cz KTIML, S303 Literatura 1.T. Hastie, R. Tishirani, and J. Friedman. The Elements of Statistical Learning, Data Mining, Inference and Prediction. Springer
Využití metod strojového učení v bioinformatice David Hoksza
Využití metod strojového učení v bioinformatice David Hoksza SIRET Research Group Katedra softwarového inženýrství, Matematicko-fyzikální fakulta Karlova Univerzita v Praze Bioinformatika Biologické inspirace
Neuronové časové řady (ANN-TS)
Neuronové časové řady (ANN-TS) Menu: QCExpert Prediktivní metody Neuronové časové řady Tento modul (Artificial Neural Network Time Series ANN-TS) využívá modelovacího potenciálu neuronové sítě k predikci
Klasifikace a rozpoznávání. Lineární klasifikátory
Klasifikace a rozpoznávání Lineární klasifikátory Opakování - Skalární součin x = x1 x 2 w = w T x = w 1 w 2 x 1 x 2 w1 w 2 = w 1 x 1 + w 2 x 2 x. w w T x w Lineární klasifikátor y(x) = w T x + w 0 Vyber
Projekční algoritmus. Urychlení evolučních algoritmů pomocí regresních stromů a jejich zobecnění. Jan Klíma
Urychlení evolučních algoritmů pomocí regresních stromů a jejich zobecnění Jan Klíma Obsah Motivace & cíle práce Evoluční algoritmy Náhradní modelování Stromové regresní metody Implementace a výsledky
vzorek1 0.0033390 0.0047277 0.0062653 0.0077811 0.0090141... vzorek 30 0.0056775 0.0058778 0.0066916 0.0076192 0.0087291
Vzorová úloha 4.16 Postup vícerozměrné kalibrace Postup vícerozměrné kalibrace ukážeme na úloze C4.10 Vícerozměrný kalibrační model kvality bezolovnatého benzinu. Dle následujících kroků na základě naměřených
Kapitola 1. Signály a systémy. 1.1 Klasifikace signálů
Kapitola 1 Signály a systémy 1.1 Klasifikace signálů Signál představuje fyzikální vyjádření informace, obvykle ve formě okamžitých hodnot určité fyzikální veličiny, která je funkcí jedné nebo více nezávisle
BRNO KOMPLEXNÍ DOPRAVNÍ ANALÝZA
MASARYKOVA UNIVERZITA PŘÍRODOVĚDECKÁ FAKULTA GEOGRAFICKÝ ÚSTAV BRNO KOMPLEXNÍ DOPRAVNÍ ANALÝZA Diplomová práce Jan Kučera Vedoucí práce: Mgr. Daniel Seidenglanz, Ph.D. Brno 2013 Bibliografický záznam Autor:
Automatická detekce anomálií při geofyzikálním průzkumu. Lenka Kosková Třísková NTI TUL Doktorandský seminář, 8. 6. 2011
Automatická detekce anomálií při geofyzikálním průzkumu Lenka Kosková Třísková NTI TUL Doktorandský seminář, 8. 6. 2011 Cíle doktorandské práce Seminář 10. 11. 2010 Najít, implementovat, ověřit a do praxe
Vyhodnocení 2D rychlostního pole metodou PIV programem Matlab (zpracoval Jan Kolínský, dle programu ing. Jana Novotného)
Vyhodnocení 2D rychlostního pole metodou PIV programem Matlab (zpracoval Jan Kolínský, dle programu ing. Jana Novotného) 1 Obecný popis metody Particle Image Velocimetry, nebo-li zkráceně PIV, je měřící
Obsah Úvod Kapitola 1 Než začneme Kapitola 2 Práce s hromadnými daty před analýzou
Úvod.................................................................. 11 Kapitola 1 Než začneme.................................................................. 17 1.1 Logika kvantitativního výzkumu...........................................
TECHNICKÁ UNIVERZITA V LIBERCI
TECHNICKÁ UNIVERZITA V LIBERCI Fakulta mechatroniky, informatiky a mezioborových studií Základní pojmy diagnostiky a statistických metod vyhodnocení Učební text Ivan Jaksch Liberec 2012 Materiál vznikl
RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr.
Analýza dat pro Neurovědy RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr. Jaro 2014 Institut biostatistiky Janoušová, a analýz Dušek: Analýza dat pro neurovědy Blok 4 Jak a kdy použít parametrické a
7. Rozdělení pravděpodobnosti ve statistice
7. Rozdělení pravděpodobnosti ve statistice Statistika nuda je, má však cenné údaje, neklesejte na mysli, ona nám to vyčíslí Jednou z úloh statistiky je odhad (výpočet) hodnot statistického znaku x i,
Chyby měření 210DPSM
Chyby měření 210DPSM Jan Zatloukal Stručný přehled Zdroje a druhy chyb Systematické chyby měření Náhodné chyby měření Spojité a diskrétní náhodné veličiny Normální rozdělení a jeho vlastnosti Odhad parametrů
Aplikace obrazové fúze pro hledání vad
Marek Vajgl, Irina Perfilieva, Petr Hurtík, Petra Hoďáková Národní superpočítačové centrum IT4Innovations Divize Ostravské univerzity Ústav pro výzkum a aplikaci fuzzy modelování Ostrava, Česká republika
Rozdělování dat do trénovacích a testovacích množin
Rozdělování dat do trénovacích a testovacích množin Marcel Jiřina Rozpoznávání je důležitou metodou při zpracování reálných úloh. Rozpoznávání je definováno dvěma kroky a to pořízením dat o reálném rozpoznávaném
Strukturální regresní modely. určitý nadhled nad rozličnými typy modelů
Strukturální regresní modely určitý nadhled nad rozličnými typy modelů Jde zlepšit odhad k-nn? Odhad k-nn konverguje pro slušné k očekávané hodnotě. ALE POMALU! Jiné přístupy přidají předpoklad o funkci
ANALÝZA BIOLOGICKÝCH A KLINICKÝCH DAT V MEZIOBOROVÉM POJETÍ
ANALÝZA BIOLOGICKÝCH A KLINICKÝCH DAT V MEZIOBOROVÉM POJETÍ INVESTICE Institut DO biostatistiky ROZVOJE VZDĚLÁVÁNÍ a analýz 5. LETNÍ ŠKOLA MATEMATICKÉ BIOLOGIE ANALÝZA BIOLOGICKÝCH A KLINICKÝCH DAT V MEZIOBOROVÉM
magnetizace M(t) potom, co těsně po rychlé změně získal vzorek magnetizaci M 0. T 1, (2)
1 Pracovní úkoly Pulsní metoda MR (část základní) 1. astavení optimálních excitačních podmínek signálu FID 1 H ve vzorku pryže 2. Měření závislosti amplitudy signálu FID 1 H ve vzorku pryže na délce excitačního
Strojové učení se zaměřením na vliv vstupních dat
Strojové učení se zaměřením na vliv vstupních dat Irina Perfilieva, Petr Hurtík, Marek Vajgl Centre of excellence IT4Innovations Division of the University of Ostrava Institute for Research and Applications
Pokyny pro vypracování bakalářských, diplomových a rigorózních prací na Přírodovědecké fakultě MU
Opatření děkana Přírodovědecké fakulty Masarykovy univerzity č. 12 / 2018 Pokyny pro vypracování bakalářských, diplomových a rigorózních prací na Přírodovědecké fakultě MU (ve znění účinném od 15.12.2018)
Hodnocení klasifikátoru Test nezávislosti. 14. prosinec Rozvoj aplikačního potenciálu (RAPlus) CZ.1.07/2.4.00/
Čtyřpolní tabulky Čtyřpolní tabulky 14. prosinec 2012 Rozvoj aplikačního potenciálu (RAPlus) CZ.1.07/2.4.00/17.0117 O čem se bude mluvit? Čtyřpolní tabulky Osnova prezentace Čtyřpolní tabulky 1. přístupy
Klasifikace předmětů a jevů
Klasifikace předmětů a jevů 1. Úvod Rozpoznávání neboli klasifikace je základní znak lidské činnosti. Rozpoznávání (klasifikace) předmětů a jevů spočívá v jejich zařazování do jednotlivých tříd. Třídou
Rosenblattův perceptron
Perceptron Přenosové funkce Rosenblattův perceptron Rosenblatt r. 1958. Inspirace lidským okem Podle fyziologického vzoru je třívrstvá: Vstupní vrstva rozvětvovací jejím úkolem je mapování dvourozměrného
Support Vector Machines (jemný úvod)
Support Vector Machines (jemný úvod) Osnova Support Vector Classifier (SVC) Support Vector Machine (SVM) jádrový trik (kernel trick) klasifikace s měkkou hranicí (soft-margin classification) hledání optimálních
Náhodné chyby přímých měření
Náhodné chyby přímých měření Hodnoty náhodných chyb se nedají stanovit předem, ale na základě počtu pravděpodobnosti lze zjistit, která z možných naměřených hodnot je více a která je méně pravděpodobná.
Cvičná bakalářská zkouška, 1. varianta
jméno: studijní obor: PřF BIMAT počet listů(včetně tohoto): 1 2 3 4 5 celkem Cvičná bakalářská zkouška, 1. varianta 1. Matematická analýza Najdětelokálníextrémyfunkce f(x,y)=e 4(x y) x2 y 2. 2. Lineární
ANALÝZA BIOLOGICKÝCH A KLINICKÝCH DAT V MEZIOBOROVÉM POJETÍ
ANALÝZA BIOLOGICKÝCH A KLINICKÝCH DAT V MEZIOBOROVÉM POJETÍ INVESTICE Institut DO biostatistiky ROZVOJE VZDĚLÁVÁNÍ a analýz 5. LETNÍ ŠKOLA MATEMATICKÉ BIOLOGIE ANALÝZA BIOLOGICKÝCH A KLINICKÝCH DAT V MEZIOBOROVÉM
Chybějící atributy a postupy pro jejich náhradu
Chybějící atributy a postupy pro jejich náhradu Jedná se o součást čištění dat Čistota dat je velmi důležitá, neboť kvalita dat zásadně ovlivňuje kvalitu výsledků, které DM vyprodukuje, neboť platí Garbage
Opatření děkana č. 1/2012 Pokyny pro vypracování bakalářských, diplomových a rigorózních prací na Přírodovědecké fakultě MU
Opatření děkana č. 1/2012 Pokyny pro vypracování bakalářských, diplomových a rigorózních prací na Přírodovědecké fakultě MU Bakalářské, diplomové a rigorózní práce odevzdávané k obhajobě na Přírodovědecké
Přednáška XI. Asociace ve čtyřpolní tabulce a základy korelační analýzy
Přednáška XI. Asociace ve čtyřpolní tabulce a základy korelační analýzy Relativní riziko a poměr šancí Princip korelace dvou náhodných veličin Korelační koeficienty Pearsonůva Spearmanův Korelace a kauzalita
1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.
Prostá regresní a korelační analýza 1 1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004. Problematika závislosti V podstatě lze rozlišovat mezi závislostí nepodstatnou, čili náhodnou
5. Umělé neuronové sítě. Neuronové sítě
Neuronové sítě Přesný algoritmus práce přírodních neuronových systémů není doposud znám. Přesto experimentální výsledky na modelech těchto systémů dávají dnes velmi slibné výsledky. Tyto systémy, včetně
Pravděpodobnost v závislosti na proměnné x je zde modelován pomocí logistického modelu. exp x. x x x. log 1
Logistická regrese Menu: QCExpert Regrese Logistická Modul Logistická regrese umožňuje analýzu dat, kdy odezva je binární, nebo frekvenční veličina vyjádřená hodnotami 0 nebo 1, případně poměry v intervalu
Lineární klasifikátory
Lineární klasifikátory Lineární klasifikátory obsah: perceptronový algoritmus základní verze varianta perceptronového algoritmu přihrádkový algoritmus podpůrné vektorové stroje Lineární klasifikátor navrhnout
K možnostem krátkodobé předpovědi úrovně znečištění ovzduší statistickými metodami. Josef Keder
K možnostem krátkodobé předpovědi úrovně znečištění ovzduší statistickými metodami Josef Keder Motivace Předpověď budoucí úrovně znečištění ovzduší s předstihem v řádu alespoň několika hodin má význam
Jana Vránová, 3. lékařská fakulta UK
Jana Vránová, 3. lékařská fakulta UK Vznikají při zkoumání vztahů kvalitativních resp. diskrétních znaků Jedná se o analogii s korelační analýzou spojitých znaků Přitom předpokládáme, že každý prvek populace
Algoritmy pro shlukování prostorových dat
Algoritmy pro shlukování prostorových dat Marta Žambochová Katedra matematiky a informatiky Fakulta sociálně ekonomická Univerzita J. E. Purkyně v Ústí nad Labem ROBUST 21. 26. leden 2018 Rybník - Hostouň
Náhodné (statistické) chyby přímých měření
Náhodné (statistické) chyby přímých měření Hodnoty náhodných chyb se nedají stanovit předem, ale na základě počtu pravděpodobnosti lze zjistit, která z možných naměřených hodnot je více a která je méně
Kalkulace závažnosti komorbidit a komplikací pro CZ-DRG
Kalkulace závažnosti komorbidit a komplikací pro CZ-DRG Michal Uher a analytický tým projektu DRG Restart Ústav zdravotnických informací a statistiky ČR, Praha Institut biostatistiky a analýzy, Lékařská
odlehlých hodnot pomocí algoritmu k-means
Chybějící a odlehlé hodnoty; odstranění odlehlých hodnot pomocí algoritmu k-means Návod ke druhému cvičení Matěj Holec, holecmat@fel.cvut.cz ZS 2011/2012 Úvod Cílem cvičení je připomenout důležitost předzpracování
Interpolace trojrozměrných dat magnetické rezonance
Rok / Year: Svazek / Volume: Číslo / Number: 2010 12 2 Interpolace trojrozměrných dat magnetické rezonance Interpolation of magnetic resonance threedimensional data Jan Mikulka mikulka@feec.vutbr.cz Ústav
Statistická analýza dat
Statistická analýza dat Jméno: Podpis: Cvičení Zkouška (písemná + ústní) 25 Celkem 50 Známka Pokyny k vypracování: doba řešení je 120min, jasně zodpovězte pokud možno všechny otázky ze zadání, pracujte
Ing. Petr Hájek, Ph.D. Podpora přednášky kurzu Aplikace umělé inteligence
APLIKACE UMĚLÉ INTELIGENCE Ing. Petr Hájek, Ph.D. Podpora přednášky kurzu Aplikace umělé inteligence Aplikace umělé inteligence - seminář ING. PETR HÁJEK, PH.D. ÚSTAV SYSTÉMOVÉHO INŽENÝRSTVÍ A INFORMATIKY
Statistická teorie učení
Statistická teorie učení Petr Havel Marek Myslivec přednáška z 9. týdne 1 Úvod Představme si situaci výrobce a zákazníka, který si u výrobce objednal algoritmus rozpoznávání. Zákazník dodal experimentální
Optimální rozdělující nadplocha 4. Support vector machine. Adaboost.
Optimální rozdělující nadplocha. Support vector machine. Adaboost. Petr Pošík Czech Technical University in Prague Faculty of Electrical Engineering Dept. of Cybernetics Opakování Lineární diskriminační
Neuronové sítě v DPZ
Univerzita J. E. Purkyně v Ústí nad Labem Fakulta životního prostředí Neuronové sítě v DPZ Seminární práce z předmětu Dálkový průzkum Země Vypracovali: Jan Lantora Rok: 2006 Zuzana Vašková Neuronové sítě
Metody analýzy 3-D obrazů z magnetické rezonance v neurovědním výzkumu. Investice do rozvoje vzdělávání
Metody analýzy 3-D obrazů z magnetické rezonance v neurovědním výzkumu Daniel Schwarz Investice do rozvoje vzdělávání Co nás čeká? Neurovědy co to je? Neuroimaging, registrace medicínských obrazů Registrace
Statistika. Regresní a korelační analýza Úvod do problému. Roman Biskup
Statistika Regresní a korelační analýza Úvod do problému Roman Biskup Jihočeská univerzita v Českých Budějovicích Ekonomická fakulta (Zemědělská fakulta) Katedra aplikované matematiky a informatiky 2008/2009
Metody analýzy dat I. Míry a metriky - pokračování
Metody analýzy dat I Míry a metriky - pokračování Literatura Newman, M. (2010). Networks: an introduction. Oxford University Press. [168-193] Zaki, M. J., Meira Jr, W. (2014). Data Mining and Analysis:
STATISTICKÉ ODHADY Odhady populačních charakteristik
STATISTICKÉ ODHADY Odhady populačních charakteristik Jak stanovit charakteristiky rozložení sledované veličiny v základní populaci? Populaci většinou nemáme celou k dispozici, musíme se spokojit jen s
Normální (Gaussovo) rozdělení
Normální (Gaussovo) rozdělení Normální (Gaussovo) rozdělení popisuje vlastnosti náhodné spojité veličiny, která vzniká složením různých náhodných vlivů, které jsou navzájem nezávislé, kterých je velký
Klasifikace a rozpoznávání. Extrakce příznaků
Klasifikace a rozpoznávání Extrakce příznaků Extrakce příznaků - parametrizace Poté co jsme ze snímače obdržely data která jsou relevantní pro naši klasifikační úlohu, je potřeba je přizpůsobit potřebám
Metoda backward výběru proměnných v lineární regresi a její vlastnosti
Metoda backward výběru proměnných v lineární regresi a její vlastnosti Aktuárský seminář, 13. dubna 2018 Milan Bašta 1 / 30 1 Metody výběru proměnných do modelu 2 Monte Carlo simulace, backward metoda
Analýza dat na PC I.
CENTRUM BIOSTATISTIKY A ANALÝZ Lékařská a Přírodovědecká fakulta, Masarykova univerzita Analýza dat na PC I. Popisná analýza v programu Statistica IBA výuka Základní popisná statistika Popisná statistika
Asociační i jiná. Pravidla. (Ch )
Asociační i jiná Pravidla (Ch. 14 +...) Učení bez učitele Nemáme cílovou třídu Y, G; máme N pozorování což jsou p-dimenzionální vektory se sdruženou pravděpodobností chceme odvozovat vlastnosti. Pro málo
Zpracování digitalizovaného obrazu (ZDO) - Popisy III
Zpracování digitalizovaného obrazu (ZDO) - Popisy III Statistické popisy tvaru a vzhledu Ing. Zdeněk Krňoul, Ph.D. Katedra Kybernetiky Fakulta aplikovaných věd Západočeská univerzita v Plzni Zpracování
Fakulta elektrotechniky a komunikačních technologíı Ústav automatizace a měřicí techniky v Brně
Vysoké učení technické v Brně Fakulta elektrotechniky a komunikačních technologíı Ústav automatizace a měřicí techniky Algoritmy řízení topného článku tepelného hmotnostního průtokoměru Autor práce: Vedoucí
Popis zobrazení pomocí fuzzy logiky
Popis zobrazení pomocí fuzzy logiky diplomová práce Ján Fröhlich KM, FJFI, ČVUT 23. dubna 2009 Ján Fröhlich ( KM, FJFI, ČVUT ) Popis zobrazení pomocí fuzzy logiky 23. dubna 2009 1 / 25 Obsah 1 Úvod Základy
Biofyzikální ústav LF MU Brno. jarní semestr 2011
pro obor Ošetřovatelská péče v gerontologii Biofyzikální ústav LF MU Brno jarní semestr 2011 Obsah letmý dotyk teorie systémů klasifikace a analýza biosignálů Co je signál? Co je biosignál? Co si počít
Algoritmizace diskrétních. Ing. Michal Dorda, Ph.D.
Algoritmizace diskrétních simulačních modelů Ing. Michal Dorda, Ph.D. 1 Úvodní poznámky Při programování simulačních modelů lze hlavní dílčí problémy shrnout do následujících bodů: 1) Zachycení statických
UČENÍ BEZ UČITELE. Václav Hlaváč
UČENÍ BEZ UČITELE Václav Hlaváč Fakulta elektrotechnická ČVUT v Praze katedra kybernetiky, Centrum strojového vnímání hlavac@fel.cvut.cz, http://cmp.felk.cvut.cz/~hlavac 1/22 OBSAH PŘEDNÁŠKY ÚVOD Učení
Kontingenční tabulky, korelační koeficienty
Statistika II Katedra ekonometrie FVL UO Brno kancelář 69a, tel 973 442029 email:jirineubauer@unobcz Budeme předpokládat, že X a Y jsou kvalitativní náhodné veličiny, obor hodnot X obsahuje r hodnot (kategorií,
RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr.
Analýza dat pro Neurovědy RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr. Jaro 2014 Institut biostatistiky Janoušová, a analýz Dušek: Analýza dat pro neurovědy Blok 3 Jak a kdy použít parametrické a
VYUŽITÍ PRAVDĚPODOBNOSTNÍ METODY MONTE CARLO V SOUDNÍM INŽENÝRSTVÍ
VYUŽITÍ PRAVDĚPODOBNOSTNÍ METODY MONTE CARLO V SOUDNÍM INŽENÝRSTVÍ Michal Kořenář 1 Abstrakt Rozvoj výpočetní techniky v poslední době umožnil také rozvoj výpočetních metod, které nejsou založeny na bázi
Uni- and multi-dimensional parametric tests for comparison of sample results
Uni- and multi-dimensional parametric tests for comparison of sample results Jedno- a více-rozměrné parametrické testy k porovnání výsledků Prof. RNDr. Milan Meloun, DrSc. Katedra analytické chemie, Universita
Základy biostatistiky II. Veřejné zdravotnictví 3.LF UK - II
Základy biostatistiky II Veřejné zdravotnictví 3.LF UK - II Teoretické rozložení-matematické modely rozložení Naměřená data Výběrové rozložení Teoretické rozložení 1 e 2 x 2 Teoretické rozložení-matematické
Fakulta informačních technologií VUT Brno. Předmět: Srovnání klasifikátorů Autor : Jakub Mahdal Login: xmahda03 Datum:
Fakulta informačních technologií VUT Brno Předmět: Projekt: SRE Srovnání klasifikátorů Autor : Jakub Mahdal Login: xmahda03 Datum: 9.12.2006 Zadání Vyberte si jakékoliv 2 klasifikátory, např. GMM vs. neuronová
ANALÝZA A KLASIFIKACE BIOMEDICÍNSKÝCH DAT. Institut biostatistiky a analýz
ANALÝZA A KLASIFIKACE BIOMEDICÍNSKÝCH DAT prof. Ing. Jiří Holčík,, CSc. NEURONOVÉ SÍTĚ otázky a odpovědi 1 AKD_predn4, slide 8: Hodnota výstupu závisí na znaménku funkce net i, tedy na tom, zda bude suma
Počet pravděpodobnosti
PSY117/454 Statistická analýza dat v psychologii Přednáška 4 Počet pravděpodobnosti Je známo, že když muž použije jeden z okrajových pisoárů, sníží se pravděpodobnost, že bude pomočen o 50%. anonym Pravděpodobnost
Umělé neuronové sítě
Umělé neuronové sítě 17. 3. 2018 5-1 Model umělého neuronu y výstup neuronu u vnitřní potenciál neuronu w i váhy neuronu x i vstupy neuronu Θ práh neuronu f neuronová aktivační funkce 5-2 Neuronové aktivační