Employing Evolutionary Algorithms for Classification of Astrophysical Spectra

Podobné dokumenty
Lineární klasifikátory

Pokročilé operace s obrazem

REGRESNÍ ANALÝZA V PROSTŘEDÍ MATLAB

Paralelní a distribuované výpočty (B4B36PDV)

Algoritmy a struktury neuropočítačů ASN - P11

Jasové transformace. Karel Horák. Rozvrh přednášky:

Kybernetika a umělá inteligence, cvičení 10/11

VOLBA ČASOVÝCH OKEN A PŘEKRYTÍ PRO VÝPOČET SPEKTER ŠIROKOPÁSMOVÝCH SIGNÁLŮ

Dobývání znalostí. Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze

ZÍSKÁVÁNÍ ZNALOSTÍ Z DATABÁZÍ

Přehled paralelních architektur. Dělení paralelních architektur Flynnova taxonomie Komunikační modely paralelních architektur

Genetické algoritmy. Informační a komunikační technologie ve zdravotnictví

Obecné momenty prosté tvary

TERMINOLOGIE ... NAMĚŘENÁ DATA. Radek Mareček PŘEDZPRACOVÁNÍ DAT. funkční skeny

Geometrické transformace

Automatická detekce anomálií při geofyzikálním průzkumu. Lenka Kosková Třísková NTI TUL Doktorandský seminář,

ZÍSKÁVÁNÍ ZNALOSTÍ Z DATABÁZÍ

Základní statistické modely Statistické vyhodnocování exp. dat M. Čada ~ cada

Mann-Whitney U-test. Znaménkový test. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek

Michal Wiglasz* 1. Úvod

VYUŽITÍ PRAVDĚPODOBNOSTNÍ METODY MONTE CARLO V SOUDNÍM INŽENÝRSTVÍ

Úvod do optimalizace, metody hladké optimalizace

Numerické metody a programování. Lekce 8

Trénování sítě pomocí učení s učitelem

A0M33EOA: Evoluční optimalizační algoritmy

Náhodný vektor. Náhodný vektor. Hustota náhodného vektoru. Hustota náhodného vektoru. Náhodný vektor je dvojice náhodných veličin (X, Y ) T = ( X

Regresní a korelační analýza

Algoritmy a struktury neuropočítačů ASN P9 SVM Support vector machines Support vector networks (Algoritmus podpůrných vektorů)

Normální (Gaussovo) rozdělení

magnetizace M(t) potom, co těsně po rychlé změně získal vzorek magnetizaci M 0. T 1, (2)

Regresní a korelační analýza

Úloha - rozpoznávání číslic

Emergence chování robotických agentů: neuroevoluce

doc. Dr. Ing. Elias TOMEH Elias Tomeh / Snímek 1

Intervalová data a výpočet některých statistik

Obsah přednášky Jaká asi bude chyba modelu na nových datech?

Využití metod strojového učení v bioinformatice David Hoksza

Úvod do problematiky měření

Systém rizikové analýzy při sta4ckém návrhu podzemního díla. Jan Pruška

OPS Paralelní systémy, seznam pojmů, klasifikace

ČVUT FEL X36PAA - Problémy a algoritmy. 4. úloha - Experimentální hodnocení algoritmů pro řešení problému batohu

Inovace studia molekulární a buněčné biologie reg. č. CZ.1.07/2.2.00/

Náhodné (statistické) chyby přímých měření

Regresní a korelační analýza

1. Vlastnosti diskretních a číslicových metod zpracování signálů... 15

Regresní a korelační analýza

8. Sběr a zpracování technologických proměnných

Jak se matematika poučila v biologii

Chyby měření 210DPSM

Kristýna Bémová. 13. prosince 2007

Základy navrhování průmyslových experimentů DOE

Optimalizace osazování odběrných míst inteligentními plynoměry

Vstupní signál protne zvolenou úroveň. Na základě získaných údajů se dá spočítat perioda signálu a kmitočet. Obrázek č.2

algoritmus»postup06«p e t r B y c z a n s k i Ú s t a v g e o n i k y A V

Posouzení přesnosti měření

Regresní a korelační analýza

Martin Lísal. Úvod do MPI

Oddělení fyzikálních praktik při Kabinetu výuky obecné fyziky MFF UK

vzorek vzorek

Experimentáln. lní toků ve VK EMO. XXX. Dny radiační ochrany Liptovský Ján Petr Okruhlica, Miroslav Mrtvý, Zdenek Kopecký.

Měření závislosti statistických dat

Vybrané partie z obrácených úloh. obrácených úloh (MG452P73)

Měření dat Filtrace dat, Kalmanův filtr

Fiala P., Karhan P., Ptáček J. Oddělení lékařské fyziky a radiační ochrany Fakultní nemocnice Olomouc

Numerické modelování interakce proudění a pružného tělesa v lidském vokálním traktu

Jednofaktorová analýza rozptylu

Balmerova série. F. Grepl 1, M. Benc 2, J. Stuchlý 3 Gymnázium Havlíčkův Brod 1, Gymnázium Mnichovo Hradiště 2, Gymnázium Šumperk 3

ADA Semestrální práce. Harmonické modelování signálů

Statistické metody - nástroj poznání a rozhodování anebo zdroj omylů a lží

UNIVERZITA PARDUBICE. 4.4 Aproximace křivek a vyhlazování křivek

Protokol č. 5. Vytyčovací údaje zkusných ploch

Interpolace pomocí splajnu

Univerzita Pardubice. Fakulta chemicko-technologická Katedra analytické chemie. Licenční studium Statistické zpracování dat

Základy biostatistiky II. Veřejné zdravotnictví 3.LF UK - II

IB109 Návrh a implementace paralelních systémů. Organizace kurzu a úvod. Jiří Barnat

Náhodné signály. Honza Černocký, ÚPGM

Projekční algoritmus. Urychlení evolučních algoritmů pomocí regresních stromů a jejich zobecnění. Jan Klíma

Evoluční výpočetní techniky (EVT)

Náhodné chyby přímých měření

Číslicové zpracování signálů a Fourierova analýza.

Úvod do zpracování signálů

Využití lineární halogenové žárovky pro demonstrační experimenty

Odhad stavu matematického modelu křižovatek

Téma je podrobně zpracováno ve skriptech [1], kapitola 6, strany

FOURIEROVA ANAL YZA 2D TER ENN ICH DAT Karel Segeth

Stavový model a Kalmanův filtr

Odhad parametrů N(µ, σ 2 )

ROZDĚLENÍ SNÍMAČŮ, POŽADAVKY KLADENÉ NA SNÍMAČE, VLASTNOSTI SNÍMAČŮ

Užití systému Matlab při optimalizaci intenzity tepelného záření na povrchu formy

IB109 Návrh a implementace paralelních systémů. Organizace kurzu a úvod. RNDr. Jiří Barnat, Ph.D.

Kalibrace a limity její přesnosti

Digitální učební materiál

Aplikovaná numerická matematika

ANALÝZA DAT V R 2. POPISNÉ STATISTIKY. Mgr. Markéta Pavlíková Katedra pravděpodobnosti a matematické statistiky MFF UK.

Číselné charakteristiky a jejich výpočet

Čas (s) Model časového průběhu sorpce vyplývá z 2. Fickova zákona a je popsán následující rovnicí

Matematický ústav UK Matematicko-fyzikální fakulta

Robotické architektury pro účely NDT svarových spojů komplexních potrubních systémů jaderných elektráren

Transkript:

Employing Evolutionary Algorithms for Classification of Astrophysical Spectra 1

Cíle Astronomické cíle Klasifikace Be hvězd do podtříd Na základě spektroskopie Odlišné tvary spekter odpovídají odlišné geometrii objektu Informatické cíle Automatizovat metody klasifikace Aplikovat na velké kolekce (SDSS) Důraz na výkon klasifikačního mechanismu Lze v rozumném čase spočítat klasifikaci na statisícových kolekcích? Generalizace na jiné spektroskopické problémy 2

Ideální tvar spektra Be hvězdy Jasně viditelná emisní čára (H-alpha atomární vodík) Dvojitý vrchol daný rotací zářícího plynového disku Les absorpčních čar vlevo od emisní je relativně nevýrazný Většinou voda v zemské atmosféře 3

Méně ideální tvar spektra Be hvězdy 2 1,8 1,6 1,4 1,2 1 0,8 0,6 0,4 0,2 0 6200 6300 6400 6500 6600 6700 6800 Vzdálenější hvězda horší odstup od pozadí Efekt atmosféry výrazně ovlivňuje tvar spektra Rozpoznání emisní čáry je stále možné Přesné měření parametrů emisné čáry je ztíženo 4

Méně ideální tvar spektra Be hvězdy 1,2 1,15 1,1 1,05 1 0,95 0,9 0,85 0,8 6500 6520 6540 6560 6580 6600 6620 Vzdálenější hvězda horší odstup od pozadí Přesné měření parametrů emisní čáry je ztíženo FWHM = šířka čáry v polovině výšky Kde to je? 5

Zdroje spektroskopických dat Ondřejovská spektra 2m dalekohled Dedikovaný pro spektroskopii Velmi přesná měření Manuální výběr objektů Stovky jasných objektů Automatické zpracování Normalizace Sloane Digital Sky Survey 2.6 m dalekohled Vícevláknová spektroskopie Měří cca 1000 objektů najednou Společné expoziční parametry Nelze měřit jasné objekty Menší rozlišení Automatický výběr objektů Statisíce slabých objektů Automatické zpracování Odečtení pozadí oblohy Volná vlákna Zdvojnásobuje šum 6

Původní snaha Přenesení Ondřejovských metod na SDSS Nutná plná automatizace Objekty jsou slabší Původní techniky nefungují Neexistuje objekt měřený oběma kolekcemi Jiné techniky předzpracování, jiné rozlišení Důsledek: Nemáme učitele pro případné učení Závěr: Hledejme zcela jiné přístupy Učení bez učitele 7

Nové cíle Hlavní problém velkých kolekcí: Slabé objekty Photon-counting noise měříme Poissonovo rozdělení Rozptyl úměrný odmocnině intenzity signálu Stejně šumí i odečítaný jas oblohy rozptyl nezávislý na intenzitě užitečného signálu Rozptyl ale známe - můžeme odhadnout spolehlivost extrahovaných informací 8

Rozpoznávání slabých signálů 1,3 1,2 1,1 1 0,9 0,8 0,7 6440 6450 6460 6470 6480 6490 6500 6510 6520 6530 6540 Je to čára nebo náhodná fluktuace Slabší čáry jsou řádově stejně vysoké jako směrodatná odchylka Pro jednotlivé čáry neumíme odpovědět 9

Rozpoznávání slabých signálů 1,3 1,2 1,1 1 0,9 0,8 0,7 6440 6450 6460 6470 6480 6490 6500 6510 6520 6530 6540 Pro jednotlivé čáry neumíme odpovědět Pro soubory čar je odpověď spolehlivější Dokážeme rozhodnout, zda měření odpovídá předpokládanému spektru Existují syntetická spektra generovaná na základě fyzikálních zákonů Prostor parametrů je ovšem dost velký 10

Nové cíle Jiná myšlenka: Kdybychom měli několik podobných objektů, můžeme měření sečíst Užitečný signál roste rychleji než šum Ve velkém množství objektů se nějaké podobné objekty najdou Problémy: Jak najdeme podobné objekty? To je náš hlavní cíl jsme v kruhu Úplně stejné objekty nenajdeme Odlišná intenzita daná různými vzdálenostmi Odlišný Dopplerovský posuv daný různými rychlostmi 11

Návrh řešení Syntetická spektra Parametry spekter generovány evolučními algoritmy Fitness = odchylka od naměřeného spektra Evoluce trefuje všechna naměřená spektra najednou Syntetické spektrum přežívá, pokud je dobrou aproximací alespoň jednoho naměřeného spektra Hledání podobných spekter Příbuzenský vztah mezi syntetickými spektry Jsou-li měřená spektra dobře aproximována příbuznými syntetickými spektry, budou podobná Obrácená implikace neplatí, to nám ale nemusí vadit Skutečnou klasifikaci uděláme později, na základě syntetických spekter 12

Komplikace Nedokážeme porovávat všechna syntetická spektra se všemi měřeními Náhodný výběr + evoluce Měřené objekty nejsou identické Při porovnávání se syntetickým spektrem je nutná další transformace Odpovídá vzdálenosti, rychlosti a teplotě objektu Silně zjednodušená fyzika dostatečně pokrývá malé odchylky Parametry transformace podléhají evoluci 13

Evoluční mechanismus Koevoluce dvou tříd organismů Syntetická spektra Chromozom = množina čar (pozice, šířka, intenzita) Párování Dvojice syntetické + naměřené spektrum Tři číselné parametry transformace mezi syntetickým a naměřeným spektrem 14

Evoluční mechanismus Výpočet fitness Porovnání transformovaného syntetického spektra s naměřeným Fitness = normalizovaná kvadratická odchylka Každé naměřené spektrum leží v několika párech Páry s nejlepší fitness jsou vybrány k přežití Každé syntetické spektrum se účastní v několika párech Fitness spektra = počet přežívajících párů 15

Schéma výpočtu fitness Základní spektra se ve skutečnosti nepočítají Transformace probíhá přímo na seznamech čar Syntetická spektra se škálují v rámci výpočtu fitness Multiplikační koeficient hledán metodou nejmenších čtverců Minimální residuum = fitness 16

Evoluční mechanismus Generování populace Nepřeživší páry zanikají Syntetická spektra se špatnou fitness nezanikají, ale nemají potomky Syntetická spektra s dostatečnou fitness generují potomky Náhodná mutace, případně křížení Vztah předek-potomek je zaznamenán Přeživší páry generují potomky Náhodná mutace parametrů transformace Přestěhování k jinému syntetickému spektru Páry s dobrou fitness k náhodně vybranému potomku syntetického spektra Ostatní páry k náhodně vybranému sourozenci syntetického spektra 17

Evoluce Syntetická spektra Párování Naměřená spektra 18

Evoluce Syntetická spektra Fitness párování Naměřená spektra 19

Evoluce Syntetická spektra Eliminace párování Naměřená spektra 20

Evoluce Fitness spekter Eliminace párování Naměřená spektra 21

Evoluce Potomci spekter Nová párování Naměřená spektra 22

Algoritmus evoluce 23

Výpočetní náročnost Paralelní algoritmus pro SMP a NUMA Naměřená spektra uložena na disku Populace uloženy v paměti Syntetická spektra jsou reprezentována seznamy čar Kritické součásti Rychlý přístup k disku Cache-awareness SIMD instrukce Výkonnost Kritickým místem je generování transformovaného spektra pro každý pár Cca 25 000 párů za sekundu per core (Intel i7) Rychlost diskového přístupu může být omezujícím faktorem Čtení spekter z disku je 20 až 50-krát pomalejší než generování syntetických Pro méně než 50 párů na naměřené spektrum zdržuje disk Michal Brabec, David Bednárek: Programming parallel pipelines using non-parallel C# code 24

Výpočetní náročnost Výkonnost Kritickým místem je generování transformovaného spektra pro každý pár Cca 25 000 párů za sekundu per core (Intel i7) Rychlost diskového přístupu může být omezujícím faktorem Pro méně než 50 párů na naměřené spektrum Spektra musejí být předzpracována do vhodné podoby Extrémní test Kompletní ročník SDSS = 800 000 naměřených spekter 100 párů pro každé naměřené spektrum = 80 000 000 párů 6 * 4 core NUMA machine 1 generace za méně než 3 minuty Je to dost nebo málo? Michal Brabec, David Bednárek: Programming parallel pipelines using non-parallel C# code 25

Závěr (srpen 2014) Stav Máme funkční paralelní implementaci evolučního algoritmu Výkon dostačuje k provádění experimentů na středně velkých kolekcích To je nejdůležitější výsledek dosavadní práce Pro původní cíl (Be hvězdy) není třeba řešit celou SDSS Výsledky evolučního algoritmu? Chybí nám metodika hodnocení nemáme průnik kolekcí ani další klasifikátor Work in progress Spektra s větším počtem čar konvergují pomalu nebo vůbec Zrychlení pomocí propagace fitness až k jednotlivým čarám Místo náhodné inicializace použití spekter z Ondřejovské kolekce Selection bias? Future work Aplikace na celou SDSS Zobecnění evoluční metody 26

Novější výsledky Syntetické spektrum má nevyhovující spojité pozadí Počítalo se s křivkou záření absolutně černého tělesa Tomu ale odpovídají jen některé hvězdy Je nutné dovolit obecnější křivku Příliš mnoho parametrů - další komplikace pro evoluci Lepší nápad: Úprava výpočtu fitness tak, aby ignorovala spojité pozadí Složitější matematika - stihneme to spočítat? Spektra s větším počtem čar konvergují pomalu nebo vůbec Zrychlení pomocí propagace fitness až k jednotlivým čarám Velký zásah do algoritmu evoluce - třetí druh organismu Složitější matematika - stihneme to spočítat? Místo náhodné inicializace použití spekter z Ondřejovské kolekce To nepomohlo, problém není v nalezení přibližně odpovídajícího spektra 27

Novější výsledky Úprava výpočtu fitness tak, aby ignorovala spojité pozadí Problém: Normalizace samotného měření nefunguje Normalizace měření vede ke křivce se střední hodnotou 1 Syntetická spektra jsou křivky s hodnotami menšími než 1 Bez přizpůsobení multiplikativní konstantou nikdy nenajdeme shodu Potřebná multiplikativní konstanta je v různých částech spektra různá Je nutné normalizovat pro každou dvojici měřené-syntetické spektrum Hledáme multiplikativní konstantu metodou nejmenších čtverců Konstanta má být v různých částech spektra jiná Hledá se vždy pro lokální výřez ze spektra (cca 60 bodů) Konstanty musí spojitě navazovat Hledáme M konstant, každou spočtenou z K bodů v okolí Umíme to v čase úměrném celkovému počtu bodů spektra, nezávisle na K 28

Paralelní a vektorová implementace Nejdůležitější triky pro dosažení vysokého výkonu Použití SIMD instrukcí Nutnost zarovnání dat Použití předvypočtených průběhů křivek Úspora CPU ale zvýšení počtu paměťových přístupů Náhrada interpolace zvýšeným počtem vzorků Použito i k vyřešení zarovnání SIMD dat Cache-aware algoritmus pro výpočet syntetických spekter Obtížné nalezení optimálních parametrů Používání pseudonáhodných postupů namísto přesných Náhodný výběr s váhami namísto Top-K Snadnější paralelizace Lineární algoritmus pro interpolaci pozadí Inspirace: FFT 29

Výpočet fitness 30

Paralelní a vektorová implementace Softwarově inženýrské problémy Vhodné technologie? C++ xmmintrin.h - intrinsic functions for SSE/AVX Intel TBB - paralelizace Intel MKL - paralelizovatelné náhodné generátory Asynchronous I/O pro rychlý diskový přístup Technologie nejsou příliš kompatibilní C vs. C++, závislost na OS, nekompatibilita s překladači Nutná znalost fyzických parametrů výpočetního prostředí Cache-aware algoritmus (cache-oblivious verze neexistuje) Stupeň vektorizace (SSE: 4, AVX: 8) Je šance, že by tohle všechno mohlo být řešeno automaticky? Cíl: Knihovna pro méně znalé programátory Evoluční algoritmy vyžadují experimentování Existují lidé, kteří rozumějí všem potřebným doménám? Spektroskopie + numerická matematika + evoluční algoritmy + paralelní programování 31