OPTIMÁLNÍ SEGMENTACE DAT

Podobné dokumenty
Fakt. Každou soustavu n lineárních ODR řádů n i lze eliminací převést ekvivalentně na jednu lineární ODR

Úlohy nejmenších čtverců

VYBRANÉ PARTIE Z NUMERICKÉ MATEMATIKY

PRAVDĚPODOBNOST A STATISTIKA

Regresní analýza 1. Regresní analýza

Dynamic programming. Historie. Dynamické programování je obsaženo v těchto programech: Příklad: chceme optimálně přiložit dvě sekvence

Interpolace, aproximace

Statistika (KMI/PSTAT)

Ing. Tomáš MAUDER prof. Ing. František KAVIČKA, CSc. doc. Ing. Josef ŠTĚTINA, Ph.D.

Aproximace a vyhlazování křivek

AVDAT Nelineární regresní model

Numerické metody a programování. Lekce 4

Dynamické programování

Paralelní programování

UMÍ POČÍTAČE POČÍTAT?

Úloha 1. Napište matici pro případ lineárního regresního spline vyjádřeného přes useknuté

1 Projekce a projektory

DRN: Soustavy linárních rovnic numericky, norma

Univerzita Pardubice Fakulta chemicko technologická Katedra analytické chemie Licenční studium Management systému jakosti

SEMESTRÁLNÍ PRÁCE UNIVERZITA PARDUBICE. Fakulta chemicko - technologická Katedra analytické chemie

Integrace. Numerické metody 7. května FJFI ČVUT v Praze


Pokročilé neparametrické metody. Klára Kubošová

Statistika. Regresní a korelační analýza Úvod do problému. Roman Biskup

Regresní a korelační analýza

, = , = , = , = Pokud primitivní funkci pro proměnnou nevidíme, pomůžeme si v tuto chvíli jednoduchou substitucí = +2 +1, =2 1 = 1 2 1

Návrh Designu: Radek Mařík

1 0 0 u 22 u 23 l 31. l u11

Binární soubory (datové, typované)

Kalibrace a limity její přesnosti


V praxi pracujeme s daty nominálními (nabývají pouze dvou hodnot), kategoriálními (nabývají více

UNIVERZITA PARDUBICE. 4.4 Aproximace křivek a vyhlazování křivek

Regresní a korelační analýza

Časové řady, typy trendových funkcí a odhady trendů

REGRESNÍ ANALÝZA V PROSTŘEDÍ MATLAB

Matematika 1 MA1. 2 Determinant. 3 Adjungovaná matice. 4 Cramerovo pravidlo. 11. přednáška ( ) Matematika 1 1 / 29

Regresní analýza. Eva Jarošová

Static Load Balancing Applied to Time Dependent Mechanical Problems

INFORMAČNÍ A KOMUNIKAČNÍ TECHNOLOGIE

Numerické metody a programování

DIPLOMOVÁ PRÁCE Nelineární řízení magnetického ložiska

Algoritmy pro shlukování prostorových dat

DIPLOMOVÁ PRÁCE OPTIMALIZACE MECHANICKÝCH

Odpružená sedačka. Petr Školník, Michal Menkina. TECHNICKÁ UNIVERZITA V LIBERCI Fakulta mechatroniky, informatiky a mezioborových studií

OBECNÉ METODY VYROVNÁNÍ

Algoritmizace Dynamické programování. Jiří Vyskočil, Marko Genyg-Berezovskyj 2010

DETEKCE LINEÁRNÍHO TRENDU V ROZPTYLU NORMÁLNÍHO ROZDĚLENÍ

Západočeská univerzita v Plzni. Fakulta aplikovaných věd. Ivana Kozlová. Modely analýzy obalu dat

Arnoldiho a Lanczosova metoda

Cílem této kapitoly je uvedení pojmu matice a jejich speciálních typů. Čtenář se seznámí se základními vlastnostmi matic a s operacemi s maticemi

Detekce kartografického zobrazení z množiny

Odhady Parametrů Lineární Regrese

Vyhledávání. doc. Mgr. Jiří Dvorský, Ph.D. Katedra informatiky Fakulta elektrotechniky a informatiky VŠB TU Ostrava. Prezentace ke dni 21.

TECHNICKÁ UNIVERZITA V LIBERCI

Matice. Modifikace matic eliminační metodou. α A = α a 2,1, α a 2,2,..., α a 2,n α a m,1, α a m,2,..., α a m,n

Maticí typu (m, n), kde m, n jsou přirozená čísla, se rozumí soubor mn veličin a jk zapsaných do m řádků a n sloupců tvaru:

1. července 2010

Kombinatorická minimalizace

Principy počítačů I Netradiční stroje

3. úloha - problém batohu metodami branch & bound, dynamické programování, heuristika s testem

Univerzita Pardubice SEMESTRÁLNÍ PRÁCE. Tvorba nelineárních regresních modelů v analýze dat. 2015/2016 RNDr. Mgr. Leona Svobodová, Ph.D.

5 Vícerozměrná data - kontingenční tabulky, testy nezávislosti, regresní analýza

Připomenutí co je to soustava lineárních rovnic

Časové řady, typy trendových funkcí a odhady trendů

VYUŽITÍ MATLABU PRO VÝUKU NUMERICKÉ MATEMATIKY Josef Daněk Centrum aplikované matematiky, Západočeská univerzita v Plzni. Abstrakt

Metoda nejmenších čtverců Michal Čihák 26. listopadu 2012

RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr.

Úvodem Dříve les než stromy 3 Operace s maticemi


Zdrojem většiny příkladů je sbírka úloh 1. cvičení ( ) 2. cvičení ( )

VYSOKÁ ŠKOLA EKONOMICKÁ V PRAZE. Optimalizace trasy při revizích elektrospotřebičů

Determinant. Definice determinantu. Permutace. Permutace, vlastnosti. Definice: Necht A = (a i,j ) R n,n je čtvercová matice.

Statistické metody v digitálním zpracování obrazu. Jindřich Soukup 3. února 2012

Projekční algoritmus. Urychlení evolučních algoritmů pomocí regresních stromů a jejich zobecnění. Jan Klíma

13.1. Úvod Cílem regresní analýzy je popsat závislost hodnot znaku Y na hodnotách

a počtem sloupců druhé matice. Spočítejme součin A.B. Označme matici A.B = M, pro její prvky platí:

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

[1] Determinant. det A = 0 pro singulární matici, det A 0 pro regulární matici

4EK213 Lineární modely. 10. Celočíselné programování

Simplexové tabulky z minule. (KMI ZF JU) Lineární programování EMM a OA O6 1 / 25

Úloha 3: Určení polohy z kódových měření

Úvod do úloh plánování rozvozu (Vehicle Routing Problems)

4EK213 Lineární modely. 12. Dopravní problém výchozí řešení

Zadání Máme data hdp.wf1, která najdete zde: Bodová předpověď: Intervalová předpověď:

Aplikovaná numerická matematika - ANM

Algoritmus pro hledání nejkratší cesty orientovaným grafem

Statistické metody v marketingu. Ing. Michael Rost, Ph.D.

Dynamické programování

Kontingenční tabulky, korelační koeficienty

Metody lineární optimalizace Simplexová metoda. Distribuční úlohy

Daniel Honc, František Dušek Katedra řízení procesů a výpočetní techniky, FCHT, Univerzita Pardubice

7. Analýza rozptylu.

Regresní a korelační analýza

63. ročník Matematické olympiády 2013/2014

Algoritmus pro generování normálních magických čtverců

2D transformací. červen Odvození transformačního klíče vybraných 2D transformací Metody vyrovnání... 2

úloh pro ODR jednokrokové metody

Vyhněte se katastrofám pomocí výpočetní matematiky

Transkript:

ROBUST 2004 c JČMF 2004 OPTIMÁLNÍ SEGMENTACE DAT Petr Novotný Klíčová slova: Výpočetní statistika, po částech spojitá regrese. Abstrakt: Snížení paměťové náročnosti při výpočtu po částech spojitého regresního modelu. Motivace Úkolem je rozdělit sekvenci DNA na úseky podle obsažené informace(stavba těla, trávení apod.). Biologické řešení DNAseskládáze4druhůbazí(adenosin(A),cytosin(C),guanin(G)athymin(T)).JedenzmožnýchpřístupůjerozdělitDNAnaúsekypodlepoměru dvojic bazí. Matematické řešení Použijeme po částech konstantní regresní model a budeme minimalizovat reziduálnísoučetčtverců.napříkladpřihledánípoměruaackugat budemekódovataacjako1azbyléjako0.početbodůnespojitostibudeme navíc penalizovat vhodnou funkcí. 0.0 0.2 0.4 0.6 0.8 1.0 0 20 40 60 80 100

262 Petr Novotný Americké výsledky Po spolupráci s NSA(National Security Agency) a jejich superpočítači se americkým vědcům podařilo rozdělit DNA bakteriofágu λ. DNA tohoto bakteriofágu se skládá z 48 502 bazí. Já jsem schopen dosáhnout stejného výsledku s použitím současného PC během několika málo hodin. Formalizace zadání Máme dáno: Vektor pozorování Ztrátovou funkci Hledáme: X 1,...,X N R(i, j) RSS(X i,..., X j ) 1 i j N Optimální dělení vektoru pozorování na právě K úseků. Matice Tj.hledáme J 2,..., J K : 1 = J 1 < J 2 <... < J K N,která minimalizují: K 1 i=1 R(J i, J i+1 1)+R(J K, N) J i jsoupočátečníbodyúsekůoptimálníhodělení. HornítrojúhelníkovámaticeRtypu N N: R(1,1)... R(1, N) R=..... 0... R(N, N) Tato obrovská matice obsahuje reziduální součty čtverců pro všechny možné úseky. MaticeQtypu K N: q(1,1)... q(1, K)... q(1, N) Q=...... 0... q(k, K)... q(k, N) Prvek q(i, j) vyjadřuje ztrátu odpovídající optimálnímu rozdělení podvektoru X 1,..., X j na iúseků.

Optimální segmentace dat 263 MaticePtypu K N: p(1,1)... p(1, K)... p(1, N) P=...... 0... p(k, K)... p(k, N) Prvek p(i, j) obsahuje odkaz na předchozí dělení: p(i, j)=k q(i, j)=q(i 1, k)+r(k+1, j). Klasické řešení Klasický algoritmus založený na dynamickém programování řeší naši úlohu ve dvou krocích. 1. Vypočteme si celou matici R. 2. Vedruhémkrokusepostupněvytvářímatice QaP. Proprvnířádek: q(1, i)=r(1, i) p(1, i)=0 Pro ostatní řádky: q(i, j)=min k<j (q(i 1, k)+r(k+1, j)) p(i, j)=argmin k<j (q(i 1, k)+r(k+1, j)) Problémy klasického řešení Největším nedostatkem klasického postupu je jeho paměťová náročnost. MaticeRsenámbrzynevejdedooperačnípamětiajejíčástsemusíuložit napevnýdiskaprávědíkypomalémupřístupunapevnýdiskjevýpočet neproveditelný. Operační paměť o velikosti 512 MB je spotřebována již pro vektor délky N = 9 000. Abychom zvýšili možné N na dvojnásobek potřebujeme čtyřikrát větší operační paměť. Mým cílem bylo tento nedostatek odstranit. Alternativní model situace Situacisimůžemepředstavitjakoorientovanýgrafnamnožině {0,...,N}, kdezvrcholu ivedehranadovrcholu jprávětehdy,když i < j.našedata jsoumezerymezivrcholygrafu.cílemjenajítnejkratšícestuz0do N, kterámáprávě Khran.Vtomtoalgoritmusiukaždéhovrcholugrafupamatujicenunejkratšícestyz0dotohotovrcholu,kterámáprávě1až Khran.

264 Petr Novotný 0.6 0.4 0.2 0.0 0.2 0.4 0.6 0.8 X[1] X[2] X[6] 0 1 2 3 4 5 6 Popis navrženého algoritmu Výstavbamatic QaP V prvním kroku spočítám první řádek matice R. q(1, i)=r(1, i) p(1, i)=0 V i-tém kroku napočtu i-tý řádek matice R. Pokudje i K,přičtukevšemhodnotám i 1 h=1r(h, h)avýsledek uložímdoi-téhořádkumatice Qodi-tésouřadniceai-týřádekmatice P inicializujina i 1. Tytohodnotymireprezentujídělení1,2,...i. Začnu přepočítávat hodnoty v dosud obsazených řádcích kromě prvního abudesejednatosložkysvyššímindexemnež i.pokusímsezlepšit optimální dělení za předpokladu, že počáteční bod posledního intervalu je i.

Optimální segmentace dat 265 Schematický zápis algoritmu: Pro lod2domin(i, K)apro j idělej: q(l, j)=min(q(l, j), q(l 1, i 1)+R(i, j)) Pokud došlo ke změně optimální hodnoty pak: p(l, j)=i 1 Tento způsob umožňuje použití paralelního přepočítávání jednotlivýchřádkůmatic P a Q. Výsledky simulací Všechny simulace proběhly na počítači Pentium IV 2.8 GHz, 512 MB RAM. Vlastní algoritmus byl naprogramován v Matlabu, Release 13. Výsledky v tabulce jsou uvedeny v sekundách. K\ N 10000 20000 50000 100000 200000 5 0:00:18 0:01:09 0:07:19 0:30:57 2:03:20 10 0:00:37 0:02:36 0:16:08 1:06:19 4:27:15 Simulacevýpočtunašehomotivačníhopříkladu(N=48502aK=40)trvala3hodiny,27minuta41sekund.Optimálnísegmentacevektoruodélce 10000000na5segmentůbytrvalaasi2dny. Zrychlení výpočtu reziduí Při výpočtu reziduí používám zrychlený postup, který umožňuje vypočítat R(i, j)zhodnot j k=i X ka j k=i X2 k. j 1 (X k j i+1 k=i j X l ) 2 = l=i j Xk 2 1 j j i+1 ( X k ) 2 Tímto způsobem snížím časovou náročnost o jeden řád. Postupně načítám první a druhé mocniny pozorování a z nich snadno spočítám odpovídající reziduální součet čtverců. Vnašichdatechjsousinavícprvníadruhémocninyrovny,protožestále sčítám buď 1 nebo 0, což velmi zrychlí výpočet reziduí. Paměťová a časová náročnost ZlepšenýalgoritmussnížícelkovoupaměťovounáročnostvýpočtuzO(N 2 ) na((2 K+1) N).ČasovánáročnostutohotoalgoritmujeO(N 2 K) oprotio(n 3 K)uklasickéhopostupu. k=i k=i

266 Petr Novotný Závěr Navržený algoritmus umožňuje nejen podstatné zrychlení našeho výpočtu, ale zejména významné zvýšení maximální délky dělených dat. Obrovskou výhodou je možnost použití vektorového paralelního programování, která odsouvá počet dělení do pozadí našeho zájmu. Další zlepšení při hledání optimálního dělení již zřejmě není možné, zbývá jen problematická heuristika. Reference [1] Braun J.V., Braun R.K., Müller H.-G.(2000). Multiple changepoint fitting via quasilikelihood, with application to DNA seqvence segmentation. Biometrica87,2,301 314. Poděkování: Děkuji prof. Jaromíru Antochovi CSc. za všestrannou podporu a neocenitelné rady k obsahu i formě. Adresa: P. Novotný, KPMS, Sokolovská 83,186 75 Praha 8 E-mail: reter@centrum.cz