LASSO a Jan Vybíral (Univerzita Karlova Praha) Kv ten 2016 Praha 1 / 60
Úvodem Ná² syn Václav: Strejdo Pavle, a opravdu je tatínek doktor? M j bratr Pavel: Je, ale je takový ten doktor, který nepomáhá lidem. 2 / 60
Úvodem Ná² syn Václav: Strejdo Pavle, a opravdu je tatínek doktor? M j bratr Pavel: Je, ale je takový ten doktor, který nepomáhá lidem. Most constructions in geometric functional analysis are nowadays random. Roman Vershynin (U Michigan, ICM speaker) Most of the algorithms you will see in this course are probabilistic. Jelani Nelson (Harvard, Course: Algorithms for Big Data) 2 / 60
Nejmen²í tverce a LASSO Metoda nejmen²ích tverc, d = 1 a d 2 Regularizace LASSO Pevné látky Sparse vektory Základní koncept a výsledky Teorie Roz²í ení, variace,... Matrix completion Data separation Phase retrieval MRI 3 / 60
Metoda nejmen²ích tverc, d = 1 Metoda nejmen²ích tverc, d 2 LASSO Metoda nejmen²ích tverc, d = 1 Nech x 1, x 2,..., x N R a y 1, y 2,..., y N R Hledáme nejlep²í lineární t y i Ax i + B, A, B R 4 / 60
Metoda nejmen²ích tverc, d = 1 Metoda nejmen²ích tverc, d 2 LASSO Metoda nejmen²ích tverc, d = 1 Hledání nejlep²ího tu: f (A, B) = N ( y i (Ax i + B) i=1 ) 2 arg min f (A, B) : A,B R f (A, B) A f (A, B) B = 2 = 2 N (y i x i Ax 2 i Bx i ) = 0 i=1 N (y i Ax i B) = 0 i=1 = dv rovnice pro neznámé A, B 5 / 60
Metoda nejmen²ích tverc, d = 1 Metoda nejmen²ích tverc, d 2 LASSO Metoda nejmen²ích tverc, d 2 Nech x 1,..., x N R d je N bod v R d a y 1,..., y N R Stru n : X R N d, y R N : y i f (x i ) Metoda nejmen²ích tverc (Gauss, Legendre, ca. 1800): y i (X α) i = d j=1 α j X ij Návod: arg min α R d N ( ( d )) 2 y i X ij α j = arg min y X α 2 α R d 2 i=1 j=1 f X,y (α) := y X α 2 2, α f X,y (α) = 0, α = (X T X ) 1 X T y, pokud inverze existuje. 6 / 60
Metoda nejmen²ích tverc, d = 1 Metoda nejmen²ích tverc, d 2 LASSO Regularizace nejmen²ích tverc Regularizace nejmen²ích tverc (Tikhonov, Phillips, ca. 1945) arg min y X α 2 2 + λ α 2 2, λ > 0 α R d Kompromis mezi chybou tu a sloºitostí tu - velikostí α Návod: g X,y (α) := y X α 2 + 2 λ α 2, 2 α g X,y (α) = 0, α = (X T X λi ) 1 X T y, pokud inverze existuje. 7 / 60
Metoda nejmen²ích tverc, d = 1 Metoda nejmen²ích tverc, d 2 LASSO l 1 -metody Feature selection (Tibshirani, 1996) LASSO (least absolute shrinkage and selection operator) arg min α R d y X α 2 2 + λ α 1, kde α 1 = j α j e²ení α R d mají v t²í i men²í po et sou adnic nulových λ > 0 - regulariza ní parametr λ λ 0 : α = 0 λ 0: α konverguje k e²ení nejmen²ích tverc 8 / 60
Metoda nejmen²ích tverc, d = 1 Metoda nejmen²ích tverc, d 2 LASSO Trace plot 9 / 60
Metoda nejmen²ích tverc, d = 1 Metoda nejmen²ích tverc, d 2 LASSO Mathscinet 10 / 60
Formulace problému Data Primary features Lasso It is a capital mistake to theorize before one has data. Insensibly one begins to twist facts to suit theories, instead of theories to suit facts. Sherlock Holmes, A Scandal in Bohemia 11 / 60
Formulace problému Data Primary features Lasso Rocksalt vs. zincblende s: Luca M. Ghiringhelli, Matthias Scheer, Sergey Levchenko (FHI Berlin) a Claudia Draxl (Humboldt U. Berlin), PRL (2015) Problém: Pro dva atomy (i.e. Na & Cl) ur ete jejich krystalovou strukturu - Zinc blend (ZB) nebo Rock salt (RS) Prolínající se kubické m íºky R zná vzájemná poloha t chto m íºek; ZB/RS; kaºdý atom má ty i/²est nejbliº²ích soused opa ného typu Klasikace: Pro zadané atomy je relativn obtíºné p edpov d t typ krystalu! 12 / 60
Formulace problému Data Primary features Lasso Krystaly NaCl - rocksalt: 13 / 60
Formulace problému Data Primary features Lasso Krystaly ZnS - zinc blende: 14 / 60
Formulace problému Data Primary features Lasso Data 82 slou enin typu AB (NaCl, MgS, AgI, CC,... ) X - matice 82x2 (sloupce Z A, Z B ) y - vektor 82x1: +1,-1 = klasika ní problém v R 2 15 / 60
Formulace problému Data Primary features Lasso Závislost (E) na (Z A, Z B ) je p íli² sloºitá (obsahuje nap íklad Schrödingerovu rovnici) a nelze ji nau it z 82 bod. 16 / 60
Formulace problému Data Primary features Lasso Primary features Realisti t j²í úkol: nau it z atomárních parametr! Vlastnosti jednotlivých atom Lze spo ítat jednodu²eji r s (A), r p (A), r s (B), r p (B) - polom ry orbital IP(A), EA(A), IP(B), EA(B) - ioniza ní potenciál, elektroanita HOMO(A), LUMO(A), HOMO(B), LUMO(B) - energie Highest Occupied Molecular Orbital a Lowest Unoccupied Molecular Orbital... primary features! 17 / 60
Formulace problému Data Primary features Lasso Phillips, van Vechten (1969, 1970) 18 / 60
Formulace problému Data Primary features Lasso Zunger (1980) 19 / 60
Formulace problému Data Primary features Lasso Lasso (2015) Zkonstruujeme fyzikáln motivované výrazy: Secondary features - i.e. 1/r p (A) 2, (r s (A) r p (A))/r p (B) 3, etc. Lasso vybere nejvhodn j²í dvojici,trojici, etc. pro lineární t Díky velkým koherencím (r s (A) r p (A),... ) je t eba výb r stabilizovat/iterovat Nalezené desktriptory IP(B) EA(B) r p (A) 2, r s(a) r p (B), exp(r s (A)) r p (B) r s (B) exp(r d (A) + r s (B)),...?Lze tyto výrazy n jak fyzikáln zd vodnit? 20 / 60
Formulace problému Data Primary features Lasso Výsledky Nalezené deskriptory: 21 / 60
Formulace problému Data Primary features Lasso Výsledky Chyba lineárního tu: 22 / 60
LASSO v bioinformatice Support Vector Machine l 1 -Support Vector Machines It is the problem itself which attracts me. S. Holmes, The Problem of Thor Bridge I'm Mr Wolf. I solve problems. Pulp Fiction 23 / 60
LASSO v bioinformatice Support Vector Machine l 1 -Support Vector Machines LASSO v bioinformatice s FU Berlin a TU Berlin Cílem je v asná diagnoza rakoviny ze vzork krve Mass Spectrometry (=hmotnostní spektrometrie) - aktuální sloºení protein Data s velkým ²umem 24 / 60
LASSO v bioinformatice Support Vector Machine l 1 -Support Vector Machines 25 / 60
LASSO v bioinformatice Support Vector Machine l 1 -Support Vector Machines x 1,..., x 100 R 40000 x 101,..., x 200 R 40000 100 zdravých pacient 100 nemocných pacient X R 200x40000, y 1 = = y 100 = 1 a y 101 = = y 200 = 1 (s a bez základní áry) 26 / 60
LASSO v bioinformatice Support Vector Machine l 1 -Support Vector Machines Metody jsou nejprve testovány na syntetických datech (s omezeným mnoºstvím um lého ²umu) Pouºití r zných metod preprocessingu Úsp ²nost testována leave-some-out cross validation Úsp ²nost nad 90%, závisí na po tu pouºitých sou adnic (ca. 20-50) Pot eba extenzivních test 27 / 60
LASSO v bioinformatice Support Vector Machine l 1 -Support Vector Machines Support Vector Machine Pro {x 1,..., x m } R d a {y 1,..., y m } { 1, 1}, Support Vector Machine separuje mnoºiny {x i : y i = 1} a {x i : y i = +1} lineární nadrovinou, i.e. najde w R d a b R s w, x i b > 0 pro y i = 1, w, x i b < 0 pro y i = 1. Maximalizuje mezeru okolo separující nadroviny. 28 / 60
LASSO v bioinformatice Support Vector Machine l 1 -Support Vector Machines Support Vector Machine λ > 0 - parametr min w R d m (1 y i w, x i ) + + λ w 2 2 i=1 29 / 60
LASSO v bioinformatice Support Vector Machine l 1 -Support Vector Machines Aplikace Standardní metoda pro klasika ní problémy Aplikována v ad obor - od biodat po rozpoznávání textu,... I. Steinwart & A. Christmann, Support vector machines, Springer, 2008 m d Typicky, v²echny sou adnice w jsou nenulové Nelineární SVM: aplikujeme nejd íve nelineární Φ : R d H Existuje ada dal²ích variant... 30 / 60
LASSO v bioinformatice Support Vector Machine l 1 -Support Vector Machines l 1 -Support Vector Machines Strojové u ení klasika ních problém má dv ásti: Dobrá separace tréninkových i skute ných dat (cross-validation testy pro testovací data, nová data z praxe) Srozumitelnost klasika ních pravidel - d leºitá pro pochopení problému Jak získat srozumitelnou klasikaci? Nejjednodu²²í cesta ke srozumitelnosti je redukce po tu aktivních prom nných Chceme w sparse, i.e. s v t²inou komponent malých nebo nulových Intuitivní zp sob: nahradíme w 2 pomocí w 0 := #{j : w j 0} NP versus P: nahradíme w 2 pomocí w 1 31 / 60
LASSO v bioinformatice Support Vector Machine l 1 -Support Vector Machines l 1 -Support Vector Machines {x 1,..., x m } R d a {y 1,..., y m } { 1, 1} Odd lte mnoºiny {x i : y i = 1} a {x i : y i = +1} lineární nadrovinou Najd te sparse! w R d s w, x i > 0 pro y i = 1, w, x i < 0 pro y i = 1. l 1 -SVM: min w R d m [1 y i w, x i ] + + λ w 1 i=1 λ > 0 - parametr 32 / 60
LASSO v bioinformatice Support Vector Machine l 1 -Support Vector Machines Trace plot: Reference: P.S. Bradley, O.L. Mangasarian, 1998 J. Zhu, S. Rosset, T. Hastie, R. Tibshirani, 2004 33 / 60
LASSO v bioinformatice Support Vector Machine l 1 -Support Vector Machines Aplikace Standardní technika sparse klasikace Bioinformatika výb r gen microarray classication klasikace rakoviny výb r parametr rozpoznávání obli ej... 34 / 60
Sparse vektory Základní pojmy a výsledky (Compressed Sensing)... matematika pro LASSO?!? D. Donoho, E. Candes, T. Tao (2006) 35 / 60
Sparse vektory Základní pojmy a výsledky Sparse vektory Nejjednodu²²í rovnice v matematice: y = Ax, kde m N matice A a vektor y R m jsou dány Úloha: najít x R N z A a y Studována z mnoha úhl pohledu: Lineární algebra: existence, jednozna nost, metody e²ení Numerická analýza: stabilita, rychlost Speciální metody pro strukturované matice A Nová komponenta:... hledáme e²ení x se speciální strukturou! 36 / 60
Sparse vektory Základní pojmy a výsledky Sv t je komprimovatelný! Fotograe lze efektivn rerezentovat wavelety!... JPEG2000... dnes typicky m íme v²echna data ( 10MP), abychom pak v t²inu zahodili! 37 / 60
Sparse vektory Základní pojmy a výsledky : formulace problému Zjednodu²ený model: Nech A je m N matice, a nech x R N je sparse, i.e. x 0 := #{i : x i 0} je malé. Nejd te x, znáte-li A a y = Ax. P irozený model: Nech x R N. Ze zku±enosti víme/o ekáváme, ºe existuje ortonormální báze Φ s x = Φc taková, ºe c je sparse Úloha: Nech A je matice m N, nech x = Φc R N, kde Φ je ONB a c 0 je malé. Najd te x, znáte-li A, Φ, a y = AΦc. 38 / 60
Sparse vektory Základní pojmy a výsledky Pronyho metoda (1795) Nech x je s-sparse, i.e. x 0 s Pak lze x najít pomocí 2s (nelineárních) dotaz : - poloha nenulových koecient - a jejich hodnota = 2s stup volnosti. V ta (Prony, 1795): Nech N 2s. Pak lze kaºdý s-sparse vektor x R N najít (pomocí konstruktivního algoritmu) z prvních 2s koecient jeho disktrétní Fourierovy transformace. - není stabilní vzhledem k defekt m sparsity, i.e. selºe pro skoro sparse vektory - není robustní vzhledem k chybám m ení 39 / 60
Sparse vektory Základní pojmy a výsledky P irozený (=triviální) algoritmus: Pro danou m N matici A a y R m, najdi arg min x 0 s. t. y = Ax x Tento minimaliza ní problém je NP-hard! ( N { ) 1/p x p = x j p p 1 dává sparse- e²ení : p 1 konvexní problém j=1 Basis pursuit (l 1 -minimizace; Chen, Donoho, Saunders - 1998): arg min x 1 x s. t. y = Ax Lze vy e²it lineárním programováním! 40 / 60
Sparse vektory Základní pojmy a výsledky l 1 vyrábí sparse vektory arg min x 1 s.t. y = Ax arg min x 2 s.t. y = Ax {x : y = Ax} erven : x 2 1 + x 2 2 α mod e: x 1 + x 2 β 41 / 60
Sparse vektory Základní pojmy a výsledky (a) Logan-Shepp phantom, (b) Sampling Fourier coef. along 22 radial lines, (c) l 2 reconstruction, (d) total variation minimization Source: Candès, Romberg, Tao 42 / 60
Sparse vektory Základní pojmy a výsledky NSP: Null Space Property Denice: A R m N má Null Space Property (NSP) ádu s pokud v S 1 < 1 2 v 1 pro v²echna v kern (A)\{0} a pro v²echna #S s. V ta (Cohen, Dahmen, DeVore - 2008): Nech A R m N a s N. Pak následující body jsou ekvivalentní: (i) Kaºdé s-sparse x R N je jediné e²ení kde y = Ax. (ii) A má NSP ádu s. arg min z 1 s. t. Az = y, z 43 / 60
Sparse vektory Základní pojmy a výsledky Restricted Isometry Property Denice: A R m N má Restricted Isometry Property (RIP) ádu s s RIP-konstantou δ s (0, 1) pokud (1 δ s ) x 2 2 Ax 2 2 (1 + δ s ) x 2 2 x 0 s. V ta (Cohen, Dahmen, DeVore - 2008; Candès - 2008): Nech A R m N má RIP ádu 2s s δ 2s < 1/3. Pak A má NSP ádu s. 44 / 60
Sparse vektory Základní pojmy a výsledky Konstrukce matic s RIP V ta: Nech N m s 1 jsou p irozená ísla, nech 0 < ε, δ < 1 jsou reálná ísla a nech A je m N-matice s nezávislými (sub)-gaussovskými prom nnými vynásobenými m 1/2. Pokud ) m Cδ (s 2 log(en/s) + log(2/ε), pak A má RIP ádu s s δ s δ s pravd podobností alespo 1 ε. Neboli: ( ) P δ s (A) δ 1 ε. 45 / 60
Sparse vektory Základní pojmy a výsledky Dal²í sm ry Modelový problém: Pro zadanou m N matici A a s-sparse x R N, najdi x z y = Ax! Zásadní (teoretické) otázky: Jaký je minimální po et m ení m = m(s, N)? Dobré algoritmy pro získání x? Stabilita - i.e. skoro sparse x? Robustnost - i.e. m ení se ²umem? 46 / 60
Matrix Completion Data Separation MRI Phase retrieval Matrix Completion Data Separation MRI Phase retrieval 47 / 60
Matrix Completion Data Separation MRI Phase retrieval Matrix Completion Teorii lze roz²í it i na dal²í objekty s vnit ní strukturou, nap. matice s nízkou hodností. E. Candès and T. Tao. The power of convex relaxation: near-optimal matrix completion, IEEE Trans. Inform. Theory, 56(5), pp. 2053-2080 (2010) E. Candès and B. Recht. Exact matrix completion via convex optimization, Found. of Comp. Math., 9 (6). pp. 717-772 (2009) D. Gross, Recovering low-rank matrices from few coecients in any basis, IEEE Trans. Inform. Theory 57(3), pp. 1548-1566 (2011) 48 / 60
Matrix Completion Data Separation MRI Phase retrieval Low-rank matrix recovery Nech X C n 1 n 2 je matice s hodností nejvý²e r. Nech y = A(X ) C m jsou lineární m ení X. Chceme najít matici s nejmen²í hodností, která dává stejná m ení, tedy arg min Z C n 1 n 2 rank(z) s.t. A(Z) = y. rank(z) = (σ 1 (Z), σ 2 (Z),... ) 0 nahradíme nukleární normou Z = (σ 1 (Z), σ 2 (Z),... ) 1 = i σ i(z). Konvexní relaxace je pak arg min Z s.t. A(Z) = y. Z C n 1 n 2 49 / 60
Matrix Completion Data Separation MRI Phase retrieval Matrix completion Pokud A(X ) jsou vybrané prvky matice X = Matrix Completion Známe n kolik prvk matice, ostatní chceme doplnit tak, aby hodnost byla minimální. Typická úloha recommendation systems: Amazon, Netix,... Uºivatelé hodnotí produkty, chceme p edpov d t oblibu je²t nekoupených a nehodnocených produkt... Za ur itých (vcelku p irozených podmínek) je moºná stabilní a robustní identikace N N matice X hodnosti r pouze z O(r N log 2 N) m ení. 50 / 60
Matrix Completion Data Separation MRI Phase retrieval Data Separation - odd lení informace ve videu N která videa (nap. bezpe nostní kamery) je t eba rozloºit na ásti - pozadí (= komponenta s nízkým rankem) - pohyb (= sparse komponenta) Intuitivní program arg min(rankl + λ S 0 ), s.t. L + S = X. L,S nahradíme konvexním programem arg min( L + λ S 1 ), s.t. L + S = X. L,S E. J. Candès, X. Li, Y. Ma, and J. Wright. Robust Principal Component Analysis?, Journal of ACM 58(1), 1-37 (2009) Data: S. Becker (Caltech) 51 / 60
Matrix Completion Data Separation MRI Phase retrieval Data Separation - odd lení informace ve videu: P íklad Advanced Background Subtraction https://www.youtube.com/watch?v=yxj1_52eaxa První ada: Vlevo: p vodní video Uprost ed: komponenta se strukturou (=nízkou hodností) Vpravo: sparse komponenta Druhá ada: stejn, p i zohledn ní kvantiza ního efektu (=p idání Frobeniovy normy). 52 / 60
Matrix Completion Data Separation MRI Phase retrieval Magnetic Resonance Imaging MRI má n kolik vlastností, které umoº ují efektivní pouºití Compressed Sensning: 1. MRI data jsou sparse (p i vhodné transformaci) 2. MRI skenery uº dnes snímají transformovaná m ení 3. M ení jsou drahá (damage to patient, náklady) 4. ƒas pot ebný na zpracování není klí ový. MRI applies additional magnetic elds on top of a strong static magnetic eld. The signal measured s(t) is the Fourier transform of the object sampled at certain frequency k(t). 53 / 60
Matrix Completion Data Separation MRI Phase retrieval Volba frekvencí umoº ující efektivní rekonstrukci? R zné k ivky v k-prostoru odpovídají samplování r zných koecient Fourierovy transformce 54 / 60
Matrix Completion Data Separation MRI Phase retrieval Phase retrieval Problém: Rekonstrukce signálu x z absolutní hodnoty jeho diskrétní Fourierovy transformace ˆx Obecná formulace: Pro neznámé x jsou dána b k = a k, x 2, k = 1,..., m, najd te x! ƒastý problém v astronomii, krystalograi, optice,... existují r zné algoritmy... PhaseLift: kvadratická m ení x jsou lifted up a stávají se lineárními m eními matice X := xx : a k, x 2 = Tr(x a k a k x) = Tr(a ka k xx ) = Tr(A k X ) = A k, X F, kde A k := a k a k 55 / 60
Matrix Completion Data Separation MRI Phase retrieval Vým na fáze Fourierovy transformace p i zachování magnitudy Zdroj: Osherovich 56 / 60
Matrix Completion Data Separation MRI Phase retrieval PhaseLift Naivní problém Najdi X s. t. (Tr(A k X )) m k=1 = (b k) m k=1 X 0 rank(x ) = 1 je nahrazen konvexním problémem min rank(x) X s. t. (Tr(A k X )) m k=1 = (b k) m k=1 X 0.... Matrix recovery problem! 57 / 60
Matrix Completion Data Separation MRI Phase retrieval Výsledky E. Candès, Y. Eldar, T. Strohmer, and V. Voroninski. Phase retrieval via matrix completion. SIAM J. on Imaging Sciences 6(1), pp. 199225, 2011 E. Candès, T. Strohmer and V. Voroninski. PhaseLift: Exact and stable signal recovery from magnitude measurements via convex programming. Comm. Pure and Appl. Math. 66, pp. 12411274, 2011 E. Candès and X. Li. Solving quadratic equations via PhaseLift when there are about as many equations as unknowns. To appear in Found. of Comp. Math. V ta (Candès, Li, Strohmer, Voroninski, 2011) Jsou-li a k 's zvolena náhodn, nezávisle a rovnom rn na jednotkové sfé e a m CN (ne N log N!), pak jediné e²ení tohoto konvexního problému je X = xx (s velkou pravd podobností). Rekonstrukce je robustní vzhledem k ²umu! Existuje verze pro x sparse! 58 / 60
Matrix Completion Data Separation MRI Phase retrieval Implementace náhodných m ení 59 / 60
Matrix Completion Data Separation MRI Phase retrieval Thank you for your attention! 60 / 60
Matrix Completion Data Separation MRI Phase retrieval Thank you for your attention! Nostalgy is not what it used to be before. Pete Cassazza 60 / 60