Test lineární separability

Podobné dokumenty
0.1 Úvod do lineární algebry

0.1 Úvod do lineární algebry

Vektory a matice. Obsah. Aplikovaná matematika I. Carl Friedrich Gauss. Základní pojmy a operace

Matematika (CŽV Kadaň) aneb Úvod do lineární algebry Matice a soustavy rovnic

10. Soustavy lineárních rovnic, determinanty, Cramerovo pravidlo

VEKTORY. Obrázek 1: Jediný vektor. Souřadnice vektoru jsou jeho průměty do souřadných os x a y u dvojrozměrného vektoru, AB = B A

Matematika I, část I. Rovnici (1) nazýváme vektorovou rovnicí roviny ABC. Rovina ABC prochází bodem A a říkáme, že má zaměření u, v. X=A+r.u+s.

Interpolace, ortogonální polynomy, Gaussova kvadratura

(Cramerovo pravidlo, determinanty, inverzní matice)

Algoritmy a struktury neuropočítačů ASN P9 SVM Support vector machines Support vector networks (Algoritmus podpůrných vektorů)

Lineární algebra. Soustavy lineárních rovnic

CITLIVOSTNÍ ANALÝZA DYNAMICKÝCH SYSTÉMŮ I

Necht tedy máme přirozená čísla n, k pod pojmem systém lineárních rovnic rozumíme rovnice ve tvaru

Soustavy lineárních rovnic

Aplikovaná numerická matematika - ANM

VYBRANÉ PARTIE Z NUMERICKÉ MATEMATIKY

4EK213 LINEÁRNÍ MODELY

Matematika I, část I Vzájemná poloha lineárních útvarů v E 3

Rosenblattův perceptron

Lineární klasifikátory

Gymnázium, Brno. Matice. Závěrečná maturitní práce. Jakub Juránek 4.A Školní rok 2010/11

Obsah. Lineární rovnice. Definice 7.9. a i x i = a 1 x a n x n = b,

Soustavy linea rnı ch rovnic

Greenova funkce pro dvoubodové okrajové úlohy pro obyčejné diferenciální rovnice

INVESTICE DO ROZVOJE VZDĚLÁVÁNÍ. Modernizace studijního programu Matematika na PřF Univerzity Palackého v Olomouci CZ.1.07/2.2.00/28.

Matematika B101MA1, B101MA2

Připomenutí co je to soustava lineárních rovnic

Úloha - rozpoznávání číslic

8 Matice a determinanty

SOUSTAVY LINEÁRNÍCH ALGEBRAICKÝCH ROVNIC

ANALÝZA A KLASIFIKACE DAT

Soustavy. Terminologie. Dva pohledy na soustavu lin. rovnic. Definice: Necht A = (a i,j ) R m,n je matice, b R m,1 je jednosloupcová.

5. Lokální, vázané a globální extrémy

Soustavy lineárních rovnic

5. Umělé neuronové sítě. Neuronové sítě

Vektorové podprostory, lineární nezávislost, báze, dimenze a souřadnice

Definice 13.1 Kvadratická forma v n proměnných s koeficienty z tělesa T je výraz tvaru. Kvadratická forma v n proměnných je tak polynom n proměnných s

a počtem sloupců druhé matice. Spočítejme součin A.B. Označme matici A.B = M, pro její prvky platí:

1 0 0 u 22 u 23 l 31. l u11

Matematika. Kamila Hasilová. Matematika 1/34

Základy teorie matic

1 Linearní prostory nad komplexními čísly

Aplikovaná numerická matematika

maticeteorie 1. Matice A je typu 2 4, matice B je typu 4 3. Jakých rozměrů musí být matice X, aby se dala provést

Základy maticového počtu Matice, determinant, definitnost

Lineární algebra : Metrická geometrie

1. července 2010

Optimální rozdělující nadplocha 4. Support vector machine. Adaboost.

Globální matice konstrukce

Lingebraické kapitolky - Analytická geometrie

ANALÝZA A KLASIFIKACE DAT

2.6. Vlastní čísla a vlastní vektory matice

Dnešní látka Variačně formulované okrajové úlohy zúplnění prostoru funkcí. Lineární zobrazení.

Budeme hledat řešení y(x) okrajové úlohy pro diferenciální rovnici druhého řádu v samoadjungovaném tvaru na intervalu a, b : 2 ) y i p i+ 1

3. ANTAGONISTICKÉ HRY

Co je obsahem numerických metod?

1 Zobrazení 1 ZOBRAZENÍ 1. Zobrazení a algebraické struktury. (a) Ukažte, že zobrazení f : x

Shodnostní Helmertova transformace

14. přednáška. Přímka

Soustava m lineárních rovnic o n neznámých je systém

α β ) právě tehdy, když pro jednotlivé hodnoty platí β1 αn βn. Danou relaci nazýváme relace

2D transformací. červen Odvození transformačního klíče vybraných 2D transformací Metody vyrovnání... 2

9 Kolmost vektorových podprostorů

Afinita je stručný název pro afinní transformaci prostoru, tj.vzájemně jednoznačné afinní zobrazení bodového prostoru A n na sebe.

Kybernetika a umělá inteligence, cvičení 10/11

Aplikovaná matematika I

Učební texty k státní bakalářské zkoušce Matematika Základy lineárního programování. študenti MFF 15. augusta 2008

1 Projekce a projektory

Báze a dimenze vektorových prostorů

(4x) 5 + 7y = 14, (2y) 5 (3x) 7 = 74,

1 Vektorové prostory.

Matematika 2 (Fakulta ekonomická) Cvičení z lineární algebry. TU v Liberci

IB112 Základy matematiky

1. DIFERENCIÁLNÍ POČET FUNKCE DVOU PROMĚNNÝCH

Numerická matematika 1

Matematika pro informatiky

Katedra aplikované matematiky FEI VŠB Technická univerzita Ostrava luk76/la1

ANALYTICKÁ GEOMETRIE LINEÁRNÍCH ÚTVARŮ V ROVINĚ

Soustavy lineárních rovnic-numerické řešení

8.3). S ohledem na jednoduchost a názornost je výhodné seznámit se s touto Základní pojmy a vztahy. Definice

FIT ČVUT MI-LOM Lineární optimalizace a metody. Dualita. Evropský sociální fond Praha & EU: Investujeme do vaší budoucnosti

2. Určete jádro KerL zobrazení L, tj. nalezněte alespoň jednu jeho bázi a určete jeho dimenzi.

Úlohy krajského kola kategorie C

Soustavy se spínanými kapacitory - SC. 1. Základní princip:

Soustavy lineárních rovnic-numerické řešení. October 2, 2008

Matematika 1 MA1. 2 Determinant. 3 Adjungovaná matice. 4 Cramerovo pravidlo. 11. přednáška ( ) Matematika 1 1 / 29

Věta o dělení polynomů se zbytkem

3. Vícevrstvé dopředné sítě

vyjádřete ve tvaru lineární kombinace čtverců (lineární kombinace druhých mocnin). Rozhodněte o definitnosti kvadratické formy κ(x).

Lineární programování

7 Ortogonální a ortonormální vektory

MATICE. a 11 a 12 a 1n a 21 a 22 a 2n A = = [a ij]

V předchozí kapitole jsme podstatným způsobem rozšířili naši představu o tom, co je to číslo. Nadále jsou pro nás důležité především vlastnosti

2. Schurova věta. Petr Tichý. 3. října 2012

Součin matice A a čísla α definujeme jako matici αa = (d ij ) typu m n, kde d ij = αa ij pro libovolné indexy i, j.

Vektorový prostor. Př.1. R 2 ; R 3 ; R n Dvě operace v R n : u + v = (u 1 + v 1,...u n + v n ), V (E 3 )...množina vektorů v E 3,

fakulty MENDELU v Brně (LDF) s ohledem na disciplíny společného základu (reg. č. CZ.1.07/2.2.00/28.

Klauzurní část školního kola kategorie A se koná

1 Determinanty a inverzní matice

Transkript:

KYBERNETIKA ČÍSLO 5, ROČNÍK 4/1968 Test lineární separability MILOŠ THOMA Práce se zabývá možností testování lineární separability při použití prahového logického adaptivního obvodu v modelování procesu učení. Ukazují se možnosti nahrazení učení některou běžnou trenovací metodou testem lineární separability. 1. ÚVOD Problematika učení a učících se obvodů je již dosti dlouhou dobu oblastí zvýšeného zájmu, v neposlední řadě vzhledem k možnostem aplikace jako učících se regulátorů. Valná většina známých prací, které se zabývají uvedenou aplikací učících se obvodů v regulaci, používá jako základního prvku pro tyto obvody prahového adaptivního logického elementu. Největší zásluha o prosazování tohoto elementu v uvedené problematice se připisuje prof. B. Widrowovi. Ve svých pracech se zabývá problematikou adaptivního logického prahového obvodu a jeho aplikacemi. Pro podobnost tohoto obvodu s lineárním modelem neuronu nazývá jej B. Widrow ADALINE (adaptivní lineární neuron). 2. PRAHOVÝ LOGICKÝ ADAPTIVNÍ OBVOD Na obr. 1 je schéma uvedeného obvodu. Vlastní prahový obvod se skládá z n řádných vstupů, z prahového vstupu, ze sumátoru a konečně z výstupního členu (limitem). Všechny vstupy, včetně prahového, jsou připojeny k sumátoru přes váhové prvky. Velikost vah označme w 0, w u..., w n. Pro funkci obvodu je dále nutné adaptační zařízení, které samo není přímo součástí prahového obvodu a které obstarává přestavování jednotlivých vah. Předpokládejme, že vstupní veličiny mohou nabývat pouze dvou hodnot, a to +1 a 1. (Prahový vstup je konstantně připojen na +1.) Nazveme konečně jako obraz každou možnou kombinaci vstupních proměnných + 1 a 1. Každou jednotlivou vstupní proměnnou označme x h i = 1,..., n, celý obraz pak symbolem (x,), kde a je pořadové číslo obrazu. a

Mějme dáno s různých obrazů (x ),..., (x,) a to tak, že požadujeme, aby při x ; s jejich rozpoznávání byly řazeny obrazy.(x,),..., (x,) do prvé a obrazy (x ),...- r r+1 f..., s (x,) do druhé skupiny. Příslušnost obrazu do prvé skupiny vyznačí prahový obvod v procesu rozpoznávání výstupem (označme V) +1, příslušnost do druhé skupiny výstupem 1. Pokusíme-li se nyní postihnout funkci prahového obvodu, pak jeho činnost musíme rozdělit do procesu učení a procesu rozpoznávání. V procesu učení adaptační zařízení přestavuje váhy v jednotlivých vstupech tak, aby obvod požadovaným způsobem reagoval na jednotlivé obrazy přiváděné na jeho vstupy. Obг. 1. V procesu rozpoznávání prahový obvod pak zařazuje přiváděné vstupní obrazy do příslušných tříd podle toho, jak byl natrénován" v procesu učení. Všimneme-li si, jakým způsobem obvod provádí zařazení, vidíme, že (1) kde (2) V = sign S (a), S(a) = w 0 + XXІWI, což je součet prahové váhy a skalárního součinu vektoru obrazu a(x ; ), i = 1,..., n a vektoru váhového w = [w t,..., w ]. Pro zpřesnění rozpoznávání se zavádí tzv. pásmo necitlivosti (3) Potom (4) jestliže (5) d> 0. V= +1, 5(a) > d

a (6) V=-l jestliže (7) S(«)<-d. Není-li splněna ani jedna z nerovností (5), (7), pak obraz je označen jako neidentifikovatelný. 3. LINEÁRNÍ SEPARABILITA Pro nalezení váhového vektoru w, který splňuje zadání úlohy, je známo několik postupů, označovaných jako trénovací metody [l], [2]. Konvergence těchto metod je dokázána za předpokladu, že hledaný váhový vektor existuje. (Existuje-li takový vektor, pak úloha se označuje jako lineárně separabilní. V opačném případě jako lineárně neseparabilní.) Při modelování prahového obvodu a procesu učení (třeba na počítači), nekonverguje-li proces učení, tj. není-li možno nalézt vektor w, nemůžeme říci, je-li tomu tak proto, že problém je lineárně neseparabilní, nebo že je nekonvergence způsobena nevhodnou volbou pásma necitlivosti. Dále je zřejmé, že řešení vektor w obvykle není jediné, avšak při použití zmíněných trenovacích metod dostaneme pouze jediné řešení (i když splňující danou úlohu). Zdá se tedy být opodstatněný požadavek nalezení takového postupu, který by a) rozhodl o lineární separovatelnosti či neseparovatelnosti dané úlohy, b) vymezil pokud možno celou množinu řešení. Zde bude užitečné uchýlit se k prostorové interpretaci celého problému. Obrazy reprezentované n resp. (n + 1) vstupními proměnnými lze považovat za body v n resp. (n + l)-rozměrném prostoru. Dále je dána nadrovina Q (S normálovým vektorem w), která dělí n resp. {n + l)-rozměrný prostor do dvou poloprostorů. Rozpoznávání obrazů dělením do dvou tříd v prostorové interpretaci pak znamená posuzování, ve kterém z obou zmíněných poloprostorů leží uvažovaný bod. Předepíšeme-li pásmo necitlivosti, pak udáváme v nějakém měřítku minimální nutnou vzdálenost bodů od nadroviny. Lze také říci, že zde prahový obvod realizuje lineární rozhodovací funkci. Konkrétní podobou této funkce je zřejmě skalární součin normálového vektoru nadroviny w s polohovým vektorem (radiusvektorem) bodu (obrazu). 4. FORMULACE KRITÉRIA Zmíněná prostorová představa nám umožňuje formulovat kritérium separability, které, jak bude ukázáno, dovoluje stanovit celou množinu řešení.

Nechť nadrovina g je dána rovnicí (8) x Y Wx + x 2 w 2 +... + x n w n + w 0 = 0 ; vzdálenost bodu 0(x ; ) od nadroviny g je dána výrazem X.Wi +... + 0x w + w 0 (9) 9Á = y/(wl + w\ +... + W 2 + W 2 ) ' Pro uvedený problém se jeví výhodné uvažovat vzdálenost včetně její orientace tj. (10) Zavedeme dále (11) QXJWI +... + x w + w 0 0 3 0 = yf(w\ +... + w 2 + w 2 0) S' = J(w\ +... +w 2 + w 2.) Je dáno s různých bodů t(x,), k = 1,,.., s, o souřadnicích kx h i = 1,..., n; k = = 1,..., s. Jde o tzv. trénovací množinu a příslušnost těchto bodů do dvou možných skupin je rovněž známa. (Vždy je možné provést přečíslování bodů tak, aby body k(x ; ), k = 1,..., r, patřily do prvé a body k(x t ), k = r + 1,..., s, do druhé skupiny.) To znamená, že u bodů prvé skupiny požadujeme, aby jejich vzdálenost od nadroviny (8) byla (12) 9 k >$', k=l,...,r, a u druhé skupiny (13) -9 k >S', k = r + 1,...,s. Uvážíme-li vztahy (10) a (11), pak nerovnosti (12) a (13) můžeme přepsat ve tvaru (14) k X l W l + + k X n W n + W 0 > d, pro a k = í,...,r (15) pro kx 1 w 1... x n w n w 0 > d k = r + 1,...,s. Přihlédneme-li k tomu, že všechna kx h k = 1,..., s, i 1,..., n, jsou dána a přepíšeme-li nerovnosti (14) a (15) vhodným způsobem do tvaru (16), pak vidíme, že

jde o soustavu lineárních nerovností vzhledem k w t, i = 0, 1,..., n. ÍX 1W Í +... + jx W + w 0 > d, (16) r*l W l + -r+l*l W l - + Л w л + w o > d, - r+1 x w - w 0 > d, -s x l w l - - s x» w n - W 0 > d. Doplňme soustavu nerovností (16) na soustavu rovnic (17) a to tak, že po řadě do levé strany každé nerovnosti soustavy přičteme novou proměnnou y k, k = 1,... s: 1 x 1 w 1 +... + í x n w n + w 0 + y í = d, (17) rx^wi + -,+,x,w, - +,X,,W n + W 0 + y r = d, -,. + 1 x W - W 0 + y r+1 = d, x - s i w i s *иw n w o + У s = d. Rozšířená matice soustavy (17) má pak tvar 1*2 A 1 1 0 0 0 (18) -,+ ix, - r*2 +í x 2 r x n 1 -г+л -1 0... 0 1 0... 0 0... 0 0 1 0... 0 sx -1 0 0 0 1 Z tvaru matice (18) je okamžitě vidět, že její hodnost je s a tedoustava (17) má vždy řešení vzhledem k proměnným y k,k = 1,... s a s proměnnými w ;, i = 0, 1,......, n jako parametry. Vzhledem k tomu, jak jsme zavedli proměnné y k lze tvrdit, že soustava nerovností (16) bude mít alespoň jedno řešení vzhledem k w t, i = = 0, 1,..., n, právě tehdy, existuje-li alespoň jeden soubor takových (19) y k < 0, k = 1,..., s, který vyhovuje soustavě rovnic (17). Předpokládejme tedy volbu všech y k podle (19) a zkoumejme, za jakých okolností je nyní řešitelná soustava (17), ale vzhledem k proměnným w h i = 0, 1,..., n, a s proměnnými y k, k = 1,...,s, jako (předem podle (19) zvolenými) parametry. Za tím účelem budeme upravovat matici (18) tak, aby její podmatice sestavená z koeficientů soustavy (16) nabyla tvaru diagonální matice. Úprava se provádí v zásadě Gaussovou eliminační metodou.

Výsledný tvar matice získané uvedenou úpravou matice (18) se bude lišit případ od případu v závislosti na tom, jaký je poměr hodnosti nerozšířené matice soustavy (16) (označme p) a hodností matice (18). Jak již bylo konstatováno hodnost matice (18) je vžd. Posuďme nejprve případ, že (a) p = s. V tomto případě je zřejmé, že řešení soustavy (17) vzhledem k proměnným w ;, i = 0, 1,..., n, je jediné, ovšem závislé na parametrech y k, k = 1,..., s. Je tedy možno parametry y k zvolit tak, abplňovaly podmínku (19). Tím bude zaručena existence řešení soustavy (16). Původní problém je pak lineárně separabilní a všechna řešení (tj. nadroviny) dostaneme různými volbami parametrů yk a jejich dosazením do rovnic pro w ;, i = 0, 1,..., n. V případě (b) p < s lze zřejmě v matici soustavy (16) nalézt právě p lineárně nezávislých řádků. Lze tedy právě p z proměnných w ;, i = 0, 1,..., n, vypočítat v závislosti na y k, k = 1,......, s. Z řádků, které byly v matici soustavy (16) lineárně závislé (je jich právě (s p)), vznikne tedy (s - p) rovnic v proměnných yk, k = 1,...,s. (Poznamenejme ještě, že těchto rovnic je určitě méně než s, protože 1 <. p < s.) Položme (20) s - p = q ; pak nově vzniklá soustava rovnic má tvar (21) ttu^i + a 12 y 2 +... + a ls = A lt a ql y 1 + a q2 y 2 + + a qs = A q ; kde a tj, i = 1,..., q, j = 1,..., s, jsou koeficienty vzniklé při aplikaci eliminačního postupu na soustavu (17) a A h i = 1,..., q, jsou absolutní členy vzniklé při témže postupu. Protože s>pa hodnost matice soustavy (21) je q = s p, má soustava (21) vždy řešení. Aplikujeme tedy na soustavu již uvedený eliminační postup. Jako výsledek dostaneme následující soustavu rovnic (předpokládáme, že vyjádříme právě y t až ý q ; vhodným přerovnáním a přečíslováním proměnných y k toho lze dosáhnout) yi = b Uq+í y q+í +... + b Us + B l, (22) ; y q = b M+1 y q+1 +... + b q, s + B q.

Vzhledem k tomu, že pro y k, k = í,...,q, musí platit podmínka (19), musí pro 477 pravé strany rovnic soustavy (22) platit bi, q+1 y q+ i + + b Us + 'B. <0, (23) i b q, q+i y q+í + + b 9iS + B q <0. Na soustavu (23) aplikujeme opět eliminační postup a úvahu o platnosti podmínky (19) pro všechna y k, k = 1,..., s. Tímto postupem cyklicky opakovaným dospějeme posléze k jednoduchým podmínkám pro některá y k. Podmínky budou nerovnosti typu (24) yj < Gj, (25) y k > G k, kde Gj, G k jsou absolutní členy. Pokud jsou všechny podmínky (24) resp. (25) slučitelné s podmínkami (19), lze říci, že soustava (17) je řešitelná s podmínkou (19) a tedy, že je řešitelná i soustava (16) a konečně, že původní problém je lineárně separabilní. Poznámka 1. Lze snadno nahlédnout, že někdy je možno o řešitelnosti problému rozhodnout, aniž bychom dováděli výpočet do konce. Např. jestliže v některé rovnici soustavy (21) je A ; 2: 0 a všechna a u > 0, j = 1,..., s, pak tato rovnice je zřejmě neslučitelná s podmínkou (19) a problém není lineárně separabilní. Poznámka 2. Podaří-li se problém prokázat jako lineárně separabilní, lze již pouhou volbou různých vhodných souborů y k, k = 1,..., s, a dosazením do příslušných rovnic získat koeficienty w u i = 0, 1,..., n, nadrovin, které řeší danou úlohu. Čili testem lineární separability je nahrazen proces učení, tj. hledání vhodné nadroviny. Poznámka 3. Z podmínek (24) resp. (25) lze říci, zda neseparabilita nebyla způsobena nevhodnou volbou pásma necitlivosti d, jinými slovy, pro jaká d by problém byl lineárně separabilní. 5. ZÁVĚR O odvozeném kritériu lze říci, že dovoluje exaktně stanovit existenci řešení resp. množiny řešení daného problému učení. Jestliže řešení existuje, pak umožňuje jeho nalezení (resp. výběr jednoho z množiny řešení). Vzhledem k charakteru kritéria je patrné, že ho bude lze použít zejména při modelování uvedených procesů na číslicovém počítači. (Došlo dne 23. ledna 1968.)

LITERATURA [1] Widrow B., Pierce W. H., Angell J. B.: Birth, life and death in microelectronic systems. IRE Trans. MIL-5 (1961 July), 191-201. [2] Beneš J.: Kybernetické systém automatickou organizací. Academia, Praha 1966. SUMMARY The Test of Linear Separability MILOS THOMA The paper deals with the testing of linear separability. We meet this problem in the application of the treshold logical adaptive circuit in pattern recognition and learning. The treshold logical adaptive circuit realizes a linear discriminant function. The determination of the form of this function is usually carried out by certain learning methods converging if their solution exists. The paper solves the question of the existence of solution i.e. the existence of the linear discriminant function solving the problem. The criterion that is the result of the paper answers not only the question of the existence of the solution, but it also enables to find out its form. Ing. Milos Thoma, Ustav teorie informace a automatizace CSAV, Vysehradskd 49, Praha 2.