8-9. Pravděpodobnostní rozhodování a predikce. Gerstnerova laboratoř katedra kybernetiky fakulta elektrotechnická ČVUT v Praze

Podobné dokumenty
KYBERNETIKA A UMĚLÁ INTELIGENCE. 2. Pravděpodobnostní rozhodování a klasifikace

Kybernetika a umělá inteligence, cvičení 10/11

Katedra kybernetiky laboratoř Inteligentní Datové Analýzy (IDA) Katedra počítačů, Computational Intelligence Group

Vytěžování znalostí z dat

Neuronové sítě Ladislav Horký Karel Břinda

Umělé neuronové sítě

Klasifikace a rozpoznávání. Lineární klasifikátory

Dobývání znalostí. Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze

Lineární klasifikátory

UČENÍ BEZ UČITELE. Václav Hlaváč

Úloha - rozpoznávání číslic

Rozdělování dat do trénovacích a testovacích množin

Rosenblattův perceptron

5. Umělé neuronové sítě. neuronové sítě. Umělé Ondřej Valenta, Václav Matoušek. 5-1 Umělá inteligence a rozpoznávání, LS 2015

Fiala P., Karhan P., Ptáček J. Oddělení lékařské fyziky a radiační ochrany Fakultní nemocnice Olomouc

StatSoft Úvod do neuronových sítí

Trénování sítě pomocí učení s učitelem

Algoritmy a struktury neuropočítačů ASN P4. Vícevrstvé sítě dopředné a Elmanovy MLNN s učením zpětného šíření chyby

Úvod do optimalizace, metody hladké optimalizace

Neparametrické odhady hustoty pravděpodobnosti

Jsou inspirovány poznatky o neuronech a nervových sítích živých organizmů a jejich schopnostmi:

Moderní systémy pro získávání znalostí z informací a dat

Algoritmy a struktury neuropočítačů ASN P9 SVM Support vector machines Support vector networks (Algoritmus podpůrných vektorů)

Neuronové sítě v DPZ

Algoritmy a struktury neuropočítačů ASN P3

1. Vlastnosti diskretních a číslicových metod zpracování signálů... 15

Statistická teorie učení

oddělení Inteligentní Datové Analýzy (IDA)

ÚVOD DO ROZPOZNÁVÁNÍ

Jsou inspirovány poznatky o neuronech a nervových sítích živých organizmů a jejich schopnostmi:

ANALÝZA A KLASIFIKACE BIOMEDICÍNSKÝCH DAT. Institut biostatistiky a analýz

Dobývání znalostí. Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze

Přednáška 13 Redukce dimenzionality

Klasifikace předmětů a jevů

Lineární diskriminační funkce. Perceptronový algoritmus.

ZÍSKÁVÁNÍ ZNALOSTÍ Z DATABÁZÍ

přetrénování = ztráta schopnosti generalizovat vlivem přílišného zaměření klasifikátorů na rozeznávání pouze konkrétních trénovacích dat

Instance based learning

NG C Implementace plně rekurentní

Umělá inteligence II

Neuronové sítě. 1 Úvod. 2 Historie. 3 Modely neuronu

Detekce interakčních sil v proudu vozidel

Architektura - struktura sítě výkonných prvků, jejich vzájemné propojení.

Asociativní sítě (paměti) Asociace známého vstupního vzoru s daným výstupním vzorem. Typická funkce 1 / 44

AVDAT Mnohorozměrné metody, metody klasifikace

ZÍSKÁVÁNÍ ZNALOSTÍ Z DATABÁZÍ

Algoritmy a struktury neuropočítačů ASN - P10. Aplikace UNS v biomedicíně

Aplikovaná numerická matematika

Vytěžování znalostí z dat

Učící se klasifikátory obrazu v průmyslu

Odhad stavu matematického modelu křižovatek

Klasifikace a rozpoznávání. Bayesovská rozhodovací teorie

Emergence chování robotických agentů: neuroevoluce

3. Vícevrstvé dopředné sítě

Ing. Petr Hájek, Ph.D. Podpora přednášky kurzu Aplikace umělé inteligence

Apriorní rozdělení. Jan Kracík.

K možnostem krátkodobé předpovědi úrovně znečištění ovzduší statistickými metodami. Josef Keder

Fakulta informačních technologií VUT Brno. Předmět: Srovnání klasifikátorů Autor : Jakub Mahdal Login: xmahda03 Datum:

Preceptron přednáška ze dne

Neuronové sítě (11. přednáška)

Algoritmy a struktury neuropočítačů ASN - P11

Agent pracující v částečně pozorovatelném prostředí udržuje na základě senzorického modelu odhaduje, jak se svět může vyvíjet.

Náhodné chyby přímých měření

1. Soutěživé sítě. 1.1 Základní informace. 1.2 Výstupy z učení. 1.3 Jednoduchá soutěživá síť MAXNET

Strojové učení Marta Vomlelová

PV021: Neuronové sítě. Tomáš Brázdil

BAYESOVSKÉ ODHADY. Michal Friesl V NĚKTERÝCH MODELECH. Katedra matematiky Fakulta aplikovaných věd Západočeská univerzita v Plzni

ÚVOD DO ROZHODOVÁNÍ PŘEDNÁŠKA. OPTIMALIZACE A ROZHODOVÁNÍ V DOPRAVĚ Přednáška 1. Zuzana Bělinová

Jasové transformace. Karel Horák. Rozvrh přednášky:

Pravděpodobně skoro správné. PAC učení 1

Algoritmy a struktury neuropočítačů ASN - P1

Implementace Bayesova kasifikátoru

Pokročilé neparametrické metody. Klára Kubošová

Katedra kybernetiky, FEL, ČVUT v Praze.

Obsah přednášky Jaká asi bude chyba modelu na nových datech?

Ambasadoři přírodovědných a technických oborů. Ing. Michal Řepka Březen - duben 2013

Datové struktury 2: Rozptylovací tabulky

Automatické vyhledávání informace a znalosti v elektronických textových datech

5. Umělé neuronové sítě. Neuronové sítě

AVDAT Nelineární regresní model

Usuzování za neurčitosti

VZTAH MEZI STATISTICKÝM A STRUKTURNÍM ROZPOZNÁVÁNÍM

Algoritmy a struktury neuropočítačů ASN - P2. Topologie neuronových sítí, principy učení Samoorganizující se neuronové sítě Kohonenovy mapy

Neuronové časové řady (ANN-TS)

Už bylo: Učení bez učitele (unsupervised learning) Kompetitivní modely

Řešení příkladu - klasifikace testovacího subjektu podle minimální vzdálenosti:

logistická regrese Miroslav Čepek Evropský sociální fond Praha & EU: Investujeme do vaší budoucnosti

Regresní analýza 1. Regresní analýza

ANALÝZA A KLASIFIKACE DAT

NEURONOVÉ SÍTĚ A EVOLUČNÍ ALGORITMY NEURAL NETWORKS AND EVOLUTIONARY ALGORITHMS

1. Data mining. Strojové učení. Základní úlohy.

Strukturální regresní modely. určitý nadhled nad rozličnými typy modelů

Pravděpodobnost, náhoda, kostky

Úvodem Dříve les než stromy 3 Operace s maticemi

logistická regrese Miroslav Čepek Evropský sociální fond Praha & EU: Investujeme do vaší budoucnosti

Automatická detekce anomálií při geofyzikálním průzkumu. Lenka Kosková Třísková NTI TUL Doktorandský seminář,

Optimální rozdělující nadplocha 4. Support vector machine. Adaboost.

Drsná matematika III 1. přednáška Funkce více proměnných: křivky, směrové derivace, diferenciál

2. RBF neuronové sítě

Bayesovské rozhodování - kritétium minimální střední ztráty

Transkript:

KYBERNETIKA A UMĚLÁ INTELIGENCE 8-9. Pravděpodobnostní rozhodování a predikce laboratory Gerstner Gerstnerova laboratoř katedra kybernetiky fakulta elektrotechnická ČVUT v Praze

Rozhodování za neurčitosti Dosud v UI přednáškách: vyhledávání co nejlepšího řešení problému za deterministických podmínek (bez neurčitosti). Důležitou schopností inteligentních systémů je ale také schopnost vybrat co nejlepší rozhodnutí za nejistých podmínek (s neurčitostí). Příklad: Jet z A do B tramvají, nebo metrem? Tramvaj: rychlejší cesta dle jízdního řádu, ale velmi nejisté dodržení. Metro: delší cesta, ale téměř jisté dodržení. Příklad: kam směřovat dopis s tímto PSČ? 15700? 15706? 15200? 15206? Jak se optimálně rozhodnout? Oba příklady lze formalizovat stejným rámcem.

Příklad [Kotek, Vysoký, Zdráhal: Kybernetika 1990] Paní Nováková se vrací z práce. Co uvaří pan Novák k večeři? Napadly ho 3 možnosti rozhodnutí (d - decision): nic... neudělat nic žádná práce, ale zhorší náladu pí. Novákové. pizza... ohřát mraženou pizzu není pracné, ale neohromí. n.h.... nadívaná holoubata udělá jí radost, ale velmi pracné. P. Novák číselně zhodnotí míru nepříjemnosti způsobenou jednotlivými rozhodnutími. Ta závisí na tom, s jakou náladou přijde pí. Nováková domů, což je neznámý stav. Rozlišme tyto možnosti: dobrá... pí. Nováková má dobrou náladu. průměrná... pí. Nováková má průměrnou náladu. špatná... pí. Nováková má špatnou náladu. Pro každou z 9 možných situací (3 možná rozhodnutí 3 možné stavy) je nepříjemnost dána ztrátovou funkcí l(d, s) (l - loss): l(d, s) d = nic d = pizza d = n.h. x = dobrá 0 2 4 x = průměrná 5 3 5 x = špatná 10 9 6

Příklad (pokračování) Neznámý stav - náladu pí. Novákové - zkusí p. Novák odhadnout experimentem: sděĺı jí, že ztratil její obĺıbený časopis a sleduje její reakci. Předpokládá 4 možné reakce: mírná... nic se neděje, časopis najdeme. podrážděná... proč nedáváš věci na své místo? nasupená... proč já si toho Nováka brala? hrozivá... rezignované mlčení Reakce je přímo pozorovatelný příznak (zde nálady). Ze zkušenosti p. Novák ví, jak jsou jednotlivé reakce pravděpodobné při dané náladě: to vystihuje podmíněné rozložení P (x s). P (x s) x = x = x = x = mírná podrážděná nasupená hrozivá s = dobrá 0.5 0.4 0.1 0 s = průměrná 0.2 0.5 0.2 0.1 s = špatná 0 0.2 0.5 0.3

Rozhodovací strategie Rozhodovací strategie: pravidlo pro výběr rozhodnutí na základě pozorovaného příznaku. Tj. funkce d = δ(x). Příklady možných strategíı p. Nováka: δ(x) x = mírná x = podrážděná x = nasupená x = hrozivá δ 1 (x) = nic nic pizza n.h. δ 2 (x) = nic pizza n.h. n.h. δ 3 (x) = n.h. n.h. n.h. n.h. δ 4 (x) = nic nic nic nic Celkem má k dispozici 3 4 = 81 možných strategíı (3 možná rozhodnutí pro každou ze 4 možných hodnot příznaku). Jak určit, která ze dvou strategíı je lepší? Obecně: jak strategie uspořádat dle kvality? Definujeme riziko strategie při stavu s: střední hodnota ztráty podmíněná stavem s. R(δ, s) = x l(δ(x), s)p (x s)

Kritérium MiniMax Příklad: riziko strategie δ 1 při stavu s = dobrá je R(δ 1, dobrá) = l(δ 1 (mírná), dobrá) P (mírná dobrá)+l(δ 1 (podrážděná), dobrá) P (podrážděná dobrá) +l(δ 1 (nasupená), dobrá) P (nasupená dobrá) + l(δ 1 (hrozivá), dobrá) P (hrozivá dobrá) = l(nic, dobrá) 0.5 + l(nic, dobrá) 0.4 + l(pizza, dobrá) 0.1 + l(n.h., dobrá) 0 = 0 0.5 + 0 0.4 + 2 0.1 + 4 0 = 0.2 Podobně: R(δ 1, průměrná) = 4.4 a R(δ 1, špatná) = 8.3 Maximální riziko strategie δ 1 (přes všechny možné stavy) je tedy 8.3. Podobně: maximální riziko strategie δ 3 je 6. MiniMaxové kritérium: ze dvou strategíı je lepší ta, jejíž maximální riziko je nižší. Tedy podle MiniMaxu je δ 3 lepší než δ 1. Nejlepší strategie δ je podle MiniMaxu ta, která minimalizuje maximální riziko: δ = arg min δ max s R(δ, s) Pro její nalezení bychom v aktuálním příkladě museli spočítat max. rizika všech 81 možných strategíı.

Bayesovské kritérium Co když p. Novák ví, že p. Nováková má obvykle dobrou náladu? Obecněji: ví, jak jsou její jednotlivé nálady pravděpodobné, tj. zná rozložení P (s). Např: x = dobrá s = průměrná s = špatná P (s) = 0.7 0.2 0.1 MiniMaxové kritérium tuto znalost nezohledňuje. Díky znalosti P (s) lze spočítat střední riziko dané strategie přes všechny možné stavy: r(δ) = s R(δ, s)p (s) Tedy např. r(δ 1 ) = 0.2 0.7 + 4.4 0.2 + 8.3 0.1 = 1.85 r(δ 3 ) = 4 0.7 + 5 0.2 + 6 0.1 = 4.4 Bayesovské kritérium: ze dvou strategíı je lepší ta s nižším středním rizikem. Z Bayesovského hlediska je tedy δ 1 lepší než δ 3. Opačně proti MiniMaxovému kritériu!

Bayesovsky optimální strategie Bayesovsky optimální strategie je ta, která minimalizuje střední riziko. Tj. δ = arg min δ r(δ) Protože P (x s)p (s) = P (s x)p (x) (Bayesovo pravidlo), platí r(δ) = R(δ, s)p (s) = l(δ(x), s)p (x s)p (s) s s x = l(δ(x), s)p (s x)p (x) = P (x) l(δ(x), s)p (s x) s x x s }{{} Podmíněné riziko Optimální strategii tedy můžeme dostat minimalizací podmíněného rizika zvlášt pro každé x: δ (x) = arg min d l(d, s)p (s x) s Tedy narozdíl od MiniMaxové optimální strategie nemusíme počítat riziko pro všechny možné strategie. Bayesovsky optimální strategii lze sestrojit bod po bodu nalezením optimálního rozhodnutí pro jednotlivá pozorování x.

Statistické rozhodování: shrnutí Zadány: Množina možných stavů: S Množina možných rozhodnutí: D Ztrátová funkce: zobrazení l : D S R (reálná čísla) Množina možných hodnot příznaku X Pravděpodobnostní rozložení příznaku za daného stavu P (x s), x X, s S. Definujeme: Strategie: zobrazení δ : X D Riziko strategie δ při stavu s S: R(δ, s) = x l(δ(x), s)p (x s) MiniMaxová úloha: Dále zadána: množina přípustných strategíı. Úloha: nalézt optimální strategii δ = arg min δ max s S R(δ, s) Bayesovská úloha: Dále zadáno: pravděpodobnostní rozložení stavů P (s), s S. Dále definujeme: střední riziko strategie δ: r(δ) = s R(δ, s)p (s) Úloha: nalézt optimální strategii δ = arg min δ r(δ) Řešení: δ (x) = arg min d s l(d, s)p (s x)

Příznakové rozpoznávání Systémy pro rozpoznávání. Příklad úlohy: Lze převést na úlohu statistického rozhodování O jakou jde číslici? Příznak = vektor hodnot pixelů. Příznakové rozpoznávání číslic: klasifikace do jedné ze tříd 0... 9 na základě vektoru hodnot pixelů. Speciální případ statistického rozhodování: Příznakový vektor x = (x 1, x 2,... ): hodnoty pixelů č. 1, 2,.... Množina stavů S = množina rozhodnutí D = {0, 1,... 9}. Stav = skutečná třída, Rozhodnutí = rozpoznaná třída. Ztrátová funkce: l(d, s) = Střední riziko = střední chyba klasifikace. { 0, d = s 1, d s

Bayesovská klasifikace Obvyklé kritérium: minimalizace střední chyby Bayesovská klasifikační úloha. Optimální klasifikace při příznaku x: δ ( x) = arg min l(d, s) P (s x) = arg max P (s x) d }{{} s s 0 pokud d=s Voĺıme tedy nejpravděpodobnější třídu pro danou hodnotu příznakového vektoru. Obvykle ale není známo rozložení P (s x). Je třeba odhadnout z trénovacích dat (již klasifikovaných příkladů). Trénovací data (příklady): ( x 1, s 1 ), ( x 2, s 2 ),... ( x l, s l ). Odhad: Zásadní problém příznakové klasifikace: P (s x) počet příkladů v nichž x i = x a s i = s počet příkladů v nichž x i = x Počet příkladů l postačující ke spolehlivému odhadu P (s x) roste exponenciálně s počtem složek vektoru x. tj. např. s rozlišením (počtem pixelů) v rozpoznávaných obrazcích. prokletí kombinatorické exploze. Reálné úlohy: jmenovatel často nulový! Bayesovská klasifikace: horní limit kvality klasifikace, v praxi obvykle nedosažitelný.

Bayesovská klasifikace Lze též využít Bayesova vztahu: P (s x) = P ( x s)p (s) P ( x) Odhad P ( x s): analogicky jako odhad P (s x). Odhad P (s): jako relativní četnost jednotlivých tříd s v trénovacích datech, tj. P (s) P ( x) není třeba odhadovat. Proč? počet příkladů třídy s l Tento přístup sám o sobě neřeší problém množství dat potřebných k odhadu pravděpodobností. Ale umožňuje ho řešit nepřímo: 1. Hodnoty P (s) jsou často explicitně známy a není nutno je odhadovat. Příklad: při rozpoznávání 1. číslice PSČ je nejčastější číslice 1, např P (1) = 0.6. Takto je do klasifikace zapojena apriorní znalost o pravděpodobnostech tříd. P (s)... apriorní pravděpodobnost. 2. Přístup umožňuje formulovat zjednodušenou, tzv. naivní Bayesovskou klasifikaci, v níž nemusíme odhadovat P ( x s), ale pouze P (x(1) s), P (x(2) s),....

Naivní Bayesovská klasifikace Ve výjimečném případě statistické nezávislosti jednotlivých příznakových složek x(i) v rámci každé třídy s platí P ( x s) = P (x(1) s) P (x(2) s)... Stačí tedy odhadnout P (x(i) s) zvlášt pro každé i (a každé s). Např: P (x(3) 8) podíl případů číslice 8 s rozsvíceným 3. pixelem. Žádná kombinatorická exploze (pouze jednosložkové pravděpodobnosti). V praxi: nezávislost se často předpokládá, i když neplatí, příp. platí přibližně. Potom jde o tzv. Naivní Bayesovskou klasifikaci. Často úspěšná metoda. Nezávislost mezi příznakovými složkami je jen jedním z možných předpokladů, jehož splnění vede k zabránění kombinatorické explozi. Alternativní předpoklady jsou např.: Podobné objekty patří do stejné třídy klasifikace dle nejbližších sousedů. Třída je plně určena lineární kombinací složek příznaku klasifikace dle lineárního modelu. Podobně jako u naivní b.k. se metody založené na těchto předpokladech s úspěchem používají, i když jsou předpoklady splněné jen přibližně.

Klasifikace dle nejbližších sousedů Podobnost chápeme jako malou vzdálenost v prostoru příznakových hodnot. Funkce měřící vzdálenost dvou příznakových vektorů, tzv. metrika: ρ : X X R + {0} taková, že x, y, z: ρ(x, x) = 0, ρ(x, y) = ρ(y, x), ρ(x, z) ρ(x, y) + ρ(y, z). Příklad: Euklidovská metrika pro vektory x 1, x 2 se reálnými složkami x 1 (i) resp. x 2 (i): ρ E ( x 1, x 2 ) = i (x 1(i) x 2 (i)) 2 Jsou-li složky binární (z {0, 1}), tak ρ E ( x 1, x 2 ) 2 je počet složek, v nichž se x 1 liší od x 2 - tzv. Hammingova metrika. Zadáno: Klasifikace dle k nejbližších sousedů (k-nearest neighbor classification, k-nn). k ℵ trénovací příklady: ( x 1, s 1 ), ( x 2, s 2 ),... ( x l, s l ) metrika ρ : X X R neklasifikovaný objekt s příznakem x. Úloha: klasifikovat x Postup: z trénovacích příkladů vyber k nejbližších k x vzhledem k metrice ρ. Třída, které mezi nimi převládá, budiž třídou x.

Flexibilita klasifikace Jak volit k? Obecná odpověd neexistuje, záleží na konkrétních datech. Obecný trend: Uvažujme trénovací data se dvěma třídami (červená/zelená) a šumem (některé s i chybné). Značky - trénovací data, křivka - hranice klasifikace: k = 1: Dobré přizpůsobení trénovacím datům. Velká citlivost k šumu. Bayesovská klasifikace: Méně flexibilní než 1-nn, více než 15-nn. k = 15: Špatné přizpůsobení trénovacím datům. Malá citlivost k šumu. Vzpomeňte: Bayesovská klasifikace δ má nejnižší možné střední riziko r(δ ). Pozn.: Znázorněná Bayesovská vychází z přesných pravděpodobností P (s x), které jsou pro klasifikační algoritmus neznámé! Pozorování: příliš velká flexibilita (malé k) i příliš malá flexibilita (velké k) vedou ke klasifikátorům značně odlišným od Bayesovského, tedy ke zvyšování středního rizika r(δ). Podobný trend i klasifikaci založené na modelech (např. polynomiální model flexibilnější než lineární).

Trénovací chyba a střední riziko Střední riziko r(δ) klasifikátoru δ odpovídá relativní četnosti jeho nesprávných klasifikací. Definujme empirické střední riziko r E (δ) (též: trénovací chyba ) jako relativní četnost nesprávně klasifikovaných příkladů v trénovacích datech. Je r E (δ) dobrým odhadem skutečného středního rizika r(δ)? Příklad: 1-nn není dobrý klasifikátor (viz minulou stranu), přestože správně klasifikuje všechny trénovací příklady, tj. má trénovací chybu 0. Trénovací chyba tedy není dobrým odhadem středního rizika. Pro jeho odhad je třeba mít k dispozici trénovací množinu ( x 1, s 1 ),... ( x l, s l ) a nezávislou testovací množinu ( x l+1, s l+1 ),... ( x l+m, s l+m ) (může vzniknout rozdělením původních trénovacích dat např. v poměru 75% a 25%). klasifikátor sestrojit na základě trénovací množiny empirické střední riziko tohoto klasifikátoru spočítat na testovací množině. Empirické střední riziko na testovací množině je nevychýleným odhadem skutečného střední rizika. (Pozor: nevychýlený neznamená přesný!)

(Umělé) neuronové sítě Inspirovány poznatky o neuronech a nervových sítích živých organizmů Schopnost učit se = extrahovat a reprezentovat závislosti v datech, které nejsou zřejmé Schopnost řešit silně nelineární úlohy využití pro klasifikaci, regresi a predikci časových řad Základní výpočetní jednotkou je neuron Řešení problému: Volba typu sítě, metody učení Regularizace - návrh topologie, přizpůsobení sítě složitosti úlohy Učení - automatická optimalizace parametrů (vah) na základě trénovacích příkladů. ξ = n i=1 w ix i θ Sumační potenciál f(ξ) = 1 1+e λξ Aktivační funkce Nervová sít. Model neuronu.

Typy neuronových sítí Různé typy sítí pro různé typ úloh: vícevrstvá perceptonová (MLP) - viz. dále, Hopfieldova - autoasociační, Kohonenovy mapy - samoorganizující se, druh shlukové analýzy RBF (Radial Basis Function),... Autoasociativní pamět. Samoorganizující se mapy.

Perceptron vs. vícevrstvá sít Nejjednodušší dopředná neuronová sít - pouze dvě vrstvy Rosenblatt, 1957 hlavní přínos oproti neuronu je adaptační pravidlo w new = w old + α(out desired out actual )input, α - rychlost učení, konverguje pokud váhy existují Lineární (pro jeden výst. neuron binární) klasifikátor Vhodná demonstrace přechodu od lineární k nelineární klasifikaci Perceptron. Minsky, Papert: Perceptrons, 1969 Zásadní omezení perceptronů, nelze implementovat mj. funkci XOR Řešení až v 80. letech - vícevrstvá sít (navíc skrytá vrstva) Učení algoritmem zpětného šíření (backpropagation) Přirozené rozšíření metody nejmenších čtverců Gradientní optimalizace, chyba je zpětně šířena od výstupů na vnitřní neurony w = η J w, η - rychlost učení, J chybová funkce Aktivační funkcí typicky sigmoida nebo tanh (derivovatelnost)

Perceptron vs. vícevrstvá sít XOR jako vícevrstvá sít. [Duda, Hart, Stork: Pattern Classification].

Nelineární aproximace vícevrstvou sítí Aproximace nelineární funkce MLP sítí s architekturou 2-4-1. Je využito čtyř protilehle umístěných sigmoidálních fcí vnitřních neuronů. [Duda, Hart, Stork: Pattern Classification].

Nelineární aproximace vícevrstvou sítí Složitější architektury mohou implementovat libovolné rozhodovací hranice (nekonvexní, oddělené apod.) [Duda, Hart, Stork: Pattern Classification].