Biologická evoluce versus evoluční systémy: porovnání učení potkana a robota v dynamických prostorových úlohách srovnatelného typu

Podobné dokumenty
Emergence chování robotických agentů: neuroevoluce

Metodika studia chování a paměti u zvířat

ÚLOHY AKTIVNÍHO A PASIVNÍHO VYHÝBÁNÍ SE MÍSTU: SLIBNÉ NÁSTROJE V KOGNITIVNÍCH NEUROVĚDÁCH

Pedagogická psychologie. Klasické teorie učení

Behaviorismus. MUDr. Mgr. Petra Elizabeth Teslíková

Spánek. Neurobiologie chování a paměti. Eduard Kelemen. Národní ústav duševního zdraví, Klecany

Obecná psychologie: základní pojmy

Zápočtový projekt předmětu Robotizace a řízení procesů

5. Umělé neuronové sítě. Neuronové sítě

Obecná a vývojová psychologie. Přednáška č. 1 Co je psychologie? Cíle psychologie. Základní psychologické směry.

Elektrofyziologické metody a studium chování a paměti

Úvod do mobilní robotiky NAIL028

Tento výukový materiál vznikl za přispění Evropské unie, státního rozpočtu ČR a Středočeského kraje. Mgr. Monika Řezáčová

Neuropočítače. podnět. vnímání (senzory)

Kapitola 5. Experimentální modely PTSP

Dějiny psychologie Strukturalismus. pondělí, 14. října 13

Neuroplasticita Celoživotní schopnost nervových buněk mozku stavět, přestavovat, rušit a opravovat svoji tkáň. Celoživotní potenciál mozku

SPECIFICKÝCH MIKROPROGRAMOVÝCH ARCHITEKTUR

Výukové texty. pro předmět. Automatické řízení výrobní techniky (KKS/ARVT) na téma

Implementace A* algoritmu na konkrétní problém orientace v prostoru budov

Projektově orientované studium. Metodika PBL

VY_32_INOVACE_D 12 11

Základní pojmy II. ONTOGENEZE. Ontogeneze = individuální vývin jedince během jeho života

Automatická detekce anomálií při geofyzikálním průzkumu. Lenka Kosková Třísková NTI TUL Doktorandský seminář,

Učení. Klasické podmiňování. Operantní podmiňování. Využití podmiňování v praxi. PaS2 1

Základy společenských věd (ZSV) Psychologie, sociální psychologie a části oboru Člověk a svět práce 1. ročník a kvinta

individuální TRÉNINKOVÝ PROFIL

Algoritmy a struktury neuropočítačů ASN - P10. Aplikace UNS v biomedicíně

Elektrofyziologické metody a studium chování a paměti

Využití neuronové sítě pro identifikaci realného systému

Spectral Analysis System Sport Assessment System

VÝBĚR A JEHO REPREZENTATIVNOST

RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr.

KOGNITIVNĚ BEHAVIORÁLNÍ. Psychiatrická léčebna Kroměříž

Role experimentu ve vědecké metodě

SYSTÉMOVÁ METODOLOGIE (VII) Kybernetika. Ak. rok 2011/2012 vbp 1

Kurz psychologie a sociologie na FSV

OSA. maximalizace minimalizace 1/22

Dějiny psychologie. B e h a v i o r i s m u s I

Ošetřovatelský model dle Royové a jeho využití v praxi (Adaptační model) DANA DOLANOVÁ

Obecná psychologie. Kurz pro zájemce o psychologii 16/3/2013

Moderní systémy pro získávání znalostí z informací a dat

Název: Etologie. Autor: PaedDr. Pavel Svoboda. Název školy: Gymnázium Jana Nerudy, škola hl. města Prahy. Předmět, mezipředmětové vztahy: biologie

Systémové modely Callista Roy Adaptační model. Markéta Vojtová VOŠZ a SZŠ Hradec Králové

Kapacita jako náhodná veličina a její měření. Ing. Igor Mikolášek, Ing. Martin Bambušek Centrum dopravního výzkumu, v. v. i.

PROGRAMOVÁNÍ ROBOTŮ LEGO MINDSTORM S VYUŽITÍM MATLABU

Spánek. kurz Neurobiologie chování a paměti. RNDr. Eduard Kelemen, Ph.D. Národní ústav duševního zdraví Fyziologický ústav AVČR

Úloha - rozpoznávání číslic

ŘIDIČSKÝ SIMULÁTOR CDV

Ekologická společenstva

VYUŽITÍ SNÍMACÍCH SYSTÉMU V PRŮMYSLOVÉ AUTOMATIZACI SVOČ FST 2019

jednoduchá heuristika asymetrické okolí stavový prostor, kde nelze zabloudit připustit zhoršují cí tahy Pokročilé heuristiky

Abychom obdrželi všechna data za téměř konstantních podmínek, schopných opakování:

11. Tabu prohledávání

Studie webů automobilek

Struktura e-learningových výukových programù a možnosti jejího využití

Paměť. u lidí, neuropsychologie paměti. 20. dubna 2010

Pokročilé operace s obrazem

Hodnocení kvality logistických procesů

Zpráva o výsledcích dotazníkového šetření Škola a já

Teorie sociální identity a teorie sebekategorizace

Člověk a společnost. 10. Psychologie. Psychologie. Vytvořil: PhDr. Andrea Kousalová. DUM číslo: 10. Psychologie.

SLAM. Simultaneous localization and mapping. Ing. Aleš Jelínek 2015

KET/ZPI - Zabezpečení podnikových informací

4. Napjatost v bodě tělesa

Usuzování za neurčitosti

MATEMATICKÁ TEORIE ROZHODOVÁNÍ

Kategorie vytvořené na základě RVP a projektu Evaluace inf. gramotnosti žáků ZŠ.

ROZHODNUTÍ EVROPSKÉ CENTRÁLNÍ BANKY (EU)

OBSAH. 1. ÚVOD il 3. MOZEK JAKO ORGÁNOVÝ ZÁKLAD PSYCHIKY POZORNOST 43

Obchodní akademie a Jazyková škola s právem státní jazykové zkoušky Jihlava. Šablona 32 VY_32_INOVACE_299.PSY.23 Dějiny psychologie 1_prezentace

STATISTICKÝ SOUBOR. je množina sledovaných objektů - statistických jednotek, které mají z hlediska statistického zkoumání společné vlastnosti

Bakalářský studijní obor informatika

OSOBNOSTNÍ FAKTORY OVLIVŇUJÍCÍ PROCESY UČENÍ. Psychologie výchovy a vzdělávání

RESEARCH REPORT. Petr TICHAVSKÝ, ÚTIA AVČR Tomáš SLUNÉČKO, ZD RPETY DAKEL Marie SVOBODOVÁ, UJP Praha a.s. Tomáš CHMELA, UJP Praha a.s.

Psychologický seminář 4. ročník

Didaktické metody Metodou

HODNOCENÍ ROZDÍLNÝCH REŽIMŮ PŘI PROCESU SPALOVÁNÍ

Psychologie, sociální psychologie a části oboru Člověk a svět práce. PC, dataprojektor, odborné publikace, dokumentární filmy

Kybernetika a umělá inteligence, cvičení 10/11

Vyšší odborná škola a Střední škola Varnsdorf, příspěvková organizace. Šablona 13 VY 32 INOVACE

S = C S 4K 4 C_ C UPS P ; S 1 = ; 1 = 2F

CHARAKTERISTIKA PŘEDMĚTU INFORMATIKA (4 leté studium)

Konzumace piva v České republice v roce 2007

XD16MPS Manažerská psychologie pro kombinované studium. Úvod do manažerské psychologie Předmět, význam, vývoj

INFORMAČNÍ MODEL ČLOVĚKA

2. Kinematika bodu a tělesa

TRÉNINK KOGNITIVNÍCH FUNKCÍ V CEREBRU. Bc. Štěpánka Prokopová ergoterapeutka

Customer Intelligence, aneb Jak může neoblíbená analýza dat usnadnit práci marketingu

Inteligentní systémy a neuronové sítě

MEZIROČNÍ POSUN VE ZNALOSTECH ŽÁKŮ 2005/ /12

Pedagogická psychologie - vědní disciplína, vznikla v 80. letech 19. století, zabývá se chováním, prožíváním člověka v procesu vzdělávání

Modelov an ı biologick ych syst em u Radek Pel anek

Ambasadoři přírodovědných a technických oborů. Ing. Michal Řepka Březen - duben 2013

Algoritmizace diskrétních. Ing. Michal Dorda, Ph.D.

Zpětnovazební učení Michaela Walterová Jednoocí slepým,

Základní buněčné a fyziologické mechanismy paměti. MUDr. Jakub Hort, PhD. Neurologická klinika UK, 2.LF a FN Motol

Jejich účelem je uvolnění potenciálu, který v sobě ukrývá spojení racionálního a emocionálního myšlení.

Hodnocení a klasifikace při výuce F na SŠ. Jiří Tesař

PaedDr. Lenka Dohnalová RNDr. Tomáš Fürst, PhD. Katedra Hv PdF UP Olomouc

Transkript:

Biologická evoluce versus evoluční systémy: porovnání učení potkana a robota v dynamických prostorových úlohách srovnatelného typu Petr Telenský 1,3, Pavel Jiroutek 2*, Jan Svoboda 1,4, Karel Blahna 1,3 a Jan Bureš 1,4 1 Fyziologický ústav Akademie věd České republiky Vídeňská 1083, 142 20 Praha 4 2 Kabinet software a výuky informatiky, MFF UK Malostranské nám. 25, 118 00 Praha 1 3 Katedra zoologie, PřF UK Viničná 7, 128 00 Praha 2 4 Centrum neuropsychiatrických studií telep@centrum.cz; pavel.jiroutek@seznam.cz Abstrakt Schopnost adaptivně reagovat na proměnlivé podmínky dynamicky se měnícího prostředí je vlastností, kterou nacházíme u přirozených i umělých "inteligentních systémů". Naše práce porovnává učení se živých (potkan) a neživých (autonomní mobilní robot řízený evolučním systémem) objektů ve stejném typu prostorových úloh. Výsledky získané "výcvikem" potkanů resp. robota budou pojednány ve zvláštních kapitolách. Část první: Plody evoluce biologické aneb prostorové učení a paměť živočichů 1 Úvod V počátcích výzkumu učení a paměti u zvířat měla obrovský vliv práce vynikajícího ruského psychologa a laureáta Nobelovy ceny Ivana Petroviče Pavlova 1. (1849-1936). Ve svých notoricky známých experimentech se psy (Pavlov a Anrep, 1927) postuloval základní principy toho typu učení, který dnes označujeme jako klasické nebo pavlovovské podmiňování. Při něm se * Autorský přínos prvních dvou autorů je rovnocenný. 1 Přestože je Pavlov vnímán především jako průkopník výzkumu v oblasti, kterou bychom dnes označili jako neurovědy, Nobelovu cenu dostal za prohloubení poznání ve "fyziologii zažívání". zvířata nebo člověk naučí asociovat dva či více podnětů. Je-li jeden z podnětů (nepodmíněný podnět, dále jen US - uncoditioned stimulus) vázán na nepodmíněnou odpověď (UR - unconditioned response) a US je asociován s jiným podnětem (podmíněný podnět, CS), pak CS vyvolává stejnou odpověď - v tomto případě jde však již o odpověď podmíňenou (CR). Pro stručné shrnutí Pavlovových experimentů viz obrázek 1. nepodmíněný podmíněný podnět žrádlo zvukový signál odpověď slinění Fig.1. Podmíněný a nepodmíněný podnět / odpověď v Pavlovových experimentech. Zjednodušené schéma. Pavlovova práce inspirovala amerického psychologa Johna Broaduse Watsona (1878-1958), který prosazoval přístup označovaný jako behaviorismus. Watson byl přesvědčen, že jedinou smysluplnou metodou v psychologickém výzkumu je zkoumání chování živočichů. Kritizoval strukturalistický přístup v psychologii, který využíval jako experimentální metodu introspekci. Zkoumání vědomí a vnitřních mentálních procesů považoval za bezvýznamné. Zdůrazňoval roli pavlovovského podmiňování a veškeré chování považoval za naučené a veškeré učení vysvětloval právě na principu Pavlovových podmíněných reflexů (viz např. Watson, 1913). Pro tento pohled se Watsonův přístup někdy označuje jako S-R paradigma (stimulus - response). Pozdější, umírněnější přístup, zvaný

metodologický behaviorismus, jehož představitelem je například i velký kritik "starého" behaviorismu (viz např. Tolman, 1922) Edward Chace Tolman (1886-1959) uznával sice studium chování jako jedinou či nejvhodnější metodu výzkumu v psychologii, avšak s tím že studiem chování se lze dobrat pochopení vnitřních procesů. Behaviorální odpověď totiž nemusí být přímou reflexní reakcí na podnět, ale může být vnitřními procesy (myšlením) adaptována. Takový přístup se někdy označuje S-O-R (stimulus-organism-response). Watsonův žák, Burrhus Frederic Skinner (1904-1990), zakladatel směru dnes nazývaného radikální behaviorismus, uplatňoval koncepci operantní odpovědi. V jeho pokusech byla zvířata odměňována za určitou operaci - zpravidla stisknutí páčky v pokusném boxu (později na počest svého vynálezce přejmenován na Skinnerův). Skinner si povšiml, že potkan, je-li k tomu donucen, dovede páčku stisknout mnoha různými způsoby - např. libovolnou končetinou nebo dokonce kořenem ocasu, což je v rozporu s Watsonovým pojetím. V souladu s ním by totiž podmíněnou odpovědí mohl být pouze konkrétní motorický program, například stisknutí páčky pravou hrudní končetinou. Termín operantní odpověď tedy odkazuje na celou třídu úkonů, které mohou mít sice různé provedení, ale z funkčního hlediska jsou rovnocenné. Dalším Skinnerovým přínosem byla jasná definice pojmu posílení (reinforcement) v učení, který zavedl již Thorndike (1910). Místo Thorndikeovy poněkud mysteriózní a nejasné specifikace tohoto pojmu z hlediska prožívání, nabídl Skinner zcela srozumitelnou definici behaviorální: posílením je vše, co zvíře motivuje ke změně frekvence behaviorálních odpovědí (Skinner, 1937). během předchozího tréninku vybudovali určitou znalost prostředí - kognitivní mapu, která jim později pomohla najít co nejkratší cestu k cíli. To je opět v rozporu s klasickým behavioristickým S-R učením, který Tolman vtipně přirovnává k telefonní ústředně. Zvíře nebylo za nalezení nejkratší cesty při tréninku průběžně odměňováno. Jak pak můžeme z hlediska Watsonova behaviorismu objasnit toto latentní učení? Fig 2. Šestiramenné bludiště z Blodgettova experimentu (1929). 1.1 Koncepce kognitivní mapy E. C. Tolmana Tolmana nejprve zaujalo Lashleyho pozorování, že potkani vypuštění do radiálního bludiště občas stěny chodbiček přelezou a vydají se k cíli (chodbičce na jejímž konci je žrádlo) zkratkou. Uvědomil si, že schopnost nalezení dosud neznámé zkratky je v rozporu s behavioristickým S-R systémem. Kde by se mohl potkan takovéto zkratce naučit? Poté studoval starší experimenty, např. Blodgettův pokus s latentím učením (Blodgett, 1929). Blodgett měl tři skupiny zvířat, které učil běhat v šestiramenném bludišti (obr. 2). Skupina I. byla kontrolní skupinou, která při každém opakování experimentu nacházela v cílové oblasti jídlo. Potkani tedy byli od začátku tréninku motivováni, aby bludištěm prošli co nejrychleji až k cíli. Nemotivovaní potkani totiž v bludišti s chutí explorovali. Ve skupině II. bylo jídlo dodáno až sedmý, ve skupině III. třetí den. Křivky učení (nebo spíše křivky "chybování") ukazuje obr. 3. Tolman tyto výsledky interpretuje tak, že potkani skupin II. a III. si Fig. 3. Výsledky Blodgettova experimentu. Na ose x jsou jednotlivé tréninkové dny, osa y reprezentuje počet chyb. Křížkem označený je den, kdy potkani začali dostávat žrádlo. Plná čára = skupina I., čárkovaná čára = skupina II. a tečkovaná = skupina III. Povšimněte si, jak křivka u skupin s latentním učením (II. a III.) okamžitě klesá hned druhý den po uvedení potravní motivace, zatímco rychlost poklesu počtu chyb u kontrolní skupiny je kontinuální (Blodgett, 1929). Honzik a Tolman tyto experimenty zopakovali se čtrnáctiramenným bludištěm a dosáhli obdobných výsledků (Tolman, 1948). Schopnost potkanů najít nejvhodnější cestu k cíli v situaci, se kterou se nemohli dosud setkat, svědčí o použití mnohem obecnější a

pružněji použitelné znalosti topografie prostředí, než byli Tolmanovi předchůdci ochotni zvířatům přiznat. 1.2. Hipokampus jako kognitivní mapa Počátkem sedmdesátých let minulého století došlo na poli výzkumu navigačního chování zvířat k pozoruhodnému objevu. V potkaním hipokampu, fylogeneticky starobylé struktuře koncového mozku (u člověka ukryté v hloubi spánkového laloku) bylo pozorováno velmi zvláštní chování pyramidových neuronů. Tyto takzvané místní buňky vykazovaly neobyčejně nápadnou prostorovou specifitu (O Keefe a Dostrovsky 1971). Toto zjištění, spolu s daty, která ukazovala na zhoršení navigačních schopností zvířat po hipokampálních lézích, dala vzniknout teorii hipokampální kognitivní mapy (O`Keefe a Nadel 1978). Hipokampus je podle ní neurálním substrátem vnitřní reprezentace prostředí, jakousi mapou, která zachycuje prostorové vztahy mezi jednotlivými místy a umožňuje zvířeti rozpoznat svoji pozici ve vztahu k nim 2. Díky tomu zvíře může efektivně "vymýšlet" zkratky, objevovat nové cesty k cíli, či nejobecněji řečeno, najít správnou cestu od jakéhokoli místa na mapě k jakémukoli jinému (Gallistel 1990, str.154). Takto definovaná reprezentace tedy odpovídá Tolmanově představě kognitivní mapy a nalezení jejího neurofyziologického podkladu způsobilo jistý zvrat - behaviorální studie mohly být nyní obohaceny o dobře korelovatelná elektrofyziologická data, což podnítilo stále trvající intenzivní výzkum. Představu, že hipokampus je neurálním substrátem kognitivní mapy prostředí však podporují i další poznatky. Potkani s bilaterální lezí hipokampu nedovedou například najít ostrůvek v Morrisově vodním bludišti (Morris 1982). Pro selhání v úloze AAPA (viz dále, Cimadevilla et al. 2001), ve které dochází k disociaci prostoru na dva navigační rámce, pak stačí již leze unilaterální. Blízce příbuzné druhy či dokonce příslušníci odlišných pohlaví se mohou lišit ve velikosti hipokampu, jsou-li ve své "life-history" vystaveni různým nárokům na znalost topografie prostředí. U některých druhů patrně dochází i k sezónním změnám objemu hipokampu. Narůstá v rozmnožovacím období, kdy se zvyšuje prostorová aktivita zvířat (Jacobs 1996). Také krkavcovití pěvci, kteří si ukládají potravu do skrýší (food storing) mají tuto mozkovou strukturu zvětšenu ve srovnání se svými méně šetrnými příbuznými (Basil et al 1996). Tentýž nález byl učiněn i u londýnských taxikářů, jejichž 2 Tato mapa je však (narozdíl např. od reprezentace senzoricko - motorických funkcí v mozkové kůře) netopologická. Dvě sousedící místní buňky mohou se stejnou pravděpodobností kódovat blízká i vzdálená aktivní místa (např. O Keefe et al. 1998, O Keefe 1999). hipokampus se odlišuje od zbytku britské populace (Maquire et al 2000). 1.2.1 Místní buňky v hipokampu potkana Místní buňky jsou pyramidové neurony hipokampu, které zvyšují svou aktivitu (frekvenci akčních potenciálů) tehdy, vyskytuje-li se jejich majitel v určité části prostoru, která je pro danou buňku specifická 3. Tyto oblasti proto označujeme jako aktivní místa příslušných neuronů. Nevelký soubor těchto buněk může svými aktivními místy "pokrýt" celý zvířeti dostupný prostor (např. plochu pokusné arény či bludiště). Na kognitivní mapě určitého prostředí se podílí asi 30% místních buněk (Wilson a McNaughton 1993). Nastane-li dostatečně významná změna prostředí (někdy stačí i změna v motivaci chování), dojde k "instalaci" nové mapy. Systém zvolí jiný soubor místních buňek, ve kterém může mít buňka z předchozí "instalace" zcela jiný význam. 1.2.2 Funkce hipokampu u člověka Již kolem roku 1900 vynikající ruský lékař a psychiatr Vladimir Bechtěrev 4 upozorňoval na význam lidského hipokampu pro paměť. Navzdory tomu jej však ještě v roce 1937 známý neuroanatom James Papez považoval (jakožto součást limbického systému) za strukturu uplatňující se především v prožívání emocí a mimovolních stavů mysli. Tato dlouho přetrvávající představa se však později ukázala být nesprávnou. Klíčová událost pro poznání funkce lidského hipokampu nastala v roce 1953, kdy Dr. William Beecher Scoville provedl poněkud riskantní experimentální operaci. Pacientovi, který později vstoupil do dějin medicíny a kognitivních věd pod iniciálami H.M., bilaterálně odňal mediální část spánkového laloku včetně hipokampu, většiny parahipokampálního gyru a amygdaly. Do těchto míst byla totiž předběžným vyšetřením lokalizována epicentra epilepsie, která pacienta dlouhou dobu značně zužovala, a kterou tehdy nebylo možné efektivně léčit medikamenty. Po operaci, 3 Nelze ovšem předpokládat, že každá oblast prostoru je "rozpoznávána" jen jedinou buňkou. Při celkovém počtu pyramidových neuronů v hipokampu by, nehledě na zranitelnost systému, bylo zachycení takových unikátů měřícími elektrodami prakticky vyloučené. I když je zpravidla zachycena jedna buňka reagující na dané místo, je velmi pravděpodobné, že na něj reaguje ve skutečnosti mnohem více neuronů. 4 Bechtěrev byl osobním lékařem Lenina. Později zemřel za nevyjasněných okolností - spekuluje se, že se stal obětí Stalinovy osobní msty poté, kdy krutovládce diagnostikoval coby těžkého paranoika. Je po něm pojmenována atrofická spondylitida, známá jako Bechtěrevova choroba.

která skutečně vedla k výraznému snížení frekvence výskytu epileptických záchvatů, se však u H.M. projevily kruté vedlejší následky: pacient utrpěl vážné poškození dlouhodobé paměti, takže nebyl schopen konsolidace nových dlouhodobých paměťových stop (Scoville a Milner 1957). Jeho krátkodobá paměť, inteligence i osobnost zůstaly nenarušeny. Později se ukázalo, že porucha se týká pouze epizodické paměti, procedurální i sémantická paměť byly (přes citelné zhoršení zejm. sémantické paměti) i nadále funkční (viz např. Corkin 2002, O Kane et al 2004). H.M. dokonce po nápovědě dokáže správně doplnit jména osobností, které se proslavily až po osudné operaci - vzpomněl si na jména Beatles i J.F: Kenedyho. Tuší, že herec Reagan byl také prezidentem. Dokáže se zdokonalovat v manuálních činnostech, nikdy si však nepamatuje, že se jim kdy učil. Především díky H.M. dnes víme, že lidský hipokampus je nezbytný pro vytváření nových epizodických vzpomínek. 1.2.3 Může hipokampus potkana kódovat i jinou než jen prostorovou informaci? Místní buňky mohou kromě poselství "teď jsi tady" nést i určitou doplňující informaci. Frekvence akčních potenciálů místních buněk v řadě experimentů koreluje s rychlostí pohybu zvířete aktivním místem (Wiener et al. 1989, Czurkó et al. 1999, O Keefe 1999, Zhang et al. 1998). Některé místní buňky - takzvané misplace cells - jsou aktivní jen tehdy, pokud zvíře čenichá v aktivním místě (O Keefe a Nadel 1978). Jiné misplace cells se aktivují jen tehdy, když potkan nalezne v jejím aktivním místě nový, neznámý předmět, nebo naopak nenalezne předmět, který zde očekával (O Keefe a Nadel 1978, O Keefe 1999). Místní buňky mohou za určitých podmínek také vykazovat směrovou specifitu (podobně jako tzv. neurony směru hlavy) - jsou-li snímány u zvířete, jehož pohyb je omezen do jediného nebo několika málo směrových koridorů, jsou zpravidla činné, jen pokud zvíře prochází aktivním místem v určitém směru (McNaughton et al. 1983, Muller et al. 1994, O Keefe 1999). Stejná místní buňka se tak může na volném prostranství chovat jako směrově nezávislá a v radiálním bludišti jako směrově specifická (Muller et al. 1994). Chování místních buňek může být někdy také modifikováno předchozí zkušeností či očekávanými událostmi (Wood et al. 2000). V současné době probíhá na poli hipokampálního výzkumu spor mezi zastánci teorie hipokampální kognitivní mapy (O Keefe a Nadel 1978) a teorií relační reprezentace (Cohen a Eichenbaum 1993, Wallenstein 1998). Teorie hipokampální mapy chápe význam hipokampu pro epizodickou paměť u člověka tak, že až později v evoluci na cestě k člověku došlo k adici časového aspektu k reprezentaci prostorové mapy (O Keefe a Nadel 1978, pro přehled viz také Wood 2003). Naproti tomu teorie relační reprezentace říká, že hipokampus ve skutečnosti reprezentuje nejrůznější typy vztahů v prostředí a existenci hipokampální prostorové mapy u potkanů chápe jen jako zvláštní případ relační reprezentace. Tento názor však zatím dostatečně nepodporují data, kde by byl jasně prokázán vztah mezi hipokampální inaktivací či lézí a ztrátou nějaké neprostorové schopnosti, která by "relační mapu" vyžadovala (O Keefe 1999). 1.3 Navigace ve vícečetných referenčních rámcích V bludištích "klasického typu" (pasivní bludiště se suchým povrchem) se může zvíře orientovat pomocí dvou souhlasných soustav orientačních bodů. S výhodou využije jak blízkých orientačních bodů zpravidla vázaných na substrát, po kterém se pohybuje, tak vzdálených bodů, kterými mohou být např. součásti vybavení pokusné místnosti. Zatímco orientace pomocí blízkých orientačních bodů je relativně snadná, navigace k neoznačenému místu pomocí vzdálenějších bodů klade vyšší kognitivní nároky: je třeba odhadnout úhel a vzdálenost od několika takových bodů současně. Toho využívá Morrisovo vodní bludiště, které je tvořené kruhovým bazénkem vyplněným zakalenou vodou. Takové prostředí na substrát vázaným orientačním bodům nepřeje a zkoumaný živočich - zpravidla hlodavec - se musí spolehnout na orientační body, které mu poskytuje místnost (obr. 4). Fig 4. Morrisovo vodní bludiště. Potkan hledá ostrůvek skrytý pod hladinou (vyznačen tečkovaně). Jediným vodítkem mu přitom mohou být vzdálené orientační body ležící mimo vodní nádrž (znázorněny nad bludištěm).

Novější úlohy, jako AAPA (viz např. Fenton et al. 1998), však uvádějí obě soustavy orientačních bodů do rozporu pomalým otáčením pokusné kruhové arény. Tím dochází k disociaci prostoru na dvě nezávislé vztažné soustavy (referenční rámce). Disociace prostoru se projeví i v činnosti místních buněk. V takových úlohách mohou některé místní buňky reprezentovat pozici zvířete v soustavě místnosti a jiné zas v rámci rotující arénky (Zinyuk et al. 2000). V "úloze dvojitého vyhnutí" (Fenton et al. 1998) pak byla demonstrována schopnost potkanů orientovat se současně ve dvou referenčních rámcích. Obdobná schopnost je vlastní i nám: řídíme-li automobil, náš mozek musí zvládat současně orientaci v terénu i uvnitř vozu. K obdobnému typu disociace vnímání prostoru však dochází také v prostředí obohaceném o pohybující se prvky. Taková disociace uvádí do rozporu vztažnou soustavu prostředí s objektově orientovaným (polárním) referenčním rámcem pohybujícího se objektu, který je v přírodě nejčastěji představován intra- a interspecifickými (zejm. predátor či kořist) jedinci. Této situaci odpovídá i behaviorální úloha, kterou v této práci představujeme. Její vývoj pro "zvířecí" část tohoto příspěvku byl motivován mimo jiné snahou pochopit, jakým způsobem se hipokampální formace podílí na řešení problémů z výše uvedené situace vyplývajících. 2 Metodika a materiál Prezentovaná experimentální práce sestává ze dvou behaviorálních testů obdobného typu. V úloze nazvané "vyhýbání se nepříteli" (Enemy Avoidance Task, EAT) měl potkan "za úkol" vyhýbat se druhému potkanovi na kruhové arénce (d=85 cm) ohraničené papírovou stěnou (obr. 10 dole). K tomu byl motivován slabou elektrickou rankou, kterou obdržel tehdy, přiblížilli se ke svému "nepříteli" na vzdálenost menší než 25 cm. Nad pokusnou arénou je umístěno krmítko, ze kterého v pravidelných intervalech náhodným směrem vypadávají drobné kuličky potravy. Mají tak posílit motivaci potkana k pohybu po celém povrchu arény. V úloze "vyhýbání se robotovi" (Robot Avoidance Task, RAT) byl potkannepřítel nahrazen samočinným mobilním robotem. Robot se pohybuje rovnoměrně přímočaře dokud nenarazí na stěnu arény. Poté čeká asi 15 s, následně se od stěny oddálí, otočí o náhodně zvolený úhel a opět se rovnoměrným přímočarým pohybem vydává vstříc dalšímu nárazu. Jednotlivý experiment trvá 20 minut. Subjekt i "nepřítel" mají na zádech infračervené diody různé velikosti, jejichž obraz je snímán kamerou a každých 20 ms vyhodnocován počítačem, který z něj extrahuje souřadnice obou jedinců. Je-li splněno kritérium pro elektrickou ranku, aktivuje se šokovací zařízení. Jeho elektrody tvoří kovová podlážka arény a konektor připojený na elektricky vodivou kotvičku, implantovanou pod kůží potkana. Záznamy o pozici obou jedinců byly uchovány pro následnou off-line analýzu. Před vlastní "fází učení", při které byly udělovány elektrické ranky, absolvovala zvířata několikadenní "habituační fázi" bez ranek (ostatní podmínky pokusu byly stejné). 3 Vybrané výsledky Záhy po zavedení el. ranek všichni subjekti (zde varianta EAT) úlohy reagovali sníženou pohybovou aktivitou a přesunutím se do periferní oblasti arény neboli thigmotaxí (viz obr. 5, 7A, 8A). Ačkoli je tato strategie velmi účinná, není jedinou změnou chování fokálních jedninců, která vedla ke snížení počtu ranek (obr. 6A, B). Experimenty s robotem přinesly obdobné výsledky. Jejich nezadatelnými výhodami však je výrazné urychlení dosažení asymptotické hodnoty výkonů v tréninkové fázi (obr. 9) i minimalizace počtu ranek, které zvíře dostává. 100 90 80 70 60 50 40 30 20 10 0 last tr Setrvání v periferii [% času] predátor kořist 1 2 3 4 10 11 12 13 14 15 16 17 18 19 20 21 Fig. 5. Obrázek ukazuje procentuální zastoupení času stráveného na vnější polovině povrchu arény. Světlá linie patří subjektům (n=5), tmavá linie pak simulovanému nepříteli. Prvním znázorněným pozorováním je poslední experiment habituační fáze. Již první den "ostrého" tréninku se u subjektů výrazně zvýšila afinita k okraji arény.

1000 A celkový čas strávený v trestané vzdálenosti [s] 800 600 400 200 0 0.0 4.5 8.9 13.4 17.9 22.4 26.8 31.3 35.8 40.2 vzdálenost od středu arény [cm] 200 B čas strávený v trestané vzdálenosti [s] 150 100 50 0 0 - bez zpoždění 10 20 30 zpoždění trajektorie subjektu [s] Fig. 6. Čas (±SEM) strávený pod kritickou hranicí 25cm (úměrný počtu ranek) v modelové situaci, kdy: A - simulovaný subjekt je po celých 20min. na stejném místě. Graf ukazuje závislost času stráveného pod 25cm na vzdálenosti tohoto místa od středu arény. Patrně vrozená thigmotaxe se tak jeví jako vysoce adaptivní, i když nevysvětluje úbytek ranek zcela. Přerušovaná linie ukazuje průměrnou hodnotu času stráveného pod kritickou vzdáleností u naučených zvířat. B - trajektorie subjektu byla zpožděna vůči trajektorii nepřítele. Nárůst času v závislosti na stupni zpoždění ukazuje, že nejen celkový modus chování (thigmotaxe), ale i akutní prostorová reakce na přiblížení nepřítele vedla k snížení počtu ranek. (podle Telenský et al. 2005)

A B 30 25 20 15 10 5 0 5 101419242934384348535863677277828791 Fig. 7. A: Typický diagram pokrytí arény během posledního dne habituační fáze. Černě je vyznačen budoucí subjekt, šedě budoucí "nepřítel". B: Histogram času stráveného v různých vzdálenostech od budoucího "nepřítele" během habituační fáze. Světlejší barvou je zvýrazněna oblast, která byla v tréninkové fázi trestána elektrickou rankou. Odpovídá přirozenému chování zvířat.

A B 30 25 20 15 10 5 0 5 1016212631364147525762677378838893 Fig. 8. A: Pokrytí arény naučeným subjektem (22. den) je poznamenáno výraznou thigmotaxí. B: Distribuce pobytu téhož zvířete v jednotlivých vzdálenostech od nepřítele.

počet šoků na jednotku ušlé dráhy [relativně v % hodnoty z 1. dne] 100 80 60 40 20 0 Křivky učení 1 2 3 4 5 6 7 tréninkové dny hipokampu tetrodotoxinem vede u naučených zvířat k výraznému zhoršení výkonnosti (nikoli na úkor celkové aktivity). K plnému pochopení jeho role i úlohy ostatních mozkových struktur v této problematice však bude třeba značné množství další experimentální práce. Jinými možnými výstupy této metody jsou studium modifikace sociálních struktur u zvířat (je možné začlenit více zvířat a přidělit jim různé "role") a souvisejících neurofyziologických mechanismů či (zatím jen ve fázi úvah) možnost kvantifikace kognitivního deficitu u animálních modelů psychiatrických onemocnění, např. schizofrenie nebo Alzheimerovy demence. Fig. 9. Křivky učení. Graf vyjadřuje relativní podíl počtu elektrických ranek a ušlé vzdálenosti. Strmost křivky vyjadřuje efektivitu učení. Křivka je sestavena z průměrných výsledků všech zvířat zúčastněných v příslušném experimentu. Zvířata v úloze RAT dosáhla asymptotické hodnoty výkonů 7.den, v úloze EAT kolem 22. dne (není znázorněno). (podle Telenský et al. 2004) 4 Diskuse Pro tuto kategorii úloh (EAT i RAT) je typické "dvoufázové řešení" - potkani se nejprve uchýlí na periferii arény a svůj výkon postupně ještě zdokonalují tím, že se naučí dodržovat dostatečnou vzdálenost od nepřítele (obě extrémní fáze viz obr. 7B a 8B). Thigmotaxe se zpravidla považuje za vrozenou anxiózní reakci (Simon 1994). Setkáváme se s ní například i v prvních trénincích v Morrisově vodním bludišti (Hodges 1996), které pracuje rovněž s averzivní motivací. V tomto případě však není kroužení při stěnách adaptivním řešením (ostrůvek se většinou nenalézá při okraji) a potkani jsou nuceni (a hlavně schopni!) jej opustit. Navíc předchozí habituace na plavání thigmotaktickou reakci ve vodním bludišti snižuje (Beiko 2004). V naší úloze je ale velmi výhodná (obr. 6A), nastává po týdenní habituační fázi (ve které se neprojevuje) a v tréninkové fázi není opuštěna ani po mnoha sezeních (obr. 8A). Podobné chování rychle generuje také robot. To vše dává prostor k úvahám, že thigmotaxe v tomto případě může být nikoli jen čistě anxiózní reakcí, ale snad i účelnou kognitivní adaptací. Důležitým posláním těchto úloh mělo být pochopení významu hipokampu pro orientaci v prostředí obohaceném o pohybující se objekty. Naše dosud nepublikované experimenty (na semináři budou podrobněji prezentovány ústně) ukázaly, že inaktivace

Část druhá: Evoluční systémy 5 Úvod Cílem evolučního robotického systému popsaného v této práci je umožnit porovnání procesu učení a naučených schopností potkana a mobilního robota. Existují úlohy pro testování laboratorních potkanů, které mohou být podobně definované i pro svět mobilních robotů. Tato část se bude zabývat učením robota metodami evoluční robotiky. V následujících částech budou popsány základní komponenty adaptabilního robotického systému, jehož výkonnost bude prezentována na výsledcích praktických experimentů. Pokusíme se najít podobnosti v pohybu potkana a robota v čem se obě "platformy" liší a v čem shodují. Výsledky budou porovnány vzhledem ke kvalitě a průběhu adaptace na zadaný úkol. V závěru práce bude na dalších úlohách ukázána univerzalita a meze systému. Prvním krokem zkoumání adaptace robota a potkana bylo vybrání vhodné úlohy. Na tuto úlohy byly kladeny následující požadavky: Úloha musí být snadno popsatelná jak pro robota, tak pro potkana. Neměla by přímo zvýhodňovat některého z obou jedinců. Úloha by měla být snadno modifikovatelná. Na variantách základní úlohy by měla být úkázána univerzalita adaptabilita jedinců. Použitý mobilní robot měl splňovat tyto požadavky: Robot by měl mít o úloze a průběhu experimentu podobné informace jako potkan. Cílem není konstrukce robotického hardware a zpracování informací ze senzorů robotem tak, aby bylo dosaženo podobných vstupů, jaké má potkan. Hlavní důraz je kladen na návrh vysokoúrovňového ovládacího systému robota, který má-li k dispozici předzpracované údaje ze senzorů je schopen adaptace na danou úlohu. Proto byly informace o průběhu experimentu (omezené na vjemy, které se předpokládají u potkana) zprostředkovány robotovi z vnějšku a robot si je nemusel opatřovat sám. Konkrétní vjemy robota budou popsány v dalším textu. Testovací prostředí se skládá z pevně umístěné kamery, která získává informace o průběhu experimentu, a bezdrátového komunikačního systému, který přenáší tyto informace do robota. Robot je během experimentu plně autonomní. Operátor nemůže ovlivňovat průběh testu a proces adaptace robota na danou úlohu. Potkan se zadanou úlohu učí ve 20 reálných testech, kde každý trvá 20 minut. Aby bylo učení robota porovnatelné, rozhodli jsme se nepřekročit toto omezení. 6 Porovnávaná úloha Úloha, kterou jsme vybrali k porovnání potkanů a robotů, je následující. Testovací prostředí se skládá z kruhové arény (průměr 0,85 m), kořisti a predátora. Predátor je jednoduchý mobilní robot, který se po aréně pohybuje náhodně po přímých trajektoriích. Náhodně mění svůj směr po kolizi s mantinelem arény. Kořist je buď potkan, nebo další mobilní robot (v dalším textu ho budeme označovat jako RoboKrysa). Úkolem kořisti je vyhýbání se predátorovi. Dostane-li se kořist příliš blízko predátorovi (blíže než 0,25 m), dostane jako trest slabý elektrický šok. Kořist je motivována k pohybu malým množstvím potravy, která pravidelně dopadá do náhodných částí arény. Experiment trvá 20 minut pro potkana nebo 6 minut pro RoboKrysu (bude popsáno později). Při pokusech s RoboKrysou byly některé součásti testovacího prostředí pouze virtuální. Informace o elektrickém šoku a pozici padající potravy byly do přenášeny do RoboKrysy prostřednictvím komunikačního systému. Existují 3 základní úrovně jak definovat úlohu RoboKryse: Úroveň 1: Robot zná úlohu, ale neví, jak ji řešit V této úrovni má robot nejvíce informací. RoboKrysa má interně definované testovací prostředí a zná i reakci tohoto prostředí na svoje chování. RoboKrysa má mechanismus, jak rozhodnout, bude-li po dalším jejím kroku následovat odměna, nebo trest. Nemá ale zadaný algoritmus, jak by měla úlohu optimálně řešit (strategii). Celý průběh testu je v tomto případě možné simulovat v softwarovém simulátoru uvnitř RoboKrysy a najít tímto způsobem optimální strategii. Hlavní problém této úrovně je v přenosu naučené strategie ze simulovaného světa do světa skutečného. Tento problém je ovšem charakteristický pro celou oblast mobilní robotiky a je vlastní i všem níže zmiňovaným přístupům. Způsobem jeho řešení se budeme zabývat níže. Údaje zaznamenané během reálného testu lze použít pro kalibraci vlastností simulovaného robota.

Všechny ostatní údaje nutné k adaptaci na zadanou úlohu jsou k dispozici ve vnitřních strukturách robota. o úkolu je podobná té, která se očekává u potkana. Potkan také předem nezná úlohu, na kterou se má adaptovat. Očekává se ale, že dokáže přirozeně rozlišovat mezi zúčastněnými objekty v prostředí a je schopen si brzy uvědomit i tvar jednoduchého prostředí. Úroveň 3: Robot nezná úlohu, strategii ani základní podmínky úlohy Rozdíl proti předchozí úrovni spočívá v absenci informace o tvaru prostředí a o zúčastněných objektech. Jediným způsobem, jak získat jakoukoliv informaci o úloze jsou vlastní vjemy robota (senzory). Vzhledem k autonomii je robot na této úrovni zcela ekvivalentní potkanovi oba jsou umístěni v neznámém prostředí s neznámými objekty a jejich úkolem je naučit se předem neznámou úlohu. Jak bylo ale nastíněno v předchozím odstavci, tato úroveň je snazší pro potkana, protože má na rozdíl od robota přirozenou schopnost odlišovat objekty a má jisté zkušenosti z předchozího života. Pro náš adaptabilní robotický systém jsme zvolili druhou úroveň. Tento přístup umožňuje abstrahovat od zpracování základních informací ze senzorů a přesto nechává dostatek prostoru k vybudování adaptabilní strategie robota. 7 Struktura adaptabilního systému Adaptabilní systém řízení RoboKrysy se skládá z několika komponent. K lepšímu pochopení jejich účelu bude nejprve popsán způsob jejich použití. Jejich podrobnější popis bude následovat později. Mějme adaptabilní RoboKrysu, která neví nic o zadané úloze (kromě informací o úloze na úrovni 2). Fig. 10. Konfigurace experimentu pro RoboKrysu a pro potkana. Úroveň 2: Robot nezná úlohu ani strategii, ale zná základní podmínky úlohy Tato úroveň se liší od předchozí absencí údajů o reakci prostředí na chování RoboKrysy. Jinak řečeno, RoboKrysa nemá interně definováno, za co bude následovat odměna a za co trest. Konfigurace experimentu je ale dána RoboKrysa ví, v jakém prostoru bude pokus probíhat, zná předem i objekty, které se budou pokusu účastnit, a dokáže je od sebe odlišit. Adaptabilní robot na této úrovni by měl být v ideálním případě schopen zvládnout adaptaci na libovolnou úlohu definovanou nad zadanou konfigurací. Tento přístup je vhodnější pro porovnávání robota s potkanem, protože úroveň informovanosti robota Robot musí během své adaptace na úlohu projít následující kroky: 1. Projetí kalibrační dráhy Neuronový simulátor RoboKrysy musí být zkalibrován, aby dokázal věrně simulovat vlastnosti skutečné RoboKrysy. Simulátor je velice důležitá součást celého systému, která slouží jako platforma k internímu evolučnímu učení efektivní strategie. Výsledkem tohoto kroku je soubor parametrů, které popisují vlastnosti simulované RoboKrysy tak, aby její pohyb co nejvíce odpovídal vlastnostem RoboKrysy skutečné. 2. Nasbírání dat o úloze První skutečný pokus v plně sestaveném testovacím prostředí (RoboKrysa a predátor) je použit k nasbírání dat o úloze, kterou se má RoboKrysa naučit. RoboKrysa v tomto pokusu náhodně projíždí arénou, dostává od predátora šoky a zaznamenává konfigurace, ve kterých k šoku došlo. RoboKrysa nepoužívá v této

jízdě žádný mechanismus, aby předcházela šokům, protože jejím cílem je pokrýt co největší stavový prostor. 3. Pochopení podstaty úlohy Data získaná v předchozí jízdě jsou použita k adaptaci další neuronové sítě - šokovače.šokovač je část interního simulátoru RoboKrysy. Jeho úkolem je generovat simulované šoky v situacích, při kterých by došlo k šoku ve skutečném pokusu. Cílem šokovače v tomto kroku je zachytit princip úlohy (Co způsobuje šok?). 4. Nalezení efektivní strategie V tomto kroku se uplatní další neuronová síť genetická strategie. Tato síť je mozkem RoboKrysy. Jejím úkolem je postupně generovat kroky, které robot vykonává. Síť strategie se rozhoduje podle aktuální situace během pokusu tak, aby co nejefektivněji plnila danou úlohu. Proto musí být pro danou (ale předem neznámou) úlohu adaptována. Strategie je reprezentována sadou neuronových vah, jejichž adaptace je zajišťována genetickým algoritmem. Ten vyvíjí optimální strategii pomocí neuronového simulátoru a simulovaného šokovače. Genetické učení strategie je navrženo tak, aby produkovalo robustní řešení, které je maximálně nezávislé na konkrétních přesných fyzických vlastnostech robota. Z tohoto důvodu lze strategii naučenou na simulátoru použít přímo pro reálnou RoboKrysu bez výraznějšího ovlivnění výkonnosti. 7.1 Neuronový simulátor Během procesu adaptace strategie je nutné mnohokrát ověřit vlastnosti navrženého řešení. Jak bylo řečeno výše, nechtěli jsme při učení robota překročit čas, který v testovacím prostředí stráví potkan. Proto bylo bezpodmínečně nutné maximálně využít softwarový simulátor robota (místo evoluce skutečného robota). Simulátor musel splňovat tyto požadavky: Jeho chování musí maximálně odpovídat skutečnosti. Musí být velmi rychlý. Musí umožňovat snadné a rychlé vytvoření modelu reálného světa. Pro reprezentaci komplexních vlastností reálného světa jsme se rozhodli použít neuronovou síť. Základní myšlenky našeho simulátoru jsou následující. Skutečný robot nejprve projede kalibrační jízdu (která se skládá z reprezentativních pohybů robota) a sbírá data o svém chování. Hlavní část simulátoru je tvořena dopřednou vrstevnatou neuronovou sítí. Jejími vstupy jsou stávající stav inkrementálních senzorů odometrie kol a příkaz pro motory generovaný v tomto kroku strategií. Výstupem sítě je stav senzorů na kolech v příštím kroku. Nasbíraná kalibrační data mohou být tedy přímo použita jako trénovací množina pro učení neuronové sítě algoritmem zpětného šíření a tato síť pak slouží k predikci reakcí robota na aktuální příkaz pro motory. Fig. 11. Struktura řídícího systému robota s připojením (resp. bez připojení) neuronového simulátoru. 7.2 Šokovač Šokovač je druhou neuronovou sítí v simulátoru robota. Jeho úkolem je na základě stávajícího stavu pokusu generovat šoky pro RoboKrysu. Trénovací data pro adaptaci sítě šokovače jsou nasbírána během jedné náhodné jízdy v aréně. RoboKrysa si během ní zaznamenává aktuální stav prostředí a to, jestli právě dostává šok. Tato data jsou pak vytvořena trénovací množina šokovače. Vstupy neuronové sítě tvoří absolutní pozice RoboKrysy ([x,y]), její pozice vzhledem k aréně (vzdálenost od středu a natočení vzhledem ke spojnici se středem arény) a nakonec pozice predátora vzhledem k RoboKryse (vzdálenost a směr). Jediným výstupem je binární informace o tom, jestli v této situaci následuje šok. Síť šokovače je dopředná vrstevnatá s jednou skrytou vrstvou. Průměrná chybovost šokovače na úloze "predátor a kořist" je 1 2 %. I v případě, že je chyba vyšší(např. v úloze vyhýbání se čtverci 40 x 40 cm je cca 9 %), RoboKrysa se může adaptovat na úlohu úspěšně. Stavy, ve kterých se šokovač mýlí, leží většinou na okraji zóny šoku. Genetické učení má ale tendenci generovat strategie, které se snaží držet co nejdále od zóny šoku.

Fig. 12. Struktura šokovače. 7.3 Genetická strategie Genetická strategie je adaptabilním mozkem RoboKrysy. Je to neuronová síť, jejímž úkolem je vygenerovat další akci strategie, když předchozí skončí (akce jsou například "jeď vpřed o 20 cm" nebo "zatoč vlevo o 30 stupňů"...). Provedení vygenerované akce pak zajišťuje modul nezávislý na této neuronové síti, který předá řízení strategii vždy po ukončení jedné akce. vytvořit trénovací množinu, lze ale snadno sestavit fitness funkci pro genetické učení (např. počet šoků je nutné minimalizovat a množství snědené potravy maximalizovat). Neuronová síť genetické strategie má stejné vstupy jako šokovač, ale navíc obsahuje aktuální stav šokovače. Výstupem sítě je následující akce (např. "jeď vpřed") a její parametr (např.20 cm). Jde o dopřednou vrstevnatou neuronovou síť s jednou skrytou vrstvou. Váhy počáteční strategie jsou nastaveny náhodně a jsou postupně adaptovány standardním genetickým algoritmem tak, aby bylo dosaženo optimálního výsledku. Již bylo zmíněno, že přenos naučené strategie z robota simulovaného na skutečného může být problematický, protože simulovaný robot se nikdy nechová totožně jako reálný. Tento problém jsme řešili přidáním náhodného šumu na simulované senzory odometrie kol robota během učení. Naučená strategie pak byla velmi robustní a nezávislá na malých fyzických změnách chování robota. 7.4 Predátor Predátor a jeho chování jsou nedílnou součástí úlohy pro RoboKrysu (resp. potkana). Aby se RoboKrysa mohla přizpůsobit jeho chování, je i predátora nutné implementovat v simulátoru.protože jsme se chtěli vyhnout dalšímu "neuro-genetickému" systému (podobnému řízení RoboKrysy), který by zachytil a reprodukoval predátorovo chování v simulátoru, využili jsme záznamu o jízdě predátora z jediné skutečné jízdy RoboKrysy v aréně. V simulátoru jsme pak přehrávali náhodné části jízdy predátora z těchto záznamů. Tento přístup sice není aplikovatelný na úlohy, kdy se predátorovo chování mění podle chování kořisti, ale v našem případě je toto omezení akceptovatelné, protože žádné podobné úlohy s potkany nejsou zatím testovány. 8 Výsledky Fig. 13. Umístění sítě strategie v řídícím systému RoboKrysy. Strategie RoboKrysy se musí přizpůsobit dané úloze. Adaptabilní částí genetické strategie jsou její neuronové váhy. Problém je, že správná reakce na stav úlohy není známa předem (a vlastně není známa nikdy), protože chování RoboKrysy lze posuzovat a měřit jen jako celek. Z tohoto důvodu byl pro adaptaci vah zvolen genetický algoritmus pro danou úlohu nelze snadno Výsledky prezentované v této části byly získány z pokusu se skutečným robotem (RoboKrysou) nebo s laboratorním potkanem.pohybující se objekty v aréně byly sledovány pevně umístěnou kamerou, která rovněž zprostředkovávala chybějící smysly RoboKrysy (vnímání predátorovy a své vlastní pozice). Je třeba zdůraznit, že výsledky potkana pochází z pokusů s robotickým predátorem. Potkan má přirozenou tendenci vyhýbat se neznámým objektům. Proto jsou výsledky potkana v úvodní fázi lepší. RoboKrysa nemá žádnou předchozí informaci o způsobu chování k predátorovi. Bez ohledu na tyto detaily ukázalo porovnání chování a procesu učení potkana s robotem zajímavé podobnosti.

Fig 14. Porovnání chování naučených jedinců na úloze "predátor a kořist" Potkan Zdržuje se převážně při okraji arény. Je většinou statický náhodně padající potrava je jen zřídka dostatečnou motivací k pohybu do středu arény. V případě, že se predátor pohybuje směrem k potkanovi, přesunuje se po okraji na opačnou stranu arény. V případě šoku má i nenaučený potkan přirozenou tendenci rychle opustit situaci, která šok způsobila. RoboKrysa Zdržuje se převážně při okraji arény. Neustále se pohybuje směrem vpřed a vzad v malé oblasti arény při jejím okraji. Svým pohybem zvyšuje pravděpodobnost nalezení padající potravy. Motivace k hledání potravy je implementována jako součást fitness funkce v genetickém algoritmu adaptujícím strategii. Na blížícího se predátora výrazně nereaguje. V případě šoku se většinou otočí směrem od predátora a pohybuje se vpřed. Nenaučená RoboKrysa nemá implementovány žádné schopnosti, které by ji přiměly opustit oblast, ve které dostává šok. Fig. 15. Porovnání procesu adaptace na úlohu "predátor a kořist" Potkan RoboKrysa Počet skutečných jízd v aréně 20 1 (Kalibrační jízdu nebereme v úvahu, protože potkan zná způsob svého pohybu předem...) Celkový čas strávený adaptací ve skutečné aréně Chybovost (poměr šoků) naučeného jedince Rychlost adaptace 20 x 20 = 6 h 40 min 6 minut (Tato doba se ukázala být dostatečná k nasbírání reprezentativní množiny stavů pro učení neuronové sítě šokovače.) 2% 13% Snížení chybovosti na 13 % trvá přibližně 7 pokusu v aréně (cca. 2 h 20 m). Snížení chybovosti na 13 % vyžaduje pouze jednu krátkou jízdu v aréně (6 min) a přibližně 3 hodiny vnitřního genetického učení (Tento údaj je hardwarově a implementačně závislý. Navíc potkan má typicky také dlouhé přestávky mezi jednotlivými pokusy). Proces adaptace Potkan se pohybuje v prvních pokusech víceméně náhodně. Má ale přirozenou tendenci utéct v případě šoku a zdržovat se spíše u okraje arény. Oba tyto rysy chování jsou v této úloze prospěšné. Postupně zlepšuje své chování vzhledem k predátorovi. Do středu se pohybuje zřídka, šokům předchází včasným útěkem z oblasti, kam míří predátor. Genetické učení odhalí velice brzy závislost mezi šoky a vzdáleností od středu arény (na okrajích je pravděpodobnost střetu s predátorem výrazně nižší). Proto je chování RoboKrysy v první fázi adaptace statické při okraji arény. Předcházení šokům včasným útěkem se zřetelně nevyvinulo. RoboKrysa se pouze naučila utéct od predátora v případě, že už šok dostává.

(a) (b) (c) (d) (e) (f) Fig. 16. Obrázky: (a)(b)(c) Pozice kořisti vzhledem k predátorovi v úloze "kořist a predátor"; (d) Trajektorie pohybu naučené RoboKrysy v úloze "vyhýbání se virtuálnímu čtverci"; (e)(f) Pozice kořisti vzhledem k predátorovi v úloze "kořist honí predátora".}

8.1 Predátor a kořist Toto je základní úloha, na které jsme chtěli potkana a RoboKrysu porovnávat. Jak bylo popsáno výše, RoboKrysa dosáhla na této úloze horších výsledků než potkan. Potkan dokáže předvídat budoucí pozici predátora,zatímco RoboKrysa reaguje na situaci, až když je predátor příliš blízko a dojde k šoku. Tento problém je blíže vysvětlen v kapitole diskuse. Lze ukázat, že RoboKrysa skutečně reaguje na predátora a nezůstává pouze na okraji arény. Průměrná chybovost RoboKrysy, která je statická při okraji arény je 18 %, zatímco průměrná chybovost naučené RoboKrysy, která se pohybuje klesá na 13 %. To znamená, že RoboKrysa dokáže aktivně snížit počet šoků tím, že se pohybuje. Navíc tímto pohybem zvyšuje množství nalezené potravy. 8.2 Kořist honí predátora Tato úloha je malou modifikací úlohy předchozí. Úkol je nyní opačný kořist dostává šoky, když je příliš daleko (přes 20 cm) od predátora. Řešení tohoto úkolu je složitější, protože RoboKrysa musí být velice aktivní, aby dokázala rychle se pohybujícího predátora sledovat. Jednoduchá a efektivní statická strategie pro tuto úlohu neexistuje. Obrázek 16.(f) ukazuje, že i naučená RoboKrysa je poměrně často v zóně šoku. Průměrná chybovost naučené RoboKrysy je ale o 40 % lepší, než při náhodném pohybu. 8.3 Kořist se vyhýbá virtuálnímu čtverci Neumí se adaptovat na měnící se podmínky udělování šoků. Zachytí pouze podmínky jedné skutečné jízdy a pak zůstává nezměněn. Neumí se adaptovat na podmínky, které jsou příliš specifické a nastávají jen zřídka. Když je počet šoků během reálné jízdy příliš nízký, šokovač se často naučí neudělovat šoky vůbec. V opačném případě, když RoboKrysa dostává šoky během reálné jízdy téměř pořád, protože je příliš obtížné se podmínce šoku vyhnout, šokovač se často naučí udělovat šoky pořád. Neumí zachytit příliš složité tvary oblasti šoku. Jak bylo ale popsáno výše, adaptace na úlohu může být úspěšná i v případě, že se šokovač nenaučil podmínky šoku dokonale. Dobrá adaptace šokovače je dobrým startovním bodem ke správné adaptaci celého systému. Kvalita naučené strategie tím ale není zaručena. RoboKrysa má tendenci se naučit několik jednoduchých kroků, které rychle eliminují počet šoků. Tyto kroky ale nemusí nutně řešit podstatu úlohy. K té se adaptace RoboKrysy nemusí dopracovat nikdy. Pro postupnou evoluci jednotlivých dílčích vlastností požadovaného celkového chování se často používá metoda inkrementální evoluce. Ta ale vyžaduje speciální fitness funkci a řízení procesu adaptace určené pro konkrétní učenou úlohu. Tento přístup pro nás nepřicházel v úvahu, protože naším cílem bylo navrhnout univerzální systém, který je schopen samostatně vyřešit předem neznámý úkol v daném prostředí. V této úloze je hlavním cílem RoboKrysy vyhýbat se neviditelnému čtverci v aréně. Této úlohy se neúčastní predátor. Chceme na ní demonstrovat schopnost šokovače adaptovat se na různé podmínky, které způsobují šok. Obrázek 16.(d) zobrazuje trajektorii naučené RoboKrysy a efektivitu adaptace na úlohu. RoboKrysa dostane šok pouze ve 4 % případů (chybovost náhodné jízdy je přibližně 12 %). 9 Diskuse Ukázali jsme, že i jednoduchý adaptační systém robota založený na dopředných neuronových sítích a genetickém algoritmu je schopný se úspěšně adaptovat na různé úlohy. Kvalita adaptace má ale samozřejmě své meze. První podmínkou úspěšné adaptace je správně naučený šokovač. Hranice schopností šokovače leží zejména v těchto oblastech:

Část třetí: Shrnutí Tato práce prezentovala způsob adaptace biologických a umělých jedinců na prostorové úlohy. Ačkoliv úroveň znalostí v oblasti umělé inteligence zatím nepostačuje k tomu, aby bylo možné vytvořit umělou bytost skutečně adaptačně srovnatelnou s živočichy vyšších řádů (např. hlodavci), při vhodném omezení třídy porovnávaných úloh a vhodné abstrakci vjemů umělého jedince lze porovnatelných výsledků dosáhnout. Tyto výsledky samozřejmě nelze (přinejmenším v případě robota) univerzálně zobecnit pro celou třídu bytostí, kterou testovaný jedinec reprezentuje. Jeho chování i způsob učení jsou z velké části ovlivněny jeho tělesnou konstrukcí a mentálními vlastnostmi (implementací adaptabilního systému v případě robota). Při porovnávání umělého a přirozeného učení jakýchkoliv zástupců těchto tříd bude ale nutné vždy řešit pro tuto oblast specifické problémy. Prvním z nich je předchozí zkušenost testovaného jedince a jeho vrozené reflexy. Tyto parametry výrazně ovlivňují startovní pozici pro proces jeho adaptace. Umělá bytost vstupuje obvykle do adaptačního procesu bez předchozích zkušeností, popřípadě se sadou zkušeností a reflexů předdefinovanou operátorem. Tímto způsobem lze ale ztěží postihnout alespoň podobný stav, ve kterém se před adaptací nachází jedinec živý. Druhým problémem je nutnost předdefinovat důležitost jednotlivých motivačních faktorů, pomocí nichž je proces učení kontrolován. Vzájemný poměr těchto faktorů (např. šok vs. snědená potrava) dokáže výrazným způsobem měnit chování adaptovaného umělého jedince. V případě tvora živého je tento poměr individuální a závisí také na momentálním stavu organismu. S nedeterminističností živého organismu souvisí i problém s definováním senzorických vstupů umělého jedince. V našem případě používal robot pouze vstupy relevantní pro danou třídu úloh. Potkan ovšem zpracovává ve stejné úloze výrazně větší soubor vstupních informací. To mu na jedné straně umožňuje využít pro řešení úlohy i vjemy, které jsou pro robota nedostupné, na straně druhé ovšem komplikuje učení nutností hledat souvislosti ve větší množině dat. U potkana navíc nelze předpokládat stav kontinuální pozornosti, který je u robota samozřejmostí. Narozdíl od robota zvíře podléhá subjektivním stavům, jako únava, stres, agresivní vyladění či lenost, které interpretaci procesu učení komplikují. Snaha o vytváření a zkoumání umělých systémů, jejichž úkolem je vyrovnat se konkrétním živočichům, může přinést mnoho pozitiv jak při studiu živočichů tak těchto systémů. Živé i umělé jedince lze zkoumat z podobných úhlů pohledu a z porovnání výsledků lépe odhalovat důvody jednotlivých vlastností chování obou světů. Poděkování: Práce na zvířatech byla podpořena granty GAČR 309/03/0715 a 206/05/H012, AVOZ 5011922, a projektem 1M0002375201. Výzkum evoluce robotů byl podporován GAČR prostřednictvím projektu č. 201/04/2102, programem Informační společnost projektem 1ET100300517 a Grantovou agenturou UK prostřednictvím grantu 358/2006/A-INF/MFF. Literatura Část první: [1.] Basil, J.A., Kamil, A.C., Balda, R.P., Fite, K.V. (1996), Differences in hippocampal volume among food storing corvids. Brain Behav Evol.;47(3):156-64. [2.] Beiko J, Lander R, Hampson E, Boon F, Cain DP (2004), Contribution of sex differences in the acute stress response to sex differences in water maze performance in the rat. Behav Brain Res. May 5;151(1-2):239-53. [3.] Blodgett, H.C., The effect of the introduction of reward upon the maze performance in rats. Univ Calif. Publ. Psychol. 4 (8): 177 (ex Tolman, 1948) [4.] Cimadevilla JM, Wesierska M, Fenton AA, Bures J. (2001), Inactivating one hippocampus impairs avoidance of a stable room-defined place during dissociation of arena cues from room cues by rotation of the arena.proc Natl Acad Sci U S A. Mar 13;98(6):3531-6. [5.] Cohen N.J., Eichenbaum H. (1993), Memory, amnesia and the hippocampal system. Cambridge, MA: MIT Press. [6.] Corkin, S. (2002), What's new with the amnesic patient H.M.? Nat Rev Neurosci. 3(2):153-60. [7.] Czurko, A., Hirase, H., Csicsivari, J., Buzsaki G. (1999), Sustained activation of hippocampal place cells by `space clamping` in a running wheel. Eur. J. Neurosci., 11: 344-352 [8.] Fenton, A.A., Wesierska, M., Kaminsky, Yu., Bureš, J. (1998), Both here and there: simultaneous expression of autonomous spatial memories. Proc. Natl. Acad. Sci. USA 95:11493-11498 [9.] Gallistel, C. R. (1990), The organisation of learning, MA: MIT Press, 648 pp

[10.] Hodges H. (1996), Maze procedures: the radialarm and water maze compared, Brain Res Cogn Brain Res. Jun;3(3-4):167-81. [11.] Jacobs (1996),The Economy of Winter: Phenotypic Plasticity in Behavior and Brain Structure. Biol. Bull. 191: 92-100. [12.] Maguire, E.A., Gadian, D.G., Johnsrude, I.S., Good, C.D., Ashburner J., Frackowiak, R.S., Frith,C.D. (2000), Navigation-related structural change in the hippocampi of taxi drivers. Proc Natl Acad Sci U S A. 97(9):4414-6. [13.] McNaughton B.L., Barnes C.A., O Keefe J. (1983), The contributions of position, direction, and velocity to single unit activity in the hippocampus of freely moving rats. Exp Brain Res 52:41 49. [14.] Morris, R.G.M., Garrud., Rawlins, J.N.P. a O Keefe, J. (1982), Place navigation impared in rats with hippocampal lessions. Nature, 297, 681-683 [15.] Muller R.U., Bostock E., Taube J.S., Kubie J.L. (1994), On the directional firing properties of hippocampal place cells. J Neurosci 14:7235 7251 [16.] O`Keefe, J. (1999), Do Hippocampal Pyramidal Cells Signal Non-Spatial as Well as Spatial Information? Hippocampus 9:352 364 [17.] O Keefe, J.a Dostrovsky, J. (1971), The hippocampus as a spatial map: preliminary evidence from unit activity in the freely-moving rat. Brain res., 34, 171-175 [18.] O Keefe, J.a Nadel, L. (1978) The hippocampus as a cognitive map. Clarendon, Oxford [19.] O Keefe J., Burgess N., Donnett J. G., Maguire E. A. (1998). Place cells, navigational accuracy, and the human hippocampus. Phil Trans R Soc B 353:1333 1340. [20.] Pavlov, I.P., Anrep, G.V. (překl.) (1927), Conditioned reflexes: an investigation of the psychological activity of the cerebral cortex. Routledge and Kegan, London Paul. [21.] Scoville, W.B.a Milner, B. (1957). Loss of recent memory after bilateral hippocampal lessions. J. Neurol. Neurosurg.Psychiatry, 20, 11-21 [22.] Simon P, Dupuis R, Costentin J. (1994), Thigmotaxis as an index of anxiety in mice. Influence of dopaminergic transmissions.behav Brain Res. Mar 31;61(1):59-64. [23.] Skinner, B.F. (1937), Two types of conditioned reflex: A reply to Konorski and Miller. Journal of General Psychology, 16, 272-279. [24.] Telenský, P., Svoboda, J., Blahna, K., Bureš, J. (2005), Prostorová navigace potkana v interakci s pohybujícími se objekty. In: Sborník Konference grantového projektu GACR "Integrace etologického, fyziologického a behaviorálneekologického prístupu ke studiu chování živocichu". Nové Hrady. [25.] Telenský, P., Svoboda, J., Bureš, J. (2004), Aplikace programovatelného robota ve výzkumu paměťových mechanismů u potkanů. In: Sborník semináře Kognice a umělý život, Opava. [26.] Thorndike, E. L. (1910), The contribution of psychology to education. Journal of Educational Psychology, 1, 5-12. [27.] Tolman, E. C. (1922) A new formula for behaviorism. Psychological Review, 29, 44-53. [28.] Tolman, E. C. (1948), Cognitive maps in rats and men. Psychological Review, 55(4), 189-208. [29.] Wallenstein G. V., Eichenbaum H., Hasselmo M. E. (1998), The hippocampus as an associator of discontiguous events. Trends Neurosci 21:317 323. [30.] Watson, J.B. (1913) Psychology as the behaviorist views it. Psychological Review, 20, 158-177 [31.] Wiener, S. I., Paul, C. A., Eichenbaum, H. (1989), Spatial and behavioral correlates of hippocampal neuronal activity. J. Neurosci, 9: 2737-2763 [32.] Wilson, M.A., McNaughton, B.L. (1993), Dynamics of the hippocampal ensemble code for space. Science 261: 1055-1058 [33.] Wood, E.M. (2003), Place cells: a framework for episodic memory? In: Jeffery, K.J. (ed.), The Neurobiology of Spatial Behaviour. Oxford university press, 350pp. [34.] Wood, E.M.,Dudchenko, P.,Robitsek, R., Eichenbaum, H. (2000), Hippocampal Neurons Encode Information about Different Types of Memory Episodes Occurring in the Same Location. Neuron, 27(3): 623-633 [35.] Zhang, K., Ginzburg, I., McNaughton, B. L., Sejnowski, T. J. (1998), Interpreting neuronal population activity by reconstruction: unified framework with application to hippocampal place cells. J. Neurophysiol. 79: 1017-1044 [36.] Zinyuk, L., Kubik, S., Kaminsky, Yu., Fenton, A.A. a Bureš, J. (2000), Understanding hippocampal activity by using purposeful behavior: place cell discharge in both task-relevant and task-irrelevant spatial reference frames. Proc. Natl. Acad. Sci. 97: 3771-3776. Část druhá: [1.] Nolfi S. & Floreano D. (2000): Evolutionary Robotics: The Biology, Intelligence, and Technology of Self-Organizing Machines, MIT Press/Bradford Books, Cambridge, MA.