Dobýváí zalostí Doc. RND. Iveta Mázová CSc. Kateda teoetcé fomat Matematco-fzálí faulta Uvezt Kalov v Paze
Dobýváí zalostí Předzpacováí dat Doc. RND. Iveta Mázová CSc. Kateda teoetcé fomat Matematco-fzálí faulta Uvezt Kalov v Paze
Výbě a uspořádáí přízaů Pavděpodobost chbého ozhodutí Možství fomace obsažeé ve vstupích vzoech Přílš velý počet přízaů: techcá ealzovatelost chlost zpacováí ebezpečípřeučeí počet poměých počet téovacích vzoů oelace přízaů I. Mázová: Dobýváí zalostí 3
Volba fomatvích přízaů Výbě mmálího počtu přízaů z předem zvoleé mož přízaů elze zaučt že tato moža obsahue fomatví příza volba závsí a oétí úloze Uspořádáí přízaů v předem zvoleé možě přízaů podle možství eseé fomace vužtí apř. u sevečích lasfátoů I. Mázová: Dobýváí zalostí 4
Kahue-Loevovův ozvo () Vlastost Kahue-Loevova ozvoe:. Př daém počtu čleů ozvoe postue ze všech ozvoů emeší středí vadatcou odchlu od původích vzoů. Vzo sou po použtí dspezí matce po apomac eoelovaé deoelace přízaů I. Mázová: Dobýváí zalostí 5
Kahue-Loevovův ozvo () 3. Čle ozvoe epřspívaí ovoměě apomac Vlv aždého z čleů a přesost apomace se zmešue s eho pořadovým číslem Vlv čleů s vsoým de bude malý a můžeme e zaedbat (~ vechat) 4. Velost chb apomace eovlvňue stutuu ozvoe Změa požadavů a chbu apomace evžadue přepočítávat celý ozvo Stačíe přdat č odstat ěol posledích čleů Výhodé zeméa u sevečích metod lasface I. Mázová: Dobýváí zalostí 6
Kahue-Loevovův ozvo (3) Volba vhodého zobazeí V : X m X p ta ab vzo z X p bl elepší apomací původích vzoů z X m ve smslu středí vadatcé odchl K vzoů z edé tříd m přízaů p otoomálích vetoů e ( p ) v X m ( p m ) Apomace vetoů z X m ( K ) leáí p ombací vetoů e : ta ab vadát odchl od : bl mmálí c ε e I. Mázová: Dobýváí zalostí 7
Kahue-Loevovův ozvo (4) v ( v v ) T ( ) T v T v v Měřeo m přízaů z chž chceme zísat p edůležtěších přízaů ( p << m) Matce V : p m v V M vm K O K p mp Výpočet vetou p edůležtěších přízaů: V T v v M I. Mázová: Dobýváí zalostí 8
Kahue-Loevovův ozvo (5) Výpočet matce V: vcetovat data: dspezí matce po téovací možu: w veto defuící edůležtěší příza sou chaatestcým veto dspezí matce μ w ( μ )( μ ) I. Mázová: Dobýváí zalostí 9
Kahue-Loevovův ozvo (6) Chaatestcá čísla odpovídaí ozptlu edůležtěších přízaů pvím sloupcem matce V bude chaatestcý veto odpovídaící evětšímu chaatestcému číslu další sloupce V se přestaou přdávat poté co lze další chaatestcá čísla vzhledem ech velost zaedbat Poblém: volba odpovídaícího počtu chaatestcých čísel ( p ) elze zaučt optmálí volbu p vzhledem e sutečému výzamu edotlvých přízaů I. Mázová: Dobýváí zalostí 0
Kahue-Loevovův ozvo (7) Modface:. Cetovaé edůležtěší příza V T ( μ ) de μ ( μ ) e veto středích hodot. Nomalzovaé edůležtěší příza L -/ V T ( μ ) de L e matce p p pv dagoál sou chaatestcá čísla odpovídaící sloupcům V ostatí pv sou ulové 3. Nomalzace edůležtěších přízaů vzhledem ozptlům w w w w I. Mázová: Dobýváí zalostí
Kotgečí tabul ~ vztah mez dvěma ategoálím velčam apř. báím Obecá otgečí tabula Po pozoováí s R hodotam po velču X a S hodotam po velču Y I. Mázová: Dobýváí zalostí
Kotgečí tabul () S R al ; sl al ; a l a l četost (fevece) ombace ( X X ) ( Y Y l ) s l řádové sloupcové součt (tzv. magálí hodot) e l očeávaá četost ombace ( X X ) ( Y Y l ) př ezávslost X a Y R S l l ; e l s l I. Mázová: Dobýváí zalostí 3
χ -test Zšťováí vztahu mez X a Y Vhodoceí ozdílu mez pozoovaým četostm edotlvých ombací (uvedeým v tabulce) a četostm očeávaým př platost hpotéz o ezávslost obou velč (počítaým z magálích hodot) χ R S R S l al el χ l el l a sl s l I. Mázová: Dobýváí zalostí 4
χ test () Př platost ulové hpotéz ezávslost velč X a Y: H 0 : P ( X X Y Y l ) P ( X X ) P ( Y Y l ); l má χ ( R - ). ( S ) stupňů volost Je-l hodota χ - statst hodotě χ -ozděleí s příslušým počtem stupňů volost a zvoleé hladě výzamost α : χ zamíte se ulová hpotéza > alteatví hpotéza závslost χ ( R ) I. Mázová: Dobýváí zalostí 5 )( S
χ test (3) Přílad: čtřpolí otgečí tabula I. Mázová: Dobýváí zalostí 6
χ test (4) Přílad (poačováí): Hodota statst χ : 4.857 Hodota ozděleí χ s stupěm volost e po hladu výzamost α 0.05 : χ () (0.05) 3.84 > závslost mez výší přímu a postutím úvěu I. Mázová: Dobýváí zalostí 7
Fsheůvtest χ test lze použít e v případě dostatečě velých četostí po (. s l ) / 5 l po čtřpolí tabul lze použít Fsheův test (použtelý po ízé četost) Výpočet pavděpodobost že př daých magálích četostech a s má čtřpolí tabula sutečé četost a l :!! s! s! p! a! a! a! a! I. Mázová: Dobýváí zalostí 8
Fsheůvtest () Pavděpodobost p se asčítaí po ůzé hodot sutečých četostí př daých magálech (předpoládá a m l a l ): P a 0!!! s ( a )!( a )!( a )!( a )! s!! Je-l P α zamíte se ulová hpotéza o ezávslost a hladě výzamost α I. Mázová: Dobýváí zalostí 9
Regesí aalýza ~ učt aý vztah má poměá Y edé aebo víceo ým poměým X X Důvod vužtí:. Náladé měřeí výstupů > hledáme pedc výstupu a záladě sado zísaých vstupů. Hodot vstupů sou dspozc dříve ež výstup > potřebueme pacovat s odhadem výstupu 3. Řízeé vstupí hodot mohou pomoc spávě odhadout chováí odpovídaících výstupů 4. Může estovat auzálí spotost mez vstup a výstup > teto vztah chceme aít I. Mázová: Dobýváí zalostí 0
Regesí aalýza () Koelačí aalýza Platí mez dvěma umecým velčam leáí závslost? Leáí egese Jaé paamet má leáí závslost mez dvěma umecým velčam? Apomace pozoovaých hodot [ ]; pomocí 0 ε I. Mázová: Dobýváí zalostí
Regesí aalýza (3) metodou emeších čtveců (mmalzace ozdílů mez sutečou a očeávaou hodotou) f() 0 hledáme m ( ) f I. Mázová: Dobýváí zalostí
I. Mázová: Dobýváí zalostí 3 Regesí aalýza (4) metodou emeších čtveců (mmalzace ozdílů mez sutečou a očeávaou hodotou) obě pacálí devace b měl být ové ule f 0 0 0 0 0 0
I. Mázová: Dobýváí zalostí 4 Regesí aalýza (5) Po leáí závslost a alezeme optmálí paamet 0 vztahu 0 0
I. Mázová: Dobýváí zalostí 5 Regesí aalýza (6) Koelačí oefcet: Posouzeí mí leáí závslost leáí závslost výběová ovaace: výběové ozptl: S S S ; ; ρ S S S
Regesí aalýza (7) Mohoozměá egese: Leáí předpoládáme leáí závslost vsvětlovaé (závslé) velč a víceo vsvětluících (ezávslých) velčách m předpolad po té pozoováí: 0 m m ε I. Mázová: Dobýváí zalostí 6
I. Mázová: Dobýváí zalostí 7 Regesí aalýza (7) Mohoozměá egese: Leáí (poačováí) matcový záps: řešeí metodou emeších čtveců: X X X T T m m T m T X X K M O M M K L K 0 ; ; X
Regesí aalýza (8) Mohoozměá egese (poačováí): Neleáí předpoládáme složtěší fučí závslost mez a - vadatcou epoecálí logstcá egese (případ eleáí egese) předpoládáme že závslá velča e ategoálí apř. dvouhodotová modelueme pavděpodobost že má oétí hodotu v závslost a ombac hodot ezávslých velč podmíěá šace: P ( ) ( P( ) ) I. Mázová: Dobýváí zalostí 8
I. Mázová: Dobýváí zalostí 9 Regesí aalýza (9) Mohoozměá egese (poačováí): logstcá egese (poačováí) Po s hodotam pouze esp. 0 : esp. m e e e P 0 0 0 K m m m m P P K K K 0 l
I. Mázová: Dobýváí zalostí 30 Regesí aalýza (0) Mohoozměá egese (poačováí): logstcá egese (poačováí) Odhad šace esp. pavděpodobost hodot : Odhad paametů modelu metodou mamálí věohodost (mamalzace L): m e e P L 0 0 K sum sum 0 ep Sgmoda:
I. Mázová: Dobýváí zalostí 3 Regesí aalýza alteatví odvozeí () Regesí ovce: po edotlvé vzo X X X Y ε β β β α β β β α L L egesí odchla po vzo
Regesí aalýza alteatví odvozeí () Leáí egese po edu vstupí poměou: vzo egesí ovce ( ) ( ) K Y α β X X Y egesí oefcet metoda emeších čtveců po volbu egesích oefcetů vadatcá odchla ; SSE e ( ) ' ( α β ) I. Mázová: Dobýváí zalostí 3
Regesí aalýza alteatví odvozeí (3) SSE e ( ' ) ( α β ) Devace vadatcé odchl podle α a β: ( SSE) ( α β ) α ( SSE) β ( ( α β ) ) Mmalzace celové chb (devace b měl být ové 0) I. Mázová: Dobýváí zalostí 33
I. Mázová: Dobýváí zalostí 34 Regesí aalýza alteatví odvozeí (4) SSE SSE β α β β α α ted β β β α β α β α β α
I. Mázová: Dobýváí zalostí 35 Regesí aalýza alteatví odvozeí (5) Pedce pomocí α β β β β α ted β β β
I. Mázová: Dobýváí zalostí 36 Regesí aalýza alteatví odvozeí (6) β β α β úpavou dostaeme
Regesí aalýza alteatví odvozeí (7) Víceozměá leáí egese: poměá Y se modelue ao leáí fuce víceo pedčích poměých Y α β X β X K β X matcové vádřeí Y β X X ozšířeá matce vstupích vzoů β Y matce výstupů ( β β K β ); β α 0 0 vadatcá odchla SSE T ( Y β X ) ( Y β X ) I. Mázová: Dobýváí zalostí 37
Regesí aalýza alteatví odvozeí (8) optmalzačí o (LMS) T ( SSE) ( Y β X ) ( Y β X ) β β vádřeí egesích oefcetů 0 ( T X X ) β X T Y β ( T ) ( T X X X Y ) Vsoé výpočetí áo př řešeí složtých úloh z pae apomatví řešeí I. Mázová: Dobýváí zalostí 38
Dsmačí aalýza ~ Klasface příladů do předem zadaých tříd hledáí závslost edé omálí velč (učuící příslušost e třídě) a dalších m umecých velčách Předpoládáme že e aždé třídě (~ hodotě omálí velč) c t ; t T estue (dsmačí) fuce f t ; f t ma f ; K T pat řa K m ct I. Mázová: Dobýváí zalostí 39
Dsmačí aalýza () Leáí dsmačí aalýza: f t 0t t t mt m Dsmace do dvou tříd Místo fucí f a f můžeme hledat fuc f f f Přílad se lasfuí podle zaméa f I. Mázová: Dobýváí zalostí 40
I. Mázová: Dobýváí zalostí 4 Dsmačí aalýza (3) Optmálí lasface ve smslu mmálí chb dsmačí fuce podmíěé (aposteoí) pavděpodobost zařazeí pozoováí do tříd c t po dvě tříd: c P c P c P c P f f f t t t t c P c P c P c P c P f
I. Mázová: Dobýváí zalostí 4 Dsmačí aalýza (4) omálí ozděleí (vadatcá dsmačí fuce): steé ovaačí matce S S S : (leáí dsmačí fuce) l l C P C P S S S S X S S X S S X f T T T T T T μ μ μ μ μ μ l C P C P S X S f T T T T μ μ μ μ μ μ
Dsmačí aalýza (5) edotové ovaačí matce obě tříd steě pavděpodobé T T T T f μ μ X μ μ μ ( μ ) po omálí ozložeí se hledáí dsmačí fuce eduue a odhad středích hodot μ a záladě výběových půměů a ovaačích matc S (z výběových ozptlů) I. Mázová: Dobýváí zalostí 43
Dsmačí aalýza (6) Přílad: Nomálí ozděleí pavděpodobostí P( c ) P(c ) s ůzým ozptl Nomálí ozděleí se steým ozptl dsmace e podle odhadů středích hodot I. Mázová: Dobýváí zalostí 44
Shluová aalýza Lze pozoovaé vzo ozdělt do sup (shluů) vzáemě s blízých vzoů? Předpolad: umíme měřt vzdáleost mez vzo Každý vzo e chaatezová m umecým velčam Vzdáleost mez dvěma vzo: K a K ( ) m m I. Mázová: Dobýváí zalostí 45
I. Mázová: Dobýváí zalostí 46 Shluová aalýza (). Hammgova vzdáleost:. Euledovsá vzdáleost: 3. Čebševova vzdáleost: 4. Movsého meta (.-3. sou eím specálím případem): z m z z L m H d m E d C d ma
I. Mázová: Dobýváí zalostí 47 Shluová aalýza (3) lm L d L d L d z z C E H... cost d cost d cost d C E H
Shluová aalýza (4) Volba mí vzdáleost závsí a měřítu velč velč omovat ( ~ dělt půměem směodatou odchlou ozpětím ( ma m ) ) předpoládáme steý ozptl u všech velč Růzý ozptl velč Mahalaobsova vzdáleost d M T S ( ) I. Mázová: Dobýváí zalostí 48
I. Mázová: Dobýváí zalostí 49 Shluová aalýza (5) Vzdáleost mez dvěma shlu U a V : Metodou eblžšího souseda ~ mmum ze vzdáleostí mez ech pv Metodou evzdáleěšího souseda ~ mamum ze vzdáleostí mez ech pv V U d V U D l l l ; m V U d V U D l l l ; ma
Shluová aalýza (6) Vzdáleost mez dvěma shlu U a V (poačováí): Metodou půměé vzdáleost ~ půmě ze vzdáleostí mez vzo; ( U ~počet vzoů ve shluu U ; V ~počet vzoů ve shluu V) D ( U V ) d( ) ; U V Cetodí metodou ~ vzdáleost mez střed shluů; ( u ~ v střed shluu U; ~ střed shluu V) D U V U V l ( U V ) d ( u v ) l l I. Mázová: Dobýváí zalostí 50
Shluová aalýza (7) Cetod ~střed shluu Pototp epezetuící daý shlu Jede shlu může být epezetová víceo cetod V závslost a tvau shluu a zvoleé metce po výpočet vzdáleost Shluováí metodou -středů I. Mázová: Dobýváí zalostí 5
Shluová aalýza (8) Shluováí metodou -středů:. Náhodě zvol ozlad do shluů. Uč cetod po všech shlu v atuálím ozladu 3. Po aždý vzo. Uč vzdáleost d ( c ) ( K; c ~ cetod -tého shluu). Nechť d 3. Neí-l ( c l ) m d ( c ) součástí shluu l ( ehož cetodu c l má eblíž) přesuň do shluu l 4. Došlo-l ěaému přesuu potom d a a KONEC I. Mázová: Dobýváí zalostí 5
Shluová aalýza (9) Shluováí metodou -středů: Vaat algotmu: Př počátečím ozladu pohlást pvích vzoů za cetod (odpade Ko ) Atualzace cetodů po aždém přesuu (v clu Kou 3) Shlu sou ásledě epezetová svým cetod I. Mázová: Dobýváí zalostí 53
Shluová aalýza (0) Algotmus heachcého shluováí: ~ metodou zdola ahou Icalzace:. Uč vzáemé vzdáleost mez všem vzo. Zařaď aždý vzo do samostatého shluu Hlaví clus:. Doud e více ež ede shlu. Nad dva avzáem eblžší shlu a spo e. Spočíte po teto ový shlu eho vzdáleost od ostatích shluů I. Mázová: Dobýváí zalostí 54
Shluová aalýza () Algotmus heachcého shluováí (poačováí): dedogam ~ uazue (zleva dopava) postupé spoováí shluů ~ optmálí počet shluů eí předem zám I. Mázová: Dobýváí zalostí 55
Vetoová vatzace: Algotmus LVQ Ko : Icalzace všech váhových vetoů w ( 0) Icalzace paametu učeí μ(0) a astaveí 0 Ko : Otestu uočovací podmíu: IF FALSE > CONTINUE IF TRUE > QUIT Ko 3: Po aždý téovací vzo poveď Ko 4 a 5 Ko 4: Uč de váhového vetou ( ) ta ab m w ( ) ( ) (použ euldovsou vzdáleost e váhový veto s mmálí vzdáleostí w I. Mázová: Dobýváí zalostí 56
I. Mázová: Dobýváí zalostí 57 Vetoová vatzace: Algotmus LVQ () Ko 5: Atualzu příslušý váhový veto podle: Ko 6: Nastav Sž paamet učeí apř. podle: μ ( ) μ ( ) / ( ) ( > 0 ) Před e Kou w [ ] [ ] w w w C C IF w w w C C IF w w μ μ
Vetoová vatzace: Algotmus LVQ (3) MATLAB: Fuce po LVQ Fucto W lv(xcxmmumate) % W lv(xcxmmumate) počítá váhovou matc % po vetoovou vatzac LVQ % X: e matce vstupů (aždý sloupec odpovídá % vstupímu vetou % CX: e řádový veto saláích tříd % odpovídaících sloupcovým vetoům z X % m: počet ůzých tříd % mu: počátečí paamet učeí % mate: mamálí počet teací N sze(x); I. Mázová: Dobýváí zalostí 58
Vetoová vatzace: Algotmus LVQ (4) MATLAB: Fuce po LVQ (poačováí) % calzace váhových vetoů podle pvích m vetoů % z téovací mož (musí obsahovat vzo ze všech tříd) W X(::m); CW CX(:m); % tříd po váhové veto som zeos(m); te ; whle te < mate f te fo m:n fo :m som() om(x(:) - W(:))^; ed [mdde] m(som); I. Mázová: Dobýváí zalostí 59
Vetoová vatzace: Algotmus LVQ (5) MATLAB: Fuce po LVQ (poačováí) f CX() CW(de) W(:de) W(:de) mu*(x(:)-w(:de)); else W(:de) W(:de) - mu*(x(:)-w(:de)); ed ed else fo :N fo :m som() om(x(:)-w(:))^; ed mdde] m(som); I. Mázová: Dobýváí zalostí 60
Vetoová vatzace: Algotmus LVQ (6) MATLAB: Fuce po LVQ (poačováí) f CX() CW(de) W(:de) W(:de) (mu/te)* (X(:)-W(:de)); else W(:de) W(:de) - (mu/te)* (X(:)-W(:de)); ed ed ed te te ; ed I. Mázová: Dobýváí zalostí 6