Příprava dat vybrat (ebo vytvořit) z dostupých dat ty údaje, teré jsou reevatí pro zvoeou úohu dobýváí zaostí, reprezetovat tyto údaje v podobě, terá je vhodá pro zpracováí zvoeým agoritmem. 1. Struturovaá data časová data (apř. časové řady urzů acií) y(t) y t 0 t 1 t 2 t 3 t 4 t 5 t 6 t 7... t Obr. 1 Původí časová řada vstupy výstup y(t 0 ) y(t 1 ) y(t 2 ) y(t 3 ) y(t 4 ) y(t 1 ) y(t 2 ) y(t 3 ) y(t 4 ) y(t 5 ) y(t 2 ) y(t 3 ) y(t 4 ) y(t 5 ) y(t 6 )... P. Bera, 2011 1/14
prostorová data (apř. geograficé iformačí systémy) struturáí data (apř. chemicé součeiy) atom('tr000','tr000_1'). eemet('tr000_1',c). atom('tr000','tr000_2'). eemet('tr000_2',c). atom('tr000','tr000_3'). eemet('tr000_3',c). atom('tr000','tr000_4'). eemet('tr000_4',c). atom('tr000','tr000_5'). eemet('tr000_5',h). bod('tr000','tr000_1_2'). coected('tr000_1','tr000_2','tr000_1_2'). coected('tr000_2','tr000_1','tr000_1_2'). bod_type('tr000_1_2',-). bod('tr000','tr000_2_3'). coected('tr000_2','tr000_3','tr000_2_3'). coected('tr000_3','tr000_2','tr000_2_3').... Reace (fata v Proogu) P. Bera, 2011 2/14
grafy graf reprezetová sezamem hra spojujících dva uzy (adjacecy matrix - matice sousedosti) texty text reprezetová sezamem sov v doumetu (bagof-words, vetorový mode) P. Bera, 2011 3/14
2. Více vzájemě propojeých tabue vztah 1:1 jeda etita prví reace je svázáa s jedou etitou druhé reace (osoba, trvaé bydiště) ze převzít přímo vztah 1: jeda etita jedé reace je svázáa s více etitami druhé reace (otec, dítě) agregovat hodoty vztah :m ěoia etitám z prví reace odpovídá jeda etita z druhé reace a současě ěoia etitám druhé reace odpovídá jeda etita prví reace (iet, účet) pomocá reace s vazbou :1 a 1:m 3. Odvozeé atributy P. Bera, 2011 4/14
4. Příiš moho objetů použít je určitý vzore (sampe) vybraý z ceých dat, áhodý výběr stratifiovaý výběr ve vzoru je stejé rozděeí příadů do tříd jao v ceých datech oversampig ve vzoru se preferují příady miorití třídy SAS EM demo použít taový způsob uožeí dat, terý by umoži přístup e všem objetům, aiž by je ceé uáda do operačí paměti, vytvořit více modeů a záadě podmoži objetů a modey poté zombiovat P. Bera, 2011 5/14
5. Příiš moho atributů trasformace - z existujících atributů vytvoříme meší počet atributů ových, seece - z existujících atributů vybereme je ty ejdůežitější automaticá seece: aezeí atributů, teré ejépe přispějí e asifiaci objetů do tříd metoda fitru fiter approach metoda obáy wrapper approach metoda fitru výpočet hodoty ritéria a záadě otigečí tabuy C(v 1 ) C(v 2 ). C(v S ) A(v 1 ) a 11 a 12. a 1S r 1 A(v 2 ) a 21 a 22. a 2S r 2 : : : : : : : : : : A(v R ) a R1 a R2. a RS r R s 1 s 2. s S P. Bera, 2011 6/14
1. χ 2 (maximaizovat) 2 = R 1 S 1 a e e 2 R 1 S 1 a r r s s 2 2. etropie H(A) (miimaizovat) H(A) = R =1 r H(A(v )), de H(A(v )) - S =1 a r og a r 3. iformačí míra závisosti ID(A,C) (maximaizovat) ID(A, C) = MI(A, C) H(C) - MI(A, C) S =1 s s og, de vzájemá iformace MI(A,C) je MI(A, C) = R =1 S =1 P(A(v 1 ) R =1 C(v S =1 P(A(v ))og P(A(v a og a r ) s C(v ))P(C(v. )) ) R =1 S =1 a og a r s P. Bera, 2011 7/14
pro možiu atributů: ID((A 1,...,A d ),C) MI((A 1,...,A H(C) d ),C) přidáváí: ID((A 1 A 2 ),C) = max x ID((A 1 A x 2 ),C). odstraňováí: ID((A 1 \ A 2 ),C) = max x ID((A 1 \ A x 2 ),C). P. Bera, 2011 8/14
6. Numericé atributy disretizace bez ohedu a třídu evidistatí evifrevečí disretizace s přihédutím třídě počet itervaů (biarizace ebo více itervaů) ritérium vaity (miimum asifiačí chyby, etropie, míra iformace ) strategie prohedáváí (rozděováí vs. spojováí it) typ itervaů (crisp vs. fuzzy) počet zpracovávaých atributů (jede vs. více) P. Bera, 2011 9/14
Fayyad, Irai (1993) Zis(A It, ) = H(A(It)) - H(A ) H(A(It)) = - T t=1 t ( A(It)) t ( A(It)) og (A(It)) (A(It)), H(A ) = (A(< )) (A(It)) H(A(< )) + (A(> )) (A(It)) H(A(v> )) Agoritmus Fayyad, Irai 1. uspořádej tréovací data vzestupě pode hodoty disretizovaého atributu 2. reurzivě biarizuj atuáí iterva It ta, že 2.1. ajdi ejvhodější děící bod a urči pro ěj Zis(A It, ) 2.2. je-i Zis(A It, ) > og 2(-1) A (It, ) + 2.2.1. rozdě iterva It a itervay It < a It > 2.2.2. poračuj v reurzi P. Bera, 2011 10/14
Lee, Shi (1994) E(It) = [ t ( p(cass t ) - p(cass t It) ) 2 ] 1/2 E( ) = [ t ( p(cass t A(< )) - p(cass t A(> )) ) 2 ] 1/2 Agoritmus Lee, Shi Iiciaizace 1. uspořádej tréovací data vzestupě pode hodoty disretizovaého atributu 2. pro aždý děící bod i = (a i + a i+1 )/2 2.1. vytvoř iterva It i = [ i, i+1] 2.2. spočítej E(It i ) a E( i ) Haví cyus 1. doud eí dosaže požadovaý počet itervaů 1.1. ajdi mi taové, že E( mi ) = mi i E( i ) 1.2. vytvoř iterva It mi = [ mi-1, mi] [ mi, mi+1] 1.3. spočítej E(It mi ), E( mi-1 ) a E( mi+1 ) P. Bera, 2011 11/14
Bera (1993) Agoritmus disretizace 1. vzestupě uspořádej hodoty umericého atributu A; 2. pro aždou hodotu a i 2.1. LBoud i := (a i-1 +a i )/2, UBoud i := (a i +a i+1 )/2 2.2. spočítej četosti jedotivých tříd a uož maximáí četost do maxfreq; 2.3. přiřaď ód třídy aždé hodotě procedurou ASSIGN; 3. vytvoř itervay hodot procedurou INTERVAL; ASSIGN: //aždá podmožia možiy hodot cíového atributu má svůj ód ód = 0 for = 1 to No_of_casses if (a) = maxfreq the ód = ód + 2 // (a) je počet příadů s hodotou a patřících do třídy INTERVAL: 1. vytvoř iterva INT = [LBoud, UBoud] pro seveci hodot se stejým ód 2. if FuMerge= YES the 2.1 pro aždý iterva INT i 2.1.1 if INT i emá žádou majorití třídu //tedy abe 2 x the vytvoř iterva INT i-1 INT i ebo INT i or INT i INT i+1 ta, aby spojeý iteva ezvyšova miimáí chybu fuzzy disretizace P. Bera, 2011 12/14
7. Kategoriáí atributy sesupováí hodot ručí pode četostí pode tříd Agoritmus sesupováí 1. pro aždou hodotu a i 1.1. spočítej četosti jedotivých tříd a uož maximáí četost do maxfreq 1.2. přiřaď ód třídy aždé hodotě procedurou ASSIGN; 2. vytvoř supiy hodot procedurou GROUP; ASSIGN: //aždá podmožia možiy hodot cíového atributu má svůj ód ód = 0 for = 1 to No_of_casses if (a) = maxfreq the ód = ód + 2 // (a) je počet příadů s hodotou a patřících do třídy GROUP: 1. vytvoř supiu pro všechy hodoty se stejým ód; 2. if FuMerge= YES the 2.1. vzestupě uspořádej supiy s jedou majorití třídou do sezamu A 2.2. vzestupě uspořádej supiy s vice majoritími třídami do sezamu B 2.3. repeat uti aždá supia v sezamu B bya zpracováa 2.3.1. vezmi prví supiu ze sezamu B //supiu s ejižší četostí 2.3.2. přidej tuto supiu e supiě ze sezamu A ta aby se ezvýšia chyba asifiace 2.3.3. přeuspořádej sezam A ódováí čísy (+ biarizace) P. Bera, 2011 13/14
8. Chybějící hodoty Typoogie chybějících hodot (Litte, Rubbi, 1987): missig competey at radom missig at radom missig ot at radom Ošetřeí chybějících hodot 1) igorovat objet s ějaou chybějící hodotou, 2) ahradit chybějící hodotu ovou hodotou evím, 3) ahradit chybějící hodotu ěterou z existujících hodot atributu a sice: a) ejčetější hodotou, b) proporcioáím podíem všech hodot, c) ibovoou hodotou, d) prediovaou hodotou P. Bera, 2011 14/14