Příprava dat. 1. Strukturovaná data. časová data (např. časové řady kurzů akcií)

Podobné dokumenty
Dobývání znalostí. Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze

vybrat (nebo vytvořit) z dostupných dat ty údaje, které jsou relevantní pro zvolenou úlohu dobývání znalostí,

Rozhodovací stromy. Úloha klasifikace objektů do tříd. Top down induction of decision trees (TDIDT) - metoda divide and conquer (rozděl a panuj)

2 IDENTIFIKACE H-MATICE POPISUJÍCÍ VEDENÍ Z NAMĚŘENÝCH HODNOT

pravděpodobnostn podobnostní jazykový model

Geometrické uspořádání koleje

Pravděpodobnost a aplikovaná statistika

1. Nakreslete všechny kostry následujících grafů: nemá žádnou kostru, roven. roven n,

IAJCE Přednáška č. 12

8.1.2 Vzorec pro n-tý člen

8.1.2 Vzorec pro n-tý člen

PRAVDĚPODOBNOST A STATISTIKA. Náhodný vektor nezávislost, funkce náhodného vektoru

Náhoda. Pravděpodobnost výhry při sázce na barvu: p = 18/37 = 0,486 Průměrný zisk při n sázkách částky č: - n.č + 2.č.n.p = n.č.

Doc. Ing. Dagmar Blatná, CSc.

3.3 Soustavy sil a silových momentů. soustava sil a momentů = seskupení sil a momentů sil působících na těleso

PRAVDĚPODOBNOST A STATISTIKA. Náhodný vektor nezávislost, funkce náhodného vektoru

NEPARAMETRICKÉ METODY

Statistika. Statistické funkce v tabulkových kalkulátorech MSO Excel a OO.o Calc

Cvičení 3 - teorie. Teorie pravděpodobnosti vychází ze studia náhodných pokusů.

Deskriptivní statistika 1

VÁŽENÝ ARITMETICKÝ PRŮMĚR S REÁLNÝMI VAHAMI


Sekvenční logické obvody(lso)

5. Lineární diferenciální rovnice n-tého řádu

Pojem času ve finančním rozhodování podniku


STATISTIKA. Základní pojmy

Digitální učební materiál


Lineární regrese ( ) 2

Regrese. Aproximace metodou nejmenších čtverců ( ) 1 ( ) v n. v i. v 1. v 2. y i. y n. y 1 y 2. x 1 x 2 x i. x n

Výukový modul III.2 Inovace a zkvalitnění výuky prostřednictvím ICT

Princip paralelního řazení vkládáním (menší propadává doprava)

k(k + 1) = A k + B. s n = n 1 n + 1 = = 3. = ln 2 + ln. 2 + ln

Budeme pokračovat v nahrazování funkce f(x) v okolí bodu a polynomy, tj. hledat vhodné konstanty c n tak, aby bylo pro malá x a. = f (a), f(x) f(a)

8. cvičení 4ST201-řešení

Aplikovaná informatika. Podklady předmětu Aplikovaná informatika pro akademický rok 2006/2007 Radim Farana. Obsah. Algoritmus

u, v, w nazýváme číslo u.( v w). Chyba! Chybné propojení.,

1 POPISNÁ STATISTIKA V PROGRAMU MS EXCEL

ÚBYTKY NAPĚTÍ V ES Jednoduchá ss vedení nn, vn Dvouvodičový rozvod. Předpoklad konst. průřezu a rezistivity. El. trakce, elektrochemie, světelné

3. Lineární diferenciální rovnice úvod do teorie

1. K o m b i n a t o r i k a

3.3.3 Rovinná soustava sil a momentů sil


8. cvičení 4ST201. Obsah: Neparametrické testy. Chí-kvadrát test dobréshody Kontingenční tabulky Analýza rozptylu (ANOVA) Neparametrické testy

I. Výpočet čisté současné hodnoty upravené

Národní informační středisko pro podporu kvality

Pravděpodobnostní model doby setrvání ministra školství ve funkci

MATICOVÉ HRY MATICOVÝCH HER

TOKY V GRAFU MAXIMÁLNÍ TOK SÍTÍ, MINIMALIZACE NÁKLADŮ SPOJENÝCH S DANOU HODNOTOU TOKU, FIXNÍ NÁKLADY, PŘEPRAVNÍ (TRANSHIPMENT) PROBLÉM.

Funkce. RNDr. Yvetta Bartáková. Gymnázium, SOŠ a VOŠ Ledeč nad Sázavou


Pro statistické šetření si zvolte si statistický soubor např. všichni žáci třídy (několika tříd, školy apod.).


Neuronové sítě. Biologický neuron. Modely neuronu. 1. Logický neuron (McCulloch, Pitts, 1943) w R, x, y {0, 1} Biologický neuron.

PRACOVNÍ SEŠIT KOMBINATORIKA, PRAVDĚPODOBNOST A STATISTIKA. 9. tematický okruh:


DIM PaS Připomenutí poznatků ze střední školy. Faktoriály a kombinační čísla základní vzorce: n = k. (binomická věta) Příklady: 1.

Popisná statistika - zavedení pojmů. 1 Jednorozměrný statistický soubor s kvantitativním znakem

Statistika je vědní obor zabývající se zkoumáním jevů, které mají hromadný charakter.

Či ost katastrál í h úřadů po digitaliza i katastrál í h ap

3. Charakteristiky a parametry náhodných veličin

b c a P(A B) = c = 4% = 0,04 d

odhady parametrů. Jednostranné a oboustranné odhady. Intervalový odhad střední hodnoty, rozptylu, relativní četnosti.

Cvičení 6.: Výpočet střední hodnoty a rozptylu, bodové a intervalové odhady střední hodnoty a rozptylu

Seznámíte se s pojmem Riemannova integrálu funkce jedné proměnné a geometrickým významem tohoto integrálu.

6. KOMBINATORIKA Základní pojmy Počítání s faktoriály a kombinačními čísly Variace

ý Č á ý á č ář ý ý ů á ě ě ě ů á žš řá řá šš á ř ř ž šš řá ůž ý á č Ž á ě žš řá č ý ž ě ě á ý á ř ž ř Í ř á ý á á žš Ťá ř ý á ý žš řá ář ý á ý ý á ář

3.4.7 Můžeme ušetřit práci?

S k l á d á n í s i l

Testování statistických hypotéz

STATISTIKA. Statistika se těší pochybnému vyznamenání tím, že je nejvíce nepochopeným vědním oborem. H. Levinson

P2: Statistické zpracování dat

4.2 Elementární statistické zpracování Rozdělení četností

ÚBYTKY NAPĚTÍ V ES Jednoduchá ss vedení nn, vn Dvouvodičový rozvod. Předpoklad konst. průřezu a rezistivity. El. trakce, elektrochemie, světelné

3. Sekvenční obvody. b) Minimalizujte budící funkce pomocí Karnaughovy mapy

Tento materiál vznikl díky Operačnímu programu Praha Adaptabilita CZ.2.17/3.1.00/33254

!!! V uvedených vzorcích se vyskytují čísla n a k tato čísla musí být z oboru čísel přirozených.

Pravděpodobnostní modely

Matematika 1. Katedra matematiky, Fakulta stavební ČVUT v Praze. středa 10-11:40 posluchárna D / 13. Posloupnosti

Markovovy řetězce s diskrétním časem (Discrete Time Markov Chain)

1. Přirozená topologie v R n

Spolehlivost a diagnostika

7 VYUŽITÍ METOD OPERAČNÍ ANALÝZY V TECHNOLOGII DOPRAVY

L A B O R A T O R N Í C V I Č E N Í Z F Y Z I K Y

6 Intervalové odhady. spočteme aritmetický průměr, pak tyto průměry se budou chovat jako by pocházely z normálního. nekonečna.

Vzorový příklad na rozhodování BPH_ZMAN


1 PSE Definice základních pojmů. (ω je elementární jev: A ω (A ω) nebo (A );

pracovní list studenta Acidobazické rovnováhy Odměrná analýza acidobazická titrace

Mendelova univerzita v Brně Statistika projekt

Pravděpodobnost a statistika - absolutní minumum

1.3. POLYNOMY. V této kapitole se dozvíte:

Nové symboly pro čísla

Přednáška VI. Intervalové odhady. Motivace Směrodatná odchylka a směrodatná chyba Centrální limitní věta Intervaly spolehlivosti

2.4. INVERZNÍ MATICE

Závislost slovních znaků

Mezní stavy konstrukcí a jejich porušov. Hru IV. Milan RůžR. zbynek.hruby.

Metody zkoumání závislosti numerických proměnných

Aplikace teorie neuronových sítí

Transkript:

Příprava dat vybrat (ebo vytvořit) z dostupých dat ty údaje, teré jsou reevatí pro zvoeou úohu dobýváí zaostí, reprezetovat tyto údaje v podobě, terá je vhodá pro zpracováí zvoeým agoritmem. 1. Struturovaá data časová data (apř. časové řady urzů acií) y(t) y t 0 t 1 t 2 t 3 t 4 t 5 t 6 t 7... t Obr. 1 Původí časová řada vstupy výstup y(t 0 ) y(t 1 ) y(t 2 ) y(t 3 ) y(t 4 ) y(t 1 ) y(t 2 ) y(t 3 ) y(t 4 ) y(t 5 ) y(t 2 ) y(t 3 ) y(t 4 ) y(t 5 ) y(t 6 )... P. Bera, 2011 1/14

prostorová data (apř. geograficé iformačí systémy) struturáí data (apř. chemicé součeiy) atom('tr000','tr000_1'). eemet('tr000_1',c). atom('tr000','tr000_2'). eemet('tr000_2',c). atom('tr000','tr000_3'). eemet('tr000_3',c). atom('tr000','tr000_4'). eemet('tr000_4',c). atom('tr000','tr000_5'). eemet('tr000_5',h). bod('tr000','tr000_1_2'). coected('tr000_1','tr000_2','tr000_1_2'). coected('tr000_2','tr000_1','tr000_1_2'). bod_type('tr000_1_2',-). bod('tr000','tr000_2_3'). coected('tr000_2','tr000_3','tr000_2_3'). coected('tr000_3','tr000_2','tr000_2_3').... Reace (fata v Proogu) P. Bera, 2011 2/14

grafy graf reprezetová sezamem hra spojujících dva uzy (adjacecy matrix - matice sousedosti) texty text reprezetová sezamem sov v doumetu (bagof-words, vetorový mode) P. Bera, 2011 3/14

2. Více vzájemě propojeých tabue vztah 1:1 jeda etita prví reace je svázáa s jedou etitou druhé reace (osoba, trvaé bydiště) ze převzít přímo vztah 1: jeda etita jedé reace je svázáa s více etitami druhé reace (otec, dítě) agregovat hodoty vztah :m ěoia etitám z prví reace odpovídá jeda etita z druhé reace a současě ěoia etitám druhé reace odpovídá jeda etita prví reace (iet, účet) pomocá reace s vazbou :1 a 1:m 3. Odvozeé atributy P. Bera, 2011 4/14

4. Příiš moho objetů použít je určitý vzore (sampe) vybraý z ceých dat, áhodý výběr stratifiovaý výběr ve vzoru je stejé rozděeí příadů do tříd jao v ceých datech oversampig ve vzoru se preferují příady miorití třídy SAS EM demo použít taový způsob uožeí dat, terý by umoži přístup e všem objetům, aiž by je ceé uáda do operačí paměti, vytvořit více modeů a záadě podmoži objetů a modey poté zombiovat P. Bera, 2011 5/14

5. Příiš moho atributů trasformace - z existujících atributů vytvoříme meší počet atributů ových, seece - z existujících atributů vybereme je ty ejdůežitější automaticá seece: aezeí atributů, teré ejépe přispějí e asifiaci objetů do tříd metoda fitru fiter approach metoda obáy wrapper approach metoda fitru výpočet hodoty ritéria a záadě otigečí tabuy C(v 1 ) C(v 2 ). C(v S ) A(v 1 ) a 11 a 12. a 1S r 1 A(v 2 ) a 21 a 22. a 2S r 2 : : : : : : : : : : A(v R ) a R1 a R2. a RS r R s 1 s 2. s S P. Bera, 2011 6/14

1. χ 2 (maximaizovat) 2 = R 1 S 1 a e e 2 R 1 S 1 a r r s s 2 2. etropie H(A) (miimaizovat) H(A) = R =1 r H(A(v )), de H(A(v )) - S =1 a r og a r 3. iformačí míra závisosti ID(A,C) (maximaizovat) ID(A, C) = MI(A, C) H(C) - MI(A, C) S =1 s s og, de vzájemá iformace MI(A,C) je MI(A, C) = R =1 S =1 P(A(v 1 ) R =1 C(v S =1 P(A(v ))og P(A(v a og a r ) s C(v ))P(C(v. )) ) R =1 S =1 a og a r s P. Bera, 2011 7/14

pro možiu atributů: ID((A 1,...,A d ),C) MI((A 1,...,A H(C) d ),C) přidáváí: ID((A 1 A 2 ),C) = max x ID((A 1 A x 2 ),C). odstraňováí: ID((A 1 \ A 2 ),C) = max x ID((A 1 \ A x 2 ),C). P. Bera, 2011 8/14

6. Numericé atributy disretizace bez ohedu a třídu evidistatí evifrevečí disretizace s přihédutím třídě počet itervaů (biarizace ebo více itervaů) ritérium vaity (miimum asifiačí chyby, etropie, míra iformace ) strategie prohedáváí (rozděováí vs. spojováí it) typ itervaů (crisp vs. fuzzy) počet zpracovávaých atributů (jede vs. více) P. Bera, 2011 9/14

Fayyad, Irai (1993) Zis(A It, ) = H(A(It)) - H(A ) H(A(It)) = - T t=1 t ( A(It)) t ( A(It)) og (A(It)) (A(It)), H(A ) = (A(< )) (A(It)) H(A(< )) + (A(> )) (A(It)) H(A(v> )) Agoritmus Fayyad, Irai 1. uspořádej tréovací data vzestupě pode hodoty disretizovaého atributu 2. reurzivě biarizuj atuáí iterva It ta, že 2.1. ajdi ejvhodější děící bod a urči pro ěj Zis(A It, ) 2.2. je-i Zis(A It, ) > og 2(-1) A (It, ) + 2.2.1. rozdě iterva It a itervay It < a It > 2.2.2. poračuj v reurzi P. Bera, 2011 10/14

Lee, Shi (1994) E(It) = [ t ( p(cass t ) - p(cass t It) ) 2 ] 1/2 E( ) = [ t ( p(cass t A(< )) - p(cass t A(> )) ) 2 ] 1/2 Agoritmus Lee, Shi Iiciaizace 1. uspořádej tréovací data vzestupě pode hodoty disretizovaého atributu 2. pro aždý děící bod i = (a i + a i+1 )/2 2.1. vytvoř iterva It i = [ i, i+1] 2.2. spočítej E(It i ) a E( i ) Haví cyus 1. doud eí dosaže požadovaý počet itervaů 1.1. ajdi mi taové, že E( mi ) = mi i E( i ) 1.2. vytvoř iterva It mi = [ mi-1, mi] [ mi, mi+1] 1.3. spočítej E(It mi ), E( mi-1 ) a E( mi+1 ) P. Bera, 2011 11/14

Bera (1993) Agoritmus disretizace 1. vzestupě uspořádej hodoty umericého atributu A; 2. pro aždou hodotu a i 2.1. LBoud i := (a i-1 +a i )/2, UBoud i := (a i +a i+1 )/2 2.2. spočítej četosti jedotivých tříd a uož maximáí četost do maxfreq; 2.3. přiřaď ód třídy aždé hodotě procedurou ASSIGN; 3. vytvoř itervay hodot procedurou INTERVAL; ASSIGN: //aždá podmožia možiy hodot cíového atributu má svůj ód ód = 0 for = 1 to No_of_casses if (a) = maxfreq the ód = ód + 2 // (a) je počet příadů s hodotou a patřících do třídy INTERVAL: 1. vytvoř iterva INT = [LBoud, UBoud] pro seveci hodot se stejým ód 2. if FuMerge= YES the 2.1 pro aždý iterva INT i 2.1.1 if INT i emá žádou majorití třídu //tedy abe 2 x the vytvoř iterva INT i-1 INT i ebo INT i or INT i INT i+1 ta, aby spojeý iteva ezvyšova miimáí chybu fuzzy disretizace P. Bera, 2011 12/14

7. Kategoriáí atributy sesupováí hodot ručí pode četostí pode tříd Agoritmus sesupováí 1. pro aždou hodotu a i 1.1. spočítej četosti jedotivých tříd a uož maximáí četost do maxfreq 1.2. přiřaď ód třídy aždé hodotě procedurou ASSIGN; 2. vytvoř supiy hodot procedurou GROUP; ASSIGN: //aždá podmožia možiy hodot cíového atributu má svůj ód ód = 0 for = 1 to No_of_casses if (a) = maxfreq the ód = ód + 2 // (a) je počet příadů s hodotou a patřících do třídy GROUP: 1. vytvoř supiu pro všechy hodoty se stejým ód; 2. if FuMerge= YES the 2.1. vzestupě uspořádej supiy s jedou majorití třídou do sezamu A 2.2. vzestupě uspořádej supiy s vice majoritími třídami do sezamu B 2.3. repeat uti aždá supia v sezamu B bya zpracováa 2.3.1. vezmi prví supiu ze sezamu B //supiu s ejižší četostí 2.3.2. přidej tuto supiu e supiě ze sezamu A ta aby se ezvýšia chyba asifiace 2.3.3. přeuspořádej sezam A ódováí čísy (+ biarizace) P. Bera, 2011 13/14

8. Chybějící hodoty Typoogie chybějících hodot (Litte, Rubbi, 1987): missig competey at radom missig at radom missig ot at radom Ošetřeí chybějících hodot 1) igorovat objet s ějaou chybějící hodotou, 2) ahradit chybějící hodotu ovou hodotou evím, 3) ahradit chybějící hodotu ěterou z existujících hodot atributu a sice: a) ejčetější hodotou, b) proporcioáím podíem všech hodot, c) ibovoou hodotou, d) prediovaou hodotou P. Bera, 2011 14/14