vybrat (nebo vytvořit) z dostupných dat ty údaje, které jsou relevantní pro zvolenou úlohu dobývání znalostí,

Rozměr: px
Začít zobrazení ze stránky:

Download "vybrat (nebo vytvořit) z dostupných dat ty údaje, které jsou relevantní pro zvolenou úlohu dobývání znalostí,"

Transkript

1 7. Příprava dat Příprava (předzpracováí) dat je ejobtížější a časově ejáročější krok ceého procesu dobýváí zaostí z databází. Současě je to ae krok, který má kíčový výzam pro úspěch daé apikace. Je to ta část práce, která (spou s krokem porozuměí probému) vyžaduje ejvětší podí spoupráce s expertem z daé apikačí obasti. Skoro ze říci, že probémy se získáím těch správých dat pro učící se systémy jsou podobé probémům se získáváím zaostí u systémů expertích. Cí předzpracováí je obvyke dvojí: vybrat (ebo vytvořit) z dostupých dat ty údaje, které jsou reevatí pro zvoeou úohu dobýváí zaostí, reprezetovat tyto údaje v podobě, která je vhodá pro zpracováí zvoeým agoritmem. Zatímco prví cí úzce souvisí s porozuměím probému i s porozuměím datům (a je tedy závisý a apikačí obasti), druhý cí (přizpůsobit data uvažovaému agoritmu) je reativě apikačě ezávisý. Tato kapitoa se z pochopiteých důvodů zaměřuje a druhý cí, tedy a otázku, jak uzpůsobit data pro jedotivé aaytické procedury. Z tohoto důvodu je kapitoa zařazea (v rozporu s časovým sedem procesu KDD) až za popis jedotivých agoritmů. Při předzpracováí potřebujeme zát (a tedy z hediska kihy popsat) požadavky jedotivých metod a podobu vstupích dat. Často může podoba dat vést k vobě metody. Přidržíme se přitom podoby, která je spoečá většiě dříve popsaých agoritmů; reprezetaci dat pomocí jedé datové tabuky, zachycující hodoty atributů objektů. To bude tedy cíový stav, ke kterému se budeme propracovávat při řešeí dáe uvedeých probémů. Prostředkem k dosažeí tohoto cíe budou růzé metody trasformace, seekce a tvorby atributů a objektů. Některé z díčích postupů předzpracováí jsme měi možost již pozat; to jsou ty postupy, které jsou itegrováy do aaytických agoritmů. Zde se k im vrátíme v širších souvisostech ceé fáze předzpracováí dat. 7.1 Jiá ež reačí data Kromě dat uchovávaých v reačích tabukách, u kterých ezáeží a pořadí objektů (objekty jsou avzájem ezávisé) můžeme v řadě obastí arazit a data s určitou strukturou. K takovým datům patří časová data (apř. časové řady kurzů akcií) prostorová data (apř. geografické iformačí systémy) strukturáí data (apř. chemické součeiy) Na opačé straě stojí aopak data estrukturovaá, apříkad texty. Probematice textů se věuje samostatá kapitoa. 1

2 Časová data jsou obvyke tvořea hodotami téže veičiy (ebo více veiči) zazameávaých v růzých okamžicích. Veičiou (typicky umerickou) může být kurz cey akcií, spotřeba eektrické eergie, výsedek aboratorího testu v emocici, trasakce a účtu v bace ebo sekvece avštíveých webových stráek (tzv. cickstream). Údaje tedy mohou být zazameáváy jak v ekvidistatích časových itervaech (deí kurzy akcií 1 ) ebo v ibovoých okamžicích (ávštěvy u ékaře). Obvykou úohou pro časová data je predikce budoucí hodoty veičiy (apř. kurzu akcií) a zákadě hodot zjištěých v miuosti. Tomu odpovídá i způsob předzpracováí který jsme již viděi v kapitoe o euroových sítích 2. Z časové řady (Obr. 1) se postupě vybírá úsek daé déky tak, že jeho začátek představuje hodoty vstupích atributů a jeho koec hodoty cíového atributu (Obr. 2). Jiým příkadem použití (a předzpracováí) časově závisých dat je situace, kdy tato data představují je díčí iformace popisující sožitější objekt. Příkadem může být úoha diagostikováí choroby mimo jié (ae ikoiv pouze) a zákadě opakovaých vyšetřeí. Pak se sekvece výsedků téhož aboratorího testu chápe (ve vztahu k pacietovi) jako reace :1 (viz dáe). y(t) t 0 t 1 t 2 t 3 t 4 t 5 t 6 t 7... t Obr. 1 Původí časová řada vstupy výstup y(t 0 ) y(t 1 ) y(t 2 ) y(t 3 ) y(t 4 ) y(t 1 ) y(t 2 ) y(t 3 ) y(t 4 ) y(t 5 ) y(t 2 ) y(t 3 ) y(t 4 ) y(t 5 ) y(t 6 )... Obr. 2 Časová řada po trasformaci V případě prostorových dat hraje mezi jedotivými objekty roi impicití reace sousedosti. Obvyke předpokádáme že hodoty atributů u sousedích objektů ebudou příiš odišé. Většia aaytických metod edokáže tuto vazbu mezi objekty vzít do úvahy. Spíše se tedy použije při iterpretaci, ebo jako dodatečé požadavky a aezeé zaosti. 1 Moderější přístup zazameáváí dat z burzy jsou tzv. ticková (vysokofrekvečí) data. Tato data jsou zazameáváa eekvidistatě, v okamžiku, kdy dojde k ějaké výrazější změě. Příkad aaýzy takových dat ze aézt v [Pece a ko, 1994]. 2 Jié způsoby trasformace časových řad jako apř. Fourierova trasformace (reprezetace časové řady ve frekvečí obasti) ebo waveetová trasformace (reprezetace časové řady pomocí skokových fukcí) přesahují rámec této kihy. 2

3 Příkad strukturáích dat můžeme aézt v souvisosti s predikcí karciogeích chemických átek 3. Pro reprezetaci orgaických součei se používá ěkoik způsobů. Jedá-i se apř. o součeiu de Obr. 3, můžeme jí zapsat pomocí tzv. SMILE kódů CC(C)C ebo jako soubor faktů v Proogu (Obr. 4). Druhá reprezetace přímo apovídá použít metody iduktivího ogického programováí, je ae samozřejmě možý i její převod a hodoty atributů (pak jde o probém kostrukce ových atributů a probém více vzájemě propojeých tabuek). C C C H C Obr. 3 Příkad chemické součeiy atom('tr000','tr000_1'). eemet('tr000_1',c). atom('tr000','tr000_2'). eemet('tr000_2',c). atom('tr000','tr000_3'). eemet('tr000_3',c). atom('tr000','tr000_4'). eemet('tr000_4',c). atom('tr000','tr000_5'). eemet('tr000_5',h). bod('tr000','tr000_1_2'). coected('tr000_1','tr000_2','tr000_1_2'). coected('tr000_2','tr000_1','tr000_1_2'). bod_type('tr000_1_2',-). bod('tr000','tr000_2_3'). coected('tr000_2','tr000_3','tr000_2_3'). coected('tr000_3','tr000_2','tr000_2_3'). bod_type('tr000_2_3',-). bod('tr000','tr000_2_4'). coected('tr000_2','tr000_4','tr000_2_4'). coected('tr000_4','tr000_2','tr000_2_4'). bod_type('tr000_2_4',-). bod('tr000','tr000_2_5'). coected('tr000_2','tr000_5','tr000_2_5'). coected('tr000_5','tr000_2','tr000_2_5'). bod_type('tr000_2_5',-). Obr. 4 Reprezetace chemické součeiy v Proogu 3 Jedá se o úohu avržeou pro Discovery Chaege ECML Šo o kasifikaci átek do 4 tříd (úroví karciogeity) a zákadě jejich struktury. Podrobější iformace byy k dispozici a Jié příkady ze aézt ve sboríku [Suzuki, 2000]. Zde šo mimo jié o hedáí vztahů mezi podstrukturami metodami vycházejícími z agoritmu apriori. 3

4 7.2 Více vzájemě propojeých tabuek S výjimkou metod iduktivího ogického programováí (ILP) potřebujeme pracovat s jedou datovou tabukou. Operace, která umoží z jedé ebo více reací (tabuek) vytvořit reaci (tabuku) ovou se v reačí agebře azývá spojeí (joi). Tato operace musí brát do úvahy růzý typ vztahů mezi etitami ve spojovaých tabukách. Zákadími typy vztahů z hediska kardiaity jsou vztah 1:1, vztah 1: (:1) a vztah :m. Vztah 1:1 zameá, že jeda etita prví reace je svázáa s jedou etitou druhé reace. Příkadem může být reace kiet(id_kieta, příjmeí, jméo) a reace trvaé_bydiště(id_bydiště, id_kieta, uice, město). Spojeí těchto dvou reací do jedé je veice jedoduché, ová reace bude obsahovat soupce (atributy) z obou původích reací, počet řádků bude (pro uvedeé reace) odpovídat počtu řádků v prví reaci 4. Vztah 1: (resp. :1) zameá, že jeda etita jedé reace je svázáa s více etitami druhé reace. Příkadem může být dvojce reací účet(id_účtu, datum_zaožeí, četost_výpisů), trvaé_ příkazy(id_příkazu, id_účtu, částka, bakoví_spojeí), ebo dvojce reací účet(id_účtu, datum_zaožeí, četost_výpisů), trasakce(id_trasakce, id_účtu, datum, částka, typ_ trasakce). V tomto případě bude ová tabuka obsahovat ové atributy pro agregovaé hodoty získaé z opakováí údajů (trvaých příkazů, trasakcí), vztahujících se k etitě a straě 1 (účtu) vztahu mezi reacemi Těmito agregovaými hodotami (atributy) bývají (pode typu původích atributů): pro umerické atributy (apř. částka): součet, miimum, maximum, průměr, pro kategoriáí atributy (apř. typ_trasakce): počet růzých hodot, výskyt kokrétí hodoty, majorití hodota, Počet řádků v ové tabuce pak bude odpovídat počtu řádků v reaci a straě 1 (tedy apř. počtu účtů). Vztah :m zameá že ěkoika etitám z prví reace odpovídá jeda etita z druhé reace a současě ěkoika etitám druhé reace odpovídá jeda etita prví reace. Příkadem může být reace kiet a reace účet; jede kiet může mít přístup k více účtům, k jedomu účtu může mít přístup více kietů. Vztah :m se obvyke vyjadřuje pomocí daší reace (pro áš případ reace dispozičí_práva) která je s původími reacemi svázáa vztahem 1: resp 1:m. Při spojováí těchto tabuek budeme opět vytvářet ové atributy pro agregovaé hodoty. Typ agregovaých hodot i počet řádků ve výsedé tabuce ae bude záviset a vobě úohy. Pode toho, zda chceme zkoumat kiety ebo účty zvoíme jedu reaci za haví (primárí) a spojeí budeme provádět vzhedem k í. Převedeme tedy vztah :m pode úohy a vztah 1:m ebo : Odvozeé atributy Z atributů přítomých v původích datech ze samozřejmě vytvářet odvozeé atributy. Někdy tvorbu ových atributů vyžaduje způsob předzpracováí (apř. atributy pro agregovaé hodoty při spojováí reací), jidy tvorba atributů pye z doméových zaostí (apř. převod rodého čísa kieta a věk a pohaví). Opět se tedy jedá o operaci, kdy je třeba úzce spoupracovat s expertem. 4 Pokud k ěkterému kietovi eexistují údaje o adrese, bude ová reace obsahovat chybějící hodoty. 4

5 7.4 Příiš moho objektů V reáých úohách se setkáváme s databázemi, které obsahují desítky a stovky tisíc objektů, zváštostí ejsou ai ještě větší počty. V případě agoritmů pracujících v ikremetáím režimu žádý probém evziká. Jié je to v případě agoritmů pracujících v dávkovém režimu, které předpokádají zpracováí ceých (tréovacích) dat aráz v operačí paměti. Pro řešeí tohoto probému se abízí: použít je určitý vzorek (sampe) vybraý z ceých dat 5, použít takový způsob uožeí dat, který by umoži přístup ke všem objektům, aiž by je ceé ukáda do operačí paměti, vytvořit více modeů a zákadě podmoži objektů a modey poté zkombiovat. Při výběru určitého vzorku se opět vyořuje otázka reprezetativosti dat. Požadujeme totiž, aby vybraé objekty co ejépe vystihovay ceá data 6. Shodu vzorku s ceými daty můžeme vyhodocovat apř. a zákadě shody rozděeí hodot atributů ve vybraém vzorku i v ceých datech. V praxi se často spokojíme s tím, že tuto shodu zjišťujeme pouze pro cíový atribut určující zařazeí objektů do tříd. Pak je a místě dostatečě veiký áhodý výběr. Výjimku z tohoto požadavku představuje situace, kdy jsou třídy v původích datech evyvážeé. Je-i apř. v ceých datech podí objektů jedé třídy 95% a objektů druhé třídy 5%, bude mít většia aaytických agoritmů tedeci preferovat majorití třídu. Naezeé zaosti by tedy měy podobu defautu každý objekt patří do majorití třídy. Často ás ae zajímají zaosti týkající se té druhé třídy. V takovém případě musíme buď vzít do úvahy růzé cey za růzý typ chybého rozhodutí 7, ebo musíme upravit tréovací data do takové podoby, kdy jeda třída ebude domiovat té druhé. Ve druhém případu budeme tedy vybírat příkady růzých tříd s růzou pravděpodobostí (resp. vážit příkady růzých tříd růzými vahami) 8. Při výběru objektů do tréovací možiy se samozřejmě můžeme řídit i dašími dodatečými iformacemi: můžeme apř. vybírat typické příkady, ebo aopak atypické příkady, pouze příkady bez chybějících hodot apod. Jistou variatou vzorkováí je i křížová vaidace, při které se z dat opakovaě vybere je určitá část pro tréováí a jiá část pro testováí (viz kapitoa o evauaci). Zde můžeme teto pricip použít tak, že vytvoříme růzé modey a zákadě růzých vzorků, a pro vastí kasifikaci použijeme mode ejepší. Příkad efektivějšího uožeí rozsáhých dat ajdeme apř. v systému SPRINT pro paraeizaci vytvářeí rozhodovacích stromů z rozsáhých databází [Shafer a ko, 1996]. Teto systém pracuje se samostatým souborem pro každý atribut. Zázam v souboru j je tvoře trojicí [idex_objektu, hodota_atributu_j, hodota_cíového_atributu], zázamy jsou avíc uspořádáy pode hodoty atributu j. Tato reprezetace umoží sado aézt ejvhodější větvící atribut, případě provést biarizaci atributu. Jiým příkadem je metoda GUHA, která používá tzv. karty veiči, což jsou bitové řetězce kódující zda objekt spňuje ějaký cedet [Hájek a ko.,1983]. Kombiováí kasifikátorů jako způsob, jak vyřešit probém s vekým počtem objektů uvádí Cha a Stofo [Cha, Stofo, 1995]. Tréovací možiu ze áhodě rozděit a N vzájemě disjuktích podmoži. Z každé podmožiy se vytvoří samostatý mode (v uvedeém případě) rozhodovací strom. Jedotivé stromy pak hasují o zařazeí ezámého příkadu. 5 Tato operace se v reačí agebře azývá seekce. 6 Pro úpé pokrytí prostoru atributů bychom pro biárích atributů potřebovai 2 růzých objektů. 7 Podstatě horší chybou (chybou s větší ceou) bude chybé zařazeí mioritího příkadu do majorití třídy. 8 Extrémí variatou tohoto přístupu je použít všechy příkady miorití třídy a dopit je áhodě vybraými příkady majorití třídy tak, aby podí obou tříd ve tréovacích datech by stejý. 5

6 7.5 Příiš moho atributů V reáých úohách se setkáváme s databázemi, které obsahují desítky a stovky atributů. Ne všechy z ich jsou samozřejmě reevatí pro zamýšeou aaýzu, takže stojíme před otázkou redukce tohoto počtu. Odpověď ze hedat u experta (který může vědět, které atributy jsou pro daou úohu reevatí), ebo v automatických metodách, které abízejí ásedující dva způsoby: trasformaci, kdy z existujících atributů vytvoříme meší počet atributů ových, seekci, kdy z existujících atributů vybereme je ty ejdůežitější 9. Otázka redukce dimezioaity je dobře záma z obasti rozpozáváí obrazů 10. Pro trasformaci atributů se zde používá apř. Karhoue Loevův rozvoj, faktorová aaýza ebo aaýza havích kompoet. Tyto metody předpokádají použití výhradě umerických atributů. Zákadem všech uvedeých metod je reprezetace objektů pomocí hodot ových atributů, které vzikou jako ieárí kombiace atributů původích. Jistou evýhodou těchto metod tedy je skutečost, že potřebujeme zát (měřit) hodoty všech původích atributů. Nové, trasformovaé atributy avíc emusí mít srozumiteou iterpretaci, což může být v kokrétí úoze a závadu. Při (automatizovaé) seekci atributů obvyke hedáme ty atributy, které ejépe přispějí ke kasifikaci objektů do tříd. K tomuto probému můžeme přistoupit dvojím způsobem. Buď pro každý atribut spočítat ějakou charakteristiku vyjadřující vhodost atributu pro kasifikaci (teto přístup bývá azývá metoda fitru fiter approach), ebo použít ějaký agoritmus strojového učeí pro vytvořeí modeu z (pod)možiy atributů a vyhodotit mode (teto přístup bývá azývá metoda obáky wrapper approach). Pro metodu fitru ze použít kritéria používaá pro vobu atributu pro větveí rozhodovacího stromu (etropii ebo iformačí zisk), vzájemou iformaci ebo χ 2 test. Tato kritéria vycházejí z kotigečí tabuky. Podobu tabuky pro (vstupí) atribut A a cíový atribut C ukazuje Obr. 5. C(v 1 ) C(v 2 ). C(v S ) A(v 1 ) a 11 a 12. a 1S r 1 A(v 2 ) a 21 a 22. a 2S r 2 : : : : : : : : : : A(v R ) a R1 a R2. a RS r R s 1 s 2. s S Obr. 5 Kotigečí tabuka pro atribut A a třídu C kde a k je četost (frekvece) kombiace (A(v k ) (C(v )) 9 V agicky psaé iteratuře se požívá termí feature seectio. V reačí agebře se teto typ operace azývá projekce. 10 Rozpozáváí obrazů (patter recogitio) je reativě samostatá obast uměé iteigece, řešící úohy kasifikace tak jak jsou popsáy v této kize: Na zákadě tréovací možiy se hedá obecý popis tříd. Každý objekt je reprezetová umerickým vektorem přízaků (feature vector), modey používaé pro kasifikaci tedy reprezetují zaosti o třídách v podobě diskrimiačích fukcí ebo etaoů. 6

7 a S r k = ak, =1 R s = ak, a R S = ak. k=1 k=1 =1 Uvedeé četosti ze použít pro odhad pravděpodobostí: P(A(v k ) C(v )) = a k, P(A(v k)) = r k a P(C(v )) = s Přísušá kritéria jsou pak 1. χ 2 (čím větší hodota, tím épe) χ 2 = R S k= 1 = 1 ( a e ) k e k k 2 = R S k= 1 = 1 a k rk s r s k 2 2. etropie H(A) (čím meší hodota, tím épe) R rk H(A) = H(A(v k )), kde k=1 H(A(v k )) = - S =1 a r k a og r k 3. iformačí míra závisosti ID(A,C) (čím větší hodota, tím épe) ID(A, C)= kde vzájemá iformace MI(A,C) je MI(A, C) = R k=1 S =1 P(A(v k ) C(v MI(A, C) H(C) )) og MI(A, C) =, S s s - og =1 P(A(v ) C(v )) P(A(v k k a )) P(C(v R S k = 1 a k og. k=1 =1 rk s ) = R k=1 S =1 a k og a r s k k = Atributy ze uspořádat pode hodoty kritéria; pak můžeme vybrat je určitý počet těch ejepších. Lze postupovat zdoa ahoru tedy přidáváím atributů, ebo shora doů tedy odstraňováím atributů z původí možiy všech atributů. Nevýhodou uvedeého způsobu seekce je, že posuzuje každý atribut zvášť a ezachycuje současý viv více atributů a správost kasifikace. Vhodější 11, ae výpočetě áročější je místo pro jede atribut (tedy pro všechy hodoty tohoto atributu) počítat hodotu kritéria pro možiu atributů (tedy pro všechy kombiace hodot těchto atributů). Agoritmus pro seekci atributů pak bude vytvářet možiy atributů a počítat pro ě hodoty kriteria. Podobě jako v případě idividuáího posuzováí 11 Neí totiž pravda, že atributy, které jsou samy o sobě ejepší (ve smysu uvažovaého kriteria) vytvoří i ejepší možiu. 7

8 jedotivých atributů A i při posuzováí moži atributů ze tyto možiy vytvářet v zásadě dvojím způsobem: shora doů (odstraňováím atributů; tzv. zpětá seekce), ebo zdoa ahoru (přidáím atributů; tzv. přímá seekce). Jádrem agoritmu seekce je tedy prohedáváí prostoru všech podmoži původí možiy atributů. Voba prohedávací strategie může být dopěa o určeí počtu atributů, které se odstraí resp. přidají v daém kroku (jede atribut, pevý počet atributů, proměý počet atributů). Obšírě je tato probematika popsáa v [Pudi, 2001] resp. [Pudi a ko., 1994]. Pudi uvádí růzé metody výběru možiy atributů: přímá seekce s pevým počtem atributů, zpětá seekce s pevým počtem atributů, kombiovaá přímá a zpětá seekce s pevým počtem atributů, přímá seekce s proměým počtem atributů, zpětá seekce s proměým počtem atributů, adaptiví přímá seekce, adaptiví zpětá seekce. Ve všech případech používá jako kritérium pro hodoceí aktuáí možiy iformačí míru závisosti. Pro možiu d atributů má toto kritérium podobu kde MI((A,..., A a 1 d ), C)= S s s H(C) = - og. =1 (A1... Ad ) C MI((A 1,..., A d ), C) ID((A 1,..., A d ), C) =, H(C) P(A 1 (v 1k )... A d (v dk P(A 1(v ) C(v )) og P(A (v 1 1k 1k )... A )... A d d (v (v dk dk ) C(v )) P(C(v )) )) Je-i seekce atributů zaožea a přidáváí atributů, v daém kroku se k již vybraé možiě atributů A 1 přidá taková možia atributů A 2, že 12 ID((A 1 A 2 ),C) = max x ID((A 1 A x 2),C). Je-i seekce atributů zaožea a odstraňováí atributů, v daém kroku se z uvažovaé možiy atributů A 1 odstraí taková možia atributů A 2, že ID((A 1 \ A 2 ),C) = max x ID((A 1 \ A x 2),C). Jiým příkadem, jak vybírat možiy atributů, je metoda obáky, která využívá (hrubé) výpočetí síy současých počítačů [Joh a ko, 1994]. Z možiy všech použiteých atributů se opakovaě vybírá určitá část a ta se pak použije pro popis objektů v tréovací i testovací možiě. Pro každou tréovací možiu se vytvoří jede mode, který bude otestová a testovacích datech téže struktury atributů. Z takto vytvořeých modeů se pak použije te ejepší 13 voba modeu zároveň určí reevatí atributy. Metodu obáky ze použít zdoa ahorů (začít od modeů vytvořeých pro jedotivé atributy a atributy postupě přidávat), shora doů (začít od modeu vtvořeého pro původí možiu atributů a atributy postupě odstraňovat), ebo pro áhodý způsob výběru podmožiy atributů. 12 Místo iformačí míry závísosti je možé použít i jié dříve uvedeé kritérium. 13 Kritériem kvaity modeu je správost kasifikace a testovacích datech. 8

9 7.6 Numerické atributy Jako jisté omezeí ěkterých agoritmů dobýváí zaostí se může jevit to, že pracují pouze s kategoriáími daty. Numerické atributy tedy ejprve musíme diskretizovat (rozděit a itervay). Někdy se diskretizace provádí v průběhu práce agoritmu 14, jidy se provádí ve fázi předzpracováí dat. Diskretizace často závisí a povaze řešeého probému; a zaostech, které teprve hedáme. Je-i k dispozici expert, je épe mu tuto diskretizaci přeechat. Existují ae i metody umožňující provádět diskretizaci automaticky. K ejjedodušším metodám patří diskretizace a předem zadaý počet ekvidistatích ebo ekvifrekvetích itervaů. V prvím případě se obor hodot umerického atributu rozděí a stejě douhé itervay (Obr. 6); stačí tedy zát je rozsah hodot. Ve druhém případě se obor hodot rozděí a itervay, které obsahují (zhruba) stejý počet objektů (Obr. 7); tady už potřebujeme zát počty výskytu jedotivých hodot. V obou případech se ae umerický atribut diskretizuje bez využití iformací o hodotách jiých atributů. Jié metody využívají při diskretizaci iformací o přísušosti objektů k růzým třídám 15 (Obr. 8). K ejzámějším patří agoritmus Fayyada a Iraiho [Fayyad, Irai, 1993]. Jejich přístup zobecňuje biarizaci (rozděeí hodot umerického atributu A do dvou itervaů) používaou systémy CART ebo ID3 16 a diskretizaci do více itervaů. Schéma agoritmu je uvedeo a Obr. 9. Agoritmus rekursivě (postupem shora doů) biarizuje aktuáí iterva tak, že bere do úvahy jedotivé děící body 17 a staovuje: zda se má iterva dáe rozděit, pokud ao, tak který děící bod použít Kritérium pro toto rozhodutí vychází z etropie. Podobě jako při tvorbě rozhodovacích stromů se zjišťuje iformačí zisk, v tomto případě tedy příos rozděeí daého itervau It pro kasifikaci: Zisk(A It,θ ) = H(A(It)) - H(A θ ) Etropie H(A(It)) se tetokrát vztahuje k itervau před biarizací, etropie H(A θ ) se vztahuje k itervau po biarizaci, tedy H(A(It)) = T t ( A(It)) t ( A(It)) - og, (A(It)) (A(It)) t=1 H(A θ ) = (A(<θ)) (A(>θ)) (A(It)) H(A(<θ)) + (A(It)) H(A(v>θ)) přičemž (A(It)) je počet příkadů, které mají hodotu atributu A z itervau It (případý idex t ozačuje příkady třídy t ) a (A(<θ)) (resp. (A>θ)) ) je počet příkadů, jejichž hodota atributu A je z itervau It a je meší (resp. větší) ež θ. H(A(<θ)) (resp. H(A>θ))) je pak etropie pro příkady jejichž hodota atributu A je z itervau It a je meší (resp. větší) ež θ. 14 Práci s umerickými atributy v tomto smysu jsme se věovai v kapitoách o rozhodovacích stromech i rozhodovacích pravidech. 15 To se samozřejmě týká kasifikačích úoh, kdy je tato iformace dostupá. 16 Jde o agoritmy pro tvorbu rozhodovacích stromů popsaé a jiém místě. 17 Děící bod je obecě hodota, ežící mezi dvěma po sobě ásedujícími hodotami umerického atributu, které jsou obsažey v datech. Pro růzých hodot atributu A tedy existuje -1 děících bodů. Oba autoři ae ukázai, že stačí brát do úvahy pouze takové děící body (tzv. hraičí), které od sebe odděují objekty patřící do růzých tříd. 9

10 Obr. 6 Ekvidistatí itervay Obr. 7 Ekvifrekvečí itervay Obr. 8 Diskretizace vzhedem k třídám Iterva It ze obvyke biarizovat pode více děících bodů. Výše uvedeé kritérium iformačího zisku umožňuje aézt te ejvhodější. O tom, zda se iterva pode tohoto děícího bodu skutečě rozděí pak rozhoduje kritérium, které autoři odvodii s použitím pricipu miimáí deskripčí déky (MDL). K biarizaci aktuáího itervau It dojde, jestiže kde Zisk(A It,θ ) > og 2((A(It))-1) (A(It)) + A(It, θ) (A(It)), A (It, θ) = og 2 (3 k 2) (k H(A(It)) k 1 H(A(<θ)) k 2 H(A(>θ)), 10

11 přičemž k je počet růzých tříd pro objekty spadající do itervau It, k 1 je počet růzých tříd pro objekty v itervau It <θ a k 2 je počet růzých tříd pro iterva It >θ [Fayyad, Irai, 1993]. Agoritmus Fayyad, Irai 1. uspořádej tréovací data vzestupě pode hodoty diskretizovaého atributu 2. rekurzivě biarizuj aktuáí iterva It tak, že 2.1. ajdi ejvhodější děící bod θ a urči pro ěj Zisk(A It,θ ) 2.2. je-i Zisk(A It,θ ) > og 2(-1) + A (It, θ) rozdě iterva It a itervay It <θ a It >θ pokračuj v rekurzi Obr. 9 Agoritmus Fayyada a Iraiho Jiý způsob diskretizace je popsá v [Lee, Shi, 1994]. Tetokrát se jedá o diskretizaci zdoa ahoru zaožeou a postupém spojováí hodot umerického atributu do předem zadaého počtu výsedých itervaů. Autoři se opět ispirovai v teorii iformace; při posuzováí itervaů se měří (pomocí tzv. Heigerovy divergece) rozdí mezi možstvím iformace v ceých datech a možstvím iformace v itervau: E(It) = [ t ( p(cass t ) - p(cass t It) ) 2 ] 1/2 Podobě se vyhodocuje iformace spojeá s děícím bodem θ, odděujícím dva itervay: V obou vzorcích E(θ) = [ t ( p(cass t A(<θ)) - p(cass t A(>θ)) ) 2 ] 1/2 p(cass t ) = t a p(cass t It) = t(it) (It) Na rozdí od předcházejícího agoritmu se tetokrát daty prochází opakovaě. Při každém průchodu se spojí dvojice itervaů odděeých od sebe děícím bodem s ejmeší hodotou E(θ) (Obr. 10).. Agoritmus Lee, Shi Iiciaizace 1. uspořádej tréovací data vzestupě pode hodoty diskretizovaého atributu 2. pro každý děící bod θ i = (a i + a i+1 )/ vytvoř iterva It i = [θ i, θ i+1 ] 2.2. spočítej E(It i ) a E(θ i ) Haví cykus 1. dokud eí dosaže požadovaý počet itervaů 1.1. ajdi θ mi takové, že E(θ mi ) = mi i E(θ i ) 1.2. vytvoř iterva It mi = [θ mi-1, θ mi ] [θ mi, θ mi+1 ] 1.3. spočítej E(It mi ), E(θ mi-1 ) a E(θ mi+1 ) Obr. 10 Agoritmus Leeho a Shia 11

12 Možost diskretizovat umerické atributy abízí i systém KEX [Berka, 1993]. Agoritmus pro diskretizaci je zde úzce spoje s agoritmem pro tvorbu báze zaostí. Numerický atribut se diskretizuje s přihédutím k tomu, jak se do báze zaostí zařazují jedotivá pravida. Cíem je diskretizace, která povede k vytvořeí pravide A(It) Cass Budeme se tedy sažit vytvářet takové itervay A(It), aby se P(Cass A(It)) sigifikatě išio od P(Cass). Každý iterva A(It) je dá svou doí a horí mezí DMez a HMez. Agoritmus je uvede a Obr. 11. Opět se jedá o postup zdoa ahoru (spojováím), tetokrát se ae předem ezadává počet itervaů. Diskretizace pro KEX Haví cykus: 1. vytvoř uspořádaý sezam hodot uvažovaého atributu; 2. pro každou hodotu 2.1. spočítej četosti výskytu objektů s touto hodotou pro jedotivé třídy; 2.2. přiřaď kód třídy každé hodotě procedurou ASSIGN; 3. vytvoř itervay hodot procedurou INTERVAL; ASSIGN: pokud pro daou hodotu všechy objekty patří do stejé třídy, pak přiřaď hodotě kód této třídy; jiak pokud pro daou hodotu veičiy se rozděeí objektů do tříd sigifikatě iší (a zákadě χ 2 testu) od apriorího rozděeí tříd, pak přiřaď hodotě kód ejčetější třídy, jiak přiřaď hodotě kód "?"; INTERVAL: 3.1. pokud sekvece hodot má stejý kód třídy, pak vytvoř iterva z těchto hodot; 3.2. pro každý iterva INT i pokud iterva INT i patří do třídy "?" pak pokud jeho sousedí itervay INT i-1, INT i+1 patří do téže třídy vytvoř iterva spojeím INT i-1 INT i INT i jiak vytvoř iterva buď spojeím INT i-1 INT i ebo spojeím INT i INT i+1 pode výsedku χ 2 testu 3.3. vytvoř spojité pokrytí defiičího itervau veičiy DMEZ i := HMEZ i-1 Obr. 11 Agoritmus diskretizace v systému KEX Čiost agoritmu si ukážeme a ásedujícím příkadu diskretizace atributu umber of years workig at curret compay z dat o půjčkách 18. Apriorí rozděeí cíových tříd je uvedeo v Tab. 1. Při diskretizaci se tedy bude brát do úvahy apriorí pravděpodobost P(+)=0.68. třída abs. četost re. četost půjčka(+) půjčka(-) Tab. 1 Apriorí rozděeí tříd 18 Jedá se o data Japa Credit z koekce datových souborů používaých pro testováí agoritmů strojového učeí. Tato koekce je uožea a Kaiforské uiversitě v Irvie (UCI ) a je přístupá po Iteretu [Murphy, Aha, 1994]. 12

13 Nejprve je vytvoře uspořádaý sezam hodot veiči a každé hodotě je procedurou ASSIGN přiřaze kód cíové třídy a zákadě četostí objektů s touto hodotou pro jedotivé třídy (Tab. 2); v případě sporých hodot se použije χ 2 test. Procedurou INTERVAL jsou pak vytvořey itervay spojeím sekvecí hodot téže třídy (krok 3.1 viz. Tab. 3). V ásedujícím kroku 3.2 se zařazují sporé případy; je-i iterva třídy? uzavře mezi stejými itervay, přiřadí se do tohoto itervau (krok Tab. 4), je-i iterva třídy? uzavře mezi růzými itervay, přiřadí se k jedomu z ich pode hodoty χ 2 (krok Tab. 5). Hodota (půjčka( +)) (půjčka( -)) třída ? ? ? ? ? Tab. 2 Třída pro jedotivé hodoty DMez HMez (půjčka( +)) (půjčka( -)) třída ? ? ? ? ? Tab. 3 Itervay ze sekvecí hodot téže třídy 13

14 DMez HMez (půjčka( +)) (půjčka( -)) třída ? Tab. 4 Zařazeí vořeých sporých itervaů DMez HMez (půjčka( +)) (půjčka( -)) třída Tab. 5 Zařazeí "hraičích" sporých itervaů Na závěr jsou vytvořey výsedé itervay, které pokryjí ceý defiičí obor veičiy: hodota =< 3.00, 3.00 < hodota Uvedeý způsob diskretizace může vést k vytvořeí začě vekého počtu kategorií v případě, že se pro po sobě jdoucí hodoty střídají přiřazeí objektů ke třídám. Proto se v kroku 3.1 zařazují máo četé itervay do třídy "?" 19. Agoritmus má zajímavou modifikaci umožňující vytvářet fuzzy itervay [Bruha, Berka, 2000]. Na rozdí od ostrých hraic děících bodů jsou v případě fuzzy itervaů hraice eostré. V agoritmu diskretizace pro systém KEX to zameá ovou proceduru INTERVAL (Obr. 12). Největší změa je v kroku a 3.3, kde je vytvářea hraice mezi itervay. INTERVAL: 3.2. pokud má sekvece hodot stejý kód třídy, pak vytvoř iterva z těchto hodot (s charakteristickou fukcí rovou 1 v ceém itervau) 3.3. pro každý iterva INT i pokud iterva INT i patří do třídy "?" pak pokud jeho sousedí itervay INT i-1, INT i+1 patří do téže třídy vytvoř iterva spojeím INT i-1 INT i INT i+1 (s charakteristickou fukcí rovou 1 v ceém itervau) jiak vytvoř jede iterva spojeím INT i-1 INT i tak, že charakteristická fukce je rova 1 v iterau [DMez i-1, HMez i-1 ] x - DMezi a rova HMezi - pro x v itervau [DMez i,hmez i ] DMezi a druhý iterva spojeím INT i INT i+1 tak, že charakteristická fukce je rova 1 v iterau [DMez i+1, HMez i+1 ] DMezi - x a rova HMezi - pro x v itervau [DMez i,hmez i ] DMezi 3.4. vytvoř spojité pokrytí defiičího itervau veičiy shodě s krokem (mezery mezi itervay jsou chápáy jako iterva třídy "?") Obr. 12 Fuzzy diskretizace 19 Miimáí počet objektů v itervau je jede ze vstupích parametrů agoritmu. 14

15 Obr. 13 Fuzzy itervay Budeme-i postupovat pode uvedeé modifikace, můžeme z jedé umerické hodoty získat dvě diskretizovaé hodoty tak, že součet odpovídajících charakteristických fukcí bude rový jedé. To ve svých důsedcích vede ke vziku částečých objektů, které mají váhu (vyjadřující jejich zastoupeí v datech) meší ež 1. Obr. 13 ukazuje tuto situaci a příkadu atributu tepota, který (pro hodotu 36.9 o C) vede k vytvořeí dvou objektů [Bruha, Berka, 2000]: [... vasy = čeré, tepota = 36.9,... ] [... vasy = čeré, tepota = ízká,...] [... vasy = čeré, tepota = vysoká,...] µ(tepota) = 0.8 µ(tepota) = 0.2 Váha částečého objektu je dáa součiem hodot charakteristických fukcí všech atributů 20 : w(obj) = i µ(x i ) Součet vah všech částečých objektů, které odpovídají témuž objektu v původích datech je rove 1. Provedeím diskretizace umerického atributu samozřejmě ztrácíme ějakou iformaci. Objekty, které měy původě růzé hodoty umerického atributu, mohou mít stejé hodoty diskretizovaého atributu. V krajím případě mohou v důsedku diskretizace dva původě růzé objekty spyout do jedoho. Pokud oba původě růzé objekty patří do růzých tříd, po diskretizaci mezi imi systém ebude umět rozišit, zařadí je tedy do téže třídy a tím se dopustí chyby. Zhorší se tedy maximáí možá správost kasifikace 21. Takto vyjádřeou ztrátu způsobeou diskretizací můžeme předem odhadout. Můžeme vyjít z maximáí možé úspěšosti predikce pode diskretizovaého atributu před a po diskretizaci. Lze zjistit počet kotradikcí 22 daých (pouze) ediskretizovaým atributem a počet kotradikcí daých atributem po diskretizaci. Dříve uvedeý vztah ám pak umoží spočítat miimáí počet chyb při kasifikaci a tím i maximáí možou správost kasifikace. 20 V případě kategoriáího atributu x i je charakteristická fukce µ(x i ) = A pravděpodobě i správost skutečá. 22 Kotradikcí mysíme situaci, kdy objekty se stejými hodotami vstupích atributů patří do růzých tříd. 15

16 Pro áš ukázkový příkad diskretizace atributu umber of years workig atcurret compay je miimáí chyba při kasifikaci pode tohoto atributu před diskretizací a miimáí chyba při kasifikaci pode diskretizovaého atributu = = 26.4% = = 22.4% Maximáí možá správost kasifikace je pak 77.6% pro umerický atribut a 73.6% pro atribut diskretizovaý. Ztrátu způsobeou diskretizací ze tedy v ašem případě vyjádřit jako zhoršeí maximáí možé správosti kasifikace pode diskretizovaého atributu o 4% ve srováí s kasifikací pode atributu ediskretizovaého. Obdobě je možo rověž zjistit maximáí možou správost pro ceá data před a po diskretizaci. Pro áš případ kreditích dat je v obou případech max. možá správost rova 100%. Tedy, v tomto případě diskretizace ezpůsobia žádou ztrátu iformace potřebé pro tvorbu modeu. Experimety prováděé a daších datech 23 ukazují, že ztráta způsobeá diskretizací je obvyke vemi maá (Tab. 6). Vedejším důsedkem diskretizace je sížeí počtu růzých objektů. Řada dříve rozdíých hodot totiž pade do stejého itervau. To dokumetuje rověž Tab. 6 ([Berka, Bruha, 1998a]). Diskretizace umerických atributů tedy může přispět k objeveí jistých pravideostí v datech. Původí data Diskretizovaá data data počet objektů max. úspěšost počet objektů max. úspěšost japa credit % % austraia credit % % iris % 35 98% pima idia diabetes % % Tab. 6 Viv diskretizace a počet objektů a maximáí možou správost kasifikace 7.7 Kategoriáí atributy Chceme-i použít agoritmy, které používají umerické vstupy (apř. euroové sítě), musíme hodoty kategoriáích atributů zakódovat pomocí číse. V případě biárích atributů to mohou být apř. hodoty 0, 1 ebo 1, 1, v případě ordiáích atributů to může být pořadové číso hodoty, v případě omiáích atributů pak v zásadě ibovoé číso. V případě agoritmů, které pracují přímo s kategoriáími atributy (apř. symboické metody), žádé úpravy obvyke eprovádíme. Výjimku tvoří případ, kdy kategoriáí atribut abývá příiš vekého počtu hodot 24. Pak přichází a řadu seskupováí hodot. Opět ze vyjít z doméových zaostí experta 25, ebo ze hodoty seskupovat a zákadě charakteristik spočítaých v rámci tréovacích dat. 23 Opět se jedao o data z UCI. 24 Příkadem takovéhoto atributu může být apříkad ozačeí zboží (při aaýze ákupího košíku), ebo kód profese v sociodemografické databázi. 25 Může se apř. jedat o hierarchii hodot, tak jak je uvedeo v kapitoe o asociačích pravidech a v kapitoe o rozhodovacích pravidech. 16

17 Takovéto seskupováí ze provádět při tvorbě modeu (viz apř. agoritmus CHAID pro tvorbu rozhodovacích stromů), ebo v rámci předzpracováí dat. Jako příkad předzpracováí uvedeme agoritmus seskupováí hodot svázaý se systémem KEX [Berka, Bruha, 1998b]. Agoritmus pro seskupováí je odvoze z výše uvedeého agoritmu pro diskretizaci. Cíem je tedy vytvořit skupiy A(Grp) takové, aby se P(Cass A(Grp)) sigifikatě išio od P(Cass). Agoritmus seskupováí hodot je uvede a. Na rozdí od agoritmu diskretizace (Obr. 11) se při seskupováí vytvoří toik skupi, koik je růzých tříd pus jeda skupia avíc, ozačeá "?" (Obr. 14). Seskupováí pro KEX Haví cykus: 1. vytvoř uspořádaý sezam hodot uvažovaého atributu 2. pro každou hodotu 2.1. spočítej četosti výskytu objektů s touto hodotou pro jedotivé třídy 2.2. přiřaď kód třídy každé hodotě procedurou ASSIGN 3. vytvoř itervay hodot procedurou GROUP ASSIGN: pokud pro daou hodotu všechy objekty patří do stejé třídy, pak přiřaď hodotě kód této třídy jiak pokud se pro daou hodotu veičiy rozděeí objektů do tříd sigifikatě iší (a zákadě χ 2 testu) od apriorího rozděeí tříd pak přiřaď hodotě kód ejčetější třídy, jiak přiřaď hodotě kód "?" GROUP: vytvoř skupiu z těch hodot, které mají přiřaze kód stejé třídy Obr. 14 Agoritmus seskupováí v systému KEX 7.8 Chybějící hodoty Otázkou práce s chybějícími hodotami jsme se již zabývai. Připomeňme tedy již dříve uvedeé způsoby: 1) igorovat objekt s ějakou chybějící hodotou, 2) ahradit chybějící hodotu ovou hodotou evím, 3) ahradit chybějící hodotu ěkterou z existujících hodot atributu a sice: a) ejčetější hodotou, b) proporcioáím podíem všech hodot, c) ibovoou hodotou. Zajímavou aterativou je použít pro dopěí chybějící hodoty ěkterý z agoritmů pro modeováí; atribut s chybějícími hodotami se považuje za cíový atribut, pro tréováí a testováí se použijí objekty se zámou hodotou tohoto atributu a chybějící hodoty se dopí a zákadě modeu. 17

18 7.9 Závěr S příchodem reáých apikací metod strojového učeí se postupě začíá přesouvat pozorost odboríků a dobýváí zaostí od agoritmů pro modeováí k agoritmům pro předzpracováí a přípravu dat. Dokadem této skutečosti může být i výzkumý projekt 5. rámcového programu EU MiigMart (IST ), který si kade za cí vytvořit uživatesky přívětivé prostředí pro používáí agoritmů z této obasti [Saitta a ko., 2000]. Literatrura: [Berka, 1993] Berka,P.: Discretizatio of umerica attributes for Kowedge EXporer. Výzkumá zpráva, Praha, LISP-93-03, 1993, 11s. [Berka, Bruha, 1998a] Berka,P. - Bruha,I.: Empirica compariso of various discretizatio procedures. It. J. of Patter Recogitio ad Artificia Iteigece Vo. 12 No. 7 (1998) [Berka, Bruha, 1998b] Berka,P. - Bruha,I.: Discretizatio ad Groupig: Preprocessig Steps for Data Miig. I: (Zytkow, Quafafou eds.) Proc. Pricipes of Data Miig ad Kowedge Discovery PKDD'98, LNAI 1510, Spriger, 1998, [Bruha, Berka, 2000] Bruha,I. - Berka,P.: Discretizatio ad Fuzzificatio of Numerica Attributes i Attribute- Based Learig. I: Szcepaiak,P.S. - Lisboa,P.J.G. - Kacprzyk,J.: Fuzzy Systems i Medicie. Spriger ISBN [Bruha, Kočková, 1994] Bruha,I. Kočková,S.: A support for decisio makig: Cost-sesitive earig system. Artificia Iteigece i Medicie, 6 (1994), [Dietterich, 1997] Dietterich T.: Machie-earig research: four curret directios. AI Magazie, witer 1997, [Fayyad, Irai, 1993] [Fayyad,U. - Irai,K.: Muti-iterva discretizatio of cotiuous-vaued attributes for cassificatio earig. I: Proc. 13 th Joit Cof. of Artificia Iteigece IJCAI 93, 1993, [Hájek a ko.,1983] Hájek,P. Havráek,T. Chyti,M.K.: Metoda GUHA. Automatická tvorba hypotéz. Academia, [Cha, Stofo, 1995] Cha,P.K. Stofo,S.J.: Learig arbiter ad combier trees from partitioed data for scaig machie earig. I: Proc. 1 st It. Cof. o Kowedge Discovery ad Data Miig. AAAI Press, [Joh a ko, 1994] Joh,G. Kohavi,R. Pfeger,K.: Irreevat features ad the subset seectio probem. I: Proc. 11 th It. Cof. o Machie Learig, Morga Kaufma, 1994, [Kietz a ko., 2000] Kietz,J.U. - Zücker,R. - Vaduva,A.: Miig Mart: Combiig Case-Based-Reasoig ad Muti-Strategy Learig ito a Framework to reuse KDD-Appicatio. I: Proc. 5 th It. Workshop o Mutistrategy Learig MSL2000, [Lee, Shi, 1994] Lee,C. Shi,D.: A cotext-sesitive discretizatio of umeric attributes for cassificatio earig. I: (Coh, ed.) Proc: 11 th Europea Cof. o Artificia Iteigece ECAI 94, Joh Wiey, 1994, [Murphy, Aha, 1994] Murphy,P. - Aha,D.: UCI Repository of Machie Learig Databases. Uiversity of Caiforia Irvie, Dept. Of Iformatio ad Computer Sciece, [Pece a ko., 1994] Pece,L. - Peiká,E. Bera,H.: Short-term foreig exchage rate forecastig from high frequecy data. I: Proc. Iteratioa Workshop o Neura Networks i the Capita Markets, Pasadea, CALTECH, USA, [Pudi, 2001] Pudi,P.: Methodoogy ad Advaces i Feature Seectio for Statistica Patter Recogitio, Disertace DrSc, UTIA AV ČR, Praha,

19 [Pudi a ko., 1994] Pudi,P. Novovičová,J. Kitter,J.: Foatig search methods i feature seectio. Patter Recogitio Letters, 15, 1994, [Saitta a ko., 2000] Saitta,L. -Kietz,J.U. - Beccari,G.: Specificatio of Pre-Processig Operators Requiremets. Deiverabe, D1.1, IST Project MiigMart, IST , [Shafer a ko, 1996] Shafer,J. Agrawa,R. Mehta,M.: SPRINT: a scaabe parae cassifier for data miig. I: Proc. 22 th Very Large Databases Coferece VLDB, Morga Kaufma, 1996, [Suzuki, 2000] Suzuki,E. (editor): Proc. It. Wshop of KDD Chaege o Rea-word Data. 4 th Pacific-Asia Coferece o Kowedge Discovery ad Data Miig PAKDD-2000, Kyoto,

Příprava dat. 1. Strukturovaná data. časová data (např. časové řady kurzů akcií)

Příprava dat. 1. Strukturovaná data. časová data (např. časové řady kurzů akcií) Příprava dat vybrat (ebo vytvořit) z dostupých dat ty údaje, teré jsou reevatí pro zvoeou úohu dobýváí zaostí, reprezetovat tyto údaje v podobě, terá je vhodá pro zpracováí zvoeým agoritmem. 1. Struturovaá

Více

Dobývání znalostí. Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze

Dobývání znalostí. Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze Dobýváí zalostí Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické iformatiky Matematicko-fyzikálí fakulta Uiverzity Karlovy v Praze Dobýváí zalostí Pokročilé techiky pro předzpracováí dat Doc. RNDr. Iveta

Více

Rozhodovací stromy. Úloha klasifikace objektů do tříd. Top down induction of decision trees (TDIDT) - metoda divide and conquer (rozděl a panuj)

Rozhodovací stromy. Úloha klasifikace objektů do tříd. Top down induction of decision trees (TDIDT) - metoda divide and conquer (rozděl a panuj) Rozhodovací stromy Úloha klasifikace objektů do tříd. Top dow iductio of decisio trees (TDIDT) - metoda divide ad coquer (rozděl a pauj) metoda specializace v prostoru hypotéz stromů (postup shora dolů,

Více

6 Intervalové odhady. spočteme aritmetický průměr, pak tyto průměry se budou chovat jako by pocházely z normálního. nekonečna.

6 Intervalové odhady. spočteme aritmetický průměr, pak tyto průměry se budou chovat jako by pocházely z normálního. nekonečna. 6 Itervalové odhady parametrů základího souboru V předchozích kapitolách jsme se zabývali ejprve základím zpracováím experimetálích dat: grafické zobrazeí dat, výpočty výběrových charakteristik kapitola

Více

U klasifikace podle minimální vzdálenosti je nutno zvolit:

U klasifikace podle minimální vzdálenosti je nutno zvolit: .3. Klasifikace podle miimálí vzdáleosti Tato podkapitola je věováa popisu podstaty klasifikace podle miimálí vzdáleosti, jež úzce souvisí s klasifikací pomocí etaloů klasifikačích tříd. Představíme si

Více

Deskriptivní statistika 1

Deskriptivní statistika 1 Deskriptiví statistika 1 1 Tyto materiály byly vytvořey za pomoci gratu FRVŠ číslo 1145/2004. Základí charakteristiky souboru Pro lepší představu používáme k popisu vlastostí zkoumaého jevu určité charakteristiky

Více

IAJCE Přednáška č. 12

IAJCE Přednáška č. 12 Složitost je úvod do problematiky Úvod praktická realizace algoritmu = omezeí zejméa: o časem o velikostí paměti složitost = vztah daého algoritmu k daým prostředkům: časová složitost každé možiě vstupích

Více

3. Sekvenční obvody. b) Minimalizujte budící funkce pomocí Karnaughovy mapy

3. Sekvenční obvody. b) Minimalizujte budící funkce pomocí Karnaughovy mapy 3.1 Zadáí: 3. Sekvečí obvody 1. Navrhěte a realizujte obvod geerující zadaou sekveci. Postupujte ásledově: a) Vytvořte vývojovou tabulku pro zadaou sekveci b) Miimalizujte budící fukce pomocí Karaughovy

Více

MATICOVÉ HRY MATICOVÝCH HER

MATICOVÉ HRY MATICOVÝCH HER MATICOVÉ HRY FORMULACE, KONCEPCE ŘEŠENÍ, SMÍŠENÉ ROZŠÍŘENÍ MATICOVÝCH HER, ZÁKLADNÍ VĚTA MATICOVÝCH HER CO JE TO TEORIE HER A ČÍM SE ZABÝVÁ? Teorie her je ekoomická vědí disciplía, která se zabývá studiem

Více

Sekvenční logické obvody(lso)

Sekvenční logické obvody(lso) Sekvečí logické obvody(lso) 1. Logické sekvečí obvody, tzv. paměťové čley, jsou obvody u kterých výstupí stavy ezávisí je a okamžitých hodotách vstupích sigálů, ale jsou závislé i a předcházejících hodotách

Více

P2: Statistické zpracování dat

P2: Statistické zpracování dat P: Statistické zpracováí dat Úvodem - Statistika: věda, zabývající se shromažďováím, tříděím a ásledým popisem velkých datových souborů. - Základem statistiky je teorie pravděpodobosti, založeá a popisu

Více

Cvičení 6.: Výpočet střední hodnoty a rozptylu, bodové a intervalové odhady střední hodnoty a rozptylu

Cvičení 6.: Výpočet střední hodnoty a rozptylu, bodové a intervalové odhady střední hodnoty a rozptylu Cvičeí 6: Výpočet středí hodoty a rozptylu, bodové a itervalové odhady středí hodoty a rozptylu Příklad 1: Postupě se zkouší spolehlivost čtyř přístrojů Další se zkouší je tehdy, když předchozí je spolehlivý

Více

8.1.3 Rekurentní zadání posloupnosti I

8.1.3 Rekurentní zadání posloupnosti I 8.. Rekuretí zadáí poslouposti I Předpoklady: 80, 80 Pedagogická pozámka: Podle mých zkušeostí je pro studety pochopitelější zavádět rekuretí posloupost takto (sado kotrolovatelou ukázkou), ež dosazováím

Více

pravděpodobnostn podobnostní jazykový model

pravděpodobnostn podobnostní jazykový model Pokročilé metody rozpozáváířeči Předáška 8 Rozpozáváí s velkými slovíky, pravděpodobost podobostí jazykový model Rozpozáváí s velkým slovíkem Úlohy zaměřeé a diktováíči přepis řeči vyžadují velké slovíky

Více

1. K o m b i n a t o r i k a

1. K o m b i n a t o r i k a . K o m b i a t o r i k a V teorii pravděpodobosti a statistice budeme studovat míru výskytu -pravděpodobostvýsledků procesů, které mají áhodý charakter, t.j. při opakováí za stejých podmíek se objevují

Více

Pravděpodobnost a aplikovaná statistika

Pravděpodobnost a aplikovaná statistika Pravděpodobost a aplikovaá statistika MGR. JANA SEKNIČKOVÁ, PH.D. 4. KAPITOLA STATISTICKÉ CHARAKTERISTIKY 16.10.2017 23.10.2017 Přehled témat 1. Pravděpodobost (defiice, využití, výpočet pravděpodobostí

Více

1.3. POLYNOMY. V této kapitole se dozvíte:

1.3. POLYNOMY. V této kapitole se dozvíte: 1.3. POLYNOMY V této kapitole se dozvíte: co rozumíme pod pojmem polyom ebo-li mohočle -tého stupě jak provádět základí početí úkoy s polyomy, kokrétě součet a rozdíl polyomů, ásobeí, umocňováí a děleí

Více

Kvantová a statistická fyzika 2 (Termodynamika a statistická fyzika)

Kvantová a statistická fyzika 2 (Termodynamika a statistická fyzika) Kvatová a statistická fyzika (Termodyamika a statistická fyzika) Boltzmaovo - Gibbsovo rozděleí - ilustračí příklad Pro ilustraci odvozeí rozděleí eergií v kaoickém asámblu uvažujme ásledující příklad.

Více

Chyby měření: 1. hrubé chyby - nepozornost, omyl, únava pozorovatele... - významně převyšuje rozptyl náhodné chyby 2. systematické chyby - chybné

Chyby měření: 1. hrubé chyby - nepozornost, omyl, únava pozorovatele... - významně převyšuje rozptyl náhodné chyby 2. systematické chyby - chybné CHYBY MĚŘENÍ Opakovaé měřeí téže fyzkáí večy evede vždy k přesě stejým výsedkům. Této skutečost bychom se evyhu, kdybychom měřeí provádě s ejvětší důkadostí a precsostí aopak, čím ctvější a přesější jsou

Více

Aplikovaná informatika. Podklady předmětu Aplikovaná informatika pro akademický rok 2006/2007 Radim Farana. Obsah. Algoritmus

Aplikovaná informatika. Podklady předmětu Aplikovaná informatika pro akademický rok 2006/2007 Radim Farana. Obsah. Algoritmus Podklady předmětu pro akademický rok 006007 Radim Faraa Obsah Tvorba algoritmů, vlastosti algoritmu. Popis algoritmů, vývojové diagramy, strukturogramy. Hodoceí složitosti algoritmů, vypočitatelost, časová

Více

Pro statistické šetření si zvolte si statistický soubor např. všichni žáci třídy (několika tříd, školy apod.).

Pro statistické šetření si zvolte si statistický soubor např. všichni žáci třídy (několika tříd, školy apod.). STATISTIKA Statistické šetřeí Proveďte a vyhodoťte statistické šetřeí:. Zvolte si statistický soubor. 2. Zvolte si určitý zak (zaky), které budete vyhodocovat. 3. Určete absolutí a relativí četosti zaků,

Více

základním prvkem teorie křivek v počítačové grafice křivky polynomiální n

základním prvkem teorie křivek v počítačové grafice křivky polynomiální n Petra Suryková Modelováí křivek základím prvkem teorie křivek v počítačové grafice křivky polyomiálí Q( t) a a t... a t polyomiálí křivky můžeme sado vyčíslit sado diferecovatelé lze z ich skládat křivky

Více

14. Testování statistických hypotéz Úvod statistické hypotézy Definice 14.1 Statistickou hypotézou parametrickou neparametrickou. nulovou testovanou

14. Testování statistických hypotéz Úvod statistické hypotézy Definice 14.1 Statistickou hypotézou parametrickou neparametrickou. nulovou testovanou 4. Testováí statistických hypotéz Úvod Při práci s daty se mohdy spokojujeme s itervalovým či bodovým odhadem parametrů populace. V mohých případech se však uchylujeme k jiému postupu, většiou jde o případy,

Více

VYSOCE PŘESNÉ METODY OBRÁBĚNÍ

VYSOCE PŘESNÉ METODY OBRÁBĚNÍ VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ Fakulta strojího ižeýrství Ústav strojíreské techologie ISBN 978-80-214-4352-5 VYSOCE PŘESNÉ METODY OBRÁBĚNÍ doc. Ig. Jaroslav PROKOP, CSc. 1 1 Fakulta strojího ižeýrství,

Více

1. ZÁKLADY VEKTOROVÉ ALGEBRY 1.1. VEKTOROVÝ PROSTOR A JEHO BÁZE

1. ZÁKLADY VEKTOROVÉ ALGEBRY 1.1. VEKTOROVÝ PROSTOR A JEHO BÁZE 1. ZÁKLADY VEKTOROVÉ ALGEBRY 1.1. VEKTOROVÝ PROSTOR A JEHO BÁZE V této kapitole se dozvíte: jak je axiomaticky defiová vektor a vektorový prostor včetě defiice sčítáí vektorů a ásobeí vektorů skalárem;

Více

MATEMATICKÁ INDUKCE. 1. Princip matematické indukce

MATEMATICKÁ INDUKCE. 1. Princip matematické indukce MATEMATICKÁ INDUKCE ALEŠ NEKVINDA. Pricip matematické idukce Nechť V ) je ějaká vlastost přirozeých čísel, apř. + je dělitelé dvěma či < atd. Máme dokázat tvrzeí typu Pro každé N platí V ). Jeda možost

Více

3. Lineární diferenciální rovnice úvod do teorie

3. Lineární diferenciální rovnice úvod do teorie 3 338 8: Josef Hekrdla lieárí difereciálí rovice úvod do teorie 3 Lieárí difereciálí rovice úvod do teorie Defiice 3 (lieárí difereciálí rovice) Lieárí difereciálí rovice -tého řádu je rovice, která se

Více

Odhady parametrů 1. Odhady parametrů

Odhady parametrů 1. Odhady parametrů Odhady parametrů 1 Odhady parametrů Na statistický soubor (x 1,..., x, který dostaeme statistickým šetřeím, se můžeme dívat jako a výběrový soubor získaý realizací áhodého výběru z áhodé veličiy X. Obdobě:

Více

1 POPISNÁ STATISTIKA V PROGRAMU MS EXCEL

1 POPISNÁ STATISTIKA V PROGRAMU MS EXCEL Elea Mielcová, Radmila Stoklasová a Jaroslav Ramík; Statistické programy POPISNÁ STATISTIKA V PROGRAMU MS EXCEL RYCHLÝ NÁHLED KAPITOLY Žádý výzkum se v deší době evyhe statistickému zpracováí dat. Je jedo,

Více

, která vznikla z matice A vynecháním i-tého řádku a j-tého sloupce nazýváme minorem matice A příslušnému k prvku

, která vznikla z matice A vynecháním i-tého řádku a j-tého sloupce nazýváme minorem matice A příslušnému k prvku Cvičeí z ieárí agebry 4 Vít Vodrák Cvičeí č Determiat a vastosti determiatů Výpočet determiat djgovaá a iverzí matice Cramerovo pravido Determiat Defiice: Nechť je reáá čtvercová matice řád Čtvercovo matici,

Více

OKRUŽNÍ A ROZVOZNÍ ÚLOHY: OBCHODNÍ CESTUJÍCÍ. FORMULACE PŘI RESPEKTOVÁNÍ ČASOVÝCH OKEN

OKRUŽNÍ A ROZVOZNÍ ÚLOHY: OBCHODNÍ CESTUJÍCÍ. FORMULACE PŘI RESPEKTOVÁNÍ ČASOVÝCH OKEN Úloha obchodího cestujícího OKRUŽNÍ A ROZVOZNÍ ÚLOHY: OBCHODNÍ CESTUJÍCÍ. FORMULACE PŘI RESPEKTOVÁNÍ ČASOVÝCH OKEN Nejprve k pojmům používaým v okružích a rozvozích úlohách: HAMILTONŮV CYKLUS je typ cesty,

Více

Užití binomické věty

Užití binomické věty 9..9 Užití biomické věty Předpoklady: 98 Často ám z biomického rozvoje stačí pouze jede kokrétí čle. Př. : x Urči šestý čle biomického rozvoje xy + 4y. Získaý výraz uprav. Biomický rozvoj začíá: ( a +

Více

Náhodný výběr 1. Náhodný výběr

Náhodný výběr 1. Náhodný výběr Náhodý výběr 1 Náhodý výběr Matematická statistika poskytuje metody pro popis veliči áhodého charakteru pomocí jejich pozorovaých hodot, přesěji řečeo jde o určeí důležitých vlastostí rozděleí pravděpodobosti

Více

odhady parametrů. Jednostranné a oboustranné odhady. Intervalový odhad střední hodnoty, rozptylu, relativní četnosti.

odhady parametrů. Jednostranné a oboustranné odhady. Intervalový odhad střední hodnoty, rozptylu, relativní četnosti. 10 Cvičeí 10 Statistický soubor. Náhodý výběr a výběrové statistiky aritmetický průměr, geometrický průměr, výběrový rozptyl,...). Bodové odhady parametrů. Itervalové odhady parametrů. Jedostraé a oboustraé

Více

Závislost slovních znaků

Závislost slovních znaků Závislost slovích zaků Závislost slovích (kvalitativích) zaků Obměy slovího zaku Alterativí zaky Možé zaky Tříděí věcé sloví řady: seřazeí obmě je subjektiví záležitostí (podle abecedy), možé i objektiví

Více

L A B O R A T O R N Í C V I Č E N Í Z F Y Z I K Y

L A B O R A T O R N Í C V I Č E N Í Z F Y Z I K Y ČESKÉ VYSOKÉ UČENÍ TECHNICKÉ V PRAZE KATED RA F YZIKY L A B O R A T O R N Í C V I Č E N Í Z F Y Z I K Y Jméo TUREČEK Daiel Datum měřeí 8.11.2006 Stud. rok 2006/2007 Ročík 2. Datum odevzdáí 15.11.2006 Stud.

Více

Odhady parametrů polohy a rozptýlení pro často se vyskytující rozdělení dat v laboratoři se vyčíslují podle následujících vztahů:

Odhady parametrů polohy a rozptýlení pro často se vyskytující rozdělení dat v laboratoři se vyčíslují podle následujících vztahů: Odhady parametrů polohy a rozptýleí pro často se vyskytující rozděleí dat v laboratoři se vyčíslují podle ásledujících vztahů: a : Laplaceovo (oboustraé expoeciálí rozděleí se vyskytuje v případech, kdy

Více

Geodézie 3 (154GD3) Téma č. 9: Hodnocení a rozbory přesnosti výškových měření.

Geodézie 3 (154GD3) Téma č. 9: Hodnocení a rozbory přesnosti výškových měření. Geodéze 3 (54GD3) Téma č. 9: Úvod o měřeí obecě. V geodéz měříme především déky, úhy, a dáe také apř. čas, vekost síy tíže apod. Výsedek měřeí je charakterzová čísem, závsým též a vobě jedotek. Ze zkušeost

Více

NEPARAMETRICKÉ METODY

NEPARAMETRICKÉ METODY NEPARAMETRICKÉ METODY Jsou to metody, dy předmětem testu hypotézy eí tvrzeí o hodotě parametru ějaého orétího rozděleí, ale ulová hypotéza je formulováa obecěji, apř. jao shoda rozděleí ebo ezávislost

Více

6. FUNKCE A POSLOUPNOSTI

6. FUNKCE A POSLOUPNOSTI 6. FUNKCE A POSLOUPNOSTI Fukce Dovedosti:. Základí pozatky o fukcích -Chápat defiici fukce,obvyklý způsob jejího zadáváí a pojmy defiičí obor hodot fukce. U fukcí zadaých předpisem umět správě operovat

Více

Pravděpodobnostní modely

Pravděpodobnostní modely Pravděpodobostí modely Meu: QCEpert Pravděpodobostí modely Modul hledá metodou maimálí věrohodosti (MLE Maimum Likelihood Estimate) statistický model (rozděleí) který ejlépe popisuje data. Je přitom k

Více

8.2.1 Aritmetická posloupnost I

8.2.1 Aritmetická posloupnost I 8.2. Aritmetická posloupost I Předpoklady: 80, 802, 803, 807 Pedagogická pozámka: V hodiě rozdělím třídu a dvě skupiy a každá z ich dělá jede z prvích dvou příkladů. Čley posloupostí pak při kotrole vypíšu

Více

FUNKCÍ JEDNÉ REÁLNÉ PROMĚNNÉ PRVNÍ DIFERENCIÁL

FUNKCÍ JEDNÉ REÁLNÉ PROMĚNNÉ PRVNÍ DIFERENCIÁL Difereciálí počet fukcí jedé reálé proměé - 6. - PRVNÍ DIFERENCIÁL TAYLORŮV ROZVOJ FUNKCÍ JEDNÉ REÁLNÉ PROMĚNNÉ PRVNÍ DIFERENCIÁL PŘÍKLAD Pomocí věty o prvím difereciálu ukažte že platí přibližá rovost

Více

Základy statistiky. Zpracování pokusných dat Praktické příklady. Kristina Somerlíková

Základy statistiky. Zpracování pokusných dat Praktické příklady. Kristina Somerlíková Základy statistiky Zpracováí pokusých dat Praktické příklady Kristia Somerlíková Data v biologii Zak ebo skupia zaků popisuje přírodí jevy, úlohou výzkumíka je vybrat takovou skupiu zaků, které charakterizují

Více

Matematika 1. Katedra matematiky, Fakulta stavební ČVUT v Praze. středa 10-11:40 posluchárna D / 13. Posloupnosti

Matematika 1. Katedra matematiky, Fakulta stavební ČVUT v Praze. středa 10-11:40 posluchárna D / 13. Posloupnosti Úvod Opakováí Poslouposti Příklady Matematika 1 Katedra matematiky, Fakulta stavebí ČVUT v Praze středa 10-11:40 posluchára D-1122 2012 / 13 Úvod Opakováí Poslouposti Příklady Úvod Opakováí Poslouposti

Více

Spojitost a limita funkcí jedné reálné proměnné

Spojitost a limita funkcí jedné reálné proměnné Spojitost a limita fukcí jedé reálé proměé Pozámka Vyšetřeí spojitosti fukce je možo podle defiice převést a výpočet limity V dalším se proto soustředíme je problém výpočtu limit Pozámka Limitu fukce v

Více

Intervalové odhady parametrů některých rozdělení.

Intervalové odhady parametrů některých rozdělení. 4. Itervalové odhady parametrů rozděleí. Jedou ze základích úloh mtematické statistiky je staoveí hodot parametrů rozděleí, ze kterého máme k dispozici áhodý výběr. Nejčastěji hledáme odhady dvou druhů:

Více

12. N á h o d n ý v ý b ě r

12. N á h o d n ý v ý b ě r 12. N á h o d ý v ý b ě r Při sledováí a studiu vlastostí áhodých výsledků pozáme charakter rozděleí z toho, že opakovaý áhodý pokus ám dává za stejých podmíek růzé výsledky. Ty odpovídají hodotám jedotlivých

Více

Vzorový příklad na rozhodování BPH_ZMAN

Vzorový příklad na rozhodování BPH_ZMAN Vzorový příklad a rozhodováí BPH_ZMAN Základí charakteristiky a začeí symbol verbálí vyjádřeí iterval C g g-tý cíl g = 1,.. s V i i-tá variata i = 1,.. m K j j-té kriterium j = 1,.. v j x ij u ij váha

Více

Odhad parametru p binomického rozdělení a test hypotézy o tomto parametru. Test hypotézy o parametru p binomického rozdělení

Odhad parametru p binomického rozdělení a test hypotézy o tomto parametru. Test hypotézy o parametru p binomického rozdělení Odhad parametru p biomického rozděleí a test hypotézy o tomto parametru Test hypotézy o parametru p biomického rozděleí Motivačí úloha Předpokládejme, že v důsledku realizace jistého áhodého pokusu P dochází

Více

II. METODICKÉ PŘÍKLADY SESTAVENÍ VÝKAZU PAP

II. METODICKÉ PŘÍKLADY SESTAVENÍ VÝKAZU PAP Istituce i zazameaé operace jsou fiktiví. Ukázkové případy - sezam Případ Vykazující účetí Vykázaé Části I až XIII Straa jedotka (zkráceě až 3) A Půjčka od baky Město, v roce +1, T2 v roce +1, T7, T8,

Více

2 STEJNORODOST BETONU KONSTRUKCE

2 STEJNORODOST BETONU KONSTRUKCE STEJNORODOST BETONU KONSTRUKCE Cíl kapitoly a časová áročost studia V této kapitole se sezámíte s možostmi hodoceí stejorodosti betou železobetoové kostrukce a prakticky provedete jede z možých způsobů

Více

Tržní ceny odrážejí a zahrnují veškeré informace předpokládá se efektivní trh, pro cenu c t tedy platí c t = c t + ε t.

Tržní ceny odrážejí a zahrnují veškeré informace předpokládá se efektivní trh, pro cenu c t tedy platí c t = c t + ε t. Techická aalýza Techická aalýza z vývoje cey a obchodovaých objemů akcie odvozuje odhad budoucího vývoje cey. Dalšími metodami odhadu vývoje ce akcií jsou apř. fudametálí aalýza (zkoumá podrobě účetictví

Více

2. Znát definici kombinačního čísla a základní vlastnosti kombinačních čísel. Ovládat jednoduché operace s kombinačními čísly.

2. Znát definici kombinačního čísla a základní vlastnosti kombinačních čísel. Ovládat jednoduché operace s kombinačními čísly. 0. KOMBINATORIKA, PRAVDĚPODOBNOST, STATISTIKA Dovedosti :. Chápat pojem faktoriál a ovládat operace s faktoriály.. Zát defiici kombiačího čísla a základí vlastosti kombiačích čísel. Ovládat jedoduché operace

Více

OBRAZOVÁ ANALÝZA POVRCHU POTISKOVANÝCH MATERIÁLŮ A POTIŠTĚNÝCH PLOCH

OBRAZOVÁ ANALÝZA POVRCHU POTISKOVANÝCH MATERIÁLŮ A POTIŠTĚNÝCH PLOCH OBRAZOVÁ ANALÝZA POVRCU POTISKOVANÝC MATERIÁLŮ A POTIŠTĚNÝC PLOC Zmeškal Oldřich, Marti Julíe Tomáš Bžatek Ústav fyzikálí a spotřebí chemie, Fakulta chemická, Vysoké učeí techické v Brě, Purkyňova 8, 62

Více

Matematika I, část II

Matematika I, část II 1. FUNKCE Průvodce studiem V deím životě, v přírodě, v techice a hlavě v matematice se eustále setkáváme s fukčími závislostmi jedé veličiy (apř. y) a druhé (apř. x). Tak apř. cea jízdeky druhé třídy osobího

Více

8.2.1 Aritmetická posloupnost

8.2.1 Aritmetická posloupnost 8.. Aritmetická posloupost Předpoklady: 80, 80, 803, 807 Pedagogická pozámka: V hodiě rozdělím třídu a dvě skupiy a každá z ich dělá jede z prvích dvou příkladů. Př. : V továrě dokočí každou hodiu motáž

Více

Náhodu bychom mohli definovat jako součet velkého počtu drobných nepoznaných vlivů.

Náhodu bychom mohli definovat jako součet velkého počtu drobných nepoznaných vlivů. Náhodu bychom mohli defiovat jako součet velkého počtu drobých epozaých vlivů. V rámci přírodích věd se setkáváme s pokusy typu za určitých podmíek vždy astae určitý důsledek. Např. jestliže za ormálího

Více

Cvičení 6.: Bodové a intervalové odhady střední hodnoty, rozptylu a koeficientu korelace, test hypotézy o střední hodnotě při známém rozptylu

Cvičení 6.: Bodové a intervalové odhady střední hodnoty, rozptylu a koeficientu korelace, test hypotézy o střední hodnotě při známém rozptylu Cvičeí 6: Bodové a itervalové odhady středí hodoty, rozptylu a koeficietu korelace, test hypotézy o středí hodotě při zámém rozptylu Příklad : Bylo zkoumáo 9 vzorků půdy s růzým obsahem fosforu (veličia

Více

9.1.12 Permutace s opakováním

9.1.12 Permutace s opakováním 9.. Permutace s opakováím Předpoklady: 905, 9 Pedagogická pozámka: Pokud echáte studety počítat samostatě příklad 9 vyjde tato hodia a skoro 80 miut. Uvažuji o tom, že hodiu doplím a rozdělím a dvě. Př.

Více

STATISTIKA. Statistika se těší pochybnému vyznamenání tím, že je nejvíce nepochopeným vědním oborem. H. Levinson

STATISTIKA. Statistika se těší pochybnému vyznamenání tím, že je nejvíce nepochopeným vědním oborem. H. Levinson STATISTIKA Statistika se těší pochybému vyzameáí tím, že je ejvíce epochopeým vědím oborem. H. Leviso Charakterizace statistického souboru Statistický soubor Prvek souboru Zak prvku kvatitativí teplota,

Více

i 1 n 1 výběrový rozptyl, pro libovolné, ale pevně dané x Roznačme n 1 Téma 6.: Základní pojmy matematické statistiky

i 1 n 1 výběrový rozptyl, pro libovolné, ale pevně dané x Roznačme n 1 Téma 6.: Základní pojmy matematické statistiky Téma 6.: Základí pojmy matematické statistiky Vlastosti důležitých statistik odvozeých z jedorozměrého áhodého výběru: Nechť X,..., X je áhodý výběr z rozložeí se středí hodotou μ, rozptylem σ a distribučí

Více

1 Trochu o kritériích dělitelnosti

1 Trochu o kritériích dělitelnosti Meu: Úloha č.1 Dělitelost a prvočísla Mirko Rokyta, KMA MFF UK Praha Jaov, 12.10.2013 Růzé dělitelosti, třeba 11 a 7 (aeb Jak zfalšovat rodé číslo). Prvočísla: které je ejlepší, které je ejvětší a jak

Více

Materiály k X33KUI, ČVUT, FEL, Vytvořeno dne 11/5/2006 7:07 PM. Seminární cvičení 2. Kódování a přenos informace

Materiály k X33KUI, ČVUT, FEL, Vytvořeno dne 11/5/2006 7:07 PM. Seminární cvičení 2. Kódování a přenos informace Materiály k X33KUI, ČVUT, FEL, Vytvořeo de /5/6 7:7 M Semiárí cvičeí Kódováí a přeos iformace Osova cvičeí k čemu se má dojít??? Motivace úvodí příklad - holub Základí pojmy Zpráva Symbol Abeceda - jakákoliv

Více

VII. Komunikace v MAS

VII. Komunikace v MAS Obsah předášky VII. Komuikace v MAS Podkady k předáškám kurzu AGS ---------------------------------------------------- 2006 Fratišek Zboři m. zborif@fit.vutbr.cz Úvod do probematiky a zákadí pojmy Komuikačí

Více

Přednáška VI. Intervalové odhady. Motivace Směrodatná odchylka a směrodatná chyba Centrální limitní věta Intervaly spolehlivosti

Přednáška VI. Intervalové odhady. Motivace Směrodatná odchylka a směrodatná chyba Centrální limitní věta Intervaly spolehlivosti Předáška VI. Itervalové odhady Motivace Směrodatá odchylka a směrodatá chyba Cetrálí limití věta Itervaly spolehlivosti Opakováí estraé a MLE Jaký je pricip estraých odhadů? Jaký je pricip odhadů metodou

Více

4EK311 Operační výzkum. 4. Distribuční úlohy LP část 2

4EK311 Operační výzkum. 4. Distribuční úlohy LP část 2 4EK311 Operačí výzkum 4. Distribučí úlohy LP část 2 4.1 Dopraví problém obecý model miimalizovat za podmíek: m z = c ij x ij i=1 j=1 j=1 m i=1 x ij = a i, i = 1, 2,, m x ij = b j, j = 1, 2,, x ij 0, i

Více

S polynomy jste se seznámili již v Matematice 1. Připomeňme definici polynomické

S polynomy jste se seznámili již v Matematice 1. Připomeňme definici polynomické 5 Itegrace racioálích fukcí 5 Itegrace racioálích fukcí Průvodce studiem V předcházejících kapitolách jsme se aučili počítat eurčité itegrály úpravou a základí itegrály, metodou per partes a substitučí

Více

PRAVDĚPODOBNOST A STATISTIKA

PRAVDĚPODOBNOST A STATISTIKA PRAVDĚPODOBNOST A STATISTIKA Bodové a itervalové odhady Nechť X je áhodá proměá, která má distribučí fukci F(x, ϑ). Předpokládejme, že záme tvar distribučí fukce (víme jaké má rozděleí) a ezáme parametr

Více

Matice. nazýváme m.n reálných čísel a. , sestavených do m řádků a n sloupců ve tvaru... a1

Matice. nazýváme m.n reálných čísel a. , sestavených do m řádků a n sloupců ve tvaru... a1 Matice Matice Maticí typu m/ kde m N azýváme m reálých čísel a sestaveých do m řádků a sloupců ve tvaru a a a a a a M M am am am Prví idex i začí řádek a druhý idex j sloupec ve kterém prvek a leží Prvky

Více

DISKRÉTNÍ MATEMATIKA PRO INFORMATIKY

DISKRÉTNÍ MATEMATIKA PRO INFORMATIKY DISKRÉTNÍ MATEMATIKA PRO INFORMATIKY URČENO PRO VZDĚLÁVÁNÍ V AKREDITOVANÝCH STUDIJNÍCH PROGRAMECH IVAN KŘIVÝ ČÍSLO OPERAČNÍHO PROGRAMU: CZ..07 NÁZEV OPERAČNÍHO PROGRAMU: VZDĚLÁVÁNÍ PRO KONKURENCESCHOPNOST

Více

Komplexní čísla. Definice komplexních čísel

Komplexní čísla. Definice komplexních čísel Komplexí čísla Defiice komplexích čísel Komplexí číslo můžeme adefiovat jako uspořádaou dvojici reálých čísel [a, b], u kterých defiujeme operace sčítáí, ásobeí, apod. Stadardě se komplexí čísla zapisují

Více

1 ROVNOMĚRNOST BETONU KONSTRUKCE

1 ROVNOMĚRNOST BETONU KONSTRUKCE ROVNOMĚRNOST BETONU KONSTRUKCE Cíl kapitoly a časová áročost studia V této kapitole se sezámíte s možostmi hodoceí rovoměrosti betou železobetoové kostrukce a prakticky provedete jede z možých způsobů

Více

1 Základy Z-transformace. pro aplikace v oblasti

1 Základy Z-transformace. pro aplikace v oblasti Základy Z-trasformace pro aplikace v oblasti číslicového zpracováí sigálů Petr Pollák 9. říja 29 Základy Z-trasformace Teto stručý text slouží k připomeutí základích vlastostí Z-trasformace s jejími aplikacemi

Více

veličiny má stejný řád jako je řád poslední číslice nejistoty. Nejistotu píšeme obvykle jenom jednou

veličiny má stejný řád jako je řád poslední číslice nejistoty. Nejistotu píšeme obvykle jenom jednou 1 Zápis číselých hodot a ejistoty měřeí Zápis číselých hodot Naměřeé hodoty zapisujeme jako číselý údaj s určitým koečým počtem číslic. Očekáváme, že všechy zapsaé číslice jsou správé a vyjadřují tak i

Více

1.2. NORMA A SKALÁRNÍ SOUČIN

1.2. NORMA A SKALÁRNÍ SOUČIN 2 NORMA A SKALÁRNÍ SOUČIN V této kapitole se dozvíte: axiomatickou defiici ormy vektoru; co je to ormováí vektoru a jak vypadá Euklidovská orma; axiomatickou defiici skalárího (také vitřího) součiu vektorů;

Více

Příloha č. 7 Dodatku ke Smlouvě o službách Systém měření kvality Služeb

Příloha č. 7 Dodatku ke Smlouvě o službách Systém měření kvality Služeb Příloha č. 7 Dodatku ke Smlouvě o službách Systém měřeí kvality Služeb Dodavatel a Objedatel se dohodli a ahrazeí Přílohy C - Systém měřeí kvality Služeb Obchodích podmíek Smlouvy o službách touto Přílohou

Více

9.1.13 Permutace s opakováním

9.1.13 Permutace s opakováním 93 Permutace s opakováím Předpoklady: 906, 9 Pedagogická pozámka: Obsah hodiy přesahuje 45 miut, pokud emáte k dispozici další půlhodiu, musíte žáky echat projít posledí dva příklady doma Př : Urči kolik

Více

Metody zkoumání závislosti numerických proměnných

Metody zkoumání závislosti numerických proměnných Metody zkoumáí závslost umerckých proměých závslost pevá (fukčí) změě jedoho zaku jedozačě odpovídá změa druhého zaku (podle ějakého fukčího vztahu) (matematka, fyzka... statstcká (volá) změám jedé velčy

Více

Vyhledávání v tabulkách

Vyhledávání v tabulkách Vyhledáváí v tabulkách Tabulkou azveme možiu položek idetifikovatelých hodotou přístupového (idetifikačího) klíče (key, ID idetificator). Ve vodorovém směru se jedá o heterogeí pole, tz. že každá položka

Více

1. Základy počtu pravděpodobnosti:

1. Základy počtu pravděpodobnosti: www.cz-milka.et. Základy počtu pravděpodobosti: Přehled pojmů Jev áhodý jev, který v závislosti a áhodě může, ale emusí při uskutečňováí daého komplexu podmíek astat. Náhoda souhr drobých, ezjistitelých

Více

1 PSE Definice základních pojmů. (ω je elementární jev: A ω (A ω) nebo (A );

1 PSE Definice základních pojmů. (ω je elementární jev: A ω (A ω) nebo (A ); 1 PSE 1 Náhodý pokus, áhodý jev. Operace s jevy. Defiice pravděpodobosti jevu, vlastosti ppsti. Klasická defiice pravděpodobosti a její použití, základí kombiatorické vzorce. 1.1 Teoretická část 1.1.1

Více

f x a x DSM2 Cv 9 Vytvořující funkce Vytvořující funkcí nekonečné posloupnosti a0, a1,, a n , reálných čísel míníme formální nekonečnou řadu ( )

f x a x DSM2 Cv 9 Vytvořující funkce Vytvořující funkcí nekonečné posloupnosti a0, a1,, a n , reálných čísel míníme formální nekonečnou řadu ( ) DSM Cv 9 Vytvořující fukce Vytvořující fukcí ekoečé poslouposti a0, a,, a, reálých čísel mííme formálí ekoečou řadu =. f a i= 0 i i Příklady: f = + = + + + + + ) Platí: (biomická věta). To zameá, že fukce

Více

Mezní stavy konstrukcí a jejich porušov. Hru IV. Milan RůžR. zbynek.hruby.

Mezní stavy konstrukcí a jejich porušov. Hru IV. Milan RůžR. zbynek.hruby. ováí - Hru IV /6 ováí Hru IV Mila RůžR ůžička, Josef Jureka,, Zbyěk k Hrubý zbyek.hruby hruby@fs.cvut.cz ováí - Hru IV /6 ravděpodobostí úavové diagramy s uvažováím předpětí R - plocha ve čtyřrozměrém

Více

Zformulujme PMI nyní přesně (v duchu výrokové logiky jiný kurz tohoto webu):

Zformulujme PMI nyní přesně (v duchu výrokové logiky jiný kurz tohoto webu): Pricip matematické idukce PMI) se systematicky probírá v jié části středoškolské matematiky. a tomto místě je zařaze z důvodu opakováí matka moudrosti) a proto, abychom ji mohli bez uzarděí použít při

Více

Výukový modul III.2 Inovace a zkvalitnění výuky prostřednictvím ICT

Výukový modul III.2 Inovace a zkvalitnění výuky prostřednictvím ICT Základy práce s tabulkou Výukový modul III. Iovace a zkvalitěí výuky prostředictvím ICT Téma III..3, pracoví list 3 Techická měřeí v MS Ecel Průměry a četosti, odchylky změřeých hodot. Ig. Jiří Chobot

Více

KONEČNĚ ROZDĚLENÁ ZPOŽDĚNÍ. POLYNOMICKY ROZDĚLENÉ ZPOŽDĚNÍ.

KONEČNĚ ROZDĚLENÁ ZPOŽDĚNÍ. POLYNOMICKY ROZDĚLENÉ ZPOŽDĚNÍ. KONEČNĚ ROZDĚLENÁ ZPOŽDĚNÍ. POLYNOMICKY ROZDĚLENÉ ZPOŽDĚNÍ. Teto text je zaměře a modely koečě zpožděí, podroběji je pak rozebráo polyomicky rozděleé zpožděí. Občas bývá rozumé zahrout do modelu eje současé,

Více

Cvičení 3 - teorie. Teorie pravděpodobnosti vychází ze studia náhodných pokusů.

Cvičení 3 - teorie. Teorie pravděpodobnosti vychází ze studia náhodných pokusů. Cvičeí 3 - teorie Téma: Teorie pravděpodobosti Teorie pravděpodobosti vychází ze studia áhodých pokusů. Náhodý pokus Proces, který při opakováí dává ze stejých podmíek rozdílé výsledky. Výsledek pokusu

Více

8. Analýza rozptylu.

8. Analýza rozptylu. 8. Aalýza rozptylu. Lieárí model je popis závislosti, který je využívá v řadě disciplí matematické statistiky. Uvedeme jeho popis a tvrzeí, která budeme využívat. Setkáme se s ím jedak v aalýze rozptylu,

Více

Matematika 1. Ivana Pultarová Katedra matematiky, Fakulta stavební ČVUT v Praze. středa 10-11:40 posluchárna D Posloupnosti

Matematika 1. Ivana Pultarová Katedra matematiky, Fakulta stavební ČVUT v Praze. středa 10-11:40 posluchárna D Posloupnosti Úvod Opakováí Poslouposti Příklady Matematika 1 Ivaa Pultarová Katedra matematiky, Fakulta stavebí ČVUT v Praze středa 10-11:40 posluchára D-1122 Úvod Opakováí Poslouposti Příklady Úvod Opakováí Poslouposti

Více

Mendelova univerzita v Brně Statistika projekt

Mendelova univerzita v Brně Statistika projekt Medelova uverzta v Brě Statstka projekt Vypracoval: Marek Hučík Obsah 1. Úvod... 3. Skupové tříděí... 3 o Data:... 3 o Počet hodot:... 3 o Varačí rozpětí:... 3 o Počet tříd:... 4 o Šířka tervalu:... 4

Více

VLASTNOSTI ÚLOH CELOČÍSELNÉHO PROGRAMOVÁNÍ

VLASTNOSTI ÚLOH CELOČÍSELNÉHO PROGRAMOVÁNÍ Vlastosti úloh celočíselého programováí VLASTNOSTI ÚLOH CELOČÍSELNÉHO PROGRAMOVÁNÍ PRINCIP ZESILOVÁNÍ NEROVNOSTÍ A ZÁKLADNÍ METODY. METODA VĚTVENÍ A HRANIC. TYPY ÚLOH 1. Úloha lieárího programováí: max{c

Více

6. P o p i s n á s t a t i s t i k a

6. P o p i s n á s t a t i s t i k a 6. P o p i s á s t a t i s t i k a 6.. Pozámka: Při statistickém zkoumáí ás zajímají hromadé jevy a procesy, u kterých zkoumáme zákoitosti, které se projevují u velkého počtu prvků. Prvky zkoumáí azýváme

Více

13 Popisná statistika

13 Popisná statistika 13 Popisá statistika 13.1 Jedorozměrý statistický soubor Statistický soubor je možia všech prvků, které jsou předmětem statistického zkoumáí. Každý z prvků je statistickou jedotkou. Prvky tvořící statistický

Více

Intervalový odhad. nazveme levostranným intervalem pro odhad parametru Θ. Statistiku. , kde číslo α je blízké nule, nazveme horním

Intervalový odhad. nazveme levostranným intervalem pro odhad parametru Θ. Statistiku. , kde číslo α je blízké nule, nazveme horním Lekce Itervalový odhad Itervalový odhad je jedou ze stadardích statistických techik Cílem je sestrojit iterval (kofidečí iterval, iterval spolehlivosti, který s vysokou a avíc předem daou pravděpodobostí

Více

České vysoké učení technické v Praze. Fakulta dopravní. Semestrální práce. Statistika

České vysoké učení technické v Praze. Fakulta dopravní. Semestrální práce. Statistika České vysoké učeí techické v Praze Fakulta dopraví Semestrálí práce Statistika Čekáí vlaku ve staicích a trase Klado Ostrovec Praha Masarykovo ádraží Zouzalová Barbora 2 35 Michálek Tomáš 2 35 sk. 2 35

Více

Petr Šedivý Šedivá matematika

Petr Šedivý  Šedivá matematika LIMITA POSLOUPNOSTI Úvod: Kapitola, kde poprvé arazíme a ekoečo. Argumety posloupostí rostou ade všechy meze a zkoumáme, jak vypadají hodoty poslouposti. V kapitole se sezámíte se základími typy it a početími

Více

Úloha II.S... odhadnutelná

Úloha II.S... odhadnutelná Úloha II.S... odhadutelá 10 bodů; průměr 7,17; řešilo 35 studetů a) Zkuste vlastími slovy popsat, k čemu slouží itervalový odhad středí hodoty v ormálím rozděleí a uveďte jeho fyzikálí iterpretaci (postačí

Více

ÚLOHA ČÍNSKÉHO LISTONOŠE, MATEMATICKÉ MODELY PRO ORIENTOVANÝ A NEORIENTOVANÝ GRAF

ÚLOHA ČÍNSKÉHO LISTONOŠE, MATEMATICKÉ MODELY PRO ORIENTOVANÝ A NEORIENTOVANÝ GRAF Úloha číského listooše ÚLOHA ČÍNSKÉHO LISTONOŠE, MATEMATICKÉ MODELY PRO ORIENTOVANÝ A NEORIENTOVANÝ GRAF Uvažujme situaci, kdy exstuje ějaký výchozí uzel a další uzly spojeé hraami (může jít o cesty, ulice

Více

1.1. Definice Reálným vektorovým prostorem nazýváme množinu V, pro jejíž prvky jsou definovány operace sčítání + :V V V a násobení skalárem : R V V

1.1. Definice Reálným vektorovým prostorem nazýváme množinu V, pro jejíž prvky jsou definovány operace sčítání + :V V V a násobení skalárem : R V V Předáška 1: Vektorové prostory Vektorový prostor Pro abstraktí defiici vektorového prostoru jsou podstaté vlastosti dvou operací, sčítáí vektorů a ásobeí vektoru (reálým číslem) Tyto dvě operace musí být

Více