LISp-Miner: systém pro získávání znalostí z dat 1

Rozměr: px
Začít zobrazení ze stránky:

Download "LISp-Miner: systém pro získávání znalostí z dat 1"

Transkript

1 LISp-Miner: systém pro získávání znalostí z dat 1 Petr Berka, Jan Rauch, Milan Šimůnek VŠE Praha Nám. W. Churchilla 4, Praha 3 {berka,rauch,simunek}@vse.cz Abstrakt. Systém LISp-Miner je otevřený akademický systém pro podporu výzkumu a výuky v oblasti dobývání znalostí z databází. Systém nabízí řadu algoritmů pro hledání zajímavých vztahů v datech (navazuje zde na metodu GUHA) i algoritmus pro tvorbu pravidel rozhodovacích. Článek podává základní charakteristiky jednotlivých algoritmů. LISp-Miner je volně dostupný z 1 Úvod Dobývání znalostí z databází (KDD) lze definovat jako netriviální extrakci implicitních, dříve neznámých a potenciálně užitečných informací z dat (Fayyad a kol, 1996). Jedná se o interaktivní a iterativní proces tvořený kroky selekce, předzpracování, transformace, vlastního dolování (data mining) a interpretace. Technikami dobývání znalostí můžeme řešit řadu různých typů úloh. Podle autorů metodiky CRISP-DM jsou to deskripce dat a sumarizace, segmentace, deskripce konceptů, analýza závislostí, klasifikace a predikce (Chapman a kol, 2000). V prvních čtyřech úlohách hledáme zajímavé znalosti interpretovatelné expertem, v úlohách klasifikace a predikce jde o to získat znalosti použitelné pro automatizovanou podporu rozhodování. Podle typu úlohy a podle charakteru dat můžeme zvolit různé algoritmy pro vlastní dolování, a tedy i různé způsoby reprezentování nalezených znalostí: rozhodovací stromy, rozhodovací pravidla, asociační pravidla, neuronové sítě, genetické algoritmy, bayesovské klasifikátory. Náš příspěvek je věnován na znalostem v podobě pravidel, tedy v podobě použitelné pro většinu výše zmíněných úloh dobývání znalostí. Zaměříme se přitom na představení různých typů pravidel a zajímavých vztahů, generovaných systémem LISp-Miner vyvíjeném na VŠE v Praze. 1.1 Asociační a rozhodovací pravidla V oblasti dobývání znalostí se obvykle rozlišují dva typy pravidel: asociační a rozhodovací (klasifikační). V případě asociačních pravidel nás zajímají vzájemné souvislosti mezi hodnotami atributů, v případě rozhodovacích pravidel hledáme znalosti použitelné pro automatizované řešení klasifikačních úloh. Termín asociační pravidla široce zpopularizoval počátkem 90. let Agrawal (Agrawal a kol, 1993) v souvislosti s analýzou nákupního košíku. Při této analýze se zjišťuje, jaké druhy zboží si současně kupují zákazníci v supermarketech (např. pivo a párek). Jde tedy o hledání vzájemných vazeb (asociací) mezi různými položkami sortimentu prodejny. Formálně lze tedy asociační pravidlo vyjádřit jako: 1 Předneseno na semináři Znalostní management pořádaného na VŠM v Bratislavě

2 předpoklad závěr, kde předpoklad (levá strana pravidla, antecedent) i závěr (pravá strana pravidla, sukcedent) jsou kombinace kategorií (hodnot atributů, položek v nákupním košíku). Základními charakteristikami asociačních pravidel v Agrawalově pojetí jsou podpora (support) a spolehlivost (confidence). Tyto charakteristiky jsou počítány ze čtyřpolní kontingenční tabulky, která ukazuje, kolik příkladů v datech splňuje resp. nesplňuje předpoklad nebo závěr (viz tabulka 1). Podpora je pak (absolutní resp. relativní) počet příkladů, splňujících předpoklad i závěr, tedy hodnota a a resp.. a + b + c + d Spolehlivost (též nazývaná platnost, konsistence, nebo správnost) je pak podíl počtu příkladů splňujících předpoklad i závěr a počtu příkladů splňujících předpoklad (tedy vlastně podmíněná pravděpodobnost závěru pokud platí předpoklad): a a + b. Tabulka 1. Čtyřpolní kontingenční tabulka závěr závěr předpoklad a b r předpoklad c d s k l n V algoritmech pro tvorbu asociačních pravidel se opakovaně prolínají dva kroky: generování a testování. Základem je generování kombinací (konjunkcí) hodnot atributů - procházíme (prohledáváme) prostor všech přípustných konjunkcí. Vygenerované pravidlo se pak testuje, zda splňuje uživatelem zadané hodnoty numerických charakteristik (např. podpory a spolehlivosti). Výsledek tohoto testu rozhoduje o dalším generování. Nejznámějším algoritmem je algoritmus apriori. (Agrawal a kol., 1996). Jádrem algoritmu je hledání často se opakujících množin položek (frequent itemsets). Jedná se kombinace (konjunkce) kategorií které dosahují předem zadané četnosti (podpory minsup) v datech. Z kombinací dosahujících požadované četnosti se pak vytvářejí pravidla. Zatímco asociační pravidla hledala zajímavé souvislosti mezi hodnotami různých atributů a jejich kombinací, rozhodovací pravidla se používají pro klasifikaci. Syntaxe pravidla je tedy předpoklad třída

3 kde předpoklad je kombinace vytvořená z kategorií vstupních atributů a třída je informace o zařazení příkladu do nějaké třídy. Typickým příkladem algoritmu pro tvorbu rozhodovacích pravidel je algoritmus pokrývání množin (Michalski, 1969), či (Clark, Nibblet, 1989). Při pokrývání množin jde o to nalézt pravidla (konzistentní hypotézy), které pokrývají nějaké příklady hledaného konceptu a tyto příklady oddělit od jiných příkladů téhož konceptu i od příkladů třídy jiné. Použití rozhodovacích pravidel pro klasifikaci nových příkladů je velice prosté. Postupně procházíme soubor pravidel až nalezneme pravidlo, které lze použít. Závěr pravidla pak určí třídu, do které máme uvažovaný příklad zařadit. 2 Metoda GUHA Zhruba 30 let před Agrawalem přišla s konceptem asociačních pravidel skupina českých vědců. Základní myšlenkou jejich metody GUHA (General Unary Hypotheses Automaton) bylo nalézt v datech všechny zajímavé souvislosti (hypotézy) a nabídnout je uživateli (Hájek, Havránek, 1978), (Hájek a kol.,1983). V době svého vzniku, kdy se ještě nic netušilo o metodách dobývání znalostí, se GUHA řadila k metodám explorační analýzy dat. Na rozdíl od konfirmační analýzy, kdy cílem bylo ověřit platnost konkrétní statistické hypotézy, při explorační analýze je cílem tyto hypotézy nejen testovat ale i vytvářet. Neboli, jak pravila dobová metafora, zatímco konfirmační analýza se dá přirovnat k chytání ryb na udici, metoda GUHA umožňuje výlov celého rybníka. Postupem času bylo formulováno několik typů hypotéz (pravidel) a s tím souvisejících algoritmů pro jejich generování. Nejblíže k asociačním pravidlům v Agrawalově pojetí měla procedura ASSOC. Metoda GUHA ale nabízela podstatně více typů hypotéz (pravidel): hledají se vztahy mezi kombinacemi hodnot binárních atributů, korelace mezi numerickými atributy podmíněné kombinací kategoriálních atributů, nebo zdroje závislosti v nominálních datech. Metoda GUHA byla v průběhu let implementována v různých podobách. Jedna z posledních implementací je systém LISp-Miner vyvíjený na VŠE v Praze. 3 Systém LISp-Miner Systém LISp-Miner je otevřený akademický systém pro podporu výzkumu a výuky v oblasti dobývání znalostí z databází viz např. (Rauch, Šimůnek 2003), (Šimůnek 2003). Systém je tvořen modulem pro přípravu a předzpracování dat a sedmi analytickými procedurami: 4FT-Miner, KL-Miner, CF-Miner, SD4FT-Miner, SDKL- Miner, SDCF-Miner a KEX. S výjimkou procedury KEX pro tvorbu rozhodovacích pravidel (a tedy pro úlohy klasifikačního typu) jsou všechny ostatní procedury zaměřeny na hledání různých typů pravidel popisujících daná data (v souladu s metodou GUHA nazývaných hypotézy). LISp-Miner jde tedy za rámec klasických asociačních pravidel popsaných v části 1.1. Systém využívá originální techniku bitových řetězců při generování a testování, což výrazně zvyšuje rychlost výpočtu (Rauch, Šimůnek, 2005).

4 Naše představení jednotlivých procedur budeme ilustrovat na příkladu jednoduché datové tabulky obsahující údaje o žadatelích o úvěr. Část těchto dat můžeme vidět v tabulce 2. Tabulka 2. Ilustrační data klient příjem Konto pohlaví nezaměstnaný úvěr k1 vysoký vysoké žena ne ano k2 vysoký vysoké muž ne ano k3 nízký nízké muž ne ne k4 nízký vysoké žena ano ano k5 nízký vysoké muž ano ano k6 nízký nízké žena ano ne k7 vysoký nízké muž ne ano k8 vysoký nízké žena ano ano k9 nízký střední muž ano ne k10 vysoký střední žena ne ano k11 nízký střední žena ano ne k12 nízký střední muž ne ano Základním stavebním kamenem pro konstrukci hypotéz je takzvaný literál (pozitivní nebo negativní), definovaný jako atribut(koeficient) v případě pozitivního literálu resp. jako atribut(koeficient) v případě negativního literálu. Koeficient (seznam hodnot atributu) pak může být: podmnožina omezené délky např. literál město(praha, Brno) obsahuje podmnožinu délky 2, interval omezené délky např. literály věk(nízký, střední), věk(střední), věk(střední, vysoký) obsahují interval délky 1 až 2, řez (interval, obsahující krajní hodnotu) omezené délky např. literály věk(nízký), věk(nízký, střední), věk(nízký, střední, vysoký) obsahují dolní řez délky 1 až 3. Z literálů jsou pak vytvářeny (generovány metodou do hloubky ) konjunkce, které tvoří jednotlivé části nějakého pravidla (hypotézy). 3.1 Procedura 4FT-Miner Hypotézy generované a testované procedurou 4FT-Miner mají podobu φ ψ / γ, kde φ (antecedent), ψ (sukcedent) a γ, (podmínka) jsou konjunkce literálů a symbol charakterizuje typ vztahu mezi α a β na podmatici objektů, které splňují podmínku γ. Pokud není podmínka γ definována, analyzuje se celá datová matice.

5 Vztahy mezi antecedentem a sukcedentem nemusí odpovídat pouze implikacím, tak jak je tomu u asociačních pravidel v Agrawalově pojetí, tedy vztahům, kdy základní charakteristika počítaná ze čtyřpolní tabulky má podobu a a + b. Dalším typem vztahu jsou tzv. dvojité implikace, charakterizované hodnotou a, a + b + c nebo ekvivalence, charakterizované hodnotou a + d a + b + c + d. Vztah mezi antecedentem a sukcedentem můžeme hodnotit i na základě chí-kvadrát nebo Fischerova testu (seznam všech typů vztahů je uveden v dodatku). Při generování pravidla se nejprve vytvoří nějaký antecedent, k němu se pak naleznou všechny sukcedenty tak, aby pravidlo vyhovovalo zadaným parametrům. Při vytváření kombinací se postupuje do hloubky, literály jsou přitom uspořádány podle abecedy (podle názvů atributů resp. názvů hodnot). Parametry zadávané uživatelem jsou: seznam literálů, které se mohou vyskytnout v antecedentu, sukcedentu a podmínce, maximální délka konjunkce tvořící antecedent, sukcedent a podmínku typ vztahu a prahové (dolní) hodnoty kritérií pro hledané hypotézy Podívejme se nyní na naše ilustrační data. Zadání parametrů vidíme na obrázku 3, část výpisu nalezených pravidel ukazuje tabulka 3, detail jednoho pravidla (vizualizace příslušné kontingenční tabulky) je pak na obrázku 4. Považujeme za nutné zdůraznit, že pouze tato procedura vychází z klasických prací spojených s metodou GUHA (jde o nejnovější implementaci GUHA procedury ASSOC). Všechny dále uvedené procedury jsou výsledkem práce kolektivu autorů z VŠE (Berka návrh procedury KEX, Rauch návrh ostatních procedur, Šimůnek implementace).

6 Obrázek 3. Zadání parametrů pro proceduru 4FT-Miner Obrázek 4. Vizualizace kontingenční tabulky jedné konkrétní hypotézy procedury 4FT-Miner

7 Tabulka 3. Hypotézy nalezené procedurou 4FT-Miner Konto( nízké) Nezaměstnaný( ano) Pohlaví( žena) Konto( nízké) Nezaměstnaný( ano) Pohlaví( žena) Příjem(nízký) Úvěr( ne) Konto( nízké) Nezaměstnaný( ano) Pohlaví( žena) Příjem(vysoký) Úvěr( ano) Konto( nízké) Nezaměstnaný( ano) Pohlaví( žena) Úvěr( ano) Příjem(vysoký) Konto( nízké) Nezaměstnaný( ano) Pohlaví( žena) Úvěr( ne) Příjem(nízký) Konto( nízké) Nezaměstnaný( ano) Příjem(nízký) Úvěr( ne) Konto( nízké) Nezaměstnaný( ano) Příjem(nízký) Pohlaví( žena) Konto( nízké) Nezaměstnaný( ano) Příjem(nízký) Úvěr( ne) Pohlaví( žena) Konto( nízké) Nezaměstnaný( ano) Příjem(vysoký) Úvěr( ano) Konto( nízké) Nezaměstnaný( ano) Příjem(vysoký) Pohlaví( žena) Konto( nízké) Nezaměstnaný( ano) Příjem(vysoký) Úvěr( ano) Pohlaví( žena) Konto( nízké) Nezaměstnaný( ano) Úvěr( ano) Pohlaví( žena) Konto( nízké) Nezaměstnaný( ano) Úvěr( ano) Příjem(vysoký) Konto( nízké) Nezaměstnaný( ano) Úvěr( ne) Pohlaví( žena) Konto( nízké) Nezaměstnaný( ano) Úvěr( ne) Příjem(nízký) Konto( nízké) Nezaměstnaný( ne) Pohlaví( muž) Konto( nízké) Nezaměstnaný( ne) Pohlaví( muž) Příjem(nízký) Úvěr( ne) Konto( nízké) Nezaměstnaný( ne) Pohlaví( muž) Příjem(vysoký) Úvěr( ano) Konto( nízké) Nezaměstnaný( ne) Pohlaví( muž) Úvěr( ano) Příjem(vysoký) Konto( nízké) Nezaměstnaný( ne) Pohlaví( muž) Úvěr( ne) Příjem(nízký) Konto( nízké) Nezaměstnaný( ne) Příjem(nízký) Úvěr( ne) Konto( nízké) Nezaměstnaný( ne) Příjem(nízký) Pohlaví( muž) Konto( nízké) Nezaměstnaný( ne) Příjem(nízký) Úvěr( ne) Pohlaví( muž) Konto( nízké) Nezaměstnaný( ne) Příjem(vysoký) Úvěr( ano) Konto( nízké) Nezaměstnaný( ne) Příjem(vysoký) Pohlaví( muž) Konto( nízké) Nezaměstnaný( ne) Příjem(vysoký) Úvěr( ano) Pohlaví( muž) Konto( nízké) Nezaměstnaný( ne) Úvěr( ano) Pohlaví( muž) Konto( nízké) Nezaměstnaný( ne) Úvěr( ano) Příjem(vysoký) Konto( nízké) Nezaměstnaný( ne) Úvěr( ne) Pohlaví( muž) Konto( nízké) Nezaměstnaný( ne) Úvěr( ne) Příjem(nízký) Konto( nízké) Pohlaví( muž) Nezaměstnaný( ne) Konto( nízké) Pohlaví( muž) Příjem(nízký) Úvěr( ne) Konto( nízké) Pohlaví( muž) Příjem(nízký) Nezaměstnaný( ne) Konto( nízké) Pohlaví( muž) Příjem(nízký) Úvěr( ne) Nezaměstnaný( ne) Tabulka 3 ukazuje stručnou část výpisu nalezených hypotéz; vidíme jen syntaxi jednotlivých implikací. K úplnému obrázku chybí kvantitativní údaje z příslušných kontingenčních tabulek. K tomu dodejme, že všechna zobrazené implikace mají spolehlivost rovnou 1 tedy pokud nějaký klient splňuje předpoklad splňuje i závěr. Implikace jsou uvedeny v tom pořadí v jakém byly generovány. Interpretační modul procedury 4FT-Miner ale nabízí řadu dalších možností třídění, vybírání ze seznamu nalezených hypotéz a vizualizace (obrázek 4); interpretační moduly jsou součástí i všech dalších procedur).

8 3.2 Procedura KL-Miner Hypotézy generované a testované procedurou KL-Miner mají podobu R ~ C / γ. Tato procedura tedy nabízí kontingenční analýzu dvou vícehodnotových kategoriálních atributů. Počítané charakteristiky vzájemného vztahu mezi oběma atributy vychází ze statistických kritérií (např. Chí-kvadrát nebo Kendallův test), nebo z kritérií z oblasti teorie informace (např. entropie nebo vzájemná informace). Zpracovávají se přitom pouze příklady vyhovující podmínce γ. Pokud není podmínka γ definována, analyzuje se celá datová matice. V našem příkladu můžeme analyzovat celkem 20 kontingenčních tabulek, lze tedy získat až 20 KL hypotéz. Vizualizaci jedné z nich vidíme na obrázku 5. Obrázek 5. Vizualizace kontingenční tabulky jedné konkrétní hypotézy procedury KL-Miner

9 3.3 Procedura CF-Miner Hypotézy generované a testované procedurou CF-Miner mají podobu ~C / γ Analyzuje se zde tedy histogram frekvencí kategorií atributu C u příkladů splňujících podmínku γ. Cílem procedury je hledání okolností, za kterých jsou zajímavým způsobem rozloženy frekvence jednotlivých kategorií některého kategoriálního atributu. Zajímavost je zde chápána jako to, že frekvence splňují požadavek definovaný vztahem ~. Příkladem vztahu ~ může být požadavek, aby všechny kategorie dosahovaly alespoň zadané četnosti a, či aby rozptyl hodnot byl menší než zadaná hodnota. Obrázek 6. Vizualizace kontingenční tabulky jedné konkrétní hypotézy procedury CF-Miner

10 3.4 Procedura SD4FT-Miner Procedura SD4FT-Miner je jednou ze tří tzv. set differs from set procedur. Tyto procedury hledají hypotézy, jejichž numerické charakteristiky se liší na dvou podmnožinách analyzovaných dat. Hypotézy generované a testované procedurou SD4FT-Miner mají podobu φ ψ / (α, β, γ) Hledáme tedy situace, kdy při splněné podmínce γ je vzájemný 4ft-vztah mezi φ a ψ na množině α je jiný než na množině β. Tedy např. hledáme situace, kdy spolehlivost implikace φ ψ na množině příkladů splňujících α je jiná než spolehlivost implikace φ ψ na množině příkladů splňujících β: a1 a2 a + b a + b Příklad takovéto situace vidíme na obrázku 7. Ve skupině nezaměstnaných je spolehlivost implikace konto(střední) příjem(nízký) rovna 1 zatímco ve skupině zaměstnaných je spolehlivost této implikace rovna 0.5. Obrázek 7. Vizualizace kontingenční tabulky jedné konkrétní hypotézy procedury SD4FT-Miner

11 3.5 Procedura SDKL-Miner Hypotézy generované a testované procedurou SDKL-Miner mají podobu R ~ C / (α, β, γ) Hledáme tedy dvojice podmnožin definovaných booleovskými atributy α, β, podmínku definovanou booleovským atributem γ a kategoriální atributy R, C tak, že za podmínky γ se podmnožiny α, β liší vzhledem k vzájemnému vztahu atributů R a C. Podmínka γ nemusí být zadána, pak se výpočet provádí pro celou datovou matici. V našich datech můžeme například zjistit, že vztah mezi výší konta a výší příjmu u nezaměstnaných je jiný než vztah mezi výší konta a výší příjmu u zaměstnaných (obrázek 8). Obrázek 8. Vizualizace kontingenční tabulky jedné konkrétní hypotézy procedury SDKL-Miner

12 3.6 Procedura SDCF-Miner Hypotézy generované a testované procedurou SDCF-Miner mají podobu ~C / (α, β, γ). Hledáme dvojice podmnožin definovaných booleovskými atributy α, β, podmínku definovanou booleovským atributem γ a kategoriální atribut C tak, že za podmínky γ se podmnožiny α, β liší vzhledem k frekvencím jednotlivých kategorií atributu C. Podmínka γ nemusí být zadána, pak se výpočet provádí pro celou datovou matici. Obrázek 9 ukazuje, že rozdělení četností hodnot atributu příjem je různé pro skupinu nezaměstnaných a skupinu zaměstnaných. Obrázek 9. Vizualizace kontingenční tabulky jedné konkrétní hypotézy procedury SDCF-Miner 3.7 Procedura KEX Z pojetí metody GUHA se vymyká procedura KEX. Tato procedura slouží pro hledání klasifikačních pravidel, tedy pravidel, která je možno přímo použít v procesu automatizovaného rozhodování (Berka, Ivánek, 1994). Při specifikaci tohoto procesu musíme rozhodnout o: podobě báze znalostí, podobě inferenčního mechanismu, způsobu, jak v souboru vztahů nalézt znalosti.

13 Báze znalostí je vytvářena v podobě souboru pravidel tvořených vztahy implikace k zadané cílové kombinaci. Vztahy jsou opatřeny váhou která vyjadřuje neurčitost ve znalostech. Pravidla v bázi znalostí tedy mají podobu předpoklad třída (w), kde předpoklad je kombinace kategorií vstupních atributů, třída je kombinace definující pozitivní příklady, w z intervalu [0,1] je váha vyjadřující neurčitost pravidla. Inferenční mechanismus budovaného systému pracuje metodou přímého řetězení. V průběhu konzultace se pro nový objekt popsaný hodnotami vstupních atributů (popis objektu nemusí být úplný!) naleznou všechna aplikovatelná pravidla. Příspěvky těchto pravidel se složí pomocí kombinační funkce a tak se naleznou výsledné váhy všech cílů. Jako kombinační funkce se používá pseudobayesovské skládání vah známé z expertního systému PROSPECTOR (Duda, Gasching, 1979). Jsou-li w 1, w 2 váhy dvou pravidel, spočítá se jejich kombinace jako: w1 w2 w1 w2 =. w w + 1 w ) (1 w ) 1 2 ( 1 2 Při tvorbě báze pravidel se vlastně provádí postupné zpřesňování a zjemňování již existujících znalostí (knowledge refinement). Bázi pravidel vytváříme shora dolů postupným přidáváním nových (speciálnějších) pravidel ve chvíli, kdy báze přestane být konsistentní s trénovacími daty reprezentovanými souborem všech implikací k zadanému cíli. Na počátku obsahuje báze pravidel tzv. prázdný vztah, který odpovídá rozdělení tříd v trénovacích datech. Do báze pravidel se pak postupně zařazují jen ty implikace, které nejsou odvoditelné z již získaných kratších pravidel. Obrázek 10 ukazuje bázi pravidel získaných z našich ukázkových dat Obrázek 10. Klasifikační pravidla nalezená procedurou KEX

14 Při klasifikaci nového příkladu použijeme všechna aplikovatelná pravidla a pomocí funkce poskládáme jejich váhy. Příklad zařadíme ke třídě, pro kterou odvodíme nejvyšší váhu. 3.8 Struktura a implementace systému Struktura systému LISp-Miner je naznačena na obrázku 11. Systém je tvořen řadou samostatných modulů (exe souborů), které pracují nad analyzovanými daty a nad metadaty. Analyzovaná data jsou uložena v databázi MS Access. Koncept metadat, rovněž realizovaný jako databáze MS Access, umožňuje uchovávat zadání i výsledky jednotlivých analýz. LISp-Miner je tedy z implementačního pohledu zasazen do prostředí MS Windows. Z pohledu metodiky CRISP-DM, standardní metodiky pro řešení úloh dobývání znalostí z databází (viz obrázek 12), systém LISp-Miner podporuje kroky porozumění datům, přípravy dat, modelování a evaluace. Systém je volně dostupný na ANALYZED DATA pparams (ODBC DSN) META BASE LM Admin Administration Read-Only Data Exploration & Preparation modules Obrázek 11. Schéma systému LISp-Miner Data Processing modules Interpretation modules Obrázek 12. Metodika CRISP-DM

15 4 Poděkování Systém LISp-Miner je vyvíjen s podporou grantů MSMT č. MSM , GAČR č. 201/05/0325. Na návrhu procedur, jejich implementaci či testování se kromě autorů příspěvku podílela řada studentů a doktorandů VŠE, za všechny zmiňme V. Lína, M. Kejkulu a P. Dolejšího. 5 Závěr Příklady popisované v příspěvku jsou výhradně ilustrační. Z rozsáhlejších (a serióznějších) aplikací systému LISp-Miner můžeme zmínit analýzu dat o rizikových faktorech aterosklerózy u mužů středního věku prováděnou v rámci výzkumného centra EuroMISE (Lín a kol. 2004), analýzu dat o příčinách dopravních nehod ve Velké Británii prováděnou v rámci evropského výzkumného projektu Sol-Eu-Net (Flach a kol., 2003), analýzu dat o názorech obyvatel Prahy na kvalitu života v hlavním městě (Svátek, Rauch, Ralbovský, 2006) nebo analýzu popisů událostí vztahujících se k fotbalovým utkáním (v rámci evropského výzkumného projektu K-Space). Již tento neúplný výčet ukazuje, že LISp-Miner je vhodným nástrojem všude tam, kde hledáme zajímavé souvislosti mezi hodnotami atributů v datech z různých oblastí. Literatura Agrawal, R., Imielinski, T., Swami,A.: Mining associations between sets of items in massive databases. In: Proc. of the ACM-SIGMOD 1993 Int Conference on Management of Data, Washington D.C., May 1993, Agrawal, R., a kol.: Fast discovery of association rules. In: (Fayyad, Piatetsky-Shapiro, Smyth, Uthurusamy, eds.) Advances in Knowledge Discovery and Data Mining, AAAI/MIT Press, 1996 Berka, P.: Dobývání znalostí z databází. Academia Praha, 2003 Berka, P., Ivánek, J.: Automated knowledge acquisition for PROSPECTOR-like expert systems. In. (Bergadano, de Raedt eds.) Proc. ECML'94, Springer 1994, Clark, P., Niblett, T.: The CN2 induction algorithm. Machine Learning, 3 (1989), Duda, R.O., Gasching, J.E.: Model design in the Prospector consultant system for mineral exploration. In: Michie, D. (ed.), Expert Systems in the Micro Electronic Age, Edinburgh University Press, UK, Fayyad,U. a kol.. eds.: Advances in Knowledge Discovery and Data Mining. AAAI Press/MIT Press, 1996 Hájek, P., Havránek, T.: Mechanising Hypothesis Formation Mathematical Foundations for a General Theory. Springer, Flach, P. a kol.: On the Road to Knowledge. In: Mladenič, a kol. (ed.). Data mining and Decision Support. Integration and Collaboration. Boston : Kluwer Academic Publishers, 2003, Hájek, P., Havránek, T., Chytil, M.K.: Metoda GUHA. Automatická tvorba hypotéz. Academia, 1983.

16 Chapman, P. a kol.: CRISP-DM 1.0 Step-by-step data mining guide. SPSS Inc Lín, V., a kol.: The KL-Miner Procedure for Datamining. Neural Network World, 2004, č. 5, Michalski, R.S.: On the Quasi-minimal solution of the general covering problem. In: Proc. 5th Int. Symposium on Information Processing FCIP 69, Bled, Yugoslavia, 1969, Rauch, J., Šimůnek, M.: System LISp-Miner. In: Svátek,V. (ed.). Znalosti Ostrava: TU Ostrava, 2003, Rauch, J., Šimůnek, M.: GUHA Method and Granular Computing. In: Hu, a kol. (ed.). IEEE Int. Conf. On Granular Computing , Svátek, V., Rauch, J., Ralbovský, M.: Ontology-Enhanced Association Mining. In: Ackermann, M., a kol. (eds): Semantics, Web and Mining. Berlin Springer, 2006, Šimůnek, M.: Academic KDD Project LISp-Miner. In: Abraham,A., Franke,K., Koppen, K. (eds.). Advances in Soft Computing Intelligent Systems Desing and Applications. Heidelberg: Springer-Verlag, 2003,

17 Dodatek: seznam kvantifikátorů procedury 4FT-Miner Název parametry podmínka platnosti Základní (fundovaná) implikace Dolní kritická implikace Horní kritická implikace Základní (fundovaná) dvojitá implikace Dolní kritická dvojitá implikace Horní kritická dvojitá implikace Základní (fundovaná) ekvivalence Dolní kritická ekvivalence Horní kritická ekvivalence 0 < p 1 0 < p 1 0 < α < 1 0 < p 1 0 < α < 1 0 <p 1 0 < p < 1 0 < α < 1 0 < p < 1 0 < α < 1 0 <p 1 0 < p < 1 0 < α < 1 0 < p < 1 0 < α < 1 E-kvantifikátor 0 < δ < 1 a a + b p a Base a+b i=a a i=0 (a + b)! i!(a + b - i)! pi (1 - p) a+b-i α a Base (a + b)! i!(a + b - i)! pi (1 - p) a+b-i > α a Base a a + b + c p a Base a+b+c (a + b + c)! i!(a + b + c - i)! pi (1 - p) a+b+c-i i=a a i=0 α a Base (a + b + c)! i!(a + b + c - i)! pi (1 - p) a+b+c-i > α a Base a + d a + b + c + d p a Base a+b+c+d (a + b + c + d)! i!(a + b + + d - i)! pi (1 - p) a+b+c+d-i α i=a a Base a i=0 a Base (a + b + c + d)! i!(a + b + c +d - i)! pi (1 - p) a+b+c+d-i > α a + b > 0 b a + b < δ c + d > 0 c c + d < δ

18 název parametry podmínka platnosti Prosté vychýlení Fisherův kvantifikátor Chi-kvadrát kvantifikátor δ > 0 0 < α < α 0.5 ab > e δ cd a Base min(r,k) r!s!k!l! n!i!(r-i)!(k-i)!(n-r-k-i)! α a Base i=a ad > bc n(ad - bc) klrs > α a Base podpora 0 < σ 1 a a + b + c + d σ above average -1 < p a(a + b + c + d) a + b > 0 a + c > 0 (a + b) (a + c) (1-p) below average -1 < p a(a + b + c + d) a + b > 0 a + c > 0 (a + b) (a + c) < (1-p)

Analytické procedury v systému LISp-Miner

Analytické procedury v systému LISp-Miner Dobývání znalostí z databází MI-KDD ZS 2011 Přednáška 8 Analytické procedury v systému LISp-Miner Část II. (c) 2011 Ing. M. Šimůnek, Ph.D. KIZI, Fakulta informatiky a statistiky, VŠE Praha Evropský sociální

Více

Vysoká škola ekonomická. Katedra informačního a znalostního inženýrství. Fakulta informatiky a statistiky. Systém LISp-Miner

Vysoká škola ekonomická. Katedra informačního a znalostního inženýrství. Fakulta informatiky a statistiky. Systém LISp-Miner Vysoká škola ekonomická Katedra informačního a znalostního inženýrství Fakulta informatiky a statistiky Systém LISp-Miner Stručný popis určený pro posluchače kurzů Metod zpracování informací verse 20.

Více

DOBÝVÁNÍ ZNALOSTÍ Z DATABÁZÍ PŘÍKLADY APLIKACÍ V KARDIOLOGICKÝCH DATECH Jan Rauch

DOBÝVÁNÍ ZNALOSTÍ Z DATABÁZÍ PŘÍKLADY APLIKACÍ V KARDIOLOGICKÝCH DATECH Jan Rauch DOBÝVÁNÍ ZNALOSTÍ Z DATABÁZÍ PŘÍKLADY APLIKACÍ V KARDIOLOGICKÝCH DATECH Jan Rauch Anotace: Příspěvek obsahuje základní informace o dobývání znalostí jakožto důležité disciplíně informatiky a ukazuje příklady

Více

Úvod do dobývání. znalostí z databází

Úvod do dobývání. znalostí z databází POROZUMĚNÍ 4iz260 Úvod do DZD Úvod do dobývání DOMÉNOVÉ OBLASTI znalostí z databází VYUŽITÍ VÝSLEDKŮ POROZUMĚNÍ DATŮM DATA VYHODNO- CENÍ VÝSLEDKŮ MODELOVÁNÍ (ANALYTICKÉ PROCEDURY) PŘÍPRAVA DAT Ukázka slidů

Více

Obsah. Seznam obrázků. Seznam tabulek. Petr Berka, 2011

Obsah. Seznam obrázků. Seznam tabulek. Petr Berka, 2011 Petr Berka, 2011 Obsah... 1... 1 1 Obsah 1... 1 Dobývání znalostí z databází 1 Dobývání znalostí z databází O dobývání znalostí z databází (Knowledge Discovery in Databases, KDD) se začíná ve vědeckých

Více

Získávání dat z databází 1 DMINA 2010

Získávání dat z databází 1 DMINA 2010 Získávání dat z databází 1 DMINA 2010 Získávání dat z databází Motto Kde je moudrost? Ztracena ve znalostech. Kde jsou znalosti? Ztraceny v informacích. Kde jsou informace? Ztraceny v datech. Kde jsou

Více

Asociační pravidla (metoda GUHA)

Asociační pravidla (metoda GUHA) Vysoká škola báňská Technická univerzita Ostrava Fakulta elektrotechniky a informatiky Katedra informatiky Asociační pravidla (metoda GUHA) Ing. Michal Burda () Získávání znalostí z dat Brno, 27. ledna

Více

Dobývání znalostí z databází MI-KDD ZS 2011 Přednáška 2. Projekt LISp-Miner.

Dobývání znalostí z databází MI-KDD ZS 2011 Přednáška 2. Projekt LISp-Miner. Dobývání znalostí z databází MI-KDD ZS 2011 Přednáška 2 Projekt LISp-Miner http://lispminer.vse.cz (c) 2011 Ing. M. Šimůnek, Ph.D. KIZI, Fakulta informatiky a statistiky, VŠE Praha Evropský sociální fond

Více

Dolování asociačních pravidel

Dolování asociačních pravidel Dolování asociačních pravidel Miloš Trávníček UIFS FIT VUT v Brně Obsah přednášky 1. Proces získávání znalostí 2. Asociační pravidla 3. Dolování asociačních pravidel 4. Algoritmy pro dolování asociačních

Více

Nová GUHA-procedura ETree-Miner v systému LISp-Miner

Nová GUHA-procedura ETree-Miner v systému LISp-Miner Nová GUHA-procedura ETree-Miner v systému LISp-Miner Milan Šimůnek Laboratoř pro inteligentní systémy Praha Fakulta informatiky a statistiky, VŠE Praha nám. W. Churchilla 4, 130 67 Praha 3 simunek@vse.cz

Více

DOBÝVÁNÍ ZNALOSTÍ Z DATABÁZÍ

DOBÝVÁNÍ ZNALOSTÍ Z DATABÁZÍ DOBÝVÁNÍ ZNALOSTÍ Z DATABÁZÍ Úvod a oblasti aplikací Martin Plchút plchut@e-globals.net DEFINICE A POJMY Netriviální extrakce implicitních, ch, dříve d neznámých a potenciáln lně užitečných informací z

Více

ZÍSKÁVÁNÍ ZNALOSTÍ Z DATABÁZÍ

ZÍSKÁVÁNÍ ZNALOSTÍ Z DATABÁZÍ Metodický list č. 1 Dobývání znalostí z databází Cílem tohoto tematického celku je vysvětlení základních pojmů z oblasti dobývání znalostí z databází i východisek dobývání znalostí z databází inspirovaných

Více

Dobývání znalostí z databází (MI-KDD) Přednáška číslo 5 Zajímavé dvojice podmnožin objektů, procedura SD4ft-Miner

Dobývání znalostí z databází (MI-KDD) Přednáška číslo 5 Zajímavé dvojice podmnožin objektů, procedura SD4ft-Miner Dobývání znalostí z databází (MI-KDD) Přednáška číslo 5 Zajímavé dvojice podmnožin objektů, procedura SD4ft-Miner (c) prof. RNDr. Jan Rauch, CSc. KIZI, Fakulta informatiky a statistiky VŠE zimní semestr

Více

Projekt LISp-Miner. M. Šimůnek

Projekt LISp-Miner.   M. Šimůnek Projekt LISp-Miner http://lispminer.vse.cz M. Šimůnek Obsah Systém LISp-Miner Vývoj systému v dlouhém období ETree-Miner Project LISp-Miner 2 Systém LISp-Miner Metoda GUHA (od roku 1966) předchozí implementace

Více

ZÍSKÁVÁNÍ ZNALOSTÍ Z DATABÁZÍ

ZÍSKÁVÁNÍ ZNALOSTÍ Z DATABÁZÍ metodický list č. 1 Dobývání znalostí z databází Cílem tohoto tematického celku je vysvětlení základních pojmů z oblasti dobývání znalostí z databází i východisek dobývání znalostí z databází inspirovaných

Více

Ing. Petr Hájek, Ph.D. Podpora přednášky kurzu Aplikace umělé inteligence

Ing. Petr Hájek, Ph.D. Podpora přednášky kurzu Aplikace umělé inteligence APLIKACE UMĚLÉ INTELIGENCE Ing. Petr Hájek, Ph.D. Podpora přednášky kurzu Aplikace umělé inteligence Aplikace umělé inteligence - seminář ING. PETR HÁJEK, PH.D. ÚSTAV SYSTÉMOVÉHO INŽENÝRSTVÍ A INFORMATIKY

Více

Rozhodovací pravidla

Rozhodovací pravidla Rozhodovací pravidla Úloha klasifikace příkladů do tříd. pravidlo Ant C, kde Ant je konjunkce hodnot atributů a C je cílový atribut A. Algoritmus pokrývání množin metoda separate and conquer (odděl a panuj)

Více

Dolování z textu. Martin Vítek

Dolování z textu. Martin Vítek Dolování z textu Martin Vítek Proč dolovat z textu Obrovské množství materiálu v nestrukturované textové podobě knihy časopisy vědeckéčlánky sborníky konferencí internetové diskuse Proč dolovat z textu

Více

Základy vytěžování dat

Základy vytěžování dat Základy vytěžování dat předmět A7Bb36vyd Vytěžování dat Filip Železný, Miroslav Čepek, Radomír Černoch, Jan Hrdlička katedra kybernetiky a katedra počítačů ČVUT v Praze, FEL Evropský sociální fond Praha

Více

Kontingenční tabulky. (Analýza kategoriálních dat)

Kontingenční tabulky. (Analýza kategoriálních dat) Kontingenční tabulky (Analýza kategoriálních dat) Agenda Standardní analýzy dat v kontingenčních tabulkách úvod, KT, míry diverzity nominálních veličin, některá rozdělení chí kvadrát testy, analýza reziduí,

Více

Katedra kybernetiky laboratoř Inteligentní Datové Analýzy (IDA) Katedra počítačů, Computational Intelligence Group

Katedra kybernetiky laboratoř Inteligentní Datové Analýzy (IDA) Katedra počítačů, Computational Intelligence Group Vytěžování dat Miroslav Čepek, Filip Železný Katedra kybernetiky laboratoř Inteligentní Datové Analýzy (IDA) Katedra počítačů, Computational Intelligence Group Evropský sociální fond Praha & EU: Investujeme

Více

Dobývání znalostí z databází (MI-KDD) Přednáška číslo 4 Asociační pravidla

Dobývání znalostí z databází (MI-KDD) Přednáška číslo 4 Asociační pravidla Dobývání znlostí z dtbází (MI-KDD) Přednášk číslo 4 Asociční prvidl (c) prof. RNDr. Jn Ruch, CSc. KIZI, Fkult informtiky sttistiky VŠE zimní semestr 2011/2012 Evropský sociální fond Prh & EU: Investujeme

Více

Asociační i jiná. Pravidla. (Ch )

Asociační i jiná. Pravidla. (Ch ) Asociační i jiná Pravidla (Ch. 14 +...) Učení bez učitele Nemáme cílovou třídu Y, G; máme N pozorování což jsou p-dimenzionální vektory se sdruženou pravděpodobností chceme odvozovat vlastnosti. Pro málo

Více

Pravděpodobně skoro správné. PAC učení 1

Pravděpodobně skoro správné. PAC učení 1 Pravděpodobně skoro správné (PAC) učení PAC učení 1 Výpočetní teorie strojového učení Věta o ošklivém kačátku. Nechť E je klasifikovaná trénovací množina pro koncept K, který tvoří podmnožinu konečného

Více

Výpočet na gridu a LM TaskPooler

Výpočet na gridu a LM TaskPooler Dobývání znalostí z databází MI-KDD ZS 2011 Přednáška 10 Výpočet na gridu a LM TaskPooler v systému LISp-Miner (c) 2011 Ing. M. Šimůnek, Ph.D. KIZI, Fakulta informatiky a statistiky, VŠE Praha Evropský

Více

8. Systémy pro dobývání znalostí z databází

8. Systémy pro dobývání znalostí z databází 8. Systémy pro dobývání znalostí z databází Jako v jiných oblastech umělé inteligence, tak i v oblasti strojového učení se první programové systémy objevily v akademické sféře. Obvykle se jednalo o systémy,

Více

Dobývání a vizualizace znalostí. Olga Štěpánková et al.

Dobývání a vizualizace znalostí. Olga Štěpánková et al. Dobývání a vizualizace znalostí Olga Štěpánková et al. 1 Osnova předmětu Dobývání znalostí - popis a metodika procesu CRISP a objasnění základních pojmů Nástroje pro modelování klasifikovaných dat a jejich

Více

Dobývání a vizualizace znalostí

Dobývání a vizualizace znalostí Dobývání a vizualizace znalostí Olga Štěpánková et al. 1 Osnova předmětu 1. Dobývání znalostí - popis a metodika procesu a objasnění základních pojmů 2. Nástroje pro modelování klasifikovaných dat a jejich

Více

Obsah Úvod Kapitola 1 Než začneme Kapitola 2 Práce s hromadnými daty před analýzou

Obsah Úvod Kapitola 1 Než začneme Kapitola 2 Práce s hromadnými daty před analýzou Úvod.................................................................. 11 Kapitola 1 Než začneme.................................................................. 17 1.1 Logika kvantitativního výzkumu...........................................

Více

Asociační pravidla. Úloha hledání souvislostí mezi hodnotami atributů. {párky, hořčice} {rohlíky} Ant Suc,

Asociační pravidla. Úloha hledání souvislostí mezi hodnotami atributů. {párky, hořčice} {rohlíky} Ant Suc, Asociční prvidl Úloh hledání souvislostí mezi hodnotmi tributů. nlýz nákupního košíku (Agrwl, 1993) obecněji {párky, hořčice} {rohlíky} Ant Suc, kde Ant (ntecedent) i Suc (sukcedent) jsou konjunkce hodnot

Více

VYUŽITÍ DATA MININGOVÝCH METOD PŘI ZPRACOVÁNÍ DAT Z DEMOGRAFICKÝCH ŠETŘENÍ

VYUŽITÍ DATA MININGOVÝCH METOD PŘI ZPRACOVÁNÍ DAT Z DEMOGRAFICKÝCH ŠETŘENÍ UNIVERZITA KARLOVA V PRAZE Přírodovědecká fakulta Katedra demografie a geodemografie VYUŽITÍ DATA MININGOVÝCH METOD PŘI ZPRACOVÁNÍ DAT Z DEMOGRAFICKÝCH ŠETŘENÍ USING DATA MINING METHODS FOR DEMOGRAPHIC

Více

Dobývání znalostí z databází

Dobývání znalostí z databází Dobývání znalostí z databází (Knowledge Discovery in Databases, Data Mining,..., Knowledge Destilery,...) Non-trivial process of identifying valid, novel, potentially useful and ultimately understandable

Více

Univerzita Karlova v Praze Matematicko-fyzikální fakulta DIPLOMOVÁ PRÁCE

Univerzita Karlova v Praze Matematicko-fyzikální fakulta DIPLOMOVÁ PRÁCE Univerzita Karlova v Praze Matematicko-fyzikální fakulta DIPLOMOVÁ PRÁCE Miron Tegze Procedura SDKL-Miner pro dobývání znalostí z databází Katedra softwarového inženýrství Vedoucí diplomové práce: doc.

Více

Dobývání a vizualizace znalostí

Dobývání a vizualizace znalostí Dobývání a vizualizace znalostí Olga Štěpánková et al. 1 Osnova předmětu 1. Dobývání znalostí - popis a metodika procesu a objasnění základních pojmů 2. Nástroje pro modelování klasifikovaných dat a jejich

Více

Dobývání a vizualizace znalostí

Dobývání a vizualizace znalostí Dobývání a vizualizace znalostí Olga Štěpánková, Lenka Vysloužilová, et al. https://cw.fel.cvut.cz/wiki/courses/a6m33dvz/start 1 Osnova přednášky Úvod: data, objem, reprezentace a základní terminologie

Více

Informační systémy pro podporu rozhodování

Informační systémy pro podporu rozhodování Informační systémy pro rozhodování Informační systémy pro podporu rozhodování 5 Jan Žižka, Naděžda Chalupová Ústav informatiky PEF Mendelova universita v Brně Asociační pravidla Asociační pravidla (sdružovací

Více

1. Dobývání znalostí z databází

1. Dobývání znalostí z databází 1. Dobývání znalostí z databází O dobývání znalostí z databází (Knowledge Discovery in Databases, KDD) se začíná ve vědeckých kruzích mluvit počátkem 90. let. První impuls přišel z Ameriky, kde se na konferencích

Více

Získávání znalostí z dat

Získávání znalostí z dat Získávání znalostí z dat Informační a komunikační technologie ve zdravotnictví Získávání znalostí z dat Definice: proces netriviálního získávání implicitní, dříve neznámé a potencionálně užitečné informace

Více

Dobývání dat a strojové učení

Dobývání dat a strojové učení Dobývání dat a strojové učení Dobývání znalostí z databází (Knowledge discovery in databases) Non-trivial process of identifying valid, novel, potentially useful and ultimately understandable patterns

Více

Analýza dat pomocí systému Weka, Rapid miner a Enterprise miner

Analýza dat pomocí systému Weka, Rapid miner a Enterprise miner Vysoká škola ekonomická v Praze Analýza dat pomocí systému Weka, Rapid miner a Enterprise miner Dobývání znalostí z databází 4IZ450 XXXXXXXXXXX Přidělená data a jejich popis Data určená pro zpracování

Více

BA_EM Electronic Marketing. Pavel

BA_EM Electronic Marketing. Pavel BA_EM Electronic Marketing Pavel Kotyza @VŠFS Agenda Efektivní data mining jako zdroj relevantních dat o potřebách zákazníků Co je data mining? Je absolutní Je předem neznámý Je užitečný Co jsou data?

Více

Segmentace bankovních zákazníků algoritmem k- means

Segmentace bankovních zákazníků algoritmem k- means Segmentace bankovních zákazníků algoritmem k- means LS 2014/2015 Michal Heřmanský xherm22 Obsah 1 Úvod... 3 1.1 CRISP- DM... 3 2 Porozumění problematice a datům... 4 3 Příprava dat... 5 4 Modelování...

Více

Profitabilita klienta v kontextu Performance management

Profitabilita klienta v kontextu Performance management IBM Technical specialist team Pre Sale 26/10/2010 Profitabilita klienta v kontextu Performance management Co všechno řadíme do PM? Automatická data Běžný reporting Pokročilé statistické modely Včera What

Více

Lokální a globální analytické zprávy o výsledcích DZD

Lokální a globální analytické zprávy o výsledcích DZD Univerzita Karlova v Praze Matematicko-fyzikální fakulta DIPLOMOVÁ PRÁCE Zdeněk Reischig Lokální a globální analytické zprávy o výsledcích DZD KATEDRA SOFTWAROVÉHO INŽENÝRSTVÍ Vedoucí diplomové práce:

Více

Michal Burda. 27. ledna Abstrakt

Michal Burda. 27. ledna Abstrakt Získávání znalostí z databází - Asociační pravidla Michal Burda 27. ledna 2004 Abstrakt Získávání asociačních pravidel z dat je jedním z významných oborů Data Miningu. Hledají se pomocí něj zajímavé vztahy

Více

hledání zajímavých asociací i korelací ve velkém množství dat původně pro transakční data obchodní transakce analýza nákupního košíku

hledání zajímavých asociací i korelací ve velkém množství dat původně pro transakční data obchodní transakce analýza nákupního košíku Asociační pravidla Asociační pravidla hledání zajímavých asociací i korelací ve velkém množství dat původně pro transakční data obchodní transakce analýza nákupního košíku podpora rozhodování Analýza nákupního

Více

Metody tvorby ontologií a sémantický web. Martin Malčík, Rostislav Miarka

Metody tvorby ontologií a sémantický web. Martin Malčík, Rostislav Miarka Metody tvorby ontologií a sémantický web Martin Malčík, Rostislav Miarka Obsah Reprezentace znalostí Ontologie a sémantický web Tvorba ontologií Hierarchie znalostí (D.R.Tobin) Data jakékoliv znakové řetězce

Více

4ft-Miner pro začátečníky Získávání znalostí z databází

4ft-Miner pro začátečníky Získávání znalostí z databází 4ft-Miner pro začátečníky Získávání znalostí z databází Dobývání znalostí z databází (DZD) Knowledge Discovery in (from) Databases (KDD) Data Mining (DM) Materiál pro posluchače kurzů IZI211 Metody zpracování

Více

Základy biostatistiky II. Veřejné zdravotnictví 3.LF UK - II

Základy biostatistiky II. Veřejné zdravotnictví 3.LF UK - II Základy biostatistiky II Veřejné zdravotnictví 3.LF UK - II Teoretické rozložení-matematické modely rozložení Naměřená data Výběrové rozložení Teoretické rozložení 1 e 2 x 2 Teoretické rozložení-matematické

Více

Hodnocení (ne)zajímavosti asociačních pravidel za využití báze znalostí

Hodnocení (ne)zajímavosti asociačních pravidel za využití báze znalostí Hodnocení (ne)zajímavosti asociačních pravidel za využití báze znalostí Přemysl Václav Duben, Stanislav Vojíř Katedra informačního a znalostního inženýrství, FIS, Vysoká škola ekonomická v Praze nám. W.

Více

Vybrané přístupy řešení neurčitosti

Vybrané přístupy řešení neurčitosti Vybrané přístupy řešení neurčitosti Úvod do znalostního inženýrství, ZS 2015/16 8-1 Faktory jistoty Jedná se o přístup založený na ad hoc modelech Hlavním důvodem vzniku tohoto přístupu je omezení slabin

Více

Dobývání znalostí. Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze

Dobývání znalostí. Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze Dobývání znalostí Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze Dobývání znalostí Úvod do problematiky Doc. RNDr. Iveta Mrázová,

Více

IBM SPSS Exact Tests. Přesné analýzy malých datových souborů. Nejdůležitější. IBM SPSS Statistics

IBM SPSS Exact Tests. Přesné analýzy malých datových souborů. Nejdůležitější. IBM SPSS Statistics IBM Software IBM SPSS Exact Tests Přesné analýzy malých datových souborů Při rozhodování o existenci vztahu mezi proměnnými v kontingenčních tabulkách a při používání neparametrických ů analytici zpravidla

Více

Tvorba asociačních pravidel a hledání. položek

Tvorba asociačních pravidel a hledání. položek Tvorba asociačních pravidel a hledání častých skupin položek 1 Osnova Asociace Transakce Časté skupiny položek Apriori vlastnost podmnožin Asociační pravidla Aplikace 2 Asociace Nechť I je množina položek.

Více

PSY117/454 Statistická analýza dat v psychologii přednáška 8. Statistické usuzování, odhady

PSY117/454 Statistická analýza dat v psychologii přednáška 8. Statistické usuzování, odhady PSY117/454 Statistická analýza dat v psychologii přednáška 8 Statistické usuzování, odhady Výběr od deskripce k indukci Deskripce dat, odhad parametrů Usuzování = inference = indukce Počítá se s náhodným

Více

1. Znalostní systémy a znalostní inženýrství - úvod. Znalostní systémy. úvodní úvahy a předpoklady. 26. září 2017

1. Znalostní systémy a znalostní inženýrství - úvod. Znalostní systémy. úvodní úvahy a předpoklady. 26. září 2017 Znalostní systémy úvodní úvahy a předpoklady 26. září 2017 1-1 Znalostní systém Definice ZS (Feigenbaum): Znalostní (původně expertní) systémy jsou počítačové programy simulující rozhodovací činnost experta

Více

EXPERIMENTÁLNÍ GUHA PROCEDURY

EXPERIMENTÁLNÍ GUHA PROCEDURY Univerzita Karlova v Praze Matematicko-fyzikální fakulta DIPLOMOVÁ PRÁCE Tomáš Kuchař EXPERIMENTÁLNÍ GUHA PROCEDURY Katedra softwarového inženýrství Vedoucí diplomové práce: Doc. RNDr. Jan Rauch, CSc.

Více

PŘÍRODOVĚDECKÁ FAKULTA UNIVERZITY PALACKÉHO KATEDRA INFORMATIKY DIPLOMOVÁ PRÁCE. Analýza dat ze studentských dotazníků Bc.

PŘÍRODOVĚDECKÁ FAKULTA UNIVERZITY PALACKÉHO KATEDRA INFORMATIKY DIPLOMOVÁ PRÁCE. Analýza dat ze studentských dotazníků Bc. PŘÍRODOVĚDECKÁ FAKULTA UNIVERZITY PALACKÉHO KATEDRA INFORMATIKY DIPLOMOVÁ PRÁCE Analýza dat ze studentských dotazníků 2013 Bc. Tomáš Matonoha Anotace Data mining je proces získávání netriviálních a dříve

Více

Dobývání znalostí z databází (MI-KDD) Přednáška číslo 1 - Úvod

Dobývání znalostí z databází (MI-KDD) Přednáška číslo 1 - Úvod Dbývání znalstí z databází (MI-KDD) Přednáška čísl 1 - Úvd (c) prf. RNDr. Jan Rauch, CSc. KIZI, Fakulta infrmatiky a statistiky VŠE zimní semestr 2011/2012 Evrpský sciální fnd Praha & EU: Investujeme d

Více

Získávání znalostí z databází. Alois Kužela

Získávání znalostí z databází. Alois Kužela Získávání znalostí z databází Alois Kužela Obsah související pojmy datové sklady, získávání znalostí asocianí pravidla 2/37 Úvod získávání znalostí z dat, dolování (z) dat, data mining proces netriviálního

Více

VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ BRNO UNIVERSITY OF TECHNOLOGY

VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ BRNO UNIVERSITY OF TECHNOLOGY VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ BRNO UNIVERSITY OF TECHNOLOGY FAKULTA INFORMAČNÍCH TECHNOLOGIÍ ÚSTAV INFORMAČNÍCH SYSTÉMŮ FACULTY OF INFORMATION TECHNOLOGY DEPARTMENT OF INFORMATION SYSTEMS DOLOVÁNÍ ASOCIAČNÍCH

Více

Kontingenční tabulky, korelační koeficienty

Kontingenční tabulky, korelační koeficienty Statistika II Katedra ekonometrie FVL UO Brno kancelář 69a, tel 973 442029 email:jirineubauer@unobcz Budeme předpokládat, že X a Y jsou kvalitativní náhodné veličiny, obor hodnot X obsahuje r hodnot (kategorií,

Více

Pravidlové znalostní systémy

Pravidlové znalostní systémy Pravidlové znalostní systémy 31. října 2017 2-1 Tvary pravidel Pravidla (rules) mohou mít například takovéto tvary: IF předpoklad THEN závěr IF situace THEN akce IF podmínka THEN závěr AND akce IF podmínka

Více

Informační systémy 2006/2007

Informační systémy 2006/2007 13 Vysoká škola báňská Technická univerzita Ostrava Fakulta strojní, Katedra automatizační techniky a řízení Informační systémy 2006/2007 Ivan Kedroň 1 Obsah Analytické nástroje SQL serveru. OLAP analýza

Více

znalostí z databází- mnohostranná interpretace dat

znalostí z databází- mnohostranná interpretace dat Dobývání znalostí z databází- mnohostranná interpretace dat Petr Berka VŠE Praha berka@vse vse.cz Dobývání znalostí z databází Non-trivial process of identifying valid, novel, potentially useful and ultimately

Více

Vědecký tutoriál, část I. A Tutorial. Vilém Vychodil (Univerzita Palackého v Olomouci)

Vědecký tutoriál, část I. A Tutorial. Vilém Vychodil (Univerzita Palackého v Olomouci) ..! POSSIBILISTIC Laboratoř pro analýzu INFORMATION: a modelování dat Vědecký tutoriál, část I A Tutorial Vilém Vychodil (Univerzita Palackého v Olomouci) George J. Klir State University of New York (SUNY)

Více

Moderní systémy pro získávání znalostí z informací a dat

Moderní systémy pro získávání znalostí z informací a dat Moderní systémy pro získávání znalostí z informací a dat Jan Žižka IBA Institut biostatistiky a analýz PřF & LF, Masarykova universita Kamenice 126/3, 625 00 Brno Email: zizka@iba.muni.cz Bioinformatika:

Více

Úvod do expertních systémů

Úvod do expertních systémů Úvod do expertních systémů Expertní systém Definice ES (Feigenbaum): expertní systémy jsou počítačové programy, simulující rozhodovací činnost experta při řešení složitých úloh a využívající vhodně zakódovaných,

Více

Dobývání znalostí. Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze

Dobývání znalostí. Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze Dobývání znalostí Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze Dobývání znalostí Bayesovské modely Doc. RNDr. Iveta Mrázová, CSc.

Více

Katedra kybernetiky skupina Inteligentní Datové Analýzy (IDA) 9. dubna 2009. Filip Železný (ČVUT) Vytěžování dat 9.

Katedra kybernetiky skupina Inteligentní Datové Analýzy (IDA) 9. dubna 2009. Filip Železný (ČVUT) Vytěžování dat 9. Vytěžování dat Filip Železný Katedra kybernetiky skupina Inteligentní Datové Analýzy (IDA) 9. dubna 2009 Filip Železný (ČVUT) Vytěžování dat 9. dubna 2009 1 / 22 Rozhodovací pravidla Strom lze převést

Více

IBM SPSS Decision Trees

IBM SPSS Decision Trees IBM Software IBM SPSS Decision Trees Jednoduše identifikujte skupiny a predikujte Stromově uspořádané postupné štěpení dat na homogenní podmnožiny je technika vhodná pro exploraci vztahů i pro tvorbu rozhodovacích

Více

Usuzování za neurčitosti

Usuzování za neurčitosti Usuzování za neurčitosti 25.11.2014 8-1 Usuzování za neurčitosti Hypotetické usuzování a zpětná indukce Míry postačitelnosti a nezbytnosti Kombinace důkazů Šíření pravděpodobnosti v inferenčních sítích

Více

METODY DOLOVÁNÍ V DATECH DATOVÉ SKLADY TEREZA HYNČICOVÁ H2IGE1

METODY DOLOVÁNÍ V DATECH DATOVÉ SKLADY TEREZA HYNČICOVÁ H2IGE1 METODY DOLOVÁNÍ V DATECH DATOVÉ SKLADY TEREZA HYNČICOVÁ H2IGE1 DOLOVÁNÍ V DATECH (DATA MINING) OBJEVUJE SE JIŽ OD 60. LET 20. ST. S ROZVOJEM POČÍTAČOVÉ TECHNIKY DEFINICE PROCES VÝBĚRU, PROHLEDÁVÁNÍ A MODELOVÁNÍ

Více

pseudopravděpodobnostní Prospector, Fel-Expert

pseudopravděpodobnostní Prospector, Fel-Expert Práce s neurčitostí trojhodnotová logika Nexpert Object, KappaPC pseudopravděpodobnostní Prospector, Fel-Expert (pravděpodobnostní) bayesovské sítě míry důvěry Mycin algebraická teorie Equant fuzzy logika

Více

5 Vícerozměrná data - kontingenční tabulky, testy nezávislosti, regresní analýza

5 Vícerozměrná data - kontingenční tabulky, testy nezávislosti, regresní analýza 5 Vícerozměrná data - kontingenční tabulky, testy nezávislosti, regresní analýza 5.1 Vícerozměrná data a vícerozměrná rozdělení Při zpracování vícerozměrných dat se hledají souvislosti mezi dvěma, případně

Více

Expertní systémy T3: principy expertních systémů P. Berka, /19

Expertní systémy T3: principy expertních systémů P. Berka, /19 P. Berka, 2012 1/19 Expertní systém počítačový program simulující rozhodovací činnost lidského experta při řešení složitých úloh a využívající vhodně zakódovaných speciálních znalostí převzatých od experta

Více

Statistická analýza dat v psychologii. Věci, které můžeme přímo pozorovat, jsou téměř vždy pouze vzorky. Alfred North Whitehead

Statistická analýza dat v psychologii. Věci, které můžeme přímo pozorovat, jsou téměř vždy pouze vzorky. Alfred North Whitehead PSY117/454 Statistická analýza dat v psychologii Přednáška 8 Statistické usuzování, odhady Věci, které můžeme přímo pozorovat, jsou téměř vždy pouze vzorky. Alfred North Whitehead Barevná srdíčka kolegyně

Více

Kontingenční tabulky, korelační koeficienty

Kontingenční tabulky, korelační koeficienty Statistika II Katedra ekonometrie FVL UO Brno kancelář 69a, tel. 973 442029 email:jiri.neubauer@unob.cz Mějme kategoriální proměnné X a Y. Vytvoříme tzv. kontingenční tabulku. Budeme tedy testovat hypotézu

Více

Metody analýzy modelů. Radek Pelánek

Metody analýzy modelů. Radek Pelánek Metody analýzy modelů Radek Pelánek Fáze modelování 1 Formulace problému 2 Základní návrh modelu 3 Budování modelu 4 Verifikace a validace 5 Simulace a analýza 6 Sumarizace výsledků Simulace a analýza

Více

Předzpracování dat. Lenka Vysloužilová

Předzpracování dat. Lenka Vysloužilová Předzpracování dat Lenka Vysloužilová 1 Metodika CRISP-DM (www.crisp-dm.org) Příprava dat Data Preparation příprava dat pro modelování selekce příznaků výběr relevantních příznaků čištění dat získávání

Více

Zadání semestrální práce IKTZ 2 letní semestr 2009/2010

Zadání semestrální práce IKTZ 2 letní semestr 2009/2010 Zadání semestrální práce IKTZ 2 letní semestr 2009/2010 Obecné zadání Dle zadání zpracujte data ze studie STULONG (soubory Entry a Contr). Práce je rozdělena do tří částí, které se řeší odděleně. Výstupem

Více

Dobývání znalostí z textů text mining

Dobývání znalostí z textů text mining Dobývání znalostí z textů text mining Text mining - data mining na nestrukturovaných textových dokumentech 2 možné přístupy: Předzpracování dat + běžné algoritmy pro data mining Speciální algoritmy pro

Více

Asociační pravidla. Informační a komunikační technologie ve zdravotnictví. Biomedical Data Processing G r o u p

Asociační pravidla. Informační a komunikační technologie ve zdravotnictví. Biomedical Data Processing G r o u p Asociační pravidla Informační a komunikační technologie ve zdravotnictví Definice pojmů Stavový prostor S je množina uzlů(stavů), kde cílem je najít stav splňující danou podmínku g. Formálně je problém

Více

Aplikace asociačních pravidel ve společnosti Zinest s.r.o.

Aplikace asociačních pravidel ve společnosti Zinest s.r.o. Aplikace asociačních pravidel ve společnosti Zinest sro Daniel Rydzi Zinest sro rydzi@zinestcz Jan Rauch Katedra informačního a znalostního inženýrství VŠE rauch@vsecz Abstrakt Tento článek si klade za

Více

Obsah přednášky Jaká asi bude chyba modelu na nových datech?

Obsah přednášky Jaká asi bude chyba modelu na nových datech? Obsah přednášky Jaká asi bude chyba modelu na nových datech? Chyba modelu Bootstrap Cross Validation Vapnik-Chervonenkisova dimenze 2 Chyba skutečná a trénovací Máme 30 záznamů, rozhodli jsme se na jejich

Více

INDUKTIVNÍ STATISTIKA

INDUKTIVNÍ STATISTIKA 10. SEMINÁŘ INDUKTIVNÍ STATISTIKA 3. HODNOCENÍ ZÁVISLOSTÍ HODNOCENÍ ZÁVISLOSTÍ KVALITATIVNÍ VELIČINY - Vychází se z kombinační (kontingenční) tabulky, která je výsledkem třídění druhého stupně KVANTITATIVNÍ

Více

Optimální rozdělující nadplocha 4. Support vector machine. Adaboost.

Optimální rozdělující nadplocha 4. Support vector machine. Adaboost. Optimální rozdělující nadplocha. Support vector machine. Adaboost. Petr Pošík Czech Technical University in Prague Faculty of Electrical Engineering Dept. of Cybernetics Opakování Lineární diskriminační

Více

Radim Navrátil. Robust 24. ledna 2018

Radim Navrátil. Robust 24. ledna 2018 Analýza nákupního košíku - historie a současnost Radim Navrátil Ústav matematiky a statistiky Přírodovědecká fakulta MU, Brno Robust 24. ledna 2018 Radim Navrátil (ÚMS Brno) Analýza nákupního košíku Robust

Více

Výpočetní teorie strojového učení a pravděpodobně skoro správné (PAC) učení. PAC učení 1

Výpočetní teorie strojového učení a pravděpodobně skoro správné (PAC) učení. PAC učení 1 Výpočetní teorie strojového učení a pravděpodobně skoro správné (PAC) učení PAC učení 1 Cíl induktivního strojového učení Na základě omezeného vzorku příkladů E + a E -, charakterizovat (popsat) zamýšlenou

Více

Strojové učení Marta Vomlelová

Strojové učení Marta Vomlelová Strojové učení Marta Vomlelová marta@ktiml.mff.cuni.cz KTIML, S303 Literatura 1.T. Hastie, R. Tishirani, and J. Friedman. The Elements of Statistical Learning, Data Mining, Inference and Prediction. Springer

Více

10. Techniky formální verifikace a validace

10. Techniky formální verifikace a validace Fakulta informačních technologií MI-NFA, zimní semestr 2011/2012 Jan Schmidt EVROPSKÝ SOCIÁLNÍ FOND PRAHA & EU: INVESTUJENE DO VAŠÍ BUDOUCNOSTI 10. Techniky formální verifikace a validace 1 Simulace není

Více

Algoritmy a struktury neuropočítačů ASN P6

Algoritmy a struktury neuropočítačů ASN P6 Algoritmy a struktury neuropočítačů ASN P6 Syntéza neuronových sítí Optimalizace struktury Klestění neuronové sítě Výběr vstupních dat Syntéza neuronových sítí kanonické N je počet neuronů N=N krit dělení

Více

Václav Matoušek KIV. Umělá inteligence a rozpoznávání. Václav Matoušek / KIV

Václav Matoušek KIV. Umělá inteligence a rozpoznávání.   Václav Matoušek / KIV Umělá inteligence a rozpoznávání Václav Matoušek KIV e-mail: matousek@kiv.zcu.cz 0-1 Sylabus předmětu: Datum Náplň přednášky 16. 2. (3h) 2. 3. (4h) 17. 3. (5h) 14. 4. (3h) Úvod, historie a vývoj UI, základní

Více

KLASIFIKÁTOR MODULACÍ S VYUŽITÍM UMĚLÉ NEURONOVÉ SÍTĚ

KLASIFIKÁTOR MODULACÍ S VYUŽITÍM UMĚLÉ NEURONOVÉ SÍTĚ KLASIFIKÁTOR MODULACÍ S VYUŽITÍM UMĚLÉ NEURONOVÉ SÍTĚ Marie Richterová 1, David Juráček 2 1 Univerzita obrany, Katedra KIS, 2 PČR MŘ Brno Abstrakt Článek se zabývá rozpoznáváním analogových a diskrétních

Více

Základy business intelligence. Jaroslav Šmarda

Základy business intelligence. Jaroslav Šmarda Základy business intelligence Jaroslav Šmarda Základy business intelligence Business intelligence Datový sklad On-line Analytical Processing (OLAP) Kontingenční tabulky v MS Excelu jako příklad OLAP Dolování

Více

GRR. získávání znalostí v geografických datech Autoři. Knowledge Discovery Group Faculty of Informatics Masaryk Univerzity Brno, Czech Republic

GRR. získávání znalostí v geografických datech Autoři. Knowledge Discovery Group Faculty of Informatics Masaryk Univerzity Brno, Czech Republic GRR získávání znalostí v geografických datech Autoři Knowledge Discovery Group Faculty of Informatics Masaryk Univerzity Brno, Czech Republic GRR cílet 2 GRR - Popis systému - cíle systém pro dolování

Více

Pokročilé neparametrické metody. Klára Kubošová

Pokročilé neparametrické metody. Klára Kubošová Klára Kubošová Další typy stromů CHAID, PRIM, MARS CHAID - Chi-squared Automatic Interaction Detector G.V.Kass (1980) nebinární strom pro kategoriální proměnné. Jako kriteriální statistika pro větvení

Více

Dobývání znalostí. Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze

Dobývání znalostí. Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze Dobývání znalostí Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze Dobývání znalostí Rozhodovací stromy Doc. RNDr. Iveta Mrázová, CSc.

Více

12. cvičení z PSI prosince (Test střední hodnoty dvou normálních rozdělení se stejným neznámým rozptylem)

12. cvičení z PSI prosince (Test střední hodnoty dvou normálních rozdělení se stejným neznámým rozptylem) cvičení z PSI 0-4 prosince 06 Test střední hodnoty dvou normálních rozdělení se stejným neznámým rozptylem) Z realizací náhodných veličin X a Y s normálním rozdělením) jsme z výběrů daného rozsahu obdrželi

Více

A1 Marketingové minimum pro posílení výchovy k podnikavosti (8h)

A1 Marketingové minimum pro posílení výchovy k podnikavosti (8h) A1 Marketingové minimum pro posílení výchovy k podnikavosti (8h) 2.1 Základy marketingové strategie (2,5h) Učitelé se seznámí se základní marketingovou terminologií a s možnými cestami rozvoje firmy. V

Více