LISp-Miner: systém pro získávání znalostí z dat 1
|
|
- Jana Dvořáková
- před 7 lety
- Počet zobrazení:
Transkript
1 LISp-Miner: systém pro získávání znalostí z dat 1 Petr Berka, Jan Rauch, Milan Šimůnek VŠE Praha Nám. W. Churchilla 4, Praha 3 {berka,rauch,simunek}@vse.cz Abstrakt. Systém LISp-Miner je otevřený akademický systém pro podporu výzkumu a výuky v oblasti dobývání znalostí z databází. Systém nabízí řadu algoritmů pro hledání zajímavých vztahů v datech (navazuje zde na metodu GUHA) i algoritmus pro tvorbu pravidel rozhodovacích. Článek podává základní charakteristiky jednotlivých algoritmů. LISp-Miner je volně dostupný z 1 Úvod Dobývání znalostí z databází (KDD) lze definovat jako netriviální extrakci implicitních, dříve neznámých a potenciálně užitečných informací z dat (Fayyad a kol, 1996). Jedná se o interaktivní a iterativní proces tvořený kroky selekce, předzpracování, transformace, vlastního dolování (data mining) a interpretace. Technikami dobývání znalostí můžeme řešit řadu různých typů úloh. Podle autorů metodiky CRISP-DM jsou to deskripce dat a sumarizace, segmentace, deskripce konceptů, analýza závislostí, klasifikace a predikce (Chapman a kol, 2000). V prvních čtyřech úlohách hledáme zajímavé znalosti interpretovatelné expertem, v úlohách klasifikace a predikce jde o to získat znalosti použitelné pro automatizovanou podporu rozhodování. Podle typu úlohy a podle charakteru dat můžeme zvolit různé algoritmy pro vlastní dolování, a tedy i různé způsoby reprezentování nalezených znalostí: rozhodovací stromy, rozhodovací pravidla, asociační pravidla, neuronové sítě, genetické algoritmy, bayesovské klasifikátory. Náš příspěvek je věnován na znalostem v podobě pravidel, tedy v podobě použitelné pro většinu výše zmíněných úloh dobývání znalostí. Zaměříme se přitom na představení různých typů pravidel a zajímavých vztahů, generovaných systémem LISp-Miner vyvíjeném na VŠE v Praze. 1.1 Asociační a rozhodovací pravidla V oblasti dobývání znalostí se obvykle rozlišují dva typy pravidel: asociační a rozhodovací (klasifikační). V případě asociačních pravidel nás zajímají vzájemné souvislosti mezi hodnotami atributů, v případě rozhodovacích pravidel hledáme znalosti použitelné pro automatizované řešení klasifikačních úloh. Termín asociační pravidla široce zpopularizoval počátkem 90. let Agrawal (Agrawal a kol, 1993) v souvislosti s analýzou nákupního košíku. Při této analýze se zjišťuje, jaké druhy zboží si současně kupují zákazníci v supermarketech (např. pivo a párek). Jde tedy o hledání vzájemných vazeb (asociací) mezi různými položkami sortimentu prodejny. Formálně lze tedy asociační pravidlo vyjádřit jako: 1 Předneseno na semináři Znalostní management pořádaného na VŠM v Bratislavě
2 předpoklad závěr, kde předpoklad (levá strana pravidla, antecedent) i závěr (pravá strana pravidla, sukcedent) jsou kombinace kategorií (hodnot atributů, položek v nákupním košíku). Základními charakteristikami asociačních pravidel v Agrawalově pojetí jsou podpora (support) a spolehlivost (confidence). Tyto charakteristiky jsou počítány ze čtyřpolní kontingenční tabulky, která ukazuje, kolik příkladů v datech splňuje resp. nesplňuje předpoklad nebo závěr (viz tabulka 1). Podpora je pak (absolutní resp. relativní) počet příkladů, splňujících předpoklad i závěr, tedy hodnota a a resp.. a + b + c + d Spolehlivost (též nazývaná platnost, konsistence, nebo správnost) je pak podíl počtu příkladů splňujících předpoklad i závěr a počtu příkladů splňujících předpoklad (tedy vlastně podmíněná pravděpodobnost závěru pokud platí předpoklad): a a + b. Tabulka 1. Čtyřpolní kontingenční tabulka závěr závěr předpoklad a b r předpoklad c d s k l n V algoritmech pro tvorbu asociačních pravidel se opakovaně prolínají dva kroky: generování a testování. Základem je generování kombinací (konjunkcí) hodnot atributů - procházíme (prohledáváme) prostor všech přípustných konjunkcí. Vygenerované pravidlo se pak testuje, zda splňuje uživatelem zadané hodnoty numerických charakteristik (např. podpory a spolehlivosti). Výsledek tohoto testu rozhoduje o dalším generování. Nejznámějším algoritmem je algoritmus apriori. (Agrawal a kol., 1996). Jádrem algoritmu je hledání často se opakujících množin položek (frequent itemsets). Jedná se kombinace (konjunkce) kategorií které dosahují předem zadané četnosti (podpory minsup) v datech. Z kombinací dosahujících požadované četnosti se pak vytvářejí pravidla. Zatímco asociační pravidla hledala zajímavé souvislosti mezi hodnotami různých atributů a jejich kombinací, rozhodovací pravidla se používají pro klasifikaci. Syntaxe pravidla je tedy předpoklad třída
3 kde předpoklad je kombinace vytvořená z kategorií vstupních atributů a třída je informace o zařazení příkladu do nějaké třídy. Typickým příkladem algoritmu pro tvorbu rozhodovacích pravidel je algoritmus pokrývání množin (Michalski, 1969), či (Clark, Nibblet, 1989). Při pokrývání množin jde o to nalézt pravidla (konzistentní hypotézy), které pokrývají nějaké příklady hledaného konceptu a tyto příklady oddělit od jiných příkladů téhož konceptu i od příkladů třídy jiné. Použití rozhodovacích pravidel pro klasifikaci nových příkladů je velice prosté. Postupně procházíme soubor pravidel až nalezneme pravidlo, které lze použít. Závěr pravidla pak určí třídu, do které máme uvažovaný příklad zařadit. 2 Metoda GUHA Zhruba 30 let před Agrawalem přišla s konceptem asociačních pravidel skupina českých vědců. Základní myšlenkou jejich metody GUHA (General Unary Hypotheses Automaton) bylo nalézt v datech všechny zajímavé souvislosti (hypotézy) a nabídnout je uživateli (Hájek, Havránek, 1978), (Hájek a kol.,1983). V době svého vzniku, kdy se ještě nic netušilo o metodách dobývání znalostí, se GUHA řadila k metodám explorační analýzy dat. Na rozdíl od konfirmační analýzy, kdy cílem bylo ověřit platnost konkrétní statistické hypotézy, při explorační analýze je cílem tyto hypotézy nejen testovat ale i vytvářet. Neboli, jak pravila dobová metafora, zatímco konfirmační analýza se dá přirovnat k chytání ryb na udici, metoda GUHA umožňuje výlov celého rybníka. Postupem času bylo formulováno několik typů hypotéz (pravidel) a s tím souvisejících algoritmů pro jejich generování. Nejblíže k asociačním pravidlům v Agrawalově pojetí měla procedura ASSOC. Metoda GUHA ale nabízela podstatně více typů hypotéz (pravidel): hledají se vztahy mezi kombinacemi hodnot binárních atributů, korelace mezi numerickými atributy podmíněné kombinací kategoriálních atributů, nebo zdroje závislosti v nominálních datech. Metoda GUHA byla v průběhu let implementována v různých podobách. Jedna z posledních implementací je systém LISp-Miner vyvíjený na VŠE v Praze. 3 Systém LISp-Miner Systém LISp-Miner je otevřený akademický systém pro podporu výzkumu a výuky v oblasti dobývání znalostí z databází viz např. (Rauch, Šimůnek 2003), (Šimůnek 2003). Systém je tvořen modulem pro přípravu a předzpracování dat a sedmi analytickými procedurami: 4FT-Miner, KL-Miner, CF-Miner, SD4FT-Miner, SDKL- Miner, SDCF-Miner a KEX. S výjimkou procedury KEX pro tvorbu rozhodovacích pravidel (a tedy pro úlohy klasifikačního typu) jsou všechny ostatní procedury zaměřeny na hledání různých typů pravidel popisujících daná data (v souladu s metodou GUHA nazývaných hypotézy). LISp-Miner jde tedy za rámec klasických asociačních pravidel popsaných v části 1.1. Systém využívá originální techniku bitových řetězců při generování a testování, což výrazně zvyšuje rychlost výpočtu (Rauch, Šimůnek, 2005).
4 Naše představení jednotlivých procedur budeme ilustrovat na příkladu jednoduché datové tabulky obsahující údaje o žadatelích o úvěr. Část těchto dat můžeme vidět v tabulce 2. Tabulka 2. Ilustrační data klient příjem Konto pohlaví nezaměstnaný úvěr k1 vysoký vysoké žena ne ano k2 vysoký vysoké muž ne ano k3 nízký nízké muž ne ne k4 nízký vysoké žena ano ano k5 nízký vysoké muž ano ano k6 nízký nízké žena ano ne k7 vysoký nízké muž ne ano k8 vysoký nízké žena ano ano k9 nízký střední muž ano ne k10 vysoký střední žena ne ano k11 nízký střední žena ano ne k12 nízký střední muž ne ano Základním stavebním kamenem pro konstrukci hypotéz je takzvaný literál (pozitivní nebo negativní), definovaný jako atribut(koeficient) v případě pozitivního literálu resp. jako atribut(koeficient) v případě negativního literálu. Koeficient (seznam hodnot atributu) pak může být: podmnožina omezené délky např. literál město(praha, Brno) obsahuje podmnožinu délky 2, interval omezené délky např. literály věk(nízký, střední), věk(střední), věk(střední, vysoký) obsahují interval délky 1 až 2, řez (interval, obsahující krajní hodnotu) omezené délky např. literály věk(nízký), věk(nízký, střední), věk(nízký, střední, vysoký) obsahují dolní řez délky 1 až 3. Z literálů jsou pak vytvářeny (generovány metodou do hloubky ) konjunkce, které tvoří jednotlivé části nějakého pravidla (hypotézy). 3.1 Procedura 4FT-Miner Hypotézy generované a testované procedurou 4FT-Miner mají podobu φ ψ / γ, kde φ (antecedent), ψ (sukcedent) a γ, (podmínka) jsou konjunkce literálů a symbol charakterizuje typ vztahu mezi α a β na podmatici objektů, které splňují podmínku γ. Pokud není podmínka γ definována, analyzuje se celá datová matice.
5 Vztahy mezi antecedentem a sukcedentem nemusí odpovídat pouze implikacím, tak jak je tomu u asociačních pravidel v Agrawalově pojetí, tedy vztahům, kdy základní charakteristika počítaná ze čtyřpolní tabulky má podobu a a + b. Dalším typem vztahu jsou tzv. dvojité implikace, charakterizované hodnotou a, a + b + c nebo ekvivalence, charakterizované hodnotou a + d a + b + c + d. Vztah mezi antecedentem a sukcedentem můžeme hodnotit i na základě chí-kvadrát nebo Fischerova testu (seznam všech typů vztahů je uveden v dodatku). Při generování pravidla se nejprve vytvoří nějaký antecedent, k němu se pak naleznou všechny sukcedenty tak, aby pravidlo vyhovovalo zadaným parametrům. Při vytváření kombinací se postupuje do hloubky, literály jsou přitom uspořádány podle abecedy (podle názvů atributů resp. názvů hodnot). Parametry zadávané uživatelem jsou: seznam literálů, které se mohou vyskytnout v antecedentu, sukcedentu a podmínce, maximální délka konjunkce tvořící antecedent, sukcedent a podmínku typ vztahu a prahové (dolní) hodnoty kritérií pro hledané hypotézy Podívejme se nyní na naše ilustrační data. Zadání parametrů vidíme na obrázku 3, část výpisu nalezených pravidel ukazuje tabulka 3, detail jednoho pravidla (vizualizace příslušné kontingenční tabulky) je pak na obrázku 4. Považujeme za nutné zdůraznit, že pouze tato procedura vychází z klasických prací spojených s metodou GUHA (jde o nejnovější implementaci GUHA procedury ASSOC). Všechny dále uvedené procedury jsou výsledkem práce kolektivu autorů z VŠE (Berka návrh procedury KEX, Rauch návrh ostatních procedur, Šimůnek implementace).
6 Obrázek 3. Zadání parametrů pro proceduru 4FT-Miner Obrázek 4. Vizualizace kontingenční tabulky jedné konkrétní hypotézy procedury 4FT-Miner
7 Tabulka 3. Hypotézy nalezené procedurou 4FT-Miner Konto( nízké) Nezaměstnaný( ano) Pohlaví( žena) Konto( nízké) Nezaměstnaný( ano) Pohlaví( žena) Příjem(nízký) Úvěr( ne) Konto( nízké) Nezaměstnaný( ano) Pohlaví( žena) Příjem(vysoký) Úvěr( ano) Konto( nízké) Nezaměstnaný( ano) Pohlaví( žena) Úvěr( ano) Příjem(vysoký) Konto( nízké) Nezaměstnaný( ano) Pohlaví( žena) Úvěr( ne) Příjem(nízký) Konto( nízké) Nezaměstnaný( ano) Příjem(nízký) Úvěr( ne) Konto( nízké) Nezaměstnaný( ano) Příjem(nízký) Pohlaví( žena) Konto( nízké) Nezaměstnaný( ano) Příjem(nízký) Úvěr( ne) Pohlaví( žena) Konto( nízké) Nezaměstnaný( ano) Příjem(vysoký) Úvěr( ano) Konto( nízké) Nezaměstnaný( ano) Příjem(vysoký) Pohlaví( žena) Konto( nízké) Nezaměstnaný( ano) Příjem(vysoký) Úvěr( ano) Pohlaví( žena) Konto( nízké) Nezaměstnaný( ano) Úvěr( ano) Pohlaví( žena) Konto( nízké) Nezaměstnaný( ano) Úvěr( ano) Příjem(vysoký) Konto( nízké) Nezaměstnaný( ano) Úvěr( ne) Pohlaví( žena) Konto( nízké) Nezaměstnaný( ano) Úvěr( ne) Příjem(nízký) Konto( nízké) Nezaměstnaný( ne) Pohlaví( muž) Konto( nízké) Nezaměstnaný( ne) Pohlaví( muž) Příjem(nízký) Úvěr( ne) Konto( nízké) Nezaměstnaný( ne) Pohlaví( muž) Příjem(vysoký) Úvěr( ano) Konto( nízké) Nezaměstnaný( ne) Pohlaví( muž) Úvěr( ano) Příjem(vysoký) Konto( nízké) Nezaměstnaný( ne) Pohlaví( muž) Úvěr( ne) Příjem(nízký) Konto( nízké) Nezaměstnaný( ne) Příjem(nízký) Úvěr( ne) Konto( nízké) Nezaměstnaný( ne) Příjem(nízký) Pohlaví( muž) Konto( nízké) Nezaměstnaný( ne) Příjem(nízký) Úvěr( ne) Pohlaví( muž) Konto( nízké) Nezaměstnaný( ne) Příjem(vysoký) Úvěr( ano) Konto( nízké) Nezaměstnaný( ne) Příjem(vysoký) Pohlaví( muž) Konto( nízké) Nezaměstnaný( ne) Příjem(vysoký) Úvěr( ano) Pohlaví( muž) Konto( nízké) Nezaměstnaný( ne) Úvěr( ano) Pohlaví( muž) Konto( nízké) Nezaměstnaný( ne) Úvěr( ano) Příjem(vysoký) Konto( nízké) Nezaměstnaný( ne) Úvěr( ne) Pohlaví( muž) Konto( nízké) Nezaměstnaný( ne) Úvěr( ne) Příjem(nízký) Konto( nízké) Pohlaví( muž) Nezaměstnaný( ne) Konto( nízké) Pohlaví( muž) Příjem(nízký) Úvěr( ne) Konto( nízké) Pohlaví( muž) Příjem(nízký) Nezaměstnaný( ne) Konto( nízké) Pohlaví( muž) Příjem(nízký) Úvěr( ne) Nezaměstnaný( ne) Tabulka 3 ukazuje stručnou část výpisu nalezených hypotéz; vidíme jen syntaxi jednotlivých implikací. K úplnému obrázku chybí kvantitativní údaje z příslušných kontingenčních tabulek. K tomu dodejme, že všechna zobrazené implikace mají spolehlivost rovnou 1 tedy pokud nějaký klient splňuje předpoklad splňuje i závěr. Implikace jsou uvedeny v tom pořadí v jakém byly generovány. Interpretační modul procedury 4FT-Miner ale nabízí řadu dalších možností třídění, vybírání ze seznamu nalezených hypotéz a vizualizace (obrázek 4); interpretační moduly jsou součástí i všech dalších procedur).
8 3.2 Procedura KL-Miner Hypotézy generované a testované procedurou KL-Miner mají podobu R ~ C / γ. Tato procedura tedy nabízí kontingenční analýzu dvou vícehodnotových kategoriálních atributů. Počítané charakteristiky vzájemného vztahu mezi oběma atributy vychází ze statistických kritérií (např. Chí-kvadrát nebo Kendallův test), nebo z kritérií z oblasti teorie informace (např. entropie nebo vzájemná informace). Zpracovávají se přitom pouze příklady vyhovující podmínce γ. Pokud není podmínka γ definována, analyzuje se celá datová matice. V našem příkladu můžeme analyzovat celkem 20 kontingenčních tabulek, lze tedy získat až 20 KL hypotéz. Vizualizaci jedné z nich vidíme na obrázku 5. Obrázek 5. Vizualizace kontingenční tabulky jedné konkrétní hypotézy procedury KL-Miner
9 3.3 Procedura CF-Miner Hypotézy generované a testované procedurou CF-Miner mají podobu ~C / γ Analyzuje se zde tedy histogram frekvencí kategorií atributu C u příkladů splňujících podmínku γ. Cílem procedury je hledání okolností, za kterých jsou zajímavým způsobem rozloženy frekvence jednotlivých kategorií některého kategoriálního atributu. Zajímavost je zde chápána jako to, že frekvence splňují požadavek definovaný vztahem ~. Příkladem vztahu ~ může být požadavek, aby všechny kategorie dosahovaly alespoň zadané četnosti a, či aby rozptyl hodnot byl menší než zadaná hodnota. Obrázek 6. Vizualizace kontingenční tabulky jedné konkrétní hypotézy procedury CF-Miner
10 3.4 Procedura SD4FT-Miner Procedura SD4FT-Miner je jednou ze tří tzv. set differs from set procedur. Tyto procedury hledají hypotézy, jejichž numerické charakteristiky se liší na dvou podmnožinách analyzovaných dat. Hypotézy generované a testované procedurou SD4FT-Miner mají podobu φ ψ / (α, β, γ) Hledáme tedy situace, kdy při splněné podmínce γ je vzájemný 4ft-vztah mezi φ a ψ na množině α je jiný než na množině β. Tedy např. hledáme situace, kdy spolehlivost implikace φ ψ na množině příkladů splňujících α je jiná než spolehlivost implikace φ ψ na množině příkladů splňujících β: a1 a2 a + b a + b Příklad takovéto situace vidíme na obrázku 7. Ve skupině nezaměstnaných je spolehlivost implikace konto(střední) příjem(nízký) rovna 1 zatímco ve skupině zaměstnaných je spolehlivost této implikace rovna 0.5. Obrázek 7. Vizualizace kontingenční tabulky jedné konkrétní hypotézy procedury SD4FT-Miner
11 3.5 Procedura SDKL-Miner Hypotézy generované a testované procedurou SDKL-Miner mají podobu R ~ C / (α, β, γ) Hledáme tedy dvojice podmnožin definovaných booleovskými atributy α, β, podmínku definovanou booleovským atributem γ a kategoriální atributy R, C tak, že za podmínky γ se podmnožiny α, β liší vzhledem k vzájemnému vztahu atributů R a C. Podmínka γ nemusí být zadána, pak se výpočet provádí pro celou datovou matici. V našich datech můžeme například zjistit, že vztah mezi výší konta a výší příjmu u nezaměstnaných je jiný než vztah mezi výší konta a výší příjmu u zaměstnaných (obrázek 8). Obrázek 8. Vizualizace kontingenční tabulky jedné konkrétní hypotézy procedury SDKL-Miner
12 3.6 Procedura SDCF-Miner Hypotézy generované a testované procedurou SDCF-Miner mají podobu ~C / (α, β, γ). Hledáme dvojice podmnožin definovaných booleovskými atributy α, β, podmínku definovanou booleovským atributem γ a kategoriální atribut C tak, že za podmínky γ se podmnožiny α, β liší vzhledem k frekvencím jednotlivých kategorií atributu C. Podmínka γ nemusí být zadána, pak se výpočet provádí pro celou datovou matici. Obrázek 9 ukazuje, že rozdělení četností hodnot atributu příjem je různé pro skupinu nezaměstnaných a skupinu zaměstnaných. Obrázek 9. Vizualizace kontingenční tabulky jedné konkrétní hypotézy procedury SDCF-Miner 3.7 Procedura KEX Z pojetí metody GUHA se vymyká procedura KEX. Tato procedura slouží pro hledání klasifikačních pravidel, tedy pravidel, která je možno přímo použít v procesu automatizovaného rozhodování (Berka, Ivánek, 1994). Při specifikaci tohoto procesu musíme rozhodnout o: podobě báze znalostí, podobě inferenčního mechanismu, způsobu, jak v souboru vztahů nalézt znalosti.
13 Báze znalostí je vytvářena v podobě souboru pravidel tvořených vztahy implikace k zadané cílové kombinaci. Vztahy jsou opatřeny váhou která vyjadřuje neurčitost ve znalostech. Pravidla v bázi znalostí tedy mají podobu předpoklad třída (w), kde předpoklad je kombinace kategorií vstupních atributů, třída je kombinace definující pozitivní příklady, w z intervalu [0,1] je váha vyjadřující neurčitost pravidla. Inferenční mechanismus budovaného systému pracuje metodou přímého řetězení. V průběhu konzultace se pro nový objekt popsaný hodnotami vstupních atributů (popis objektu nemusí být úplný!) naleznou všechna aplikovatelná pravidla. Příspěvky těchto pravidel se složí pomocí kombinační funkce a tak se naleznou výsledné váhy všech cílů. Jako kombinační funkce se používá pseudobayesovské skládání vah známé z expertního systému PROSPECTOR (Duda, Gasching, 1979). Jsou-li w 1, w 2 váhy dvou pravidel, spočítá se jejich kombinace jako: w1 w2 w1 w2 =. w w + 1 w ) (1 w ) 1 2 ( 1 2 Při tvorbě báze pravidel se vlastně provádí postupné zpřesňování a zjemňování již existujících znalostí (knowledge refinement). Bázi pravidel vytváříme shora dolů postupným přidáváním nových (speciálnějších) pravidel ve chvíli, kdy báze přestane být konsistentní s trénovacími daty reprezentovanými souborem všech implikací k zadanému cíli. Na počátku obsahuje báze pravidel tzv. prázdný vztah, který odpovídá rozdělení tříd v trénovacích datech. Do báze pravidel se pak postupně zařazují jen ty implikace, které nejsou odvoditelné z již získaných kratších pravidel. Obrázek 10 ukazuje bázi pravidel získaných z našich ukázkových dat Obrázek 10. Klasifikační pravidla nalezená procedurou KEX
14 Při klasifikaci nového příkladu použijeme všechna aplikovatelná pravidla a pomocí funkce poskládáme jejich váhy. Příklad zařadíme ke třídě, pro kterou odvodíme nejvyšší váhu. 3.8 Struktura a implementace systému Struktura systému LISp-Miner je naznačena na obrázku 11. Systém je tvořen řadou samostatných modulů (exe souborů), které pracují nad analyzovanými daty a nad metadaty. Analyzovaná data jsou uložena v databázi MS Access. Koncept metadat, rovněž realizovaný jako databáze MS Access, umožňuje uchovávat zadání i výsledky jednotlivých analýz. LISp-Miner je tedy z implementačního pohledu zasazen do prostředí MS Windows. Z pohledu metodiky CRISP-DM, standardní metodiky pro řešení úloh dobývání znalostí z databází (viz obrázek 12), systém LISp-Miner podporuje kroky porozumění datům, přípravy dat, modelování a evaluace. Systém je volně dostupný na ANALYZED DATA pparams (ODBC DSN) META BASE LM Admin Administration Read-Only Data Exploration & Preparation modules Obrázek 11. Schéma systému LISp-Miner Data Processing modules Interpretation modules Obrázek 12. Metodika CRISP-DM
15 4 Poděkování Systém LISp-Miner je vyvíjen s podporou grantů MSMT č. MSM , GAČR č. 201/05/0325. Na návrhu procedur, jejich implementaci či testování se kromě autorů příspěvku podílela řada studentů a doktorandů VŠE, za všechny zmiňme V. Lína, M. Kejkulu a P. Dolejšího. 5 Závěr Příklady popisované v příspěvku jsou výhradně ilustrační. Z rozsáhlejších (a serióznějších) aplikací systému LISp-Miner můžeme zmínit analýzu dat o rizikových faktorech aterosklerózy u mužů středního věku prováděnou v rámci výzkumného centra EuroMISE (Lín a kol. 2004), analýzu dat o příčinách dopravních nehod ve Velké Británii prováděnou v rámci evropského výzkumného projektu Sol-Eu-Net (Flach a kol., 2003), analýzu dat o názorech obyvatel Prahy na kvalitu života v hlavním městě (Svátek, Rauch, Ralbovský, 2006) nebo analýzu popisů událostí vztahujících se k fotbalovým utkáním (v rámci evropského výzkumného projektu K-Space). Již tento neúplný výčet ukazuje, že LISp-Miner je vhodným nástrojem všude tam, kde hledáme zajímavé souvislosti mezi hodnotami atributů v datech z různých oblastí. Literatura Agrawal, R., Imielinski, T., Swami,A.: Mining associations between sets of items in massive databases. In: Proc. of the ACM-SIGMOD 1993 Int Conference on Management of Data, Washington D.C., May 1993, Agrawal, R., a kol.: Fast discovery of association rules. In: (Fayyad, Piatetsky-Shapiro, Smyth, Uthurusamy, eds.) Advances in Knowledge Discovery and Data Mining, AAAI/MIT Press, 1996 Berka, P.: Dobývání znalostí z databází. Academia Praha, 2003 Berka, P., Ivánek, J.: Automated knowledge acquisition for PROSPECTOR-like expert systems. In. (Bergadano, de Raedt eds.) Proc. ECML'94, Springer 1994, Clark, P., Niblett, T.: The CN2 induction algorithm. Machine Learning, 3 (1989), Duda, R.O., Gasching, J.E.: Model design in the Prospector consultant system for mineral exploration. In: Michie, D. (ed.), Expert Systems in the Micro Electronic Age, Edinburgh University Press, UK, Fayyad,U. a kol.. eds.: Advances in Knowledge Discovery and Data Mining. AAAI Press/MIT Press, 1996 Hájek, P., Havránek, T.: Mechanising Hypothesis Formation Mathematical Foundations for a General Theory. Springer, Flach, P. a kol.: On the Road to Knowledge. In: Mladenič, a kol. (ed.). Data mining and Decision Support. Integration and Collaboration. Boston : Kluwer Academic Publishers, 2003, Hájek, P., Havránek, T., Chytil, M.K.: Metoda GUHA. Automatická tvorba hypotéz. Academia, 1983.
16 Chapman, P. a kol.: CRISP-DM 1.0 Step-by-step data mining guide. SPSS Inc Lín, V., a kol.: The KL-Miner Procedure for Datamining. Neural Network World, 2004, č. 5, Michalski, R.S.: On the Quasi-minimal solution of the general covering problem. In: Proc. 5th Int. Symposium on Information Processing FCIP 69, Bled, Yugoslavia, 1969, Rauch, J., Šimůnek, M.: System LISp-Miner. In: Svátek,V. (ed.). Znalosti Ostrava: TU Ostrava, 2003, Rauch, J., Šimůnek, M.: GUHA Method and Granular Computing. In: Hu, a kol. (ed.). IEEE Int. Conf. On Granular Computing , Svátek, V., Rauch, J., Ralbovský, M.: Ontology-Enhanced Association Mining. In: Ackermann, M., a kol. (eds): Semantics, Web and Mining. Berlin Springer, 2006, Šimůnek, M.: Academic KDD Project LISp-Miner. In: Abraham,A., Franke,K., Koppen, K. (eds.). Advances in Soft Computing Intelligent Systems Desing and Applications. Heidelberg: Springer-Verlag, 2003,
17 Dodatek: seznam kvantifikátorů procedury 4FT-Miner Název parametry podmínka platnosti Základní (fundovaná) implikace Dolní kritická implikace Horní kritická implikace Základní (fundovaná) dvojitá implikace Dolní kritická dvojitá implikace Horní kritická dvojitá implikace Základní (fundovaná) ekvivalence Dolní kritická ekvivalence Horní kritická ekvivalence 0 < p 1 0 < p 1 0 < α < 1 0 < p 1 0 < α < 1 0 <p 1 0 < p < 1 0 < α < 1 0 < p < 1 0 < α < 1 0 <p 1 0 < p < 1 0 < α < 1 0 < p < 1 0 < α < 1 E-kvantifikátor 0 < δ < 1 a a + b p a Base a+b i=a a i=0 (a + b)! i!(a + b - i)! pi (1 - p) a+b-i α a Base (a + b)! i!(a + b - i)! pi (1 - p) a+b-i > α a Base a a + b + c p a Base a+b+c (a + b + c)! i!(a + b + c - i)! pi (1 - p) a+b+c-i i=a a i=0 α a Base (a + b + c)! i!(a + b + c - i)! pi (1 - p) a+b+c-i > α a Base a + d a + b + c + d p a Base a+b+c+d (a + b + c + d)! i!(a + b + + d - i)! pi (1 - p) a+b+c+d-i α i=a a Base a i=0 a Base (a + b + c + d)! i!(a + b + c +d - i)! pi (1 - p) a+b+c+d-i > α a + b > 0 b a + b < δ c + d > 0 c c + d < δ
18 název parametry podmínka platnosti Prosté vychýlení Fisherův kvantifikátor Chi-kvadrát kvantifikátor δ > 0 0 < α < α 0.5 ab > e δ cd a Base min(r,k) r!s!k!l! n!i!(r-i)!(k-i)!(n-r-k-i)! α a Base i=a ad > bc n(ad - bc) klrs > α a Base podpora 0 < σ 1 a a + b + c + d σ above average -1 < p a(a + b + c + d) a + b > 0 a + c > 0 (a + b) (a + c) (1-p) below average -1 < p a(a + b + c + d) a + b > 0 a + c > 0 (a + b) (a + c) < (1-p)
Analytické procedury v systému LISp-Miner
Dobývání znalostí z databází MI-KDD ZS 2011 Přednáška 8 Analytické procedury v systému LISp-Miner Část II. (c) 2011 Ing. M. Šimůnek, Ph.D. KIZI, Fakulta informatiky a statistiky, VŠE Praha Evropský sociální
VíceVysoká škola ekonomická. Katedra informačního a znalostního inženýrství. Fakulta informatiky a statistiky. Systém LISp-Miner
Vysoká škola ekonomická Katedra informačního a znalostního inženýrství Fakulta informatiky a statistiky Systém LISp-Miner Stručný popis určený pro posluchače kurzů Metod zpracování informací verse 20.
VíceDOBÝVÁNÍ ZNALOSTÍ Z DATABÁZÍ PŘÍKLADY APLIKACÍ V KARDIOLOGICKÝCH DATECH Jan Rauch
DOBÝVÁNÍ ZNALOSTÍ Z DATABÁZÍ PŘÍKLADY APLIKACÍ V KARDIOLOGICKÝCH DATECH Jan Rauch Anotace: Příspěvek obsahuje základní informace o dobývání znalostí jakožto důležité disciplíně informatiky a ukazuje příklady
VíceÚvod do dobývání. znalostí z databází
POROZUMĚNÍ 4iz260 Úvod do DZD Úvod do dobývání DOMÉNOVÉ OBLASTI znalostí z databází VYUŽITÍ VÝSLEDKŮ POROZUMĚNÍ DATŮM DATA VYHODNO- CENÍ VÝSLEDKŮ MODELOVÁNÍ (ANALYTICKÉ PROCEDURY) PŘÍPRAVA DAT Ukázka slidů
VíceObsah. Seznam obrázků. Seznam tabulek. Petr Berka, 2011
Petr Berka, 2011 Obsah... 1... 1 1 Obsah 1... 1 Dobývání znalostí z databází 1 Dobývání znalostí z databází O dobývání znalostí z databází (Knowledge Discovery in Databases, KDD) se začíná ve vědeckých
VíceZískávání dat z databází 1 DMINA 2010
Získávání dat z databází 1 DMINA 2010 Získávání dat z databází Motto Kde je moudrost? Ztracena ve znalostech. Kde jsou znalosti? Ztraceny v informacích. Kde jsou informace? Ztraceny v datech. Kde jsou
VíceAsociační pravidla (metoda GUHA)
Vysoká škola báňská Technická univerzita Ostrava Fakulta elektrotechniky a informatiky Katedra informatiky Asociační pravidla (metoda GUHA) Ing. Michal Burda () Získávání znalostí z dat Brno, 27. ledna
VíceDobývání znalostí z databází MI-KDD ZS 2011 Přednáška 2. Projekt LISp-Miner.
Dobývání znalostí z databází MI-KDD ZS 2011 Přednáška 2 Projekt LISp-Miner http://lispminer.vse.cz (c) 2011 Ing. M. Šimůnek, Ph.D. KIZI, Fakulta informatiky a statistiky, VŠE Praha Evropský sociální fond
VíceDolování asociačních pravidel
Dolování asociačních pravidel Miloš Trávníček UIFS FIT VUT v Brně Obsah přednášky 1. Proces získávání znalostí 2. Asociační pravidla 3. Dolování asociačních pravidel 4. Algoritmy pro dolování asociačních
VíceNová GUHA-procedura ETree-Miner v systému LISp-Miner
Nová GUHA-procedura ETree-Miner v systému LISp-Miner Milan Šimůnek Laboratoř pro inteligentní systémy Praha Fakulta informatiky a statistiky, VŠE Praha nám. W. Churchilla 4, 130 67 Praha 3 simunek@vse.cz
VíceDOBÝVÁNÍ ZNALOSTÍ Z DATABÁZÍ
DOBÝVÁNÍ ZNALOSTÍ Z DATABÁZÍ Úvod a oblasti aplikací Martin Plchút plchut@e-globals.net DEFINICE A POJMY Netriviální extrakce implicitních, ch, dříve d neznámých a potenciáln lně užitečných informací z
VíceZÍSKÁVÁNÍ ZNALOSTÍ Z DATABÁZÍ
Metodický list č. 1 Dobývání znalostí z databází Cílem tohoto tematického celku je vysvětlení základních pojmů z oblasti dobývání znalostí z databází i východisek dobývání znalostí z databází inspirovaných
VíceDobývání znalostí z databází (MI-KDD) Přednáška číslo 5 Zajímavé dvojice podmnožin objektů, procedura SD4ft-Miner
Dobývání znalostí z databází (MI-KDD) Přednáška číslo 5 Zajímavé dvojice podmnožin objektů, procedura SD4ft-Miner (c) prof. RNDr. Jan Rauch, CSc. KIZI, Fakulta informatiky a statistiky VŠE zimní semestr
VíceProjekt LISp-Miner. M. Šimůnek
Projekt LISp-Miner http://lispminer.vse.cz M. Šimůnek Obsah Systém LISp-Miner Vývoj systému v dlouhém období ETree-Miner Project LISp-Miner 2 Systém LISp-Miner Metoda GUHA (od roku 1966) předchozí implementace
VíceZÍSKÁVÁNÍ ZNALOSTÍ Z DATABÁZÍ
metodický list č. 1 Dobývání znalostí z databází Cílem tohoto tematického celku je vysvětlení základních pojmů z oblasti dobývání znalostí z databází i východisek dobývání znalostí z databází inspirovaných
VíceIng. Petr Hájek, Ph.D. Podpora přednášky kurzu Aplikace umělé inteligence
APLIKACE UMĚLÉ INTELIGENCE Ing. Petr Hájek, Ph.D. Podpora přednášky kurzu Aplikace umělé inteligence Aplikace umělé inteligence - seminář ING. PETR HÁJEK, PH.D. ÚSTAV SYSTÉMOVÉHO INŽENÝRSTVÍ A INFORMATIKY
VíceRozhodovací pravidla
Rozhodovací pravidla Úloha klasifikace příkladů do tříd. pravidlo Ant C, kde Ant je konjunkce hodnot atributů a C je cílový atribut A. Algoritmus pokrývání množin metoda separate and conquer (odděl a panuj)
VíceDolování z textu. Martin Vítek
Dolování z textu Martin Vítek Proč dolovat z textu Obrovské množství materiálu v nestrukturované textové podobě knihy časopisy vědeckéčlánky sborníky konferencí internetové diskuse Proč dolovat z textu
VíceZáklady vytěžování dat
Základy vytěžování dat předmět A7Bb36vyd Vytěžování dat Filip Železný, Miroslav Čepek, Radomír Černoch, Jan Hrdlička katedra kybernetiky a katedra počítačů ČVUT v Praze, FEL Evropský sociální fond Praha
VíceKontingenční tabulky. (Analýza kategoriálních dat)
Kontingenční tabulky (Analýza kategoriálních dat) Agenda Standardní analýzy dat v kontingenčních tabulkách úvod, KT, míry diverzity nominálních veličin, některá rozdělení chí kvadrát testy, analýza reziduí,
VíceKatedra kybernetiky laboratoř Inteligentní Datové Analýzy (IDA) Katedra počítačů, Computational Intelligence Group
Vytěžování dat Miroslav Čepek, Filip Železný Katedra kybernetiky laboratoř Inteligentní Datové Analýzy (IDA) Katedra počítačů, Computational Intelligence Group Evropský sociální fond Praha & EU: Investujeme
VíceDobývání znalostí z databází (MI-KDD) Přednáška číslo 4 Asociační pravidla
Dobývání znlostí z dtbází (MI-KDD) Přednášk číslo 4 Asociční prvidl (c) prof. RNDr. Jn Ruch, CSc. KIZI, Fkult informtiky sttistiky VŠE zimní semestr 2011/2012 Evropský sociální fond Prh & EU: Investujeme
VíceAsociační i jiná. Pravidla. (Ch )
Asociační i jiná Pravidla (Ch. 14 +...) Učení bez učitele Nemáme cílovou třídu Y, G; máme N pozorování což jsou p-dimenzionální vektory se sdruženou pravděpodobností chceme odvozovat vlastnosti. Pro málo
VícePravděpodobně skoro správné. PAC učení 1
Pravděpodobně skoro správné (PAC) učení PAC učení 1 Výpočetní teorie strojového učení Věta o ošklivém kačátku. Nechť E je klasifikovaná trénovací množina pro koncept K, který tvoří podmnožinu konečného
VíceVýpočet na gridu a LM TaskPooler
Dobývání znalostí z databází MI-KDD ZS 2011 Přednáška 10 Výpočet na gridu a LM TaskPooler v systému LISp-Miner (c) 2011 Ing. M. Šimůnek, Ph.D. KIZI, Fakulta informatiky a statistiky, VŠE Praha Evropský
Více8. Systémy pro dobývání znalostí z databází
8. Systémy pro dobývání znalostí z databází Jako v jiných oblastech umělé inteligence, tak i v oblasti strojového učení se první programové systémy objevily v akademické sféře. Obvykle se jednalo o systémy,
VíceDobývání a vizualizace znalostí. Olga Štěpánková et al.
Dobývání a vizualizace znalostí Olga Štěpánková et al. 1 Osnova předmětu Dobývání znalostí - popis a metodika procesu CRISP a objasnění základních pojmů Nástroje pro modelování klasifikovaných dat a jejich
VíceDobývání a vizualizace znalostí
Dobývání a vizualizace znalostí Olga Štěpánková et al. 1 Osnova předmětu 1. Dobývání znalostí - popis a metodika procesu a objasnění základních pojmů 2. Nástroje pro modelování klasifikovaných dat a jejich
VíceObsah Úvod Kapitola 1 Než začneme Kapitola 2 Práce s hromadnými daty před analýzou
Úvod.................................................................. 11 Kapitola 1 Než začneme.................................................................. 17 1.1 Logika kvantitativního výzkumu...........................................
VíceAsociační pravidla. Úloha hledání souvislostí mezi hodnotami atributů. {párky, hořčice} {rohlíky} Ant Suc,
Asociční prvidl Úloh hledání souvislostí mezi hodnotmi tributů. nlýz nákupního košíku (Agrwl, 1993) obecněji {párky, hořčice} {rohlíky} Ant Suc, kde Ant (ntecedent) i Suc (sukcedent) jsou konjunkce hodnot
VíceVYUŽITÍ DATA MININGOVÝCH METOD PŘI ZPRACOVÁNÍ DAT Z DEMOGRAFICKÝCH ŠETŘENÍ
UNIVERZITA KARLOVA V PRAZE Přírodovědecká fakulta Katedra demografie a geodemografie VYUŽITÍ DATA MININGOVÝCH METOD PŘI ZPRACOVÁNÍ DAT Z DEMOGRAFICKÝCH ŠETŘENÍ USING DATA MINING METHODS FOR DEMOGRAPHIC
VíceDobývání znalostí z databází
Dobývání znalostí z databází (Knowledge Discovery in Databases, Data Mining,..., Knowledge Destilery,...) Non-trivial process of identifying valid, novel, potentially useful and ultimately understandable
VíceUniverzita Karlova v Praze Matematicko-fyzikální fakulta DIPLOMOVÁ PRÁCE
Univerzita Karlova v Praze Matematicko-fyzikální fakulta DIPLOMOVÁ PRÁCE Miron Tegze Procedura SDKL-Miner pro dobývání znalostí z databází Katedra softwarového inženýrství Vedoucí diplomové práce: doc.
VíceDobývání a vizualizace znalostí
Dobývání a vizualizace znalostí Olga Štěpánková et al. 1 Osnova předmětu 1. Dobývání znalostí - popis a metodika procesu a objasnění základních pojmů 2. Nástroje pro modelování klasifikovaných dat a jejich
VíceDobývání a vizualizace znalostí
Dobývání a vizualizace znalostí Olga Štěpánková, Lenka Vysloužilová, et al. https://cw.fel.cvut.cz/wiki/courses/a6m33dvz/start 1 Osnova přednášky Úvod: data, objem, reprezentace a základní terminologie
VíceInformační systémy pro podporu rozhodování
Informační systémy pro rozhodování Informační systémy pro podporu rozhodování 5 Jan Žižka, Naděžda Chalupová Ústav informatiky PEF Mendelova universita v Brně Asociační pravidla Asociační pravidla (sdružovací
Více1. Dobývání znalostí z databází
1. Dobývání znalostí z databází O dobývání znalostí z databází (Knowledge Discovery in Databases, KDD) se začíná ve vědeckých kruzích mluvit počátkem 90. let. První impuls přišel z Ameriky, kde se na konferencích
VíceZískávání znalostí z dat
Získávání znalostí z dat Informační a komunikační technologie ve zdravotnictví Získávání znalostí z dat Definice: proces netriviálního získávání implicitní, dříve neznámé a potencionálně užitečné informace
VíceDobývání dat a strojové učení
Dobývání dat a strojové učení Dobývání znalostí z databází (Knowledge discovery in databases) Non-trivial process of identifying valid, novel, potentially useful and ultimately understandable patterns
VíceAnalýza dat pomocí systému Weka, Rapid miner a Enterprise miner
Vysoká škola ekonomická v Praze Analýza dat pomocí systému Weka, Rapid miner a Enterprise miner Dobývání znalostí z databází 4IZ450 XXXXXXXXXXX Přidělená data a jejich popis Data určená pro zpracování
VíceBA_EM Electronic Marketing. Pavel
BA_EM Electronic Marketing Pavel Kotyza @VŠFS Agenda Efektivní data mining jako zdroj relevantních dat o potřebách zákazníků Co je data mining? Je absolutní Je předem neznámý Je užitečný Co jsou data?
VíceSegmentace bankovních zákazníků algoritmem k- means
Segmentace bankovních zákazníků algoritmem k- means LS 2014/2015 Michal Heřmanský xherm22 Obsah 1 Úvod... 3 1.1 CRISP- DM... 3 2 Porozumění problematice a datům... 4 3 Příprava dat... 5 4 Modelování...
VíceProfitabilita klienta v kontextu Performance management
IBM Technical specialist team Pre Sale 26/10/2010 Profitabilita klienta v kontextu Performance management Co všechno řadíme do PM? Automatická data Běžný reporting Pokročilé statistické modely Včera What
VíceLokální a globální analytické zprávy o výsledcích DZD
Univerzita Karlova v Praze Matematicko-fyzikální fakulta DIPLOMOVÁ PRÁCE Zdeněk Reischig Lokální a globální analytické zprávy o výsledcích DZD KATEDRA SOFTWAROVÉHO INŽENÝRSTVÍ Vedoucí diplomové práce:
VíceMichal Burda. 27. ledna Abstrakt
Získávání znalostí z databází - Asociační pravidla Michal Burda 27. ledna 2004 Abstrakt Získávání asociačních pravidel z dat je jedním z významných oborů Data Miningu. Hledají se pomocí něj zajímavé vztahy
Vícehledání zajímavých asociací i korelací ve velkém množství dat původně pro transakční data obchodní transakce analýza nákupního košíku
Asociační pravidla Asociační pravidla hledání zajímavých asociací i korelací ve velkém množství dat původně pro transakční data obchodní transakce analýza nákupního košíku podpora rozhodování Analýza nákupního
VíceMetody tvorby ontologií a sémantický web. Martin Malčík, Rostislav Miarka
Metody tvorby ontologií a sémantický web Martin Malčík, Rostislav Miarka Obsah Reprezentace znalostí Ontologie a sémantický web Tvorba ontologií Hierarchie znalostí (D.R.Tobin) Data jakékoliv znakové řetězce
Více4ft-Miner pro začátečníky Získávání znalostí z databází
4ft-Miner pro začátečníky Získávání znalostí z databází Dobývání znalostí z databází (DZD) Knowledge Discovery in (from) Databases (KDD) Data Mining (DM) Materiál pro posluchače kurzů IZI211 Metody zpracování
VíceZáklady biostatistiky II. Veřejné zdravotnictví 3.LF UK - II
Základy biostatistiky II Veřejné zdravotnictví 3.LF UK - II Teoretické rozložení-matematické modely rozložení Naměřená data Výběrové rozložení Teoretické rozložení 1 e 2 x 2 Teoretické rozložení-matematické
VíceHodnocení (ne)zajímavosti asociačních pravidel za využití báze znalostí
Hodnocení (ne)zajímavosti asociačních pravidel za využití báze znalostí Přemysl Václav Duben, Stanislav Vojíř Katedra informačního a znalostního inženýrství, FIS, Vysoká škola ekonomická v Praze nám. W.
VíceVybrané přístupy řešení neurčitosti
Vybrané přístupy řešení neurčitosti Úvod do znalostního inženýrství, ZS 2015/16 8-1 Faktory jistoty Jedná se o přístup založený na ad hoc modelech Hlavním důvodem vzniku tohoto přístupu je omezení slabin
VíceDobývání znalostí. Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze
Dobývání znalostí Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze Dobývání znalostí Úvod do problematiky Doc. RNDr. Iveta Mrázová,
VíceIBM SPSS Exact Tests. Přesné analýzy malých datových souborů. Nejdůležitější. IBM SPSS Statistics
IBM Software IBM SPSS Exact Tests Přesné analýzy malých datových souborů Při rozhodování o existenci vztahu mezi proměnnými v kontingenčních tabulkách a při používání neparametrických ů analytici zpravidla
VíceTvorba asociačních pravidel a hledání. položek
Tvorba asociačních pravidel a hledání častých skupin položek 1 Osnova Asociace Transakce Časté skupiny položek Apriori vlastnost podmnožin Asociační pravidla Aplikace 2 Asociace Nechť I je množina položek.
VícePSY117/454 Statistická analýza dat v psychologii přednáška 8. Statistické usuzování, odhady
PSY117/454 Statistická analýza dat v psychologii přednáška 8 Statistické usuzování, odhady Výběr od deskripce k indukci Deskripce dat, odhad parametrů Usuzování = inference = indukce Počítá se s náhodným
Více1. Znalostní systémy a znalostní inženýrství - úvod. Znalostní systémy. úvodní úvahy a předpoklady. 26. září 2017
Znalostní systémy úvodní úvahy a předpoklady 26. září 2017 1-1 Znalostní systém Definice ZS (Feigenbaum): Znalostní (původně expertní) systémy jsou počítačové programy simulující rozhodovací činnost experta
VíceEXPERIMENTÁLNÍ GUHA PROCEDURY
Univerzita Karlova v Praze Matematicko-fyzikální fakulta DIPLOMOVÁ PRÁCE Tomáš Kuchař EXPERIMENTÁLNÍ GUHA PROCEDURY Katedra softwarového inženýrství Vedoucí diplomové práce: Doc. RNDr. Jan Rauch, CSc.
VícePŘÍRODOVĚDECKÁ FAKULTA UNIVERZITY PALACKÉHO KATEDRA INFORMATIKY DIPLOMOVÁ PRÁCE. Analýza dat ze studentských dotazníků Bc.
PŘÍRODOVĚDECKÁ FAKULTA UNIVERZITY PALACKÉHO KATEDRA INFORMATIKY DIPLOMOVÁ PRÁCE Analýza dat ze studentských dotazníků 2013 Bc. Tomáš Matonoha Anotace Data mining je proces získávání netriviálních a dříve
VíceDobývání znalostí z databází (MI-KDD) Přednáška číslo 1 - Úvod
Dbývání znalstí z databází (MI-KDD) Přednáška čísl 1 - Úvd (c) prf. RNDr. Jan Rauch, CSc. KIZI, Fakulta infrmatiky a statistiky VŠE zimní semestr 2011/2012 Evrpský sciální fnd Praha & EU: Investujeme d
VíceZískávání znalostí z databází. Alois Kužela
Získávání znalostí z databází Alois Kužela Obsah související pojmy datové sklady, získávání znalostí asocianí pravidla 2/37 Úvod získávání znalostí z dat, dolování (z) dat, data mining proces netriviálního
VíceVYSOKÉ UČENÍ TECHNICKÉ V BRNĚ BRNO UNIVERSITY OF TECHNOLOGY
VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ BRNO UNIVERSITY OF TECHNOLOGY FAKULTA INFORMAČNÍCH TECHNOLOGIÍ ÚSTAV INFORMAČNÍCH SYSTÉMŮ FACULTY OF INFORMATION TECHNOLOGY DEPARTMENT OF INFORMATION SYSTEMS DOLOVÁNÍ ASOCIAČNÍCH
VíceKontingenční tabulky, korelační koeficienty
Statistika II Katedra ekonometrie FVL UO Brno kancelář 69a, tel 973 442029 email:jirineubauer@unobcz Budeme předpokládat, že X a Y jsou kvalitativní náhodné veličiny, obor hodnot X obsahuje r hodnot (kategorií,
VícePravidlové znalostní systémy
Pravidlové znalostní systémy 31. října 2017 2-1 Tvary pravidel Pravidla (rules) mohou mít například takovéto tvary: IF předpoklad THEN závěr IF situace THEN akce IF podmínka THEN závěr AND akce IF podmínka
VíceInformační systémy 2006/2007
13 Vysoká škola báňská Technická univerzita Ostrava Fakulta strojní, Katedra automatizační techniky a řízení Informační systémy 2006/2007 Ivan Kedroň 1 Obsah Analytické nástroje SQL serveru. OLAP analýza
Víceznalostí z databází- mnohostranná interpretace dat
Dobývání znalostí z databází- mnohostranná interpretace dat Petr Berka VŠE Praha berka@vse vse.cz Dobývání znalostí z databází Non-trivial process of identifying valid, novel, potentially useful and ultimately
VíceVědecký tutoriál, část I. A Tutorial. Vilém Vychodil (Univerzita Palackého v Olomouci)
..! POSSIBILISTIC Laboratoř pro analýzu INFORMATION: a modelování dat Vědecký tutoriál, část I A Tutorial Vilém Vychodil (Univerzita Palackého v Olomouci) George J. Klir State University of New York (SUNY)
VíceModerní systémy pro získávání znalostí z informací a dat
Moderní systémy pro získávání znalostí z informací a dat Jan Žižka IBA Institut biostatistiky a analýz PřF & LF, Masarykova universita Kamenice 126/3, 625 00 Brno Email: zizka@iba.muni.cz Bioinformatika:
VíceÚvod do expertních systémů
Úvod do expertních systémů Expertní systém Definice ES (Feigenbaum): expertní systémy jsou počítačové programy, simulující rozhodovací činnost experta při řešení složitých úloh a využívající vhodně zakódovaných,
VíceDobývání znalostí. Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze
Dobývání znalostí Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze Dobývání znalostí Bayesovské modely Doc. RNDr. Iveta Mrázová, CSc.
VíceKatedra kybernetiky skupina Inteligentní Datové Analýzy (IDA) 9. dubna 2009. Filip Železný (ČVUT) Vytěžování dat 9.
Vytěžování dat Filip Železný Katedra kybernetiky skupina Inteligentní Datové Analýzy (IDA) 9. dubna 2009 Filip Železný (ČVUT) Vytěžování dat 9. dubna 2009 1 / 22 Rozhodovací pravidla Strom lze převést
VíceIBM SPSS Decision Trees
IBM Software IBM SPSS Decision Trees Jednoduše identifikujte skupiny a predikujte Stromově uspořádané postupné štěpení dat na homogenní podmnožiny je technika vhodná pro exploraci vztahů i pro tvorbu rozhodovacích
VíceUsuzování za neurčitosti
Usuzování za neurčitosti 25.11.2014 8-1 Usuzování za neurčitosti Hypotetické usuzování a zpětná indukce Míry postačitelnosti a nezbytnosti Kombinace důkazů Šíření pravděpodobnosti v inferenčních sítích
VíceMETODY DOLOVÁNÍ V DATECH DATOVÉ SKLADY TEREZA HYNČICOVÁ H2IGE1
METODY DOLOVÁNÍ V DATECH DATOVÉ SKLADY TEREZA HYNČICOVÁ H2IGE1 DOLOVÁNÍ V DATECH (DATA MINING) OBJEVUJE SE JIŽ OD 60. LET 20. ST. S ROZVOJEM POČÍTAČOVÉ TECHNIKY DEFINICE PROCES VÝBĚRU, PROHLEDÁVÁNÍ A MODELOVÁNÍ
Vícepseudopravděpodobnostní Prospector, Fel-Expert
Práce s neurčitostí trojhodnotová logika Nexpert Object, KappaPC pseudopravděpodobnostní Prospector, Fel-Expert (pravděpodobnostní) bayesovské sítě míry důvěry Mycin algebraická teorie Equant fuzzy logika
Více5 Vícerozměrná data - kontingenční tabulky, testy nezávislosti, regresní analýza
5 Vícerozměrná data - kontingenční tabulky, testy nezávislosti, regresní analýza 5.1 Vícerozměrná data a vícerozměrná rozdělení Při zpracování vícerozměrných dat se hledají souvislosti mezi dvěma, případně
VíceExpertní systémy T3: principy expertních systémů P. Berka, /19
P. Berka, 2012 1/19 Expertní systém počítačový program simulující rozhodovací činnost lidského experta při řešení složitých úloh a využívající vhodně zakódovaných speciálních znalostí převzatých od experta
VíceStatistická analýza dat v psychologii. Věci, které můžeme přímo pozorovat, jsou téměř vždy pouze vzorky. Alfred North Whitehead
PSY117/454 Statistická analýza dat v psychologii Přednáška 8 Statistické usuzování, odhady Věci, které můžeme přímo pozorovat, jsou téměř vždy pouze vzorky. Alfred North Whitehead Barevná srdíčka kolegyně
VíceKontingenční tabulky, korelační koeficienty
Statistika II Katedra ekonometrie FVL UO Brno kancelář 69a, tel. 973 442029 email:jiri.neubauer@unob.cz Mějme kategoriální proměnné X a Y. Vytvoříme tzv. kontingenční tabulku. Budeme tedy testovat hypotézu
VíceMetody analýzy modelů. Radek Pelánek
Metody analýzy modelů Radek Pelánek Fáze modelování 1 Formulace problému 2 Základní návrh modelu 3 Budování modelu 4 Verifikace a validace 5 Simulace a analýza 6 Sumarizace výsledků Simulace a analýza
VícePředzpracování dat. Lenka Vysloužilová
Předzpracování dat Lenka Vysloužilová 1 Metodika CRISP-DM (www.crisp-dm.org) Příprava dat Data Preparation příprava dat pro modelování selekce příznaků výběr relevantních příznaků čištění dat získávání
VíceZadání semestrální práce IKTZ 2 letní semestr 2009/2010
Zadání semestrální práce IKTZ 2 letní semestr 2009/2010 Obecné zadání Dle zadání zpracujte data ze studie STULONG (soubory Entry a Contr). Práce je rozdělena do tří částí, které se řeší odděleně. Výstupem
VíceDobývání znalostí z textů text mining
Dobývání znalostí z textů text mining Text mining - data mining na nestrukturovaných textových dokumentech 2 možné přístupy: Předzpracování dat + běžné algoritmy pro data mining Speciální algoritmy pro
VíceAsociační pravidla. Informační a komunikační technologie ve zdravotnictví. Biomedical Data Processing G r o u p
Asociační pravidla Informační a komunikační technologie ve zdravotnictví Definice pojmů Stavový prostor S je množina uzlů(stavů), kde cílem je najít stav splňující danou podmínku g. Formálně je problém
VíceAplikace asociačních pravidel ve společnosti Zinest s.r.o.
Aplikace asociačních pravidel ve společnosti Zinest sro Daniel Rydzi Zinest sro rydzi@zinestcz Jan Rauch Katedra informačního a znalostního inženýrství VŠE rauch@vsecz Abstrakt Tento článek si klade za
VíceObsah přednášky Jaká asi bude chyba modelu na nových datech?
Obsah přednášky Jaká asi bude chyba modelu na nových datech? Chyba modelu Bootstrap Cross Validation Vapnik-Chervonenkisova dimenze 2 Chyba skutečná a trénovací Máme 30 záznamů, rozhodli jsme se na jejich
VíceINDUKTIVNÍ STATISTIKA
10. SEMINÁŘ INDUKTIVNÍ STATISTIKA 3. HODNOCENÍ ZÁVISLOSTÍ HODNOCENÍ ZÁVISLOSTÍ KVALITATIVNÍ VELIČINY - Vychází se z kombinační (kontingenční) tabulky, která je výsledkem třídění druhého stupně KVANTITATIVNÍ
VíceOptimální rozdělující nadplocha 4. Support vector machine. Adaboost.
Optimální rozdělující nadplocha. Support vector machine. Adaboost. Petr Pošík Czech Technical University in Prague Faculty of Electrical Engineering Dept. of Cybernetics Opakování Lineární diskriminační
VíceRadim Navrátil. Robust 24. ledna 2018
Analýza nákupního košíku - historie a současnost Radim Navrátil Ústav matematiky a statistiky Přírodovědecká fakulta MU, Brno Robust 24. ledna 2018 Radim Navrátil (ÚMS Brno) Analýza nákupního košíku Robust
VíceVýpočetní teorie strojového učení a pravděpodobně skoro správné (PAC) učení. PAC učení 1
Výpočetní teorie strojového učení a pravděpodobně skoro správné (PAC) učení PAC učení 1 Cíl induktivního strojového učení Na základě omezeného vzorku příkladů E + a E -, charakterizovat (popsat) zamýšlenou
VíceStrojové učení Marta Vomlelová
Strojové učení Marta Vomlelová marta@ktiml.mff.cuni.cz KTIML, S303 Literatura 1.T. Hastie, R. Tishirani, and J. Friedman. The Elements of Statistical Learning, Data Mining, Inference and Prediction. Springer
Více10. Techniky formální verifikace a validace
Fakulta informačních technologií MI-NFA, zimní semestr 2011/2012 Jan Schmidt EVROPSKÝ SOCIÁLNÍ FOND PRAHA & EU: INVESTUJENE DO VAŠÍ BUDOUCNOSTI 10. Techniky formální verifikace a validace 1 Simulace není
VíceAlgoritmy a struktury neuropočítačů ASN P6
Algoritmy a struktury neuropočítačů ASN P6 Syntéza neuronových sítí Optimalizace struktury Klestění neuronové sítě Výběr vstupních dat Syntéza neuronových sítí kanonické N je počet neuronů N=N krit dělení
VíceVáclav Matoušek KIV. Umělá inteligence a rozpoznávání. Václav Matoušek / KIV
Umělá inteligence a rozpoznávání Václav Matoušek KIV e-mail: matousek@kiv.zcu.cz 0-1 Sylabus předmětu: Datum Náplň přednášky 16. 2. (3h) 2. 3. (4h) 17. 3. (5h) 14. 4. (3h) Úvod, historie a vývoj UI, základní
VíceKLASIFIKÁTOR MODULACÍ S VYUŽITÍM UMĚLÉ NEURONOVÉ SÍTĚ
KLASIFIKÁTOR MODULACÍ S VYUŽITÍM UMĚLÉ NEURONOVÉ SÍTĚ Marie Richterová 1, David Juráček 2 1 Univerzita obrany, Katedra KIS, 2 PČR MŘ Brno Abstrakt Článek se zabývá rozpoznáváním analogových a diskrétních
VíceZáklady business intelligence. Jaroslav Šmarda
Základy business intelligence Jaroslav Šmarda Základy business intelligence Business intelligence Datový sklad On-line Analytical Processing (OLAP) Kontingenční tabulky v MS Excelu jako příklad OLAP Dolování
VíceGRR. získávání znalostí v geografických datech Autoři. Knowledge Discovery Group Faculty of Informatics Masaryk Univerzity Brno, Czech Republic
GRR získávání znalostí v geografických datech Autoři Knowledge Discovery Group Faculty of Informatics Masaryk Univerzity Brno, Czech Republic GRR cílet 2 GRR - Popis systému - cíle systém pro dolování
VícePokročilé neparametrické metody. Klára Kubošová
Klára Kubošová Další typy stromů CHAID, PRIM, MARS CHAID - Chi-squared Automatic Interaction Detector G.V.Kass (1980) nebinární strom pro kategoriální proměnné. Jako kriteriální statistika pro větvení
VíceDobývání znalostí. Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze
Dobývání znalostí Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze Dobývání znalostí Rozhodovací stromy Doc. RNDr. Iveta Mrázová, CSc.
Více12. cvičení z PSI prosince (Test střední hodnoty dvou normálních rozdělení se stejným neznámým rozptylem)
cvičení z PSI 0-4 prosince 06 Test střední hodnoty dvou normálních rozdělení se stejným neznámým rozptylem) Z realizací náhodných veličin X a Y s normálním rozdělením) jsme z výběrů daného rozsahu obdrželi
VíceA1 Marketingové minimum pro posílení výchovy k podnikavosti (8h)
A1 Marketingové minimum pro posílení výchovy k podnikavosti (8h) 2.1 Základy marketingové strategie (2,5h) Učitelé se seznámí se základní marketingovou terminologií a s možnými cestami rozvoje firmy. V
Více