ZÍSKÁVÁNÍ ZNALOSTÍ Z DATABÁZÍ

Podobné dokumenty
ZÍSKÁVÁNÍ ZNALOSTÍ Z DATABÁZÍ

Okruhy ke státní závěrečné zkoušce z vedlejší specializace Informatika v řízení podniku

Získávání dat z databází 1 DMINA 2010

DOBÝVÁNÍ ZNALOSTÍ Z DATABÁZÍ

Katedra kybernetiky laboratoř Inteligentní Datové Analýzy (IDA) Katedra počítačů, Computational Intelligence Group

Ing. Petr Hájek, Ph.D. Podpora přednášky kurzu Aplikace umělé inteligence

Dobývání a vizualizace znalostí. Olga Štěpánková et al.

Dobývání dat a strojové učení

Úvodem Dříve les než stromy 3 Operace s maticemi

METODY DOLOVÁNÍ V DATECH DATOVÉ SKLADY TEREZA HYNČICOVÁ H2IGE1

Moderní systémy pro získávání znalostí z informací a dat

Okruhy ke státní závěrečné zkoušce z oboru Podniková informatika. platné pro studenty, kteří zahájili studium v ZS 2015/2016

Předzpracování dat. Lenka Vysloužilová

Dobývání znalostí. Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze

ANALÝZA A KLASIFIKACE DAT

Multidimenzionální pohled na zdravotnické prostředí. INMED Petr Tůma

Pokročilé neparametrické metody. Klára Kubošová

Dobývání a vizualizace znalostí

Dobývání znalostí z textů text mining

ANALÝZA BIOLOGICKÝCH A KLINICKÝCH DAT V MEZIOBOROVÉM POJETÍ

Statistické metody v ekonomii. Ing. Michael Rost, Ph.D.

Získávání znalostí z dat

Projekční algoritmus. Urychlení evolučních algoritmů pomocí regresních stromů a jejich zobecnění. Jan Klíma

ALGORITMY A DATOVÉ STRUKTURY

Popis zobrazení pomocí fuzzy logiky

Dobývání a vizualizace znalostí

Následující text je součástí učebních textů předmětu Bi0034 Analýza a klasifikace dat a je určen

Úvod do optimalizace, metody hladké optimalizace

Algoritmy a struktury neuropočítačů ASN - P10. Aplikace UNS v biomedicíně

MATEMATICKÁ TEORIE ROZHODOVÁNÍ

MATEMATICKÁ TEORIE ROZHODOVÁNÍ

Dobývání a vizualizace znalostí

O kurzu MSTU Témata probíraná v MSTU

Business Intelligence

Strojové učení Marta Vomlelová

znalostí z databází- mnohostranná interpretace dat

Vytěžování dat přednáška I

Státnice odborné č. 20

GRR. získávání znalostí v geografických datech Autoři. Knowledge Discovery Group Faculty of Informatics Masaryk Univerzity Brno, Czech Republic

Využití metod strojového učení v bioinformatice David Hoksza

Kritérium Orange Weka KEEL KNIME TANAGRA AlphaMiner RA, RS, RP, S, AP, DS, NS, BM, MNS, GA, + TXT, XLS, CSV, C45, ARF, + CSV, XLS, ARF, + BMP, PNG, +

Učící se klasifikátory obrazu v průmyslu

KVALITA DAT POUŽITÁ APLIKACE. Správnost výsledku použití GIS ovlivňuje:

FAKULTA INFORMAČNÍCH TECHNOLOGIÍ

3 zdroje dat. Relační databáze EIS OLAP

Vytěžování znalostí z dat

Dobývání znalostí. Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze

přetrénování = ztráta schopnosti generalizovat vlivem přílišného zaměření klasifikátorů na rozeznávání pouze konkrétních trénovacích dat

Úvod do dobývání. znalostí z databází

Cvičná bakalářská zkouška, 1. varianta

Evoluční algoritmy. Podmínka zastavení počet iterací kvalita nejlepšího jedince v populaci změna kvality nejlepšího jedince mezi iteracemi

Dobývání znalostí. Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze

Databázové systémy. 10. přednáška

ZÍSKÁVÁNÍ ZNALOSTÍ Z DATOVÝCH SKLADŮ KNOWLEDGE DISCOVERY OVER DATA WAREHOUSES

UČENÍ BEZ UČITELE. Václav Hlaváč

10. Datové sklady (Data Warehouses) Datový sklad

Kritéria hodnocení praktické maturitní zkoušky z databázových systémů

Klasifikační metody pro genetická data: regularizace a robustnost

Katedra kybernetiky, FEL, ČVUT v Praze.

Metody založené na analogii

Automatické vyhledávání informace a znalosti v elektronických textových datech

Algoritmy a struktury neuropočítačů ASN P9 SVM Support vector machines Support vector networks (Algoritmus podpůrných vektorů)

Bu B sin i e n s e s s I n I te t l e lig i en e c n e c Skorkovský KA K M A I, E S E F MU

Analýza dat pomocí systému Weka, Rapid miner a Enterprise miner

Obsah. Kapitola 1. Kapitola 2. Kapitola 3. Úvod 9

VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ BRNO UNIVERSITY OF TECHNOLOGY

Databáze. datum jmeno prijmeni adresa_ulice adresa_mesto cislo_uctu platba zustatek

STATISTICA Data Miner

Univerzita Pardubice Fakulta ekonomicko-správní. Využití soft computingu pro redukci atributů v informačním systému. Bc.

Miroslav Čepek. Fakulta Elektrotechnická, ČVUT. Evropský sociální fond Praha & EU: Investujeme do vaší budoucnosti

IBM SPSS Modeler Professional

8. Systémy pro dobývání znalostí z databází

Dolování z textu. Martin Vítek

Profilování vzorků heroinu s využitím vícerozměrné statistické analýzy

Stále větší množství dat uložených v databázích Neustále generujeme data Obchodní a bankovní transakce

Přednáška 13 Redukce dimenzionality

Analýza dat v GIS. Dotazy na databáze. Překrytí Overlay Mapová algebra Vzdálenostní funkce. Funkce souvislosti Interpolační funkce Topografické funkce

Hledání optimální polohy stanic a zastávek na tratích regionálního významu

Pokročilé neparametrické metody. Klára Kubošová

NÁSTROJE BUSINESS INTELLIGENCE

Algoritmy a struktury neuropočítačů ASN - P11

Kombinování klasifikátorů Ensamble based systems

Získávání znalostí z databází. Alois Kužela

Umělé neuronové sítě

PROJEKTOVÁNÍ A KOMUNIKACE

Informační systémy 2006/2007

PRINCIPY POČÍTAČOVÉ GRAFIKY

Obsah. Předmluva 13. O autorovi 15. Poděkování 16. O odborných korektorech 17. Úvod 19

IBM SPSS Modeler. Hlavní přínosy. Intuitivní ovládání IBM

AVDAT Mnohorozměrné metody, metody klasifikace Shluková analýza

dolování znalosti z dat pomocí

UNIVERZITA PARDUBICE KLASIFIKAČNÍ ÚLOHY PRO DATA MINING. Fakulta ekonomicko-správní Ústav systémového inženýrství a informatiky.

Strojové učení se zaměřením na vliv vstupních dat

PŘEDNÁŠKA KURZU MPOV

JESTLIŽE Poruchy druhu p j Vykazují v období záruky odchylku S > P resp. S < P POTOM Potenciální příčinou poruch je závada Z s vahou w

Algoritmy a struktury neuropočítačů ASN P3

Surfujte v business analýze jako profík. Naučíme Vás podpořit klíčová rozhodnutí firmy.

ANALÝZA A KLASIFIKACE DAT. Institut biostatistiky a analýz

ANALÝZA A KLASIFIKACE DAT

Dobývání znalostí z databází. Databáze. datum jmeno prijmeni adresa_ulice adresa_mesto cislo_uctu platba zustatek

Transkript:

Metodický list č. 1 Dobývání znalostí z databází Cílem tohoto tematického celku je vysvětlení základních pojmů z oblasti dobývání znalostí z databází i východisek dobývání znalostí z databází inspirovaných oblastí databází, statistiky a strojového učení. Tématický celek je rozdělen do těchto dílčích témat: 1. Základní pojmy z oblasti dobývání znalostí 2. Zdroje dobývání znalostí 1. dílčí téma: Základní pojmy z oblasti dobývání znalostí K prvnímu dílčímu tématu si přečtěte příslušné kapitoly v: dobývání znalostí z databází, analýza nákupního košíku rozdíl mezi procesem dobývání znalostí a krokem data mining základní typy úloh dobývání znalostí z databází základní kroky metodiky CRISP-DM 2. dílčí téma: Východiska dobývání znalostí K druhému dílčímu tématu si přečtěte příslušné kapitoly v: 1

OLAP, datový sklad, mutidimenzionální krychle, roll-up, drill-down, kontingenční tabulka, shluková analýza, objekt, atribut, učení na základě podobnosti, prostor kombinací (modelů), učení jako prohledávání, učení jako aproximace, gradientní metoda rozdíl mezi MOLAP a ROLAP rozdíl mezi databázovým schématem hvězda a sněhová vločka rozdíl mezi diskriminační a regresní analýzou rozdíl mezi hierarchickým shlukováním a shlukováním metodo k-středů rozdíl mezi učením s učitelem a učením bez učitele rozdíl mezi aproximací a interpolací způsob převodu datové tabulky do podoby mutidimenzionální krychle princip χ 2 testu typy atributů formální vyjádření úlohy učení s učitelem základní způsoby prohledávání prostoru kombinací (modelů) Předmět je ukončen písemnou ZKOUŠKOU. 2

Metodický list č. 2 Symbolické metody dobývání znalostí Cílem tohoto tematického celku je vysvětlení základních principů algoritmů pro tvorbu rozhodovacích stromů, rozhodovacích a asociačních pravidel a algoritmů pro učení založeném na instancích. K tématickému celku si přečtěte příslušné kapitoly v: rozhodovací strom, prořezávání stromů, rozhodovací pravidlo, asociační pravidlo, pokrývání množin, implikace, dvojitá implikace, ekvivalence, centroid (etalon) rozdíl mezi rozhodovacími a regresními stromy rozdíl mezi rozhodovacími a asociačními pravidly základní kritéria používaná pro větvení rozhodovacího stromu základní podobu algoritmu pro tvorbu rozhodovacích stromů základní kvantitativní charakteristiky asociačních pravidel základní podobu algoritmu pro tvorbu rozhodovacích pravidel základní metriky pro měření vzdálenosti mezi příklady základní podobu algoritmu učení založeném na instancích Předmět je ukončen písemnou zkouškou. 3

Metodický list č. 3 Subsymbolické metody dobývání znalostí Cílem tohoto tematického celku je vysvětlení základních principů neuronových sítí, genetických algoritmů a bayesovských klasifikátorů. K tématickému celku si přečtěte příslušné kapitoly v: lineární neuron, vícevrstvá neuronová síť, Kohonenova mapa, selekce, křížení a mutace, naivní bayesovský klasifikátor, bayesovská síť rozdíl mezi různými modely jednoho neuronu rozdíl mezi naivním bayesovským klasifikátorem a bayesovskou sítí problém uváznutí v lokálním optimu a způsoby jeho řešení geometrickou interpretaci činnosti lineárního neuronu základní princip algoritmů pro učení neuronových sítí základní princip metody SVM základní podobu genetického algoritmu Předmět je ukončen písemnou zkouškou. 4

Metodický list č. 4 Další kroky procesu dobývání znalostí Cílem tohoto tematického celku je vysvětlení základních způsobů hodnocení kvality nalezených znalostí i základních metod předzpracování dat. Tématický celek je rozdělen do těchto dílčích témat: 1. Vyhodnocení výsledků 2. Příprava dat 1. dílčí téma: Vyhodnocení výsledků K prvnímu dílčímu tématu si přečtěte příslušné kapitoly v: matic záměn, přesnost a úplnost, ROC křivka, kombinování modelů meta-učení rozdíl mezi hodnocením správnosti klasifikace a numerické predikce vizualizací klasifikací a vizualizací modelů rozdíl mezi metodami bagging, boosting a stacking metody testování modelů metody porovnávání modelů 2. dílčí téma: Příprava dat K druhému dílčímu tématu si přečtěte příslušné kapitoly v: 5

diskretizace, selekce atributů, rozdíl mezi ostrou a fuzzy diskretizací rozdíl mezi diskretizací bez využití a s využitím informací o rozdělení objektů do tříd rozdíl mezi redukcí počtu atributů metodami transformace a metodami selekce způsob převodu časové řady na datovou tabulku způsob převodu relační databáze na jednu datovou tabulku kritéria pro selekci atributů metodou filtru způsob hodnocení kvality diskretizace z hlediska klasifikační úlohy Předmět je ukončen písemnou zkouškou. 6