ZÍSKÁVÁNÍ ZNALOSTÍ Z DATABÁZÍ



Podobné dokumenty
ZÍSKÁVÁNÍ ZNALOSTÍ Z DATABÁZÍ

Okruhy ke státní závěrečné zkoušce z vedlejší specializace Informatika v řízení podniku

Získávání dat z databází 1 DMINA 2010

Katedra kybernetiky laboratoř Inteligentní Datové Analýzy (IDA) Katedra počítačů, Computational Intelligence Group

Ing. Petr Hájek, Ph.D. Podpora přednášky kurzu Aplikace umělé inteligence

Okruhy ke státní závěrečné zkoušce z oboru Podniková informatika. platné pro studenty, kteří zahájili studium v ZS 2015/2016

Dobývání znalostí z textů text mining

DOBÝVÁNÍ ZNALOSTÍ Z DATABÁZÍ

Úvodem Dříve les než stromy 3 Operace s maticemi

Dobývání znalostí. Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze

Moderní systémy pro získávání znalostí z informací a dat

METODY DOLOVÁNÍ V DATECH DATOVÉ SKLADY TEREZA HYNČICOVÁ H2IGE1

ANALÝZA A KLASIFIKACE DAT

Dobývání a vizualizace znalostí. Olga Štěpánková et al.

Dobývání dat a strojové učení

Získávání znalostí z dat

Předzpracování dat. Lenka Vysloužilová

Dobývání a vizualizace znalostí

ANALÝZA BIOLOGICKÝCH A KLINICKÝCH DAT V MEZIOBOROVÉM POJETÍ

Dobývání znalostí z webu web mining

Pokročilé neparametrické metody. Klára Kubošová

Dolování z textu. Martin Vítek

Následující text je součástí učebních textů předmětu Bi0034 Analýza a klasifikace dat a je určen

Statistické metody v ekonomii. Ing. Michael Rost, Ph.D.

Projekční algoritmus. Urychlení evolučních algoritmů pomocí regresních stromů a jejich zobecnění. Jan Klíma

Využití metod strojového učení v bioinformatice David Hoksza

Obsah. Kapitola 1. Kapitola 2. Kapitola 3. Úvod 9

Popis zobrazení pomocí fuzzy logiky

Úvod do optimalizace, metody hladké optimalizace

3 zdroje dat. Relační databáze EIS OLAP

10. Datové sklady (Data Warehouses) Datový sklad

ALGORITMY A DATOVÉ STRUKTURY

Dobývání a vizualizace znalostí

Multidimenzionální pohled na zdravotnické prostředí. INMED Petr Tůma

Algoritmy a struktury neuropočítačů ASN - P10. Aplikace UNS v biomedicíně

Uživatelská podpora v prostředí WWW

Stále větší množství dat uložených v databázích Neustále generujeme data Obchodní a bankovní transakce

Státnice odborné č. 20

MATEMATICKÁ TEORIE ROZHODOVÁNÍ

kapitola 2 Datové sklady, OLAP

Automatické vyhledávání informace a znalosti v elektronických textových datech

MATEMATICKÁ TEORIE ROZHODOVÁNÍ

Business Intelligence

FAKULTA INFORMAČNÍCH TECHNOLOGIÍ

GRR. získávání znalostí v geografických datech Autoři. Knowledge Discovery Group Faculty of Informatics Masaryk Univerzity Brno, Czech Republic

Obsah. Předmluva 13. O autorovi 15. Poděkování 16. O odborných korektorech 17. Úvod 19

Katedra kybernetiky, FEL, ČVUT v Praze.

IBM SPSS Modeler Professional

Dobývání a vizualizace znalostí

Učící se klasifikátory obrazu v průmyslu

Strojové učení Marta Vomlelová

Modely vyhledávání informací 4 podle technologie. 1) Booleovský model. George Boole Aplikace booleovské logiky

Informační systémy 2006/2007

znalostí z databází- mnohostranná interpretace dat

Přednáška 13 Redukce dimenzionality

O kurzu MSTU Témata probíraná v MSTU

přetrénování = ztráta schopnosti generalizovat vlivem přílišného zaměření klasifikátorů na rozeznávání pouze konkrétních trénovacích dat

STATISTICA Data Miner

UČENÍ BEZ UČITELE. Václav Hlaváč

KVALITA DAT POUŽITÁ APLIKACE. Správnost výsledku použití GIS ovlivňuje:

Klasifikační metody pro genetická data: regularizace a robustnost

Algoritmy a struktury neuropočítačů ASN P9 SVM Support vector machines Support vector networks (Algoritmus podpůrných vektorů)

Dobývání znalostí. Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze

Získávání znalostí z databází. Alois Kužela

ANALÝZA A KLASIFIKACE DAT

Dobývání znalostí. Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze

Vytěžování znalostí z dat

Úvod do dobývání. znalostí z databází

Kritérium Orange Weka KEEL KNIME TANAGRA AlphaMiner RA, RS, RP, S, AP, DS, NS, BM, MNS, GA, + TXT, XLS, CSV, C45, ARF, + CSV, XLS, ARF, + BMP, PNG, +

Profilování vzorků heroinu s využitím vícerozměrné statistické analýzy

Algoritmy a struktury neuropočítačů ASN - P11

Analýza dat v GIS. Dotazy na databáze. Překrytí Overlay Mapová algebra Vzdálenostní funkce. Funkce souvislosti Interpolační funkce Topografické funkce

Spark SQL, Spark Streaming. Jan Hučín

Hledání optimální polohy stanic a zastávek na tratích regionálního významu

Vytěžování dat přednáška I

Text Mining: SAS Enterprise Miner versus Teragram. Petr Berka, Tomáš Kliegr VŠE Praha

Spark SQL, Spark Streaming. Jan Hučín

Metody založené na analogii

AVDAT Mnohorozměrné metody, metody klasifikace Shluková analýza

Bu B sin i e n s e s s I n I te t l e lig i en e c n e c Skorkovský KA K M A I, E S E F MU

Analýza dat pomocí systému Weka, Rapid miner a Enterprise miner

Umělé neuronové sítě

ANALÝZA A KLASIFIKACE DAT. Institut biostatistiky a analýz

NÁSTROJE BUSINESS INTELLIGENCE

Využití strojového učení k identifikaci protein-ligand aktivních míst

Surfujte v business analýze jako profík. Naučíme Vás podpořit klíčová rozhodnutí firmy.

8. Systémy pro dobývání znalostí z databází

Strojové učení se zaměřením na vliv vstupních dat

Dolování asociačních pravidel

VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ BRNO UNIVERSITY OF TECHNOLOGY

Miroslav Čepek. Fakulta Elektrotechnická, ČVUT. Evropský sociální fond Praha & EU: Investujeme do vaší budoucnosti

Univerzita Pardubice Fakulta ekonomicko-správní. Využití soft computingu pro redukci atributů v informačním systému. Bc.

Stručný obsah. K2118.indd :15:27

DATABÁZOVÉ SYSTÉMY. Metodický list č. 1

IBM SPSS Modeler. Hlavní přínosy. Intuitivní ovládání IBM

Databázové systémy. 10. přednáška

5. Umělé neuronové sítě. Neuronové sítě

Cvičná bakalářská zkouška, 1. varianta

BI v rámci IS/ICT komponenty BI architektura. Charakteristika dat a procesů v IS/ICT. Datové sklady ukládání dat návrh datového skladu

Evoluční algoritmy. Podmínka zastavení počet iterací kvalita nejlepšího jedince v populaci změna kvality nejlepšího jedince mezi iteracemi

Transkript:

metodický list č. 1 Dobývání znalostí z databází Cílem tohoto tematického celku je vysvětlení základních pojmů z oblasti dobývání znalostí z databází i východisek dobývání znalostí z databází inspirovaných oblastí databází, statistiky a strojového učení. Tématický celek je rozdělen do těchto dílčích témat: 1. Základní pojmy z oblasti dobývání znalostí 2. Zdroje dobývání znalostí 1. dílčí téma: Základní pojmy z oblasti dobývání znalostí K prvnímu dílčímu tématu si přečtěte příslušné kapitoly v: dobývání znalostí z databází, analýza nákupního košíku rozdíl mezi procesem dobývání znalostí a krokem data mining základní typy úloh dobývání znalostí z databází základní kroky metodiky CRISP-DM 2. dílčí téma: Východiska dobývání znalostí K druhému dílčímu tématu si přečtěte příslušné kapitoly v: 1

OLAP, datový sklad, mutidimenzionální krychle, roll-up, drill-down, kontingenční tabulka, shluková analýza, objekt, atribut, učení na základě podobnosti, prostor kombinací (modelů), učení jako prohledávání, učení jako aproximace, gradientní metoda rozdíl mezi MOLAP a ROLAP rozdíl mezi databázovým schématem hvězda a sněhová vločka rozdíl mezi diskriminační a regresní analýzou rozdíl mezi hierarchickým shlukováním a shlukováním metodo k-středů rozdíl mezi učením s učitelem a učením bez učitele rozdíl mezi aproximací a interpolací způsob převodu datové tabulky do podoby mutidimenzionální krychle princip χ 2 testu typy atributů formální vyjádření úlohy učení s učitelem základní způsoby prohledávání prostoru kombinací (modelů) 2

metodický list č. 2 Symbolické metody dobývání znalostí Cílem tohoto tematického celku je vysvětlení základních principů algoritmů pro tvorbu rozhodovacích stromů, rozhodovacích a asociačních pravidel a algoritmů pro učení založeném na instancích. K tématickému celku si přečtěte příslušné kapitoly v: rozhodovací strom, prořezávání stromů, rozhodovací pravidlo, asociační pravidlo, pokrývání množin, implikace, dvojitá implikace, ekvivalence, centroid (etalon) rozdíl mezi rozhodovacími a regresními stromy rozdíl mezi rozhodovacími a asociačními pravidly základní kritéria používaná pro větvení rozhodovacího stromu základní podobu algoritmu pro tvorbu rozhodovacích stromů základní kvantitativní charakteristiky asociačních pravidel základní podobu algoritmu pro tvorbu rozhodovacích pravidel základní metriky pro měření vzdálenosti mezi příklady základní podobu algoritmu učení založeném na instancích 3

metodický list č. 3 Subsymbolické metody dobývání znalostí Cílem tohoto tematického celku je vysvětlení základních principů neuronových sítí, genetických algoritmů a bayesovských klasifikátorů. K tématickému celku si přečtěte příslušné kapitoly v: lineární neuron, vícevrstvá neuronová síť, Kohonenova mapa, selekce, křížení a mutace, naivní bayesovský klasifikátor, bayesovská síť rozdíl mezi různými modely jednoho neuronu rozdíl mezi naivním bayesovským klasifikátorem a bayesovskou sítí problém uváznutí v lokálním optimu a způsoby jeho řešení geometrickou interpretaci činnosti lineárního neuronu základní princip algoritmů pro učení neuronových sítí základní princip metody SVM základní podobu genetického algoritmu 4

metodický list č. 4 Další kroky procesu dobývání znalostí Cílem tohoto tematického celku je vysvětlení základních způsobů hodnocení kvality nalezených znalostí i základních metod předzpracování dat. Tématický celek je rozdělen do těchto dílčích témat: 1. Vyhodnocení výsledků 2. Příprava dat 1. dílčí téma: Vyhodnocení výsledků K prvnímu dílčímu tématu si přečtěte příslušné kapitoly v: matic záměn, přesnost a úplnost, ROC křivka, kombinování modelů meta-učení rozdíl mezi hodnocením správnosti klasifikace a numerické predikce vizualizací klasifikací a vizualizací modelů rozdíl mezi metodami bagging, boosting a stacking metody testování modelů metody porovnávání modelů 2. dílčí téma: Příprava dat K druhému dílčímu tématu si přečtěte příslušné kapitoly v: 5

diskretizace, selekce atributů, rozdíl mezi ostrou a fuzzy diskretizací rozdíl mezi diskretizací bez využití a s využitím informací o rozdělení objektů do tříd rozdíl mezi redukcí počtu atributů metodami transformace a metodami selekce způsob převodu časové řady na datovou tabulku způsob převodu relační databáze na jednu datovou tabulku kritéria pro selekci atributů metodou filtru způsob hodnocení kvality diskretizace z hlediska klasifikační úlohy 6

metodický list č. 5 Nové trendy dobývání znalostí Cílem tohoto tematického celku je vysvětlení základních způsobů dobývání znalostí z textů a z webu.. Tématický celek je rozdělen do těchto dílčích témat: 1. Dobývání znalostí z textů 2. Dobývání znalostí z webu 2. dílčí téma: Dobývání znalostí z textů K prvnímu dílčímu tématu si přečtěte příslušné kapitoly v: TFIDF, booleovský model, vektorový model, přesnost a úplnost rozdíl mezi vyhledáváním informací a extrakcí informací způsoby reprezentování textových dokumentů pro úlohy dobývání znalostí způsoby měření podobnosti dokumentů 2. dílčí téma: Dobývání znalostí z webu K druhému dílčímu tématu si přečtěte příslušné kapitoly v: 7

web content mining, web structure mining, web usage mining, kolaborativní filtrování, rozcestník (hub) a autorita, web server log rozdíl mezi vyhledáváním a meta-vyhledáváním 8