ZÍSKÁVÁNÍ ZNALOSTÍ Z DATABÁZÍ

Rozměr: px
Začít zobrazení ze stránky:

Download "ZÍSKÁVÁNÍ ZNALOSTÍ Z DATABÁZÍ"

Transkript

1 metodický list č. 1 Dobývání znalostí z databází Cílem tohoto tematického celku je vysvětlení základních pojmů z oblasti dobývání znalostí z databází i východisek dobývání znalostí z databází inspirovaných oblastí databází, statistiky a strojového učení. Tématický celek je rozdělen do těchto dílčích témat: 1. Základní pojmy z oblasti dobývání znalostí 2. Zdroje dobývání znalostí 1. dílčí téma: Základní pojmy z oblasti dobývání znalostí K prvnímu dílčímu tématu si přečtěte příslušné kapitoly v: dobývání znalostí z databází, analýza nákupního košíku rozdíl mezi procesem dobývání znalostí a krokem data mining základní typy úloh dobývání znalostí z databází základní kroky metodiky CRISP-DM 2. dílčí téma: Východiska dobývání znalostí K druhému dílčímu tématu si přečtěte příslušné kapitoly v: 1

2 OLAP, datový sklad, mutidimenzionální krychle, roll-up, drill-down, kontingenční tabulka, shluková analýza, objekt, atribut, učení na základě podobnosti, prostor kombinací (modelů), učení jako prohledávání, učení jako aproximace, gradientní metoda rozdíl mezi MOLAP a ROLAP rozdíl mezi databázovým schématem hvězda a sněhová vločka rozdíl mezi diskriminační a regresní analýzou rozdíl mezi hierarchickým shlukováním a shlukováním metodo k-středů rozdíl mezi učením s učitelem a učením bez učitele rozdíl mezi aproximací a interpolací způsob převodu datové tabulky do podoby mutidimenzionální krychle princip χ 2 testu typy atributů formální vyjádření úlohy učení s učitelem základní způsoby prohledávání prostoru kombinací (modelů) 2

3 metodický list č. 2 Symbolické metody dobývání znalostí Cílem tohoto tematického celku je vysvětlení základních principů algoritmů pro tvorbu rozhodovacích stromů, rozhodovacích a asociačních pravidel a algoritmů pro učení založeném na instancích. K tématickému celku si přečtěte příslušné kapitoly v: rozhodovací strom, prořezávání stromů, rozhodovací pravidlo, asociační pravidlo, pokrývání množin, implikace, dvojitá implikace, ekvivalence, centroid (etalon) rozdíl mezi rozhodovacími a regresními stromy rozdíl mezi rozhodovacími a asociačními pravidly základní kritéria používaná pro větvení rozhodovacího stromu základní podobu algoritmu pro tvorbu rozhodovacích stromů základní kvantitativní charakteristiky asociačních pravidel základní podobu algoritmu pro tvorbu rozhodovacích pravidel základní metriky pro měření vzdálenosti mezi příklady základní podobu algoritmu učení založeném na instancích 3

4 metodický list č. 3 Subsymbolické metody dobývání znalostí Cílem tohoto tematického celku je vysvětlení základních principů neuronových sítí, genetických algoritmů a bayesovských klasifikátorů. K tématickému celku si přečtěte příslušné kapitoly v: lineární neuron, vícevrstvá neuronová síť, Kohonenova mapa, selekce, křížení a mutace, naivní bayesovský klasifikátor, bayesovská síť rozdíl mezi různými modely jednoho neuronu rozdíl mezi naivním bayesovským klasifikátorem a bayesovskou sítí problém uváznutí v lokálním optimu a způsoby jeho řešení geometrickou interpretaci činnosti lineárního neuronu základní princip algoritmů pro učení neuronových sítí základní princip metody SVM základní podobu genetického algoritmu 4

5 metodický list č. 4 Další kroky procesu dobývání znalostí Cílem tohoto tematického celku je vysvětlení základních způsobů hodnocení kvality nalezených znalostí i základních metod předzpracování dat. Tématický celek je rozdělen do těchto dílčích témat: 1. Vyhodnocení výsledků 2. Příprava dat 1. dílčí téma: Vyhodnocení výsledků K prvnímu dílčímu tématu si přečtěte příslušné kapitoly v: matic záměn, přesnost a úplnost, ROC křivka, kombinování modelů meta-učení rozdíl mezi hodnocením správnosti klasifikace a numerické predikce vizualizací klasifikací a vizualizací modelů rozdíl mezi metodami bagging, boosting a stacking metody testování modelů metody porovnávání modelů 2. dílčí téma: Příprava dat K druhému dílčímu tématu si přečtěte příslušné kapitoly v: 5

6 diskretizace, selekce atributů, rozdíl mezi ostrou a fuzzy diskretizací rozdíl mezi diskretizací bez využití a s využitím informací o rozdělení objektů do tříd rozdíl mezi redukcí počtu atributů metodami transformace a metodami selekce způsob převodu časové řady na datovou tabulku způsob převodu relační databáze na jednu datovou tabulku kritéria pro selekci atributů metodou filtru způsob hodnocení kvality diskretizace z hlediska klasifikační úlohy 6

7 metodický list č. 5 Nové trendy dobývání znalostí Cílem tohoto tematického celku je vysvětlení základních způsobů dobývání znalostí z textů a z webu.. Tématický celek je rozdělen do těchto dílčích témat: 1. Dobývání znalostí z textů 2. Dobývání znalostí z webu 2. dílčí téma: Dobývání znalostí z textů K prvnímu dílčímu tématu si přečtěte příslušné kapitoly v: TFIDF, booleovský model, vektorový model, přesnost a úplnost rozdíl mezi vyhledáváním informací a extrakcí informací způsoby reprezentování textových dokumentů pro úlohy dobývání znalostí způsoby měření podobnosti dokumentů 2. dílčí téma: Dobývání znalostí z webu K druhému dílčímu tématu si přečtěte příslušné kapitoly v: 7

8 web content mining, web structure mining, web usage mining, kolaborativní filtrování, rozcestník (hub) a autorita, web server log rozdíl mezi vyhledáváním a meta-vyhledáváním 8

9. Dobývání znalostí v praxi

9. Dobývání znalostí v praxi 9. Dobývání znalostí v praxi 9.1 Příklad úlohy Na závěr knihy se opět vraťme k příkladu zmíněném v první kapitole. Vodítkem při dobývání znalostí nám bude metodologie CRISP-DM. 9.1.1 Porozumění problematice

Více

Univerzita Hradec Králové Fakulta informatiky a managementu Katedra informačních technologií

Univerzita Hradec Králové Fakulta informatiky a managementu Katedra informačních technologií Univerzita Hradec Králové Fakulta informatiky a managementu Katedra informačních technologií Aplikace strojového učení v oblasti e-komerce Diplomová práce Autor: Pavel Vraný Studijní obor: aplikovaná informatika

Více

Metody řešení problematiky neúplných dat

Metody řešení problematiky neúplných dat Metody řešení problematiky neúplných dat Ing. David Pejčoch, DiS. Katedra informačního a znalostního inženýrství Fakulta informatiky a statistiky Vysoká škola ekonomická Nám. W. Churchilla 4 130 00 Praha

Více

Vysoká škola ekonomická v Praze. Fakulta managementu v Jindřichově Hradci Katedra exaktních metod. Diplomová práce. 2013 Bc.

Vysoká škola ekonomická v Praze. Fakulta managementu v Jindřichově Hradci Katedra exaktních metod. Diplomová práce. 2013 Bc. Vysoká škola ekonomická v Praze Fakulta managementu v Jindřichově Hradci Katedra exaktních metod Diplomová práce 2013 Bc. Pavel Stejskal Vysoká škola ekonomická v Praze Fakulta managementu v Jindřichově

Více

IDENTIFIKACE AUTOMATICKÝCH PŘÍSTUPŮ INTERNETOVÝCH OBCHODŮ S VYUŽÍTÍM METOD WEB USAGE MININGU

IDENTIFIKACE AUTOMATICKÝCH PŘÍSTUPŮ INTERNETOVÝCH OBCHODŮ S VYUŽÍTÍM METOD WEB USAGE MININGU IDENTIFIKACE AUTOMATICKÝCH PŘÍSTUPŮ INTERNETOVÝCH OBCHODŮ S VYUŽÍTÍM METOD WEB USAGE MININGU Jana Filipová, Karel Michálek, Pavel Petr Ústav systémového inženýrství a informatiky, Fakulta ekonomicko-správní,

Více

Dobývání znalostí z webu web mining

Dobývání znalostí z webu web mining Dobývání znalostí z webu web mining Web Mining is is the application of data mining techniques to discover patterns from the Web (Wikipedia) Tři oblasti: Web content mining (web jako kolekce dokumentů)

Více

Obr. 1 Biologický neuron

Obr. 1 Biologický neuron 5.4 Neuronové sítě Lidský mozek je složen asi z 10 10 nervových buněk (neuronů) které jsou mezi sebou navzájem propojeny ještě řádově vyšším počtem vazeb [Novák a kol.,1992]. Začněme tedy nejdříve jedním

Více

StatSoft Úvod do neuronových sítí

StatSoft Úvod do neuronových sítí StatSoft Úvod do neuronových sítí Vzhledem k vzrůstající popularitě neuronových sítí jsme se rozhodli Vám je v tomto článku představit a říci si něco o jejich využití. Co si tedy představit pod pojmem

Více

4ft-Miner pro začátečníky Získávání znalostí z databází

4ft-Miner pro začátečníky Získávání znalostí z databází 4ft-Miner pro začátečníky Získávání znalostí z databází Dobývání znalostí z databází (DZD) Knowledge Discovery in (from) Databases (KDD) Data Mining (DM) Materiál pro posluchače kurzů IZI211 Metody zpracování

Více

Obr. 1 Plochý soubor s daty

Obr. 1 Plochý soubor s daty 2. Databáze 2.1 Relační databáze V prehistorii databází byla data ukládána v jednom velkém plochém souboru (tzv. flat file) ke kterému se přistupovalo indexsekvenčními metodami (ISAM). Soubor byl indexován

Více

Uživatelská podpora v prostředí WWW

Uživatelská podpora v prostředí WWW Uživatelská podpora v prostředí WWW Jiří Jelínek Katedra managementu informací Fakulta managementu Jindřichův Hradec Vysoká škola ekonomická Praha Úvod WWW obsáhlost obsahová i formátová pestrost dokumenty,

Více

Marketingový výzkum. RNDr. Ludvík Čichovský, CSc,MBA ludvik.cichovsky@vsem.cz VŠEM 2012

Marketingový výzkum. RNDr. Ludvík Čichovský, CSc,MBA ludvik.cichovsky@vsem.cz VŠEM 2012 Marketingový výzkum RNDr. Ludvík Čichovský, CSc,MBA ludvik.cichovsky@vsem.cz VŠEM 2012 Literatura: Čichovský L. (2010): Marketingový výzkum, VŠEM (vybrané kapitoly) Čichovský L. (2010): Prezentace Marketingový

Více

IBM SPSS Statistics Base

IBM SPSS Statistics Base IBM Software Base Spolehněte se na rozhodnutí a výsledky, které jsou založené na analýzách IBM SPSS Statistics poskytuje nástroje pro řešení statistických úloh a analytických problémů jak v komerčních

Více

Univerzita Pardubice Fakulta ekonomicko-správní. Modelování predikce časových řad návštěvnosti web domény pomocí SVM Bc.

Univerzita Pardubice Fakulta ekonomicko-správní. Modelování predikce časových řad návštěvnosti web domény pomocí SVM Bc. Unverzta Pardubce Fakulta ekonomcko-správní Modelování predkce časových řad návštěvnost web domény pomocí SVM Bc. Vlastml Flegl Dplomová práce 2011 Prohlašuj: Tuto prác jsem vypracoval samostatně. Veškeré

Více

RÁMCOVÝ VZDĚLÁVACÍ PROGRAM PRO ZÍSKÁNÍ SPECIALIZOVANÉ ZPŮSOBILOSTI. v oboru KLINICKÉ INŽENÝRSTVÍ SE ZAMĚŘENÍM NA ANALÝZU A ZPRACOVÁNÍ BIOSIGNÁLŮ.

RÁMCOVÝ VZDĚLÁVACÍ PROGRAM PRO ZÍSKÁNÍ SPECIALIZOVANÉ ZPŮSOBILOSTI. v oboru KLINICKÉ INŽENÝRSTVÍ SE ZAMĚŘENÍM NA ANALÝZU A ZPRACOVÁNÍ BIOSIGNÁLŮ. RÁMCOVÝ VZDĚLÁVACÍ PROGRAM PRO ZÍSKÁNÍ SPECIALIZOVANÉ ZPŮSOBILOSTI v oboru KLINICKÉ INŽENÝRSTVÍ SE ZAMĚŘENÍM NA ANALÝZU A ZPRACOVÁNÍ BIOSIGNÁLŮ pro BIOMEDICÍNSKÉ INŽENÝRY 1. Cíl specializačního vzdělávání

Více

Datové sklady a možnosti analýzy a reportování dat ve výuce

Datové sklady a možnosti analýzy a reportování dat ve výuce Vysoká škola ekonomická v Praze Fakulta informatiky a statistiky Vyšší odborná škola informačních služeb v Praze Datové sklady a možnosti analýzy a reportování dat ve výuce Autor bakalářské práce: David

Více

Státní závěrečná zkouška

Státní závěrečná zkouška JIHOČESKÁ UNIVERZITA V ČESKÝCH BUDĚJOVICÍCH Ekonomická fakulta Státní závěrečná zkouška studijní program: Systémové inženýrství a informatika studijní obor Ekonomická informatika navazující magisterské

Více

Základy vytěžování dat

Základy vytěžování dat Základy vytěžování dat předmět A7Bb36vyd Vytěžování dat Filip Železný, Miroslav Čepek, Radomír Černoch, Jan Hrdlička katedra kybernetiky a katedra počítačů ČVUT v Praze, FEL Evropský sociální fond Praha

Více

Diplomová práce. Rekonstrukce povrchů geometrických objektů z roztroušených bodů

Diplomová práce. Rekonstrukce povrchů geometrických objektů z roztroušených bodů Západočeská univerzita v Plzni Fakulta aplikovaných věd Katedra informatiky a výpočetní techniky Diplomová práce Rekonstrukce povrchů geometrických objektů z roztroušených bodů Plzeň, 2002 Surface reconstruction

Více

České vysoké učení technické v Praze. Fakulta elektrotechnická. Katedra kybernetiky

České vysoké učení technické v Praze. Fakulta elektrotechnická. Katedra kybernetiky České vysoké učení technické v Praze Fakulta elektrotechnická Katedra kybernetiky Diplomová práce Aplikace shlukovacích metod na časové řady se zaměřením na záznamy FHR 214 Bc. Tereza Janíčková I Prohlášení

Více

Extrakce informací z webových stránek pomocí extrakčních ontologií

Extrakce informací z webových stránek pomocí extrakčních ontologií Vysoká škola ekonomická v Praze Fakulta informatiky a statistiky Extrakce informací z webových stránek pomocí extrakčních ontologií Autoreferát k doktorské disertační práci Obor Doktorand Školitel Oponenti

Více

Výstupy ze studia Learning Outcomes v jednotlivých kapitolách předmětu ZMAT2

Výstupy ze studia Learning Outcomes v jednotlivých kapitolách předmětu ZMAT2 PROJEKT REFIMAT Výstupy ze studia Learning Outcomes v jednotlivých kapitolách předmětu ZMAT2 Tatiana Gavalcová, Pavel Pražák, Iva vojkůvková, Jiří Haviger, 25.5.2011, revize říjen 2012 Téma 1: Množiny

Více

VÝPOČETNÍ TECHNIKA A SPECIALIZOVANÉ PROGRAMY PRO PODPORU VAV ČINNOSTÍ II

VÝPOČETNÍ TECHNIKA A SPECIALIZOVANÉ PROGRAMY PRO PODPORU VAV ČINNOSTÍ II VÝPOČETNÍ TECHNIKA A SPECIALIZOVANÉ PROGRAMY PRO PODPORU VAV ČINNOSTÍ II Květoslav Bártek Moravská vysoká škola Olomouc, o. p. s. Olomouc 2010 Projekt Aplikovatelný systém dalšího vzdělávání ve VaV (dále

Více

Vysoká škola ekonomická v Praze

Vysoká škola ekonomická v Praze Vysoká škola ekonomická v Praze Fakulta informatiky a statistiky Katedra informačních technologií Studijní program: Aplikovaná informatika Obor: Informační systémy a technologie Diplomant: Vedoucí diplomové

Více

Školení. Metodik a koordinátor ICT. Studijní průvodce

Školení. Metodik a koordinátor ICT. Studijní průvodce Školení Studijní průvodce Radek Maca, Roman Úlovec Gymnázium Voděradská, Praha 10 Strašnice 2013 Obsah Obsah...2 Úvod...3 Základní cíle vzdělávání:...3 Klíčové cílové kompetence...3 Struktura studia ICTK

Více

Univerzita Pardubice Fakulta ekonomicko-správní. Modelování ekonomických dat. Bc. Michal Bělský

Univerzita Pardubice Fakulta ekonomicko-správní. Modelování ekonomických dat. Bc. Michal Bělský Univerzita Pardubice Fakulta ekonomicko-správní Modelování ekonomických dat Bc. Michal Bělský Diplomová práce 2010 Prohlašuji: Tuto práci jsem vypracoval samostatně. Veškeré literární prameny a informace,

Více

5.1.7 Informatika a výpočetní technika. Časové, obsahové a organizační vymezení. ročník 1. 2. 3. 4. hodinová dotace 2 2 0 0

5.1.7 Informatika a výpočetní technika. Časové, obsahové a organizační vymezení. ročník 1. 2. 3. 4. hodinová dotace 2 2 0 0 5.1.7 Informatika a výpočetní technika Časové, obsahové a organizační vymezení ročník 1. 2. 3. 4. hodinová dotace 2 2 0 0 Realizuje se vzdělávací obor Informatika a výpočetní technika RVP pro gymnázia.

Více

Univerzita Pardubice Fakulta ekonomicko-správní Ústav systémového inženýrství a informatiky

Univerzita Pardubice Fakulta ekonomicko-správní Ústav systémového inženýrství a informatiky Univerzita Pardubice Fakulta ekonomicko-správní Ústav systémového inženýrství a informatiky Modelování dat charakterizujících virtuální server pomocí Kohonenových samoorganizujících se map Bc. Ivana Broklová

Více

Obsah ZÁKLADNÍ INFORMACE...4 OČEKÁVANÉ VĚDOMOSTI A DOVEDNOSTI...5 TÉMATICKÉ OKRUHY...6 TEST 1 ZADÁNÍ...10 TEST 1 TABULKA S BODOVÝM HODNOCENÍM...

Obsah ZÁKLADNÍ INFORMACE...4 OČEKÁVANÉ VĚDOMOSTI A DOVEDNOSTI...5 TÉMATICKÉ OKRUHY...6 TEST 1 ZADÁNÍ...10 TEST 1 TABULKA S BODOVÝM HODNOCENÍM... Obsah ZÁKLADNÍ INFORMACE...4 OČEKÁVANÉ VĚDOMOSTI A DOVEDNOSTI...5 TÉMATICKÉ OKRUHY...6 TEST 1 ZADÁNÍ...10 TEST 1 TABULKA S BODOVÝM HODNOCENÍM... TEST 1 ŘEŠENÍ...5 TEST ZADÁNÍ...40 TEST TABULKA S BODOVÝM

Více

Modelování a návrh datových skladů

Modelování a návrh datových skladů Modelování a návrh datových skladů Doc. Ing. B. Miniberger, CSc. BIVŠ Obsah 1. Přednáška I. Základy modelování datových skladů (DW) 2. Přednáška II. ETL procesy III. Data Mining IV. Kvalita dat a BI Literatura

Více