Vytěžování dat přednáška I
|
|
- Matyáš Tichý
- před 6 lety
- Počet zobrazení:
Transkript
1 České vysoké učení technické v Praze Fakulta elektrotechnická Katedra kybernetiky Katedra počítačů Vytěžování dat přednáška I Úvod do vytěžování dat Filip Železný: zelezny@fel.cvut.cz Pavel Kordík: kordikp@fel.cvut.cz
2 Vytěžování dat (data mining) Fayyad et al: Data Mining je netriviální proces identifikace pravdivých, dosud neznámých, potenciálně využitelných a naprosto srozumitelných vzorů v datech Vzor = obecný princip, souvislost, tvrzení, apod. nalezený v konkrétních datech Vzor reprezentuje znalost Dobývání znalostí z dat (Knowledge Discovery in Data, KDD) Účel: zlepšení rozhodovacích procesů Data mining prakticky: vývoj a využití počítačových algoritmů umožňujících vyhledávat vzory
3 Vytěžování dat neformálně Data Nalezené vzory Má-li vlak 2 vagóny, jede doleva Všechny náklady v jednom vagónu mají stejný tvar...
4 Příklady (reálnějších) vzorů Častá asociace v nákupních košících {pivo, dětské pleny} Implikace IF horečka AND bolest_svalů THEN chřipka Graf
5 Který vzor je lepší? Y X Data (x 1,y 1 ), (x 2,y 2 ),... Vzor 1 Rovnice přímky Vzor 2 Rovnice polynomu Oba vzory platné v zadaných datech. Který z nich je pravdivější? Pravdivost vzorů nelze zaručit.
6 Vytěžování dat Past data miningu: když se dost snažíme, vždy nějaké vzory najdeme V dostupných datech mohou platit jen náhodou Nemusí být skutečně charakteristické pro proces, který data generuje Google define:data Mining : Data mining is the equivalent to sitting a huge number of monkeys down at keyboards, and then reporting on the monkeys who happened to type actual words. Je to tedy k něčemu dobré?!
7 Vytěžování dat PŘÍKLADY APLIKACÍ
8 Rozpoznávání řeči
9 Rozpoznávání obrazu
10 Vyhledávání relevantních informací Information retrieval
11 Predikce řad a signálů Finanční analýzy Meteorologie Biosignály (nejen predikce)...
12 Analýza transakčních dat EAN 1 Název 1 EAN 2 Název 2 EAN 3 Název 3 Výskyty 'MR.MATTES WC NµHRADA CITRON 1X40G' 'MR.MATTES WC NµHRADA LES 1X40G' 'MR.MATTES WC NµHRADA MOüE 1X40G' 'VOUX MíDLO ML KO A MED, 100G' 'VOUX MíDLO S VITAMÖNEM E, 100G' 'VOUX MíDLO ZELENí AJ A CITRON 100G' 'VOUX MíDLO ML KO A MED, 100G' 'VOUX MíDLO S ALOE VERA, 100G' 'VOUX MíDLO ZELENí AJ A CITRON 100G' 'VOUX MíDLO S VITAMÖNEM E, 100G' 'VOUX MíDLO S ALOE VERA, 100G' 'VOUX MíDLO ZELENí AJ A CITRON 100G' 'KOUPELOVµ SUL RELAXA NÖ 70G' 'KOUPELOVµ SUL ZKLIDŐUJÖCÖ 70G' 'KOUPELOVµ SUL ZVLµ ŐUJÖCÖ 70G' 'VOUX MíDLO ML KO A MED, 100G' 'VOUX MíDLO S VITAMÖNEM E, 100G' 'VOUX MíDLO S ALOE VERA, 100G' 'PALMOLIVE MíDLO MILK AND HONEY100G' 'PALMOLIVE MíDLO BÖL-ZVLµ ŐUJÖCÖ 100G' 'PALMOLIVE MíDLO ZELEN -ZVLH UJÖCÖ 100G' 'HAM KOJENECKµ Ví IVA S MERU KAMI 190G' 'HAM KOJENECKµ Ví IVA S BROSKVEMI 190G' 'HAM KOJENECKµ Ví IVA S JOHODAMI 190G' 'TWIGGY ćvestkovµ V JOGURTU 35G' 'TWIGGY BRUSINKOVµ V JOGURT U 31G' 'TWIGGY JAHODOVµ V JOGURTU' 'LARRIN-PLUS FIALOVí 40G N.V.' 'LARRIN-PLUS ZELENí 40G N.V.' 'LARRIN WC PRIM MODRí N.V. 40G' 'HAM KOJENECKµ Ví IVA S MERU KAMI 190G' 'HAM KOJENECKµ Ví IVA S BROSKVEMI 190G' 'HAMKOJENECKµ Ví IVA S HRUćKAMI 190G' 'HAM KOJENECKµ Ví IVA S BROSKVEMI 190G' 'HAM KOJENECKµ Ví IVA S JOHODAMI 190G' 'HAMKOJENECKµ Ví IVA S HRUćKAMI 190G' 2486 'DROXI MINI KR M GEL HONEY&MILK S HYDR.LµTKAMI 'DROXI MINI SG S VIT.E,B5 SPORT&RELAX 35 ML' 'DROXI MINI SG S ES.OLEJI AROMA ANTI STRESS 35 ML' ML' 'KOUPELOVµ SUL ISTÖCÖ 70G' 'KOUPELOVµ SUL ZKLIDŐUJÖCÖ 70G' 'KOUPELOVµ SUL ZVLµ ŐUJÖCÖ 70G' 'DOVE MíDLO EXFOLIATING 100G' 'DOVE MíDLO S OLEJEM 100G' 'DOVE MíDLO 100G' 'SUNµREK MASOZEL. PüÖKRM ZELENINA S VEPüOVíM MASEM' Časté asociace mezi výrobky v nák. košících Segmentace zákazníků 'SUNµREK MASOZEL. PüÖKRM ZELENINA S JEHN ÖM MASEM' 'SUNµREK MASOZEL. PüÖKRM ZELENINA S TELECÖM MASEM 1' 'HAM KOJENECKµ Ví IVA S MERU KAMI 190G' 'HAM KOJENECKµ Ví IVA S JOHODAMI 190G' 'HAMKOJENECKµ Ví IVA S HRUćKAMI 190G' 'KOUPELOVµ SUL ISTÖCÖ 70G' 'KOUPELOVµ SUL RELAXA NÖ 70G' 'KOUPELOVµ SUL ZKLIDŐUJÖCÖ 70G' 'LUX MíDLO S VíTA KY Z RŢ I 90G' 'LUX MíDLO S VíTA KY Z BYLIN 90G' 'LUX MíDLO S MANDLOVíM OLEJEM 90G' 'KOUPELOVµ SUL ISTÖCÖ 70G' 'KOUPELOVµ SUL RELAXA NÖ 70G' 'KOUPELOVµ SUL ZVLµ ŐUJÖCÖ 70G' 'LUX MíDLO S VíTA KY Z OVOCE 90G' 'LUX MíDLO S VíTA KY Z BYLIN 90G' 'LUX MíDLO S MANDLOVíM OLEJEM 90G' 2238
13 Lékařská diagnostika
14 Bioinformatika Objevování funkcí genů
15 Bioinformatika Predikce sekundární struktury bílkovin
16 Bioinformatika Predikce karcinogenity sloučenin
17 Systémy pro doporučení
18 Analýza sociálních sítí Elektronická komunikace LinkedIn, FaceBook,... Citace ve výzkumu Organizovaný zločin Znalostní sítě (Wiki)...
19 K něčemu to tedy dobré je! Data mining prokázal užitečnost ($$$) v mnoha reálných aplikacích. Obor disponuje metodami pro důkladné ověřování a hodnocení výsledků vytěžování. Jejich důsledné využití odlišuje seriózní DM od šarlatánství. I proto tento předmět.
20 Vytěžování dat SOUVISLOSTI S DALŠÍMI OBORY
21 Souvislosti České vysoké učení technické v Praze Fakulta elektrotechnická Strojové učení Katedra kybernetiky Katedra počítačů Vytěžování dat (Data Mining) Vizualizace Statistika Databázové technologie
22 Souvislosti: Strojové učení Obor umělé inteligence Systémy (algoritmy) zlepšující svoji činnost na základě zkušenosti Zkušenost = data Zlepšování činnosti: obvykle pomocí hledání vzorů v datech Podobný cíl s VD, algoritmy SU lze využít Ale rozdíly (srozumitelnost vzorů, datove transformace,...)
23 Souvislosti: Statistika Statistická analýza Odhad statistik (průměr, variance,...) Ověřování hypotéz Staří volí stranu X, mladí stranu Y Potvrují to nasbíraná data? Explorační analýza Člověk vymýšlí a ověřuje množství hypotéz Data mining Počítač vymýšlí a ověřuje množství hypotéz
24 Souvislosti: Vizualizace Vizualizace dat může odhalit hypotézy Často je nutné vizualizovat vzory váha věk
25 Souvislosti: Databáze Většina aplikací data miningu předpokládá vstupní data ve formě relační databáze (PKDD 1999 challenge,
26 Souvislosti: Databáze Vzor může mít podobu relačního databázového dotazu (SQL) SELECT Client.ID FROM Client, Disposition, Account WHEREClient.District = Praha and Client.Client_ID = Disposition.Client_ID ANDAccount.Account_ID = Disposition.Account_ID and Account.Balance > Napr. tento vzor charakterizuje bezproblemove klienty Efektivita DM závisí na schopnosti DB systému rychle vyhodnotit tyto dotazy
27 Souvislosti: Databáze OLAP: Online Analytical Processing Predpocitane odpovedi na caste dotazy do relacni databaze Pro manazersky data mining [obr.: Wiki]
28 Vytěžování dat VYTĚŽOVÁNÍ JAKO PROCES
29 VD: praktické problémy Proč je náročné pracovat s reálnými daty? Data nejsou sbírána jako zdroj trénovacích příkladů, ale především kvůli podnikové dokumentaci a archivaci. Z tohoto hlediska bývá sběr i uložení optimalizováno. Většina času v data miningových projektech je strávena mimo aktivity hledání vzorů (modelování) Téměř vždy opakování cyklu pokus-omyl
30 CRISP cyklus CRoss Industry Standard Process for DM navrženo jako prům. standard konsorciem Evrop. firem ( Zadání Porozumění problematice a datům Příprava dat Vyhodnocení Modelování Použití
31 Vytěžování dat ZÁKLADNÍ POJMY A ÚLOHY
32 Termíny: Model, Vzor, Hypotéza Vzor (Pattern) Formální popis obecného principu v datech Model Vzor (příp. množina vzorů) postačující k řešení definované úlohy modelování dat Extrémní případ: vzor(y) umožňující generovat pozorovaná data ( generativní model ) Hypotéza model/vzor, který lze ověřit/ohodnotit na datech Pozor: fuzzy terminologie. Užití termínů závisí zejména na kontextu.
33 Obvykle kategorie uloh Deskripce (popisné úlohy) Model má charakterizovat vstupní data jako celek Hledání nuggetů Hledáme zajimavé vzory, které se mohou týkat třeba jen malých podmnožin vstupních dat Klasifikace, Regrese, Predikce Jedna veličina V je vybrána jako cílová Modelujeme vliv ostatních veličin na V
34 Deskripce: příklady Shluková analýza (aka: segmentace) příjem věk
35 Deskripce: příklady Modelování pravděpodob. rozdělením
36 Nuggety: příklady Asociace {pivo, párky, horčice} Asociační pravidla {párky, horčice} -> {pivo} Odlehlé instance (outlier detection)
37 Klasifikace: priklady Cilový atribut ma konečnou množinu hodnot Příklad: data: tabulka pacientů Cilový atribut infarkt, hodnoty z {ano, ne} Klasifikátor: IF váha>100 and věk > 50 THEN infarkt-ano Tento klasifikator je symbolický -> čitelný člověkem
38 Klasifikace: priklady Priklad nesymbolického klasifikátoru Neuronova síť s dopředným řetezením
39 Regrese a Predikce Regrese Jako klasifikace, ale cílová veličina reálné číslo Příklad regresoru brzdná_dráha = c * hmotnost * rychlost Predikce Klasifikační i regresní modely mohou být využity pro předpověď hodnoty cílové veličiny Z ostatních veličin a/nebo z hodnot cílové veličiny v minulosti Časové rady
40 To nejdůležitější teprve přijde! Jak modely/vzory hledat/konstruovat? Jak je hodnotit, tj. Jak odhadovat jejich kvalitu? Jak definovat jejich kvalitu?
41 Literatura
Katedra kybernetiky laboratoř Inteligentní Datové Analýzy (IDA) Katedra počítačů, Computational Intelligence Group
Vytěžování dat Miroslav Čepek, Filip Železný Katedra kybernetiky laboratoř Inteligentní Datové Analýzy (IDA) Katedra počítačů, Computational Intelligence Group Evropský sociální fond Praha & EU: Investujeme
Získávání dat z databází 1 DMINA 2010
Získávání dat z databází 1 DMINA 2010 Získávání dat z databází Motto Kde je moudrost? Ztracena ve znalostech. Kde jsou znalosti? Ztraceny v informacích. Kde jsou informace? Ztraceny v datech. Kde jsou
ZÍSKÁVÁNÍ ZNALOSTÍ Z DATABÁZÍ
Metodický list č. 1 Dobývání znalostí z databází Cílem tohoto tematického celku je vysvětlení základních pojmů z oblasti dobývání znalostí z databází i východisek dobývání znalostí z databází inspirovaných
Ing. Petr Hájek, Ph.D. Podpora přednášky kurzu Aplikace umělé inteligence
APLIKACE UMĚLÉ INTELIGENCE Ing. Petr Hájek, Ph.D. Podpora přednášky kurzu Aplikace umělé inteligence Aplikace umělé inteligence - seminář ING. PETR HÁJEK, PH.D. ÚSTAV SYSTÉMOVÉHO INŽENÝRSTVÍ A INFORMATIKY
DOBÝVÁNÍ ZNALOSTÍ Z DATABÁZÍ
DOBÝVÁNÍ ZNALOSTÍ Z DATABÁZÍ Úvod a oblasti aplikací Martin Plchút plchut@e-globals.net DEFINICE A POJMY Netriviální extrakce implicitních, ch, dříve d neznámých a potenciáln lně užitečných informací z
ZÍSKÁVÁNÍ ZNALOSTÍ Z DATABÁZÍ
metodický list č. 1 Dobývání znalostí z databází Cílem tohoto tematického celku je vysvětlení základních pojmů z oblasti dobývání znalostí z databází i východisek dobývání znalostí z databází inspirovaných
Základy vytěžování dat
Základy vytěžování dat předmět A7Bb36vyd Vytěžování dat Filip Železný, Miroslav Čepek, Radomír Černoch, Jan Hrdlička katedra kybernetiky a katedra počítačů ČVUT v Praze, FEL Evropský sociální fond Praha
Dobývání a vizualizace znalostí
Dobývání a vizualizace znalostí Olga Štěpánková, Lenka Vysloužilová, et al. https://cw.fel.cvut.cz/wiki/courses/a6m33dvz/start 1 Osnova přednášky Úvod: data, objem, reprezentace a základní terminologie
Dobývání a vizualizace znalostí. Olga Štěpánková et al.
Dobývání a vizualizace znalostí Olga Štěpánková et al. 1 Osnova předmětu Dobývání znalostí - popis a metodika procesu CRISP a objasnění základních pojmů Nástroje pro modelování klasifikovaných dat a jejich
Dobývání a vizualizace znalostí
Dobývání a vizualizace znalostí Olga Štěpánková et al. 1 Osnova předmětu 1. Dobývání znalostí - popis a metodika procesu a objasnění základních pojmů 2. Nástroje pro modelování klasifikovaných dat a jejich
Dobývání a vizualizace znalostí
Dobývání a vizualizace znalostí Olga Štěpánková et al. 1 Osnova předmětu 1. Dobývání znalostí - popis a metodika procesu a objasnění základních pojmů 2. Nástroje pro modelování klasifikovaných dat a jejich
Profitabilita klienta v kontextu Performance management
IBM Technical specialist team Pre Sale 26/10/2010 Profitabilita klienta v kontextu Performance management Co všechno řadíme do PM? Automatická data Běžný reporting Pokročilé statistické modely Včera What
Získávání znalostí z dat
Získávání znalostí z dat Informační a komunikační technologie ve zdravotnictví Získávání znalostí z dat Definice: proces netriviálního získávání implicitní, dříve neznámé a potencionálně užitečné informace
Moderní systémy pro získávání znalostí z informací a dat
Moderní systémy pro získávání znalostí z informací a dat Jan Žižka IBA Institut biostatistiky a analýz PřF & LF, Masarykova universita Kamenice 126/3, 625 00 Brno Email: zizka@iba.muni.cz Bioinformatika:
Dobývání znalostí. Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze
Dobývání znalostí Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze Dobývání znalostí Úvod do problematiky Doc. RNDr. Iveta Mrázová,
METODY DOLOVÁNÍ V DATECH DATOVÉ SKLADY TEREZA HYNČICOVÁ H2IGE1
METODY DOLOVÁNÍ V DATECH DATOVÉ SKLADY TEREZA HYNČICOVÁ H2IGE1 DOLOVÁNÍ V DATECH (DATA MINING) OBJEVUJE SE JIŽ OD 60. LET 20. ST. S ROZVOJEM POČÍTAČOVÉ TECHNIKY DEFINICE PROCES VÝBĚRU, PROHLEDÁVÁNÍ A MODELOVÁNÍ
Využití metod strojového učení v bioinformatice David Hoksza
Využití metod strojového učení v bioinformatice David Hoksza SIRET Research Group Katedra softwarového inženýrství, Matematicko-fyzikální fakulta Karlova Univerzita v Praze Bioinformatika Biologické inspirace
Získávání znalostí z databází. Alois Kužela
Získávání znalostí z databází Alois Kužela Obsah související pojmy datové sklady, získávání znalostí asocianí pravidla 2/37 Úvod získávání znalostí z dat, dolování (z) dat, data mining proces netriviálního
Obsah. Seznam obrázků. Seznam tabulek. Petr Berka, 2011
Petr Berka, 2011 Obsah... 1... 1 1 Obsah 1... 1 Dobývání znalostí z databází 1 Dobývání znalostí z databází O dobývání znalostí z databází (Knowledge Discovery in Databases, KDD) se začíná ve vědeckých
Segmentace bankovních zákazníků algoritmem k- means
Segmentace bankovních zákazníků algoritmem k- means LS 2014/2015 Michal Heřmanský xherm22 Obsah 1 Úvod... 3 1.1 CRISP- DM... 3 2 Porozumění problematice a datům... 4 3 Příprava dat... 5 4 Modelování...
znalostí z databází- mnohostranná interpretace dat
Dobývání znalostí z databází- mnohostranná interpretace dat Petr Berka VŠE Praha berka@vse vse.cz Dobývání znalostí z databází Non-trivial process of identifying valid, novel, potentially useful and ultimately
BA_EM Electronic Marketing. Pavel
BA_EM Electronic Marketing Pavel Kotyza @VŠFS Agenda Efektivní data mining jako zdroj relevantních dat o potřebách zákazníků Co je data mining? Je absolutní Je předem neznámý Je užitečný Co jsou data?
Dobývání znalostí z databází
Dobývání znalostí z databází (Knowledge Discovery in Databases, Data Mining,..., Knowledge Destilery,...) Non-trivial process of identifying valid, novel, potentially useful and ultimately understandable
Algoritmy a struktury neuropočítačů ASN - P10. Aplikace UNS v biomedicíně
Aplikace UNS v biomedicíně aplikace v medicíně postup při zpracování úloh Aplikace UNS v medicíně Důvod: nalezení exaktnějších, levnějších a snadnějších metod určování diagnóz pro lékaře nalezení šetrnějších
Základy business intelligence. Jaroslav Šmarda
Základy business intelligence Jaroslav Šmarda Základy business intelligence Business intelligence Datový sklad On-line Analytical Processing (OLAP) Kontingenční tabulky v MS Excelu jako příklad OLAP Dolování
Uživatelská podpora v prostředí WWW
Uživatelská podpora v prostředí WWW Jiří Jelínek Katedra managementu informací Fakulta managementu Jindřichův Hradec Vysoká škola ekonomická Praha Úvod WWW obsáhlost obsahová i formátová pestrost dokumenty,
Katedra kybernetiky skupina Inteligentní Datové Analýzy (IDA) 9. ledna 2017
Vytěžování dat Filip Železný Katedra kybernetiky skupina Inteligentní Datové Analýzy (IDA) 9. ledna 2017 Rozhodovací pravidla Strom lze převést na seznam pravidel ve tvaru if podmínky then třída if teplota=horečka
Dolování asociačních pravidel
Dolování asociačních pravidel Miloš Trávníček UIFS FIT VUT v Brně Obsah přednášky 1. Proces získávání znalostí 2. Asociační pravidla 3. Dolování asociačních pravidel 4. Algoritmy pro dolování asociačních
Ontologie. Otakar Trunda
Ontologie Otakar Trunda Definice Mnoho různých definic: Formální specifikace sdílené konceptualizace Hierarchicky strukturovaná množina termínů popisujících určitou věcnou oblast Strukturovaná slovní zásoba
1. Data mining. Strojové učení. Základní úlohy.
1... Základní úlohy. Učení s učitelem a bez učitele. Petr Pošík Katedra kybernetiky ČVUT FEL P. Pošík c 2010 Aplikace umělé inteligence 1 / 36 Obsah P. Pošík c 2010 Aplikace umělé inteligence 2 / 36 Co
1. Dobývání znalostí z databází
1. Dobývání znalostí z databází O dobývání znalostí z databází (Knowledge Discovery in Databases, KDD) se začíná ve vědeckých kruzích mluvit počátkem 90. let. První impuls přišel z Ameriky, kde se na konferencích
Spark SQL, Spark Streaming. Jan Hučín
Spark SQL, Spark Streaming Jan Hučín 22. listopadu 2017 Osnova 1. Spark SQL 2. Další rozšíření Sparku Spark streaming GraphX Spark ML 2 Spark SQL Spark SQL a DataFrames (DataSets) Rozšíření k tradičnímu
UČENÍ BEZ UČITELE. Václav Hlaváč
UČENÍ BEZ UČITELE Václav Hlaváč Fakulta elektrotechnická ČVUT v Praze katedra kybernetiky, Centrum strojového vnímání hlavac@fel.cvut.cz, http://cmp.felk.cvut.cz/~hlavac 1/22 OBSAH PŘEDNÁŠKY ÚVOD Učení
Business Intelligence. Adam Trčka
Business Intelligence Adam Trčka 09:00 11:30: BI v kostce Navrhněme si sklad Ukázka BI Datamining 12:30 14:30: Pokračování kurzu 14:30 15:00: Q&A Agenda Co se dnes dovíme? Data informace znalost Business
Analytické procedury v systému LISp-Miner
Dobývání znalostí z databází MI-KDD ZS 2011 Přednáška 8 Analytické procedury v systému LISp-Miner Část II. (c) 2011 Ing. M. Šimůnek, Ph.D. KIZI, Fakulta informatiky a statistiky, VŠE Praha Evropský sociální
Spark SQL, Spark Streaming. Jan Hučín
Spark SQL, Spark Streaming Jan Hučín 21. listopadu 2018 Osnova 1. Spark SQL 2. Další rozšíření Sparku Spark streaming GraphX Spark ML 2 Spark SQL Spark SQL a DataFrames (DataSets) Rozšíření k tradičnímu
Surfujte v business analýze jako profík. Naučíme Vás podpořit klíčová rozhodnutí firmy.
Surfujte v business analýze jako profík Naučíme Vás podpořit klíčová rozhodnutí firmy. Intuice nestačí S čím Vám pomůžeme? Firmy čelí narůstající záplavě dat, posilují své analytické schopnosti a hledají
Algoritmy a struktury neuropočítačů ASN P9 SVM Support vector machines Support vector networks (Algoritmus podpůrných vektorů)
Algoritmy a struktury neuropočítačů ASN P9 SVM Support vector machines Support vector networks (Algoritmus podpůrných vektorů) Autor: Vladimir Vapnik Vapnik, V. The Nature of Statistical Learning Theory.
Katedra kybernetiky skupina Inteligentní Datové Analýzy (IDA) 9. dubna 2009. Filip Železný (ČVUT) Vytěžování dat 9.
Vytěžování dat Filip Železný Katedra kybernetiky skupina Inteligentní Datové Analýzy (IDA) 9. dubna 2009 Filip Železný (ČVUT) Vytěžování dat 9. dubna 2009 1 / 22 Rozhodovací pravidla Strom lze převést
Dobývání znalostí. Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze
Dobývání znalostí Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze Dobývání znalostí Bayesovské modely Doc. RNDr. Iveta Mrázová, CSc.
ANALÝZA NÁKUPNÍHO KOŠÍKU SEMINÁŘ
ANALÝZA NÁKUPNÍHO KOŠÍKU SEMINÁŘ 18.11.2012 Radim Tvardek, Petr Bulava, Daniel Mašek U&SLUNO a.s. I Sadová 28 I 702 00 Ostrava I Czech Republic PŘEDPOKLADY PRO ANALÝZU NÁKUPNÍHO KOŠÍKU 18.11.2012 Daniel
AVDAT Mnohorozměrné metody, metody klasifikace
AVDAT Mnohorozměrné metody, metody klasifikace Josef Tvrdík Katedra informatiky Přírodovědecká fakulta Ostravská univerzita Mnohorozměrné metody Regrese jedna náhodná veličina je vysvětlována pomocí jiných
StatSoft Úvod do data miningu
StatSoft Úvod do data miningu Tento článek je úvodním povídáním o data miningu, jeho vzniku, účelu a využití. Historie data miningu Rozvoj počítačů, výpočetní techniky a zavedení elektronického sběru dat
Úvodem Dříve les než stromy 3 Operace s maticemi
Obsah 1 Úvodem 13 2 Dříve les než stromy 17 2.1 Nejednoznačnost terminologie 17 2.2 Volba metody analýzy dat 23 2.3 Přehled vybraných vícerozměrných metod 25 2.3.1 Metoda hlavních komponent 26 2.3.2 Faktorová
Obsah. Kapitola 1. Kapitola 2. Kapitola 3. Úvod 9
Obsah Úvod 9 Kapitola 1 Business Intelligence, datové sklady 11 Přechod od transakčních databází k analytickým..................... 13 Kvalita údajů pro analýzy................................................
Katedra kybernetiky, FEL, ČVUT v Praze.
Strojové učení a dolování dat přehled Jiří Kléma Katedra kybernetiky, FEL, ČVUT v Praze http://ida.felk.cvut.cz posnova přednášek Přednáška Učitel Obsah 1. J. Kléma Úvod do předmětu, učení s a bez učitele.
Jakub Klímek Zlín
Jakub Klímek 16.3.2011 Zlín Hlavní zbraň SoSiReČR To, čím se portál odlišuje od tradičních sociálních sítí Facebook LinkedIn 16.3.2011 Jakub Klímek - Odborné profily SoSiReČR 2 Popis entit v rámci portálu
Datový sklad. Datový sklad
Datový sklad Postavení v rámci IS/ICT Specifika návrhu Modelování Datový sklad POSTAVENÍ NÁVRH Postavení datového skladu (DW) v IS/ICT z hlediska aplikací jako součást Business Intelligence z hlediska
Trendy v IS/ICT přístupy k návrhu multidimenzionální modelování
Trendy v IS/ICT přístupy k návrhu multidimenzionální modelování Aplikace IS/ICT BI SCM e-business ERP ERP CRM II e-business Aplikace pro podporu základních řídících a administrativních operací 1 Informační
Marketingová komunikace. 2. a 3. soustředění. Mgr. Pavel Vávra 9103@mail.vsfs.cz. Kombinované studium Skupina N9KMK3PH (vm3aph)
Marketingová komunikace Kombinované studium Skupina N9KMK3PH (vm3aph) 2. a 3. soustředění Mgr. Pavel Vávra 9103@mail.vsfs.cz http://vavra.webzdarma.cz/home/index.htm Co nás čeká: 2. soustředění 16.1.2009
Dolování z textu. Martin Vítek
Dolování z textu Martin Vítek Proč dolovat z textu Obrovské množství materiálu v nestrukturované textové podobě knihy časopisy vědeckéčlánky sborníky konferencí internetové diskuse Proč dolovat z textu
Kritéria hodnocení praktické maturitní zkoušky z databázových systémů
Kritéria hodnocení praktické maturitní zkoušky z databázových systémů Otázka č. 1 Datový model 1. Správně navržený ERD model dle zadání max. 40 bodů teoretické znalosti konceptuálního modelování správné
RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr.
Analýza dat pro Neurovědy RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr. Jaro 2014 Institut biostatistiky Janoušová, a analýz Dušek: Analýza dat pro neurovědy Blok 7 Jak hodnotit vztah spojitých proměnných
Datová věda (Data Science) akademický navazující magisterský program
Datová věda () akademický navazující magisterský program Reaguje na potřebu, kterou vyvolala rychle rostoucí produkce komplexních, obvykle rozsáhlých dat ve vědě, v průmyslu a obecně v hospodářských činnostech.
Databáze Bc. Veronika Tomsová
Databáze Bc. Veronika Tomsová Databázové schéma Mapování konceptuálního modelu do (relačního) databázového schématu. 2/21 Fyzické ik schéma databáze Určuje č jakým způsobem ů jsou data v databázi ukládána
Vytěžování znalostí z dat
Pavel Kordík, Josef Borkovec (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 8 1/26 Vytěžování znalostí z dat Pavel Kordík, Josef Borkovec Department of Computer Systems Faculty of Information
Základy umělé inteligence
Základy umělé inteligence Úvod Základy umělé inteligence - úvod. Vlasta Radová, ZČU, katedra kybernetiky 1 Zavedení pojmu umělá inteligence Inteligence je schopnost získávat a aplikovat vědomosti a tedy
Využití strojového učení k identifikaci protein-ligand aktivních míst
Využití strojového učení k identifikaci protein-ligand aktivních míst David Hoksza, Radoslav Krivák SIRET Research Group Katedra softwarového inženýrství, Matematicko-fyzikální fakulta Karlova Univerzita
VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ BRNO UNIVERSITY OF TECHNOLOGY
VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ BRNO UNIVERSITY OF TECHNOLOGY FAKULTA INFORMAČNÍCH TECHNOLOGIÍ ÚSTAV INFORMAČNÍCH SYSTÉMŮ FACULTY OF INFORMATION TECHNOLOGY DEPARTMENT OF INFORMATION SYSTEMS ZÍSKÁVÁNÍ ZNALOSTÍ
Informační systémy 2006/2007
13 Vysoká škola báňská Technická univerzita Ostrava Fakulta strojní, Katedra automatizační techniky a řízení Informační systémy 2006/2007 Ivan Kedroň 1 Obsah Analytické nástroje SQL serveru. OLAP analýza
Dobývání znalostí z webu web mining
Dobývání znalostí z webu web mining Web Mining is is the application of data mining techniques to discover patterns from the Web (Wikipedia) Tři oblasti: Web content mining (web jako kolekce dokumentů)
Předzpracování dat. Lenka Vysloužilová
Předzpracování dat Lenka Vysloužilová 1 Metodika CRISP-DM (www.crisp-dm.org) Příprava dat Data Preparation příprava dat pro modelování selekce příznaků výběr relevantních příznaků čištění dat získávání
Diagnostika regrese pomocí grafu 7krát jinak
StatSoft Diagnostika regrese pomocí grafu 7krát jinak V tomto článečku si uděláme exkurzi do teorie regresní analýzy a detailně se podíváme na jeden jediný diagnostický graf. Jedná se o graf Předpovědi
Vysoká škola báňská Technická univerzita Ostrava METODY ANALÝZY DAT. Učební text. Jana Šarmanová
Vysoká škola báňská Technická univerzita Ostrava METODY ANALÝZY DAT Učební text Jana Šarmanová Ostrava 2012 Recenze: prof. RNDr. Alena Lukasová, CSc. Název: Metody analýzy dat Autor: Jana Šarmanová Vydání:
Marketingová komunikace. 3. soustředění. Mgr. Pavel Vávra 9103@mail.vsfs.cz. Kombinované studium Skupina N9KMK3PH (vm3bph)
Marketingová komunikace Kombinované studium Skupina N9KMK3PH (vm3bph) 3. soustředění Mgr. Pavel Vávra 9103@mail.vsfs.cz http://vavra.webzdarma.cz/home/index.htm Zdroje Studijní materiály Heleny Palovské
Big Data Science Petr Paščenko
Big Data Science Petr Paščenko 18. 4. 2017 Osnova 1. Co je Data Science 2. Statistika 3. Strojové učení 4. Vizualizace dat 5. Data Science úlohy 6. Metodika Data Science Projektu 7. Role Big Dat v Data
Učící se klasifikátory obrazu v průmyslu
Učící se klasifikátory obrazu v průmyslu FCC průmyslové systémy s.r.o. FCC průmyslové systémy je technicko obchodní společností, působící v oblasti průmyslové automatizace. Tvoří ji dvě základní divize:
IDENTIFIKACE AUTOMATICKÝCH PŘÍSTUPŮ INTERNETOVÝCH OBCHODŮ S VYUŽÍTÍM METOD WEB USAGE MININGU
IDENTIFIKACE AUTOMATICKÝCH PŘÍSTUPŮ INTERNETOVÝCH OBCHODŮ S VYUŽÍTÍM METOD WEB USAGE MININGU Jana Filipová, Karel Michálek, Pavel Petr Ústav systémového inženýrství a informatiky, Fakulta ekonomicko-správní,
Hledání prostorových asociačních pravidel v prostorových databázích. Discovery of Spatial Association Rules in Geographic Information Databases
Hledání prostorových asociačních pravidel v prostorových databázích Lukáš Janák Zdroj: Discovery of Spatial Association Rules in Geographic Information Databases Krzysztof Koperski, Jiawei Han Simon Fraser
GRR. získávání znalostí v geografických datech Autoři. Knowledge Discovery Group Faculty of Informatics Masaryk Univerzity Brno, Czech Republic
GRR získávání znalostí v geografických datech Autoři Knowledge Discovery Group Faculty of Informatics Masaryk Univerzity Brno, Czech Republic GRR cílet 2 GRR - Popis systému - cíle systém pro dolování
Univerzita Pardubice Fakulta ekonomicko-správní Ústav systémového inženýrství a informatiky. Regresní úlohy pro Data Mining.
Univerzita Pardubice Fakulta ekonomicko-správní Ústav systémového inženýrství a informatiky Regresní úlohy pro Data Mining Josef Rubáš Bakalářská práce 2013 PROHLÁŠENÍ Prohlašuji, že jsem tuto práci
Kybernetika a umělá inteligence, cvičení 10/11
Kybernetika a umělá inteligence, cvičení 10/11 Program 1. seminární cvičení: základní typy klasifikátorů a jejich princip 2. počítačové cvičení: procvičení na problému rozpoznávání číslic... body za aktivitu
Vybrané partie použity s laskavým svolením Mgr. Martina Řezáče, Ph.D.
Vybrané partie použity s laskavým svolením Mgr. Martina Řezáče, Ph.D. M8DM1 Data mining I - informace Přednášky: metodologie data miningu Cvičení: použití metod v SASu Podmínky cvičení: Pravidelná aktivní
Umělá inteligence a rozpoznávání
Václav Matoušek KIV e-mail: matousek@kiv.zcu.cz 0-1 Sylabus předmětu: Datum Náplň přednášky 11. 2. Úvod, historie a vývoj UI, základní problémové oblasti a typy úloh, aplikace UI, příklady inteligentních
Následující text je součástí učebních textů předmětu Bi0034 Analýza a klasifikace dat a je určen
11. Klasifikace V této kapitole se seznámíme s účelem, principy a jednotlivými metodami klasifikace dat, jež tvoří samostatnou rozsáhlou oblast analýzy dat. Klasifikace umožňuje určit, do které skupiny
K možnostem krátkodobé předpovědi úrovně znečištění ovzduší statistickými metodami. Josef Keder
K možnostem krátkodobé předpovědi úrovně znečištění ovzduší statistickými metodami Josef Keder Motivace Předpověď budoucí úrovně znečištění ovzduší s předstihem v řádu alespoň několika hodin má význam
PowerOPTI Řízení účinnosti tepelného cyklu
PowerOPTI Řízení účinnosti tepelného cyklu VIZE Zvýšit konkurenceschopnost provozovatelů elektráren a tepláren. Základní funkce: Spolehlivé hodnocení a řízení účinnosti tepelného cyklu, včasná diagnostika
NÁSTROJE BUSINESS INTELLIGENCE
NÁSTROJE BUSINESS INTELLIGENCE Milena Tvrdíková VŠB Technická univerzita Ostrava, Ekonomická fakulta, Katedra informatiky v ekonomice, Sokolská 33, 701021 Ostrava1, ČR, milena.tvrdikova@vsb.cz Abstrakt
Big data ukážou mapu, TOVEK řekne kudy jít
Řešení pro Competitive Intelligence Big data ukážou mapu, TOVEK řekne kudy jít Tomáš Vejlupek President Tovek 6.11.2015, VŠE Praha TOVEK, spol. s r.o. Výsledek zpracování BIG DATA Jaké cesty k cíli mohu
9. Dobývání znalostí v praxi
9. Dobývání znalostí v praxi 9.1 Příklad úlohy Na závěr knihy se opět vraťme k příkladu zmíněném v první kapitole. Vodítkem při dobývání znalostí nám bude metodologie CRISP-DM. 9.1.1 Porozumění problematice
Projekční algoritmus. Urychlení evolučních algoritmů pomocí regresních stromů a jejich zobecnění. Jan Klíma
Urychlení evolučních algoritmů pomocí regresních stromů a jejich zobecnění Jan Klíma Obsah Motivace & cíle práce Evoluční algoritmy Náhradní modelování Stromové regresní metody Implementace a výsledky
Magisterský program Biomedicínské inženýrství a informatika na ČVUT FEL Praha
České vysoké učení technické v Praze Fakulta elektrotechnická Magisterský program Biomedicínské inženýrství a informatika na ČVUT FEL Praha Olga Štěpánková, Lenka Lhotská Filip Železný, Jan Havlík Katedra
Datové modelování II
Datové modelování II Atributy Převod DM do schématu SŘBD Dotazovací jazyk SQL Multidimenzionální modelování Principy Doc. Miniberger, BIVŠ Atributy Atributem entity budeme rozumět název záznamu či informace,
Dobývání znalostí z textů text mining
Dobývání znalostí z textů text mining Text mining - data mining na nestrukturovaných textových dokumentech 2 možné přístupy: Předzpracování dat + běžné algoritmy pro data mining Speciální algoritmy pro
odlehlých hodnot pomocí algoritmu k-means
Chybějící a odlehlé hodnoty; odstranění odlehlých hodnot pomocí algoritmu k-means Návod ke druhému cvičení Matěj Holec, holecmat@fel.cvut.cz ZS 2011/2012 Úvod Cílem cvičení je připomenout důležitost předzpracování
Dobývání znalostí z databází. Databáze. datum jmeno prijmeni adresa_ulice adresa_mesto cislo_uctu platba zustatek
Databáze datum jmeno prijmeni adresa_ulice adresa_mesto cislo_uctu platba zustatek 980103 Jan Novak Dlouha 5 Praha 1 9945371 100.00 100.00 980105 Jan Novak Dlouha 5 Praha 1 9945371 1500.00 1600.00 980106
4IT218 Databáze. 4IT218 Databáze
4IT218 Databáze Osmá přednáška Dušan Chlapek (katedra informačních technologií, VŠE Praha) 4IT218 Databáze Osmá přednáška Normalizace dat - dokončení Transakce v databázovém zpracování Program přednášek
Business Intelligence
Business Intelligence Skorkovský KAMI, ESF MU Principy BI zpracování velkých objemů dat tak, aby výsledek této akce manažerům pomohl k rozhodování při řízení procesů výsledkem zpracování musí být relevantní
STRUČNÝ PRŮVODCE ANALYTICKÝM PROCESEM
SPOLEČNOST ACREA Váš dlouholetý partner v oblasti analýzy dat - od dodání softwaru, přes řešení analytických úkolů, až po výuku statistických a dataminingových metod. STRUČNÝ PRŮVODCE ANALYTICKÝM PROCESEM
UNIVERZITA PARDUBICE KLASIFIKAČNÍ ÚLOHY PRO DATA MINING. Fakulta ekonomicko-správní Ústav systémového inženýrství a informatiky.
UNIVERZITA PARDUBICE Fakulta ekonomicko-správní Ústav systémového inženýrství a informatiky KLASIFIKAČNÍ ÚLOHY PRO DATA MINING Petra Jandová Bakalářská práce 2013 PROHLÁŠENÍ Prohlašuji, že jsem tuto
Kritéria hodnocení praktické maturitní zkoušky z databázových systémů
Kritéria hodnocení praktické maturitní zkoušky z databázových systémů Otázka č. 1 Datový model 1. Správně navržený ERD model dle zadání max. 40 bodů teoretické znalosti konceptuálního modelování správné
Strojové učení Marta Vomlelová
Strojové učení Marta Vomlelová marta@ktiml.mff.cuni.cz KTIML, S303 Literatura 1.T. Hastie, R. Tishirani, and J. Friedman. The Elements of Statistical Learning, Data Mining, Inference and Prediction. Springer
Fiala P., Karhan P., Ptáček J. Oddělení lékařské fyziky a radiační ochrany Fakultní nemocnice Olomouc
Neuronové sítě a možnosti jejich využití Fiala P., Karhan P., Ptáček J. Oddělení lékařské fyziky a radiační ochrany Fakultní nemocnice Olomouc 1. Biologický neuron Osnova 2. Neuronové sítě Umělý neuron
DATABÁZOVÉ SYSTÉMY. Metodický list č. 1
Metodický list č. 1 Cíl: Cílem předmětu je získat přehled o možnostech a principech databázového zpracování, získat v tomto směru znalosti potřebné pro informačního manažera. Databázové systémy, databázové
Business Intelligence
Business Intelligence Vladimíra Zádová Katedra informatiky vladimira.zadova@tul.cz 3.patro, kl.2389 Východiska = příčiny vzniku BI Globalizace Rozvoj technologií ICT (informační a komunikační technologie)
Chybějící atributy a postupy pro jejich náhradu
Chybějící atributy a postupy pro jejich náhradu Jedná se o součást čištění dat Čistota dat je velmi důležitá, neboť kvalita dat zásadně ovlivňuje kvalitu výsledků, které DM vyprodukuje, neboť platí Garbage
Multidimenzionální pohled na zdravotnické prostředí. INMED Petr Tůma
Multidimenzionální pohled na zdravotnické prostředí INMED - 21.11.2003 Petr Tůma Koncepce multid pohledu Poskytování péče probíhá v multidimenzionálním světě; dimenze tento svět mapují podobně jako souřadnice
Klasifikace a rozpoznávání. Lineární klasifikátory
Klasifikace a rozpoznávání Lineární klasifikátory Opakování - Skalární součin x = x1 x 2 w = w T x = w 1 w 2 x 1 x 2 w1 w 2 = w 1 x 1 + w 2 x 2 x. w w T x w Lineární klasifikátor y(x) = w T x + w 0 Vyber
Inovační vouchery s Univerzitou Hradec Králové. doc. Ing. Mgr. Petra Marešová, Ph.D. Ing. Richard Cimler
Inovační vouchery s Univerzitou Hradec Králové doc. Ing. Mgr. Petra Marešová, Ph.D. Ing. Richard Cimler Úvod Hlavní směry výzkumu: = Informační technologie = Bioinformatika = Ekonomika a management = Vzdělávání
Datové sklady ve školství
Datové sklady ve školství aneb evaluace procesu výuky jinak Jana Šarmanová Obsah Business Intelligence a školní výuka Databáze a datové sklady Analýza datového skladu Studie DS pro studijní agendu VŠ Studie