Stále větší množství dat uložených v databázích Neustále generujeme data Obchodní a bankovní transakce
|
|
- Vít Slavík
- před 8 lety
- Počet zobrazení:
Transkript
1 Stále větší mžství dat uložených v databázích Neustále generujeme data Obchodní a bankovní transakce Biologická, astromická data atd Ukládáme stále více dat Úvod do problematiky Databázové techlogie jsou stále rychlejší a levnější Databázové systémy jsou schopny pracovat se stále rozsáhlejšími daty Data jsou stále rozsáhlejší, ale vyvodit z nich užitečné závěry je stále složitější Velké mžství nákupů v supermarketech Miliony hovorů denně u telekomunikačních operátorů Netriviální proces identifikace Smysl: Dát uloženým datům význam Data Mining Hledání zcela vých vzorů, znalostí, které v datech nejsou explicitně uvedeny Znalostí je dosahová pomocí sofistikovaných algoritmů OLAP Soubor operací (drill-down, roll-up ) poskytující různé pohledy na data Výsledků je dosahová pomocí sumačních a předdefivaných operací Zavedení pojmu: 1991 Frawley Definice vých, platných, potenciálně použitelných a snad pochopitelných vzorů v datech Zahrnuje poznatky z několika oborů matematiky a informatiky OLAP Multidimenzionální datové kostky Interaktivní analýza Data Mining Předzpracovaná data Získané zajímavé znalosti Spuštění nástroje pro Data mining
2 OLAP Data Mining Motivace použití Co se děje v podniku? Predikce budoucsti, skryté znalosti Granularita dat Sumační data Data na úrovni záznamu Počet obchodních dimenzí Omezený počet dimenzí Velký (až nekonečný) počet dimenzí Počet vstupních atributů Spíše velmi nízký počet atributů Mho atributů Velikost dat pro jednu dimenzi Ne velká pro každou dimenzi Obvykle velmi rozsáhlá pro každou dimenzi Umělá inteligence Vlastst OLAP Data Mining Přístup k analýze Řízený uživatelem, interaktivní analýza Autma Aut matický, tický, řízený daty Techniky analýzy Multidimenzionální, drilldrilldown, sliceslice-and and--dice Příprava dat, použití nástrojů pro získávání znalostí Stav techlogie Známý a rozsáhle využívaný Stále se vyvíjející, některé metody jsou již využívané v praxi Výsledné vzory (pravidla) Vizualizace Stavení cílů Výběrr dat Vlastst Data Mining, získávání znalostí z dat Databázové systémy Statistika End User Decision Making Data Presentation Visualization Techniques Pochopení DB (Datový sklad) ZNALOST Vstupní data Increasing potential to support business decisions Prezentace znalostí Business Analyst Data Mining Information Discovery Data Analyst Data Exploration Statistical Summary, Querying, and Reporting Data Preprocessing/Integration, Data Warehouses Data Sources Paper, Files, Web documents, Scientific experiments, Database Systems DBA
3 Stavení cílů Jaký typ znalosti chceme nalézt? Nad jakými daty budeme proces získávání znalostí provádět? Je problém řešitelný? Budou získané výsledky užitečné v praxi? V jakém tvaru a formě chceme výsledky získávání znalostí zobrazit? Jsou naše data vhodná pro dau dolovací metodu vhodná? Výběr zdrojů dat Výběr zdrojů dat Typy dat pro data mining z hlediska zaměření Demografická data (charakteristika osob - pohlaví, věk, vzdělání) jsou levná, ale často neúplná Behaviorální data (nákupy, prodeje atd.) jsou dražší, ale z hlediska data miningu nejcennější Psychografická data (typicky získaná průzkumem veřejného mínění) pomáhají při analýze chování zákazníka Typy databází z hlediska obsahu Výběr zdrojů dat Typy dat z hlediska formátu Zákaznické databáze údaje o zákazníka, případně o jeho aktivitách Transakční databáze údaje o aktivitách zákazníků (většiu anymních) Databáze historie nabídek databáze o oslovování zákazníků kampaněmi Datový sklad Relační a transakční databáze Objektově-orientované databáze Multimediální databáze WWW Textové dokumenty Prostorová, časová data Externí data Proč předzpracování? Objemné databáze je potřeba vybrat relevantní data Nesprávná, nekonzistentní data, chybějící hodty Zvýší efektivitu a usnadní proces získávání znalostí Položky obsahující neúplné hodty Zanedbání záznamu, doplnění průměru hodtou nebo konstantou unkwn, ruční zadání, predikce Položky obsahující chybné hodty Binding vyhlazení na základě sousedních hodt Shlukování podobné hodty jsou organizovány do skupin, ostatní jsou chybné Regresní metody Kombinace lidské a počítačové kontroly
4 Nekonzistentní data Vznikají při vkládání dat do databáze Při integraci dat (např. různé názvy atributů) Integrace více zdrojů do jedné databáze Redundance Jak určit ekvivalentní entity z více zdrojů? Detekce a řešení konfliktů hodt atributů Řešení např. různé kódování, měrné jedtky nebo různé vyjádření hodty Ruční opravení Opravné rutiny Transformace dat do formátu vhodného pro dolování dat Přidávání vých atributů (odvozených) Diskretizace hodt numerických atributů Slučující techniky Sumační operace atd (z více hodt jedna hodta) Generalizace Data nižší úrovně nahrazena úrovní vyšší (např. ulice město) Rozdělení numerických hodt na intervaly Ekvidistantní Do hloubky Pokročilé metody Normalizace Přepočítání hodt do daného intervalu Agregace v kostce Redukce dat sumačními operacemi Redukce rozměrů Nadbytečné a nepoužívané atributy jsou detekovány a odstraněny Komprese dat Numerosity Zmenšení objemu dat Data jsou nahrazena alternativní menší reprezentací Aplikace zvoleného algoritmu na předzpracovaná data, dle typu znalosti a dat Typy znalostí Asociační pravidla Shlukování Klasifikace Predikce
5 Původně pro transakční data Pravidlo ve tvaru A B A, B mžiny položek s podpora c spolehlivost Interpretace asociačního pravidla: Jestliže transakce obsahuje položky z mžiny A, pak také pravděpodobně obsahuje položky z B Zajímavost pravidla A B určují tyto ukazatele: Pravidlo, které má podporu a spolehlivost vyšší než je uživatelem zadaná hodta, nazveme silné asociační pravidlo. Mžina položek, která má podporu vyšší než minimální hodta, se nazývá frekventovaná mžina. podpora (support) - pravděpodobst, že se vyskytují v databázi položky z obou stran asociačního pravidla spolehlivost (confidence) - podmíněná pravděpodobst, že se vyskytuje v transakci mžina položek B, za předpokladu, že se tam vyskytují položky z A Výpočet frekventovaných mžin na základě minimální podpory časově náročnější krok Generování silných asociačních pravidel z frekventovaných mžin na základě minimální spolehlivosti Založe na postupném generování kandidátů na frekventované položky Začíná se u mžin o velikosti 1, postupně se generují mžiny větší. spojovací fáze: spojují se dvě stejně velké mžiny, které se liší pouze v jedm prvku vylučovací fáze: vylučují se ty mžiny, jejichž některá podmžina není frekventovaná
6 Vstup: Transakční databáze Výstup: Frekventované mžiny Apriori vlastst: Podpora kmžiny nemůže být vyšší než podpora její podmžiny, tj. frekventovaná (k+1)-mžina může vznikut pouze z frekventované k-mžiny Založe na výpočtu spolehlivosti confidence ( A B ) = P ( B A) = support ( A B ) support ( A) Důvod: málo silných asociačních pravidel Položky se sdružují do skupin (konceptů), musí být defivána tzv. konceptuální hierarchie položek Pro každou frekventovau mžinu se zjistí všechny její podmžiny Pro každou podmžinu s frekventované mžiny se generuje Potraviny Nápoje s (l s) Kontrola minimální spolehlivosti Kategorické atributy Mají konečný počet hodt Lze na ně použít známé modifikované metody pro transakční data, např. algoritmus Apriori Džus Cola Základní metody Pokročilé metody Postupné spojování menších intervalů ve větší Shlukovací metody jsou hledány shluky hodt ležící blízko sebe, ty pak vytvoří interval Kvantitativní atributy Nemají konečný počet hodt Nutst diskretizace základní problém asociačních pravidel v relačních datech Pečivo Diskretizovaný atribut už lze považovat za kategorický a lze použít některou z metod
7 Podobné jako frekventované mžiny, ale hraje zde důležitou roli čas Př.: Koupí-li si zákazník tebook, pak si později koupí také mobil. Odpovídá to sekvenčnímu vzoru ( tebook, mobil ) Důležité je tedy pořadí položek sekvenčního vzoru Nejstarší nástroje data miningu Roztřídění skupiny objektů do skupin (shluků), které nejsou předem staveny Rozdíly objektů uvnitř shluků musí být minimální, rozdíly jedtlivých shluků musí být maximální Problém: Jakou metriku použít pro měření rozdílu? Shluky nejsou předem dány a nemají tedy význam ten je potřeba zjistit ne vždy se to podaří Při 2-3 atributech je možné použít jedduché metody, pro více atributů je potřeba použít pokročilé metody Např. je možné nyní oslovit kampaní skupinu zákazníků tvořících shluk Rozdělovací metody Rozdělení objektů na předem daný počet shluků Např. algoritmus K-means, který optimalizuje těžiště jedtlivých shluků a dané prvky pak přiřadí k nejbližšímu těžišti V každé iteraci se počítají vzdálesti prvků od těžiště. Tato hodta musí pro každý shluk (těžiště) minimální
8 Ukázka použití algoritmu K-means Hierarchické metody Postupné rozdělování velkých shluků nebo postupné slučování malých shluků Vzniká tím hierarchická struktura shluků Ukončení procesu rozdělování (slučování) při splnění určité podmínky (např. určitý minimální počet shluků) Marketing možst identifikace skupin zákazníků, použití cílených reklam Plávání města identifikace skupin domů na základě typu, ceny a polohy Studie zemětřesení shlukování epicenter zemětřesení dle jejich vlaststí Pojištění hledání potenciálních zákazníků s vysokým povinným ručením Geografie hledání shluků pozemků na základě jeho typu Training Data NAM E M ike M ary Bill Jim Dave Anne RANK YEARS TENURED Assistant Prof 3 Assistant Prof 7 Professor 2 Associate Prof 7 Assistant Prof 6 Associate Prof 3 Klasifikační algoritmy Další metody (neurové sítě, mřížky apod.) Rozdělování objektů do předem známých skupin Nejčastěji se využívají rozhodovací stromy 1. krok: konstrukce rozhodovacího stromu na základě vzorku dat 2. krok: klasifikace objektů na základě vytvořeného rozhodovacího stromu Úspěšst se měří procentem úspěšně klasifikovaných objektů Pravidla Ve tvaru: if (podmínka atributu) then result = Lze je převést na rozhodovací strom Klasifikátor (Model) IF rank = professor OR years > 6 THEN tenured = Rozhodovací stromy Vnitřní uzel test hodty jistého atributu Koncový uzel třída, do které je objekt klasifikován Neurové sítě
9 Určení, zda je možné zákazníkovi možné poskytut úvěr na základě několika atributů (věk, příjem ) Určení pohlaví zákazníka na základě toho, jaký tebook si koupí to např. umožňuje směrovat kampaň age? <=30 student? >40 credit rating? excellent fair OLAP systém Data Mining hraje důležitou roli v prostředí datového skladu. Společné znaky Velké mžství dat, většiu na detailní úrovni ale ne vždy jsou tam všechna data Data Mining nejlépe pracuje s integrovanými a vyčištěnými daty Máme-li datový sklad, není potřeba investovat do HW pro data mining overcast Oblast přípravy dat Zdrojové DB Soubory s extrahovanými a transformovanými daty Soubory s daty pro nahrání do datového skladu Možst extrakce dat Datový sklad Data připravená pro data mining DATA MINING Členění (segmentace) zákazníků Analýza nákupního košíku Cíl: porozumět zákazníkovi a jeho chování Nalezení závislostí mezi různým zbožím, které si zákazník koupí Management rizik Odhalení rizikových zákazníků (např. u pojišťoven) Detekce podvodů Např. hledání extrémních útrat na kreditní kartě Odhalování zločinsti Predikce požadavků Dodavatel Hlavní produkt Kontakt pro ČR SAS Institute, Inc. Enterprise Miner SAS Institute ČR, s.r.o; IBM Corporation DB2Intelligent Miner for Data IBM ČR, spol.s r.o.; SPSS, Inc. Clementine SPSS ČR, spol. s r.o; Silicon Graphics, Inc. Mine Set Silicon Graphics, s.r.o.; Angoss Software Corp. Kwledge Studio Speedware, s.r.o.; StatSoft, Inc. STATISTICA Data Miner StatSoft CR, s.r.o; Odhalení potenciálních neplatičů půjček Předpověď zájmu zákazníků o různé zboží
10 Data mining by měl být interaktivním procesem Základ pro uživatelské rozhraní Standardizace Součásti dotazu pro data mining Relevantní data Typ znalosti Domévá znalost Metriky zajímavosti Vizualizace/prezentace získaných znalostí Domévá znalost Příklad dotazu jazyka DMQL Jmé databáze/datového skladu Databázové tabulky/kostky Podmínky pro selekci dat Relevantní atributy nebo dimenze Kritéria pro seskupování dat Typ získávané znalosti Asociační pravidla, shlukování, klasifikace, Typické využití: Konceptuální hierarchie Stromová hierarchie: město kraj země světadíl Seskupovací hierarchie: Např.: (15-39) mladý; (4059) střední věk Hierarchie založená na pravidlech: nízký_zisk(x) = cena(x) = p AND náklady(x) = q AND p-q < 50$ Hierarchie odvozená z operace: ová adresa: hagonzal@cs.uiuc.edu login ústav univerzita země Relevantní data Metriky zajímavosti Jedduchost počet prvků pravidla, velikost rozhodovacího stromu Použitelst např. podpora a spolehlivost Jedinečst odstranění podobných znalostí Prezentace/Vizualizace Různé formy reprezentace grafy, tabulky Reprezentace konceptuální hierarchie Vizualizace různých typů znalostí Prostorové databáze Nutst předzpracování Příklad asociačního pravidla is_a(x, large_town) ^ intersect(x, highway) adjacent_to(x, water) Multimediální databáze Konstrukce vektoru rysů Histogramy Identifikace objektů v obrázku
11 Časová a sekvenční data Obsahují sekvence hodt a událostí závislých na čase Použití v meteorologii, lékařství (krevní tlak), burza (inflace, ceny akcií) Textové databáze Velké kolekce dokumentů Hledání podobných kolekcí dokumentů obsahujících zadaná slova Asociační pravidla založená na klíčových slovech Klasifikace dokumentů World-Wide-Web WWW dokumenty Databáze s informacemi o přístupu Web Page Content Mining Web Content Mining Search Result Mining Web Mining Web Structure Mining General Access Pattern Tracking Web Usage Mining Customized Usage Tracking Objektové databáze Lze použít upravené metody pro získávání znalostí z relačních dat XML
Získávání znalostí z databází. Alois Kužela
Získávání znalostí z databází Alois Kužela Obsah související pojmy datové sklady, získávání znalostí asocianí pravidla 2/37 Úvod získávání znalostí z dat, dolování (z) dat, data mining proces netriviálního
VíceDolování asociačních pravidel
Dolování asociačních pravidel Miloš Trávníček UIFS FIT VUT v Brně Obsah přednášky 1. Proces získávání znalostí 2. Asociační pravidla 3. Dolování asociačních pravidel 4. Algoritmy pro dolování asociačních
VíceZÍSKÁVÁNÍ ZNALOSTÍ Z DATABÁZÍ
metodický list č. 1 Dobývání znalostí z databází Cílem tohoto tematického celku je vysvětlení základních pojmů z oblasti dobývání znalostí z databází i východisek dobývání znalostí z databází inspirovaných
VíceDOBÝVÁNÍ ZNALOSTÍ Z DATABÁZÍ
DOBÝVÁNÍ ZNALOSTÍ Z DATABÁZÍ Úvod a oblasti aplikací Martin Plchút plchut@e-globals.net DEFINICE A POJMY Netriviální extrakce implicitních, ch, dříve d neznámých a potenciáln lně užitečných informací z
VíceIng. Petr Hájek, Ph.D. Podpora přednášky kurzu Aplikace umělé inteligence
APLIKACE UMĚLÉ INTELIGENCE Ing. Petr Hájek, Ph.D. Podpora přednášky kurzu Aplikace umělé inteligence Aplikace umělé inteligence - seminář ING. PETR HÁJEK, PH.D. ÚSTAV SYSTÉMOVÉHO INŽENÝRSTVÍ A INFORMATIKY
VíceMETODY DOLOVÁNÍ V DATECH DATOVÉ SKLADY TEREZA HYNČICOVÁ H2IGE1
METODY DOLOVÁNÍ V DATECH DATOVÉ SKLADY TEREZA HYNČICOVÁ H2IGE1 DOLOVÁNÍ V DATECH (DATA MINING) OBJEVUJE SE JIŽ OD 60. LET 20. ST. S ROZVOJEM POČÍTAČOVÉ TECHNIKY DEFINICE PROCES VÝBĚRU, PROHLEDÁVÁNÍ A MODELOVÁNÍ
VíceZískávání dat z databází 1 DMINA 2010
Získávání dat z databází 1 DMINA 2010 Získávání dat z databází Motto Kde je moudrost? Ztracena ve znalostech. Kde jsou znalosti? Ztraceny v informacích. Kde jsou informace? Ztraceny v datech. Kde jsou
VíceZÍSKÁVÁNÍ ZNALOSTÍ Z DATABÁZÍ
Metodický list č. 1 Dobývání znalostí z databází Cílem tohoto tematického celku je vysvětlení základních pojmů z oblasti dobývání znalostí z databází i východisek dobývání znalostí z databází inspirovaných
VíceProfitabilita klienta v kontextu Performance management
IBM Technical specialist team Pre Sale 26/10/2010 Profitabilita klienta v kontextu Performance management Co všechno řadíme do PM? Automatická data Běžný reporting Pokročilé statistické modely Včera What
VíceUživatelská podpora v prostředí WWW
Uživatelská podpora v prostředí WWW Jiří Jelínek Katedra managementu informací Fakulta managementu Jindřichův Hradec Vysoká škola ekonomická Praha Úvod WWW obsáhlost obsahová i formátová pestrost dokumenty,
VíceObsah. Seznam obrázků. Seznam tabulek. Petr Berka, 2011
Petr Berka, 2011 Obsah... 1... 1 1 Obsah 1... 1 Dobývání znalostí z databází 1 Dobývání znalostí z databází O dobývání znalostí z databází (Knowledge Discovery in Databases, KDD) se začíná ve vědeckých
VíceBusiness Intelligence
Business Intelligence Skorkovský KAMI, ESF MU Principy BI zpracování velkých objemů dat tak, aby výsledek této akce manažerům pomohl k rozhodování při řízení procesů výsledkem zpracování musí být relevantní
VíceObsah. Kapitola 1. Kapitola 2. Kapitola 3. Úvod 9
Obsah Úvod 9 Kapitola 1 Business Intelligence, datové sklady 11 Přechod od transakčních databází k analytickým..................... 13 Kvalita údajů pro analýzy................................................
VíceDolování v objektových datech. Ivana Rudolfová
Dolování v objektových datech Ivana Rudolfová Relační databáze - nevýhody První normální forma neumožňuje vyjádřit vztahy A je podtypem B nebo vytvořit struktury typu pole nebo množiny SQL omezení omezený
VíceBA_EM Electronic Marketing. Pavel
BA_EM Electronic Marketing Pavel Kotyza @VŠFS Agenda Efektivní data mining jako zdroj relevantních dat o potřebách zákazníků Co je data mining? Je absolutní Je předem neznámý Je užitečný Co jsou data?
VíceModerní systémy pro získávání znalostí z informací a dat
Moderní systémy pro získávání znalostí z informací a dat Jan Žižka IBA Institut biostatistiky a analýz PřF & LF, Masarykova universita Kamenice 126/3, 625 00 Brno Email: zizka@iba.muni.cz Bioinformatika:
VíceANALÝZA NÁKUPNÍHO KOŠÍKU SEMINÁŘ
ANALÝZA NÁKUPNÍHO KOŠÍKU SEMINÁŘ 18.11.2012 Radim Tvardek, Petr Bulava, Daniel Mašek U&SLUNO a.s. I Sadová 28 I 702 00 Ostrava I Czech Republic PŘEDPOKLADY PRO ANALÝZU NÁKUPNÍHO KOŠÍKU 18.11.2012 Daniel
Více10. Datové sklady (Data Warehouses) Datový sklad
10. Datové sklady (Data Warehouses) Datový sklad komplexní data uložená ve struktuře, která umožňuje efektivní analýzu a dotazování data čerpána z primárních informačních systémů a dalších zdrojů OLAP
VíceTrendy v IS/ICT přístupy k návrhu multidimenzionální modelování
Trendy v IS/ICT přístupy k návrhu multidimenzionální modelování Aplikace IS/ICT BI SCM e-business ERP ERP CRM II e-business Aplikace pro podporu základních řídících a administrativních operací 1 Informační
VíceZáklady business intelligence. Jaroslav Šmarda
Základy business intelligence Jaroslav Šmarda Základy business intelligence Business intelligence Datový sklad On-line Analytical Processing (OLAP) Kontingenční tabulky v MS Excelu jako příklad OLAP Dolování
VíceChybějící atributy a postupy pro jejich náhradu
Chybějící atributy a postupy pro jejich náhradu Jedná se o součást čištění dat Čistota dat je velmi důležitá, neboť kvalita dat zásadně ovlivňuje kvalitu výsledků, které DM vyprodukuje, neboť platí Garbage
VíceProč studovat matematické programy na ÚMS PřF MU aneb co pak budu dělat
Proč studovat matematické programy na ÚMS PřF MU aneb co pak budu dělat Martin Řezáč 22.1.2011 Co budu po VŠ dělat? Co se dá dělat s matematikou??? Ukázka aktuálních pracovních nabídek: Analytik řízení
Vícekapitola 2 Datové sklady, OLAP
Tomáš Burger, burger@fit.vutbr.cz kapitola 2 Datové sklady, OLAP Získávání znalostí z databází IT-DR-3 / ZZD Co je to datový sklad A data warehouse is a subjectoriented, integrated, time-variant and nonvolatile
VíceBu B sin i e n s e s s I n I te t l e lig i en e c n e c Skorkovský KA K M A I, E S E F MU
Business Intelligence Skorkovský KAMI, ESF MU Principy BI zpracování velkých objemů dat tak, aby výsledek této akce manažerům pomohl k rozhodování při řízení procesů výsledkem zpracování musí být relevantní
VíceDobývání znalostí z databází
Dobývání znalostí z databází (Knowledge Discovery in Databases, Data Mining,..., Knowledge Destilery,...) Non-trivial process of identifying valid, novel, potentially useful and ultimately understandable
VíceInformační systémy 2008/2009. Radim Farana. Obsah. Obsah předmětu. Požadavky kreditového systému. Relační datový model, Architektury databází
1 Vysoká škola báňská Technická univerzita Ostrava Fakulta strojní, Katedra automatizační techniky a řízení 2008/2009 Radim Farana 1 Obsah Požadavky kreditového systému. Relační datový model, relace, atributy,
VíceInformační systémy 2006/2007
13 Vysoká škola báňská Technická univerzita Ostrava Fakulta strojní, Katedra automatizační techniky a řízení Informační systémy 2006/2007 Ivan Kedroň 1 Obsah Analytické nástroje SQL serveru. OLAP analýza
VíceDolování z textu. Martin Vítek
Dolování z textu Martin Vítek Proč dolovat z textu Obrovské množství materiálu v nestrukturované textové podobě knihy časopisy vědeckéčlánky sborníky konferencí internetové diskuse Proč dolovat z textu
VícePříprava dat v softwaru Statistica
Příprava dat v softwaru Statistica Software Statistica obsahuje pokročilé nástroje pro přípravu dat a tvorbu nových proměnných. Tyto funkcionality přinášejí značnou úsporu času při přípravě datového souboru,
VíceSegmentace bankovních zákazníků algoritmem k- means
Segmentace bankovních zákazníků algoritmem k- means LS 2014/2015 Michal Heřmanský xherm22 Obsah 1 Úvod... 3 1.1 CRISP- DM... 3 2 Porozumění problematice a datům... 4 3 Příprava dat... 5 4 Modelování...
Více3 zdroje dat. Relační databáze EIS OLAP
Zdroje dat 3 zdroje dat Relační databáze EIS OLAP Relační databáze plochá dvourozměrná tabulková data OLTP (Online Transaction Processing) operace selekce projekce spojení průnik, sjednocení, rozdíl dotazování
VíceDatový sklad. Datový sklad
Datový sklad Postavení v rámci IS/ICT Specifika návrhu Modelování Datový sklad POSTAVENÍ NÁVRH Postavení datového skladu (DW) v IS/ICT z hlediska aplikací jako součást Business Intelligence z hlediska
VíceObsah. Úvod do problematiky. Datový sklad. Proces ETL. Analýza OLAP
Petr Jaša Obsah Úvod do problematiky Data vs. informace Operační vs. analytická databáze Relační vs. multidimenzionální model Datový sklad Důvody pro budování datových skladů Definice, znaky Schéma vazeb
VíceOperátory ROLLUP a CUBE
Operátory ROLLUP a CUBE Dotazovací jazyky, 2009 Marek Polák Martin Chytil Osnova přednášky o Analýza dat o Agregační funkce o GROUP BY a jeho problémy o Speciální hodnotový typ ALL o Operátor CUBE o Operátor
VíceGRR. získávání znalostí v geografických datech Autoři. Knowledge Discovery Group Faculty of Informatics Masaryk Univerzity Brno, Czech Republic
GRR získávání znalostí v geografických datech Autoři Knowledge Discovery Group Faculty of Informatics Masaryk Univerzity Brno, Czech Republic GRR cílet 2 GRR - Popis systému - cíle systém pro dolování
VíceZískávání znalostí z dat
Získávání znalostí z dat Informační a komunikační technologie ve zdravotnictví Získávání znalostí z dat Definice: proces netriviálního získávání implicitní, dříve neznámé a potencionálně užitečné informace
VíceBI v rámci IS/ICT komponenty BI architektura. Charakteristika dat a procesů v IS/ICT. Datové sklady ukládání dat návrh datového skladu
BI v rámci IS/ICT komponenty BI architektura Charakteristika dat a procesů v IS/ICT Datové sklady ukládání dat návrh datového skladu BI CRM ERP SCM Aplikace pro podporu základních řídících a administrativních
VíceMarketingová komunikace. 2. a 3. soustředění. Mgr. Pavel Vávra 9103@mail.vsfs.cz. Kombinované studium Skupina N9KMK3PH (vm3aph)
Marketingová komunikace Kombinované studium Skupina N9KMK3PH (vm3aph) 2. a 3. soustředění Mgr. Pavel Vávra 9103@mail.vsfs.cz http://vavra.webzdarma.cz/home/index.htm Co nás čeká: 2. soustředění 16.1.2009
VíceVyužití metod strojového učení v bioinformatice David Hoksza
Využití metod strojového učení v bioinformatice David Hoksza SIRET Research Group Katedra softwarového inženýrství, Matematicko-fyzikální fakulta Karlova Univerzita v Praze Bioinformatika Biologické inspirace
VíceDATABÁZOVÉ SYSTÉMY. Metodický list č. 1
Metodický list č. 1 Cíl: Cílem předmětu je získat přehled o možnostech a principech databázového zpracování, získat v tomto směru znalosti potřebné pro informačního manažera. Databázové systémy, databázové
VíceAplikovaná informatika Možnosti analýzy validity a prezentace získaných dat z informačních databází. ZEMÁNEK, Z. - PLUSKAL, D. - ŠUBRT, Z.
Aplikovaná informatika Možnosti analýzy validity a prezentace získaných dat z informačních databází. ZEMÁNEK, Z. - PLUSKAL, D. - ŠUBRT, Z. Operační program Vzdělávání pro konkurenceschopnost Název projektu:
VíceMBI - technologická realizace modelu
MBI - technologická realizace modelu 22.1.2015 MBI, Management byznys informatiky Snímek 1 Agenda Technická realizace portálu MBI. Cíle a principy technického řešení. 1.Obsah portálu - objekty v hierarchiích,
Víceodlehlých hodnot pomocí algoritmu k-means
Chybějící a odlehlé hodnoty; odstranění odlehlých hodnot pomocí algoritmu k-means Návod ke druhému cvičení Matěj Holec, holecmat@fel.cvut.cz ZS 2011/2012 Úvod Cílem cvičení je připomenout důležitost předzpracování
VíceDobývání znalostí. Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze
Dobývání znalostí Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze Dobývání znalostí Úvod do problematiky Doc. RNDr. Iveta Mrázová,
VícePRODUKTY. Tovek Tools
jsou desktopovou aplikací určenou k vyhledávání informací, tvorbě různých typů analýz a vytváření přehledů a rešerší. Jsou vhodné pro práci i s velkým objemem textových dat z různorodých informačních zdrojů.
VíceDatabázové systémy. Doc.Ing.Miloš Koch,CSc. koch@fbm.vutbr.cz
Databázové systémy Doc.Ing.Miloš Koch,CSc. koch@fbm.vutbr.cz Vývoj databázových systémů Ukládání dat Aktualizace dat Vyhledávání dat Třídění dat Výpočty a agregace 60.-70. léta Program Komunikace Výpočty
VíceANALÝZA A KLASIFIKACE DAT
ANALÝZA A KLASIFIKACE DAT prof. Ing. Jiří Holčík, CSc. INVESTICE Institut DO biostatistiky ROZVOJE VZDĚLÁVÁNÍ a analýz LITERATURA Holčík, J.: přednáškové prezentace Holčík, J.: Analýza a klasifikace signálů.
VíceDatabázové systémy. 10. přednáška
Databázové systémy 10. přednáška Business Intelligence Poprvé byl termín BI použit Gartnerem a dále pak popularizován Howardem Dresnerem jako: proces zkoumání doménově strukturovaných informací za účelem
VíceObsah. Kapitola 1. Kapitola 2. Kapitola 3. Kapitola 4. Úvod 11. Stručný úvod do relačních databází 13. Platforma 10g 23
Stručný obsah 1. Stručný úvod do relačních databází 13 2. Platforma 10g 23 3. Instalace, první přihlášení, start a zastavení databázového serveru 33 4. Nástroje pro administraci a práci s daty 69 5. Úvod
VíceMODERNÍ METODY SEGMENTACE ZÁKAZNÍKŮ Ing. Miloš Uldrich ZÁKAZNICKÁ LOAJALITA A AKVIZICE VE FINANČNÍCH SLUŽBÁCH. StatSoft CR
Váš pomocník pro analýzu dat MODERNÍ METODY SEGMENTACE ZÁKAZNÍKŮ Ing. Miloš Uldrich StatSoft CR StatSoft StatSoft CR Dodavatel komplexních analytických řešení Výhradní dodavatel softwaru STATISTICA pro
VíceVytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek, M. Cvanová. 5. Statistica
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek, M. Cvanová 5. Statistica StatSoft, Inc., http://www.statsoft.com, http://www.statsoft.cz. Verze pro Mac i PC, dostupná
VíceAlgoritmy pro shlukování prostorových dat
Algoritmy pro shlukování prostorových dat Marta Žambochová Katedra matematiky a informatiky Fakulta sociálně ekonomická Univerzita J. E. Purkyně v Ústí nad Labem ROBUST 21. 26. leden 2018 Rybník - Hostouň
VíceKatedra kybernetiky laboratoř Inteligentní Datové Analýzy (IDA) Katedra počítačů, Computational Intelligence Group
Vytěžování dat Miroslav Čepek, Filip Železný Katedra kybernetiky laboratoř Inteligentní Datové Analýzy (IDA) Katedra počítačů, Computational Intelligence Group Evropský sociální fond Praha & EU: Investujeme
VíceVYSOKÉ UČENÍ TECHNICKÉ V BRNĚ BRNO UNIVERSITY OF TECHNOLOGY
VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ BRNO UNIVERSITY OF TECHNOLOGY FAKULTA INFORMAČNÍCH TECHNOLOGIÍ ÚSTAV INFORMAČNÍCH SYSTÉMŮ FACULTY OF INFORMATION TECHNOLOGY DEPARTMENT OF INFORMATION SYSTEMS DOLOVÁNÍ ASOCIAČNÍCH
VíceDobývání a vizualizace znalostí
Dobývání a vizualizace znalostí Olga Štěpánková et al. 1 Osnova předmětu 1. Dobývání znalostí - popis a metodika procesu a objasnění základních pojmů 2. Nástroje pro modelování klasifikovaných dat a jejich
VíceIBM SPSS Decision Trees
IBM Software IBM SPSS Decision Trees Jednoduše identifikujte skupiny a predikujte Stromově uspořádané postupné štěpení dat na homogenní podmnožiny je technika vhodná pro exploraci vztahů i pro tvorbu rozhodovacích
VíceDotazovací jazyky I. Datová krychle. Soběslav Benda
Dotazovací jazyky I Datová krychle Soběslav Benda Obsah Úvod do problematiky Varianty přístupu uživatelů ke zdrojům dat OLTP vs. OLAP Datová analýza Motivace Vytvoření křížové tabulky Datová krychle Teorie
VíceVYSOKÉ UČENÍ TECHNICKÉ V BRNĚ BRNO UNIVERSITY OF TECHNOLOGY
VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ BRNO UNIVERSITY OF TECHNOLOGY FAKULTA INFORMAČNÍCH TECHNOLOGIÍ FACULTY OF INFORMATION TECHNOLOGY ÚSTAV INFORMAČNÍCH SYSTÉMŮ DEPARTMENT OF INFORMATION SYSTEMS ANALÝZA VEŘEJNĚ
VíceMarketingová komunikace. 2. soustředění. Mgr. Pavel Vávra 9103@mail.vsfs.cz. Kombinované studium Skupina N9KMK1aPH/N9KMK1bPH (um1a1ph/um1b1ph)
Marketingová komunikace Kombinované studium Skupina N9KMK1aPH/N9KMK1bPH (um1a1ph/um1b1ph) 2. soustředění Mgr. Pavel Vávra 9103@mail.vsfs.cz http://vavra.webzdarma.cz/home/index.htm Minulé soustředění úvod
VíceDatabázové a informační systémy
Databázové a informační systémy doc. Ing. Miroslav Beneš, Ph.D. katedra informatiky FEI VŠB-TUO A-1007 / 597 324 213 http://www.cs.vsb.cz/benes Miroslav.Benes@vsb.cz Obsah Jak ukládat a efektivně zpracovávat
VíceNÁSTROJE BUSINESS INTELLIGENCE
NÁSTROJE BUSINESS INTELLIGENCE Milena Tvrdíková VŠB Technická univerzita Ostrava, Ekonomická fakulta, Katedra informatiky v ekonomice, Sokolská 33, 701021 Ostrava1, ČR, milena.tvrdikova@vsb.cz Abstrakt
VíceSystémy pro podporu. rozhodování. 2. Úvod do problematiky systémů pro podporu. rozhodování
1 Systémy pro podporu rozhodování 2. Úvod do problematiky systémů pro podporu rozhodování 2 Připomenutí obsahu minulé přednášky Rozhodování a jeho počítačová podpora Manažeři a rozhodování K čemu počítačová
VíceWichterlovo gymnázium, Ostrava-Poruba, příspěvková organizace. Maturitní otázky z předmětu INFORMATIKA A VÝPOČETNÍ TECHNIKA
Wichterlovo gymnázium, Ostrava-Poruba, příspěvková organizace Maturitní otázky z předmětu INFORMATIKA A VÝPOČETNÍ TECHNIKA 1. Algoritmus a jeho vlastnosti algoritmus a jeho vlastnosti, formy zápisu algoritmu
VíceDobývání znalostí z textů text mining
Dobývání znalostí z textů text mining Text mining - data mining na nestrukturovaných textových dokumentech 2 možné přístupy: Předzpracování dat + běžné algoritmy pro data mining Speciální algoritmy pro
VíceMarketingová komunikace. 3. soustředění. Mgr. Pavel Vávra 9103@mail.vsfs.cz. Kombinované studium Skupina N9KMK3PH (vm3bph)
Marketingová komunikace Kombinované studium Skupina N9KMK3PH (vm3bph) 3. soustředění Mgr. Pavel Vávra 9103@mail.vsfs.cz http://vavra.webzdarma.cz/home/index.htm Zdroje Studijní materiály Heleny Palovské
VíceDatabázové patterny. MI-DSP 2013/14 RNDr. Ondřej Zýka, ondrej.zyka@profinit.eu
Databázové patterny MI-DSP 2013/14 RNDr. Ondřej Zýka, ondrej.zyka@profinit.eu Obsah o Co je databázový pattern o Pattern: Přiřazení rolí o Pattern: Klasifikace Databázové patterny o Odzkoušené a doporučené
VíceDatabáze Bc. Veronika Tomsová
Databáze Bc. Veronika Tomsová Databázové schéma Mapování konceptuálního modelu do (relačního) databázového schématu. 2/21 Fyzické ik schéma databáze Určuje č jakým způsobem ů jsou data v databázi ukládána
VíceZákladní informace o co se jedná a k čemu to slouží
Základní informace o co se jedná a k čemu to slouží založené na relačních databází transakční systémy, které jsou určeny pro pořizování a ukládání dat v reálném čase (ERP, účetní, ekonomické a další podnikové
VíceAnalýza a vizualizace dat
Analýza a vizualizace dat Business intelligence Jednou z dalších oblastí, která spadá do sféry systémové integrace, je návrh a implementace řešení, spadajících do oblasti nazývané Business Intelligence
VíceIng. Roman Danel, Ph.D. 2010
Datový sklad Ing. Roman Danel, Ph.D. 2010 Co je to datový sklad a kdy se používá? Pojmem datový sklad (anglicky Data Warehouse) označujeme zvláštní typ databáze, určený primárně pro analýzy dat v rámci
VíceDobývání znalostí z webu web mining
Dobývání znalostí z webu web mining Web Mining is is the application of data mining techniques to discover patterns from the Web (Wikipedia) Tři oblasti: Web content mining (web jako kolekce dokumentů)
VíceText Mining: SAS Enterprise Miner versus Teragram. Petr Berka, Tomáš Kliegr VŠE Praha
Text Mining: SAS Enterprise Miner versus Teragram Petr Berka, Tomáš Kliegr VŠE Praha Text mining vs. data mining Text mining = data mining na nestrukturovaných textových dokumentech otázka vhodné reprezentace
VíceSurfujte v business analýze jako profík. Naučíme Vás podpořit klíčová rozhodnutí firmy.
Surfujte v business analýze jako profík Naučíme Vás podpořit klíčová rozhodnutí firmy. Intuice nestačí. S čím Vám pomůžeme? Firmy čelí narůstající záplavě dat, posilují své analytické schopnosti a hledají
VíceZÍSKÁVÁNÍ ZNALOSTÍ Z DATOVÝCH SKLADŮ KNOWLEDGE DISCOVERY OVER DATA WAREHOUSES
VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ BRNO UNIVERSITY OF TECHNOLOGY FAKULTA INFORMAČNÍCH TECHNOLOGIÍ ÚSTAV INFORMAČNÍCH SYSTÉMŮ FACULTY OF INFORMATION TECHNOLOGY DEPARTMENT OF INFORMATION SYSTEMS ZÍSKÁVÁNÍ ZNALOSTÍ
VíceArchitektury Informačních systémů. Jaroslav Žáček
Architektury Informačních systémů Jaroslav Žáček jaroslav.zacek@osu.cz http://www1.osu.cz/~zacek/ Nutné pojmy Co je to informační systém? Jaké oblasti zahrnuje? Jaká je vazba IS na podnikovou strategii?
VíceDatová kvalita. RNDr. Ondřej Zýka
Datová kvalita RNDr. Ondřej Zýka 1 Datová kvalita Jedna z kompetencí Data managementu Cíl: Zajistit uživatelům data v kvalitě potřebné k jejich činnosti Kvalita dat: Subjektivní pojem závislý na požadavcích
VíceVytěžování znalostí z dat
Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 1 1/29 Vytěžování znalostí z dat Pavel Kordík, Jan Motl Department of Computer Systems Faculty of Information Technology
VíceKatedra kybernetiky, FEL, ČVUT v Praze.
Strojové učení a dolování dat přehled Jiří Kléma Katedra kybernetiky, FEL, ČVUT v Praze http://ida.felk.cvut.cz posnova přednášek Přednáška Učitel Obsah 1. J. Kléma Úvod do předmětu, učení s a bez učitele.
VíceIBM SPSS Modeler Professional
IBM SPSS Modeler Professional 16 IBM SPSS Software IBM SPSS Modeler Professional Včasné rozhodnutí díky přesným informacím Metodami data miningu získáte detailní přehled o svém současném stavu i jasnější
VíceAnalýza a modelování dat. Přednáška 8
Analýza a modelování dat Přednáška 8 OLAP, datová kostka, dotazování nad kostkou Motivace většina DB relační zaznamenání vztahů pomocí logicky provázaných tabulek jakou mají velmi často vztahy povahu vztah
VíceIDENTIFIKACE AUTOMATICKÝCH PŘÍSTUPŮ INTERNETOVÝCH OBCHODŮ S VYUŽÍTÍM METOD WEB USAGE MININGU
IDENTIFIKACE AUTOMATICKÝCH PŘÍSTUPŮ INTERNETOVÝCH OBCHODŮ S VYUŽÍTÍM METOD WEB USAGE MININGU Jana Filipová, Karel Michálek, Pavel Petr Ústav systémového inženýrství a informatiky, Fakulta ekonomicko-správní,
VíceT T. Think Together 2012. Martin Závodný THINK TOGETHER. Business Intelligence systémy Business Intelligence systems
Česká zemědělská univerzita v Praze Provozně ekonomická fakulta Doktorská vědecká konference 6. února 2012 T T THINK TOGETHER Think Together 2012 Business Intelligence systémy Business Intelligence systems
VícePRODUKTY. Tovek Tools
Analyst Pack je desktopovou aplikací určenou k vyhledávání informací, tvorbě různých typů analýz a vytváření přehledů a rešerší. Jsou vhodné pro práci i s velkým objemem textových dat z různorodých informačních
VíceObohacení dat o statistické výsledky a potenciál jejich využití 2.2.2011
Obohacení dat o statistické výsledky a potenciál jejich využití 2.2.2011 Společnost SPSS CR nyní výhradní partner IBM pro prodej software IBM SPSS v ČR a SR od roku 1998 franchise SPSS Inc. SPSS Inc. vývoj
VíceDolování dat z multimediálních databází. Ing. Igor Szöke Speech group ÚPGM, FIT, VUT
Dolování dat z multimediálních databází Ing. Igor Szöke Speech group ÚPGM, FIT, VUT Obsah prezentace Co jsou multimediální databáze Možnosti dolování dat v multimediálních databázích Vyhledávání fotografií
VíceKritéria hodnocení praktické maturitní zkoušky z databázových systémů
Kritéria hodnocení praktické maturitní zkoušky z databázových systémů Otázka č. 1 Datový model 1. Správně navržený ERD model dle zadání max. 40 bodů teoretické znalosti konceptuálního modelování správné
VíceBusiness Intelligence. Adam Trčka
Business Intelligence Adam Trčka 09:00 11:30: BI v kostce Navrhněme si sklad Ukázka BI Datamining 12:30 14:30: Pokračování kurzu 14:30 15:00: Q&A Agenda Co se dnes dovíme? Data informace znalost Business
VíceArchitektury Informačních systémů. Jaroslav Žáček jaroslav.zacek@osu.cz http://www1.osu.cz/~zacek/
Architektury Informačních systémů Jaroslav Žáček jaroslav.zacek@osu.cz http://www1.osu.cz/~zacek/ Nutné pojmy Co je to informační systém? Jaké oblasti zahrnuje? Jaká je vazba IS na podnikovou strategii?
VíceAdventureWorksDW2014 SQL Server Data Tools Multidimenziona lnı model Tabula rnı model Multidimenziona lnı mo d Tabula rnı mo d MS SQL Server 2016 Tabula rnı mo d Azure Analysis Services 16 3.2 Dimenzionální
VíceBusiness Intelligence
Business Intelligence Josef Mlnařík ISSS Hradec Králové 7.4.2008 Obsah Co je Oracle Business Intelligence? Definice, Od dat k informacím, Nástroj pro operativní řízení, Integrace informací, Jednotná platforma
VíceInfor Performance management. Jakub Urbášek
Infor Performance management Jakub Urbášek Agenda prezentace Stručně o produktu Infor PM 10 Komponenty Infor PM - PM OLAP a PM Office Plus Reporting Analýza Plánování / operativní plánování Infor Performance
VíceStručný obsah. K2118.indd 3 19.6.2013 9:15:27
Stručný obsah 1. Stručný obsah 3 2. Úvod 11 3. Seznamy a databáze v Excelu 13 4. Excel a externí data 45 5. Vytvoření kontingenční tabulky 65 6. Využití kontingenčních tabulek 81 7. Kontingenční grafy
VíceHledání prostorových asociačních pravidel v prostorových databázích. Discovery of Spatial Association Rules in Geographic Information Databases
Hledání prostorových asociačních pravidel v prostorových databázích Lukáš Janák Zdroj: Discovery of Spatial Association Rules in Geographic Information Databases Krzysztof Koperski, Jiawei Han Simon Fraser
VíceOkruhy ke státní závěrečné zkoušce z vedlejší specializace Informatika v řízení podniku
Okruhy ke státní závěrečné zkoušce z vedlejší specializace Informatika v řízení podniku Aplikace auditních postupů Vyberte si jeden typ auditu (útvaru, projektu, aplikace, procesu, ) a na něm demonstrujte
VíceStatSoft Úvod do data miningu
StatSoft Úvod do data miningu Tento článek je úvodním povídáním o data miningu, jeho vzniku, účelu a využití. Historie data miningu Rozvoj počítačů, výpočetní techniky a zavedení elektronického sběru dat
VíceNová dimenze rozhodovacího procesu
Nová dimenze rozhodovacího procesu Marek Matoušek Pavel Mašek Data, nebo INFORMACE Využití dostupných firemních dat Několik systémů, mnoho různých dat Různé divize, různé potřeby Potřeba integrace dat
VíceAnalýza a modelování dat. Přednáška 9
Analýza a modelování dat Přednáška 9 Další dotazování nad kostkou Rozšíření SQL99 rozšíření SQL99 (minulá přednáška): seskupovací operátory za GROUP BY CUBE statistiky dle řezů ROLLUP statistiky dle rolování
VíceARCHITEKTURA INFORMAČNÍCH SYSTÉMŮ PODLE ÚROVNĚ ŘÍZENÍ
ARCHITEKTURA INFORMAČNÍCH SYSTÉMŮ PODLE ÚROVNĚ ŘÍZENÍ Podle toho, zda informační systém funguje na operativní, taktické nebo strategické řídicí úrovni, můžeme systémy rozdělit do skupin. Tuto pyramidu
VíceNávrh datového skladu z hlediska zdrojů
Návrh datového skladu Návrh datového skladu OLTP ETL OLAP, DM Operativní data Datové sklady Zdroje dat Transformace zdroj - cíl Etapy realizace 1 Návrh datového skladu Hlavní úskalí analýzy a návrhu spočívá
Více4IT218 Databáze. 4IT218 Databáze
4IT218 Databáze Osmá přednáška Dušan Chlapek (katedra informačních technologií, VŠE Praha) 4IT218 Databáze Osmá přednáška Normalizace dat - dokončení Transakce v databázovém zpracování Program přednášek
Více