METODY DOLOVÁNÍ V DATECH DATOVÉ SKLADY TEREZA HYNČICOVÁ H2IGE1



Podobné dokumenty
ZÍSKÁVÁNÍ ZNALOSTÍ Z DATABÁZÍ

Pokročilé operace s obrazem

10. Datové sklady (Data Warehouses) Datový sklad

ZÍSKÁVÁNÍ ZNALOSTÍ Z DATABÁZÍ

Marketingová komunikace. 2. a 3. soustředění. Mgr. Pavel Vávra 9103@mail.vsfs.cz. Kombinované studium Skupina N9KMK3PH (vm3aph)

Získávání znalostí z databází. Alois Kužela

Jak se matematika poučila v biologii

Databáze Bc. Veronika Tomsová

ANALÝZA NÁKUPNÍHO KOŠÍKU SEMINÁŘ

Moderní systémy pro získávání znalostí z informací a dat

Základy business intelligence. Jaroslav Šmarda

Marketingová komunikace. 3. soustředění. Mgr. Pavel Vávra Kombinované studium Skupina N9KMK3PH (vm3bph)

Profitabilita klienta v kontextu Performance management

Analýza a vizualizace dat


DATABÁZOVÉ SYSTÉMY. Metodický list č. 1

Popis zobrazení pomocí fuzzy logiky

Evoluční výpočetní techniky (EVT)

Business Intelligence

Získávání dat z databází 1 DMINA 2010

Katedra kybernetiky laboratoř Inteligentní Datové Analýzy (IDA) Katedra počítačů, Computational Intelligence Group

Algoritmy a struktury neuropočítačů ASN - P11

DATABÁZOVÉ SYSTÉMY. Vladimíra Zádová, KIN, EF TUL - DBS

Projekční algoritmus. Urychlení evolučních algoritmů pomocí regresních stromů a jejich zobecnění. Jan Klíma

Úvod do optimalizace, metody hladké optimalizace

BA_EM Electronic Marketing. Pavel

PowerOPTI Řízení účinnosti tepelného cyklu

kapitola 2 Datové sklady, OLAP

VYUŽITÍ PROGRAMU DATA MINING V ANALÝZE NÁKUPNÍHO CHOVÁNÍ

4IT218 Databáze. 4IT218 Databáze

Evoluční algoritmy. Podmínka zastavení počet iterací kvalita nejlepšího jedince v populaci změna kvality nejlepšího jedince mezi iteracemi

Základní informace o co se jedná a k čemu to slouží

Obsah. Kapitola 1. Kapitola 2. Kapitola 3. Úvod 9

ARCHITEKTURA INFORMAČNÍCH SYSTÉMŮ PODLE ÚROVNĚ ŘÍZENÍ

Dolování asociačních pravidel

Dobývání znalostí. Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze

Genetická diverzita masného skotu v ČR

Databázové systémy. Doc.Ing.Miloš Koch,CSc.

Informační systémy 2006/2007

Analýza a modelování dat. Přednáška 8

Dolování v objektových datech. Ivana Rudolfová

8.2 Používání a tvorba databází

OBSAH PŘEDMLUVA KONKURENČNÍ PROSTŘEDÍ A KONKURENCE...48 KONKURENČNÍ PROSTŘEDÍ...48

Ing. Petr Hájek, Ph.D. Podpora přednášky kurzu Aplikace umělé inteligence

Genetické programování

Genetické algoritmy a jejich praktické využití

Strojové učení se zaměřením na vliv vstupních dat

Datové sklady ve školství

Trendy v IS/ICT přístupy k návrhu multidimenzionální modelování

PŘÍLOHA C Požadavky na Dokumentaci

Emergence chování robotických agentů: neuroevoluce

OSA. maximalizace minimalizace 1/22

Využití metod strojového učení v bioinformatice David Hoksza

Business Intelligence. Adam Trčka

K možnostem krátkodobé předpovědi úrovně znečištění ovzduší statistickými metodami. Josef Keder

Úvodní přednáška. Význam a historie PIS

NÁSTROJE BUSINESS INTELLIGENCE

Bu B sin i e n s e s s I n I te t l e lig i en e c n e c Skorkovský KA K M A I, E S E F MU

04 - Databázové systémy

AVDAT Mnohorozměrné metody, metody klasifikace Shluková analýza

Business Intelligence

individuální TRÉNINKOVÝ PROFIL

Obsah. Úvod do problematiky. Datový sklad. Proces ETL. Analýza OLAP

Ambasadoři přírodovědných a technických oborů. Ing. Michal Řepka Březen - duben 2013

5. Umělé neuronové sítě. Neuronové sítě

3 zdroje dat. Relační databáze EIS OLAP

Automatická detekce anomálií při geofyzikálním průzkumu. Lenka Kosková Třísková NTI TUL Doktorandský seminář,

Z znam workshopu k projektu QJ Program workshopu: 4. Diskuse. s metodice. H

1. Úvod do genetických algoritmů (GA)

SW pro správu a řízení bezpečnosti

A1 Marketingové minimum pro posílení výchovy k podnikavosti (8h)

Strojové učení a dolování dat. Vybrané partie dolování dat 2016/17 Jan Šimbera

Umělá inteligence a rozpoznávání

Microsoft Office. Excel vyhledávací funkce

Aplikace IS, outsourcing, systémová integrace. Jaroslav Žáček

Databázové systémy. 10. přednáška

Role BI v e-business řešeních pohled do budoucnosti

Marketingová komunikace. 2. soustředění. Mgr. Pavel Vávra Kombinované studium Skupina N9KMK1aPH/N9KMK1bPH (um1a1ph/um1b1ph)

UČENÍ BEZ UČITELE. Václav Hlaváč

MODERNÍ METODY SEGMENTACE ZÁKAZNÍKŮ Ing. Miloš Uldrich ZÁKAZNICKÁ LOAJALITA A AKVIZICE VE FINANČNÍCH SLUŽBÁCH. StatSoft CR

1. Vlastnosti diskretních a číslicových metod zpracování signálů... 15

Marketingový výzkum. Ing. Martina Ortová, Ph.D. Technická univerzita v Liberci. Projekt TU v Liberci

GIS Geografické informační systémy

Architektura - struktura sítě výkonných prvků, jejich vzájemné propojení.

Státnice odborné č. 20

Dobývání znalostí. Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze

1. Statistická analýza dat Jak vznikají informace Rozložení dat

GRR. získávání znalostí v geografických datech Autoři. Knowledge Discovery Group Faculty of Informatics Masaryk Univerzity Brno, Czech Republic

BI v rámci IS/ICT komponenty BI architektura. Charakteristika dat a procesů v IS/ICT. Datové sklady ukládání dat návrh datového skladu

Efektivní informační služby NTK pro veřejnost a státní správu. 25. dubna 2012

3. Vícevrstvé dopředné sítě

CZ.1.07/1.5.00/ Zefektivnění výuky prostřednictvím ICT technologií III/2 - Inovace a zkvalitnění výuky prostřednictvím ICT

StatSoft Úvod do neuronových sítí

Jak získat nové a čerstvé adresy? Ing. Miroslav Červenka, Schober Information Group CZ a.s.

Systémy pro podporu rozhodování. Datové sklady, OLAP

KIS A JEJICH BEZPEČNOST-I

SSOS_ZE_1.10 Příroda projevy živé hmoty

NÁKUP SKUPINY RWE ČESKÁ REPUBLIKA A.S. Den Dodavatelů, , Praha

Úvodem Dříve les než stromy 3 Operace s maticemi

DOBÝVÁNÍ ZNALOSTÍ Z DATABÁZÍ

Transkript:

METODY DOLOVÁNÍ V DATECH DATOVÉ SKLADY TEREZA HYNČICOVÁ H2IGE1

DOLOVÁNÍ V DATECH (DATA MINING) OBJEVUJE SE JIŽ OD 60. LET 20. ST. S ROZVOJEM POČÍTAČOVÉ TECHNIKY DEFINICE PROCES VÝBĚRU, PROHLEDÁVÁNÍ A MODELOVÁNÍ VE VELKÝCH OBJEMECH DAT SLOUŽÍCÍ K ODHALENÍ DŘÍVE NEZNÁMÝCH VZTAHŮ MEZI DATY ZA ÚČELEM ZÍSKÁNÍ OBCHODNÍ VÝHODY VSTUPNÍ DATA JSOU ZÍSKÁVÁNA Z DATOVÝCH SKLADŮ V PROCESU DOLOVÁNÍ JE VELMI DŮLEŽITÁ KVALITA VSTUPNÍCH DAT ČIŠTĚNÍ OD CHYB, SJEDNOCENÍ FORMÁTŮ, AKTUALIZACE DAT

OBECNÉ METODY DOLOVÁNÍ DAT PREDIKTIVNÍ MODELOVÁNÍ NA ZÁKLADĚ ZNÁMÉ MNOŽINY VSTUPNÍCH HODNOT A TOMU ODPOVÍDAJÍCÍCH ZNÁMÝCH HODNOT VÝSTUPNÍCH SE HLEDÁ NEJPRAVDĚPODOBNĚJŠÍ HODNOTA VÝSTUPU PRO PŘEDEM NEZNÁMÉ KOMBINACE VSTUPNÍCH HODNOT KLASIFIKACE METODA ROZDĚLOVÁNÍ DAT DO SKUPIN DLE JISTÝCH KRITÉRIÍ. DĚLÍME JI NA ŘÍZENOU (ALESPOŇ PRO VZOREK DAT JSOU KRITÉRIA ZNÁMÁ) A NEŘÍZENOU (KRITÉRIA NEJSOU PŘEDEM ZNÁMÁ A ÚLOHOU KLASIFIKACE JE JEJICH NALEZENÍ)

OBECNÉ METODY DOLOVÁNÍ DAT ANALÝZA ASOCIACÍ NEJČASTĚJŠÍM PŘÍKLADEM ANALÝZY ASOCIACÍ JE ANALÝZA NÁKUPNÍHO KOŠÍKU ZABÝVAJÍCÍ SE HLEDÁNÍM KOMBINACÍ PRODUKTŮ, KTERÉ SE VE VSTUPNÍCH DATECH (KOŠÍKU) VYSKYTUJÍ VÝZNAMNĚ ČASTĚJI SPOLU. CÍLEM JE NALÉZT PRAVIDLA TYPU: PŘI NÁKUPU ZBOŽÍ A A C SPOTŘEBITELÉ VÝRAZNĚ ČASTĚJI NAKUPUJÍ I ZBOŽÍ D A B

OBECNÉ METODY DOLOVÁNÍ DAT VZORKOVÁNÍ VÝBĚR OMEZENÉ MNOŽINY DAT ZE ZÁKLADNÍHO SOUBORU. NEJJEDNODUŠŠÍM VZORKOVÁNÍM JE NÁHODNÝ VÝBĚR (SLOUŽÍ KE ZMENŠENÍ OBJEMU ZPRACOVÁVANÝCH DAT). SLOŽITĚJŠÍ METODOU JE NAPŘ. VÝBĚR STEJNÉHO POČTU ZÁZNAMŮ DANÉHO TYPU (REDUKCE MNOŽSTVÍ ZPRACOVÁVANÝCH DAT PŘI SOUČASNÉ ZÁRUCE POŽADOVANÉ PŘESNOSTI VÝSLEDKU

METODY DOLOVÁNÍ DAT V GIS SHLUKOVÁ ANALÝZA UMĚLÉ NEURONOVÉ SÍTĚ GENETICKÉ ALGORITMY

SHLUKOVÁ ANALÝZA ROZDĚLENÍ VSTUPNÍ MNOŽINY DAT DO NĚKOLIKA STEJNORODÝCH NAVZÁJEM DISJUNKTNÍCH SHLUKŮ SNAHOU JE, ABY OBJEKTY UVNITŘ JEDNOHO SHLUKU SI BYLY CO NEJVÍCE PODOBNÉ A ZÁROVEŇ SE CO MOŽNÁ NEJVÍCE ODLIŠOVALY OD OBJEKTŮ JINÝCH SHLUKŮ POČET SHLUKŮ JE, ČI NENÍ ZADÁN POUŽÍVANÉ ALGORITMY: AGLOMERATIVNÍ POSTUP - VYCHÁZÍ Z N SHLUKŮ, KDY KAŽDÝ OBSAHUJE POUZE JEDEN OBJEKT, V KAŽDÉM KROKU SE SHLUKY SPOJUJÍ VE SHLUKY VYŠŠÍ ÚROVNĚ NA ZÁKLADĚ VZDÁLENOSTI ČI PODOBNOSTI OBJEKTŮ

SHLUKOVÁ ANALÝZA DIVIZNÍ POSTUP - VYCHÁZÍ Z JEDNOHO SHLUKU, KTERÝ JE KAŽDÉM DALŠÍM KROKU ROZŠTĚPEN NA DVA, NA KONCI PROCESU OBDRŽÍME N SHLUKŮ UMĚLÉ NEURONOVÉ SÍTĚ (UNS) CÍLEM JE SNAHA PŘIBLÍŽIT SE V TECHNICKÉ PRAXI ŽIVÝM ORGANISMŮM, VYCHÁZEJÍ Z ANALOGIE S LIDSKÝM MOZKEM PODOBNĚ JAKO MOZEK JSOU TVOŘENY MNOŽSTVÍM NAVZÁJEM PROPOJENÝCH ELEMENTŮ (NEURONŮ)

UMĚLÉ NEURONOVÉ SÍTĚ (UNS) V UNS JE NEURON CHÁPÁN JAKO BUŇKA, KTERÁ PŘIJÍMÁ PODNĚTY OD JINÝCH NEURONŮ, KTERÉ JSOU K NÍ PŘIPOJENY NA VSTUPU. POKUD SOUHRNNÝ ÚČINEK TĚCHTO VSTUPNÍCH PODNĚTŮ PŘEKROČÍ URČITÝ PRÁH, NEURON SE AKTIVUJE A SÁM ZAČNE SVÝM VÝSTUPEM PŮSOBIT NA DALŠÍ NEURONY DŮLEŽITÁ JE SCHOPNOST TĚCHTO MODELŮ UČIT SE Z PŘÍKLADŮ

UMĚLÉ NEURONOVÉ SÍTĚ (UNS) Schopnost učit se Zvýšení spolehlivosti (při poruše mohou funkční bloky nahradit funkci bloků poškozených) Schopnost generalizace Obtížná identifikace procesů v UNS Příliš velký počet stupňů volnosti Velký počet variant uspořádání UNS

GENETICKÉ ALGORITMY PŘEDSTAVUJÍ PRAVDĚPODOBNOSTNÍ PROHLEDÁVACÍ METODU, KTERÁ JE ZALOŽENA NA PŘÍRODNÍM VÝBĚRU (SELEKCI) A JE INSPIROVÁNA PŘÍRODNÍMI GENETICKÝMI PRINCIPY (DĚDIČNOST, MUTACE, KŘÍŽENÍ) OBECNÉ SCHÉMA ALGORITMU: Vytvoření nulté populace Výběr zdatných jedinců Z vybraných jedinců vygeneruj nové (křížení, reprodukce) Výpočet zdatnosti nových jedinců Konec cyklu (není-li splněna zastavovací podmínka) Konec algoritmu Výstupem je jedinec s nejvyšší zdatností

GENETICKÉ ALGORITMY Nevyžadují znalosti o cílové funkci Odolné proti sklouznutí do lokálního optima Využití při optimalizaci Problémy s nalezením přesného optima Implementace není vždy přímočará

VYUŽITÍ TECHNIK DOLOVÁNÍ DAT ANALÝZA ÚVĚROVÉHO RIZIKA VYHODNOCENÍ MARKETINGOVÝCH KAMPANÍ SEGMENTACE ZÁKAZNÍKŮ DETEKCE PODVODŮ ANALÝZA PRODUKTŮ ANALÝZA CHOVÁNÍ ZÁKAZNÍKŮ

DATOVÉ SKLADY (DATA WAREHOUSE) Jsou zdrojem dat pro proces dolování dat DATA ULOŽENÁ VE STRUKTUŘE UMOŽŇUJÍCÍ EFEKTIVNÍ ANALÝZU A DOTAZOVÁNÍ DATA JSOU DO SKLADŮ ČERPÁNA Z PRIMÁRNÍCH INFORMAČNÍCH ZDROJŮ SKLÁDÁ SE ZE TŘÍ VRSTEV: SPODNÍ (DATOVÝ SKLAD S RELAČNÍ DB) PROSTŘEDNÍ (OLAP) VRCHNÍ (=KLIENT)

DATOVÉ SKLADY (DATA WAREHOUSE) OLTP (ON-LINE TRANSACTION PROCESSING, VÝROBA DAT ) PERIODICKÁ AGREGACE (SUMARIZACE) DAT A JEJICH NÁSLEDNÉ ULOŽENÍ DO SKLADU OLAP (ON-LINE ANALYTICAL PROCESSING, PREZENTACE, PRODEJ DAT ) OKAMŽITÉ ZPRACOVÁNÍ DAT, CO NEJRYCHLEJŠÍ POSKYTNUTÍ POŽADOVANÝCH AGREGOVANÝCH DAT ZE SKLADU UŽIVATELI

DĚKUJI ZA POZORNOST