METODY DOLOVÁNÍ V DATECH DATOVÉ SKLADY TEREZA HYNČICOVÁ H2IGE1
DOLOVÁNÍ V DATECH (DATA MINING) OBJEVUJE SE JIŽ OD 60. LET 20. ST. S ROZVOJEM POČÍTAČOVÉ TECHNIKY DEFINICE PROCES VÝBĚRU, PROHLEDÁVÁNÍ A MODELOVÁNÍ VE VELKÝCH OBJEMECH DAT SLOUŽÍCÍ K ODHALENÍ DŘÍVE NEZNÁMÝCH VZTAHŮ MEZI DATY ZA ÚČELEM ZÍSKÁNÍ OBCHODNÍ VÝHODY VSTUPNÍ DATA JSOU ZÍSKÁVÁNA Z DATOVÝCH SKLADŮ V PROCESU DOLOVÁNÍ JE VELMI DŮLEŽITÁ KVALITA VSTUPNÍCH DAT ČIŠTĚNÍ OD CHYB, SJEDNOCENÍ FORMÁTŮ, AKTUALIZACE DAT
OBECNÉ METODY DOLOVÁNÍ DAT PREDIKTIVNÍ MODELOVÁNÍ NA ZÁKLADĚ ZNÁMÉ MNOŽINY VSTUPNÍCH HODNOT A TOMU ODPOVÍDAJÍCÍCH ZNÁMÝCH HODNOT VÝSTUPNÍCH SE HLEDÁ NEJPRAVDĚPODOBNĚJŠÍ HODNOTA VÝSTUPU PRO PŘEDEM NEZNÁMÉ KOMBINACE VSTUPNÍCH HODNOT KLASIFIKACE METODA ROZDĚLOVÁNÍ DAT DO SKUPIN DLE JISTÝCH KRITÉRIÍ. DĚLÍME JI NA ŘÍZENOU (ALESPOŇ PRO VZOREK DAT JSOU KRITÉRIA ZNÁMÁ) A NEŘÍZENOU (KRITÉRIA NEJSOU PŘEDEM ZNÁMÁ A ÚLOHOU KLASIFIKACE JE JEJICH NALEZENÍ)
OBECNÉ METODY DOLOVÁNÍ DAT ANALÝZA ASOCIACÍ NEJČASTĚJŠÍM PŘÍKLADEM ANALÝZY ASOCIACÍ JE ANALÝZA NÁKUPNÍHO KOŠÍKU ZABÝVAJÍCÍ SE HLEDÁNÍM KOMBINACÍ PRODUKTŮ, KTERÉ SE VE VSTUPNÍCH DATECH (KOŠÍKU) VYSKYTUJÍ VÝZNAMNĚ ČASTĚJI SPOLU. CÍLEM JE NALÉZT PRAVIDLA TYPU: PŘI NÁKUPU ZBOŽÍ A A C SPOTŘEBITELÉ VÝRAZNĚ ČASTĚJI NAKUPUJÍ I ZBOŽÍ D A B
OBECNÉ METODY DOLOVÁNÍ DAT VZORKOVÁNÍ VÝBĚR OMEZENÉ MNOŽINY DAT ZE ZÁKLADNÍHO SOUBORU. NEJJEDNODUŠŠÍM VZORKOVÁNÍM JE NÁHODNÝ VÝBĚR (SLOUŽÍ KE ZMENŠENÍ OBJEMU ZPRACOVÁVANÝCH DAT). SLOŽITĚJŠÍ METODOU JE NAPŘ. VÝBĚR STEJNÉHO POČTU ZÁZNAMŮ DANÉHO TYPU (REDUKCE MNOŽSTVÍ ZPRACOVÁVANÝCH DAT PŘI SOUČASNÉ ZÁRUCE POŽADOVANÉ PŘESNOSTI VÝSLEDKU
METODY DOLOVÁNÍ DAT V GIS SHLUKOVÁ ANALÝZA UMĚLÉ NEURONOVÉ SÍTĚ GENETICKÉ ALGORITMY
SHLUKOVÁ ANALÝZA ROZDĚLENÍ VSTUPNÍ MNOŽINY DAT DO NĚKOLIKA STEJNORODÝCH NAVZÁJEM DISJUNKTNÍCH SHLUKŮ SNAHOU JE, ABY OBJEKTY UVNITŘ JEDNOHO SHLUKU SI BYLY CO NEJVÍCE PODOBNÉ A ZÁROVEŇ SE CO MOŽNÁ NEJVÍCE ODLIŠOVALY OD OBJEKTŮ JINÝCH SHLUKŮ POČET SHLUKŮ JE, ČI NENÍ ZADÁN POUŽÍVANÉ ALGORITMY: AGLOMERATIVNÍ POSTUP - VYCHÁZÍ Z N SHLUKŮ, KDY KAŽDÝ OBSAHUJE POUZE JEDEN OBJEKT, V KAŽDÉM KROKU SE SHLUKY SPOJUJÍ VE SHLUKY VYŠŠÍ ÚROVNĚ NA ZÁKLADĚ VZDÁLENOSTI ČI PODOBNOSTI OBJEKTŮ
SHLUKOVÁ ANALÝZA DIVIZNÍ POSTUP - VYCHÁZÍ Z JEDNOHO SHLUKU, KTERÝ JE KAŽDÉM DALŠÍM KROKU ROZŠTĚPEN NA DVA, NA KONCI PROCESU OBDRŽÍME N SHLUKŮ UMĚLÉ NEURONOVÉ SÍTĚ (UNS) CÍLEM JE SNAHA PŘIBLÍŽIT SE V TECHNICKÉ PRAXI ŽIVÝM ORGANISMŮM, VYCHÁZEJÍ Z ANALOGIE S LIDSKÝM MOZKEM PODOBNĚ JAKO MOZEK JSOU TVOŘENY MNOŽSTVÍM NAVZÁJEM PROPOJENÝCH ELEMENTŮ (NEURONŮ)
UMĚLÉ NEURONOVÉ SÍTĚ (UNS) V UNS JE NEURON CHÁPÁN JAKO BUŇKA, KTERÁ PŘIJÍMÁ PODNĚTY OD JINÝCH NEURONŮ, KTERÉ JSOU K NÍ PŘIPOJENY NA VSTUPU. POKUD SOUHRNNÝ ÚČINEK TĚCHTO VSTUPNÍCH PODNĚTŮ PŘEKROČÍ URČITÝ PRÁH, NEURON SE AKTIVUJE A SÁM ZAČNE SVÝM VÝSTUPEM PŮSOBIT NA DALŠÍ NEURONY DŮLEŽITÁ JE SCHOPNOST TĚCHTO MODELŮ UČIT SE Z PŘÍKLADŮ
UMĚLÉ NEURONOVÉ SÍTĚ (UNS) Schopnost učit se Zvýšení spolehlivosti (při poruše mohou funkční bloky nahradit funkci bloků poškozených) Schopnost generalizace Obtížná identifikace procesů v UNS Příliš velký počet stupňů volnosti Velký počet variant uspořádání UNS
GENETICKÉ ALGORITMY PŘEDSTAVUJÍ PRAVDĚPODOBNOSTNÍ PROHLEDÁVACÍ METODU, KTERÁ JE ZALOŽENA NA PŘÍRODNÍM VÝBĚRU (SELEKCI) A JE INSPIROVÁNA PŘÍRODNÍMI GENETICKÝMI PRINCIPY (DĚDIČNOST, MUTACE, KŘÍŽENÍ) OBECNÉ SCHÉMA ALGORITMU: Vytvoření nulté populace Výběr zdatných jedinců Z vybraných jedinců vygeneruj nové (křížení, reprodukce) Výpočet zdatnosti nových jedinců Konec cyklu (není-li splněna zastavovací podmínka) Konec algoritmu Výstupem je jedinec s nejvyšší zdatností
GENETICKÉ ALGORITMY Nevyžadují znalosti o cílové funkci Odolné proti sklouznutí do lokálního optima Využití při optimalizaci Problémy s nalezením přesného optima Implementace není vždy přímočará
VYUŽITÍ TECHNIK DOLOVÁNÍ DAT ANALÝZA ÚVĚROVÉHO RIZIKA VYHODNOCENÍ MARKETINGOVÝCH KAMPANÍ SEGMENTACE ZÁKAZNÍKŮ DETEKCE PODVODŮ ANALÝZA PRODUKTŮ ANALÝZA CHOVÁNÍ ZÁKAZNÍKŮ
DATOVÉ SKLADY (DATA WAREHOUSE) Jsou zdrojem dat pro proces dolování dat DATA ULOŽENÁ VE STRUKTUŘE UMOŽŇUJÍCÍ EFEKTIVNÍ ANALÝZU A DOTAZOVÁNÍ DATA JSOU DO SKLADŮ ČERPÁNA Z PRIMÁRNÍCH INFORMAČNÍCH ZDROJŮ SKLÁDÁ SE ZE TŘÍ VRSTEV: SPODNÍ (DATOVÝ SKLAD S RELAČNÍ DB) PROSTŘEDNÍ (OLAP) VRCHNÍ (=KLIENT)
DATOVÉ SKLADY (DATA WAREHOUSE) OLTP (ON-LINE TRANSACTION PROCESSING, VÝROBA DAT ) PERIODICKÁ AGREGACE (SUMARIZACE) DAT A JEJICH NÁSLEDNÉ ULOŽENÍ DO SKLADU OLAP (ON-LINE ANALYTICAL PROCESSING, PREZENTACE, PRODEJ DAT ) OKAMŽITÉ ZPRACOVÁNÍ DAT, CO NEJRYCHLEJŠÍ POSKYTNUTÍ POŽADOVANÝCH AGREGOVANÝCH DAT ZE SKLADU UŽIVATELI
DĚKUJI ZA POZORNOST