Aplikovaná informatika Možnosti analýzy validity a prezentace získaných dat z informačních databází. ZEMÁNEK, Z. - PLUSKAL, D. - ŠUBRT, Z. Operační program Vzdělávání pro konkurenceschopnost Název projektu: Inovace magisterského studijního programu Fakulty ekonomiky amanagementu Registrační číslo projektu: CZ.1.07/2.2.00/28.0326
Možnosti analýzy validity a prezentace získaných dat z informačních databází. 1. ZískZ skávání (dobývání) ) znalostí z dat 2. Validace dat v rozhodovacím m procesu 3. Vytěžování dat - Data Mining -Text Mining 4. Kontrolní otázky a úkoly samostudia
Cíle přednp ednášky 1. Předat studentům m informace k získz skávání znalostí z dat. 2. Uvést možnosti validace dat v rozhodovacím m procesu. 3. Objasnit vytěž ěžování dat - Data Mining,, Text Mining.
Získávání znalostí z databází Trendem dnešní doby je obrovský nárůst počtu dat uložených v databázích. Je obecně známo, že až osmdesát procent uložených dat v databázích po celém světě má podobu textu, tedy nestrukturovaných dat. [1] Teprve počátkem 90. let 20. století vznikl nápad využít především údajů z počítačových databází, původně určených jen k evidenčním účelům, také jako zdroj automatizovaného získávání (dobývání) znalostí. [2] Hlavním impulsem pro rozvoj nového oboru byl zájem firem zpracovávat svá data za účelem získání lepších informací o fungování firmy a umět tak lépe a rychleji reagovat na potřeby trhu, být konkurenceschopnější. [3]
Kvalita rozhodovacího procesu Kvalita rozhodovacího procesu závisz visí na rozsahu a kvalitě disponibilních informací a znalostí.
Základní pojmy Copyright 2011 Václav Ransdorf Copyright 2011 Václav Ransdorf Informace je sdělitelný poznatek pro příjemce, který mám smysl a snižuje míru m neurčitosti při p i jeho rozhodování. Data jsou zakódovan dované informace v podobě srozumitelné příjemci. Znalosti jsou strukturovaný souhrn vzájemně souvisejících poznatků a zkušeností z určité oblasti nebo k nějakému účelu. Získávají se zejména praxí nebo studiem. Databáze (neboli datová základna) je určitá uspořádaná množina informací (dat), uložená na paměťovém médiu. Po obsahové stránce lze uvedené pojmy definovat stejným způsobem jako odraz (reprezentaci) reálného světa.
Získávání (dobývání) ) znalostí z dat Dobývání znalostí z databází je chápáno jako multioborová disciplina především proto, že náročný proces vyžaduje podíl řady vědních oborů. Získávání (dobývání) znalostí z dat nazýváme proces netriviálního získávání implicitní, dříve neznámé a potencionálně užitečné a platné (validní) informace z dat. [3]
Validace dat v rozhodovacím m procesu Při získávání dat z různých zdrojů, stejně jako při statistickém hodnocení technologických procesů (například dodržení předepsaných standardů), je důležité zkoumat validitu, to jest platnost získaných výsledků vzhledem ke skutečnosti. Proces zajištění validity se potom nazývá validace, například validace testu. Kvalitativní nebo nezávislá kvantitativní validace je důležitá zejména tam, kde zkoumaný jev nelze úplně oddělit od dalších vlivů a kde je interpretace výsledků složitá. Validace se používá při kvantitativním i kvalitativním výzkumu, existují různé postupy jejího zajištění.
Validace dat v rozhodovacím m procesu Data jsou stále rozsáhlej hlejší, vyvodit z nich užiteu itečné závěry je stále složit itější: Náročné rozhodovací procesy s využit itím m IKT. Miliony finančních transakcí. Miliony hovorů denně u telekomunikačních operátor torů. Smyslem je dát d t uloženým datům m význam a vytěžit z databáze nové informace.
Validace dat v rozhodovacím m procesu Data jsou stále rozsáhlej hlejší, vyvodit z nich užiteu itečné závěry je stále složit itější: Hledání skrytých závislostí v datech. Porovnávání vzorců chování. Predikce za pomocí segmentačních metod, neuronových sítí, apod. Hledání příležitostí, predikce rizik. Analytická metodologie získávání netriviálních skrytých a potenciálně užitečných informací z dat se nazývá - Data Mining ([dejta majnyn], angl. dolování z dat či čivytěžování dat). Zavedení pojmu: 1991 William Clement Frawley
Co je to Data Mining? Kdo to potřebuje? K čemu slouží? Exekutiva a management. K podpoře řízení. Co realizuje? Jak to realizovat? Informace o jednotlivých Pomocí databázových objektech a transakcích. ch. systémů. Zahrnuje poznatky z několika n oborů matematiky a informatiky. [2]
Vytěžování dat - Data Mining Data Mining ([dejta majnyn], angl. dolování z dat či vytěžování dat, DM) se někdy chápe jako analytická součást dobývání znalostí z databází (Knowledge Discovery in Databases, KDD). Prohledávání stávaj vajících ch databází,, kdy na základz kladě speciáln lních metod se vyhledávaj vají nové znalosti. Hledání hodnotných informací ve velkých objemech dat. Proces zjišťov ování platných, neznámých mých,, potencionáln lně užitečných a snadno pochopitelných znalostí z dat (např.. náchylnost n ke koupi, k podvodu apod.). [2] Tato dvě označení se mají stejný význam.
K čemu je Data Mining? Stále většív množstv ství dat uložených v databázích: Neustále generujeme data Obchodní a bankovní transakce Komunikační,, biologická,, astronomická,, systémov mová data atd Ukládáme stále více v dat Databázov zové technologie jsou stále rychlejší a levnější Databázov zové systémy jsou schopny pracovat se stále rozsáhlej hlejšími daty Netriviáln lní hledání skrytých závislostz vislostí mezi daty (např.. náchylnost n ke koupi, k podvodu, odu, apod.) [5]
Kde se Data Maning využívá Časté aplikace jsou předevp edevším m v oblastech: finančnictví (např. odhadování rizika, hledání podvodů), přímého marketingu (výběr klientů pro oslovení), telekomunikací (segmentace klientů, prodej programů,...), monitorování aktivit na Internetu s cílem odhalit činnost potenciálních škůdců a teroristů, internetového prodeje (analýza přechodů mezi stránkami, efektivity a poskytování reklamy, ). [4]
Příklady úloh řešených ených metodami Data Miningu navrhování a sledování účinnosti marketingových kampaní, navrhování bezpečnostních opatření u složitých průmyslových provozů a strojů, analýza provozu a optimalizace serverových řešení, zkoumání zákonitostí změn klimatu podle dlouhých časových řad meteorologických měření, vytváření různých sociologických prognóz, plánování burzovních a měnových spekulací. [2]
Proces získz skávání znalostí z dat Stanovení cílů Výsledné vzory (pravidla) Prezentace znalostí Interpretace a vyhodnocení Výběr dat DB (Datový sklad) Pochopení Dolování dat (Data Mining) faktury Předzpracování dat dodavatelé zákazníci Vstupní data ZNALOST [2]
Proces získz skávání znalostí z dat Stanovení cílů Jaký typ znalosti chceme nalézt? Nad jakými daty budeme proces získz skávání znalostí provádět? Je problém řešitelný? Budou získanz skané výsledky užiteu itečné v praxi? V jakém m tvaru a formě chceme zobrazit výsledky získávání znalostí? Jsou naše e data vhodná pro danou metodu?
Proces získz skávání znalostí z dat Výběr r zdrojů dat Typy databází z hlediska obsahu Zákaznické databáze údaje o zákaznz kazníkovi, kovi, případnp padně o jeho aktivitách Databáze transakcí údaje o aktivitách zákazníků (většinou anonymních) Databáze historie nabídek databáze o oslovování zákazníků kampaněmi mi Externí data - WWW
Techniky Data Miningu [5] Technik je řada a jsou velmi sofistikované. Technik je řada a jsou velmi sofistikované.
Metody Data Miningu Text Mining Text Mining obecně spadá pod soubor dataminingových metod - ty však v pracují s čísly, případně s nomináln lními či i ordináln lními proměnnými, jako jsou názvy n kategorií apod. Text Mining pracuje s nestrukturovaným textem, lze ho tedy definovat jako proces vytěž ěžení cenné informace z textu, tato metoda však v můžm ůže e pomoci i při p i samotné dataminingové analýze. [1]
Metody Data Miningu Extrakce významu sdělení z nestrukturovaného textu Podle počtu a struktury slov lze identifikovat témat a smysl čteného dokumentu, přitom p nemusí jít t pouze o mnohastránkovou nkovou ročenku nebo diplomovou práci, ale například o webovou stránku nku. Zajímav mavější možnost ností je potom definice konkrétn tních hledaných slov nebo spojení (termy daného jazyka). Nástroj může e prohledávat obsah webových stránek a nacházet ty s klíčovým sdělením. [1]
Metody Data Miningu Extrakce významu sdělení z nestrukturovaného textu [1] Hledáme objekty v textu, čímž rozumíme me jednotlivá slova nebo důležitá spojení termy (eskontní úvěr, cystická fibróza, gotické památky), například slovo traumacentrum indikuje vyšší pojistné plnění,, neboť klient byl pravděpodobn podobně vážně zraněn. n. Termy se pak zobrazí v matici slov, která je vytvořena na základě frekvenční analýzy (četnosti výskytu). Nástroj Text Mining kvantifikuje jednotlivé objekty z textu - termy, obvykle do tabulky. [1]
Metody Data Miningu Automatické třídění textů Ještě zajímav mavější vlastností textminingových nástrojů je potom identifikace specifických či i podobných textových záznamz znamů na základz kladě shlukové analýzy. Textové záznamy znamy jsou klasifikovány a tříděny t do shluků podle podobnosti. [1]
Metody Data Miningu Automatické třídění textů Obrázek ukazuje jednotlivé textové záznamy (dokumenty, formuláře, žádosti atd.), které byly podrobeny shlukové analýze. Záznamy, které jsou mimo hlavní shluk, se nějakým způsobem od většiny dokumentů odlišují, a proto by jim analytické oddělení mělo věnovat pozornost. [1]
Metody Data Miningu Prezentace výsledků analýz Prezentace výstupů tzv. vizualizace sice nepřináší již nic nového, ale zobrazení dat a výsledky analýz může výrazně ulehčit jejich pochopení a následnou n interpretaci. Výsledky výpočtů nad daty mohou mít různou formu. Nejjednodušší forma numerická, uspořádaná do sestav, tabulek apod., obvykle znamená i pro odborníka ještě další práci. Mnohem názornější jsou doplňující výstupy do grafů, při dodržení obecných pravidel jejich správné konstrukce. [1] Nové zobrazení výsledků může výrazně ulehčit jejich pochopení a následnou interpretaci. [3]
Metody Data Miningu Příklad využití - Automatické třídění textů Autor: dmblog.fico.com Autor: dmblog.fico.com Fraud management ([frůd ], angl. podvod řízení) neboli detekce podvodů je oblast, která se zaměřuje na včasné odhalení podvodného jednání. Text Mining jako nástroj v této oblasti slouží pro potřeby interní kontroly. Automaticky čte e-maily zaměstnanců, pokud detekuje určité slovo nebo spojení, které ukazuje na podvodné jednání, je e-mail označen a příslušné oddělení mu potom věnuje pozornost. Stejným způsobem textminingový nástroj analyzuje také elektronické žádosti, objednávky přes internet apod., které do firmy přicházejí z vnějšku. Vstupy jsou tříděny do smysluplných shluků, lze tak odhalit například podezřelou objednávku apod. [1]
Metody Data Miningu Závěr Trendem dnešní doby je obrovský nárůst počtu dat uložených v databázích. Kvalitativní nebo nezávislá kvantitativní validace je důležitá tam, kde je interpretace výsledků složitá. Získávání (dobývání) ) znalostí z dat nazýváme proces netriviálního získávání implicitní, dříve neznámé a potencionálně užitečné a platné (validní) informace z dat. Data Miningové metody pracují s čísly,, případnp padně s nomináln lními či i ordináln lními proměnnými, jako jsou názvy n kategorií apod. Text mining pracuje s nestrukturovaným textem,, lze ho tedy definovat jako proces vytěž ěžení cenné informace z textu, metoda můžm ůže e pomoci i při p i samotné dataminingové analýze.
Úkoly pro samostatnou práci Nalézt na Internetu a doplnit si informace k: získávání znalostí z dat, validaci dat v rozhodovacím m procesu, vytěž ěžování dat - Data Mining,, Text Mining.
Zdroje doplňující studijní literatura: 1. ULDRICHT, Miloš. Text mining aneb Kladivo na nestrukturovaná data. [online]. [cit. 2013-10-29] č.12/2011, IT SYSTEMS: Business Intelligence Dostupné z: http://www.systemonline.cz/clanky/text-mining-kladivo-nanestrukturovana-data.htm 2. Datové sklady: Data mining. [online]. [cit. 2013-10-23]. Dostupné z: http://kix.fsv.cvut.cz/~vanicek/vyuka_l13/sklady.ppt#295,28,shlukování některé metody 3. ŠARMANOVÁ, Jana. METODY ANALÝZY DAT - Učební text. [online]. [cit. 2013-10-26] 2012, Ostrava: VŠB-TU. 170 s. ISBN 978-80-248-2565-6 Dostupné z: http://www.person.vsb.cz/archivcd/fei/mad/ 4. BERKA, Petr. Aplikace systémů dobývání znalostí pro analýzu medicínských dat. [online]. 24. 10. 2002 [cit. 2013-10-24]. Dostupné z: http://euromise.vse.cz/kdd/index.php?page=uvod 5. Data mining. ORACLE [online]. [cit. 2013-10-27]. Dostupné z: http://www.oracle.com/technetwork/database/options/advancedanalytics/odm/odm-techniques-algorithms-097163.html