Aplikovaná informatika Možnosti analýzy validity a prezentace získaných dat z informačních databází. ZEMÁNEK, Z. - PLUSKAL, D. - ŠUBRT, Z.



Podobné dokumenty
Profitabilita klienta v kontextu Performance management

Marketingový výzkum. Ing. Martina Ortová, Ph.D. Technická univerzita v Liberci. Projekt TU v Liberci

DOBÝVÁNÍ ZNALOSTÍ Z DATABÁZÍ

Získávání znalostí z databází. Alois Kužela

StatSoft Úvod do data miningu

Ing. Petr Hájek, Ph.D. Podpora přednášky kurzu Aplikace umělé inteligence

METODY DOLOVÁNÍ V DATECH DATOVÉ SKLADY TEREZA HYNČICOVÁ H2IGE1

ANALÝZA NÁKUPNÍHO KOŠÍKU SEMINÁŘ

BA_EM Electronic Marketing. Pavel

Jak úspěšně bojovat s ekonomickou krizí pomocí CI

Datová věda (Data Science) akademický navazující magisterský program

Proč studovat matematické programy na ÚMS PřF MU aneb co pak budu dělat

Katedra kybernetiky laboratoř Inteligentní Datové Analýzy (IDA) Katedra počítačů, Computational Intelligence Group

Dolování asociačních pravidel

P R Ů M Y S L O V Ý M A R K E T I N G

Znalostní ekonomika lení konkurenceschopnosti, Josef Budík

Aplikovaná informatika

INOVATIVNÍ MANAŽER MARKETINGU: INOVATIVNÍ BUSINESS INTELLIGENCE

Moderní systémy pro získávání znalostí z informací a dat

Získávání dat z databází 1 DMINA 2010

Segmentace bankovních zákazníků algoritmem k- means

Uživatelská podpora v prostředí WWW

Úvod do podnikových financí. ednáška

MORAVSKÁ VYSOKÁ ŠKOLA OLOMOUC

Management informačních systémů. Název Information systems management Způsob ukončení * přednášek týdně

MANAŽERSKÉ ROZHODOVÁNÍ. Zpracoval Ing. Jan Weiser

Manažerská ekonomika KM IT

Informační média a služby

Big data ukážou mapu, TOVEK řekne kudy jít

Informační systémy 2006/2007

P R Ů M Y S L O V Ý M A R K E T I N G

Obohacení dat o statistické výsledky a potenciál jejich využití

Vymezení a význam marketingového výzkumu pro manažerské rozhodování. Základní východiska empirického přístupu, vztah. Téma č. 1

Řízení bezpečnosti. Úvod do předmětu, terminologie, legislativní rámec a obecné zásady zajišťování bezpečnosti

MODERNÍ METODY SEGMENTACE ZÁKAZNÍKŮ Ing. Miloš Uldrich ZÁKAZNICKÁ LOAJALITA A AKVIZICE VE FINANČNÍCH SLUŽBÁCH. StatSoft CR

Webová analytika v kostce. Pavel Jašek Marketing Monday 7. listopadu 2011

PowerOPTI Řízení účinnosti tepelného cyklu

Výroční zpráva společnosti Corpus Solutions a.s. za rok Popis účetní jednotky. Název společnosti: Corpus Solutions

PROJEKT BAKALÁŘSKÉ PRÁCE

Výukový materiál zpracovaný v rámci projektu Výuka moderně

ARCHITEKTURA INFORMAČNÍCH SYSTÉMŮ PODLE ÚROVNĚ ŘÍZENÍ

1. Selekce a restrikce informací 2. Specifikace profesních témat 3. Možnosti databázových zdrojů pro profesní téma. samostudia

Aplikace moderních analytických a optimalizačních metod na data získaná z technologií Smart Metering

Úvod... VII. 1. Podstata marketingu Shrnutí... 8 Klíčová slova... 9 Otázky... 9 Literatura Strategické marketingové řízení...

Moderní metody automatizace a hodnocení marketingových kampaní

ZÍSKÁVÁNÍ ZNALOSTÍ Z DATABÁZÍ

PRODUKTY. Tovek Tools

Customer Intelligence, aneb Jak může neoblíbená analýza dat usnadnit práci marketingu

Informace pro uznávání předmětů ze zahraničních studijních pobytů (2016/17) Státnicové předměty navazujících magisterských studijních oborů

MANAŽERSKÉ ROZHODOVÁNÍ. Téma 1 - Normativní a deskriptivní teorie rozhodování, struktura problémů a rozhodovacích procesů

Systémy pro podporu. rozhodování. 2. Úvod do problematiky systémů pro podporu. rozhodování

Inovační vouchery s Univerzitou Hradec Králové. doc. Ing. Mgr. Petra Marešová, Ph.D. Ing. Richard Cimler

Cíle supervizovaného učení Ondřej Háva

Základní informace o co se jedná a k čemu to slouží

Informace a znalosti v organizaci

Obsah. Seznam obrázků. Seznam tabulek. Petr Berka, 2011

ZÍSKÁVÁNÍ ZNALOSTÍ Z DATABÁZÍ

Pohled zvenčí je metoda řešení problémů společností a firem

Český institut pro akreditaci, o.p.s. Ing. Milan Badal

MAPA VÝZKUMU 13/03/2015 1

PRAXE A PŘÍNOSY INDEXOVÉHO BENCHMARKINGU PRACTISE AND BENEFITS OF INDEX BENCHMARKING

EKONOMICKÝ A LOGISTICKÝ SOFTWARE. Luhačovice

Určeno studentům středního vzdělávání s maturitní zkouškou, předmět: Marketing a management, téma: Marketingový výzkum

5. Umělé neuronové sítě. Neuronové sítě

BIG DATA. Nové úlohy pro nástroje v oblasti BI. 27. listopadu 2012

Dolování z textu. Martin Vítek

PRODUKTY. Tovek Tools

MORAVSKÁ VYSOKÁ ŠKOLA OLOMOUC. Nabídka Inovačních voucherů

Segmentace návštěvníků

CZ.1.07/1.5.00/

Přednáška č. 11 PRODEJNÍ ČINNOST PODNIKU doc.ing. Roman ZámeZ

SMS Marketing. Komunikace s potencionálními i stávajícími zákazníky pomocí zpráv SMS

ELO Analytics Vaše obchodní metriky na jednom místě. Vaše obchodní metriky na jednom místě. Enterprise Content Management

coachpage.cz MARKETINGOVÝ VÝZKUM Faktory ovlivňující nákupní chování ve vztahu ke koupi automobilu TOOLS for SUCCESS in TODAY s BUSINESS

Modelování procesů s využitím MS Visio.

produktu na základz vková křivka P = f(q) 1/2/10 13:53 2.cvičen ení EET 1

Základy business intelligence. Jaroslav Šmarda

Marketingová komunikace. 3. soustředění. Mgr. Pavel Vávra Kombinované studium Skupina N9KMK3PH (vm3bph)

Prof. Ing. Ladislav Buřita, CSc., UTB/FaME Zlín Ing. Pavel Rosman, Ph.D., UTB/FaME Zlín Ass. prof. Zsolt Tóth, University of West Hungary, Sopron

CHARAKTERISTIKA VZDĚLÁVACÍ OBLAST VYUČOVACÍ PŘEDMĚT ZODPOVÍDÁ INFORMAČNÍ A KOMUNIKAČNÍ TECHNOLOGIE

ver Asynchronní E-learningový

Vzdělávací obsah vyučovacího předmětu

DIGITÁLNÍ UČEBNÍ MATERIÁL

Pecharova 10, PRAHA 4 Tel.: , Fax: INBOX@MARKENT.CZ

Střední odborné učiliště Domažlice, škola Stod, Plzeňská 322, Stod

3. Očekávání a efektivnost aplikací

SYSTÉMY ŘÍZENÍ PODNIKU OKRUHY OTÁZEK KE ZKOUŠCE Z PŘEDMĚTU MPH_SYRP V magisterském studiu

Bezpečně Vás provedeme světem GIS. Možnosti a přínosy využití GIS při zpracování dat

DATABÁZOVÉ SYSTÉMY. Metodický list č. 1

České Budějovice. 2. dubna 2014

Statistika. Základní pojmy a cíle statistiky. Roman Biskup. (zapálený) statistik ve výslužbě, aktuálně analytik v praxi ;-) roman.biskup(at) .

Přednáška č. 1 VÝNOSY, NÁKLADY, doc. Ing. Roman ZámeZ

Bakalářský studijní obor hospodářská informatika

Jak efektivně pracovat s ekonomickými informacemi? Petr Musil Bisnode a.s.

Management. Plánování Vnitřní a vnější prostředí organizace SWOT analýza

technologie v podpoře e národnn registrů vybraných onemocnění

Pro zvládnutí této kapitoly budete potřebovat 4-5 hodin studia.

televize A Step Ahead sledovanost Dále nabízíme: informace o respondentech, které jsou doplňovány údaji o jejich životním stylu a spotřebním

Aplikovaná informatika Analýza validity informací a tvorba rešerší.

Výukový materiál zpracovaný v rámci projektu Výuka moderně

Transkript:

Aplikovaná informatika Možnosti analýzy validity a prezentace získaných dat z informačních databází. ZEMÁNEK, Z. - PLUSKAL, D. - ŠUBRT, Z. Operační program Vzdělávání pro konkurenceschopnost Název projektu: Inovace magisterského studijního programu Fakulty ekonomiky amanagementu Registrační číslo projektu: CZ.1.07/2.2.00/28.0326

Možnosti analýzy validity a prezentace získaných dat z informačních databází. 1. ZískZ skávání (dobývání) ) znalostí z dat 2. Validace dat v rozhodovacím m procesu 3. Vytěžování dat - Data Mining -Text Mining 4. Kontrolní otázky a úkoly samostudia

Cíle přednp ednášky 1. Předat studentům m informace k získz skávání znalostí z dat. 2. Uvést možnosti validace dat v rozhodovacím m procesu. 3. Objasnit vytěž ěžování dat - Data Mining,, Text Mining.

Získávání znalostí z databází Trendem dnešní doby je obrovský nárůst počtu dat uložených v databázích. Je obecně známo, že až osmdesát procent uložených dat v databázích po celém světě má podobu textu, tedy nestrukturovaných dat. [1] Teprve počátkem 90. let 20. století vznikl nápad využít především údajů z počítačových databází, původně určených jen k evidenčním účelům, také jako zdroj automatizovaného získávání (dobývání) znalostí. [2] Hlavním impulsem pro rozvoj nového oboru byl zájem firem zpracovávat svá data za účelem získání lepších informací o fungování firmy a umět tak lépe a rychleji reagovat na potřeby trhu, být konkurenceschopnější. [3]

Kvalita rozhodovacího procesu Kvalita rozhodovacího procesu závisz visí na rozsahu a kvalitě disponibilních informací a znalostí.

Základní pojmy Copyright 2011 Václav Ransdorf Copyright 2011 Václav Ransdorf Informace je sdělitelný poznatek pro příjemce, který mám smysl a snižuje míru m neurčitosti při p i jeho rozhodování. Data jsou zakódovan dované informace v podobě srozumitelné příjemci. Znalosti jsou strukturovaný souhrn vzájemně souvisejících poznatků a zkušeností z určité oblasti nebo k nějakému účelu. Získávají se zejména praxí nebo studiem. Databáze (neboli datová základna) je určitá uspořádaná množina informací (dat), uložená na paměťovém médiu. Po obsahové stránce lze uvedené pojmy definovat stejným způsobem jako odraz (reprezentaci) reálného světa.

Získávání (dobývání) ) znalostí z dat Dobývání znalostí z databází je chápáno jako multioborová disciplina především proto, že náročný proces vyžaduje podíl řady vědních oborů. Získávání (dobývání) znalostí z dat nazýváme proces netriviálního získávání implicitní, dříve neznámé a potencionálně užitečné a platné (validní) informace z dat. [3]

Validace dat v rozhodovacím m procesu Při získávání dat z různých zdrojů, stejně jako při statistickém hodnocení technologických procesů (například dodržení předepsaných standardů), je důležité zkoumat validitu, to jest platnost získaných výsledků vzhledem ke skutečnosti. Proces zajištění validity se potom nazývá validace, například validace testu. Kvalitativní nebo nezávislá kvantitativní validace je důležitá zejména tam, kde zkoumaný jev nelze úplně oddělit od dalších vlivů a kde je interpretace výsledků složitá. Validace se používá při kvantitativním i kvalitativním výzkumu, existují různé postupy jejího zajištění.

Validace dat v rozhodovacím m procesu Data jsou stále rozsáhlej hlejší, vyvodit z nich užiteu itečné závěry je stále složit itější: Náročné rozhodovací procesy s využit itím m IKT. Miliony finančních transakcí. Miliony hovorů denně u telekomunikačních operátor torů. Smyslem je dát d t uloženým datům m význam a vytěžit z databáze nové informace.

Validace dat v rozhodovacím m procesu Data jsou stále rozsáhlej hlejší, vyvodit z nich užiteu itečné závěry je stále složit itější: Hledání skrytých závislostí v datech. Porovnávání vzorců chování. Predikce za pomocí segmentačních metod, neuronových sítí, apod. Hledání příležitostí, predikce rizik. Analytická metodologie získávání netriviálních skrytých a potenciálně užitečných informací z dat se nazývá - Data Mining ([dejta majnyn], angl. dolování z dat či čivytěžování dat). Zavedení pojmu: 1991 William Clement Frawley

Co je to Data Mining? Kdo to potřebuje? K čemu slouží? Exekutiva a management. K podpoře řízení. Co realizuje? Jak to realizovat? Informace o jednotlivých Pomocí databázových objektech a transakcích. ch. systémů. Zahrnuje poznatky z několika n oborů matematiky a informatiky. [2]

Vytěžování dat - Data Mining Data Mining ([dejta majnyn], angl. dolování z dat či vytěžování dat, DM) se někdy chápe jako analytická součást dobývání znalostí z databází (Knowledge Discovery in Databases, KDD). Prohledávání stávaj vajících ch databází,, kdy na základz kladě speciáln lních metod se vyhledávaj vají nové znalosti. Hledání hodnotných informací ve velkých objemech dat. Proces zjišťov ování platných, neznámých mých,, potencionáln lně užitečných a snadno pochopitelných znalostí z dat (např.. náchylnost n ke koupi, k podvodu apod.). [2] Tato dvě označení se mají stejný význam.

K čemu je Data Mining? Stále většív množstv ství dat uložených v databázích: Neustále generujeme data Obchodní a bankovní transakce Komunikační,, biologická,, astronomická,, systémov mová data atd Ukládáme stále více v dat Databázov zové technologie jsou stále rychlejší a levnější Databázov zové systémy jsou schopny pracovat se stále rozsáhlej hlejšími daty Netriviáln lní hledání skrytých závislostz vislostí mezi daty (např.. náchylnost n ke koupi, k podvodu, odu, apod.) [5]

Kde se Data Maning využívá Časté aplikace jsou předevp edevším m v oblastech: finančnictví (např. odhadování rizika, hledání podvodů), přímého marketingu (výběr klientů pro oslovení), telekomunikací (segmentace klientů, prodej programů,...), monitorování aktivit na Internetu s cílem odhalit činnost potenciálních škůdců a teroristů, internetového prodeje (analýza přechodů mezi stránkami, efektivity a poskytování reklamy, ). [4]

Příklady úloh řešených ených metodami Data Miningu navrhování a sledování účinnosti marketingových kampaní, navrhování bezpečnostních opatření u složitých průmyslových provozů a strojů, analýza provozu a optimalizace serverových řešení, zkoumání zákonitostí změn klimatu podle dlouhých časových řad meteorologických měření, vytváření různých sociologických prognóz, plánování burzovních a měnových spekulací. [2]

Proces získz skávání znalostí z dat Stanovení cílů Výsledné vzory (pravidla) Prezentace znalostí Interpretace a vyhodnocení Výběr dat DB (Datový sklad) Pochopení Dolování dat (Data Mining) faktury Předzpracování dat dodavatelé zákazníci Vstupní data ZNALOST [2]

Proces získz skávání znalostí z dat Stanovení cílů Jaký typ znalosti chceme nalézt? Nad jakými daty budeme proces získz skávání znalostí provádět? Je problém řešitelný? Budou získanz skané výsledky užiteu itečné v praxi? V jakém m tvaru a formě chceme zobrazit výsledky získávání znalostí? Jsou naše e data vhodná pro danou metodu?

Proces získz skávání znalostí z dat Výběr r zdrojů dat Typy databází z hlediska obsahu Zákaznické databáze údaje o zákaznz kazníkovi, kovi, případnp padně o jeho aktivitách Databáze transakcí údaje o aktivitách zákazníků (většinou anonymních) Databáze historie nabídek databáze o oslovování zákazníků kampaněmi mi Externí data - WWW

Techniky Data Miningu [5] Technik je řada a jsou velmi sofistikované. Technik je řada a jsou velmi sofistikované.

Metody Data Miningu Text Mining Text Mining obecně spadá pod soubor dataminingových metod - ty však v pracují s čísly, případně s nomináln lními či i ordináln lními proměnnými, jako jsou názvy n kategorií apod. Text Mining pracuje s nestrukturovaným textem, lze ho tedy definovat jako proces vytěž ěžení cenné informace z textu, tato metoda však v můžm ůže e pomoci i při p i samotné dataminingové analýze. [1]

Metody Data Miningu Extrakce významu sdělení z nestrukturovaného textu Podle počtu a struktury slov lze identifikovat témat a smysl čteného dokumentu, přitom p nemusí jít t pouze o mnohastránkovou nkovou ročenku nebo diplomovou práci, ale například o webovou stránku nku. Zajímav mavější možnost ností je potom definice konkrétn tních hledaných slov nebo spojení (termy daného jazyka). Nástroj může e prohledávat obsah webových stránek a nacházet ty s klíčovým sdělením. [1]

Metody Data Miningu Extrakce významu sdělení z nestrukturovaného textu [1] Hledáme objekty v textu, čímž rozumíme me jednotlivá slova nebo důležitá spojení termy (eskontní úvěr, cystická fibróza, gotické památky), například slovo traumacentrum indikuje vyšší pojistné plnění,, neboť klient byl pravděpodobn podobně vážně zraněn. n. Termy se pak zobrazí v matici slov, která je vytvořena na základě frekvenční analýzy (četnosti výskytu). Nástroj Text Mining kvantifikuje jednotlivé objekty z textu - termy, obvykle do tabulky. [1]

Metody Data Miningu Automatické třídění textů Ještě zajímav mavější vlastností textminingových nástrojů je potom identifikace specifických či i podobných textových záznamz znamů na základz kladě shlukové analýzy. Textové záznamy znamy jsou klasifikovány a tříděny t do shluků podle podobnosti. [1]

Metody Data Miningu Automatické třídění textů Obrázek ukazuje jednotlivé textové záznamy (dokumenty, formuláře, žádosti atd.), které byly podrobeny shlukové analýze. Záznamy, které jsou mimo hlavní shluk, se nějakým způsobem od většiny dokumentů odlišují, a proto by jim analytické oddělení mělo věnovat pozornost. [1]

Metody Data Miningu Prezentace výsledků analýz Prezentace výstupů tzv. vizualizace sice nepřináší již nic nového, ale zobrazení dat a výsledky analýz může výrazně ulehčit jejich pochopení a následnou n interpretaci. Výsledky výpočtů nad daty mohou mít různou formu. Nejjednodušší forma numerická, uspořádaná do sestav, tabulek apod., obvykle znamená i pro odborníka ještě další práci. Mnohem názornější jsou doplňující výstupy do grafů, při dodržení obecných pravidel jejich správné konstrukce. [1] Nové zobrazení výsledků může výrazně ulehčit jejich pochopení a následnou interpretaci. [3]

Metody Data Miningu Příklad využití - Automatické třídění textů Autor: dmblog.fico.com Autor: dmblog.fico.com Fraud management ([frůd ], angl. podvod řízení) neboli detekce podvodů je oblast, která se zaměřuje na včasné odhalení podvodného jednání. Text Mining jako nástroj v této oblasti slouží pro potřeby interní kontroly. Automaticky čte e-maily zaměstnanců, pokud detekuje určité slovo nebo spojení, které ukazuje na podvodné jednání, je e-mail označen a příslušné oddělení mu potom věnuje pozornost. Stejným způsobem textminingový nástroj analyzuje také elektronické žádosti, objednávky přes internet apod., které do firmy přicházejí z vnějšku. Vstupy jsou tříděny do smysluplných shluků, lze tak odhalit například podezřelou objednávku apod. [1]

Metody Data Miningu Závěr Trendem dnešní doby je obrovský nárůst počtu dat uložených v databázích. Kvalitativní nebo nezávislá kvantitativní validace je důležitá tam, kde je interpretace výsledků složitá. Získávání (dobývání) ) znalostí z dat nazýváme proces netriviálního získávání implicitní, dříve neznámé a potencionálně užitečné a platné (validní) informace z dat. Data Miningové metody pracují s čísly,, případnp padně s nomináln lními či i ordináln lními proměnnými, jako jsou názvy n kategorií apod. Text mining pracuje s nestrukturovaným textem,, lze ho tedy definovat jako proces vytěž ěžení cenné informace z textu, metoda můžm ůže e pomoci i při p i samotné dataminingové analýze.

Úkoly pro samostatnou práci Nalézt na Internetu a doplnit si informace k: získávání znalostí z dat, validaci dat v rozhodovacím m procesu, vytěž ěžování dat - Data Mining,, Text Mining.

Zdroje doplňující studijní literatura: 1. ULDRICHT, Miloš. Text mining aneb Kladivo na nestrukturovaná data. [online]. [cit. 2013-10-29] č.12/2011, IT SYSTEMS: Business Intelligence Dostupné z: http://www.systemonline.cz/clanky/text-mining-kladivo-nanestrukturovana-data.htm 2. Datové sklady: Data mining. [online]. [cit. 2013-10-23]. Dostupné z: http://kix.fsv.cvut.cz/~vanicek/vyuka_l13/sklady.ppt#295,28,shlukování některé metody 3. ŠARMANOVÁ, Jana. METODY ANALÝZY DAT - Učební text. [online]. [cit. 2013-10-26] 2012, Ostrava: VŠB-TU. 170 s. ISBN 978-80-248-2565-6 Dostupné z: http://www.person.vsb.cz/archivcd/fei/mad/ 4. BERKA, Petr. Aplikace systémů dobývání znalostí pro analýzu medicínských dat. [online]. 24. 10. 2002 [cit. 2013-10-24]. Dostupné z: http://euromise.vse.cz/kdd/index.php?page=uvod 5. Data mining. ORACLE [online]. [cit. 2013-10-27]. Dostupné z: http://www.oracle.com/technetwork/database/options/advancedanalytics/odm/odm-techniques-algorithms-097163.html