Vybrané partie použity s laskavým svolením Mgr. Martina Řezáče, Ph.D.

Podobné dokumenty
Získávání dat z databází 1 DMINA 2010

DOBÝVÁNÍ ZNALOSTÍ Z DATABÁZÍ

Dobývání znalostí z databází

Získávání znalostí z dat

Proč studovat matematické programy na ÚMS PřF MU aneb co pak budu dělat

Obsah. Seznam obrázků. Seznam tabulek. Petr Berka, 2011

Profitabilita klienta v kontextu Performance management

Data Science projekty v telekomunikační společnosti

ZÍSKÁVÁNÍ ZNALOSTÍ Z DATABÁZÍ

Obsah. Kapitola 1. Kapitola 2. Kapitola 3. Úvod 9

METODY DOLOVÁNÍ V DATECH DATOVÉ SKLADY TEREZA HYNČICOVÁ H2IGE1

GRR. získávání znalostí v geografických datech Autoři. Knowledge Discovery Group Faculty of Informatics Masaryk Univerzity Brno, Czech Republic

Ing. Petr Hájek, Ph.D. Podpora přednášky kurzu Aplikace umělé inteligence

MODERNÍ METODY SEGMENTACE ZÁKAZNÍKŮ Ing. Miloš Uldrich ZÁKAZNICKÁ LOAJALITA A AKVIZICE VE FINANČNÍCH SLUŽBÁCH. StatSoft CR

ZÍSKÁVÁNÍ ZNALOSTÍ Z DATABÁZÍ

Moderní systémy pro získávání znalostí z informací a dat

Dobývání a vizualizace znalostí

Získávání znalostí z databází. Alois Kužela

BA_EM Electronic Marketing. Pavel

Datová věda (Data Science) akademický navazující magisterský program

Úvodem Dříve les než stromy 3 Operace s maticemi

Strojové učení Marta Vomlelová

Dobývání a vizualizace znalostí. Olga Štěpánková et al.

IBM SPSS Modeler Professional

Dobývání a vizualizace znalostí

BIG DATA. Nové úlohy pro nástroje v oblasti BI. 27. listopadu 2012

Dobývání a vizualizace znalostí

Využití metod strojového učení v bioinformatice David Hoksza

Vytěžování znalostí z dat

Big Data a oficiální statistika. Unicorn College Open 24. dubna 2015 Doc. Ing. Marie Bohatá, CSc.

Základy business intelligence. Jaroslav Šmarda

Cíle supervizovaného učení Ondřej Háva

Obohacení dat o statistické výsledky a potenciál jejich využití

IBM SPSS Modeler. Hlavní přínosy. Intuitivní ovládání IBM

Katedra kybernetiky laboratoř Inteligentní Datové Analýzy (IDA) Katedra počítačů, Computational Intelligence Group

Pokročilé neparametrické metody. Klára Kubošová

Moderní metody automatizace a hodnocení marketingových kampaní

STRUČNÝ PRŮVODCE ANALYTICKÝM PROCESEM

Infor Performance management. Jakub Urbášek


Informační systémy 2006/2007

Dolování asociačních pravidel

Předzpracování dat. Lenka Vysloužilová

Vytěžování dat přednáška I

Inovační vouchery s Univerzitou Hradec Králové. doc. Ing. Mgr. Petra Marešová, Ph.D. Ing. Richard Cimler

Segmentace bankovních zákazníků algoritmem k- means

Statistické metody v ekonomii. Ing. Michael Rost, Ph.D.

Analytika a SAP Quo Vadis? Jiří Přibyslavský Performance Management & Business Intelligence Business Consultant

Dobývání znalostí. Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze

IBM SPSS Decision Trees

Akademický Program SAS

Schvalovací proces žádostí o úvěr

IBM SPSS Modeler Premium

Stále větší množství dat uložených v databázích Neustále generujeme data Obchodní a bankovní transakce

Text Mining: SAS Enterprise Miner versus Teragram. Petr Berka, Tomáš Kliegr VŠE Praha

StatSoft Úvod do data miningu

Obsah ČÁST I JAK SE UCHÁZET O ZÁKAZNÍKY NA WEBU KAPITOLA 1

BIG DATA je oveľa viac ako Hadoop. Martin Pavlík

Analýza a vizualizace dat

České Budějovice. 2. dubna 2014

Surfujte v business analýze jako profík. Naučíme Vás podpořit klíčová rozhodnutí firmy.

Dolování z textu. Martin Vítek

Některé potíže s klasifikačními modely v praxi. Nikola Kaspříková KMAT FIS VŠE v Praze

1. Data mining. Strojové učení. Základní úlohy.

HR reporting aneb kouzla s daty Jan Pavelka

Obsah Úvod 11 Jak být úspěšný Základy IT

Konvergovaná bezpečnost v infrastrukturních systémech

ANALÝZA NÁKUPNÍHO KOŠÍKU SEMINÁŘ

STATISTICKÉ PROGRAMY

ANALÝZA A KLASIFIKACE DAT

Proces vývoje HRIS Vema (Human Resources Information System) Jaroslav Šmarda

powerful SAP-Solutions

IBM SPSS Exact Tests. Přesné analýzy malých datových souborů. Nejdůležitější. IBM SPSS Statistics

Tovek Tools. Tovek Tools jsou standardně dodávány ve dvou variantách: Tovek Tools Search Pack Tovek Tools Analyst Pack. Připojené informační zdroje

Algoritmy a struktury neuropočítačů ASN P9 SVM Support vector machines Support vector networks (Algoritmus podpůrných vektorů)

Přednáška 13 Redukce dimenzionality

PRODUKTY. Tovek Tools

Nová dimenze rozhodovacího procesu

Asociační i jiná. Pravidla. (Ch )

Management informačních systémů. Název Information systems management Způsob ukončení * přednášek týdně

ADMINISTRACE POČÍTAČOVÝCH SÍTÍ. OPC Server

Surfujte v business analýze jako profík. Naučíme Vás podpořit klíčová rozhodnutí firmy.

Úvod do informačních a řídicích systémů. lení

Geoinformatika. I Geoinformatika a historie GIS

Dobývání znalostí z webu web mining

PowerOPTI Řízení účinnosti tepelného cyklu

SAP a SUSE - dokonalá symbióza s open source. Martin Zikmund Technical Account Manager

Information and Data Management. RNDr. Ondřej Zýka

KOMPETENČNÍ CENTRUM COLLABORATION SOLUTIONS

1. Dobývání znalostí z databází

Jak využít data o zákaznících ke zvýšení příjmů z prodeje

Uznávání předmětů ze zahraničních studijních pobytů

Data science pro Business. Jak řídit svého Nerda

Obsah. Co je to Field-Map? Field-Map software Popis technologie Field-Map Zdroje

Mgr. Jan Folbrecht Senior softwarový inženýr, softwarový architekt, manažer

Neuronové časové řady (ANN-TS)

Mark tingový výzkum. Téma. Marketingový výzkum. Realizace. Tomek - Vávrová Katedra ekonomiky, manažerství a humanitních věd FEL-ČVUT Y16MVY

CASE. Jaroslav Žáček

Analýzou dat k efektivnějšímu rozhodování

Role BI v e-business řešeních pohled do budoucnosti

Transkript:

Vybrané partie použity s laskavým svolením Mgr. Martina Řezáče, Ph.D.

M8DM1 Data mining I - informace Přednášky: metodologie data miningu Cvičení: použití metod v SASu Podmínky cvičení: Pravidelná aktivní účast na cvičeních Úspěšné zvládnutí testu na počítači Pokud nesplníte danou podmínku, bude vám odebrán 1 bod u zkoušky! Zkouška: Obhájení projektu Otázky z přednesené teorie Konzultační hodiny: podle (e-mailové) dohody

M8DM1 Data mining I plán přednášek Úvod do data miningu Organizace dat, databázové systémy Příprava, čištění a předzpracování dat Metody redukce dimenze Exploratorní analýza, vizualizace dat Kontingenční tabulky, korespondenční analýza Asociační analýza (analýza nákupního košíku) Shluková analýza Lineární regrese (odlehlá pozorování, multikolinearita) Logistická regrese, credit scoring Rozhodovací stromy

M8DM1 Data mining I literatura Paolo Giudici: Applied Data Mining - Statistical Methods for Business and Industry (2003). David Hand, Heikki Mannila and Padhraic Smyth: Principles of Data Mining (2001). Matthew North: Data Mining for the Masses (2012). Jiawei Han and Micheline Kamber: Data Mining Concepts and Techniques (2006). Petr Berka: Dobývání znalostí z databází (2003). Pavel Petr: Data mining (2006).

M9DM2 Data mining II vyučován jednou za 2 roky (podzim 2016) pokračování DM1 s důrazem na praktické použití metod vybrané přednášky a cvičení vedené odborníky z praxe: 1 Air Bank 2 Home Credit 3 Knoyd 4 a další prohloubení znalostí z kurzu Data mining I: 1 SQL 2 Credit scoring 3 Text mining 4 Pokročilá příprava dat 5 Social Network Analysis

Certifikát Data mining in SAS Studenti vysokých škol zapojených do akademického programu SAS mají možnost získat certifikát prokazující získané znalosti softwaru SAS. Certifikáty uděluje společně Masarykova univerzita a SAS Institute ČR. Seznam držitelů uveden na internetu; možnost zapojení do praxe. Podmínky: úspěšné absolvování předmětu M8DM1 absolvování 3 e-learningových kurzů na stránkách SASu

Úvod do data miningu definice, historie, aplikace Software pro DM Seznámení se SASem 7

Ukázka aktuálních pracovních nabídek 8

Ukázka aktuálních pracovních nabídek 9

Ukázka aktuálních pracovních nabídek 10

Co je to Data mining? Data mining (DM), nebo také dolování z dat či vytěžování dat, je analytická metodologie získávání netriviálních skrytých a potenciálně užitečných informací z dat. [wikipedia] 11

Další definice DM proces výběru, prohledávání a modelování ve velkých objemech dat sloužící k odhalení dříve neznámých vztahů mezi daty za účelem získání obchodní výhody. proces vyhledávání skrytých závislostí a upozorňování na odlišnosti. DM znamená mnoho různých postupů a algoritmů, které umožní odhalit a plně využít vztahy ukryté v datech. Díky výkonným analytickým metodám objevíte důležité informace, které se stanou Vaší konkurenční výhodou. proces, který používá různé analytické nástroje pro odhalení ukrytých vzorů a závislostí v datech. Výsledkem je predikční model, který je podkladem pro rozhodování. proces objevování znalostí, pomocí získávání dříve neznámých akčních informací z velmi rozsáhlých databází. netriviální proces zjišťování platných, neznámých, potenciálně užitečných a snadno pochopitelných závislostí v datech. 12

Dobývání znalostí z databází (KDD, Knowledge Discovery in Databases) Se zaměřuje na celý proces získávání znalostí z dat: kde a jak jsou data ukládána a skladována jaké algoritmy použít pro velká data jaká je jejich efektivita interpretace a vizualizace výsledků automatizace [Fayyad et al., 1996] 13

Technologický proces KDD 1. Selekce: Příprava z dat, uložených v datovém skladu či tabulkách informačního systému, vede k vytvoření jedné tabulky, která obsahuje relevantní údaje o sledovaných objektech. 2. Předzpracování: Dochází k odstranění odlehlých hodnot, vyčištění datových chyb a výpočtu odvozených hodnot. Tato část procesu dobývání znalostí z databází může být vysoce výpočetně náročná. 3. Transformace: Dochází k diskretizaci spojitých veličin, například pro metody pracující s entropií jednotlivých atributů. 4. Data mining: Zde se používají vybrané analytické metody pro nalezení souvislostí v datech. Jedná se o výpočetně a paměťově nejnáročnější část celého procesu. Během procesu se využívají metody různých druhů v závislosti na předchozích výsledcích analytických metod. 5. Interpretace: Zpracovává velké množství výsledků jednotlivých metod. Některé výsledky lze přímo interpretovat, jiné se musí upravit do podoby srozumitelné pro uživatele. 14

Technologický proces KDD 15

Technologický proces KDD Increasing potential to support business decisions Making Decisions End User Data Presentation Visualization Techniques Data Mining Information Discovery Business Analyst Data Analyst Data Exploration Statistical Analysis, Querying and Reporting Data Warehouses / Data Marts OLAP, MDA Data Sources Paper, Files, Information Providers, Database Systems, OLTP DBA 16

Data mining vs. KDD KDD proces objevování užitečných informací z dat (od přípravy dat až po tvorbu výstupů a reportů). Data mining jeden krok tohoto procesu. Někdy se pod pojmem data mining myslí celý proces KDD. A tak ho také budeme chápat my. 17

Jsou všechny informace zajímavé? lehce pochopitelné platné i na nových datech potenciálně užitečné nové, dosud neznámé potvrzující nějakou naši domněnku Umí DM odhalit všechny užitečné informace? Umí DM odhalit jen ty užitečné informace? 18

Jsou všechny informace zajímavé? 19

Jsou všechny informace zajímavé? 20

Jsou všechny informace zajímavé? 21

Typické aplikace DM Analýza úvěrového rizika - výběr a ověřování kandidátů žádajících o úvěr; tvorba prediktivního modelu, založeného na známém chování stávajících klientů. Segmentace zákazníků- rozčlenění zákazníků do menších homogenních skupin dle segmentačních kritérií. Analýzou vzniklých údajů vznikne několik shluků s podobnými potřebami a charakteristikami (stejné postoje, podobná věková hranice apod.). Analýza odchodu zákazníků (churn management) - prediktivní model získaný analýzou dat o zákaznících lze použít pro plánování akcí, jenž mohou zabránit odchodu stávajících, nejrizikovějších, zákazníků. 22

Typické aplikace DM Detekce podvodů (fraud detection) - pomocí prediktivního modelování lze odhalit podezřelé chování či platební styk. Analýza produktů (market basket analysis) - přímá aplikace analýzy asociací - umožňuje definovat komplementární produkty pro dané segmenty zákazníků. Analýza chování zákazníků - predikce např. vývoje poptávky na základě historických dat. 23

Další aplikace DM Medicína: efektivita léčebné péče Analýza pacientovy historie (předchozí nemoci a jejich průběh): nalezení vztahu mezi nemocemi. Farmacie: identifikace nových léků Vědecká analýza dat: Identifikace nových galaxií. Design webových stránek: Nalezení vztahu návštěvníka stránek a příslušná změna podoby stránek. 24

Další aplikace DM Rozpoznávání psaného textu, řeči, obrázků. Sociální sítě Mapování, měření a monitorování vztahů a informačních toků mezi jednotlivci, skupinami, počítači, Průmysl Automatické přenastavení ovládacích prvků při změně parametrů procesu. Sport NBA-optimalizace herní strategie Další 25

Příklad - segmentace zákazníků obchodu s elektronikou Chceme oslovit své zákazníky s novou nabídkou. Jsou opravdu všichni zákazníci z jednoho těsta? Máme skutečně všem posílat stejnou nabídku? Cíl: identifikovat skupiny zákazníků, kteří mají podobné chování a posílat jim reklamu na míru prostřednictvím jednoho z následujících komunikačních kanálů: Papírový direkt mail Telemarketing Elektronický direkt mail SMS 26

Příklad - segmentace zákazníků obchodu s elektronikou 27

Příklad - Analýza nákupního košíku Cíl: identifikovat zboží, které je nakupováno souběžně dostatečným množstvím zákazníků. Účel: rozmístění zboží v regálech, tvorba letáků a akčních nabídek, doporučované produkty. Výsledek: Jestliže zákazník nakupuje dětské pleny a mléko, pak si velmi pravděpodobně koupí i pivo. 28

Příklad - Analýza nákupního košíku Jedna z možných interpretací: Správné interpretace výsledků analýz je schopen jen zkušený analytik. 29

Historie data miningu 1960 s: Data Fishing, Data Dredging (bagrování): rozvoj počítačové techniky, spíše akademické záležitosti 1970 s - 1980 s: rozvoj statistických metod, databázových aplikací a umělé inteligence, rychlý růst rychlosti a paměti počítačů zpočátku terčem kritiky statistiků: analyzování dat bez nějaké apriorní hypotézy; hledání korelací ve velkých datech 1990 s: metody, umožňující vyhnout se nebezpečí falešných korelací (například kontrola založená na vynechaných datech, MCMC). Navíc zejména v USA rostla poptávka ze strany komerčních organizací (velké objemy dat, neschopnost z nich pomocí klasických metod získat potřebné podklady pro rozhodování). 30

Historie názvu DM 1980 s: Database Mining ochranná známka firmy HNC 1989 Knowledge Discovery (KD, KDD) užíváno komunitou zabývající se umělou inteligencí a strojovým učením 1990 Data Mining užíváno v komerční sféře a databázové komunitě Další názvy: Data Archaeology, Information Harvesting, Information Discovery, Knowledge Extraction, Predictive Analytics(2007), Data Science (2011),.. 31

Proč data mining? Proč dnes? Data jsou produkována. Data jsou skladována. Výpočetní síla je dostupná. Výpočetní síla je cenově dostupná. Konkurenční tlak je velice silný. Komerční produkty (DM software) jsou k dispozici. 32

Data mining nutnost? 33

Data mining nutnost? Terabytes -- 10^12 bytes: data obchodních řetězců, bank, Petabytes -- 10^15 bytes: geografická data Exabytes -- 10^18 bytes: národní databáze zdravotních záznamů Zettabytes -- 10^21 bytes: databáze meteo-snímků Zottabytes -- 10^24 bytes: video-databáze 34

Data mining nutnost? 35

Data mining vs. Statistická analýza Data Mining Původně vyvinuto pro expertní systémy automaticky řešící zadané problémy. Neklade takový důraz na přesné porozumění použité metody. Pokud něco dává smysl, pak to použijme! Žádné předpoklady o datech. Funguje i pro velmi rozsáhlá data. Vyžaduje porozumění problému z datovému a business pohledu. Statistická analýza Testuje se statistická korektnost modelu. Jsou statistické předpoklady modelu splněny? Testování hypotéz. Intervalové odhady. Pracuje se s výběrem hodnot. Standardní metody nejsou optimalizovány pro rozsáhlá data. Vyžaduje pokročilé statistické znalosti. 36

Vztah s ostatními disciplínami Databázové technologie Statistika Strojové učení Data Mining Vizualizace Informační technologie Ostatní vědní disciplíny 37

Data miningové metodologie 1. 5A (SPSS) - Assess, Access, Analyze, Act, Automate 2. SEMMA (SAS) - Sample, Explore, Modify, Model, Assess 3. CRISP-DM (Statistica) -CRoss Industry Standard Process for Data Mining 4. SixSigma - Define, Measure, Analyze, Improve, Control 38

SEMMA (Sample, Explore, Modify, Model, Assess) Sample - identifikovat vhodná učící data, určit odpovídající rozsah dat, a to jak z pohledu časového okna tak i z pohledu počtu případů. Dále se doporučuje rozdělit data na 3 skupiny: Trénovací využívá se pro vývoj modelu. Validační využívá se pro vyhodnocení modelu a pro prevenci proti přeučení (overfitting) modelu. Testovací využívá se pro finální vyhodnocení modelu. Zajímá nás především, jak dobře se model chová na datech disjunktních s daty, na kterých byl model vyvinut. Explore - připravit popisné statistiky, které poskytnou základní představu o obsahu a kvalitě podkladových dat. Pomocí vizualizačních technik odhalit skryté trendy a závislosti v datech. Modify - na základě předchozího kroku konsolidovat data a odvodit nové proměnné. Následně transformovat data do tvaru vhodného pro modelování. Model - vytvořit příslušný model. Assess - vyhodnotit úspěšnost modelu a případně implementovat model do praxe. 39

CRISP-DM (CRoss Industry Standard Process for Data Mining) 1. pochopení obchodních souvislostí 2. pochopení dat 3. příprava dat 4. modelování 5. vyhodnocení modelu 6. nasazení modelu do obchodního procesu http://community.udayton.edu/provost/it/training/documents/spss_crispwplr.pdf 40

Fáze CRISP-DM procesu (1 & 2) Porozumění obchodu (Business Understanding): Stanovení business cílů. Stanovení data miningových cílů. Stanovení kriterií úspěchu. Porozumění datům (Data Understanding): Průzkum dat a ověření jejich kvality. Nalezení odlehlých hodnot. 41

Fáze CRISP-DM procesu (3) Příprava dat (Data preparation): Obvykle zabírá přes 90% celkového času. Sběr dat Konsolidace a čištění Vazební tabulky, agregace, chybějící hodnoty, Selekce Ignorování neužitečných dat? Odlehlá pozorování? Výběr dat? Vizualizační nástroje. Transformace vytváření nových odvozených proměnných 42

Fáze CRISP-DM procesu (4) Modelování (Model building) Výběr vhodných modelovacích technik závisí na stanovených data miningových cílech (deskriptivní vs. prediktivní modelování). Modelování je většinou iterační proces propojený s přípravou dat. Rozdílný přístup pro supervised a unsupervised learning. 43

Supervised a unsupervised learning Supervised learning: Supervize: Data (pozorování, měření, atp.) jsou označena předem definovanými/známými třídami. Nová/testovací data jsou následně rozřazena do těchto tříd. Z pohledu kauzality daný model definuje vztah mezi vstupními daty a daty výstupními. Unsupervised learning: Předem nejsou definované žádné třídy. Pro daná data je cílem prokázat existenci nějakých tříd. Z pohledu kauzality jsou všechna data chápána jako výstupní. Modelujeme závislost daných dat na jakýchsi neznámých skrytých proměnných. 44

Základní přístupy k modelování Deskriptivní: jde o matematický model popisující historické události a předpokládané nebo reálné vazby mezi nimi. Shluková analýza Asociační pravidla Korelační analýza Faktorová analýza, analýza hlavních komponent Prediktivní: jde o matematický model předpovídající (s určitou přesností) budoucí hodnotu/chování nějaké veličiny (entity). Regrese Klasifikační a regresní stromy Analýza časových řad 45

Deskriptivní modelování Základním cílem je získání ucelených a snadno srozumitelných informací z dostupných dat. Někdy součástí průzkumové (explorační) analýzy, předcházející prediktivnímu modelování, někdy je vytvoření deskriptivního modelu hlavním cílem DM projektu. 46

Shluková analýza V datech chceme nalézt skupiny (shluky) pozorování, které jsou si v jistém smyslu podobné Např. máme nalézt skupiny stávajících zákazníků na základě platební historie tak, aby podobní klienti byli ve stejné skupině. 47

Prediktivní modelování - klasifikace Příklad: Na základě známých údajů o starých zákaznících a jejich platební morálce máme predikovat platební způsobilost nového žadatele o úvěr. Předchozí zákazníci Věk Příjem Zaměstnání Bydliště Typ zákazníka Klasifikátor Rozhodovací pravidlo Příjem > x Zaměst. = y Data nového žadatele Dobrý/ špatný 48

Klasifikační metody Cíl: na základě historických dat vytvořit rozhodovací pravidlo, které budoucí pozorování zařadí do určité třídy. Lineární regrese Zobecněné lineární modely (GLM) např. logistická regrese Metody nejbližšího souseda (KNN) Rozhodovací stromy Diskriminační analýza (LDA, ) Neuronové sítě Support vector machines (SVM) Bayesovské modely 49

Fáze CRISP-DM Procesu (5) Vyhodnocení modelu (Model Evaluation): Evaluace modelu: jak se chová na testovacích datech. Metody a kritéria závisí na typu modelu: Např. koincidenční matice pro klasifikační modely, průměrná chyba pro regresní modely, Interpretace modelu: důležitost a obtížnost interpretace značně závisí na zvolené modelovacím algoritmu. 50

Fáze CRISP-DM Procesu (6) Nasazení do praxe (Deployment) Je třeba určit, jak mají být výsledky využity. Kdo je bude využívat? Jak často budou využívány? Nasazení data miningových výsledků pomocí: Skórování databáze. Využití výsledků pomocí obchodních pravidel. Interaktivní on-line scoring. 51

Potenciální nebezpečí DM Zneužití osobních údajů Spam Trestná činnost Zneužití v genetice Sledování a špehování 52

Data miningový software - komerční Angoss KnowledgeSTUDIO Clarabridge HP Vertica Analytics Platform IBM SPSS Modeler KXEN Modeler Grapheme LIONsolver Microsoft Analysis Services NetOwl Oracle Data Mining SAS Enterprise Miner STATISTICA Data Miner Qlucore 53

Data miningový software - free Carrot2: Text and search results clustering framework. Chemicalize.org: A chemical structure miner and web search engine. ELKI: A university research project with advanced cluster analysis and outlier detection methods written in the Java language. GATE: a natural language processing and language engineering tool. KNIME: The Konstanz Information Miner, a user friendly and comprehensive data analytics framework. Massive Online Analysis (MOA): a real-time big data stream mining with concept drift tool in the Java programming language. NLTK (Natural Language Toolkit): A suite of libraries and programs for symbolic and statistical natural language processing (NLP) for the Python language. OpenNN: Open neural networks library. Orange: A component-based data mining and machine learning software suite written in the Python language. R: A programming language and software environment for statistical computing, data mining, and graphics. It is part of the GNU Project. RapidMiner: An environment for machine learning and data mining experiments. Tanagra: A visualisation-oriented data mining software, also for teaching. Torch: An open source deep learning library for the Lua programming language and scientific computing framework with wide support for machine learning algorithms. Weka: A suite of machine learning software applications written in the Java programming language. 54

Software -SPSS : www.acrea.cz 55

SPSS IBM SPSS Modeler 13 (dříve Clementine) 56

SPSS - zákazníci Citibank Europe Česká spořitelna Prvá stavebná sporiteľna Raiffeisen stavební spořitelna Česká školní inspekce Český statistický úřad Český telekomunikační úřad Česká televize Český rozhlas Slovenská televízia VW Slovakia Škoda auto Seznam RWE Česká rep. Plzeňský prazdroj ČEZ Economia Karlovarské minerální vody 57

Software -Statistica www.statsoft.cz 58

Statistica - zákazníci Allianz pojišťovna Czech Credit Bureau Česká exportní banka Česká kancelář pojistitelů Česká spořitelna Komerční banka Pojišťovna Kooperativa Pojišťovna VZP Prima banka Slovensko Raiffeisenbank ArcelorMittal Coca-Cola HBC ČR ČEPS Česká distribuční ČESKÁ RAFINÉRSKÁ Fischer Bohemia CHANCE Jaderná elektrárna Dukovany OLYMPUS C & S PEPSICO CZ RWE Interní služby Řízení letového provozu ČR Slovnaft ŠKODA AUTO 59

Software - SAS : www.sas.com 60

SAS (Statistical Analysis System) Vznik 1966-1976 v univerzitním prostředí (North Carolina State University) Původně aplikace v zemědělství, zvýšení výnosu plodin První verze SAS 71, pak nedostatek financí 1976 vznik společnosti SAS Institute, Inc. Dnes: největší soukromá softwarová společnost na světě (více než 13 700 zaměstnanců) Přes 50 000 zákazníků 61

SAS - zákazníci

SAS - stručné seznámení 2 základní SAS rozhraní: SAS windowing environment SAS Enterprise Guide (GUI) 63

SAS - stručné seznámení SAS Output SAS Explorer window Program editor window Output tab Log tab Editor tab 64

SAS EG - stručné seznámení Pomocí klikání a přetahování myší je budován procesní tok. Process Flow Task List SAS Output 65

SAS Statistická analýza: Popisná statistika Analýza kontingenčních (frekvenčních) tabulek Regresní, korelační, kovarianční analýza Logistická regrese Analýza rozptylu Testování hypotéz Diskriminační analýza Shluková analýza Analýza přežití 66

SAS Analýza časových řad: Regresní modely Modely se sezónními faktory Autoregresní modely ARIMA Metody exponenciálního vyrovnání 67

SAS - stručné seznámení Interaktivní moduly nebo programovací prostředí SAS Enterprise Miner SAS Time Series Studio SAS Forecast Studio SAS IML Studio SAS Data Quality Server SAS OLAP Server SAS Text Miner 68

SAS podpora studentů Online tutoriály Vzorová data a příklady Licence pro studenty Zadání a vedení diplomových prací Soutěž o nejlepší studentskou práci s využitím SASu SAS Student Ambassador Program SAS Student Network 69