Cíle supervizovaného učení Ondřej Háva

Podobné dokumenty
Obohacení dat o statistické výsledky a potenciál jejich využití

ANALÝZA NÁKUPNÍHO KOŠÍKU SEMINÁŘ

Profitabilita klienta v kontextu Performance management

Jak využít data o zákaznících ke zvýšení příjmů z prodeje

MODERNÍ METODY SEGMENTACE ZÁKAZNÍKŮ Ing. Miloš Uldrich ZÁKAZNICKÁ LOAJALITA A AKVIZICE VE FINANČNÍCH SLUŽBÁCH. StatSoft CR

IBM SPSS Decision Trees

STRUČNÝ PRŮVODCE ANALYTICKÝM PROCESEM

IBM SPSS Modeler Professional

Data mining. Letní semestr. únor červen Ondřej Brom lektor, analytik, konzultant spoluautor knihy SPSS Praktická analýza dat

Proč studovat matematické programy na ÚMS PřF MU aneb co pak budu dělat

IBM SPSS Exact Tests. Přesné analýzy malých datových souborů. Nejdůležitější. IBM SPSS Statistics

Jak si udržet zákazníky a nabídnout jim co nejvíce?

GIS jako důležitá součást BI. Jan Broulík, Petr Panec ARCDATA PRAHA, s.r.o.

Customer Intelligence, aneb Jak může neoblíbená analýza dat usnadnit práci marketingu

Manažerská ekonomika KM IT

Inovační vouchery s Univerzitou Hradec Králové. doc. Ing. Mgr. Petra Marešová, Ph.D. Ing. Richard Cimler

Datová věda (Data Science) akademický navazující magisterský program

StatSoft Úvod do data miningu

Představení společnosti Concordia Consulting CONCORDIA CONSULTING

Moderní systémy pro získávání znalostí z informací a dat

IBM SPSS Modeler. Hlavní přínosy. Intuitivní ovládání IBM

Kalendář kurzů. zimní semestr. září 2017 leden Podporujeme Váš profesionální růst

BIG DATA. Nové úlohy pro nástroje v oblasti BI. 27. listopadu 2012

Fraud management. Richard Dobiš

Data mining. Zimní semestr. září leden Petra Formánková, ředitelka centra výuky Ondřej Háva, vedoucí analytického oddělení

Objevte vzory v historických datech, které budou sloužit k predikci budoucích událostí, dělejte lepší rozhodnutí a dosáhněte lepších výsledků.

IBM SPSS Modeler Premium

Moderní metody automatizace a hodnocení marketingových kampaní

Katedra kybernetiky laboratoř Inteligentní Datové Analýzy (IDA) Katedra počítačů, Computational Intelligence Group

Statistika a analýza dat Data mining Marketingové analýzy Software IBM SPSS. Kalendář kurzů letní semestr únor červen 2018

Analýzou dat k efektivnějšímu rozhodování

Skóringový model. Stanovení pravděpodobnosti úpadku subjektu v následujících 12 měsících

V Brně dne 10. a

AKCIÍ COLOSSEUM, A.S. RYZE ČESKÁ SPOLEČNOST JIŽ 17 LET NA TRHU BROKER ROKU 2014, 2013, 2012, 2011 BEST FUTURES BROKER 2015

MORAVSKÁ VYSOKÁ ŠKOLA OLOMOUC

Jak získat nové a čerstvé adresy? Ing. Miroslav Červenka, Schober Information Group CZ a.s.

Jak přetavit data v hodnotné informace, které nesou peníze

IBM SPSS Neural Networks

Segmentace bankovních zákazníků algoritmem k- means

Kalendář kurzů. Zimní semestr září leden Praha / Bratislava. Statistika a analýza dat Data mining Software IBM SPSS a IBM Cognos

Aplikace moderních analytických a optimalizačních metod na data získaná z technologií Smart Metering

P R Ů M Y S L O V Ý M A R K E T I N G

Credit scoring. Libor Vajbar Analytik řízení rizik. 18. dubna Brno

SEGMENTACE ZÁKAZNÍKŮ PRO E-COMMERCE. Jan Matoušek

Specifika bankovního prostředí při monitoringu a analýze bezpečnostních incidentů. RNDr. Ondřej Zýka Profinit

P R Ů M Y S L O V Ý M A R K E T I N G

Role BI v e-business řešeních pohled do budoucnosti

Surfujte v business analýze jako profík. Naučíme Vás podpořit klíčová rozhodnutí firmy.

Projektování informačních systémů - Restaurace

MORAVSKÁ VYSOKÁ ŠKOLA OLOMOUC. Nabídka Inovačních voucherů

Segmentace, typologie. Základy marketingového výzkumu

Jak efektivně pracovat s ekonomickými informacemi? Petr Musil Bisnode a.s.

Dobývání a vizualizace znalostí

V Brně dne a

Program INOVACE II - Kritéria pro výběr projektu

P A N E L B O O K 2014

Problémové domény a jejich charakteristiky

Manažerské shrnutí projektu

5. Umělé neuronové sítě. Neuronové sítě

Atribuční modely. (aneb, které marketingové aktivity fungují a které ne) Pavel Trejbal

Získávání znalostí z dat

DESETIDENNÍ VZDĚLÁVACÍ PROGRAM

Signpads GE Money Bank Hana Čuboková. 17.Března 2014

Kapacita jako náhodná veličina a její měření. Ing. Igor Mikolášek, Ing. Martin Bambušek Centrum dopravního výzkumu, v. v. i.

České Budějovice. 2. dubna 2014

Automatická detekce anomálií při geofyzikálním průzkumu. Lenka Kosková Třísková NTI TUL Doktorandský seminář,

Neuronové časové řady (ANN-TS)

Management informačních systémů. Název Information systems management Způsob ukončení * přednášek týdně

Příprava dat v softwaru Statistica

O2 a jeho komplexní řešení pro nařízení GDPR

UČENÍ BEZ UČITELE. Václav Hlaváč

TEMATICKÉ OKRUHY PRO OPAKOVÁNÍ K MATURITNÍ ZKOUŠCE

Ing. Pavel Rosenlacher

GDPR co nastane po květnovém dni D? Martin Hladík 8. března 2018

Dnešní témata Informační systém, informační služba Podnikový informační systém

Systémy pro podporu. rozhodování. 2. Úvod do problematiky systémů pro podporu. rozhodování

7.6 Další diagramy UML

Aplikace IS, outsourcing, systémová integrace. Jaroslav Žáček

ÚVOD DO BSC - základy metody vyvážených ukazatelů. Ing. Petra Plevová

Obsah Úvod Kapitola 1 Než začneme Kapitola 2 Práce s hromadnými daty před analýzou

Okruhy ke státním závěrečným zkouškám Platnost: od leden 2017

Pokročilé operace s obrazem

7.6 Další diagramy UML

Architektura informačních systémů. - dílčí architektury - strategické řízení taktické řízení. operativní řízení a provozu. Globální architektura

Centrum pro rozvoj dopravních systémů

Obsah. Kapitola 1. Kapitola 2. Kapitola 3. Úvod 9

Schválená HZS ČR Květoslava Skalská prosinec 2011

Knowledge Management pro Raiffeisenbank. Jak jsme české bance umožnili snadnou tvorbu, schvalování a zpřístupňování aktuálních interních informací

Exponenciální modely hromadné obsluhy

Přehled funkčností a parametrů služby Internet Banka

2. Modelovací jazyk UML 2.1 Struktura UML Diagram tříd Asociace OCL. 3. Smalltalk 3.1 Jazyk Pojmenování

Základy tvorby výpočtového modelu

Vnitřní integrace úřadu Středočeského kraje

IBM SPSS Direct Marketing

ARCHITEKTURA INFORMAČNÍCH SYSTÉMŮ PODLE ÚROVNĚ ŘÍZENÍ

Kalendář kurzů letní semestr únor červen 2019

Učící se klasifikátory obrazu v průmyslu

PROCESY CO ZÍSKÁTE: Předpoklad pro certifikace ISO. Lean Six Sigma Fast Track

Výroční zpráva společnosti Corpus Solutions a.s. za rok Popis účetní jednotky. Název společnosti: Corpus Solutions

Transkript:

Cíle supervizovaného učení Ondřej Háva

ACREA CR Využíváme více než 40 let zkušeností IBM s hlavním cílem: řízení rozhodovacích procesů Akvizice SPSS společností IBM v říjnu 2009 Přejmenování SPSS CR na ACREA CR 2011 Výhradní partner IBM pro sw IBM SPSS pro ČR a SR od 1998 Certifikát ISO 9001:2009 Certifikát NBÚ Vyhrazené Přes 700 uživatelských organizací Software pro sběr a statistickou analýzu dat, data mining a predikční modelování, optimalizace a deployment Služby konzultace, řešení dataminingových a analytických projektů, technická podpora Školení sw IBM SPSS, statistika, data mining, výzkum trhu www.acrea.cz 2 2

Produktové portfolio Deployment Správa analytických aktiv a jejich zavedení do praxe IBM SPSS Collaboration and Deployment Services IBM SPSS Decision Management Modelování Tvorba prediktivních modelů IBM SPSS Modeler Sběr dat Sběr dat různými komunikačními kanály IBM SPSS Data Collection Statistiky Zpracování dat a jejich statistická analýza IBM SPSS Statistics 3 3

Portfolio služeb Technická podpora softwaru Konzultace Statistická analýza dat Dataminingové projekty Softwarové doplňky Statistický a dataminingový audit Správa vybraných internetových aplikací

Portfolio školení Formy kurzů Veřejné kurzy (1denní semestrální) Kurzy na klíč (kurzy dle zadání zákazníků) Rekvalifikační kurzy (programy akreditované MŠMT) Oblasti výuky Software IBM SPSS Statistika a analýza dat Data mining Marketing a marketingový výzkum

DM metodologie

Pohledy na datamining Akademický Cílem je získat co nejpřesnější model Řešení je určeno pro publikaci v časopise Řešení zpravidla spočívá ve vylepšení modelovacího algoritmu Data miner dělá svou práci tak, aby za ni získal co nejvíce bodů Důraz na inovaci Ohlédnutí za řešením: vědecký článek Komerční Cílem je zvýšit ROI Řešení je určeno pro nasazení do praxe Řešení popisuje algoritmus rozhodování z dat Data miner musí pracovat efektivně, aby si na sebe vydělal Důraz na best practices Ohlédnutí za řešením: případová studie

Komerční dataminingové úlohy Akvizice Nábor zákazníků Křížový a následný prodej (Basket Analysis) Zvýšení hodnoty zákazníka Retence (Churn) Prodloužení doby života zákazníka Riziko Prevence selhání Podvody (Fraud) Podpora vyšetřování

Skórovací modely Nahrazení experta K čemu je nám umělá inteligence? Zjednodušení složitého problému V kolika dimenzích dokážeme rozhodovat? Projekce do 1D Co reprezentuje skóre?

Strojové učení S učitelem Pravděpodobnost aktivace produktu Pravděpodobnost přechodu ke konkurenci Pravděpodobnost selhání Pravděpodobnost podvodu Hodnota zákazníka Doba do selhání / podvodu / nákupu / odchodu Bez učitele Míra podobnosti k typickým profilům Míra anomálie

Stanovení dataminingových cílů Projekce obchodních potřeb do dataminingových cílů CRISP-DM Fáze: Business Understanding Úloha: Determine data mining goals

Projekce cílů dataminingového projektu Obchodní cíle Zefektivnění / optimalizace procesu akvizice nových zákazníků Zefektivnění / optimalizace kampaní pro stávající zákazníky Optimalizace retenčních kampaní Prevence a řízení rizik Zefektivnění kontrol a vyšetřování Otázky k zamyšlení Jak se stane prospekt zákazníkem? Jaké predikce potřebujeme pro křížový prodej? Zájem o konkrétní produkt? Který produkt? Kdy provést nabídku? Jak oslovit? Který kanál vybrat? Optimalizace kampaně nebo hodnoty zákazníka? Jak se pozná, že zákazník přešel ke konkurenci? Jak je definováno selhání? Co je to podvod?

Predikční cíle Co budeme predikovat? Chování? Vlastnost odvozenou z dat? Co bude popisovat skóre? Sklony k chování? Pravděpodobnost výskytu kombinace příznaků? Jak bude využito skóre? K ovlivnění chování / budoucnosti

Supervizované modely Při učení se opírají se o známou historii V modelovací matici je cílová proměnná Popisuje skutečné chování následující po predikci Vstupní proměnné musí být dostupné při nasazení do praxe Ale mohou též vycházet z historických údajů Predikce hodnoty výstupní proměnné pro nové případy se promítá do skóre Hodnota cílové proměnné bude stanovena v budoucnosti nebo se ji vůbec nedovíme Budoucí hodnota cílové proměnné může být ovlivněna akcí podmíněnou predikcí

Historická data Jak stará data jsou vhodná? Lze využít více historických pohledů na stejného zákazníka? Lze využít metody analýzy časových řad? Zpravidla je třeba zachytit dynamiku chování během tzv. sledovacího období Časové okno stanovené délky Tvořené ekvidistantními snímky Krátké časové řady V rámci přípravy dat se převedou na smysluplné ukazatele na úrovni zákazníka

Příklady Kreditní riziko Průměrný / minimální / maximální zůstatek na běžném účtu během posledního půlroku Počet kreditních obratů v posledním kvartálu Pojistné podvody Počet pojistných událostí během posledního roku Doba od poslední změny pojistné smlouvy Retence telekomunikace Počet stížností za poslední rok RFM skóre Recency: doba od posledního odchozího hovoru Frequency: počet odchozích hovorů za poslední měsíc Monetary: Provolané minuty / koruny za poslední měsíc

Jak historická data získat? Pravidelné zálohy databází Zatím se nikdy nepodařilo získat Datový sklad s historizací Dobře navržený Vytvoření vlastního datového tržiště Posune realizaci data miningového projektu o několik let

Návrh cílové proměnné Existuje přímo v datech V některém snímku po skórování Odvození ze snímků po skórování Vyžaduje know-how a zkušenosti Nedá se efektivně získat Informace v datech není nebo je jí málo Příliš nákladné Přejít na nesupervizované nebo částečně supervizované učení

Volba cílové proměnné Kategorizovaná Dichotomická Preferovaný přístup v 90% úloh Nominální Malý počet kategorií Zvážit převod na dichotomickou Číselná Škála Raději omezený interval Rozdělení Extrémy Šikmost Sloučením Vyloučením Samostatným modelem pro každou kategorii

Příklad 1: Zacílení marketingové kampaně Obchodní úloha Znásobit míru kladné reakce na zaslané nabídky v marketingové kampani Pozn.: neřešíme jak, čím a kdy oslovit, řešíme koho oslovit Dataminingová úloha Vytvořit skórovací model aplikovatelný na zákazníky nebo prospekty v databázi Skóre by mělo odrážet míru zájmu o nabízený produkt Na základě skóre vytvořit seznam adres pro zaslání nabídky Dávkové skórování

Příklad 1: Zacílení marketingové kampaně Získání cílové proměnné Podobná kampaň se v historii realizovala a jsou známy reakce oslovených Předpokládáme, že historický výběr nevyřadil zákazníky, kteří budou mít nyní o produkt zájem Alternativně můžeme udělat kampaň na malém prostém náhodném výběru nebo provést výzkum Výpočet skóre Supervizovaně modelujeme dichotomickou cílovou proměnnou Skóre poskytne dataminingový model Kvalitní DM software poskytne skóre u jakéhokoli modelu Jak byste konstruovali skóre vy?

Příklad 2: Selhání úvěru Obchodní úloha Zkvalitnit, zrychlit a automatizovat proces poskytování úvěrů Obezřetně nepřidělit úvěr nespolehlivým žadatelům Snížit míru subjektivního rozhodování při poskytování úvěrů Snížit podíl selhaných popř. vymáhaných úvěrů Dataminingová úloha Vytvořit skórovací model aplikovatelný na žadatele o úvěr Aplikační skórovací karta Pokud má banka více úvěrových produktů, zpravidla je třeba více karet Skóre by mělo odrážet pravděpodobnost selhání Skóre bude vystupovat jako jedno z kritérií ve schvalovacím procesu Skórování v reálném čase

Příklad 2: Selhání úvěru Získání cílové proměnné K dispozici jsou data předpisech splátek a pohybech na úvěrových účtech K selhání dlužníka dochází mnohem dříve než je úvěr vymáhán resp. Odstoupen Selhání se definuje na základě počtu dlužných splátek během sledovacího období Např. více než tři dlužné splátky kdykoli během následujícího roku po skórování Výpočet skóre Supervizovaně modelujeme dichotomickou cílovou proměnnou Skóre poskytne dataminingový model Skóre bývá kategorizováno a slouží jako podklad pro zařazení do rizikových tříd Úvěrové podmínky jsou determinovány rizikovou třídou

Příklad 3: Praní špinavých peněz Obchodní úloha Automaticky generovat seznam podezřelých transakcí pro pravidelné povinné hlášení regulátorovi Automatizovat schvalování požadovaných finančních operací Vytvořit AML systém Dataminingová úloha Vytvořit soustavu pravidel pro prověření každé finanční transakce Každé pravidlo bude ohodnoceno svojí závažností Nezávislá pravidla, aditivní závažnost Možnost odebírání, přidávání a modifikace pravidel Hledání anomálních vzorů v datech a převod anomálií na pravidla

Příklad 3: Praní špinavých peněz Získání cílové proměnné Prokázaných případů praní špinavých peněz je málo A jsou zastaralé Cílová proměnná není v datech a nelze získat výzkumem Nesupervizované modelování nebo částečně supervizované modelování Zákonná pravidla Expertní pravidla Anomálize Supervizované vzory podvodného chování Výpočet skóre Aditivní skóre ze všech pravidel Kategorizace skóre do rizikových skupin Možnost revize při modifikaci pravidel Kombinace kategorií různých sad pravidel Zpravidla supervizovaná a nesupervizovaná pravidla Dvoudimenzionální tabulka všech kombinací

DEMO nejdřív paradoxně ukaž modelování s hotovým cílem a pak konstrukci cíle. Ukonči evaluací a deploymentem.