Cíle supervizovaného učení Ondřej Háva
ACREA CR Využíváme více než 40 let zkušeností IBM s hlavním cílem: řízení rozhodovacích procesů Akvizice SPSS společností IBM v říjnu 2009 Přejmenování SPSS CR na ACREA CR 2011 Výhradní partner IBM pro sw IBM SPSS pro ČR a SR od 1998 Certifikát ISO 9001:2009 Certifikát NBÚ Vyhrazené Přes 700 uživatelských organizací Software pro sběr a statistickou analýzu dat, data mining a predikční modelování, optimalizace a deployment Služby konzultace, řešení dataminingových a analytických projektů, technická podpora Školení sw IBM SPSS, statistika, data mining, výzkum trhu www.acrea.cz 2 2
Produktové portfolio Deployment Správa analytických aktiv a jejich zavedení do praxe IBM SPSS Collaboration and Deployment Services IBM SPSS Decision Management Modelování Tvorba prediktivních modelů IBM SPSS Modeler Sběr dat Sběr dat různými komunikačními kanály IBM SPSS Data Collection Statistiky Zpracování dat a jejich statistická analýza IBM SPSS Statistics 3 3
Portfolio služeb Technická podpora softwaru Konzultace Statistická analýza dat Dataminingové projekty Softwarové doplňky Statistický a dataminingový audit Správa vybraných internetových aplikací
Portfolio školení Formy kurzů Veřejné kurzy (1denní semestrální) Kurzy na klíč (kurzy dle zadání zákazníků) Rekvalifikační kurzy (programy akreditované MŠMT) Oblasti výuky Software IBM SPSS Statistika a analýza dat Data mining Marketing a marketingový výzkum
DM metodologie
Pohledy na datamining Akademický Cílem je získat co nejpřesnější model Řešení je určeno pro publikaci v časopise Řešení zpravidla spočívá ve vylepšení modelovacího algoritmu Data miner dělá svou práci tak, aby za ni získal co nejvíce bodů Důraz na inovaci Ohlédnutí za řešením: vědecký článek Komerční Cílem je zvýšit ROI Řešení je určeno pro nasazení do praxe Řešení popisuje algoritmus rozhodování z dat Data miner musí pracovat efektivně, aby si na sebe vydělal Důraz na best practices Ohlédnutí za řešením: případová studie
Komerční dataminingové úlohy Akvizice Nábor zákazníků Křížový a následný prodej (Basket Analysis) Zvýšení hodnoty zákazníka Retence (Churn) Prodloužení doby života zákazníka Riziko Prevence selhání Podvody (Fraud) Podpora vyšetřování
Skórovací modely Nahrazení experta K čemu je nám umělá inteligence? Zjednodušení složitého problému V kolika dimenzích dokážeme rozhodovat? Projekce do 1D Co reprezentuje skóre?
Strojové učení S učitelem Pravděpodobnost aktivace produktu Pravděpodobnost přechodu ke konkurenci Pravděpodobnost selhání Pravděpodobnost podvodu Hodnota zákazníka Doba do selhání / podvodu / nákupu / odchodu Bez učitele Míra podobnosti k typickým profilům Míra anomálie
Stanovení dataminingových cílů Projekce obchodních potřeb do dataminingových cílů CRISP-DM Fáze: Business Understanding Úloha: Determine data mining goals
Projekce cílů dataminingového projektu Obchodní cíle Zefektivnění / optimalizace procesu akvizice nových zákazníků Zefektivnění / optimalizace kampaní pro stávající zákazníky Optimalizace retenčních kampaní Prevence a řízení rizik Zefektivnění kontrol a vyšetřování Otázky k zamyšlení Jak se stane prospekt zákazníkem? Jaké predikce potřebujeme pro křížový prodej? Zájem o konkrétní produkt? Který produkt? Kdy provést nabídku? Jak oslovit? Který kanál vybrat? Optimalizace kampaně nebo hodnoty zákazníka? Jak se pozná, že zákazník přešel ke konkurenci? Jak je definováno selhání? Co je to podvod?
Predikční cíle Co budeme predikovat? Chování? Vlastnost odvozenou z dat? Co bude popisovat skóre? Sklony k chování? Pravděpodobnost výskytu kombinace příznaků? Jak bude využito skóre? K ovlivnění chování / budoucnosti
Supervizované modely Při učení se opírají se o známou historii V modelovací matici je cílová proměnná Popisuje skutečné chování následující po predikci Vstupní proměnné musí být dostupné při nasazení do praxe Ale mohou též vycházet z historických údajů Predikce hodnoty výstupní proměnné pro nové případy se promítá do skóre Hodnota cílové proměnné bude stanovena v budoucnosti nebo se ji vůbec nedovíme Budoucí hodnota cílové proměnné může být ovlivněna akcí podmíněnou predikcí
Historická data Jak stará data jsou vhodná? Lze využít více historických pohledů na stejného zákazníka? Lze využít metody analýzy časových řad? Zpravidla je třeba zachytit dynamiku chování během tzv. sledovacího období Časové okno stanovené délky Tvořené ekvidistantními snímky Krátké časové řady V rámci přípravy dat se převedou na smysluplné ukazatele na úrovni zákazníka
Příklady Kreditní riziko Průměrný / minimální / maximální zůstatek na běžném účtu během posledního půlroku Počet kreditních obratů v posledním kvartálu Pojistné podvody Počet pojistných událostí během posledního roku Doba od poslední změny pojistné smlouvy Retence telekomunikace Počet stížností za poslední rok RFM skóre Recency: doba od posledního odchozího hovoru Frequency: počet odchozích hovorů za poslední měsíc Monetary: Provolané minuty / koruny za poslední měsíc
Jak historická data získat? Pravidelné zálohy databází Zatím se nikdy nepodařilo získat Datový sklad s historizací Dobře navržený Vytvoření vlastního datového tržiště Posune realizaci data miningového projektu o několik let
Návrh cílové proměnné Existuje přímo v datech V některém snímku po skórování Odvození ze snímků po skórování Vyžaduje know-how a zkušenosti Nedá se efektivně získat Informace v datech není nebo je jí málo Příliš nákladné Přejít na nesupervizované nebo částečně supervizované učení
Volba cílové proměnné Kategorizovaná Dichotomická Preferovaný přístup v 90% úloh Nominální Malý počet kategorií Zvážit převod na dichotomickou Číselná Škála Raději omezený interval Rozdělení Extrémy Šikmost Sloučením Vyloučením Samostatným modelem pro každou kategorii
Příklad 1: Zacílení marketingové kampaně Obchodní úloha Znásobit míru kladné reakce na zaslané nabídky v marketingové kampani Pozn.: neřešíme jak, čím a kdy oslovit, řešíme koho oslovit Dataminingová úloha Vytvořit skórovací model aplikovatelný na zákazníky nebo prospekty v databázi Skóre by mělo odrážet míru zájmu o nabízený produkt Na základě skóre vytvořit seznam adres pro zaslání nabídky Dávkové skórování
Příklad 1: Zacílení marketingové kampaně Získání cílové proměnné Podobná kampaň se v historii realizovala a jsou známy reakce oslovených Předpokládáme, že historický výběr nevyřadil zákazníky, kteří budou mít nyní o produkt zájem Alternativně můžeme udělat kampaň na malém prostém náhodném výběru nebo provést výzkum Výpočet skóre Supervizovaně modelujeme dichotomickou cílovou proměnnou Skóre poskytne dataminingový model Kvalitní DM software poskytne skóre u jakéhokoli modelu Jak byste konstruovali skóre vy?
Příklad 2: Selhání úvěru Obchodní úloha Zkvalitnit, zrychlit a automatizovat proces poskytování úvěrů Obezřetně nepřidělit úvěr nespolehlivým žadatelům Snížit míru subjektivního rozhodování při poskytování úvěrů Snížit podíl selhaných popř. vymáhaných úvěrů Dataminingová úloha Vytvořit skórovací model aplikovatelný na žadatele o úvěr Aplikační skórovací karta Pokud má banka více úvěrových produktů, zpravidla je třeba více karet Skóre by mělo odrážet pravděpodobnost selhání Skóre bude vystupovat jako jedno z kritérií ve schvalovacím procesu Skórování v reálném čase
Příklad 2: Selhání úvěru Získání cílové proměnné K dispozici jsou data předpisech splátek a pohybech na úvěrových účtech K selhání dlužníka dochází mnohem dříve než je úvěr vymáhán resp. Odstoupen Selhání se definuje na základě počtu dlužných splátek během sledovacího období Např. více než tři dlužné splátky kdykoli během následujícího roku po skórování Výpočet skóre Supervizovaně modelujeme dichotomickou cílovou proměnnou Skóre poskytne dataminingový model Skóre bývá kategorizováno a slouží jako podklad pro zařazení do rizikových tříd Úvěrové podmínky jsou determinovány rizikovou třídou
Příklad 3: Praní špinavých peněz Obchodní úloha Automaticky generovat seznam podezřelých transakcí pro pravidelné povinné hlášení regulátorovi Automatizovat schvalování požadovaných finančních operací Vytvořit AML systém Dataminingová úloha Vytvořit soustavu pravidel pro prověření každé finanční transakce Každé pravidlo bude ohodnoceno svojí závažností Nezávislá pravidla, aditivní závažnost Možnost odebírání, přidávání a modifikace pravidel Hledání anomálních vzorů v datech a převod anomálií na pravidla
Příklad 3: Praní špinavých peněz Získání cílové proměnné Prokázaných případů praní špinavých peněz je málo A jsou zastaralé Cílová proměnná není v datech a nelze získat výzkumem Nesupervizované modelování nebo částečně supervizované modelování Zákonná pravidla Expertní pravidla Anomálize Supervizované vzory podvodného chování Výpočet skóre Aditivní skóre ze všech pravidel Kategorizace skóre do rizikových skupin Možnost revize při modifikaci pravidel Kombinace kategorií různých sad pravidel Zpravidla supervizovaná a nesupervizovaná pravidla Dvoudimenzionální tabulka všech kombinací
DEMO nejdřív paradoxně ukaž modelování s hotovým cílem a pak konstrukci cíle. Ukonči evaluací a deploymentem.