Segmentace bankovních zákazníků algoritmem k- means LS 2014/2015 Michal Heřmanský xherm22
Obsah 1 Úvod... 3 1.1 CRISP- DM... 3 2 Porozumění problematice a datům... 4 3 Příprava dat... 5 4 Modelování... 5 5 Vyhodnocení výsledků... 7 5.1 Cluster model 1 k=3... 7 5.1.1 Interpretace... 8 5.2 Cluster model 2 k=4... 9 5.2.1 Interpretace... 10 5.3 Cluster model 3 k=5... 11 5.3.1 Interpretace:... 12 5.4 Cluster model 4 k=6... 13 5.4.1 Interpretace:... 14 6 Využití výsledků... 15 7 Zdroje... 16 8 Seznam obrázků... 16 9 Seznam tabulek... 16 2
1 Úvod Cílem práce je za použití metodiky CRISP- DM provést segmentaci zákazníků banky podle způsobu, kterým provádí transakce a podle jejich věku. Takové zadání může navrhnout například marketing, aby zjistil, jakým způsobem preferují zákazníci provádět transakce. Na základě výzkumu může být navržena a spuštěna kampaň na podporu např. internetového bankovnictví, pokud se prokáže, že je málo využívané. Jako nástroj pro analýzu byl zvolen program RapidMiner 5. Metodikou pro tuto práci je CRISP- DM. 1.1 CRISP- DM CRoss- Industry Standard Process for Data Mining je standardní model procesu dobývání znalostí z databází1 Obrázek 1 Metodika CRISP- DM Struktura tohoto dokumentu odpovídá procesu CRISP- DM: 1. Porozumění problematice a datům 2. Příprava dat 3
3. Modelování 4. Vyhodnocení výsledků 5. Využití výsledků 2 Porozumění problematice a datům Tato data se týkají zákazníků určité banky. Pro pochopení významu dat, je třeba správně pochopit názvy atributů, zde pomůže přiložený pdf dokument. Jsou identifkovány jednotlivé atributy a zjištěna kvalita dat. Jako zdroj informací posloužil přiložený pdf soubor. Význam Originální název Datový typ ID zákazníka Customer_ID integer Pohlaví Gender binominal Věk Age integer Kolik měsíců je zákazníkem banky Tenure integer Spořící účet Saving_Amount real Běžný účet Current_Amount real Termínovaný účet Time_Deposits_Amount real Podílové fondy Funds_Amount real Akciový účet Stocks_Amount real Pojištění Bank_Assurance_Amount real Životní pojištění Life_Assurance_Amount real Podnikatelský úvěr Business_Loan_Amount real Hypotéka Home_Loan_Amount real Spotřebitelský úvěr Consumer_Loan_Amount real Transkace na pobočce Branch_Transactions integer Transakce v bankomatu ATM_Transactions integer Mobilní transakce Phone_Transactions integer Interetové bankovnictví Internet_Transactions integer Trvalé bankovní příkazy Standing_Orders integer Nová kreditní karta New_Credit_Card_Flag integer Tabulka 1 Atributy a jejich význam 4
3 Příprava dat V další fázi přípravy byly přidány další atributy. Pro tento typ úlohy byla odvozená data zjednodušena. Zajímá nás, zda zákazníci využívají komunikační kanál, nebo ne, a zda využívají trvalé příkazy. Význam Název Datový typ Zákazník používá Branch_Transactions_flag Boolean přepážku Zákazník používá mobilní bankovnictví Phone_Transactions_flag Boolean Zákazník používá Internet_Transactions_flag Boolean internetové bankovnictví Zákazník využívá trvalé Standing Orders_flag Boolean příkazy Zákazník využívá výběry z bankomatu Atm_transactions_flag Boolean Tabulka 2 Odvozené atributy 4 Modelování Nejprve byla vybrána požadovaná data. CSV soubor obsahující analyzovaná data, obohacený o odvozené atributy. Dály byly vybrány potřebné atributy v tomto případě age, Branch_Transactions_flag, Phone_Transactions_flag, Internet_Transactions_flag, Standing Orders_flag, Atm_transactions_flag. V dalším kroku byla všechna data převedena na numerická. Algoritmus k- means nedokáže zpracovat binominální data. Dále je potřeba normalizovat uvedená data v intervalu 0 až 1. Jinak by velkou váhu při segmentaci získal pouze věk a binární záznamy by byly opomíjené. V následujícím kroku byl vybrán vzorek dat pro segmentaci (50 000 záznamů). Algoritmus k- means na vstupu požaduje zadat počet výsledných shluků (k). V dalším kroku byly zvoleny 4 typy clusterů. Liší se pouze počtem k shluků. Všechna ostatní nastavení zůstávají stejná. 5
Obrázek 2 Grafické znázornění postupu segmentace 6
5 Vyhodnocení výsledků Tato část obsahuje vyhodnocení výsledků segmentace. 5.1 Cluster model 1 k=3 Obrázek 3 Výsledek modelu 1 Obrázek 4 Textový výsledek modelu 1 7
Obrázek 5 Grafický výsledek modelu 1 5.1.1 Interpretace Modrý shluk: Starší zákazníci, kteří využívají služeb poboček, ale nikoliv bankomatů. V minimální míře využívají telefonní a internetové bankovnictví. Tomuto chování odpovídá i jejich vyšší věk. Zelený shluk: Tito zákazníci jsou nejmladší, zhruba polovina z nich navštěvuje pobočku, využívají bankomaty. V minimální míře využívají telefonické a internetové bankovnictví. Stejně tak i málo využívají trvalé příkazy. Můžeme je považovat za málo aktivní zákazníky. Červený shluk se liší od modrého pouze ve vysoké míře komunikace na pobočce. 8
5.2 Cluster model 2 k=4 Obrázek 6 Výsledek modelu 2 Obrázek 7 Textový výsledek modelu 2 9
Obrázek 8 Grafický výsledek modelu 2 5.2.1 Interpretace Modrý shluk: Tito klienti využívají služeb pobočky, ale vůbec ne bankomatů. Mají velkou averzi k telefonickému a internetovému bankovnictví. Nemají také žádné Trvalé příkazy. Jejich věk je vyšší. Zelený shluk: Tito klienti oproti předchozím nevyužívají vůbec pobočky. Jinak jsou naprosto totožní s modrým shlukem. Mají o trochu nižší věk. Žlutý shluk: Tito klienti jsou výrazně mladší než předchozí dvě skupiny. Spíše využívají pobočky, velmi používají bankomaty. Avšak jako obě přechozí skupiny mají averzi vůči telefonickému a internetovému bankovnictví. Stejně tak vůbec nevyužívají trvalé příkazy. Červený shluk: Tito zákazníci dávají velkou přednost pobočkám, v menší míře bankomatům. Téměř nevyužívají telefonní a internetové transakce. Velmi využívají trvalé příkazy. 10
5.3 Cluster model 3 k=5 Obrázek 9 Výsledek modelu 3 Obrázek 10 Textový výsledek modelu 3 11
Obrázek 11 Grafický výsledek modelu 3 5.3.1 Interpretace: Modrý shluk: Tito zákazníci nevyužívají vůbec služeb na pobočce, absolutně preferují bankomaty. Také nejsou příznivci telefonického a internetového bankovnictví. Nemají téměř žádné trvalé příkazy a jejich věk je nízký. Zelený shluk: Tito zákazníci se od předchozích odlišují vysokým využíváním poboček a nezájmem o bankomaty. Stejně jako předchozí skupina nevyužívají telefonní, internetové bankovnictví a nemají vůbec žádné trvalé příkazy. Azurový shluk: Tato skupina je rozdělena v používání poboček. Drtivá většina jich využívá, ale jako předchozí dvě skupiny téměř ignoruje telefonní a internetové bankovnictví. Ovšem velmi využívá trvalé příkazy. Žlutý shluk: zákazníci v tomto segmentu nevyužívají téměř žádné kanály. Nemají ani žádné trvalé příkazy. Lze je označit za neaktivní zákazníky. Červený shluk: Tito zákazníci se velmi podobají profilu první skupiny. Odlišují se velkým zájmem o transakce na pobočkách a vyšším počtem trvalých příkazů. Jejich věk je podobný. 12
5.4 Cluster model 4 k=6 Obrázek 12 Výsledek modelu 4 Obrázek 13 Textový výsledek modelu 4 13
Obrázek 14 Grafický výsledek modelu 4 5.4.1 Interpretace: Modrý shluk: Tato skupina zákazníků využívá transakce na pobočce a bankomaty. V minimální míře využívají telefonické a internetové bankovnictví. Nemají žádné trvalé příkazy. Jejich věk je spíše nižší. Světle modrý shluk: Zákazníci, kteří používají velmi pobočky k uskutečnění transakcí. V malé míře používají bankomaty. Nemají téměř žádný zájem o telefonní a internetové bankovnictví. Využívají trvalé příkazy. Jejich věk je vyšší. Azurový shluk: Tato skupina je charakteristická využíváním transakcí na pobočce a ignorováním bankomatů. Minimálně využívají internetové a telefonní bankovnictví. Nepoužívají trvalé příkazy a mají nízký věk. Zelený shluk: Tito zákazníci nevyužívají vůbec transakce na pobočce, ani bankomaty. Mají vyšší věk a jejich aktivita je téměř nulová. Žlutý shluk: Mladí zákazníci. Nevyužívají bankovní pobočky ale bankomaty. Téměř nepoužívají internetové a telefonní transakce. V malém měřítku používají trvalé příkazy. Červený shluk: Tito zákazníci jsou téměř totožní s azurovým shlukem. Jediným rozdílem je vysoký věk. 14
6 Využití výsledků Cílem práce bylo vytvořit několik uvnitř homogenních a vně heterogenních shluků zákazníků banky. Byly zvoleny čtyři typy segmentace lišící se pouze počtem předem definovaných segmentů. U tohoto způsobu segmentace je důležité vhodně zvolit počet shluků. Zde se mi jako nejlepší jevil cluster model 2, tedy k = 4. Větší počet shluků už vedl k velmi podobným skupinám. Bylo by zajímavé této segmentaci předložit větší počet atributů. V tomto případě byly pomíjeny finanční profily zákazníků, podle kterých by se dala lépe zvolit strategie oslovování. Ze segmentace vyplývá několik skutečností. Především je to nevyužívání moderních kanálů pro transakce. Zákazníci této banky preferují buď osobní kontakt na pobočce, nebo výběr z bankomatu. Ve všech segmentech naprosto minimálně využívali internetové a telefonní bankovnictví. Toto zjištění by mělo vést marketing a management banky ke kampani, která by zákazníky donutila vyzkoušet a přejít na tyto způsoby vedení financí. Ušetřil by se tím jak čas zákazníků strávený na pobočkách, tak i náklady banky na údržbu poboček a mzdová zátěž. 15
7 Zdroje 1. BERKA, Petr. Dobývání znalostí z databází. Vyd. 1. Praha: Academia, 2003, 366 s. ISBN 80-200-1062-9. 8 Seznam obrázků Obrázek 1 Metodika CRISP- DM... 3 Obrázek 3 Výsledek modelu 1... 7 Obrázek 4 Textový výsledek modelu 1... 7 Obrázek 5 Grafický výsledek modelu 1... 8 Obrázek 6 Výsledek modelu 2... 9 Obrázek 7 Textový výsledek modelu 2... 9 Obrázek 8 Grafický výsledek modelu 2... 10 Obrázek 9 Výsledek modelu 3... 11 Obrázek 10 Textový výsledek modelu 3... 11 Obrázek 11 Grafický výsledek modelu 3... 12 Obrázek 12 Výsledek modelu 4... 13 Obrázek 13 Textový výsledek modelu 4... 13 Obrázek 14 Grafický výsledek modelu 4... 14 9 Seznam tabulek Tabulka 1 Atributy a jejich význam... 4 Tabulka 2 Odvozené atributy... 5 16