Big Data Science Petr Paščenko

Podobné dokumenty
Detekce zneužití online kanálů Profinit. All rights

Segmentace bankovních zákazníků algoritmem k- means

ZÍSKÁVÁNÍ ZNALOSTÍ Z DATABÁZÍ

Katedra kybernetiky laboratoř Inteligentní Datové Analýzy (IDA) Katedra počítačů, Computational Intelligence Group

MODERNÍ METODY SEGMENTACE ZÁKAZNÍKŮ Ing. Miloš Uldrich ZÁKAZNICKÁ LOAJALITA A AKVIZICE VE FINANČNÍCH SLUŽBÁCH. StatSoft CR

Získávání dat z databází 1 DMINA 2010

Obsah. Předmluva 13. O autorovi 15. Poděkování 16. O odborných korektorech 17. Úvod 19

ZÍSKÁVÁNÍ ZNALOSTÍ Z DATABÁZÍ

METODY DOLOVÁNÍ V DATECH DATOVÉ SKLADY TEREZA HYNČICOVÁ H2IGE1

Úvodem Dříve les než stromy 3 Operace s maticemi

Proč studovat matematické programy na ÚMS PřF MU aneb co pak budu dělat

BIG DATA. Nové úlohy pro nástroje v oblasti BI. 27. listopadu 2012

PowerOPTI Řízení účinnosti tepelného cyklu

Využití metod strojového učení v bioinformatice David Hoksza

ANALÝZA A KLASIFIKACE DAT

Dobývání a vizualizace znalostí

StatSoft Úvod do data miningu

Dobývání a vizualizace znalostí. Olga Štěpánková et al.

Učící se klasifikátory obrazu v průmyslu

Moderní systémy pro získávání znalostí z informací a dat

ZÁKLADY PROGRAMOVÁNÍ. Mgr. Vladislav BEDNÁŘ /14

Využití strojového učení k identifikaci protein-ligand aktivních míst

Dobývání a vizualizace znalostí

Algoritmy a struktury neuropočítačů ASN - P10. Aplikace UNS v biomedicíně

Algoritmy a struktury neuropočítačů ASN - P11

Profilování vzorků heroinu s využitím vícerozměrné statistické analýzy

Marketingová komunikace. 3. soustředění. Mgr. Pavel Vávra Kombinované studium Skupina N9KMK3PH (vm3bph)

1. Vlastnosti diskretních a číslicových metod zpracování signálů... 15

Vícerozměrné metody. PSY117/454 Statistická analýza dat v psychologii Přednáška 12. Schematický úvod

ANALÝZA NÁKUPNÍHO KOŠÍKU SEMINÁŘ

Obsah. Kapitola 1 Hardware, procesory a vlákna Prohlídka útrob počítače...20 Motivace pro vícejádrové procesory...21

Schvalovací proces žádostí o úvěr

Statistické metody v ekonomii. Ing. Michael Rost, Ph.D.

Dobývání a vizualizace znalostí

Surfujte v business analýze jako profík. Naučíme Vás podpořit klíčová rozhodnutí firmy.

Panelová diskuse Technologie pro byznys

Inovační vouchery s Univerzitou Hradec Králové. doc. Ing. Mgr. Petra Marešová, Ph.D. Ing. Richard Cimler

Podvody v bankovní praxi

DOBÝVÁNÍ ZNALOSTÍ Z DATABÁZÍ

Přednáška 13 Redukce dimenzionality

Cíle supervizovaného učení Ondřej Háva

ABBYY Automatizované zpracování dokumentů

Profitabilita klienta v kontextu Performance management

Automatická detekce anomálií při geofyzikálním průzkumu. Lenka Kosková Třísková NTI TUL Doktorandský seminář,

Aplikace moderních analytických a optimalizačních metod na data získaná z technologií Smart Metering

Strojové učení a dolování dat. Vybrané partie dolování dat 2016/17 Jan Šimbera

Moderní metody automatizace a hodnocení marketingových kampaní

Bezpečnost internetového bankovnictví, bankomaty

BA_EM Electronic Marketing. Pavel

Mýty v řízení rizik podvodu. Tomáš Kafka Partner Forenzní služby

TISKOVÁ KONFERENCE. Volksbank CZ, a.s. 16. dubna 2008, Tančící dům, Praha. Marketing

Získávání znalostí z databází. Alois Kužela

Datová věda (Data Science) akademický navazující magisterský program

Sázková kancelář Z pekla štěstí

ANALÝZA A KLASIFIKACE DAT

DATA MINING KLASIFIKACE DMINA LS 2009/2010

Signpads GE Money Bank Hana Čuboková. 17.Března 2014

Automatizační a měřicí technika (B-AMT)

Pokročilé operace s obrazem

Big Data a oficiální statistika. Unicorn College Open 24. dubna 2015 Doc. Ing. Marie Bohatá, CSc.

Metody analýzy modelů. Radek Pelánek

4EK201 Matematické modelování. 11. Ekonometrie

Chatboti Virtuální pomocníci pro váš byznys. Watson Solution Market. 14. září 2017 ParkHotel Praha

DATABÁZOVÉ SYSTÉMY. Metodický list č. 1

Silná autentizace a detekce fraudu (nejen) ve finančním sektoru jak to udělat správně

Instance based learning

Základy business intelligence. Jaroslav Šmarda

Analytické procedury v systému LISp-Miner

Úvod do optimalizace, metody hladké optimalizace

K možnostem krátkodobé předpovědi úrovně znečištění ovzduší statistickými metodami. Josef Keder

Specifika bankovního prostředí při monitoringu a analýze bezpečnostních incidentů. RNDr. Ondřej Zýka Profinit

Predikce a řízení incidentů, událostí a poruchových stavů v reálném čase

2. Modelovací jazyk UML 2.1 Struktura UML Diagram tříd Asociace OCL. 3. Smalltalk 3.1 Jazyk Pojmenování

Ústav automatizace a měřicí techniky.

Získávání znalostí z dat

Strojové učení se zaměřením na vliv vstupních dat

OPTIMÁLNÍ SEGMENTACE DAT

Data Science projekty v telekomunikační společnosti

TERMINOLOGIE ... NAMĚŘENÁ DATA. Radek Mareček PŘEDZPRACOVÁNÍ DAT. funkční skeny

Spark SQL, Spark Streaming. Jan Hučín

1. Data mining. Strojové učení. Základní úlohy.

Surfujte v business analýze jako profík. Naučíme Vás podpořit klíčová rozhodnutí firmy.

BIG DATA je oveľa viac ako Hadoop. Martin Pavlík

Strojové učení Marta Vomlelová

Spark SQL, Spark Streaming. Jan Hučín

Příprava dat v softwaru Statistica

Otevřená data ČSSZ: Přehledné informace dostupné všem, snadno a zdarma. Ing. Jiří Šunka Ing. Michaela Hendrychová. ISSS Hradec Králové, 5. 4.

ANALÝZA DAT V R 9. VÝPOČET VELIKOSTI SOUBORU. Mgr. Markéta Pavlíková Katedra pravděpodobnosti a matematické statistiky MFF UK.

Stanovení manganu a míry přesnosti kalibrace ( Lineární kalibrace )

Lineární a adaptivní zpracování dat. 2. SYSTÉMY a jejich popis v časové doméně

Obohacení dat o statistické výsledky a potenciál jejich využití

Dolování dat z multimediálních databází. Ing. Igor Szöke Speech group ÚPGM, FIT, VUT

Diagnostika regrese pomocí grafu 7krát jinak

Unifikovaný modelovací jazyk UML

Zpracování dat v AVG backendech. Antonín Karásek Jarek Jarcec Čecho

Vojtěch Franc Centrum strojového vnímání, Katedra kybernetiky, FEL ČVUT v Praze Eyedea Recognition s.r.o MLMU

NÁVRH EFEKTIVNÍ STRATEGIE MOBILNÍHO BANKOVNICTVÍ: NALEZENÍ SPRÁVNÉHO OBCHODNÍHO MODELU Mobile tech 2014

4IT218 Databáze. 4IT218 Databáze

Dobývání znalostí. Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze

Transkript:

Big Data Science Petr Paščenko 18. 4. 2017

Osnova 1. Co je Data Science 2. Statistika 3. Strojové učení 4. Vizualizace dat 5. Data Science úlohy 6. Metodika Data Science Projektu 7. Role Big Dat v Data Science 8. Podobnosti a vztahy 9. Detekce podvodů v Internetovém bankovnictví 2

Co je Data Science? Data Science je spojení 4 disciplín Statistika Informatika Strojové učení Vizualizace 3

Statistika Základní otázka: Je za tím něco víc, nebo je to jen náhoda? Práce s nahodilostí klasifikace, kvantifikace, simulace, predikce Jiný pohled: entropie Kolik informace je v datech? Jaký je podíl signálu a šumu? Příklady statistických úloh Kolik osob můžu pustit do loďky / výtahu / letadla? Jsou muži chytřejší než ženy? Kdo by vyhrál volby, kdyby se konaly dnes? Má rodinné zázemí vliv na schopnost klienta splatit půjčku? Měl bych skočit z mostu po pozitivním HIV testu? Klasická (frekventistická) statistika potřebuje velké soubory dat Bayesianisté jsou s více daty přesnější 4

Strojové učení Základní cíl: Napodobit lidský mozek v rutinních činnostech Práce s nestrukturovanou informací Obrázky, zvuky, videa, volné texty, sítě Co je pozitivní? Víme, že to jde. Hledáme pouze cestu. Příklady ML úloh Strojový překlad mezi jazyky Rozpoznávání obrázků (MNIST) Porozumění mluvenému slovu Autonomní robotika (auta, drony) Analýza sociálních sítí Nutnou podmínkou pro strojové učení jsou obrovské datové sady Modely jsou v porovnání se statistikou podstatně komplexnější 5

Vizualizace Základní úkol: Zprostředkovat komplexní multi-dimenzionální informaci člověku 6

Typologie DS úloh Klasifikace Zařazení objektu do specifické diskrétní třídy Je na obrázku pes či kočka? Udělit nebo zamítnout hypotéku? Mám HIV? Regrese Odhad konkrétní hodnoty (nebo intervalu) cílové proměnné Váha na základě výšky. Kolik km ještě ujedu? Jak daleko je objekt? Klastrování / Segmentace Shlukování objektů a hledání typických zástupců jednotlivých skupin Zákaznické segmentace, sociální skupiny, funkční skupiny slov, atd. Detekce odlehlých pozorování Rozpoznání netypických objektů a kvantifikace jejich odlehlosti Diagnostika výrobků, bezpečnost a detekce fraudu 7

Metodika pro Data Science CRISP-DM Cross Industry Standard Process for Data Mining 8

Metodika pro Data Science CRISP-DM Cross Industry Standard Process for Data Mining 1. Business Understanding Co zákazník potřebuje? Jaká k tomu má data? Jak se pozná úspěch? 2. Data Understanding Posbírání dat, exploratorní analýza, kvalita dat, první testy hypotéz. 3. Data Preparation Konstrukce datové sady pro modelování. Sestavení, transformace a výběr příznaků, redukce dimenzionality, atd. 4. Modeling Aplikace modelovacích technik, výběr modelu, kalibrace parametrů, testování výkonnosti modelu. 5. Evaluation Vyhodnocení úspěšnosti modelu vzhledem k věcným kritériím. 6. Deployment Produkční nasazení modelu v datovém workflow zákzaníka. Vyřešení administrace, údržby, zaškolení, rekalibrace 9

Role Big Data technologií v Data Science Více dat Větší modelovací sada více objektů, od výběru k celé populaci Širší modelovací sadu více příznaků, podrobnější příznaky (vteřinová měření atd.) Delší historii data za více předchozích let v plné granularitě Větší výpočetní výkon Pokročilé modely možnost učit komplikované nelineární modely (konvoluční neuronové sítě) Komplexnější příznaky multimédia, sekvence, texty, atd. Od příznaků k podobnostem Dáme mu úvěr, protože: a) hodně vydělává, b) podobní lidé úvěry platí Od podobností ke vztahům A se zná s B, protože spolu chodí na oběd 10

Podobnosti a vztahy

Analýza Finančních Transakcí pomocí BD Vytváříme vyladěné modely pro retailové banky Vstup finanční transakce Výstup využitelné informace o klientovi, příznaky, události, Cílem je obohatit stávající obchodní proces o novou znalost Převod mezi lidmi Platba kartou Příjem Výběr z bankomatu Ostatní platby Nákup na internetu Platby za služby 12

Salary detector Vstup Finanční transakce typu firma - klient Výstup: Identifikované vztahy zaměstnavatel zaměstnanec Obchodní využití Rizikové skóre, detekce událostí, podobnosti (c2c/b2b), Principy Detekce transakčních vzorců, text mining, pokročilá statistika Vysoká přesnost i pro Krátké úvazky délka nepřesahující 3 měsíce Nestandardní úvazky (částečné úvazky, práce na živnost, atd.) Firmy s malým počtem zaměstnanců 13

Detekce domácnosti Banka/Telco Vstup Klientské transakce banka (c2c, karetní operace, ) Informace ze sítě telco (cdr, lokace, billing) Základní demografie (věk, pohlaví, adresa, příjmení, ) Výstup Identifikace členů domácnosti a rodinných vztahů Obchodní využití Rodinný marketing, robustní rizikové skóre, Principy Detekce transakčních vzorců, analýza interakcí, text mining 14

Detekce Fraudu v Intenetovém bankovnictví

Shrnutí úlohy Detekce přístupu pod falešnou identitou s cílem vykrást účet Scenář: podvodník překonal 2FA Vstup Běhová data z online bankovnictví (sekvence akcí v klientském sezení). Výstup Identifikovaná fraudulentní sezení Principy Velmi složitý problém, podíl fraudů cca 1:120 000 Vyžaduje vícero zřetězených sít Pokročilé statistické modely (detekce lokálních odlehlostí) Nastavitelná přesnost (TP/FP), např.: TP: 50% for FP: 0.3% BANKA 16

Klasifikační úloha ID SESSION ID DATETIME ACTION AMOUNT RESULT Vstupní data Akce klientů 1234567890 vs3t dgpf 2015-04-03 13:03:58 112 0 1234567890 vs3t dgpf 2015-04-03 13:03:58 130 0 1234567890 vs3t dgpf 2015-04-03 13:04:14 1248 0 1234567890 vs3t dgpf 2015-04-03 13:04:14 120 12400 530 1234567890 vs3t dgpf 2015-04-03 13:07:21 530 0 1234567890 vs3t dgpf 2015-04-03 13:07:38 120 12400 0 1234567890 vs3t dgpf 2015-04-03 13:09:03 68 0 Příznakový vektor Statistiky session Délka, čas na akci, Model Klasifikátor PŘÍZNAKOVÝ VEKTOR FRAUD? ANO ALERT Výsledek Ano / Ne NE PROVÉST PLATBU 17

Intenetové bankovnictví Uvažujme banku s milionovou klientskou bází Každý klient provede denně v průměru jednu návštěvu v IB Denně průměrně 1 000 000 session Z toho zhruba 12% session s platbou 120 000 session s platbou Denně v průměru 1 fraud To není moc ;-) 18

1:120 000 19

Co nefunguje Klasifikátory učené z dat Nevyvážené třídy NE s úspěšností 99,999% Popíšeme typický útok Neexistuje typický útok Příprava na minulou válku PŘÍZNAKOVÝ VEKTOR FRAUD? ANO ALERT NE PROVÉST PLATBU 20

Detekce anomalit Podvodník se chová jinak než klient Nevíme jak, ale jinak Jak poznáte, že někdo nebo něco je divný? Lidé nejsou šroubky VS 21

Detekce lokálních anomalit Jak si subjekt stojí vůči svému okolí 22

Shrnutí postupu Pro každou session spočteme příznakový vektor Příznaky identifikovány na základě datové analýzy Porovnání session s ostatními session daného klienta Identifikace podezřelých session k prověření Jak hodnotíme výsledek True positive kolik najdeme fraudů False positive kolik musíme prověřit session Podstatnější je false positive Limitovaná lidská kapacita Zřetězení více sít Jednoduché heuristiky IP adresy, protiúčty Detekce lokálních odlehlostí Paralelizace 23

Implementační realita Pro každou session spočteme příznakový vektor 100 session za sekundu Porovnání session s ostatními session daného klienta až 1000 předchozích session to znamená načíst z databáze 100k řádků za sekundu to znamená přenést po síti cca 20 MB za sekundu to znamená spočítat 100M porovnání za sekundu Překračuje kapacity konvenčního řešení Úloha je naštěstí snadno paralelizovatelná potřebujeme jen předchozí session daného klienta distribuce záznamů podle klientského čísla distribuované vyhodnocení vrací se jen výsledek DWH HADOOP + SPARK 24

Výsledky Pro nalezení 50% podvodů je třeba prošetřit cca 300 transakcí denně Při 120 000 session s platbou denně 25

Dotazy 26