StatSoft Jaký je mezi nimi rozdíl?



Podobné dokumenty
Diagnostika regrese pomocí grafu 7krát jinak

Tvar dat a nástroj přeskupování

StatSoft Jak vyzrát na datum

StatSoft Jak se pozná normalita pomocí grafů?

JEDNOVÝBĚROVÉ TESTY. Komentované řešení pomocí programu Statistica

LINEÁRNÍ REGRESE Komentované řešení pomocí programu Statistica

SEMESTRÁLNÍ PRÁCE Z PŘEDMĚTU STATISTIKY

prekrocena mez ukazatele kvality.

Intervalový odhad. Interval spolehlivosti = intervalový odhad nějakého parametru s danou pravděpodobností = konfidenční interval pro daný parametr

RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr.

RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr.

Jana Vránová, 3.lékařská fakulta UK, Praha. Hypotézy o populacích

StatSoft Jak poznat vliv faktorů vizuálně

KORELACE. Komentované řešení pomocí programu Statistica

3. Optimalizace pomocí nástroje Řešitel

Pravděpodobnostní rozdělení

ANALÝZA A KLASIFIKACE DAT

Odhady parametrů základního souboru. Cvičení 6 Statistické metody a zpracování dat 1 (podzim 2016) Brno, říjen listopad 2016 Ambrožová Klára

10. Předpovídání - aplikace regresní úlohy

Zpracování náhodného vektoru. Ing. Michal Dorda, Ph.D.

Tabulka 1 Rizikové online zážitky v závislosti na místě přístupu k internetu N M SD Min Max. Přístup ve vlastním pokoji ,61 1,61 0,00 5,00

Regresní a korelační analýza

Neuronové časové řady (ANN-TS)

Vytěžování znalostí z dat

Cvičení 12: Binární logistická regrese

PROJEKT DO STATISTIKY PRŮZKUM V TECHNICKÉ MENZE

Rozhodnutí / Skutečnost platí neplatí Nezamítáme správně chyba 2. druhu Zamítáme chyba 1. druhu správně

Předpovídejte snadno a rychle

Testy dobré shody Máme dvě veličiny, u kterých bychom chtěli prokázat závislost, TESTY DOBRÉ SHODY (angl. goodness-of-fit tests)

Kategorická data METODOLOGICKÝ PROSEMINÁŘ II TÝDEN 7 4. DUBNA dubna 2018 Lukáš Hájek, Karel Höfer Metodologický proseminář II 1

StatSoft Odkud tak asi je?

GRAF FUNKCE NEPŘÍMÁ ÚMĚRNOST

Máte rádi kávu? Statistický výzkum o množství vypité kávy napříč věkovým spektrem.

Lineární regrese. Komentované řešení pomocí MS Excel

ČESKÉ VYSOKÉ UČENÍ TECHNICKÉ V PRAZE

7.1.3 Vzdálenost bodů

Fyzikální korespondenční seminář MFF UK

Metody analýzy modelů. Radek Pelánek

Regresní a korelační analýza

UNIVERZITA OBRANY Fakulta ekonomiky a managementu. Aplikace STAT1. Výsledek řešení projektu PRO HORR2011 a PRO GRAM

Pearsonův korelační koeficient

Vybraná rozdělení náhodné veličiny

Testy do hodin - souhrnný test - 6. ročník

Analýza dat na PC I.

Analýza rozptylu dvojného třídění

PORUCHY CHOVÁNÍ V ZÁKLADNÍM ŠKOLSTVÍ V DATECH

Korelace. Komentované řešení pomocí MS Excel

{ 3;4;5;6 } pravděpodobnost je zřejmě 4 = 2.

PRAVDĚPODOBNOST A STATISTIKA. Testování hypotéz o rozdělení

StatSoft Úvod do data miningu

Jednofaktorová analýza rozptylu

KGG/STG Statistika pro geografy

TECHNICKÁ UNIVERZITA V LIBERCI

Zadání Máme data hdp.wf1, která najdete zde: Bodová předpověď: Intervalová předpověď:

VYUŽITÍ PRAVDĚPODOBNOSTNÍ METODY MONTE CARLO V SOUDNÍM INŽENÝRSTVÍ

You created this PDF from an application that is not licensed to print to novapdf printer (

Motivace. Náhodný pokus, náhodný n jev. Pravděpodobnostn. podobnostní charakteristiky diagnostických testů, Bayesův vzorec

Časové řady - Cvičení

Vliv reklamy na studenty

VÝBĚR A JEHO REPREZENTATIVNOST

Jana Vránová, 3. lékařská fakulta UK

Manuální kroková regrese Newsletter Statistica ACADEMY

ANALÝZA DAT V R 2. POPISNÉ STATISTIKY. Mgr. Markéta Pavlíková Katedra pravděpodobnosti a matematické statistiky MFF UK.

Statistické metody v ekonomii. Ing. Michael Rost, Ph.D.

Statistické zkoumání faktorů výšky obyvatel ČR

Statistická teorie učení

Vysoká škola báňská technická univerzita Ostrava. Fakulta elektrotechniky a informatiky

INDUKTIVNÍ STATISTIKA

Hodnocení klasifikátoru Test nezávislosti. 14. prosinec Rozvoj aplikačního potenciálu (RAPlus) CZ.1.07/2.4.00/

Nerovnice. Vypracovala: Ing. Stanislava Kaděrková

Základy vytěžování dat

5 Informace o aspiračních úrovních kritérií

Pravděpodobnost, náhoda, kostky

Že tuto definici znáte, ale stále přesně nevíte, jak funkci chápat? Ukážeme si konkrétní příklad Definiční obor (množina A)

Metodologie pro ISK 2, jaro Ladislava Z. Suchá

Vícekriteriální hodnocení variant úvod

Tomáš Karel LS 2012/2013

You created this PDF from an application that is not licensed to print to novapdf printer (

1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.

Národní informační středisko pro podporu kvality

Jak definovat pravidlo pro více buněk naráz

Pravděpodobnost, náhoda, kostky

= = 2368

Stupnice geomagnetické aktivity

K možnostem krátkodobé předpovědi úrovně znečištění ovzduší statistickými metodami. Josef Keder

Souhrnné výsledky za školu

veličin, deskriptivní statistika Ing. Michael Rost, Ph.D.

Česká veřejnost o tzv. Islámském státu a o dění na Ukrajině leden 2016

Testy. Pavel Provinský. 19. listopadu 2013

coachpage.cz MARKETINGOVÝ VÝZKUM Faktory ovlivňující nákupní chování ve vztahu ke koupi automobilu TOOLS for SUCCESS in TODAY s BUSINESS

Analytické znaky laboratorní metody Interní kontrola kvality Externí kontrola kvality

Názor na rozšířenost a míru korupce u veřejných činitelů a institucí březen 2017

Funkce, funkční závislosti Lineární funkce

III/2 Inovace a zkvalitnění výuky prostřednictvím ICT

ANALÝZA DAT V R 3. POPISNÉ STATISTIKY, NÁHODNÁ VELIČINA. Mgr. Markéta Pavlíková Katedra pravděpodobnosti a matematické statistiky MFF UK

PRŮZKUMOVÁ ANALÝZA JEDNOROZMĚRNÝCH DAT Exploratory Data Analysis (EDA)

pracovní list studenta Elektrický proud v kovech Voltampérová charakteristika spotřebiče Eva Bochníčková

Popisná statistika kvantitativní veličiny

Statistická zpráva zkoušek leteckých motorů

Transkript:

StatSoft Jaký je mezi nimi rozdíl? GAINS ROC X P okud se zabýváte klasifikačními úlohami, pak většinou potřebujete nějakým způsobem mezi sebou porovnat kvalitu vyprodukovaných modelů. Mezi základní pomůcky pro toto vyhodnocení patří Gains a ROC křivka. A právě těmito se budeme v tomto článku zabývat detailněji. Ačkoli jsou obě křivky známé a používané, je téměř nemožné dopátrat se, jaký je vlastně mezi nimi rozdíl. Proto jsme se rozhodli přijít této záhadě na kloub sami a ukázat Vám, jak to tedy je. Gains chart Nejdříve navodíme situaci a řekneme si, co je vlastně Gains chart (v angličtině také známo jako Cumulative Gains Chart, český ekvivalent se prakticky nepoužívá, dovolíme si alespoň přeložit a dále používat slovo křivka místo chart). Gains křivka se běžně vysvětluje na následujícím příkladu: Představme si, že děláme reklamní akci a oslovíme všechny naše stávající zákazníky, což je 1000 lidí, z nich 300 se na naši reklamní akci chytí a koupí si náš skvělý výrobek. Máme tedy úspěšnost 30%, přičemž jsme oslovili všech 1000 osob. Nicméně bychom byli rádi, kdybychom našli nějaký způsob, jak neoslovovat všechny, ale jen ty, kteří mají opravdu zájem. To by nám ušetřilo náklady na reklamní kampaň a zároveň ti, kteří nemají zájem a nebudou osloveni, by jistě uvítali, že je neobtěžujeme s něčím, o co vlastně nemají zájem. A právě s tímto úkolem nám přichází na pomoc statistika a její prediktivní klasifikační modely. Takových modelů je celá řada, ať už je to logistická regrese, klasifikační stromy, metody strojového učení nebo těžší kalibr v podobě neuronové sítě. Pokud máme nějaká historická data vhodná pro tento účel, můžeme sestavit modely, které nám předpoví, jestli si daný jedinec výrobek po reklamní akci koupí či nikoli. Výsledkem takového modelu je potom typicky tabulka pravděpodobností, jestli na danou akci jedinec zareaguje kladně či

nikoli. Pokud bychom tedy oslovovali osoby v pořadí podle velikosti pravděpodobnosti, že zareagují kladně, pak bychom měli být s dobrým modelem schopni lépe cílit v počáteční fázi oslovování, než kdybychom se ptali lidí náhodně. Gains křivka je poté vyjádřením tohoto principu. Na ose je procento oslovených z celkového počtu osob, na ose pak procento z těch, kteří odpověděli na naši kampaň pozitivně. Z tohoto obrázku můžete vše vyčíst. je Vezměme si například tento obrázek gains křivky, náš model představuje červená křivka: Co z něj můžeme například vyčíst - pokud se zeptáme na základě pravděpodobností z našeho modelu pouze 10% osob (v našem konkrétím příkladu to znamená tedy 100 osob), pak v nich bude 28% takových, kteří by odpověděli na naši nabídku kladně (28% ze 300, tedy 84 ze 100 odpoví kladně). Z hlediska statistické aplikace to znamená, ževybereme 10% osob s největší pravděpodobností na kladnou odpověď a tím, že je vybereme, jim vlastně předpovíme, že odpoví na naši kampaň kladně, ostatním pak logicky předpovíme, že kladně neodpoví a vůbec se jich ptát nemusíme (nechceme přece oslovovat ty, které to velmi pravděpodobně ani nezajímá). Při posunutí hranice a oslovení například 50% osob bychom již měli v oslovených přes 80% těch, kteří jsou nakloněni naší nabídce. Jinak řečeno, pokud oslovíme polovinu osob podle modelu z obrázku, pak ušetříme 50% nákladů a podaří se nám prodat více než 80% toho, co jsme vůbec schopni u všech 1000 osob prodat. Volba hranice pro rozhodovací mechanizmus, kolik procent oslovit, pak může vyplynout z konkrétní výše nákladů na reklamu a také ze zisku při kladné reakci. Gains křivka je pak jakési vyjádření závislosti na volbě hranice. Gains křivka pro popisovaný model je, jak už bylo řečeno, červená. Modrá křivka pak reprezentuje pro srovnání gains křivku modelu, kdy lidi vybíráme náhodně bez jakéhokoli schématu tedy zeptáme se 10% lidí a podařilo se nám oslovit přibližně 10% z celkového počtu těch, jež jsou nabídce nakloněni. Křivky se setkávají logicky v bodě (0;0) a (100;100). Tento druhý bod zmanená, že pokud se zeptáme všech osob, pak budeme mít také dotázáno i 100% těch, kteří by odpověděli kladně, nikdo další totiž už nezbývá. Je ale jasné, že ptát se všech v naší situaci trochu ztrácí smysl nač oslovovat lidi v nějakém sofistikovaném pořadí, když nakonec oslovíme stejně všechny. Zelená křivka je pak optimální model, kdy bychom oslovili nejdříve všechny, kteří budou na naši nabídku reagovat kladně a pak až ty ostatní směrnice vzestupu závisí tedy na poměru mezi kladně a záporně reagujícími (v tomto příkladě nám reagovalo kladně 300, což je 30% osob). Samozřejmě tento model je jen teoretický, v praxi jej dosáhne jen Chuck Norris.

Graf správně a špatně zařazených Pokud nějakým modelem určíme, které osoby do kampaně zahrnout a které již ne, pak jsme schopni napočítat následující kontingenční tabulku (terminologie v buňkách typická jako u testování hypotéz): Ve skutečnosti ANO Ve skutečnosti NE Předpovíme ANO počet TP (správné rozhodnutí) počet FP (chyba druhého druhu) Předpovíme NE počet FN (chyba prvního druhu) počet (správné rozhodnutí) Samozřejmě se snažíme ideálně o model, aby správná rozhodnutí byla co nejčastější. I takováto tabulka je důležitou rozhodovací pomůckou při hodnocení kvality modelů a zkoumané křivky z ní vycházejí. Je důležité si uvědomit, že gains i ROC křivka vzniká vlastně vykreslením informací z většího počtu tabulek tohoto typu. Pro názornost a lepší orientaci v číslech je vhodné tuto tabulku vykreslovat do grafu, což se v praxi také běžně dělá. Z tohoto grafu jasně vidíme, kolikrát se model dopustil té které chyby a také hned vidíme, jak jsme se s předpovědí trefili. Čím lepší model, tím vyšší sloupce na diagonále (směrem k nám) a menší na krajích. FN TP Bod na gains křivce je tedy vlastně z tohoto pohledu vykreslení proti pocet FP. Dalšími pojmy, které se k tabulce správně a špatně zařazených váží, jsou pojmy spočítají následovně: FP specificita specificita pocet pocet pocet FP senzitivita a sensitivita, které se

ROC křivka ROC křivka (Receiver Operating Characteristics curve) je pak vykreslení specificity a sensitivity opět v závislosti na měnící se hranici pravděpodobnosti, pod kterou již předpovídáme, že osoba na reklamu nezareaguje (červená křivka zobrazuje stejný model, jako tomu bylo v příkladu gains křivky výše). Na osu se tedy vykresluje něco jako kvalita zařazení těch, co by ve skutečnosti odpověděli kladně, zatímco na osu vykresluje nekvalita zařazení těch, kteří ve skutečnosti kladně neodpoví. se Nejlepší možný model by zde byl takový, že senzitivita by stoupla na maximum, zatímco specificita by byla po celou dobu 1 (optimální model je naznačen v ROC grafu zelenou barvou). Čím blíže se ROC křivkou našeho modelu blížíme optimálnímu modelu, tím je náš model kvalitnější. Využití Gains a ROC křivka se používá jako shrnující charakteristika kvality modelu, průběh křivek napoví mnoho o vlastnostech modelu, je krásně vidět o kolik je náš model lepší než model, kde předpovídáme kategorie čistě náhodně, stejně jako je vidět, jak je model daleko od optimálního modelu. Pomocí těchto křivek je možné stanovit hranici klasifikátoru, která určí přes jakou pravděpodobnost je potřeba přelézt, abychom zařadili pozorování do dané skupiny (typicky volená hranice 0,5 totiž vůbec nemusí odpovídat nákladům či účelu modelu). Více gains či ROC křivek různých modelů v jednom grafu pak dává možnost porovnat kvalitu modelů. Je potřeba poznamenat, že gains i ROC křivka se vždy váže k jedné kategorii. My jsme se zabývali výhradně kategorií reagoval na nabídku ANO, protože to je objektem našeho zájmu. Mohli bychom si ale vykreslit i křivky ke kategorii reagoval na nabídku NE. Při existenci více kategorií bychom byli schopni vykreslit tolik křivek, kolik je kategorií závislé veličiny. Data pro křivku se pak počítají jako data z dané kategorie proti zbytku dat (ostatní kategorie se berou v tomto případě jako jedna sloučená kategorie).

A jaký je tedy mezi nimi rozdíl? Obě křivky tedy vykreslují průběh správně zařazených osob kategorie, která nás zajímá (v našem příkladu: reagoval na nabídku ANO), v závislosti na měnícím se prahu zařazení do této kategorie. Rozdílem je tedy jen měřítko na ose tedy to, vůči čemu se se hodnota vynáší. Osa značí u obou grafů to stejné, jmenovitě tedy senzitivitu. Na ose je potom v jednom případě počet předpovězených pro danou skupinu (v tomto případě kategorie reagoval na nabídku ANO) nebo nekvalita zařazení druhé skupiny (tedy skupiny reagoval na nabídku NE). Kdo má rád vzorečky, jistě uvítá následující shrnutí rozdílu mezi křivkami: Gains osa : osa : ROC pocet FP pocet FP pocet pocet FP Pro propojení a jednodušší zapamatování všech zmíněných vykreslovaných veličin si ještě trochu pohrajeme s grafy a pokusíme se Vám ukázat, jak v nich jsou dané vzorce vidět (barvičky odpovídají barvám u vzorců): FN TP FP Na následující a zároveň poslední stránce našeho článku se můžete pokochat skupinou grafů, které se snaží osvětlit celý princip skrz propojení mezi gains křivkou, ROC křivkou a také tabulkami správných a špatných zařazení. Jistě uznáte, že další stránku bychom textem pouze znehodnotili, proto se loučíme již zde a přejeme mnoho kvalitních prediktivních modelů.

1 1 2 3 4 5