Automatizované metody výběru podmnožiny vysvětlujících proměnných v regresním modelu a problémy s nimi spojené

Podobné dokumenty
Úvodem Dříve les než stromy 3 Operace s maticemi

Statistická analýza jednorozměrných dat

Závislost obsahu lipoproteinu v krevním séru na třech faktorech ( Lineární regresní modely )

Aplikovaná statistika v R - cvičení 3

Pravděpodobnost v závislosti na proměnné x je zde modelován pomocí logistického modelu. exp x. x x x. log 1

Parametry hledáme tak, aby součet čtverců odchylek byl minimální. Řešením podle teorie je =

Stanovení manganu a míry přesnosti kalibrace ( Lineární kalibrace )

Technická univerzita v Liberci

4ST201 STATISTIKA CVIČENÍ Č. 7

LINEÁRNÍ MODELY. Zdeňka Veselá

Cvičení 9 dekompozice časových řad a ARMA procesy

Testování statistických hypotéz. Ing. Michal Dorda, Ph.D. 1

4EK211 Základy ekonometrie

Ilustrační příklad odhadu LRM v SW Gretl

ANALÝZA KATEGORIZOVANÝCH DAT V SOCIOLOGII

Semestrální práce. 2. semestr

Problematika analýzy rozptylu. Ing. Michael Rost, Ph.D.

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

4ST201 STATISTIKA CVIČENÍ Č. 10

Inovace bakalářského studijního oboru Aplikovaná chemie

Statistika. Regresní a korelační analýza Úvod do problému. Roman Biskup

ANALÝZA DAT V R 7. KONTINGENČNÍ TABULKA. Mgr. Markéta Pavlíková Katedra pravděpodobnosti a matematické statistiky MFF UK.

STATISTIKA I Metodický list č. 1 Název tématického celku:

TESTOVÁNÍ STATISTICKÝCH HYPOTÉZ ZÁKLADNÍ POJMY

Testování hypotéz o parametrech regresního modelu

Testování hypotéz o parametrech regresního modelu

Pokročilé neparametrické metody. Klára Kubošová

Testování statistických hypotéz

Statistická analýza jednorozměrných dat

Tomáš Karel LS 2012/2013

Korelační a regresní analýza

UNIVERZITA PARDUBICE

POLYNOMICKÁ REGRESE. Jedná se o regresní model, který je lineární v parametrech, ale popisuje nelineární závislost mezi proměnnými.

VOLBA SAMOSTATNÉHO CENTRÁLNÍHO ÚTVARU LOGISTIKY VE VÝROBNÍM PODNIKU

Smíšené regresní modely a možnosti jejich využití. Karel Drápela

2 Zpracování naměřených dat. 2.1 Gaussův zákon chyb. 2.2 Náhodná veličina a její rozdělení

Příloha č. 1 Grafy a protokoly výstupy z adstatu

Obecné momenty prosté tvary

MÍRY ZÁVISLOSTI (KORELACE A REGRESE)

7.1. Podstata testu statistické hypotézy

Cvičení 12: Binární logistická regrese

Cenování neživotního pojištění. SAV, Jakub Mertl

Regresní analýza. Eva Jarošová

Testování statistických hypotéz

INDUKTIVNÍ STATISTIKA

PRAVDĚPODOBNOST A STATISTIKA

Přijímací zkouška na navazující magisterské studium 2017

Úloha 1: Lineární kalibrace

Základy počtu pravděpodobnosti a metod matematické statistiky

Statgraphics v. 5.0 STATISTICKÁ INDUKCE PRO JEDNOROZMĚRNÁ DATA. Martina Litschmannová 1. Typ proměnné. Požadovaný typ analýzy

Základní statistické metody v rizikovém inženýrství

EKONOMETRIE 7. přednáška Fáze ekonometrické analýzy

Statistika. Diskrétní data. Spojitá data. Charakteristiky polohy. Charakteristiky variability

Regresní a korelační analýza

Bakalářské studium na MFF UK v Praze Obecná matematika Zaměření: Stochastika. 1 Úvodní poznámky. Verze: 13. června 2013

2. Základní typy dat Spojitá a kategoriální data Základní popisné statistiky Frekvenční tabulky Grafický popis dat

1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.

Pravděpodobnost, náhoda, kostky

Ing. Michael Rost, Ph.D.

Tomáš Karel LS 2012/2013

Aplikace teoretických postupů pro ocenění rizika při upisování pojistných smluv v oblasti velkých rizik

12. cvičení z PSI prosince (Test střední hodnoty dvou normálních rozdělení se stejným neznámým rozptylem)

Výpočet pojistného v životním pojištění. Adam Krajíček

Testování hypotéz. Analýza dat z dotazníkových šetření. Kuranova Pavlina

Matematické přístupy k pojištění automobilů. Silvie Kafková září 2013, Podlesí

Testy statistických hypotéz

DRG systém klasifikuje případy akutní hospitalizační péče do DRG skupin DRG skupiny = nákladově homogenní a klinicky příbuzné skupiny případů

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Regresní a korelační analýza

5 Vícerozměrná data - kontingenční tabulky, testy nezávislosti, regresní analýza

UNIVERZITA PARDUBICE

Statistika (KMI/PSTAT)

NÁHODNÁ ČÍSLA. F(x) = 1 pro x 1. Náhodná čísla lze generovat některým z následujících generátorů náhodných čísel:

1. Číselné posloupnosti - Definice posloupnosti, základní vlastnosti, operace s posloupnostmi, limita posloupnosti, vlastnosti limit posloupností,

Pokročilé neparametrické metody. Klára Kubošová

6. Lineární regresní modely

Tomáš Cipra: Finanční a pojistné vzorce. Grada Publishing, Praha 2006 (374 stran, ISBN: X) 1. ÚVOD... 17

VALIDACE GEOCHEMICKÝCH MODELŮ POROVNÁNÍM VÝSLEDKŮ TEORETICKÝCH VÝPOČTŮ S VÝSLEDKY MINERALOGICKÝCH A CHEMICKÝCH ZKOUŠEK.

Zápočtová práce STATISTIKA I

Modul Analýza síly testu Váš pomocník při analýze dat.

Statistické metody v marketingu. Ing. Michael Rost, Ph.D.

Pravděpodobnost a aplikovaná statistika

StatSoft Jak poznat vliv faktorů vizuálně

Statistická a věcná významnost. Statistická významnost. Historie hypotézy a testů. Hypotézy a statistické testy.

IBM SPSS Exact Tests. Přesné analýzy malých datových souborů. Nejdůležitější. IBM SPSS Statistics

RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr.

Parametrické testy hypotéz o středních hodnotách spojitých náhodných veličin

Otázky ke státní závěrečné zkoušce

ADDS cviceni. Pavlina Kuranova

TESTOVÁNÍ HYPOTÉZ STATISTICKÁ HYPOTÉZA Statistické testy Testovací kritérium = B B > B < B B - B - B < 0 - B > 0 oboustranný test = B > B

Náhodné veličiny, náhodné chyby

Statistické metody uţívané při ověřování platnosti hypotéz

8 Coxův model proporcionálních rizik I

Statistická analýza jednorozměrných dat

AVDAT Nelineární regresní model

Tomáš Karel LS 2012/2013

Ing. Michael Rost, Ph.D.

Náhodná veličina a rozdělení pravděpodobnosti

Transkript:

Automatizované metody výběru podmnožiny vysvětlujících proměnných v regresním modelu a problémy s nimi spojené Milan Bašta Jiří Procházka Pavel Zimmermann

Program Regresní model pro účely výpočtu sazeb neživotního pojištění Problém opakovaných testů, p-value hacking Simulační studie úspěšnost automatizovaných metod 2

Regresní modely Standardní přístup je použití regresních modelů. zejména zobecněné lineární modely (GLM) Řada možností: jednorozměrné přirážky zobecněné aditivní modely (GAM) zobecněné lineární smíšené modely (GLMM) neuronové sítě 3

Princip ekvivalence Rizikové/netto pojistné je stanovováno na základě principu ekvivalence. očekávaná hodnota vybraného pojistného = očekávaná výše škody Pro očekávanou výši škody předpokládáme (např. kolektivní model rizika): očekávaná výše škody = očekávaný počet škod na smlouvu * očekávaná výše škody pokud nastane 4

Frekvence a severita očekávaná výše škody = očekávaný počet škod na smlouvu * očekávaná výše škody pokud nastane Zpravidla se sestavují dva regresní modely model pro frekvenci, model pro severitu. 5

Omezení Výsledné modely podléhají celé řadě praktických omezení. Ceník segmenty klientů diskrétní faktory, dummy proměnné omezený počet segmentů procentuální přirážky multiplikativní model, logaritmická spojovací funkce 6

Rizikové faktory segmenty tvořeny kombinací úrovní rizikových faktorů rizikové faktory diskrétní proměnné (typ vozidla, region, frekvence placení pojistného) diskretizované proměnné (výkon, věk, hmotnost) mnohaúrovňové faktory (PSČ, tovární značka) 7

Konstrukce modelů statistická a věcná významnost faktorů diskretizace spojitých proměnných rediskretizace faktorů 8

Testy významnosti test poměrem věrohodnosti celý faktor (všechny dummy proměnné) pokles věrohodnosti při vyřazení faktoru nárůst věrohodnosti při přidání faktoru Waldovy testy každá úroveň faktoru (každá dummy proměnná) odchylka odhadu parametru od nuly informační kritéria (AIC, BIC) věrohodnost penalizovaná za počet parametrů 9

Diskretizace spojitých proměnných expertní (restriktivní omezení na počet segmentů) ekvidistantní dle hodnot některé málo zastoupené dle kvantilů podobné hodnoty v různých kategoriích complete linkage (hierarchické shlukování) Fisherův algoritmus (natural breaks) iterativní minimalizace vnitroskupinového součtu čtverců 10

Rediskretizace důvody málo zastoupené redukce počtu segmentů statistická významnost? 11

12 www.tools4f.com

13 www.tools4f.com

Co je to p-hacking? (data-dredging, snooping, fishing, significance-chasing, double-dipping) Postup, jehož cílem není získání objektivních závěrů pomocí statistické indukce. Jediným cílem p-hackingu je docílit (téměř všemi prostředky) zamítnutí nulové hypotézy. Je možné se p-hackingu dopouštět vědomě i nevědomě. 14

Jak p-hacking vypadá? Výběr proměnných na základě objektivních měřítek. Výběr proměnných s cílem zamítnout nulovou hypotézu. Formulace hypotézy/ prědpokladu Sběr dat a provedení testu Reformulace hypotézy, předpokladů, úprava vstupních dat. Formulace hypotézy/ prědpokladů Sběr dat a provedení testu Vyhodnocení testu (ne/zamítnutí) 15 Vyhodnocení testu (ne/zamítnutí)

Nejčastější metody p-hackingu Ukončíme sběr dat v momentu, kdy p-hodnota < 0.05. Omezíme sesbíraná data tak, aby p-hodnota < 0.05. Testujeme velké množství hypotéz, prezentujeme pouze ty, kde p- hodnota < 0.05. Vybíráme pouze ty vysvětlující proměnné u kterých je p-hodnota < 0.05. Transformujeme data tak, aby p-hodnota < 0.05. 16

Otázky ohledně p-hackingu? Jaká jsou hlavní nebezpečí p-hackingu? Je p-hacking vždycky špatně? Hraje v kontextu p-hackingu nějakou roli síla testu? Je vůbec p-hodnota míra designovaná k vytváření induktivních úsudků? 17

18 www.tools4f.com

Kontakty Pavel Zimmermann zimmermann@tools4f.com zimmerp@vse.cz 19