Patrice Marek. Západočeská univerzita v Plzni. * Podpořeno z OPVK CZ.1.07/2.2.00/

Podobné dokumenty
Bakalářská práce Modelování a odhadování výsledků ledního hokeje

ZÁPADOČESKÁ UNIVERZITA V PLZNI

ZÁPADOČESKÁ UNIVERZITA V PLZNI

správně - A, jeden celý příklad správně - B, jinak - C. Pro postup k ústní části zkoušky je potřeba dosáhnout stupně A nebo B.

HOKEJOVÉ GÓLY. Michal Friesl. Katedra matematiky & NTIS Fakulta aplikovaných věd Západočeská univerzita v Plzni. Robust 2018, Rybník

z Matematické statistiky 1 1 Konvergence posloupnosti náhodných veličin

MATEMATICKÁ STATISTIKA. Katedra matematiky a didaktiky matematiky Technická univerzita v Liberci

Testy dobré shody pro časové řady s diskrétními veličinami

Obsah. -Wayne Gretzky -Gordie Howe -Brett Hull -Marcel Dionne -Phil Esposito -Mike Gartner -Jaromír Jágr -Mark Messier -Steve Yzerman -Mario Lemieux


Matematika III 10. týden Číselné charakteristiky střední hodnota, rozptyl, kovariance, korelace

Charakterizace rozdělení

KGG/STG Statistika pro geografy

Přednáška 9. Testy dobré shody. Grafická analýza pro ověření shody empirického a teoretického rozdělení

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Vlastnosti odhadů ukazatelů způsobilosti

MATEMATICKÁ STATISTIKA - XP01MST

n = 2 Sdružená distribuční funkce (joint d.f.) n. vektoru F (x, y) = P (X x, Y y)

LIMITNÍ VĚTY DALŠÍ SPOJITÁ ROZDĚLENÍ PR. 8. cvičení

Minikurz aplikované statistiky. Minikurz aplikované statistiky p.1

Apriorní rozdělení. Jan Kracík.

Testování statistických hypotéz

Výběrové charakteristiky a jejich rozdělení

Kontingenční tabulky, korelační koeficienty

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

ZÁPADOČESKÁ UNIVERZITA V PLZNI FAKULTA APLIKOVANÝCH VĚD KATEDRA MATEMATIKY. Bakalářská práce. Modelování a odhadování výsledků sportovních utkání

jevu, čas vyjmutí ze sledování byl T j, T j < X j a T j je náhodná veličina.

Pravděpodobnost a statistika

Testování hypotéz testy o tvaru rozdělení. Jiří Neubauer. Katedra ekonometrie, FVL, UO Brno kancelář 69a, tel

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

y = 0, ,19716x.

MODEL PRŮBĚŽNÉ OHŘÍVACÍ PECE

KVADRATICKÁ KALIBRACE

Definice spojité náhodné veličiny zjednodušená verze

Kredibilitní pojistné v pojištění automobilů. Silvie Zlatošová září 2016, Robust

Metoda backward výběru proměnných v lineární regresi a její vlastnosti

PRAVDĚPODOBNOST A STATISTIKA. Bayesovské odhady

Jana Vránová, 3. lékařská fakulta UK

ODHADY NÁVRATOVÝCH HODNOT

Základy počtu pravděpodobnosti a metod matematické statistiky

LWS při heteroskedasticitě

Pravděpodobnost a statistika

Pravděpodobnostní model rozdělení příjmů v České republice

Testy dobré shody Máme dvě veličiny, u kterých bychom chtěli prokázat závislost, TESTY DOBRÉ SHODY (angl. goodness-of-fit tests)

NEPARAMETRICKÉ BAYESOVSKÉ ODHADY V KOZIOLOVĚ-GREENOVĚ MODELU NÁHODNÉHO CENZOROVÁNÍ. Michal Friesl

12. cvičení z PST. 20. prosince 2017

VYBRANÁ ROZDĚLENÍ. SPOJITÉ NÁH. VELIČINY Martina Litschmannová

Téma 22. Ondřej Nývlt

Pojmy z kombinatoriky, pravděpodobnosti, znalosti z kapitoly náhodná veličina, znalost parciálních derivací, dvojného integrálu.

Bakalářské studium na MFF UK v Praze Obecná matematika Zaměření: Stochastika. 1 Úvodní poznámky. Verze: 13. června 2013

DTS U /2019 Výsledky a Tabulky

pravděpodobnosti, popisné statistiky

Poznámky k předmětu Aplikovaná statistika, 11. téma

PSY117/454 Statistická analýza dat v psychologii přednáška 8. Statistické usuzování, odhady

Základy teorie odhadu parametrů bodový odhad

Zápočtová písemka z Matematiky III (BA04) skupina A

TLOUŠŤKOVÁ A VÝŠKOVÁ STRUKTURA A JEJÍ MODELOVÁNÍ

Definice 7.1 Nechť je dán pravděpodobnostní prostor (Ω, A, P). Zobrazení. nebo ekvivalentně


Termomechanika 9. přednáška Doc. Dr. RNDr. Miroslav Holeček

MATEMATICKÁ STATISTIKA

Základy biostatistiky II. Veřejné zdravotnictví 3.LF UK - II

Statistika, Biostatistika pro kombinované studium. Jan Kracík

Limitní věty teorie pravděpodobnosti. Jiří Neubauer. Katedra ekonometrie, FVL, UO Brno kancelář 69a, tel

Matematika pro chemické inženýry

Základy teorie pravděpodobnosti

1 Klasická pravděpodobnost. Bayesův vzorec. Poslední změna (oprava): 11. května 2018 ( 6 4)( 43 2 ) ( 49 6 ) 3. = (a) 1 1 2! + 1 3!

Pearsonůvχ 2 test dobré shody. Ing. Michal Dorda, Ph.D.

Úvod...2. Hokej nabídka týmů - národní dresy ceník...7. Basketbal nabídka týmů - ceník...10

11. cvičení z PSI prosince hodnota pozorovaná četnost n i p X (i) = q i (1 q), i N 0.

Náhodný vektor. Náhodný vektor. Hustota náhodného vektoru. Hustota náhodného vektoru. Náhodný vektor je dvojice náhodných veličin (X, Y ) T = ( X

Odhady Parametrů Lineární Regrese

Přijímací zkouška na navazující magisterské studium 2014

Statistika II. Jiří Neubauer

ZIMNÍ SPORTY Jméno a příjmení:.

NMAI059 Pravděpodobnost a statistika

Přednáška XI. Asociace ve čtyřpolní tabulce a základy korelační analýzy

Příloha-výpočet motoru

ÚVOD DO TEORIE ODHADU. Martina Litschmannová

Přednáška 9. Testy dobré shody. Grafická analýza pro ověření shody empirického a teoretického rozdělení

15. T e s t o v á n í h y p o t é z

Pravděpodobnost a statistika, Biostatistika pro kombinované studium. Jan Kracík

Přednáška. Diskrétní náhodná proměnná. Charakteristiky DNP. Základní rozdělení DNP

Statistika a spolehlivost v lékařství Charakteristiky spolehlivosti prvků I

Pravděpodobnost a statistika (BI-PST) Cvičení č. 4

Lineární a logistická regrese

Základy ekonometrie. XI. Vektorové autoregresní modely. Základy ekonometrie (ZAEK) XI. VAR modely Podzim / 28

Univerzita Karlova v Praze procesy II. Zuzana. funkce

TESTOVÁNÍ HYPOTÉZ STATISTICKÁ HYPOTÉZA Statistické testy Testovací kritérium = B B > B < B B - B - B < 0 - B > 0 oboustranný test = B > B

Statistická analýza jednorozměrných dat

Pravděpodobnost a statistika (BI-PST) Cvičení č. 9

Přednáška X. Testování hypotéz o kvantitativních proměnných

PSY117/454 Statistická analýza dat v psychologii seminář 9. Statistické testování hypotéz

Problematika analýzy rozptylu. Ing. Michael Rost, Ph.D.

Normální rozložení a odvozená rozložení

Příklady na testy hypotéz o parametrech normálního rozdělení

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Metodický list pro 3. soustředění kombinovaného Bc. studia předmětu B_St_2 STATISTIKA 2

Pravděpodobnost a aplikovaná statistika

AVDAT Náhodný vektor, mnohorozměrné rozdělení

Transkript:

Patrice Marek Západočeská univerzita v Plzni * Podpořeno z OPVK CZ.1.07/2.2.00/15.0377

OBSAH Předmět modelování Přehled modelů Vlastní model Data Experimenty Výsledky a budoucí práce

PŘEDMĚT MODELOVÁNÍ

PŘEHLED MODELŮ Dva základní přístupy: Nepřímý: modelování počtu gólů. Přímý: modelování výhry, prohry a remízy. Modely tvořeny často pro fotbal. Maher (1982) dvě nezávislá Poissonova rozdělení. Novější modely používají dvourozměrné Poissonovo rozdělení. Problém umožňují pouze pozitivní korelaci. Karlis and Ntzoufras (2003): Použití modelů pro vodní pólo.

MODELY Pracujeme s nepřímým přístupem, tj. modelování počtu gólů. Předpokládáme, že počet gólů má Poissonovo rozdělení (např. Maher (1982)). X H ~Poisson λ 1H, λ 1H = μ γ α H β A Y A ~Poisson λ 2A, λ 2A = μ α A β H Pro každý tým uvažujeme: α i síla útoku (α i > 0 i, β i slabost obrany (β i > 0 i, 1 n Globální parametry 1 n n i=1 μ konstanta. γ efekt domácího prostředí, ρ korelace (bude použito později). α i = 1) a n i=1 β i = 1).

MODELY Dvourozměrné Poissonovo rozdělení P x, y = e λ H+λ A +λ 3 corr X, Y = λ 3 = ρ min x,y i=0 λ 3 > 0, tj. nelze modelovat negativní korelaci. λ H x i λ A y i λ 3 i x i! y i! i! V našich datech se vyskytuje negativní korelace mezi počtem gólů domácích a hostů nový model.

MODELY Můžeme použít copuly ke spojení dvou Poissonovo rozdělení. Umožní modelovat negativní korelaci. Copuly jsou vhodné pro spojitá data. Použití pro diskrétní data je problematické, ale možné (Genest and Nešlehová (2007)). Použili jsme Frankovu copulu (Dobson and Goddart (2011)) G F H x, F A y = P X x, Y y = = 1 φ ln 1 + eφf H x 1 e φf A y 1 e φ 1 F.. značí jednorozměrnou distribuční funkci. φ = ρ = corr X, Y

MODELY Odehrané zápasy neobsahují stejnou informaci. Toto bereme v modelu v úvahu. Místo maximalizace logaritmicko-věrohodnostní funkce používáme pseudo-logaritmicko-věrohodnostní funkci (inspirace z Dixon a Coles (1997)). k l α, β, γ, μ, ρ = κ t i ln P x i, y i, i=1 kde i vyjadřuje itý zápas. Váhy pro každý zápas jsou dány následujícím předpisem κ t i = e ω T t i 365.25, ω > 0, kde T je aktuální datum, t i je datum, kdy byl ten který zápas odehrán a rozdíl je měřen v dnech.

18.8.1999 18.10.2000 19.12.2001 19.2.2003 21.4.2004 22.6.2005 23.8.2006 24.10.2007 24.12.2008 24.2.2010 27.4.2011 κ(t) MODELY ω T t Váhy κ t = e 365.25, kde ω = 0.2. 1.0 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0.0 Datum

DATA NHL National Hockey League (USA a Kanada): data od sezóny 1999/2000 do sezóny 2010/2011, 14 398 zápasů, Model testován pro sezónu 2010/2011 (82 + 28 kol). Extraliga Nejvyšší hokejová liga v ČR: data od sezóny 1999/2000 do sezóny 2010/2011, 4 998 zápasů, Model testován pro sezónu 2010/2011 (52 + 25 kol). Zajímavý (problematický) fakt: negativní korelace mezi počtem gólů domácích a hostů.

EXPERIMENTY Představíme parametry některých týmů z NHL. Dva nejlepší týmy z NHL (82 kol) Vancouver Canucks (117 bodů) a Washington Capitals (107 bodů). Dva nejhorší týmy z NHL (82 kol) Colorado Avalanche (68 bodů) a Edmonton Oilers (62 bodů). Tým Boston Bruins získal Stanley Cup (playoff) ve finále proti Vancouver Canucks.

Parametr α (vyšší = lepší) EXPERIMENTY ÚTOK 1.10 1.05 1.00 0.95 0.90 0 10 20 30 40 50 60 70 80 90 100 110 Kolo Boston (7th+SC) Vancouver (1st) Washington (2nd) Colorado (29th) Edmonton (30th)

Parametr β (nížší = lepší) EXPERIMENTY OBRANA 1.10 1.05 1.00 0.95 0.90 0 10 20 30 40 50 60 70 80 90 100 110 Kolo Boston (7th+SC) Vancouver (1st) Washington (2nd) Colorado (29th) Edmonton (30th)

EXPERIMENTY Představíme parametry některých týmů z Extraligy. Dva nejlepší týmy z Extraligy (52 kol) Plzeň (96 bodů) a Třinec (96 bodů). Dva nejhorší týmy z Extraligy (52 kol) Mladá Boleslav (55 bodů) a Kladno (41 bodů). Třinec následně zvítězil v playoff. Parametry jsou ovlivněny i přítomností týmů z historie, tj. těch které se v Extralize objevili ale již sestoupili.

Parametr α (vyšší = lepší) EXPERIMENTY ÚTOK 1.20 1.15 1.10 1.05 1.00 0.95 0.90 0 10 20 30 40 50 60 70 80 Kolo Plzeň (1) Třinec (2) Mladá Boleslav (13) Kladno (14)

Parametr β (nižší = lepší) EXPERIMENTY OBRANA 1.100 1.075 1.050 1.025 1.000 0.975 0.950 0.925 0.900 0 10 20 30 40 50 60 70 80 Kolo Plzeň (1) Třinec (2) Mladá Boleslav (13) Kladno (14)

Domácí Domácí EXPERIMENTY PREDIKČNÍ SCHOPNOST Použili jsme χ 2 test dobré shody pro srovnání za celou sezónu. Pro NHL jsme získali p-hodnotu < 0.001. Pro Extraligu jsme získali p-hodnotu = 0.18. Tabulky obsahují poměr o ij a zvýraznění je založeno na n ij o ij n ij n ij skutečné počty výsledků a o ij teoretické počty výsledků. Extraliga Hosté 0 1 2 3 4 5+ 0 --- 2.41 0.72 0.77 0.93 0.53 1 0.88 0.90 2.14 0.97 0.90 0.88 2 1.36 1.37 0.67 1.43 0.70 2.22 3 0.76 0.94 0.99 0.64 1.65 0.86 4 0.70 0.87 1.15 1.48 1.70 1.05 5+ 1.02 1.13 1.02 0.88 1.06 1.16 Zvýraznění: A > 10, A 5, 10, A 1, 5 o ij Hosté NHL 0 1 2 3 4 5+ 0 0.73 1.15 1.38 0.54 0.84 0.88 1 0.87 0.67 1.26 1.09 0.73 1.23 2 1.25 1.72 0.73 1.12 0.93 0.94 3 0.88 1.23 1.22 0.63 1.09 1.17 4 0.92 0.99 1.19 1.54 0.84 1.91 5+ 0.87 1.18 0.88 0.94 1.18 1.27 2 = A

EXPERIMENTY PREDIKČNÍ SCHOPNOST Srovnáme výsledky za celou sezónu Extraliga NHL Výhra Remíza Prohra Výhra Remíza Prohra Realita (R) 0.5214 0.2032 0.2754 0.4085 0.2422 0.3493 Sázková kancelář (B) 0.4695 0.2163 0.3142 0.4307 0.2288 0.3404 Náš model (M) 0.5267 0.1746 0.2987 0.4555 0.1829 0.3616 Absolutní rozdíl abs(r B) 0.0520 0.0131 0.0388 0.0222 0.0134 0.0089 abs(r M) 0.0053 0.0286 0.0233 0.0470 0.0593 0.0123 Relativní vychýlení abs R B 1 0.0996 0.0645 0.1411 0.0544 0.0552 0.0253 abs( R M 1) 0.1219 0.1928 0.0494 0.0576 0.2008 0.0621

VÝSLEDKY A BUDOUCÍ PRÁCE Ukázali jsme, že modely používané pro fotbal mohou být použity i pro hokej. Spojili jsme model založený na Frankově copule a použití vah pro historické zápasy (dosud nebylo provedeno pro fotbal). V obou případech lze pozorovat podhodnocování pravděpodobnosti remíz musí být vyřešeno. Možné řešení spočívá v použití směsi dvou rozdělení: 1 π P x, y pro x y P D x, y = 1 π P x, y + π D x, θ pro x = y kde D x, θ je diskrétní rozdělení (např. Karlis and Ntzoufras (2003)).

ZDROJE Dixon, M., Coles, S. (1997). Modelling Association Football Scores and Inefficiencies in Football Betting Market. Applied Statistics, 46, 265 280. Dobson, S., Goddard, J. (2011). The Economics of Football, 2nd ed., Cambridge University Press, Cambridge. Genest, C., Nešlehová, J. (2007). A primer on copulas for count data, Astin Bulletin, 37(2), pp. 475 515. Maher, M. J. (1982). Modelling association football scores. Statistica Neerlandica, 36: 109 118. Karlis D, Ntzoufras I (2003). Analysis of Sports Data by Using Bivariate Poisson Models. Journal of the Royal Statistical Society D (The Statistician), 52, 381-393.

DĚKUJI ZA VAŠI POZORNOST!