STUDIE. Analýza přežívání čertic a čertů



Podobné dokumenty
Analýza přežití čertic a čertů

Porovnání dvou výběrů

STATISTIKA A INFORMATIKA - bc studium OZW, 1.roč. (zkušební otázky)

UNIVERZITA OBRANY Fakulta ekonomiky a managementu. Aplikace STAT1. Výsledek řešení projektu PRO HORR2011 a PRO GRAM

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz

JEDNOVÝBĚROVÉ TESTY. Komentované řešení pomocí programu Statistica

DVOUVÝBĚROVÉ A PÁROVÉ TESTY Komentované řešení pomocí programu Statistica

KORELACE. Komentované řešení pomocí programu Statistica

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

PRŮZKUMOVÁ ANALÝZA JEDNOROZMĚRNÝCH DAT Exploratory Data Analysis (EDA)

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Zápočtová práce STATISTIKA I

UNIVERZITA PARDUBICE Fakulta chemicko-technologická Katedra analytické chemie. Nám. Čs. Legií 565, Pardubice. Semestrální práce ANOVA 2015

y = 0, ,19716x.

POPISNÁ STATISTIKA Komentované řešení pomocí programu Statistica

Charakteristika datového souboru

S E M E S T R Á L N Í

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

, Brno Hanuš Vavrčík Základy statistiky ve vědě

10. cvičení z PST. 5. prosince T = (n 1) S2 X. (n 1) s2 x σ 2 q χ 2 (n 1) (1 α 2 ). q χ 2 (n 1) 2. 2 x. (n 1) s. x = 1 6. x i = 457.

LINEÁRNÍ REGRESE Komentované řešení pomocí programu Statistica

Tomáš Karel LS 2012/2013

VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ. FAKULTA STROJNÍHO INŽENÝRSTVÍ Ústav materiálového inženýrství - odbor slévárenství

Pravděpodobnost v závislosti na proměnné x je zde modelován pomocí logistického modelu. exp x. x x x. log 1

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Analýza dat na PC I.

Cvičení 12: Binární logistická regrese

Předpoklad o normalitě rozdělení je zamítnut, protože hodnota testovacího kritéria χ exp je vyšší než tabulkový 2

Vzorová prezentace do předmětu Statistika

Lineární regrese. Komentované řešení pomocí MS Excel

Pravděpodobnost a matematická statistika

Kalibrace a limity její přesnosti

Statistika, Biostatistika pro kombinované studium Letní semestr 2011/2012. Tutoriál č. 4: Exploratorní analýza. Jan Kracík

Vysoká škola báňská technická univerzita Ostrava. Fakulta elektrotechniky a informatiky

UNIVERZITA PARDUBICE Fakulta chemicko-technologická Katedra analytické chemie Nám. Čs. Legií 565, Pardubice

Univerzita Pardubice Fakulta chemicko-technologická Katedra analytické chemie ANOVA. Semestrální práce

Parametry hledáme tak, aby součet čtverců odchylek byl minimální. Řešením podle teorie je =

P13: Statistické postupy vyhodnocování únavových zkoušek, aplikace normálního, Weibullova rozdělení, apod.

TECHNICKÁ UNIVERZITA V LIBERCI

Intervalový odhad. Interval spolehlivosti = intervalový odhad nějakého parametru s danou pravděpodobností = konfidenční interval pro daný parametr

Regresní analýza 1. Regresní analýza

KGG/STG Statistika pro geografy

Určujeme neznámé hodnoty parametru základního souboru. Pomocí výběrové charakteristiky vypočtené z náhodného výběru.

Grafický a číselný popis rozložení dat 3.1 Způsoby zobrazení dat Metody zobrazení kvalitativních a ordinálních dat Metody zobrazení kvan

Zpracování náhodného výběru. Ing. Michal Dorda, Ph.D.

Národníinformačnístředisko pro podporu jakosti

Vybraná rozdělení náhodné veličiny

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Základy teorie pravděpodobnosti

Pravděpodobnost a statistika, Biostatistika pro kombinované studium. Tutoriál č. 5: Bodové a intervalové odhady, testování hypotéz.

Regresní analýza. Eva Jarošová

Testování hypotéz testy o tvaru rozdělení. Jiří Neubauer. Katedra ekonometrie, FVL, UO Brno kancelář 69a, tel

10. Předpovídání - aplikace regresní úlohy

Jednofaktorová analýza rozptylu

Diagnostika regrese pomocí grafu 7krát jinak

Regresní a korelační analýza

Průzkumová analýza dat

Pearsonův korelační koeficient

Ilustrační příklad odhadu LRM v SW Gretl

Regrese. používáme tehdy, jestliže je vysvětlující proměnná kontinuální pokud je kategoriální, jde o ANOVA

Testování hypotéz o parametrech regresního modelu

Testování hypotéz o parametrech regresního modelu

Jednovýběrové testy. Komentované řešení pomocí MS Excel

Tomáš Karel LS 2012/2013

Pravděpodobnost a aplikovaná statistika

1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.

Regresní a korelační analýza

STATISTICKÉ ODHADY Odhady populačních charakteristik

Statistická analýza jednorozměrných dat

RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr.

Jednofaktorová analýza rozptylu

Popisná statistika kvantitativní veličiny

Inovace bakalářského studijního oboru Aplikovaná chemie

Testování statistických hypotéz. Ing. Michal Dorda, Ph.D.

Popisná statistika. Komentované řešení pomocí MS Excel

= = 2368

8 Coxův model proporcionálních rizik I

Korelační a regresní analýza

KGG/STG Statistika pro geografy

Odhady - Sdružené rozdělení pravděpodobnosti

Odhady parametrů základního souboru. Cvičení 6 Statistické metody a zpracování dat 1 (podzim 2016) Brno, říjen listopad 2016 Ambrožová Klára

Univerzita Pardubice Fakulta chemicko-technologická Katedra analytické chemie STATISTICKÉ ZPRACOVÁNÍ EXPERIMENTÁLNÍCH DAT

MĚŘENÍ STATISTICKÝCH ZÁVISLOSTÍ

Regresní a korelační analýza

Matematika III. 27. listopadu Vysoká škola báňská - Technická univerzita Ostrava. Matematika III

Statistická analýza jednorozměrných dat

Simulace. Simulace dat. Parametry

Tomáš Karel LS 2012/2013

Kvantily a písmenové hodnoty E E E E-02

Popisná statistika. Jaroslav MAREK. Univerzita Palackého

Matematické modelování Náhled do ekonometrie. Lukáš Frýd

StatSoft Jak poznat vliv faktorů vizuálně

Univerzita Pardubice. Fakulta chemicko-technologická Katedra analytické chemie. Licenční studium Statistické zpracování dat

Cvičení ze statistiky - 3. Filip Děchtěrenko

UNIVERZITA PARDUBICE. 4.4 Aproximace křivek a vyhlazování křivek

Normální (Gaussovo) rozdělení

Transkript:

Analýza přežívání čertic a čertů Ing. Milan Němeček Vzpomeňme si na pohádku s Čerty nejsou žerty. V ní Lucifer (dále jen Lůca) pověřil čerta Janka, aby přinesl Dorotu Máchalovou do pekla, poněvadž míra jejích hříchů přesáhla přípustnou hranici. Předtím než Janek vyrazil na cestu, dostal od Lůci zevrubný plán vesnice a následující varování: Pozor na peří a žádný alkohol. První varování bylo v příběhu náležitě vysvětleno a my nyní zkusíme odhadnout, proč to druhé. Večer pátého prosince Mikuláš s andělem a čertem nebo nádhernou čerticí obcházejí domácnosti a rozdávají dětem dárky. Přiznejme si, čerti a čertice působí jako výchovný prvek. Na nejmenší ratolesti určitě, u náctiletých působí už poněkud jinak. Za přinesené dárky a výchovné působení často dostane návštěva z nebes i z pekla něco pro zahřátí na jejich další cestu. Stává se, že chudáci z pekla se někdy musí za někoho ze skupiny obětovat, například za anděla, a mohou jim nastat problémy při plnění jejich povinností. Byl proveden reálný průzkum se základním cílem odhadnout bezporuchovost čerta v závislosti na počtu přijatých odměn. Pro následnou analýzu bylo shromážděno třicet dva záznamů, viz tabulka níže, jedná se tedy o reálná data. 1

Každá bytost byla požádána, aby uvedla nebo odhadla, kolik panáků je schopná vypít, když není v kondici (zkrátka jí to nesedne), potom byla požádána o údaj při jejím normálním stavu. Na závěr odhadla (nebo uvedla ze zkušenosti) extrémní množství odměn, které je schopna přežít a nepadnout za peklo. Samozřejmě, někteří jedinci nechtěli uvést údaje, ale přesto se povedlo shromáždit malý soubor dat, v němž je možné zkusit nalézt určité informace. Pokud vás to bude zajímat, čertice byly sdílnější. Výše uvedené údaje obsahují určitou míru nejistoty, a proto je nutné použít metody statistické analýzy. Zvolíme neparametrické metody. Těm dáváme přednost při malém počtu dat, poněvadž není možné aplikovat centrální limitní větu na výběrový průměr. Dále můžeme předpokládat výrazně nenormální rozdělení. Zároveň se nám v záznamech vyskytuje cenzorovaný údaj. Program STATISTICA ve svém modulu Pokročilé lineární/nelineární modely nabízí skupinu metod spadající do oblasti Analýzy přežívání. Tyto metody začaly být poprvé používány v medicíně a biologii, velmi brzo však našly uplatnění i v technických oborech, například v oblasti spolehlivosti. Počet záznamů je velmi malý, v průzkumové analýze dat bude dostačující provést pouze jejich grafické zobrazení se zakreslenou křivkou aproximujícího normálního rozdělení. Pokud daná bytost (tedy neuvažujeme pohlaví) není v kondici, takto vypadá rozložení četnosti hodnot v souboru. Na vodorovné ose je počet panáků, při kterých je bytost ještě schopna si plnit své povinnosti. Jak vidíme, rozložení hodnot se blíží k exponenciálnímu rozdělení. Níže jsou uvedeny zbývající grafy. 2

U posledního grafu vidíme součet dvou různých rozdělení. Jejich oddělení by bylo možné pouze na základě nějakého atributu, např. oblast, pohlaví apod. Stále však musíme mít na paměti, že pracujeme s velmi malým počtem dat, tento předpoklad však při větším rozsahu záznamů nemusí platit nebo může být potvrzen. 3

Samozřejmě jsme už zvědaví na rozdíl mezi mužem a ženou. 4

Například v krabicovém grafu bychom lépe viděli odlehlé hodnoty nebo extrémy, ale vraťme se nyní k neparametrickým metodám. Program STATISTICA nabízí níže zobrazené metody z oblasti Analýzy přežívání. Kaplan-Meierova metoda patří do skupiny neparametrických metod. Je upřednostňována před výpočty pomocí tabulky života vzhledem k jejím přesnějším výstupům. Obdobou Kaplan- Meierovy metody je Nelson-Altschulerův odhad, jenž však dává lepší výsledky, než je skutečnost. Bez rozlišení pohlaví, státu, věku a za normální kondice čertovské bytosti získáme níže uvedené kvantily doby přežití. Kvantily (Čert) funkce přežíván Čas Kvantily přežív. 25. kvantil (dolní kvartil) 50. kvantil (medián) 75. kvantil (horní kvartil) 3,000000 6,000000 8,250000 5

Dá se předpokládat, že padesát procent pracujících vydrží 6 naturálií v době mikulášských pochůzek. Vypočtené hodnoty jsou přehledněji zobrazeny v Kaplan-Meierově grafu. Zkusme zjistit, zda existuje statisticky významný rozdíl mezi zajištěním služeb v České republice a na Slovensku. Kumulativní podíl přeživajících (Kaplan-Meier) Ukončené Cenzorované Kumulat. podíl přežívajících - 0 2 4 6 8 10 12 14 Čas CR SR 6

Podíl přežívajících Podíl přežívajících 0 2,22 3,44 4,67 5,89 7,11 8,33 9,56 1 12,0 13,2 14,4 Poč. intervalu CR SR Při malém počtu dat a za předpokladu jejich proložení exponenciálním nebo Weibullovým rozdělením se doporučuje používat Coxův F-test, který má v těchto případech podstatně větší sílu testu jak obvykle používaný Gehanův-Wilcoxonův test. Za nulovou hypotézu je považováno tvrzení, které deklaruje žádný rozdíl. Tedy - jakýkoliv nalezený rozdíl mezi jednotlivými skupinami je způsoben přirozenou variabilitou dat. Hladina významnosti alfa je pravděpodobnost zamítnutí nulové hypotézy při její platnosti, standardně se volí hodnota 5. Coxův F-test (Čert) T1 = 27,06753 T2 = 3,932474 F( 52, 10) = 1,323669 p =,33028 Přesné ukončení R(I) M(I) M/R Kap/Meir odhad 000 2,0000 3,0000 4,0000 5,0000 6,0000 7,0000 8,0000 9,0000 100 12,000 30000 2,000000 64516 00000 29,00000 2,000000 68966 35484 27,00000 4,000000 48148 70968 23,00000 2,000000 86957 41935 20000 2,000000 95238 77419 19,00000 6,000000 15790 12903 13,00000 3,000000 30769 19355 10000 2,000000 00000 22581 8,00000 2,000000 50000 58064 6,00000 4,000000 66667 93548 2,00000 2,000000 00000 64516 00000 Podle vypočtené p-hodnoty > 5 je možné přijetí nulové hypotézy. Mezi oběmi skupinami vzorků dat není statisticky významný rozdíl. Porovnejme čerta a čertici v normální kondici bez přihlédnutí k jejich státní působnosti. 7

Podíl přežívajících Podíl přežívajících 0 3,44 5,89 8,33 1 13,2 2,22 4,67 7,11 9,56 12,0 14,4 Poč. intervalu Čert Čertice Kumulativní podíl přeživajících (Kaplan-Meier) Ukončené Cenzorované Kumulat. podíl přežívajících - 0 2 4 6 8 10 12 14 Čas Čert Čertice 8

Coxův F-test (Čert) T1 = 22,95042 T2 = 8,049580 F( 36, 26) = 2,059151 p =,02920 Přesné ukončení R(I) M(I) M/R Kap/Meir odhad 000 2,0000 3,0000 4,0000 5,0000 6,0000 7,0000 8,0000 9,0000 100 12,000 30000 2,000000 64516 00000 29,00000 2,000000 68966 35484 27,00000 4,000000 48148 70968 23,00000 2,000000 86957 41935 20000 2,000000 95238 77419 19,00000 6,000000 15790 12903 13,00000 3,000000 30769 19355 10000 2,000000 00000 22581 8,00000 2,000000 50000 58064 6,00000 4,000000 66667 93548 2,00000 2,000000 00000 64516 00000 Jak jsme tušili, potvrdil se statisticky významný rozdíl ve výdrži čertů a čertic. Velmi zajímavou informací bude posouzení vlivu věku na výdrž pro blíže specifikovanou bytost. Pro analýzu dat je použita metoda Coxovy regrese s proporcionálním rizikem, tedy s konstantními kovariantami. Opět k analýze jsou použity údaje o výdrži bytostí v normální kondici. Jako nezávislé proměnné (kovarianty) zvolíme věk, stát a pohlaví. V programu STATISTICA byl sestaven příslušný model a podle vložených hodnot je proveden grafický výstup. Funkce přežívání pro definované Čert, 20 let, ČR Kumulativní podíl přežívajících - - 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 Čas přežívání Takže slečny a paní, na základě analyzovaných dat můžete předpokládat, že 90 procent čertů bude pravděpodobně ještě v kondici při třech panácích. 9

Funkce přežívání pro definované Čert, 50 let, ČR Kumulativní podíl přežívajících - - 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 Čas přežívání A padesát procent padesátiletých čertů po pěti až šesti panácích bude na své horní hranici nebo už bude mít poruchu. Funkce přežívání pro definované Čert, 80 let, ČR Kumulativní podíl přežívajících - - 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 Čas přežívání A se starším čertem budete muset trochu opatrněji nebo se z vás stane první pomoc. Co vy na to? Všimněme si, že v datech se nevyskytuje údaj o kvalifikaci osmdesátilétého čerta. Na základě sestaveného modelu můžeme provést alespoň odhad. Při porovnávání dvou vzorků dat byl použit Coxův F-test s předpokladem aproximace dat Weibullovým rozdělením. Potvrďme daný předpoklad například pro kategorii čertů a čertic bez rozlišení věku, státní příslušnosti a za jejich standardní kondice. Program STATISTICA ve své nabídce průmyslových statistik nabízí metodu jak grafického, tak i numerického řešení odhadu parametrů Weibullova rozdělení a souvisejících statistik a výpočtů. Pro jednotlivé kategorie dat je provedeno ověření za pomoci Q-Q grafu. 10

Teoretický kvantil (standardiz.) Q-Q graf pro aktuální parametry Normální stav, čert, Ind.cenz.: nic N=18 Parametry : Umístění=000 Tvar= 2,0478 Měř.= 7,7187 2,4 2,2,99 2,0 1,8,95 1,6 1,4,85 1,2,75,55,35,15,01 0 2 4 6 8 10 12 14 Čas selhání t Pravděpod. 2,0 Q-Q graf pro aktuální parametry Normální stav, čertice; Ind.cenz.: nic N=13 Parametry : Umístění=000 Tvar= 2,6317 Měř.= 5,8235 Teoretický kvantil (standardiz.) 1,8 1,6 1,4 1,2,99,95,85,75,55,35,15,05,01 Pravděpod. 1 2 3 4 5 6 7 8 9 10 Čas selhání t Data jsou proložena přímkou, jejíž směrnice odpovídá tvaru dvou-parametrového rozdělení a měřítko je dáno průsečíkem této přímky s hodnotou 63,2 procent pravděpodobnosti. Z rozmístění bodů kolem přímky můžeme usuzovat na vhodnost aproximace dat Weibullovým rozdělením. Vypočtené parametry rozdělení jsou uvedeny v podnadpisu grafu. Test Hollander-Proschan Mann-Scheuer-Fertig Anderson-Darling Testy kvality proložení (Čert) Normál; Ind.cenz.: nic N=18 Parametry : Umístění=000 Tvar= 2,0478 Měř.= 7,7187 Filtr pro zahrnutí: v1='čert' Test p Hodnota -55860 p=,72195 51963 p>.25 54094 p<.05 11

Test Hollander-Proschan Mann-Scheuer-Fertig Anderson-Darling Testy kvality proložení (Čert) Normál; Ind.cenz.: nic N=13 Parametry : Umístění=000 Tvar= 2,6317 Měř.= 5,8235 Filtr pro zahrnutí: v1='čertice' Test p Hodnota 04543 p=,91674 15814 p>.25 66368 p>.20 Numerické testy rovněž potvrzují shodu dat s předpokládaným Weibullovým rozdělením. Pro jednotlivé kategorie je zobrazen graf spolehlivosti čerta nebo čertice na době selhání (v našem případě počtu panáků) s vyznačeným 90ti procentním intervalem spolehlivosti. Funkce spolehlivost pro MV odhady parametrů Normální stav, čert; Ind.cenz.: nic N=18 Graf znázorňuje odhad. interval spolehliv. : 9% Parametry : Umístění=000 Tvar= 2,0478 Měř.= 7,7187 Spolehlivost R(t) 0 2 4 6 8 10 12 14 Čas selhání t Funkce spolehlivost pro MV odhady parametrů Normální stav, čertice; Ind.cenz.: nic N=13 Graf znázorňuje odhad. interval spolehliv. : 9% Parametry : Umístění=000 Tvar= 2,6317 Měř.= 5,8235 Spolehlivost R(t) 1 2 3 4 5 6 7 8 9 10 Čas selhání t 12

Co říci na závěr? Shrňme si základní informace. Analyzovaná data bylo možné aproximovat Weibullovým rozdělením nebo modelem Coxovy regresní analýzy s proporcionálním rizikem. Není statistický významný rozdíl mezi zajištěním služeb v České republice a na Slovensku. Obecně mají čerti větší výdrž jak čertice. Pokud jsou v normální kondici, dá se předpokládat u čertic 50ti procentní výdrž při pěti zkonzumovaných naturáliích, u čertů přibližně 6 až 7. Budete-li se o Vánocích dívat na pohádku zmíněnou v úvodu článku, odhadněte věk a kondici čerta Janka. Použijte tyto údaje jako vstupní parametry zmíněné regresní analýzy a odhadněte, kolik kaprála stál otisk palce čerta Janka při odvodovém řízení v hospodě. O trial verzi programu STATISTICA můžete požádat u firmy StatSoft. Všem čerticím a čertům děkuji za poskytnutá data, jim a čtenářům tohoto článku přeji hezké prožití vánočních svátků, divokého Silvestra a do dalšího roku hodně zdraví, pohody a splněných přání. 13