V it statistick mu software? Josef Tvrd k Ostravsk universita 1 Abstrakt. P sp vek se zab v selh n mi softwarov ch statistick ch procedur, zji t n mi v pr b hu jejich dlouhodob ho u v n. Jsou diskutov ny n kter chyby v jednoduch ch popisn ch metod ch nalezen v Excelu, nespr vn odhady parametr neline rn ch regresn ch model vyskytuj c se a p li asto v b n prod van ch statistick ch paketech (NCSS, SYSTAT, SPSS, S-PLUS) a tak numerick nesrovnalosti i trivi ln implementa n chyby ve statistik ch pro test shody funkc p e it v NCSS. Kl ov slova: statistick software, Excel 97, algoritmy, chyby, neline rn regrese. vod Text je roz enou vers sd len p ednesen ho na Statistick ch dnech esk statistick spole nosti v Ostrav v ervnu 2000. Pod n zvem Opravdu jen drobn vady na kr se statistick ho software?\ byl p ednesen tak na letn kole ROBUST 2000 v Ne tin ch v z t ho roku. " Ob tato upozorn n na n kter zjevn i m n zjevn numerick nesrovnalosti i chyby zji t n p i u v n zn m ch statistick ch paket a tabulkov ho procesoru Excel 97 vyvolala dosti iv ohlas u astn k zm n n ch akc. Po dohod s editory sborn ku ROBUST je tento text zve ejn n v Bulletinu esk statistick spole nosti, kde snad m p le itost se dostat k v t mu okruhu zainteresovan ch ten. Excel je p id n ke kritizovan m statistick m program m, nebo je pro statistick v po ty velmi asto u v n zejm na lidmi pot ebuj c mi statistiku pouze ob as a u nich je rozpozn n chybn ho v sledku je t m n pravd podobn ne u zku en ho statistika. Chyby v Excelu mohou tedy p sobit kodu velice asto. Nav c kody p sob tak esk lokalizace Excelu, viz Tvrd k (1998). Po t chto zku enostech s nespolehlivost statistick ho software se st v nal havou ot zka, zda sil, kter statistici v nuj hled n rigorosn ch e en r zn ch statistick ch probl m (ob as i dosti vyum lkova- 1 Tato pr ce byla podporov na z grantu 402/00/1165 GA R a z projektu institucion ln ho v zkumu CEZ: J09/98:179000002.
n ch) nen z hlediska aplikac statistiky zbyte n a zda by podobn sil nem lo b t orientov no na v b r vhodn j ch, numericky spolehliv j- ch algoritm a d kladn j mu testov n jejich implementace. Naprost v t ina aplikac statistiky je op ena o v po ty proveden s vyu it m statistick ho software a pokud jsou jejich v sledky numericky chybn, jsou sostikovan statistick metody na nic. Testy numerick spolehlivosti Testov n m spolehlivosti statistick ch program se zab vaj v ichni v robci software, ale patrn n kter v sledky si nech vaj pro sebe. Objektivn pohled na spolehlivost statistick ch procedur je asi dost problematick. O jednu z mo n ch cest se pokou americk St tn institut standard a technologie (National Institute of Standards and Technology, NIST, viz citaci na jeho web-str nku). Tam je shrom d na sada testovac ch loh z n kolika oblast statistiky, u kter ch jsou zn m jejich v sledky na jist (tzv. certikovan ) po et platn ch cifer. P ehled je uveden v tab. 1. Tabulka 1: Standardn referen n lohy NIST { p ehled Druh po et certikovan po et loh loh platn ch m st jednorozm rn statistiky 9 15 line rn regrese 11 15 anal za rozptylu 11 15 neline rn regrese 27 11 Numerickou spr vnost v sledk n kter ch statistick ch procedur v Excelu 97 se ned vno zab vali McCullough a Wilson (1999). Zji ovali, jak se shoduj v sledky z skan Excelem s certikovan mi v sledky NIST. Pon kud paradoxn je, e v jejich l nku je chyba v denici veli iny, kterou sledovali. Podle slovn ho popisu m veli ina vyjad ovat m ru shody v sledn hodnoty x spo tan Excelem s certikovanou hodnotou c a znamen vlastn po et platn ch slic shodn ch s certikovan m v sledkem. V recenzovan m l nku v pom rn renomovan m asopisu jim pro la n sleduj c deni n rovnice = log10 (jx cj) =jcj (1)
Spr vn denice m m t z ejm tvar = 8 >< >: log10 0 kdy jx cj jcj 15 kdy jx cj jx cj jcj jinak jcj 1 < 1 10 15 V loh ch, kde se po t v ce ne jeden parametr, je v sledn m ra shody pro lohu ch p na jako kde k je po et vypo t van ch parametr. Jednorozm rn statistiky (2) = min(1; 2; : : : ; k ); (3) P es v e uveden v hrady v ak McCullough a Wilson (1999) d v ryhodn zjistili, e Excel selh v i v jednorozm rn ch statistik ch, kdy dokonce mezi lohami v sad NIST byly nalezeny takov. pro kter = 0. Bylo to zp sobeno v t inou u it m nevhodn ho algoritmu pro v po et v b rov ho rozptylu. V mnoha u ebnic ch z kladn ch statistick ch metod se tradi n uv d, e v b rov rozptyl je s x 2 = 1 n 1 2 nx (x i x) 2 = 1 X 4 n 2 1 x i n 1 n nx x i! 2 3 5 ; (4) p i em v raz za druh m rovn tkem se doporu uje jako v po etn vhodn j. Na o idnost toho doporu en upozor uje Ekblom (1994). Jak je rovn v u ebnic ch element rn ch statistick ch metod uv d no, rozptyl je invariantn v i posunu, tj. pro y i = a + x i, a je konstantn, je pak s y 2 = sx 2. Tento vztah m v ak p i numerick ch v po tech omezenou platnost, nebo mus me uva ovat chyby ze zaokrouhlov n. Pokud je pr m r x velk a rozptyl mal, pak druh rovnost v rov. 4 plat jen p ibli n, za jist ch okolnost m e b t po ta ov hodnota v razu S = nx 2 1 x i n nx! 2 x i (5)
dokonce z porn. Podle experiment ln ch v sledk n kolika testovac ch p klad lze usoudit, e v Excelu je tento probl m vy e en vskutku velice sporn. Byl p mo uk zkov uplatn n i odjinud zn m racion ln p stup Microsoftu: Pokud nastane situace, e hodnota v razu S z rov. 5 je men ne 0, pak v sledn v b rov rozptyl v Excelu je roven nule. Ve standardn m statistick m software podobn hrub implementa n chyba zji t na nebyla, nap. NCSS d v spr vn v sledky pro v echny lohy z testovac sady NIST. Neline rn regrese Na sad p klad NIST McCullough a Wilson (1999) ov ovali rovn numerickou spr vnost odhad parametr neline rn ch regresn ch model z skan ch Excelem. Za selh n programu se pova uje, kdy program skon v po et v lok ln m minimu sou tu tverc residu ln ch odchylek, tzn. = 0. Na stejn ch loh ch testovala Valcha ov (2000) statistick paket NCSS 6.0, pro ka dou lohu 10 opakov n s n hodn volen mi po- te n mi hodnotami odhad z jejich p ijateln ho oboru. Za selh n se pova uje, kdy ve v ce ne t etin opakov n v po tu pro danou lohu skon odhad parametr v lok ln m minimu. V sledky uvedeny v tab. 2. Pohled na tabulku d v ru ve spolehlivost statistick ch program nepovzbud. Tabulka 2: Neline rn regrese { po ty selh n obt nost po et Excel NCSS loh loh McCullough, Wilson Valcha ov n zk 8 4 2 st edn 11 10 6 vysok 8 7 3 celkem 27 21 11 Na 8 z 11 v NCSS selh vaj c ch loh zkusila Valcha ov u t pro odhad parametr stochastick algoritmy, popis algoritm viz Tvrd k a K iv (1999). A byly v po ty prov d ny v asov t sni p ed term nem odevzd n diplomov pr ce bez hlub ho rozmyslu (ale to je dosti ast p stup u ivatel statistick ho software), v polovin z t chto loh stochastick algoritmy neselhaly ani jednou, tak e z testu vy ly p ece jen o trochu l pe ne softwarov klasika.
Zaj mav srovn n sp nosti statistick ho software (Excel, S-Plus, SPSS, SAS, STATA, Mathematica) na sad loh NIST publikoval ned vno McCoullogh (2000). Jedin m pln p n m softwarov m produktem na v ech 59 loh ch NIST byla Mathematica. Tabulka 3: Procento selh n standardn ch statistick ch paket Model NCSS SYSTAT SYSTAT S-PLUS SPSS Pr m r G-N Simplex 1 0 3 0 6 97 21.2 2 90 35 37 73 77 62.2 3 89 69 67 100 100 85.0 4 4 0 76 0 0 16.0 5 100 0 16 57 3 35.2 6 45 8 0 100 0 30.6 7 100 100 100 81 69 90.0 8 78 11 30 18 0 27.4 9 0 0 3 0 0 0.6 10 81 2 75 79 76 62.6 11 59 7 49 34 20 33.8 12 33 100 1 51 9 38.8 13 68 100 100 64 62 78.8 14 0 2 36 37 8 16.8 Pr m r 53.4 31.2 42.1 49.9 37.2 42.8 Pro testov n stochastick ch algoritm glob ln optimalizace byla v 90. l tech sestavena sada 14 obt n ch loh neline rn regrese. N kter z nich jsou l ta v literatu e zmi ovan - Jennrich a Sampson (1968), Meyer a Roth (1972), Militk a Meloun (1994), st z t chto loh poch z z nepublikovan ch p klad Militk ho. P ehled model je uveden v K iv et al (2000), pln data byla uvedena v Tvrd k a K iv (1995) a v Tvrd k a K iv (1998), v elektronick form je m ete obdr et na adrese tvrdik@osu.cz. Na t to sad loh byly testov ny komer n dostupn statistick pakety NCSS 2000, SYSTAT 8.0, S-PLUS 4.5 a SPSS 8.0. Pro odhad parametr neline rn ch model je v S-PLUS a SYSTATu u v n Gauss-Newton v algoritmus, v SYSTATu je i mo nost u it simplexov metody, NCSS u v Levenberg-Marquart v algoritmus a SPSS modikovan Levenberg-Marquart v algoritmus. Pro ka dou lohu byla
vygenerov na n hodn stovka k-tic po ate n ch odhad parametr (k je po et parametr modelu, 2 7 pro lohy z t to sady). Za selh n se pova uje, kdy program skon v lok ln m minimu (hodnota kriteri ln funkce, tj. residu ln sou et tverc je o v ce jak 5 % v t ne hodnota v glob ln m minimu). V sledky pro statistick software dosti smutn jsou uvedeny v tabulce 3 (Krpec, 1999, K iv et al, 2000). Glob ln optimalizace multimod ln ch funkc je t k probl m, nen zn m algoritmus, kter by tento probl m obecn e il v polynomi ln m ase. Jak v ak ukazuje tabulka 4, lze u t spolehliv j algoritmy ne ty, kter jsou b n implementov ny ve statistick m software. V tabulce 4 jsou uvedena procenta selh n dvou stochastick ch algoritm (MCRS, ES2, K iv et al, 2000). Krom metody nejmen ch tverc (sloupec RSS) byly jako kriteri ln funkce u ity i nejmen u ez v n tverce (sloupec LTS) a sou et absolutn ch odchylek (SAD). V tabulce jsou uvedeny jen modely, u kter ch procento selh n p i testov n bylo nenulov. Tabulka 4: Procento selh n stochastick ch algoritm MCRS ES2 Model RSS LTS SAD RSS LTS SAD 2 1 88 0 0 97 0 5 0 3 0 0 0 0 8 0 100 0 0 85 0 11 24 19 20 0 0 5 13 0 20 0 0 0 0 Testy shody funkc p e it v NCSS Pozoruhodn podivn v sledky NCSS 2000 p i testech shody funkc p e- it byly ned vno objeveny shodou n hod. Pan prim Vodv ka z radioterapie FNsP v Ostrav pot eboval jen " takovou drobnost na po k n \, tak e jsme n kolik hodin u po ta e p eskupovali data a chrlili funkce p e it a v sledky test jejich shody. On s neutuchaj c pozornost nahl - el na v sledky na obrazovce a neunikla mu n sleduj c nesrovnalost ve v stupu z programu: : : : Gehans-Wilcoxon Section: : : : Chi Square = 0.63 DF = 2 Prob>CS = 0.730450
Peto-Wilcoxon Section: : : : Chi Square = 0.63 DF = 2 Prob>CS = 0.000000 Log-Rank Section: : : : Chi Square = 1.76 DF = 2 Prob>CS = 0.415603 Na prvn pohled je z ejm, e hodnota P = 0:000000 u Peto-Wilcoxonovy statistiky 2 2 = 0:63 je nespr vn. Ot zkou je, zda je dob e spo tan hodnota statistiky. Porovn n s v sledky z skan mi jin mi pakety v ak p ineslo dal pochybnosti, viz tab. 5. Hodnoty statistik shodn u S-Plus a STATA se li od NCSS. M se snad p i statistick anal ze dat u vat v dy v ce program a o spr vn m v sledku m rozhodovat v t inov shoda? Tabulka 5: Hodnoty statistik 2 soubor1 soubor2 soubor3 NCSS 2000 6.53 8.26 0.63 Wilcoxon STATA 6.0 7.80 8.02 0.62 S-Plus 4.5 7.8 8.0 0.6 NCSS 2000 6.08 11.32 1.76 Log-Rank STATA 6.0 10.15 8.47 1.35 S-Plus 4.5 10.1 8.5 1.3 Reklamoval jsem zji t n nesrovnalosti v NCSS p es dodavatele tohoto software (Statistical Solutions, Cork) u v robce. Netu il jsem, e se t m st v m podez el m a budu se muset po t i m s ce obhajovat. Prvn reakce J. Hintze byla, e rozd ln v sledky byly z sk ny na r zn ch datech. Reklamovan v sledky byly toti spo t ny jako podskupiny jednoho souboru pomoc funkce FILTER a z ejm ani autor NCSS nev ve spolehlivost jej implementace. Dal reklamace tentokr t u s daty rozd len mi do v ce soubor (v sledky byly shodn s p edchoz mi) p inesla jedin pozitivn v sledek cel ho dlouh ho reklama n ho procesu. J. Hintze p ipustil, e hodnota P = 0:000000 u Peto-Wilcoxonovy statistiky 2 2 = 0:63 je chyba NCSS a py n sd lil, e ji " xoval\: Je zp sobena nulov m po tem cenzorovan ch pozorov n. K neshod m v hodnot ch statistik ozn mil, e rozd ly ve statistik ch Wilcoxonova typu jsou zp sobeny odli n mi variantami t chto statistik v r zn ch programech (co jsem akceptoval, i kdy manu ly zm n n ch statistick ch paket jednozna nou odpov ned vaj ), krom toho ozn mil, e NCSS byl znovu
prov en na p kladech z knihy Lee (1992) a bylo shled no v e v po- dku. O rozd lech v log-rank testu poml el a tak to z stalo. Asi jsme se dostali do nekone n ho cyklu, na ot zku, pro se li NCSS v log-rank testu, v dy p i la p edchoz odpov. Po dvou m s c ch jsem rezignoval. Usoudil jsem, e softwarov rmy v ce zaj m, zda z kazn k plat, ne to, zda maj chybu v programu. asy se m n, pamatuji se, e rychl opraven reklamovan chyby bylo pova ov no za nutnou ohajobu emeslnick cti program tora a tak tomu bylo v nov no pat i n osobn sil. Z v r U v n statistick ho software nep in jen pohodl, ale ob as tak jistou frustraci ze zbo en ch pocit jistoty a d v ry. Upozorn n na probl my a chyby v implementac ch generov n n hody a jejich mo n d sledky (Antoch, 1998) byly zaru en silnou ranou. Podobn r ny n s v ak mohou potk vat i v situac ch deterministick ch, kde bychom je o ek vali je t m n. Pokud laskav ten do etl text a sem, je patrn zv dav, zda mu bude nab dnuta n jak odpov na ot zku vyslovenou v n zvu l nku. Vy erp vaj c odpov asi ne ek, ale snad dv mo nosti se nab zej. Pro optimisty: Doveraj, no proveraj! A doufejme, e d sledn aplikace tohoto p stupu pom e zv it spolehlivost statistick ho software, kdy v 80. l tech dok zala zm nit sv t. Pro zdrav skeptick realisty: Nev te ni emu! Literatura: Antoch, J., Jak pomoc simulac dok zat nemo n, Informa n Bulletin esk statistick spole nosti, 9(1), 1{14, 1998 Ekblom, H., What can numerical analysis do for statistics, COMPSTAT 1994, Proceedings in Computational Statistics (eds R.Dutter and W. Grossmann), 31{45, Physica Verlag, 1994 Jennrich, R. I. and Sampson, P. F., Application of stepwise regression to non-linear estimation, Technometrics, 10(1), 63{72, 1968 Krpec, R., Optimalizace neline rn ch regresn ch model, In: Sborn k semin e Modern matematick metody v in en rstv, V B-TUO, 66{ 69, 1999 K iv, I., Tvrd k, J., Krpec, R., Stochastic algorithms in nonlinear regression, Comput. Statist. Data Anal. 33, 278{290, 2000
Lee, Elisa T., Statistical Methods for Survival Data Analysis, Second Edition, Wiley-Interscience, 1992 McCullough, B.D., The Accuracy of Mathematica 4 as a Statistical Package, Computational Statistics, 2000 (September), viz http://www.wolfram.com/news/statistics.html McCullough, B.D., Wilson, B., On the accuracy of statistical procedures in Microsoft Excel 97, Comput. Statist. Data Anal. 31, 27{37, 1999 Meyer, R. R. and Roth, P. M., Modied damped least squares: An algorithm for non-linear estimation, J. Inst. Math. Applics., 9, 218{233, 1972 Militk, J., Meloun, M.: Modus operandi of the least squares algorithm MINOPT. Talanta, 40(2), 269{277, 1994 NCSS 97, Statistical System for Windows, Number Cruncher Statistical Systems, Dr. Jerry Hintze, Kaysville, Utah, 1997 NIST, Statistical Reference Datasets, http://www.itl.nist.gov/div898/strd S-PLUS 4.5, Data Analysis Products Division, MathSoft, Seattle, 1998 SPSS ver. 8.0, SPSS Inc., Michigan, 1998 STATA 6.0, StataCorp. College Station, TX, 1999 SYSTAT 8.0, SYSTAT, Chicago, 1997 Tvrd k, J., Excel, statistika, lokalizace a zmatek, Informa n Bulletin esk statistick spole nosti, 9(2), 13{20, 1998 Tvrd k, J., K iv, I., Stochastic algorithms in estimating regression parameters, in: J. Han lov (Ed.), Proceedings of the MME'95 Symposium, AIMES Press, Ostrava, 217{228, 1995 Tvrd k, J., K iv, I., Evolu n algoritmy a odhad parametr neline rn ch regresn ch model, In: Sborn k konference Anal za dat'98, 56{69, Trilobyte, Pardubice, 1998 Tvrd k, J. and K iv, I., Simple Evolutionary Heuristics for Global Optimization, Comput. Statist. Data Anal. (in SSN), 30, 345-352, 1999 Valcha ov, A., Aplikace evolu n ch algoritm v odhadech parametr neline rn ch regresn ch model, diplomov pr ce, Ostravsk universita, P rodov deck fakulta, 2000