INTERAKTIVNÍ STATISTICKÁ ANALÝZA V OBORU PĚSTOVÁNÍ LESA - I. VYHODNOCENÍ JEDNOROZMĚRNÝCH DAT COMPUTER-ASSISTED STATISTICAL ANALYSIS IN SILVICULTURE - I. UNIVARIATE DATA TREATMENT DAVID DUŠEK ) - MILAN MELOUN ) - JIŘÍ NOVÁK ) ) Výzkumý ústav lesího hospodářství a myslvost v. v.. VS Opočo ) Uverzta Pardubce Katedra aalytcké cheme Pardubce ABSTRACT Forest research should be based o the computer-asssted statstcal data aalyss. At preset a progress of both ew methods ad software provdes full servce for researcher. Ths paper s focused o a detaled descrpto of the computerzed teractve statstcal aalyss of a oe-dmesoal data. Applcato of these methods s demostrated o two examples (large ad small sample) from a slvcultural dscple. A specal atteto s pad to the exploratory data aalyss. From the results t ca be cocluded that Box-Cox trasformato ad followg calculato of re-trasformed mea was sutable procedure for asymmetrcally dstrbuted data a case of large sample. Cocerg small sample the Hor procedure leads to correct results comparso wth classcal methods. Therefore we suppose wde scope of actvty of both techques a slvcultural dscple. Klíčová slova: průzkumová aalýza dat aalýza jedorozměrých dat Horův postup pěstováí lesa Key words: exploratory data aalyss aalyss of oe-dmesoal data Hor procedure slvculture ÚVOD S rozvojem výpočetí techky a dostupého softwaru pro osobí počítače vzrůstá uplatěí matematcko-statstckých metod v lesckém výzkumu lescké prax. Statstcké metody v lesctví začal ve 0. letech mulého století jako prví ve středí Evropě systematcky používat prof. Alexadr Leporský (LEPORSKÝ 953). V dalším období vzkla řada učebích textů pro teto obor jak tuzemských (apř. STONE 963 ŠMELKO WOLF 977 DRÁPELA ZACH 996 999 DRÁPELA 000) tak zahračích (apř. PRODAN 96 KOZAK et al. 008). V dobách před masovým uplatěím počítačů byl výzkumík zpravdla odkázá a jedoduché aproxmatví postupy často bez ověřováí základích předpokladů použtých metod. Des umožňuje moderí výpočetí techka teraktví statstckou aalýzu dat za pomoc rgorózích matematckých postupů. Čláek je zaměře a pops a příkladé použtí moderích metod počítačově oretovaé teraktví statstcké aalýzy jedorozměrých dat použtelé především v lesckém výzkumu kokrétě v oboru pěstováí lesa. Zvláští pozorost je zde věováa průzkumové aalýze dat a utému ověřeí základích předpokladů o výběru dat. MATERIÁL A METODIKA Pops a použtí statstckých metod jsou demostrováy a dvou příkladech dat získaých z expermetů Výzkumého ústavu lesího hospodářství a myslvost v. v.. s porostí výchovou. Pro příklad aalýzy velkého výběru byl aalyzová soubor 3 výčetích tlouštěk aměřeých kalbrovaou mlmetrovou průměrkou a evychovávaé kotrolí ploše expermetu s výchovou smrku zteplého (DUŠEK SLODIČÁK 009 tab. ). Pro příklad aalýzy malého výběru (Horův postup) byla použta data laboratorího staoveí (př 80 C) hmotost sušy holorgackých horzotů (L + F + H) odebraých ze sedm půdích sod v porostech smrku pchlavého (ŠPULÁK DUŠEK 009 tab. 4). Aalýzy byly provedey podle ásledujících postupů: Aalýza velkých výběrů Obecý postup statstcké aalýzy jedorozměrých dat. V průzkumové aalýze dat (EDA) se vyšetřují statstcké zvláštost dat. Jedá se především o detekc lokálí kocetrace dat určeí parametrů tvaru rozděleí výběru (škmost špčatost) detfkace odlehlých hodot a odhaleí odchylek od předpokládaého ormálího rozděleí (MELOUN MILITKÝ 004). Tato fáze aalýzy umožňuje odhalt ečekaé a a prví pohled obtížě zjsttelé vlastost dat čímž se získá hlubší vhled do zkoumaé problematky (HENDL 004).. Ověřeí základích předpokladů kladeých a výběr se provádí vždy v případě rutích měřeí. Jedá se především o rozděleí výběru a jeho homogetu ezávslost prvků a dostatečý rozsah výběru. Pouze př splěí základích předpokladů je možé užít klasckých odhadů polohy a rozptýleí a jejch tervalových odhadů. 3. V případě porušeí ěkterého z předpokladů o výběru je uté použít trasformac dat a to mocou expoecálí ebo Boxovu-Coxovu. Př vyčísleí ejlepších odhadů parametrů polohy rozptýleí a tvaru se vedle klasckých odhadů jako je artmetcký průměr rozptyl a směrodatá odchylka abízí také robustí odhady (medá uřezaý průměr wsorzovaý rozptyl) a adaptví M-odhady. ZPRÁVY LESNICKÉHO VÝZKUMU SVAZEK 54 ČÍSLO /009 45
Techky EDA Př průzkumové aalýze dat se vychází z pořádkových statstk x () tj. ze vzestupě uspořádaých prvků výběru. Symbol P = /( + ) ozačuje pořadovou pravděpodobost. Hodoty P jsou závslé a předpokládaém rozděleí výběru. Pro ormálí rozděleí se doporučuje P = ( - 3/8)/( + /4) a pro účely průzkumové aalýzy se často volí P = ( - /3)/( + /3). Vyeseím hodot x () prot P se získá hrubý odhad kvatlové fukce Q(P) jež jedozačě charakterzuje rozděleí výběru. Pro grafcká zázorěí exploratorí aalýzy je možo použít ásledující dagostcké grafy: Dagram rozptýleí představuje jedorozměrou projekc kvatlového grafu a osu x. V rozmítutém dagramu rozptýleí jsou body pro lepší přehledost áhodě rozmítuté a ose y. Oba dagramy odhalí lokálí kocetrac dat a také odlehlá č podezřelá měřeí. Kvatlový graf umožňuje rozlšt tvar rozděleí a jeho případé zeškmeí k vyšším ebo žším hodotám. Na osu x se vyáší pořadová pravděpodobost P = /(+) a osu y pořádková statstka x (). Pro sadější porováí s ormálím rozděleím se do grafu obvykle zakresluje kvatlová fukce ormálího rozděleí založeá a klasckých a robustích odhadech. Podle toho která z křvek lépe vysthuje data lze jako odhad středí hodoty volt artmetcký průměr ebo medá. V grafu rozptýleí s kvatly se a osu x vyáší P = ( - /3)/( + /3) a a osu y pořádková statstka x (). Navíc se zde zakreslují tř pomocé kvatlové obdélíky: kvartlový obdélík F oktlový obdélík E a sedeclový obdélík D. Vzájemá poloha obdélíků dkuje symetr rozděleí. V případě symetrckého umodálího rozděleí leží obdélíky symetrcky uvtř sebe. Odlehlá pozorováí se projeví áhlým vzrůstem kvatlové fukce mmo sedeclový obdélík. Vícemodálí rozděleí se projeví úseky s téměř ulovou směrcí uvtř obdélíku F. Dagram percetlů slouží k posouzeí symetre a tvaru rozděleí. Hodoty percetlů jsou a osu y vyášey ve vhodém tervalu. Obvykle se volí tervaly 0 - - 5 5-0 0-5 5-5 5-35 35-45 45-55 55-65 65-75 75-85 85-90 90-95 95-99 99-00. Graf jádrového odhadu hustoty pravděpodobost pomáhá porovat emprcký jádrový odhad rozděleí s aproxmačí křvkou zpravdla ormálího rozděleí. Slouží k posouzeí rozložeí dat jejch případé asymetre ebo k detfkac ehomogety v datech. Pro tvar jádra se obvykle volí ormálí rozděleí. Podobu grafu zásadě ovlví zvoleá šířka jádra. Podrobost ke kostrukc grafu jádrového odhadu hustoty pravděpodobost lze alézt apř. v MELOUN MILITKÝ (004) ebo VENABLES RIPLEY (999). Hstogram četostí dat v jedotlvých třídách s kostatí šířkou patří k ejstarším techkám. Kvalta hstogramu je ovlvěa počtem tříd L. V šrokém rozmezí velkost výběrů lze použít vztah L= t(.46( - ) 0.4 ). Graf pohoří vzká modfkací grafu emprcké dstrbučí fukce. Vyáší se hodoty y = 00 P pro P 05 a y = 00-00 P pro P > 05 v závslost a x = x (). Teto graf má vrchol př hodotě medáu a umožňuje detfkovat asymetr odlehlá měřeí ebo směs více rozděleí. Graf polosum slouží jako ctlvý dkátor asymetre rozděleí. Na osu x se vyáší pořádkové statstky x () a osu y hodoty polosum Z = 05(x (+-) + x () ). V případě symetrckého rozděleí body osclují kolem horzotálí přímky představující medá a měřítko osy y je detalí. Pro sadější posouzeí áhodost č eáhodost tredu lze do grafu vykreslt pomocý tervalový odhad medáu. Graf symetre má podobý výzam jako graf polosum. Na osu x se vyáší 05 u P pro P = /( + ) a osu y hodoty polosum Z = 05(x (+-) + x () ) kde u P jsou kvatly ormalzovaého ormálího rozděleí. V případě asymetrckého rozděleí vykazují body výrazý tred. Směrce odhaleého tredu je úměrá škmost rozděleí. Dferečí kvatlový graf je pomůckou která slouží k posouzeí rozděleí se špčatostí odpovídající ormálímu rozděleí. V případě ormálí špčatost leží data a horzotálí přímce. Na osu x se vyáší kvatly ormalzovaého ormálího rozděleí u P a osu y: d () = x () - s u P kde s = 0748R F je robustí odhad směrodaté odchylky a R F je terkvartlové rozpětí. Krabcový graf je tvoře krabčkou představující a začátku 5% dolí kvatl F D a a koc krabce 75% percetl čl horí kvartl F H. Čárou uvtř krabčky se zobrazuje medá jako robustí odhad parametru polohy. V případě vrubového krabcového grafu je avíc vykresle zářez v krabc představující robustí terval spolehlvost medáu. Pro meze tohoto tervalu platí I D.57 57R R M F.57 57RR a I H M F kde R F je terkvartlové rozpětí ~ x ~ 0.75 075 x0. 05. Dvě úsečky vě krabce ozačovaé jako vousy představují ejblžší data uvtř tzv. vtřích hradeb. Data vě vtřích hradeb jsou považováa za odlehlé hodoty. Raktový Q-Q graf poslouží k odhaleí dagostk ormalty a odlehlých hodot. Na osu x se vyáší P = ( 05)/ pro ebo P = ( -3/8)/( + /4) pro 0 (VENABLES RIPLEY 999) a a osu y pořádkové hodoty x (). Pro data s ormálím rozděleím má přblžě tvar přímky. V případě odlehlých měřeí leží kocové body mmo přímku. Graf umožňuje určt je-l odchylka od ormalty způsobea je ěkolka měřeím ebo všem daty. Pravděpodobostí P-P graf je alteratvou ke Q-Q grafům. V případě shody výběrového rozděleí se zvoleým teoretckým (ejčastěj ormálím) rozděleím leží body a přímce s jedotkovou směrcí a ulovým úsekem. Odchylky od teoretckého rozděleí výběru se projeví především ve středí část grafu. Ověřeí základích předpokladů o výběru Na předpokladu ormalty výběrového rozděleí je založea celá klascká aalýza dat. Z moha testů ormalty uvedeme test podle Jarque-Bera (JARQUE BERA 987) LM b / ( b 3) 6 4 3/ kde / b m3 / m b m4 / m m je -tý cetrálí momet a je velkost výběru. j / m x x 46 ZPRÁVY LESNICKÉHO VÝZKUMU SVAZEK 54 ČÍSLO /009
Často je používáa modfkace (URZUA 996) ALM b / b c 6( N ) 3( N ) kde c c c ( N )( N 3) ( N ) c c 3 3 4N( N )( N 3) ( N ) ( N 3)( N 5) Za předpokladu ormalty má statstka asymptotcky x () rozděleí. Přesěj lze krtcké kvatly určt apř. z Mote Carlo smulací - α což je vhodé především pro meší výběry. Testy ormalty bývají však méě ctlvé v porováí s dagostckým grafy a jejch závěry jsou obvykle vágí. U malých výběrů často zcela selhávají. Je proto výhodé využít výše uvedeých dagostckých grafů průzkumové aalýzy které avíc dokáží podat formac jedá-l se o systematcké odchýleí č zdal je odchylka od ormalty způsobea je ěkolka odlehlým body. K ehomogetě výběru dochází tam kde se vyskytuje erovoměrost ve vlastostech vzorku ebo tam kde se výrazě měí podmíky v průběhu expermetu. Je možé se pokust rozdělt daý výběr do podskup a poté aalyzovat každou podskupu zvlášť. V případě vybočujících měřeí která slě ovlvňují odhady parametrů polohy a rozptýleí je možé tato odlehlá měřeí detfkovat a případě je vyloučt z další aalýzy. Jedoduchou techkou detfkace vybočujících bodů za předpokladu ormálího rozděleí je apříklad modfkace vtřích hradeb B D a B H podle vztahů B D ~ x K( ~ x ~ ) a ~ x K( ~ x ~ ) kde 0. 5 0.5 0.75 x0.5 B H ~ x a ~ x 0. 75 je dolí a horí kvartl. 0.75 0.75 x0.5 Hodotu parametru K pro pravděpodobost 95 % že žádý prvek z ormálího rozděleí o rozsahu ebude mmo vtří hradby lze určt v rozmezí 8 00 podle aproxmace Pokud platí že t ( t / ) zamítáme hypotézu o ezávslost prvků výběru a zvoleé hladě výzamost α. Moho testů hypotéz (apř. t-test ANOVA aj.) je založeo a předpokladu ezávslost dat. Neí-l podmíka ezávslost splěa je uto prověřt celý expermetálí desg. V ěkterých případech eí možé zajstt ezávslý výběr. Takové závslé výběry se ozačují jako selekčí výběry a modely které zahrují omezeí za chž byly výsledky získáy se azývají selekčí modely. Dostatečý rozsah výběru poztvě ovlví přesost odhadů parametru polohy a rozptýleí. S rostoucím rozsahem výběru dochází ke zúžeí tervalů spolehlvost odhadů klesá rzko chyby II. druhu a roste tak síla testů. Pro výběry pocházející z ormálího rozděleí lze jejch mmálí velkost určt apř. ze vztahu m t / ( ) s0 ( x) d kde d je zvoleé číslo představující maxmálí přípustou chybu t -α /( -) je kvatl Studetova rozděleí s ( - ) stup volost je počet předběžých hodot z chž se určí odhad výběrového rozptylu a s 0 (x) je odhad výběrového rozptylu pokusě zvoleého výběru. Mmálí velkost výběru může být volea také s ohledem a relatví chybu směrodaté odchylky δ(s) podle vztahu m g( x) 4 ( s) kde g (x) je špčatost rozděleí výběru. Trasformace dat K eleárí trasformac dat je vhodé přstoupt v případech kdy je a základě předchozí aalýzy detfkováo rozděleí zásadě odlšé od ormálího rozděleí. Uvedeé trasformace jsou vhodé pro asymetrcká umodálí rozděleí a vedou ke stablzac rozptylu zesymetrčtěí rozděleí a ěkdy k ormaltě rozděleí. Mocá trasformace vede k zesymetrčtěí rozděleí výběru ale ezachovává měřítko a je vhodá pouze pro kladá data. Mocá trasformace má tvar 3.6 K 5.5 36. Body ležící mmo tyto hradby se považují za vybočující. x y g( x) l x x pro ( 0) ( 0) ( 0) Př ekostatích podmíkách měřeí změách stavu měřícího zařízeí ebo př esprávém eáhodém výběru vzorků dochází k porušeí předpokladu ezávslost prvků výběru. To se projeví zvýšeým rozptylem oprot rozptylu homogeího výběru a rozptyl výběrového průměru pro závslá data emusí klesat s růstem velkost výběru. K detfkac časové závslost měřeí ebo k detfkac závslost jež souvsí s pořadím jedotlvých měřeí se testuje výzamost autokorelačího koefcetu prvího řádu ρ podle vo Neumaova krtéra t T T kde T. T 4 Optmálí hodota parametru λ se volí taková která vede k mmálí škmost a k hodotě špčatost ejblžší ormálímu rozděleí. Expoecálí trasformace je použtelá pro záporé hodoty a má tvar x e y g( x) x pro Boxova-Coxova trasformace má tvar ( 0) ( 0) a T je vo Neumaův poměr T ( x x ) ( x x). x y g( x) l x pro ( 0) ( 0) ZPRÁVY LESNICKÉHO VÝZKUMU SVAZEK 54 ČÍSLO /009 47
Pro odhad parametru λ v Boxově-Coxově trasformac lze užít metodu maxmálí věrohodost. Logartmus věrohodostí fukce má tvar l L( ) l s ( y) ( ) kde s (y) je rozptyl trasformovaých dat. Do grafu logartmu věrohodostí fukce lze také zakreslt 95% tervaly spolehlvost. Trasformace je tím výhodější čím jsou tervaly spolehlvost užší. Pokud ovšem teto terval obsahuje hodotu + eí trasformace ze statstckého hledska příosá a lze užít artmetcký průměr výběru. Jedoduchý postup zpěté trasformace v Boxově-Coxově trasformac pro λ 0 vede a retrasformovaý průměr defovaý vztahem x R x R l g ( y) exp( y) pro 0 g ( y) ( y) pro 0 kde γ je artmetcký průměr trasformovaých dat. Tyto odhady jsou však poěkud vychýleé. Korektějším postupem zpěté trasformace je vyčísleí středí hodoty a rozptylu trasformovaých dat a ásledá retrasformace s využtím Taylorova rozvoje v okolí trasformovaého průměru jež vede k odhadům ových retrasformovaých parametrů polohy a rozptýleí. Pro Boxovu-Coxovu trasformac kde λ 0 bude x R jedím z kořeů kvadratcké rovce pro které platí x R 05( y) 05 ( y s ( y)) ( y s ( y)) kde γ je artmetcký průměr trasformovaých dat a s (γ) je rozptyl těchto dat. Odhadem x R bude koře xr který je blíže medáu ~ x ( ~ 05 g y05). Pro případ kdy λ = 0 bude odhadem retrasformovaého průměru x VÝSLEDKY A DISKUSE Aalýza velkého výběru Exploratorí aalýza jedozačě ukázala a levostraě asymetrcké rozděleí. Jž z dagramu rozptýleí (obr. ) je patrá větší kocetrace bodů v jeho levé část. Lepší pohled a data poskytují grafy a obrázku a zde je a všech grafech detfkováa zřejmá asymetre. Jako zvláště ctlvý a porušeí symetre se jeví graf polosum ebo graf symetre. Dferečí kvatlový graf dkuje špčatost výrazě odlšou od ormálí. Dva body za vtřím hradbam krabcového grafu jsou zřejmě důsledkem levostraého rozděleí a eměly by být zde považováy za odlehlá měřeí. Také výrazá elearta v raktovém Q-Q grafu jasě ukazuje a eshodu s ormálím rozděleím a stejě lze terpretovat P-P graf. Emprcké rozděleí bylo kromě ormálího porováo také s rozděleím Webullovým gamma a logartmcko-ormálím. Parametry Webullova a gamma rozděleí byly vypočítáy metodou maxmálí věrohodost. Z P-P grafu se jako ejvhodější jeví aproxmace logartmcko-ormálím rozděleím (obr. 3). Závěry učěé z dagostckých grafů jsou také v souladu s výsledky provedeých statstckých testů. Testem ormalty podle Jarque- Bera byla zamítuta ulová hypotéza o shodě s ormálím rozděleím (p < 000). Test homogety založeý a modfkovaých vtřích hradbách edetfkoval žádá odlehlá měřeí a výběr je možo považovat za homogeí. Teto test je cméě založe a předpokladu ormalty která byla zamítuta a proto eí v tomto případě jeho použtí zcela korektí. A test ezávslost eprokázal závslost v datech (p = 046) a vzhledem k charakteru dat byl teto výsledek rověž vysoce pravděpodobý. Rozsah výběru je dostatečý k tomu aby relatví chyba směrodaté odchylky ebyla větší ež 5 % (tab. ). Byly také vyčísley klascké robustí parametry polohy parametry rozptýleí a tvaru (tab. 3). Vzhledem ke zjštěé asymetr výběrového rozděleí lze předpokládat že klascký odhad středí hodoty bude zkresleý. Proto byl vyčísle retrasformovaý průměr po Boxově-Coxově trasformac. Maxmalzací logartmu věro- x R exp( y 05s ( y)). Aalýza malých výběrů Malých výběrů užíváme pouze tam kde z ějakých důvodů expermetu (bologckých techckých ekoomckých) eí možé dosáhout vyššího počtu měřeí eboť závěry učěé a základě aalýzy malých výběrů jsou vždy zatížey větší mírou ejstoty. Pro staoveí odhadů polohy a rozptýleí výběrů o velkost od 4 do 0 měřeí lze využít Horův postup pvotů. Výpočet vychází z hloubky pvotů která je defováa vztahy h = t(( + )/)/ ebo h = t((( + )/) +)/ podle toho které h vyjde jako celé číslo. Dolí pvot je x D = x (h) a horí pvot x H = x (+-h). Odhadem parametru polohy je pvotová polosuma P L = (x D + x H )/ a odhadem parametru rozptýleí pvotové rozpětí R L = x H - x D. Náhodá velča T L = P L /R L má přblžě symetrcké rozděleí jejíž kvatly jsou tabelováy v apř. MELOUN MILITKÝ (004). Pro 95% tervaly spolehlvost středí hodoty potom platí erovost P L - R L. T L0.975 () μ P L + R L. T L0.975 (). Zpracováí dat bylo provedeo v softwarech ADSTAT.0 QC-Expert.5 a R.8.. Grafy v čláku byly vytvořey v programu R.8. což je ekomerčí obdoba programu S-Plus. Skrpty jazyka R pro jedorozměrou aalýzu dat včetě grafckých výstupů použtých v tomto čláku jsou k dspozc u autorů. Obr.. Dagram rozptýleí (a) a rozmítutý dagram rozptýleí (b) Dot plot (a) ad jttered dot plot (b) 48 ZPRÁVY LESNICKÉHO VÝZKUMU SVAZEK 54 ČÍSLO /009
Obr.. Kvatlový graf (a) graf rozptýleí s kvatly (b) dagram percetlů (c) graf jádrového odhadu hustoty pravděpodobost (d) hstogram (e) graf pohoří (f) graf polosum (g) graf symetre (h) dferečí kvatlový graf () vrubový krabcový graf (j) Q-Q graf (k) a P-P graf (l) Quatle plot (a) quatle-box plot (b) percetle plot (c) kerel estmato of probablty desty plot (d) hstogram (e) mouta plot (f) half-sum plot (g) symmetry plot (h) dfferetal quatle plot () otched box-ad-whsker plot (j) Q-Q plot (k) P-P plot (l) hodostí fukce (obr. 4) rezultoval odhad expoetu λ= -0305 program ADSTAT použl optmalzovaý odhad expoetu z pět rozlčých umerckých přístupů který vedl k hodotě λ = -040 směřující především k mmálí škmost. Itervalový odhad parametru λ eobsahuje hodotu + a trasformac lze proto považovat za oprávěou. To že kofdečí terval pokrývá hodotu 0 by opravňovalo k provedeí výpočetě podstatě jedodušší logartmcké trasformace. Správější hodota odhadu polohy čl retrasformovaého průměru 69 cm (dolí terval spolehlvost 57 cm a horí terval 688 cm) je zde žší ež hodota klasckého odhadu čl artmetckého průměru 79 cm s kofdečím tervalem 656 cm a 783 cm. Iterval spolehlvost retrasformovaého průměru je asymetrcký což by bylo zřetelější př aalýze mešího výběru př velkost ašeho výběru ( = 3) leží bodový odhad téměř ve středu kofdečího tervalu (obr. 4). Z obrázku 5 je patré že provedeá trasformace vedla ke zlepšeí symetre rozděleí. Odchylky od learty a obou kocích Q-Q grafu po trasformac dat ejsou způsobey asymetrí ale tzv. krátkým koc. ZPRÁVY LESNICKÉHO VÝZKUMU SVAZEK 54 ČÍSLO /009 49
Obr. 3. Hstogram a P-P graf pro porováí emprckého rozděleí s rozděleím Webullovým gamma logartmcko-ormálím a ormálím Hstogram ad P-P plot where the emprcal dstrbuto s compared to Webull gamma log-ormal ad ormal dstrbuto Obr. 4. Graf logartmu maxmálí věrohodost v Boxově-Coxově trasformac (vlevo) a graf trasformace (vpravo) s původím (modré) a trasformovaým daty (červeé). Jsou zobrazey bodové odhady původího a retrasformovaého průměru (plé čáry) a 95% kofdečí tervaly (přerušovaé čáry) The plot of logarthm of lkelhood fucto for Box-Cox trasformato (left) ad plot wth orgal (blue) ad trasformed data (red rght) Mea of orgal data ad mea of trasformed data (sold les) ad 95% cofdece tervals (dashed les) are showed. Obr. 5. Hstogram (a) a Q-Q graf (b) před trasformací a hstogram (c) a Q-Q graf (d) po Boxově-Coxově trasformac Hstogram (a) ad Q-Q plot (b) before trasformato ad hstogram (c) ad Q-Q plot (d) after trasformato 50 ZPRÁVY LESNICKÉHO VÝZKUMU SVAZEK 54 ČÍSLO /009
Aalýza malého výběru Klascký odhad středí hodoty dat malého výběru z tabulky 4 vedl k hodotě 77 gramů se spodí mezí 653 g a horí mezí 888 g a směrodatá odchylka byla 705. Medá rezultoval v hodotu 760 g se spodí mezí 505 g a horí mezí 05 g a medáová směrodatá odchylka byla 0408. Horovým postupem byl však aleze rgorózější odhad středí hodoty 797 g se spodí mezí 709 g a horí mezí 885 g a s pvotovým rozpětím. Pro srováí byla provedea expoecálí trasformace která vedla k hodotě retrasformovaého průměru 788 g se spodí mezí 660 g a horí mezí 88 g. ZÁVĚR Počítačově oretovaá průzkumová aalýza dat představuje užtečý ástroj k vyšetřeí statstckých zvláštostí v datech. Výsledky průzkumové aalýzy jsou klíčové pro volbu další stratege vyhodoceí dat. Jak bylo demostrováo a příkladu aalýzy velkého výběru je hodota průměru jeho tervalových odhadů pro esymetrcká rozděleí ekorektí. Vhodým řešeím byla Boxova-Coxova trasformace vedoucí ke zesymetrčtěí rozděleí výběru a ásledé vyčísleí hodoty retrasformovaého průměru. Na příkladu aalýzy malého výběru bylo ukázáo že aplkace Horova postupu poskytuje korektější odhady parametrů polohy a rozptýleí ež klascké postupy požadující větší výběry. Pvotová polosuma a pvotové rozpětí byly poměrě robustí vůč odlehlým hodotám ve výběru. Tab.. Hodoty výčetích tlouštěk (v cm) aměřeých kalbrovaou mlmetrovou průměrkou a evychovávaé kotrolí ploše expermetu s výchovou smrku zteplého (DUŠEK SLODIČÁK 009) Values of dameter at breast heght ( cm) whch were measured by the calbrated callper o the uthed cotrol plot of thg expermet Norway spruce stad (DUŠEK SLODIČÁK 009) 485 65 30 55 365 540 670 505 5 805 580 980 50 995 80 45 835 35 355 880 585 670 45 445 690 75 875 575 430 865 45 45 55 040 70 435 335 380 860 300 45 60 60 575 850 690 3545 570 605 050 490 30 360 080 980 505 35 805 055 65 090 90 95 300 340 580 490 345 55 335 85 590 45 335 630 575 580 040 940 85 855 565 935 40 30 450 890 95 75 650 830 905 00 55 05 45 480 55 60 75 955 770 65 970 030 70 90 55 065 395 330 50 30 5 305 90 30 90 70 650 55 035 680 585 055 060 95 0 055 355 340 565 360 50 3390 035 50 755 050 775 300 85 555 635 800 685 00 80 755 60 645 705 305 460 400 50 5 0 55 980 365 0 70 05 570 430 635 535 75 330 480 885 775 085 000 30 00 700 95 470 355 50 635 30 50 440 570 330 35 040 455 330 0 735 35 395 500 350 45 0 530 555 635 65 435 00 430 5 60 990 895 5 760 585 665 780 75 45 0 5 75 065 585 860 35 550 930 95 50 30 705 370 ZPRÁVY LESNICKÉHO VÝZKUMU SVAZEK 54 ČÍSLO /009 5
Tab.. Testy základích předpokladů o výběru Tests of basc assumptos about sample Jarque Beraův test ormalty/jarque-bera test for ormalty ALM statstka/alm statstcs 85 Tabulkový kvatl pro α = 005/Crtcal value α = 005 599 Pravděpodobost/P-value Dolí mez/lower boud Test homogety/test for homogeety 644E-7 Horí mez/upper boud 3697 Počet vybočujících dat/number of outlers 0 vo Neumaův test ezávslost/vo Neuma test for radomess vo Neumaova statstka/vo Neuma statstcs 074 Tabulkový kvatl pro α = 005/Crtcal value α = 005 97 Pravděpodobost/P-value 046 Mmálí velkost výběru/mmal sze of sample Pro 5% relatví chybu směrodaté odchylky/for 5% relatve error of stadard devato Pro 0% relatví chybu směrodaté odchylky/for 0% relatve error of stadard devato 63 Pro 5% relatví chybu směrodaté odchylky/for 5% relatve error of stadard devato 48 Pro % relatví chybu směrodaté odchylky/for % relatve error of stadard devato 687-309 Tab. 3. Klascké a robustí odhady parametrů (vše v cm) pro příklad aalýzy velkého výběru Classcal ad robust estmato of parameters (all values cm) for example of large sample Klascké odhady parametrů/classcal parameters Průměr/Mea 79 95% LCL průměru/95% CI lower boud 656 95% UCL průměru/95% CI upper boud 783 Směrodatá odchylka/stadard devato 493 Rozptyl/Varace 49 Škmost/Skewess 08 Špčatost/Kurtoss 347 Robustí odhady parametrů/robust parameters Medá/Meda 608 95% LCL medáu/95% CI lower boud 545 95% UCL medáu/95% CI upper boud 670 Retrasformovaý průměr/retrasformed mea 69 95% LCL/95% CI lower boud 57 95% UCL/95% CI upper boud 688 Tab. 4. Hodoty laboratorě staoveé (př 80 C) hmotost sušy (v gramech) holorgackých horzotů (L + F + H) odebraých ze sedm půdích sod v porostech smrku pchlavého (ŠPULÁK DUŠEK 009) Values of dry mass weght ( grams aalyzed laboratory at 80 C) of holorgac horzos (L + F + H) whch were sampled from seve sol pts blue spruce stads (ŠPULÁK DUŠEK 009) 530 736 760 760 84 858 938 5 ZPRÁVY LESNICKÉHO VÝZKUMU SVAZEK 54 ČÍSLO /009
Poděkováí: Publkace vzkla v rámc řešeí výzkumého záměru Mze 000-07003 Stablzace fukcí lesa v atropogeě arušeých a měících se podmíkách prostředí a MSM 006750. LITERATURA DRÁPELA K. ZACH J. 996. Bometrka bostatstka vybraé část. Skrptum MZLU Bro 50 s. DRÁPELA K. ZACH J. 999. Statstcké metody I. Skrptum MZLU Bro 35 s. DRÁPELA K. 000. Statstcké metody II. Skrptum MZLU Bro 44 s. DUŠEK D. SLODIČÁK M. 009. Struktura a statcká stablta porostů pod růzým režmem výchovy a bývalé zemědělské půdě. Zprávy lesckého výzkumu 54: -6. HENDL J. 004. Přehled statstckých metod zpracováí dat. Praha Portál: 583 s. JARQUE C. M. BERA A. K. 987. A test for ormalty of observato ad regresso resduals. Iteratoal Statstcal Revew 55: 63-67. KOZAK A. KOZAK R. STAUDHAMMER CH. WATTS S. 008. Itroductory Probablty ad Statstcs - Applcato for Forestry ad Natural Sceces. Cambrdge Cambrdge Uversty Press: 408 s. LEPORSKÝ A. 953. Statstcké metody. Praha SPN. MELOUN M. MILITKÝ J. 004. Statstcká aalýza expermetálích dat. Praha Academa: 953 s. PRODAN M. 96. Forstlche Bometre. Müche BVL: 43 s. STONE B. 963. Statstcké metody v lesctví. Praha Státí zemědělské akladatelství: 5 s. ŠMELKO Š. WOLF J. 977. Štatstcké metódy v lesíctve. Bratslava Príroda: 330 s. ŠPULÁK O. DUŠEK D. 009. Comparso of the mpact of blue spruce ad reed Calamagrosts vllosa o forest sol chemcal propertes. Joural of Forest Scece 009 54 - v tsku VENABLES W. RIPLEY B. 999. Moder Appled Statstcs wth S-PLUS. New York Sprger-Verlag: 50 s. URZUA M. 996. O the correct use of ombus tests for ormalty. Ecoomcs Letters 53 s. 47-5. COMPUTER-ASSISTED STATISTICAL ANALYSIS IN SILVICULTURE I. UNIVARIATE DATA TREATMENT SUMMARY Statstcal data processg s a tradtoal dscple of forest research. Cotemporary moder statstcal data aalyses udergo a rapd developmet due to the ew potetal of computer techology. Preseted paper s focused o a detaled descrpto of the moder teractve statstcal aalyss o PC the frame of slvcultural data processg. Frstly we pad atteto to aalyss of oe-dmesoal data. Applcato of these methods s demostrated o two examples. Oe example s preseted by a large sample ( = 3 values of dameter at breast heght cm) from the uthed cotrol plot of a thg expermet Norway spruce stad tab.. As a example of small sample data from a blue spruce expermet were used ( = 7 values of dry mass weght of holorgac horzos - surface layers - from seve sol pts tab. 4). Exploratory data aalyss dcated a asymmetrcal left-sded dstrbuto of the large sample data. It was supported by a collecto of plots ad dagrams (fgs. 3). Therefore we expected correct values of a classcal ad robust estmato of parameters (tab. 3). Cosequetly the Box-Cox trasformato method was used (fg. 4). Trasformato of the data from the large sample resulted to better parameters of dstrbuto (fg. 5). I case of small sample we foud that results from the Hor procedure are correct comparso wth classcal methods. Both the pvot half-sum ad pvot rage were robust agast outlers a small sample. I cocluso we recommed both preseted techques to be appled a slvcultural research. Recezováo ADRESA AUTORA/CORRESPONDING AUTHOR: Ig. Davd Dušek Výzkumý ústav lesího hospodářství a myslvost v. v.. Opočo Na Olvě 550 57 73 Opočo Česká republka tel.: 494 668 39 - ; e-mal: dusek@vulhmop.cz ZPRÁVY LESNICKÉHO VÝZKUMU SVAZEK 54 ČÍSLO /009 53