Rgrsí dagostka v matrálovém výzkumu JŘÍ MLKÝ, Katdra txtlích matrálů, chcká uvrsta v Lbrc, álkova 6 461 17 Lbrc, - mal: jrmlk@vslbcz MLAN MELOUN, Katdra aaltcké chm, Uvrsta Pardubc, Pardubc Abstrakt: Jsou vd základí problém př použtí rgrsích mtod pro pops vztahu mz složím a vlastostm matrálů J přhldě pojdáo o logckých prcpch mtod jmších čtvrců pro lárí modl Jsou uvd základí loh rgrsí dagostk Dtalěj jsou probrá mtol hodocí vlvých bodů a jjch skup J popsá program REGDA v jazc MALAB pro dtfkac vlvých bodů v lárích rgrsích modlch 1Úvod Jdou z frkvtovaých loh řšých v rámc hutí aaltk j aalýza složí rud, rsp obsahu prvků v kovch a sltách Účlm j kromě hodocí kvalt hldat vztah mz složím a vlastostm matrálů Přdstavou j, ž vlastost matrálu P s dá vjádřt fukcí P f (s 1 s m, kd s jsou obsah jdotlvých prvků, rsp slouč v matrálumodl pro vjádří vlastostí matrálu v závslost a jho složí s vsktují frkvtovaě také v dalších oborch souvsjících s matrálovým výzkumm Výzam těchto modlů tkví zjméa v přdstavě, ž umoží přdvídat vlastost a optmalzovat složí Vžaduj s td progostcká schopost modlu souvsjící s možostí rozšíří mmo oblast sldovaého složí Formálě s fukc f(s 1 s m hldá s vužtím mtod matmatckého modlováí Vzhldm k tomu, ž xstuj fzkálí tor, ktrá b bla východskm pro alzí tpu modlové fukc s vužívá aparátu rgrs Vchází s z lárího rgrsího modlu tpu m 0 + å j 1 P b b j * s (1 j ktrý s dál rozšřuj a upravuj tak, ab měl postačující prdkčí schopost Vzhldm k tomu, ž j sahou posthout jvýzamější složk s ovlvňující vlastost P j třba řšt zjméa tto loh: - staoví vazb mz proměým s 1 m za člm odstraěí multkolart a paraztích proměých - alzí vazb mz vsvětlovaou proměou P a vsvětlujícím proměým s za člm zpřsěí modlu (1, rsp jho rozšíří o trakc a lart - posouzí kvalt dat s ohldm a omzý rozsah (obsah prvků j omz jak shora, tak z zdola, přítomost vlvých bodů (vbočující bod, xtrém a případě ormálí rozdělí
Řada vhodých tchk pro řší těchto loh j uvda v kz [1] V tomto příspěvku jsou popsá pouz vbraé problém týkající s posuzováí kvalt dat, ktré jsou pro kostrukc kvaltího modlu jdou z rozhodujících součástí J přhldě pojdáo také o obcém postupu tvorb rgrsích modlů Základ rgrs Rgrsí aalýza umožňuj alzí závslost výstupí vlč (odzv a astavovaé kombac hodot m-tc vstupích proměých x (x 1, x x m Vchází s z aměřých hodot př růzých kombacích astavovaých proměých x 1, x, x m Jd vlastě o -tc bodů {, x j }, j 1,, m, 1,,, vjádřých v zkrácém matcovém zápsu {, X} Vktor má rozměr ( 1 a matc X ( m Cílm statstcké aalýz j objasěí varablt měřé, výstupí závsl proměé (vsvětlovaé vlč s vužtím rgrsí fukc f(x, β obsahující astavovaé, vstupí, závsl proměé (vsvětlující vlč x Běžě s přdpokládá, ž vlča j áhodá a vlč x jsou áhodé a lbovolě astavovatlé to přdpoklad j možé akcptovat pro hutcká data pouz s tím, rozdílm, ž obsah jdotlvých složk v matrálu í lbovolě astavtlý J ovlvtlý xprmtátorm a jho vlkost j omza o můž čt problém zjméa př posuzováí výzamost přs korlačí kofct, kd omzí v datch působí výrazě a jho vlkost Dalším přdpokladm j adtví modl měří ktrý lz vjádřt v tvaru f( x, b + ε ( kd ε jsou áhodé vlč Omzm s a lárí rgrsí modl, kd j rgrsí modl lárí v paramtrch a občjě j přímo lárí kombací vsvětlujících proměých Podmíěá střdí hodota proměé pro daé x (rgrs j pak v tvaru E(/ x å m 1 x j (1a β j J patré, ž tomuto modlu vhovuj také rov (1 výchozí pro hldáí vztahu mz složím a vlastostm matrálů Odhad b paramtrů β j pak možé určt mtodou jmších čtvrců, ktrá bývá v prax jpoužívaější Ukažm s gomtrcký výzam této mtod V případě platost adtvího modlu měří pro lárí rgrsí modl j možé zapsat výsldk xprmtů jdoduš s pomocí lárí kombac sloupcových vktorů é ë 1 ù û é ë x x x 11 1 1 m x x x 1 m x x x 1 m (x1 (xm (mx1 (x1 ù û é ë β β β 1 m ù û + é ë ε ε ε 1 ù û (3
Sloupc x j matc X dfují z gomtrckého hldska m-rozměrý souřadcový sstém rsp adrovu L v -rozměrém ukldovském prostoru E Vktor obcě lží v adrově L, (vz obr 1 pro případ dvou závsl proměých m V adrově L však lží všch lárí kombac sloupců matc X tj vktor X β Paramtr β lz td chápat jako kofct měrost u jdotlvých složk x j souřadcového sstému (vsvětlujících proměých jjchž lárí kombac tvoří rgrsí modl Bz ohldu a užté krtérum rgrs bud td u lárích rgrsích modlů lžt modlová fukc X b stjě jako tortcký modl X β v m-rozměré adrově L Mtoda jmších čtvrců (MNČ hldá odhad paramtrů b tak, ab bla mmalzováa vzdálost mz vktorm a adrovou L o j kvvaltí požadavku mmálí délk vktoru rzduí (4 P kd p X b j vktor prdkc V ukldovském prostoru lz délku vktoru vjádřt vztahm d å 1 (5 Čtvrc délk vktoru j td číslě shodý s hodotou krtrálí podmík S(b mtod jmších čtvrců Odhad modlových paramtrů b pak mmalzují výraz å m å é 1 ë j 1 ù j û S(b x b (6 j Vktor a P jsou zázorě a obr1 Vktor P azývaý vktor prdkc přdstavuj kolmou projkc vktoru do adrov L Vktor azývaý vktor rzduí lží v (-m rozměré adrově L*, kolmé a adrovu L ε P Xβ Obr 1 Gomtr lárího rgrsího modlu x 1 Na základě tohoto gomtrckého zázorěí lz hldat odhad paramtrů b tak, ab bla mmalzováa vzdálost mz vktorm a adrovou L J patré, ž vktor rzduí j kolmý a všch sloupc matc X, a proto jsou odpovídající skalárí souč ulovéuto
soustavu podmík lz zapsat matcově jako X 0 (7 Po dosazí za - X b a pravě vjd odhad b, mmalzující vzdálost d v tvaru 1 b (X X X (8 kd smbol A -1 ozačuj vrz matc A Z rovc (8 lz určt tvar projkčí matc pomocí ktré s promítá vktor do adrov L d P (9 Pomocí vktoru b lz vjádřt rovc (9 v tvaru 1 X b X(X X X P (10 Projkčí matc X (X X -1 X má tu vlastost, ž promít lbovolý vktor V do rov L Projkčí matc P pro kolmou projkc do adrov L*, kolmé a adrovu L má tvar P E (11 kd E j jdotková matc S vužtím těchto projkčích matc lz provést rozklad vktoru do dvou složk + P + P Gomtrck to zamá, ž vktor bl rozlož a dva vzájmě kolmé vktor Jd souvsí s částí varablt objasěé rgrsím modlm a druhý s zbtkovou (rzduálí varabltou K stjým vztahům lz dospět aaltckou mmalzací krtéra MNČ, tz drvováím rovc (6 a dalším pravam Pro určí statstckých vlastostí áhodých vktorů, rsp b s užívá přdpokladů, P za ktrých má mtoda jmších čtvrců (MNČ optmálí vlastost [1]: Rgrsí paramtr β mohou abývat lbovolých hodot V prax však často xstují omzí paramtrů, ktrá vcházjí z jjch fzkálího smslu Rgrsí modl j lárí v paramtrch a platí adtví modl měří ( Matc áhodých, astavovaých hodot vsvětlujících proměých X má hodost rovou právě m o zamá, ž žádé jjí dva sloupc x j, x k jsou kolárí, tj rovoběžé vktor omu odpovídá formulac, ž matc X X j smtrcká rgulárí matc, k ktré xstuj vrzí matc a jjíž dtrmat j větší ž ula Z gomtrckého hldska to zamá, ž rova L j m-rozměrá a vktor X b jsou jdozačě urč Jdozačé jsou odhad b paramtrů β, staové mtodou jmších čtvrců
V Náhodé chb ε mají ulovou střdí hodotu E(ε 0 o musí u korlačích modlů platt vžd U rgrsích modlů s můž stát, ž E(ε K, 1,,, což zamá, ž modl obsahuj absolutí čl Po jho zavdí však bud E( ε 0, kd ε P, K Modl tpu (1a obsahují absolutí čl, pokud j posldí proměá x m 1 pro všcha 1,, Posldí sloupc matc X obsahuj td samé jdčk a b m přdstavuj absolutí čl V Náhodé chb ε mají kostatí a kočý rozptl E( ε σ aké podmíěý rozptl D(/x σ j kostatí a jd o homoskdastcký případ V Náhodé chb ε jsou vzájmě korlovaé a platí cov(ε ε j E(ε ε j 0 Pokud mají chb ormálí rozdělí, jsou závslé to požadavk odpovídá požadavku závslost měřých vlč V Chb ε mají ormálí rozdělí N(0, σ Vktor má pak vícrozměré ormálí rozdělí s střdí hodotou Xβ a kovaračí matcí σ E, kd E j jdotková matc Pokud platí prvích šst přdpokladů, jsou odhad b, získaé mmalzací krtéra jmších čtvrců, jlpší vchýlé lárí odhad rgrsích paramtrů: Njlpší odhad b jsou proto, ž jjch lbovolá lárí kombac má jmší rozptl z všch lárích vchýlých odhadů Zamá to, ž jdotlvé rozptl odhadů D(b j jsou mmálí z všch možých lárích vchýlých odhadů (Gaussova-Markova věta J třba pozamat, ž xstují vchýlé odhad, jjchž rozptl jsou mší ž rozptl odhadů D(b j Nvchýlé odhad b jsou proto, ž platí E(β - b 0, což zamá, ž střdí hodota vktoru odhadů E(b j rova vktoru rgrsích paramtrů β Lárí odhad b jsou proto, ž j lz zapsat jako lárí kombac měří s váham Q j, ktré závsí pouz a polohách proměých x j, j 1,, m Za jstých přdpokladů o matc X avíc platí, ž odhad b mají asmptotck vícrozměré ormálí rozdělí s kovaračí matcí D( b ( X σ X 1 (1 V případě, ž platí také přdpoklad V, mají odhad b ormálí rozdělí už pro kočé rozsah výběru Protož j matc áhodá, platí pro kovaračí matc prdkc vztah D ( P σ (13 a aalogck platí pro kovaračí matc rzduí vztah D ( σ P σ ( E (14 Oba vztah vplývají z důlžtých vlastostí projkčích matc, tj dmpottost, kd a smtr, kd Součt čtvrců rzduí RSC lz apsat v tvaru
RSC S ( b ( E a pro jho střdí hodotu platí, ž P E( RSC σ tr( P σ ( - m (15 kd tr(p j stopa matc P a j vzhldm k dmpottost a smtr matc P rova jjí hodost Pro straý odhad s rozptlu chb σ lz td vužít rzduálí rozptl s S( b m m Př použtí odhadů paramtrů b j třba mít a pamět, ž jd o bodové odhad paramtrů β to bodové odhad jsou áhodé vlč, a mají proto pro prax mší výzam Důlžtější jsou kofdčí oblast, azývaé také oblast bo trval spolhlvost, v ktrých lží tortcká hodota β s zvolou pravděpodobostí (1-α Stjě jako u jdorozměrých výběrů, s volí hlada výzamost α 005 bo 001 éto volbě odpovídají 95 %í bo 99 %í trval (oblast spolhlvost Př kostrukc trvalů spolhlvost s vchází z skutčost, ž áhodá vlča ( - m s / σ má χ rozdělí s ( - m stup volost a áhodá vlča (b - β X X (b - β / σ má χ -rozdělí s m stup volost Podíl těchto vlč korgovaý stup volost má F-rozdělí s m a ( - m stup volost Pro hrac 100 (1-α %ího trvalu spolhlvost pak vjd (b β X X(b β ms F ( m, m 1 α (17 kd F 1-α (m, - m j (1-α kvatl F-rozdělí s m a ( - m stup volost Vzhldm k tomu, ž matc X X j rgulárí, dfuj rov (17 hprlpsod, jhož os jsou ortová do směrů vlastích vktorů V j matc (X X -1 Délk jdotlvých poloos jsou rov p jsou vlastí čísla matc (X X -1 a p - m s F1 α (m, - m (18 λ j, kd λ j Jak j patré, jsou jak odhad paramtrů, tak další statstcké charaktrstk rgrs závslé jak a hodotách tak X Mtoda jmších čtvrců posktuj správé výsldk jom př současém splěí přdpokladů o datch a o rgrsím modlu K ověřováí těchto přdpokladů s používá rgrsí dagostka, ktrá zahruj : 1 Mtod pro průzkumovou aalýzu jdotlvých proměých Mtod pro aalýzu vlvých bodů 3 Mtod pro odhalí poruší přdpokladu mtod jmších čtvrců Základí rozdíl mz rgrsí dagostkou a klasckým tst spočívá v tom, ž u rgrsí dagostk í třba přsě formulovat altratví hpotézu a jsou přtom odhal tp odchlk od dálího rgrsího trpltu data - modl - mtoda odhadu
3 Průzkumová aalýza dat Účlm průzkumové aalýz j zkoumáí statstckých zvláštostí v datch, Problémm použtí těchto mtod v rgrs j to, ž jd o strukturovaá data s vazbam vjádřým rgrsí fukcí O mtodách průzkumové aalýz jdorozměrých dat j dtalě pojdáo v kz [1] V rgrsí aalýz s vbraých postupů průzkumové aalýz používá pro: a určí statstckých zvláštostí jdotlvých proměých bo rzduí, b posouzí "párových" vztahů mz všm sldovaým proměým, c ověří přdpokladu o rozdělí proměých bo rzduí V řadě případù jž pouhé vsí aměřé vlč prot dxu můž odhalt skrtou proměou, často souvsjící s časm bo pořadím měří K ortačímu posouzí vztahů mz jdotlvým proměým s užívá rozptlových grafů, kd s a os vášjí přímo hodot sldovaých proměých formac o multkolartě lz získat vsím dvojc vsvětlujících proměých x j prot x k, Přblžě lárí závslost zd dkuj slou multkolartu Na druhé straě však můž vést váší prot x j, j 1,, m, k mlým závěrům o lartě modlu, ktrý j v skutčost lárí K ověří ormalt dat s často používá Q-Q grafů [1] Mz základí tchk průzkumové aalýz patří staoví rozsahu a rozmzí dat, jjch varablt a přítomost vbočujících pozorováí K tomu lz vužít grafù rozptýlí s kvatl a řad dalších postupů [1] Přs svoj jdoduchost umožňuj průzkumová aalýza dtfkovat jště přd vlastí rgrsí aalýzou: 1 vhodost dat jako důsldk malého rozmzí bo přítomost vbočujících bodů, správost avržého modlu (skrté proměé, 3 multkolartu (přblžě lárí vztah mz sloupc matc X 4 ormaltu v případě, kd jsou vsvětlující proměé áhodé vlč 4 Posouzí kvalt dat Kvalta dat zc souvsí s použtým rgrsím modlm Př posuzováí s slduj přdvším výskt vlvých bodů (VB, ktré jsou hlavím zdrojm řad problémů, jako j zkrslí odhadů a růst rozptlů až k aprosté použtlost rgrsích odhadů paramtrů V zvláštích případch však vlvé bod zlpšují prdkčí schopost modlů Vlvé bod slě ovlvňují většu výsldků rgrs Lz j rozdělt do tří základích skup: a rubé chb, ktré jsou způsob měřou vlčou (vbočující pozorováí bo vhodým astavím vsvětlujících proměých (xtrém Jsou občjě důsldkm chb př mapulac s dat b Bod s vsokým vlvm (tzv gold pots jsou spcálě vbraé bod, ktré bl přsě změř, a ktré obvkl rozšřují prdkčí schopost modlu c Zdálvě vlvé bod vzkají jako důsldk správě avržého rgrsího modlu Podl složk dat, v ktré s vlvé bod vsktují, lz provést dělí a: 1 vbočující pozorováí (outlrs O, ktré s a os výrazě lší od ostatích, xtrém (hgh lvrag pots E, ktré s lší v hodotách a os x, bo v jjch
kombac (v případě multkolart od ostatích bodů Vsktují s však bod, ktré jsou jak vbočující tak xtrémí (OE O jjch výsldém vlvu však přdvším rozhoduj to, ž jsou xtrém O E Obr Vlv vbočujícího bodu (O plá čára, xtrému (E čárkovaá čára a kombac (OE tčkovaá čára a průběh rgrsí přímk určé MNČ K dtfkac vlvých bodů tpu vbočujícího pozorováí s vužívá zjméa rzduí a k dtfkac xtrémů pak dagoálích prvků projkčí matc Obcější charaktrstk vlvých bodů jsou fukcí rzduí a dagoálích prvkù projkčí matc s faktorm souvsjícím s počtm bodů a počtm proměých m 5 Statstcká aalýza rzduí Rzdua jsou základm pro dtfkac podzřlých bodů a korktost avržého rgrsího modlu Př jjch trprtac s však vsktuj řada chb a přsostí Statstcká aalýza rzduí - x b, kd x j -tý řádk v matc X, vchází z přdpokladu, ž jd o odhad chb ε Nsprávé přdstav o klasckých rzduích jsou, ž: 1 rozdělí rzduí j stjé jako rozdělí chb a statstcké vlastost rzduí jsou shodé s vlastost chb čím j rzduum vtší, tím j daý bod vlvější, a tím spíš b s měl z dat vloučt Z gomtr a obr1 pl, ž rzdua jsou závslá, kdž chb jsou závslé Jd totž o projkc vktoru do podprostoru rozměru ( - m S vužtím projkčí matc P lz psát, ž P P(Xβ + ε Pε (19 Př pravě rovc (19 blo vužto faktu, ž vktor X b lží v rově kolmé a rovu, do ktré s provádí projkc, takž výsldkm j ulový vktorpro -té rzduum vjd OE x (1- - å j j (1- ε -å j ε j (0 j_ j_
Každé rzduum j td lárí kombací všch chb ε Rozdělí rzduí j obcě závslé a rozdělí chb, a prvcích projkčí matc a a vlkost výběru Protož j rzduum součtm áhodých vlč s ohračým rozptlm, projvuj s zjméa u mších výběrů tzv fkt suprormalt o zamá, ž kdž chb ε mají ormálí rozdělí, vchází rozdělí rzduí blízké ormálímu U mších výběrů jsou prvk projkčí matc vlké a přvažující rol hraj součt člů j ε j Rozdělí tohoto součtu s víc blíží ormaltě ž rozdělí původích chb ε U dostatčě vlkých výběrů, kd 1/ j blízké 0 j ε a aalýza rozdělí rzduí podává formac o rozdělí chb Pro rozptl rzduí platí Rozptl rzduí D( j td kostatí, kdž rozptl chb j kostatí Pro párový korlačí kofct r j mz dvěma rzdu a j platí r j D( s (1- (1 - j (1- (1- jj J td patré,ž rzdua jsou korlovaá, kdž chb ε a ε j jsou závslé Pro slě xtrémí bod platí, ž dagoálí prvk 1, zatímco všch dagoálí prvk j 0 Z rovc (0 pak ovšm pl, ž 0 j bz ohldu a vlkost Rzdua proto dkují vžd správě slě odchýlé hodot Klascká rzdua jsou td korlovaá, s kostatím rozptlm, jví s ormálější a musí dkovat slě odchýlé bod V odboré ltratuř s často doporučuj užíváí ormovaých rzduí N /s, o ktrých s soudí, ž to jsou ormálě rozdělé vlč s ulovou střdí hodotou a jdotkovým rozptlm N ~ N(0, 1 K vjádří jjch vlvu s používá pravdla 3s, tj hodot větší ž ± 3s jsou považová za vbočující Pro případ ormálího rozdělí lží za hrací x A ± 3s pouz 03 % hodot Rozptl D( N (1 - í a kostatí, a jdotkový Navíc blo ukázáo, ž pro slě vlvé xtrémí bod j 0, takž užtí pravdla ± 3s můž vést k vlučováí správých dat př zachováí chbých hodot Kostatí rozptl mají tprv stadardzovaá rzdua S, ktrá vzkou dělím rzduí jjch směrodatou odchlkou s, td S s 1- ( Vlastost stadardzovaých rzduí S jsou téměř stjé jako klasckých rzduí Maxmálí hodota S j m Vlča S/ ( - m má bta-rozdělí B [05; ( - m - 1 / ] Pokud s v rov ( pro výpočt stadardzovaého rzdua S použj místo odhadu s odhadu směrodaté odchlk s (-, získaé př vcháím -tého bodu, rsultují plě Studtzovaé, rsp Jackkf rzdua J
- m -1 J S - m cotg Θ (3 - m - S ato rzdua mají za přdpokladu ormalt chb Studtovo rozdělí s ( - m - 1 stup volost Odpovídají tstovací statstc Studtova t-tstu ulové hpotéz 0 : C 0 v modlu jdoduchého posuutí Xβ + * C + ε (4 kd j jdotkový vktor, obsahující jako -tý prvk jdčku a ostatí prvk jsou ulové Modl (4 vsthuj j případ vbočujícího měří, kd C j přímo vlkost vchýlí, al případ xtrému, kd j C a d j vktor vchýlí jdotlvých x-ových složk -tého bodu Jackkf rzdua jsou běžě vužíváa místo klasckých rzduí k dtfkac vbočujících bodů A tato rzdua však musí být spolhlvá v případě xtrémů Další skup rzduí jsou popsá v prác [1] 6 Aalýza prvků projkčí matc Aalýza prvků projkčí matc hraj v rgrsí dagostc důlžtou rol Dagoálí prvk této matc x (X X -1 x dkují přítomost xtrémích bodů, ktré jsou zachc aalýzou rzduí Dagoálí prvk mají řadu vlastostí, ploucích z smtr a dmpottost matc : 1 Z vlastostí projkčí matc přímo pl podmíka pro dagoálí prvk 0 < < 1 a prvk mmo dagoálu -1 j 1 Pokud modl obsahuj absolutí čl a hodost matc X j m, platí pro dagoálí prvk podmíka 1/ 1/C, kd C j počt opakováí měří tj opakováí -tého řádku matc X Pro modl s absolutím člm a plou hodostí matc X platí, ž å 1, åj 1 1 1 a průměrá hodota dagoálího prvku j m/ å å j j1 3 Z dmpottost matc pl, ž + j Z těchto rovostí vplývají dvě důlžté vlastost dagoálích prvkù : a pokud jsou dagoálí prvk blízké ul, 0, jsou všch mmodagoálí prvk blízké ul j 0, pro j 1,, ; b pokud jsou dagoálí prvk blízké jdé, 1, jsou všch mmodagoálí prvk blízké ul, j 0, pro j 1,, 4 Jstlž matc X pochází z vícrozměrého ormálího rozdělí, má vlča F ( - m [ - 1/] [(1 - (m - 1] F-rozdělí F (m - 1, - m 5 Čím jsou dagoálí prvk všší, tím víc ovlvňuj -tý bod prdkc P Jsou-l hodotou blízké jdé 1, j P a vškrá varablta v místě x j objasěa rgrsím modlm(vz tčkovaá a čárkovaá čára a obr 6 Dagoálí prvk d P / d vjadřují ctlvost prdkc P a změu hodot Jjch ulová hodota 0 potom dkuj bod, ktrý má žádý vlv a prdkc 7 Dagoálí prvk jsou klsající fukcí počtu vsvětlujících proměých m j
a rostoucí fukcí počtu bodů 8 Čím j bod x vzdálější od těžště ostatích bodů, tím víc s bud jvt xtrémí, a tím víc porost hodota dagoálích prvků 9 Pokud mají vsvětlující proměé x ormálí rozdělí, platí pro vlké poèt bodù, ž - 1 má přblžě χ ( rozdělí m Pro komplxější aalýzu j vhodé provést rozšíří matc X o vktor, takž vzk matc X * (X éto matc odpovídá projkčí matc * + Protož matc * obsahuj formac o všch datch, j vhodá jako clková míra vlvých bodù Pro dagoálí prvk této matc platí vztah * + ( - m s Pro grafcké zázorěí s používá dxový graf prvkù prot dxu 7 Charaktrstk vlvých bodù Př posuzováí vlvých bodů j třba mít a pamět, ž mohou stjě výrazě ovlvňovat růzé charaktrstk rgrs Například, bod ovlvňující výrazě prdkc P musí být z hldska rozptlu paramtrů vůbc vlvé Stupň vlvu jdotlvých bodů j třba posuzovat vžd s ohldm a to, ktré charaktrstk rgrs ovlvňují K dtfkac vlvých bodů xstuj řada dalších dagostk, ktré lz rozdělt dl dvou základích skup Zvětšý rozptl to přístup vchází z platost lárího rgrsího modlu (1a s spcálí strukturou rozptlů chb Pro -tou chbu ε platí, ž má ormálí rozdělí N(0, s / w, zatímco ostatí chb ε j, j, mají ormálí rozdělí N(0, s s kostatím rozptlm Váhový paramtr w lží v trvalu 0 < w < 1 akový modl působí vlvých bodù s ozačuj jako modl zvětšého rozptlu (flatd varac Pro w 1 s jdá o klasckou mtodu jmších čtvrců Ozačm b(w odhad paramtrù b, určý MNČ pro případ, ž rozptl -té chb j rov právě s /w Pak platí 1 (X X x (1 w b(1 b( w 1 (1 w (5 kd x j -tý řádk matc X, ktrý obsahuj x-ové složk -tého bodu Pro w 0 vjd z rovc (5, ž b(1 - b(0 b - b (, kd b ( j odhad získaý mtodou jmších čtvrců z všch bodù kromě -tého Vcháí -tého bodu j td stjé, jako kdž má tto bod ohračý, tj kočý rozptl Vpouštěí bodů to přístup j založ a sldováí změ charaktrstk rgrs, k ktrým dojd př vpuštěí jdotlvých bodů bo jjch skup J sahou používat vhodé skalárí mír rgrsích charaktrstk, ktré s sado trprtují a grafck zázorňují Njzámější
skalárí míra j Cookova vzdálost D souvsjící s kofdčím lpsodm odhadů (b b X X(b b ( ( S D (6 ms m 1 o umožňuj jjí porováí s kvatl F-rozdělí Jd zd však o posu odhadů, ktrý vzkl vcháím -tého bodu Ortačě platí, ž pro D > 1 posu přsahuj 50%í kofdčí oblast a daý bod j proto vlvý Další možé vsvětlí Cookov vzdálost D vchází z toho, ž jd o Eukldovskou vzdálost mz vktorm prdkc P mtod jmších čtvrců a vktorm prdkc P(, ktrý odpovídá odhadům mtodou jmších čtvrců př vcháí -tého bodu Cookova vzdálost D vjadřuj vlv -tého bodu pouz a odhad paramtrů b Pokud td -tý bod ovlví odhad rgrsích paramtrů b výrazě, bud hodota Cookov vzdálost D malá akový bod však můž slě ovlvt odhad rzduálího rozptlu s K vjádří rlatví změ odhadů paramtrů, způsobé vcháím -tého bodu j možé užít stadardzovaých odchlk j-tého odhadu b j od téhož odhadu b (j, získaého př vcháí -tého bodu Odpovídající dagostka má tvar DS j b j - b s ( ( j V (7 kd V j dagoálí prvk matc X X Vlv -tého bodu a odhad j-tého rgrsího paramtru j výzamý, pokud j DS > / Adrwsova-Prgboova dagostka AP vjadřuj vlv -tého bodu a změu objmu kofdčího lpsodu * * dt(x ( X ( AP (8 * * dt(x X kd X * (X j matc X rozšířá o vktor Dagostka AP souvsí s prvk rozšířé projkčí matc * vztahm * AP 1- - N 1- (9 Za výrazě vlvé s považují bod, pro ktré j * (1 - AP > (m + 1 / K ufkovaému vjádří vlvých bodů s používá věrohodostí vzdálost LD dfovaou výrazm LD ( L( Θ L( Θ ( kd L(Θ j maxmum logartmu věrohodostí fukc př použtí všch bodù a L(Θ ( j totéž s vcháím -tého bodu Vktor paramtrů Θ obsahuj jak odhad rgrsích paramtrů b tak rozptlu s Za slě vlvé s považují bod, pro ktré j LD > χ 1 - α (m + 1, kd χ 1 - α (m + 1 j kvatl χ rozdělí s (m + 1 stup volost Pomocí růzých varat LD lz vštřovat vlv -tého bodu a odhad paramtrů, rozptl
chb bo kombac obojích Pro sldováí vlvu jdotlvých bodů pouz a odhad rgrsích paramtrů b vjd věrohodostí vzdálost v tvaru LD é d l + 1 1 ë ù û Pro sldováí ctlvost odhadu rzduálího rozptlu s a přítomost vlvých bodů má věrohodostí vzdálost tvar LD ( s l -1 d ( -1 + l(1 - d + -1 1- d Pro sldováí vlvu -tého bodu a odhad paramtrů rozptlu má věrohodostí vzdálost tvar LD ( b, s V těchto vztazích j æ ö lç + l(1 d è 1ø ( 1 d + (1 d (1 1 s d (30 - m Z rozboru těchto tří varat věrohodostí vzdálost pl: a Dagostka LD (b j mootóí fukcí Cookov vzdálost D a v porováí s í přáší žádé ové pozatk b Dagostka LD (s závsí a a bud td ovlvěa xtrémím bod c Dagostka LD (b, s vsthuj vlv jdotlvých bodů a b a s J výhodá zjméa pro modl bz absolutího člu Dagostka LD (b,s ohračuj shora vlč LD (b a LD (s a postačuj proto v prvím přblíží sldovat pouz j A vlč LD jsou zcla uvrzálí a k vštří vlvých bodů s proto užívá kombac řad růzých dagostk Z jjch hodot s usuzuj, zda j uté daé bod z další aalýz vpustt č kolv K tstováí vlvu -tého bodu a součt střdích kvadratckých chb odhadů, střdích kvadratckých chb prdkc a tgrálí střdí kvadratcké chb prdkc s doporučuj jako tstovací statstka Jackkf rzduum J, ktré j vhodé jak pro modl jdoduchého posuutí tak pro modl zvětšého rozptlu D(ε s / w Pokud s slduj současě bodů, platí pro modl jdoduchého posuutí podmíka J 1-α / F (1, - m- 1, 05 Jjí splěí pro všcha zamá přítomost vlvých bodů v datch Vlča F 1-α / (1, - m - 1, 05 j 100 (1 - α / %í kvatl ctrálího F-rozdělí s paramtrm ctralt 05 a (1, - m - 1 stup volost Pro modl zvětšého rozptlu platí aalogck, ž splěí
rovost F J 1 α / (1, m 1 pro všcha zamá přítomost vlvých bodù Zd F 1-α /(1, - m - 1 j 100 (1 - α / %í kvatl ctrálího F-rozdělí s 1 a ( - m - 1 stup volost Na základě těchto dvou tstů lz dfovat ortačí pravdlo: slě vlvé bod mají čtvrc Jackkf rzduí J větší ž 10 K aalýz vlvých bodů j vhodé užít také dagostckých grafů: a dxové graf (G obsahují charaktrstk vlvých bodů v závslost a dxu daého bodu, stjě jako dxové graf pro prvk projkčí matc, atd Výhodější jsou však spcálí graf, ktré vužívají faktu, ž všch charaktrstk vlvých bodù jsou jdoduchým fukcm rzduí a prvků projkčí matc b V L-R grafch s váší a osu čtvrc ormovaých rzduí N / RSC a a osu x prvk Všch bod pak lží pod přpoou v pravohlém trojhlíku s pravým hlm v počátku souřadc a přpoou, dfovaou lmtí rovostí + N 1 Většu charaktrstk vlvých bodů lz vjádřt v tvaru K(m, f(, N, kd K(m, j kostata, závsjící j a m a [1] V praktckých aplkacích j problémm, ž přítomost víc vlvých bodů s můž projvt maskováím bo přkrtím [] Dagostk smultáího posuzováí skup vlvých bodů lz sado dfovat a základě dagostk založých a vpouštěí bodů Nchť ( 1,, k pro k < (-m j moža k dxů jjchž vlv s má posoudt S výhodou s vužj přuspořádáí tak, ž podzřlých k bodů jsou posldí řádk matc X a vktoru Zavďm ozačí X æ X ç è X ( ö ø ( - k k x m x m æ ç è ( ö ( - ø k x 1 k x 1 æ ç è ( ö ( - k x 1 ø k x 1 Projkčí matc odpovídající podzřlým bodům j pak dfováa vztahm X (X X (31 1 X 1 Vlča S (E odpovídá síží rzduálího součtu čtvrců vlvm odstraěí k tc dxovaých bodů Aalogí klasckých stadardzovaých rzduí pro víc bodů j vlča S S (3 s Pro skupu vlvých bodů má Cookova vzdálost tvar D ( 1 (33 ms a pro Adrws Prgboovu statstku platí
AP S 1 (1 dt(e m (34 Věrohodostí vzdálost L ( b, s má pro případ k vloučých bodů tvar é( m ù S ( 1( m + md LD ( b, s l + m m ë û J patré, ž ž př vhodém přuspořádáí dxů lz poměrě sado ahradt skalár vktorm dxů Dosavadí mír bl vhodé pro vbraé charaktrstk rgrs a posthoval komplxě vlv bodů a výsldk rgrs ad [3] avrhl jdu míru vcházjící z přdpokladu, ž vlvé bod mohou vbočovat vzhldm k prostoru proměých x a vzhldm k vktoru Kombací charaktrstk vjadřujících vlv v prostoru x (vzdálost podzřlých hodot od ostatích a v prostoru (chba prdkc rsultuj vztah S A m k (E Pro případ, kd k 1 a ( pak vjd A m (1 d * (1 d + 1 (31 kd d j dfováo rov (30 Prví čl v rov (31 j fukc tého rzdua a dagoál projkčí matc (chba prdkc Druhý čl s azývá potcál Potcál rzduový graf (PRG má a os x prví čl a a os druhý čl matc (31 d pro k 1 a s m d vášjí prot 1 1 (1 d V tomto grafu jsou xtrém v lvém horím rohu a vbočující hodot jsou v pravém dolím rohu Další dagostk vlvých bodů jsou popsá v prác [4] Zajímavou možostí j také kombac robustích mtod s dtfkací vlvých bodů [] 8 Program REGDA Na základě výš popsaých charaktrstk vlvých bodů bl sstav program REGDA v jazc MALAB to program počítá základí charaktrstk rgrs a dagostk založé a vpouštěí jdotlvých bodů Kromě zd uvdých charaktrstk jsou v programu obsaž další charaktrstk, jjchž pops lz alézt apř v čláku [] J použt také PR graf pro posouzí obcého vlvu jdotlvých bodů a výsldk rgrs Pro řší odhadu paramtrů s užívá trí zabudovaé fukc vrtac s provádí pomocí zabudovaé fukc v Užvatl můž volt modl bz bo s absolutím člm Jsou k dspozc jak rozsáhlé tablárí výstup tak řada grafů
Pro lustrac čost tohoto programu bla použta ockgova sttcká data [6] určá pro rgrsí dagostku Počt bodů 6 a počt proměých, m 4 Modl: Y a0 + a1*x1 + a*x + a3*x3 Grac dat : 0 + 3*x1 - *x + ps1 ps1áhodá čísla z N(0,5 multkolarta: *x3 60-3*x1-15*x + ps, ps áhodá čísla z N(0,16 Vbočující bod : č11,17,18 Extrém : č4 (lží mmo rovu multkolart Data bla zpracováa programm REGDA S ohldm a zaměří této prác bl vbrá dva tpcké grafcké výstup dxový graf pro clkovou věrohodostí vzdálost LD (b,s a potcál rzduový graf (PR graf jsou zobraz a obr3 a 4 J patré, ž v obou případch bl dtfková všch arušující bod 5 Lkl ovrall 4 18 4 3 LDV 1 0 11-1 17-0 5 10 15 0 5 30 dx Obr3 dxový graf pro clkovou věrohodostí vzdálost LD (b, s
0035 Pottal rsdual plot 003 18 005 00 0015 17 001 11 0005 4 0 0 4 6 8 10 1 x Obr 4 Potcál rzduový graf 9 Závěr Bl uvd základí mšlk a souvslost pro mtodu jmších čtvrců Bl popsá vbraé mtod rgrsí dagostk Pozorost bla zaměřa přdvším a postup dtfkac vlvých bodů Bla zmíěo také použtí tchk průzkumové aalýz dat Bl uvd program v jazc MALAB Poděkováí: ato prác vzkla s podporou výzkumého ctra xtl LN00B090 10 Ltratura [1] Mlou M, Mltký J: Zpracováí xprmtálích dat, East Publshg Praha 1998 [] Mltký J, Mlou M: Vbočující bod v vícrozměrých datch, Sborík z kofrc Zajštěí kvalt aaltckých výsldků, Komorí Lhotka, břz 00 [3] ad A A: Comput Statst Data Aal 14, 1 (199 [4] Brow GP, Lawrac AJ: Commu Statst A9, 079 (000 [5] Mlou M, Mltký J::Aal Chm Acta 439, 16 (001 [6] ockg RR,Pdlto OJ: CommuStatst A1,497 (1983