Regresní diagnostika v materiálovém výzkumu

Podobné dokumenty
REGRESNÍ DIAGNOSTIKA V JAZYCE MATLAB. Jiří Militký a Milan Meloun 1 Technická universita v Liberci; 1 Universita Pardubice

PRAVDĚPODOBNOST A STATISTIKA

Téma 2: Náhodná veličina

Variabilita měření a statistická regulace procesu

8 NELINEÁRNÍ REGRESNÍ MODELY

Analýza rozptylu (ANOVA)

Odhady parametrů základního souboru. Ing. Michal Dorda, Ph.D.

PRAVDĚPODOBNOST A STATISTIKA

PRAVDĚPODOBNOST A STATISTIKA

Odhady parametrů základního. Ing. Michal Dorda, Ph.D.

Přednáška 6: Lineární, polynomiální a nelineární regrese

Tento odhad má rozptyl ( ) σ 2 /, kde σ 2 je rozptyl souboru, ze kterého výběr pochází. Má-li každý prvek i. σ 2 ( i. ( i

, jsou naměřené a vypočtené hodnoty závisle

Úvod do korelační a regresní analýzy

1.1 Rozdělení pravděpodobnosti dvousložkového náhodného vektoru

4.KMITÁNÍ VOLNÉ. Rozlišujeme: 1. nepoddajné vazby - nedovolující pohyb 2. pružně poddajné vazby - dovolují pohyb

Odhad optimálního stupně regresního polynomu

1. Základy měření neelektrických veličin

Exponenciální funkce a jejich "využití" - A (Tato doplňková pomůcka nemůže v žádném případě nahradit systematickou matematickou přípravu.

Generování dvojrozměrných rozdělení pomocí copulí

Testování statistických hypotéz

Ilustrativní příklad ke zkoušce z B_PS_A léto 2014.

VÝVOJ NÁSTROJE PRO POSUZOVÁNÍ RECYKLAČNÍCH TECHNOLOGIÍ ASFALTOVÝCH VOZOVEK S DŮRAZEM NA UHLÍKOVOU STOPU

12. N á h o d n ý v ý b ě r

S1P Popisná statistika. Popisná statistika. Libor Žák

11. Časové řady Pojem a klasifikace časových řad

Metody zkoumání závislosti numerických proměnných

6 Intervalové odhady. spočteme aritmetický průměr, pak tyto průměry se budou chovat jako by pocházely z normálního. nekonečna.

Spolehlivost a diagnostika

PRAVDĚPODOBNOST A STATISTIKA

Doc. Ing. Dagmar Blatná, CSc.

Lineární regrese ( ) 2

PRAVDĚPODOBNOST A STATISTIKA. Neparametrické testy hypotéz čast 2

Odhady parametrů 1. Odhady parametrů

USTÁLENÉ PROUDĚNÍ V OTEVŘENÝCH KORYTECH

a další charakteristikou je četnost výběrového souboru n.

je daná vztahem v 0 Ve fyzice bývá zvykem značit derivaci podle proměnné t (podle času) tečkou, proto píšeme

Test dobré shody se používá nejčastěji pro ověřování těchto hypotéz:

Ilustrativní příklad ke zkoušce z B_PS_A léto 2013.

Statistická analýza dat

4.2 Elementární statistické zpracování Rozdělení četností

Odhady parametrů polohy a rozptýlení pro často se vyskytující rozdělení dat v laboratoři se vyčíslují podle následujících vztahů:

Regrese. Aproximace metodou nejmenších čtverců ( ) 1 ( ) v n. v i. v 1. v 2. y i. y n. y 1 y 2. x 1 x 2 x i. x n

PRAVDĚPODOBNOST A STATISTIKA

SP2 Korelační analýza. Korelační analýza. Libor Žák

IV. MKP vynucené kmitání

PRAVDĚPODOBNOST A STATISTIKA

Přednáška č. 10 Analýza rozptylu při jednoduchém třídění

Chyby přímých měření. Úvod

8. Zákony velkých čísel

9.3.5 Korelace. Předpoklady: 9304

Intervalové odhady parametrů některých rozdělení.

Kapitola 2. Bohrova teorie atomu vodíku

jsou reálná a m, n jsou čísla přirozená.

Testy statistických hypotéz

14. B o d o v é o d h a d y p a r a m e t r ů

Úvod do teorie měření

Katedra pravděpodobnosti a matematické statistiky. χ 2 test nezávislosti

5.5. KOMPLEXNÍ ODMOCNINA A ŘEŠENÍ KVADRATICKÝCH A BINOMICKÝCH ROVNIC

4. PRŮBĚH FUNKCE. = f(x) načrtnout.

1 Měření závislosti statistických znaků. 1.1 Dvourozměrný statistický soubor

NEPARAMETRICKÉ METODY

ZÁKLADNÍ STATISTICKÉ VÝPOČTY (S VYUŽITÍM EXCELU)

3. Hodnocení přesnosti měření a vytyčování. Odchylky a tolerance ve výstavbě.

Nejistoty měření. Aritmetický průměr. Odhad směrodatné odchylky výběrového průměru = nejistota typu A

Jednoduchá lineární regrese

TĚŽIŠTĚ A STABILITA. Těžiště tělesa = bod, kterým stále prochází výslednice tíhových sil všech jeho hmotných bodů, ať těleso natáčíme jakkoli

PRAVDĚPODOBNOST A STATISTIKA

Přednáška V. Úvod do teorie odhadu. Pojmy a principy teorie odhadu Nestranné odhady Metoda maximální věrohodnosti Průměr vs.

Mendelova univerzita v Brně Statistika projekt

Odhady a testy hypotéz o regresních přímkách

Náhodný výběr 1. Náhodný výběr

Optimalizace portfolia

M ě ř e n í o d p o r u r e z i s t o r ů

PRAVDĚPODOBNOST A STATISTIKA. Náhodný vektor

Mezní stavy konstrukcí a jejich porušov. Hru IV. Milan RůžR. zbynek.hruby.

PRAVDĚPODOBNOST A STATISTIKA. Náhodný vektor

Pravděpodobnost a aplikovaná statistika

Úvod do zpracování měření

8.2.1 Aritmetická posloupnost I

8. Analýza rozptylu.

VYSOCE PŘESNÉ METODY OBRÁBĚNÍ

( NV, )} Řešením Schrödingerovy rovnice pro N částic

Přednáška č. 2 náhodné veličiny

PRAVDĚPODOBNOST A STATISTIKA. Bodové a intervalové odhady

K čemu slouží regrese?

PRAVDĚPODOBNOST A STATISTIKA

Téma 2 Přímková a rovinná soustava sil

Pravděpodobnostní model doby setrvání ministra školství ve funkci

Náhodné jevy, jevové pole, pravděpodobnost

Intervalové odhady parametrů

Měření závislostí. Statistická závislost číselných znaků

Správnost vztahu plyne z věty o rovnosti úhlů s rameny na sebe kolmými (obr. 13).

Algoritmus RSA. Vilém Vychodil. 4. března Abstrakt

veličiny má stejný řád jako je řád poslední číslice nejistoty. Nejistotu píšeme obvykle jenom jednou

11. Regresní analýza. Čas ke studiu kapitoly: 60 minut. Cíl VÝKLAD Úvod

[ jednotky ] Chyby měření

Interpolační křivky. Interpolace pomocí spline křivky. f 1. f 2. f n. x... x 2

EKONOMETRIE 9. přednáška Zobecněný lineární regresní model

7. Analytická geometrie

Transkript:

Rgrsí dagostka v matrálovém výzkumu JŘÍ MLKÝ, Katdra txtlích matrálů, chcká uvrsta v Lbrc, álkova 6 461 17 Lbrc, - mal: jrmlk@vslbcz MLAN MELOUN, Katdra aaltcké chm, Uvrsta Pardubc, Pardubc Abstrakt: Jsou vd základí problém př použtí rgrsích mtod pro pops vztahu mz složím a vlastostm matrálů J přhldě pojdáo o logckých prcpch mtod jmších čtvrců pro lárí modl Jsou uvd základí loh rgrsí dagostk Dtalěj jsou probrá mtol hodocí vlvých bodů a jjch skup J popsá program REGDA v jazc MALAB pro dtfkac vlvých bodů v lárích rgrsích modlch 1Úvod Jdou z frkvtovaých loh řšých v rámc hutí aaltk j aalýza složí rud, rsp obsahu prvků v kovch a sltách Účlm j kromě hodocí kvalt hldat vztah mz složím a vlastostm matrálů Přdstavou j, ž vlastost matrálu P s dá vjádřt fukcí P f (s 1 s m, kd s jsou obsah jdotlvých prvků, rsp slouč v matrálumodl pro vjádří vlastostí matrálu v závslost a jho složí s vsktují frkvtovaě také v dalších oborch souvsjících s matrálovým výzkumm Výzam těchto modlů tkví zjméa v přdstavě, ž umoží přdvídat vlastost a optmalzovat složí Vžaduj s td progostcká schopost modlu souvsjící s možostí rozšíří mmo oblast sldovaého složí Formálě s fukc f(s 1 s m hldá s vužtím mtod matmatckého modlováí Vzhldm k tomu, ž xstuj fzkálí tor, ktrá b bla východskm pro alzí tpu modlové fukc s vužívá aparátu rgrs Vchází s z lárího rgrsího modlu tpu m 0 + å j 1 P b b j * s (1 j ktrý s dál rozšřuj a upravuj tak, ab měl postačující prdkčí schopost Vzhldm k tomu, ž j sahou posthout jvýzamější složk s ovlvňující vlastost P j třba řšt zjméa tto loh: - staoví vazb mz proměým s 1 m za člm odstraěí multkolart a paraztích proměých - alzí vazb mz vsvětlovaou proměou P a vsvětlujícím proměým s za člm zpřsěí modlu (1, rsp jho rozšíří o trakc a lart - posouzí kvalt dat s ohldm a omzý rozsah (obsah prvků j omz jak shora, tak z zdola, přítomost vlvých bodů (vbočující bod, xtrém a případě ormálí rozdělí

Řada vhodých tchk pro řší těchto loh j uvda v kz [1] V tomto příspěvku jsou popsá pouz vbraé problém týkající s posuzováí kvalt dat, ktré jsou pro kostrukc kvaltího modlu jdou z rozhodujících součástí J přhldě pojdáo také o obcém postupu tvorb rgrsích modlů Základ rgrs Rgrsí aalýza umožňuj alzí závslost výstupí vlč (odzv a astavovaé kombac hodot m-tc vstupích proměých x (x 1, x x m Vchází s z aměřých hodot př růzých kombacích astavovaých proměých x 1, x, x m Jd vlastě o -tc bodů {, x j }, j 1,, m, 1,,, vjádřých v zkrácém matcovém zápsu {, X} Vktor má rozměr ( 1 a matc X ( m Cílm statstcké aalýz j objasěí varablt měřé, výstupí závsl proměé (vsvětlovaé vlč s vužtím rgrsí fukc f(x, β obsahující astavovaé, vstupí, závsl proměé (vsvětlující vlč x Běžě s přdpokládá, ž vlča j áhodá a vlč x jsou áhodé a lbovolě astavovatlé to přdpoklad j možé akcptovat pro hutcká data pouz s tím, rozdílm, ž obsah jdotlvých složk v matrálu í lbovolě astavtlý J ovlvtlý xprmtátorm a jho vlkost j omza o můž čt problém zjméa př posuzováí výzamost přs korlačí kofct, kd omzí v datch působí výrazě a jho vlkost Dalším přdpokladm j adtví modl měří ktrý lz vjádřt v tvaru f( x, b + ε ( kd ε jsou áhodé vlč Omzm s a lárí rgrsí modl, kd j rgrsí modl lárí v paramtrch a občjě j přímo lárí kombací vsvětlujících proměých Podmíěá střdí hodota proměé pro daé x (rgrs j pak v tvaru E(/ x å m 1 x j (1a β j J patré, ž tomuto modlu vhovuj také rov (1 výchozí pro hldáí vztahu mz složím a vlastostm matrálů Odhad b paramtrů β j pak možé určt mtodou jmších čtvrců, ktrá bývá v prax jpoužívaější Ukažm s gomtrcký výzam této mtod V případě platost adtvího modlu měří pro lárí rgrsí modl j možé zapsat výsldk xprmtů jdoduš s pomocí lárí kombac sloupcových vktorů é ë 1 ù û é ë x x x 11 1 1 m x x x 1 m x x x 1 m (x1 (xm (mx1 (x1 ù û é ë β β β 1 m ù û + é ë ε ε ε 1 ù û (3

Sloupc x j matc X dfují z gomtrckého hldska m-rozměrý souřadcový sstém rsp adrovu L v -rozměrém ukldovském prostoru E Vktor obcě lží v adrově L, (vz obr 1 pro případ dvou závsl proměých m V adrově L však lží všch lárí kombac sloupců matc X tj vktor X β Paramtr β lz td chápat jako kofct měrost u jdotlvých složk x j souřadcového sstému (vsvětlujících proměých jjchž lárí kombac tvoří rgrsí modl Bz ohldu a užté krtérum rgrs bud td u lárích rgrsích modlů lžt modlová fukc X b stjě jako tortcký modl X β v m-rozměré adrově L Mtoda jmších čtvrců (MNČ hldá odhad paramtrů b tak, ab bla mmalzováa vzdálost mz vktorm a adrovou L o j kvvaltí požadavku mmálí délk vktoru rzduí (4 P kd p X b j vktor prdkc V ukldovském prostoru lz délku vktoru vjádřt vztahm d å 1 (5 Čtvrc délk vktoru j td číslě shodý s hodotou krtrálí podmík S(b mtod jmších čtvrců Odhad modlových paramtrů b pak mmalzují výraz å m å é 1 ë j 1 ù j û S(b x b (6 j Vktor a P jsou zázorě a obr1 Vktor P azývaý vktor prdkc přdstavuj kolmou projkc vktoru do adrov L Vktor azývaý vktor rzduí lží v (-m rozměré adrově L*, kolmé a adrovu L ε P Xβ Obr 1 Gomtr lárího rgrsího modlu x 1 Na základě tohoto gomtrckého zázorěí lz hldat odhad paramtrů b tak, ab bla mmalzováa vzdálost mz vktorm a adrovou L J patré, ž vktor rzduí j kolmý a všch sloupc matc X, a proto jsou odpovídající skalárí souč ulovéuto

soustavu podmík lz zapsat matcově jako X 0 (7 Po dosazí za - X b a pravě vjd odhad b, mmalzující vzdálost d v tvaru 1 b (X X X (8 kd smbol A -1 ozačuj vrz matc A Z rovc (8 lz určt tvar projkčí matc pomocí ktré s promítá vktor do adrov L d P (9 Pomocí vktoru b lz vjádřt rovc (9 v tvaru 1 X b X(X X X P (10 Projkčí matc X (X X -1 X má tu vlastost, ž promít lbovolý vktor V do rov L Projkčí matc P pro kolmou projkc do adrov L*, kolmé a adrovu L má tvar P E (11 kd E j jdotková matc S vužtím těchto projkčích matc lz provést rozklad vktoru do dvou složk + P + P Gomtrck to zamá, ž vktor bl rozlož a dva vzájmě kolmé vktor Jd souvsí s částí varablt objasěé rgrsím modlm a druhý s zbtkovou (rzduálí varabltou K stjým vztahům lz dospět aaltckou mmalzací krtéra MNČ, tz drvováím rovc (6 a dalším pravam Pro určí statstckých vlastostí áhodých vktorů, rsp b s užívá přdpokladů, P za ktrých má mtoda jmších čtvrců (MNČ optmálí vlastost [1]: Rgrsí paramtr β mohou abývat lbovolých hodot V prax však často xstují omzí paramtrů, ktrá vcházjí z jjch fzkálího smslu Rgrsí modl j lárí v paramtrch a platí adtví modl měří ( Matc áhodých, astavovaých hodot vsvětlujících proměých X má hodost rovou právě m o zamá, ž žádé jjí dva sloupc x j, x k jsou kolárí, tj rovoběžé vktor omu odpovídá formulac, ž matc X X j smtrcká rgulárí matc, k ktré xstuj vrzí matc a jjíž dtrmat j větší ž ula Z gomtrckého hldska to zamá, ž rova L j m-rozměrá a vktor X b jsou jdozačě urč Jdozačé jsou odhad b paramtrů β, staové mtodou jmších čtvrců

V Náhodé chb ε mají ulovou střdí hodotu E(ε 0 o musí u korlačích modlů platt vžd U rgrsích modlů s můž stát, ž E(ε K, 1,,, což zamá, ž modl obsahuj absolutí čl Po jho zavdí však bud E( ε 0, kd ε P, K Modl tpu (1a obsahují absolutí čl, pokud j posldí proměá x m 1 pro všcha 1,, Posldí sloupc matc X obsahuj td samé jdčk a b m přdstavuj absolutí čl V Náhodé chb ε mají kostatí a kočý rozptl E( ε σ aké podmíěý rozptl D(/x σ j kostatí a jd o homoskdastcký případ V Náhodé chb ε jsou vzájmě korlovaé a platí cov(ε ε j E(ε ε j 0 Pokud mají chb ormálí rozdělí, jsou závslé to požadavk odpovídá požadavku závslost měřých vlč V Chb ε mají ormálí rozdělí N(0, σ Vktor má pak vícrozměré ormálí rozdělí s střdí hodotou Xβ a kovaračí matcí σ E, kd E j jdotková matc Pokud platí prvích šst přdpokladů, jsou odhad b, získaé mmalzací krtéra jmších čtvrců, jlpší vchýlé lárí odhad rgrsích paramtrů: Njlpší odhad b jsou proto, ž jjch lbovolá lárí kombac má jmší rozptl z všch lárích vchýlých odhadů Zamá to, ž jdotlvé rozptl odhadů D(b j jsou mmálí z všch možých lárích vchýlých odhadů (Gaussova-Markova věta J třba pozamat, ž xstují vchýlé odhad, jjchž rozptl jsou mší ž rozptl odhadů D(b j Nvchýlé odhad b jsou proto, ž platí E(β - b 0, což zamá, ž střdí hodota vktoru odhadů E(b j rova vktoru rgrsích paramtrů β Lárí odhad b jsou proto, ž j lz zapsat jako lárí kombac měří s váham Q j, ktré závsí pouz a polohách proměých x j, j 1,, m Za jstých přdpokladů o matc X avíc platí, ž odhad b mají asmptotck vícrozměré ormálí rozdělí s kovaračí matcí D( b ( X σ X 1 (1 V případě, ž platí také přdpoklad V, mají odhad b ormálí rozdělí už pro kočé rozsah výběru Protož j matc áhodá, platí pro kovaračí matc prdkc vztah D ( P σ (13 a aalogck platí pro kovaračí matc rzduí vztah D ( σ P σ ( E (14 Oba vztah vplývají z důlžtých vlastostí projkčích matc, tj dmpottost, kd a smtr, kd Součt čtvrců rzduí RSC lz apsat v tvaru

RSC S ( b ( E a pro jho střdí hodotu platí, ž P E( RSC σ tr( P σ ( - m (15 kd tr(p j stopa matc P a j vzhldm k dmpottost a smtr matc P rova jjí hodost Pro straý odhad s rozptlu chb σ lz td vužít rzduálí rozptl s S( b m m Př použtí odhadů paramtrů b j třba mít a pamět, ž jd o bodové odhad paramtrů β to bodové odhad jsou áhodé vlč, a mají proto pro prax mší výzam Důlžtější jsou kofdčí oblast, azývaé také oblast bo trval spolhlvost, v ktrých lží tortcká hodota β s zvolou pravděpodobostí (1-α Stjě jako u jdorozměrých výběrů, s volí hlada výzamost α 005 bo 001 éto volbě odpovídají 95 %í bo 99 %í trval (oblast spolhlvost Př kostrukc trvalů spolhlvost s vchází z skutčost, ž áhodá vlča ( - m s / σ má χ rozdělí s ( - m stup volost a áhodá vlča (b - β X X (b - β / σ má χ -rozdělí s m stup volost Podíl těchto vlč korgovaý stup volost má F-rozdělí s m a ( - m stup volost Pro hrac 100 (1-α %ího trvalu spolhlvost pak vjd (b β X X(b β ms F ( m, m 1 α (17 kd F 1-α (m, - m j (1-α kvatl F-rozdělí s m a ( - m stup volost Vzhldm k tomu, ž matc X X j rgulárí, dfuj rov (17 hprlpsod, jhož os jsou ortová do směrů vlastích vktorů V j matc (X X -1 Délk jdotlvých poloos jsou rov p jsou vlastí čísla matc (X X -1 a p - m s F1 α (m, - m (18 λ j, kd λ j Jak j patré, jsou jak odhad paramtrů, tak další statstcké charaktrstk rgrs závslé jak a hodotách tak X Mtoda jmších čtvrců posktuj správé výsldk jom př současém splěí přdpokladů o datch a o rgrsím modlu K ověřováí těchto přdpokladů s používá rgrsí dagostka, ktrá zahruj : 1 Mtod pro průzkumovou aalýzu jdotlvých proměých Mtod pro aalýzu vlvých bodů 3 Mtod pro odhalí poruší přdpokladu mtod jmších čtvrců Základí rozdíl mz rgrsí dagostkou a klasckým tst spočívá v tom, ž u rgrsí dagostk í třba přsě formulovat altratví hpotézu a jsou přtom odhal tp odchlk od dálího rgrsího trpltu data - modl - mtoda odhadu

3 Průzkumová aalýza dat Účlm průzkumové aalýz j zkoumáí statstckých zvláštostí v datch, Problémm použtí těchto mtod v rgrs j to, ž jd o strukturovaá data s vazbam vjádřým rgrsí fukcí O mtodách průzkumové aalýz jdorozměrých dat j dtalě pojdáo v kz [1] V rgrsí aalýz s vbraých postupů průzkumové aalýz používá pro: a určí statstckých zvláštostí jdotlvých proměých bo rzduí, b posouzí "párových" vztahů mz všm sldovaým proměým, c ověří přdpokladu o rozdělí proměých bo rzduí V řadě případù jž pouhé vsí aměřé vlč prot dxu můž odhalt skrtou proměou, často souvsjící s časm bo pořadím měří K ortačímu posouzí vztahů mz jdotlvým proměým s užívá rozptlových grafů, kd s a os vášjí přímo hodot sldovaých proměých formac o multkolartě lz získat vsím dvojc vsvětlujících proměých x j prot x k, Přblžě lárí závslost zd dkuj slou multkolartu Na druhé straě však můž vést váší prot x j, j 1,, m, k mlým závěrům o lartě modlu, ktrý j v skutčost lárí K ověří ormalt dat s často používá Q-Q grafů [1] Mz základí tchk průzkumové aalýz patří staoví rozsahu a rozmzí dat, jjch varablt a přítomost vbočujících pozorováí K tomu lz vužít grafù rozptýlí s kvatl a řad dalších postupů [1] Přs svoj jdoduchost umožňuj průzkumová aalýza dtfkovat jště přd vlastí rgrsí aalýzou: 1 vhodost dat jako důsldk malého rozmzí bo přítomost vbočujících bodů, správost avržého modlu (skrté proměé, 3 multkolartu (přblžě lárí vztah mz sloupc matc X 4 ormaltu v případě, kd jsou vsvětlující proměé áhodé vlč 4 Posouzí kvalt dat Kvalta dat zc souvsí s použtým rgrsím modlm Př posuzováí s slduj přdvším výskt vlvých bodů (VB, ktré jsou hlavím zdrojm řad problémů, jako j zkrslí odhadů a růst rozptlů až k aprosté použtlost rgrsích odhadů paramtrů V zvláštích případch však vlvé bod zlpšují prdkčí schopost modlů Vlvé bod slě ovlvňují většu výsldků rgrs Lz j rozdělt do tří základích skup: a rubé chb, ktré jsou způsob měřou vlčou (vbočující pozorováí bo vhodým astavím vsvětlujících proměých (xtrém Jsou občjě důsldkm chb př mapulac s dat b Bod s vsokým vlvm (tzv gold pots jsou spcálě vbraé bod, ktré bl přsě změř, a ktré obvkl rozšřují prdkčí schopost modlu c Zdálvě vlvé bod vzkají jako důsldk správě avržého rgrsího modlu Podl složk dat, v ktré s vlvé bod vsktují, lz provést dělí a: 1 vbočující pozorováí (outlrs O, ktré s a os výrazě lší od ostatích, xtrém (hgh lvrag pots E, ktré s lší v hodotách a os x, bo v jjch

kombac (v případě multkolart od ostatích bodů Vsktují s však bod, ktré jsou jak vbočující tak xtrémí (OE O jjch výsldém vlvu však přdvším rozhoduj to, ž jsou xtrém O E Obr Vlv vbočujícího bodu (O plá čára, xtrému (E čárkovaá čára a kombac (OE tčkovaá čára a průběh rgrsí přímk určé MNČ K dtfkac vlvých bodů tpu vbočujícího pozorováí s vužívá zjméa rzduí a k dtfkac xtrémů pak dagoálích prvků projkčí matc Obcější charaktrstk vlvých bodů jsou fukcí rzduí a dagoálích prvkù projkčí matc s faktorm souvsjícím s počtm bodů a počtm proměých m 5 Statstcká aalýza rzduí Rzdua jsou základm pro dtfkac podzřlých bodů a korktost avržého rgrsího modlu Př jjch trprtac s však vsktuj řada chb a přsostí Statstcká aalýza rzduí - x b, kd x j -tý řádk v matc X, vchází z přdpokladu, ž jd o odhad chb ε Nsprávé přdstav o klasckých rzduích jsou, ž: 1 rozdělí rzduí j stjé jako rozdělí chb a statstcké vlastost rzduí jsou shodé s vlastost chb čím j rzduum vtší, tím j daý bod vlvější, a tím spíš b s měl z dat vloučt Z gomtr a obr1 pl, ž rzdua jsou závslá, kdž chb jsou závslé Jd totž o projkc vktoru do podprostoru rozměru ( - m S vužtím projkčí matc P lz psát, ž P P(Xβ + ε Pε (19 Př pravě rovc (19 blo vužto faktu, ž vktor X b lží v rově kolmé a rovu, do ktré s provádí projkc, takž výsldkm j ulový vktorpro -té rzduum vjd OE x (1- - å j j (1- ε -å j ε j (0 j_ j_

Každé rzduum j td lárí kombací všch chb ε Rozdělí rzduí j obcě závslé a rozdělí chb, a prvcích projkčí matc a a vlkost výběru Protož j rzduum součtm áhodých vlč s ohračým rozptlm, projvuj s zjméa u mších výběrů tzv fkt suprormalt o zamá, ž kdž chb ε mají ormálí rozdělí, vchází rozdělí rzduí blízké ormálímu U mších výběrů jsou prvk projkčí matc vlké a přvažující rol hraj součt člů j ε j Rozdělí tohoto součtu s víc blíží ormaltě ž rozdělí původích chb ε U dostatčě vlkých výběrů, kd 1/ j blízké 0 j ε a aalýza rozdělí rzduí podává formac o rozdělí chb Pro rozptl rzduí platí Rozptl rzduí D( j td kostatí, kdž rozptl chb j kostatí Pro párový korlačí kofct r j mz dvěma rzdu a j platí r j D( s (1- (1 - j (1- (1- jj J td patré,ž rzdua jsou korlovaá, kdž chb ε a ε j jsou závslé Pro slě xtrémí bod platí, ž dagoálí prvk 1, zatímco všch dagoálí prvk j 0 Z rovc (0 pak ovšm pl, ž 0 j bz ohldu a vlkost Rzdua proto dkují vžd správě slě odchýlé hodot Klascká rzdua jsou td korlovaá, s kostatím rozptlm, jví s ormálější a musí dkovat slě odchýlé bod V odboré ltratuř s často doporučuj užíváí ormovaých rzduí N /s, o ktrých s soudí, ž to jsou ormálě rozdělé vlč s ulovou střdí hodotou a jdotkovým rozptlm N ~ N(0, 1 K vjádří jjch vlvu s používá pravdla 3s, tj hodot větší ž ± 3s jsou považová za vbočující Pro případ ormálího rozdělí lží za hrací x A ± 3s pouz 03 % hodot Rozptl D( N (1 - í a kostatí, a jdotkový Navíc blo ukázáo, ž pro slě vlvé xtrémí bod j 0, takž užtí pravdla ± 3s můž vést k vlučováí správých dat př zachováí chbých hodot Kostatí rozptl mají tprv stadardzovaá rzdua S, ktrá vzkou dělím rzduí jjch směrodatou odchlkou s, td S s 1- ( Vlastost stadardzovaých rzduí S jsou téměř stjé jako klasckých rzduí Maxmálí hodota S j m Vlča S/ ( - m má bta-rozdělí B [05; ( - m - 1 / ] Pokud s v rov ( pro výpočt stadardzovaého rzdua S použj místo odhadu s odhadu směrodaté odchlk s (-, získaé př vcháím -tého bodu, rsultují plě Studtzovaé, rsp Jackkf rzdua J

- m -1 J S - m cotg Θ (3 - m - S ato rzdua mají za přdpokladu ormalt chb Studtovo rozdělí s ( - m - 1 stup volost Odpovídají tstovací statstc Studtova t-tstu ulové hpotéz 0 : C 0 v modlu jdoduchého posuutí Xβ + * C + ε (4 kd j jdotkový vktor, obsahující jako -tý prvk jdčku a ostatí prvk jsou ulové Modl (4 vsthuj j případ vbočujícího měří, kd C j přímo vlkost vchýlí, al případ xtrému, kd j C a d j vktor vchýlí jdotlvých x-ových složk -tého bodu Jackkf rzdua jsou běžě vužíváa místo klasckých rzduí k dtfkac vbočujících bodů A tato rzdua však musí být spolhlvá v případě xtrémů Další skup rzduí jsou popsá v prác [1] 6 Aalýza prvků projkčí matc Aalýza prvků projkčí matc hraj v rgrsí dagostc důlžtou rol Dagoálí prvk této matc x (X X -1 x dkují přítomost xtrémích bodů, ktré jsou zachc aalýzou rzduí Dagoálí prvk mají řadu vlastostí, ploucích z smtr a dmpottost matc : 1 Z vlastostí projkčí matc přímo pl podmíka pro dagoálí prvk 0 < < 1 a prvk mmo dagoálu -1 j 1 Pokud modl obsahuj absolutí čl a hodost matc X j m, platí pro dagoálí prvk podmíka 1/ 1/C, kd C j počt opakováí měří tj opakováí -tého řádku matc X Pro modl s absolutím člm a plou hodostí matc X platí, ž å 1, åj 1 1 1 a průměrá hodota dagoálího prvku j m/ å å j j1 3 Z dmpottost matc pl, ž + j Z těchto rovostí vplývají dvě důlžté vlastost dagoálích prvkù : a pokud jsou dagoálí prvk blízké ul, 0, jsou všch mmodagoálí prvk blízké ul j 0, pro j 1,, ; b pokud jsou dagoálí prvk blízké jdé, 1, jsou všch mmodagoálí prvk blízké ul, j 0, pro j 1,, 4 Jstlž matc X pochází z vícrozměrého ormálího rozdělí, má vlča F ( - m [ - 1/] [(1 - (m - 1] F-rozdělí F (m - 1, - m 5 Čím jsou dagoálí prvk všší, tím víc ovlvňuj -tý bod prdkc P Jsou-l hodotou blízké jdé 1, j P a vškrá varablta v místě x j objasěa rgrsím modlm(vz tčkovaá a čárkovaá čára a obr 6 Dagoálí prvk d P / d vjadřují ctlvost prdkc P a změu hodot Jjch ulová hodota 0 potom dkuj bod, ktrý má žádý vlv a prdkc 7 Dagoálí prvk jsou klsající fukcí počtu vsvětlujících proměých m j

a rostoucí fukcí počtu bodů 8 Čím j bod x vzdálější od těžště ostatích bodů, tím víc s bud jvt xtrémí, a tím víc porost hodota dagoálích prvků 9 Pokud mají vsvětlující proměé x ormálí rozdělí, platí pro vlké poèt bodù, ž - 1 má přblžě χ ( rozdělí m Pro komplxější aalýzu j vhodé provést rozšíří matc X o vktor, takž vzk matc X * (X éto matc odpovídá projkčí matc * + Protož matc * obsahuj formac o všch datch, j vhodá jako clková míra vlvých bodù Pro dagoálí prvk této matc platí vztah * + ( - m s Pro grafcké zázorěí s používá dxový graf prvkù prot dxu 7 Charaktrstk vlvých bodù Př posuzováí vlvých bodů j třba mít a pamět, ž mohou stjě výrazě ovlvňovat růzé charaktrstk rgrs Například, bod ovlvňující výrazě prdkc P musí být z hldska rozptlu paramtrů vůbc vlvé Stupň vlvu jdotlvých bodů j třba posuzovat vžd s ohldm a to, ktré charaktrstk rgrs ovlvňují K dtfkac vlvých bodů xstuj řada dalších dagostk, ktré lz rozdělt dl dvou základích skup Zvětšý rozptl to přístup vchází z platost lárího rgrsího modlu (1a s spcálí strukturou rozptlů chb Pro -tou chbu ε platí, ž má ormálí rozdělí N(0, s / w, zatímco ostatí chb ε j, j, mají ormálí rozdělí N(0, s s kostatím rozptlm Váhový paramtr w lží v trvalu 0 < w < 1 akový modl působí vlvých bodù s ozačuj jako modl zvětšého rozptlu (flatd varac Pro w 1 s jdá o klasckou mtodu jmších čtvrců Ozačm b(w odhad paramtrù b, určý MNČ pro případ, ž rozptl -té chb j rov právě s /w Pak platí 1 (X X x (1 w b(1 b( w 1 (1 w (5 kd x j -tý řádk matc X, ktrý obsahuj x-ové složk -tého bodu Pro w 0 vjd z rovc (5, ž b(1 - b(0 b - b (, kd b ( j odhad získaý mtodou jmších čtvrců z všch bodù kromě -tého Vcháí -tého bodu j td stjé, jako kdž má tto bod ohračý, tj kočý rozptl Vpouštěí bodů to přístup j založ a sldováí změ charaktrstk rgrs, k ktrým dojd př vpuštěí jdotlvých bodů bo jjch skup J sahou používat vhodé skalárí mír rgrsích charaktrstk, ktré s sado trprtují a grafck zázorňují Njzámější

skalárí míra j Cookova vzdálost D souvsjící s kofdčím lpsodm odhadů (b b X X(b b ( ( S D (6 ms m 1 o umožňuj jjí porováí s kvatl F-rozdělí Jd zd však o posu odhadů, ktrý vzkl vcháím -tého bodu Ortačě platí, ž pro D > 1 posu přsahuj 50%í kofdčí oblast a daý bod j proto vlvý Další možé vsvětlí Cookov vzdálost D vchází z toho, ž jd o Eukldovskou vzdálost mz vktorm prdkc P mtod jmších čtvrců a vktorm prdkc P(, ktrý odpovídá odhadům mtodou jmších čtvrců př vcháí -tého bodu Cookova vzdálost D vjadřuj vlv -tého bodu pouz a odhad paramtrů b Pokud td -tý bod ovlví odhad rgrsích paramtrů b výrazě, bud hodota Cookov vzdálost D malá akový bod však můž slě ovlvt odhad rzduálího rozptlu s K vjádří rlatví změ odhadů paramtrů, způsobé vcháím -tého bodu j možé užít stadardzovaých odchlk j-tého odhadu b j od téhož odhadu b (j, získaého př vcháí -tého bodu Odpovídající dagostka má tvar DS j b j - b s ( ( j V (7 kd V j dagoálí prvk matc X X Vlv -tého bodu a odhad j-tého rgrsího paramtru j výzamý, pokud j DS > / Adrwsova-Prgboova dagostka AP vjadřuj vlv -tého bodu a změu objmu kofdčího lpsodu * * dt(x ( X ( AP (8 * * dt(x X kd X * (X j matc X rozšířá o vktor Dagostka AP souvsí s prvk rozšířé projkčí matc * vztahm * AP 1- - N 1- (9 Za výrazě vlvé s považují bod, pro ktré j * (1 - AP > (m + 1 / K ufkovaému vjádří vlvých bodů s používá věrohodostí vzdálost LD dfovaou výrazm LD ( L( Θ L( Θ ( kd L(Θ j maxmum logartmu věrohodostí fukc př použtí všch bodù a L(Θ ( j totéž s vcháím -tého bodu Vktor paramtrů Θ obsahuj jak odhad rgrsích paramtrů b tak rozptlu s Za slě vlvé s považují bod, pro ktré j LD > χ 1 - α (m + 1, kd χ 1 - α (m + 1 j kvatl χ rozdělí s (m + 1 stup volost Pomocí růzých varat LD lz vštřovat vlv -tého bodu a odhad paramtrů, rozptl

chb bo kombac obojích Pro sldováí vlvu jdotlvých bodů pouz a odhad rgrsích paramtrů b vjd věrohodostí vzdálost v tvaru LD é d l + 1 1 ë ù û Pro sldováí ctlvost odhadu rzduálího rozptlu s a přítomost vlvých bodů má věrohodostí vzdálost tvar LD ( s l -1 d ( -1 + l(1 - d + -1 1- d Pro sldováí vlvu -tého bodu a odhad paramtrů rozptlu má věrohodostí vzdálost tvar LD ( b, s V těchto vztazích j æ ö lç + l(1 d è 1ø ( 1 d + (1 d (1 1 s d (30 - m Z rozboru těchto tří varat věrohodostí vzdálost pl: a Dagostka LD (b j mootóí fukcí Cookov vzdálost D a v porováí s í přáší žádé ové pozatk b Dagostka LD (s závsí a a bud td ovlvěa xtrémím bod c Dagostka LD (b, s vsthuj vlv jdotlvých bodů a b a s J výhodá zjméa pro modl bz absolutího člu Dagostka LD (b,s ohračuj shora vlč LD (b a LD (s a postačuj proto v prvím přblíží sldovat pouz j A vlč LD jsou zcla uvrzálí a k vštří vlvých bodů s proto užívá kombac řad růzých dagostk Z jjch hodot s usuzuj, zda j uté daé bod z další aalýz vpustt č kolv K tstováí vlvu -tého bodu a součt střdích kvadratckých chb odhadů, střdích kvadratckých chb prdkc a tgrálí střdí kvadratcké chb prdkc s doporučuj jako tstovací statstka Jackkf rzduum J, ktré j vhodé jak pro modl jdoduchého posuutí tak pro modl zvětšého rozptlu D(ε s / w Pokud s slduj současě bodů, platí pro modl jdoduchého posuutí podmíka J 1-α / F (1, - m- 1, 05 Jjí splěí pro všcha zamá přítomost vlvých bodů v datch Vlča F 1-α / (1, - m - 1, 05 j 100 (1 - α / %í kvatl ctrálího F-rozdělí s paramtrm ctralt 05 a (1, - m - 1 stup volost Pro modl zvětšého rozptlu platí aalogck, ž splěí

rovost F J 1 α / (1, m 1 pro všcha zamá přítomost vlvých bodù Zd F 1-α /(1, - m - 1 j 100 (1 - α / %í kvatl ctrálího F-rozdělí s 1 a ( - m - 1 stup volost Na základě těchto dvou tstů lz dfovat ortačí pravdlo: slě vlvé bod mají čtvrc Jackkf rzduí J větší ž 10 K aalýz vlvých bodů j vhodé užít také dagostckých grafů: a dxové graf (G obsahují charaktrstk vlvých bodů v závslost a dxu daého bodu, stjě jako dxové graf pro prvk projkčí matc, atd Výhodější jsou však spcálí graf, ktré vužívají faktu, ž všch charaktrstk vlvých bodù jsou jdoduchým fukcm rzduí a prvků projkčí matc b V L-R grafch s váší a osu čtvrc ormovaých rzduí N / RSC a a osu x prvk Všch bod pak lží pod přpoou v pravohlém trojhlíku s pravým hlm v počátku souřadc a přpoou, dfovaou lmtí rovostí + N 1 Většu charaktrstk vlvých bodů lz vjádřt v tvaru K(m, f(, N, kd K(m, j kostata, závsjící j a m a [1] V praktckých aplkacích j problémm, ž přítomost víc vlvých bodů s můž projvt maskováím bo přkrtím [] Dagostk smultáího posuzováí skup vlvých bodů lz sado dfovat a základě dagostk založých a vpouštěí bodů Nchť ( 1,, k pro k < (-m j moža k dxů jjchž vlv s má posoudt S výhodou s vužj přuspořádáí tak, ž podzřlých k bodů jsou posldí řádk matc X a vktoru Zavďm ozačí X æ X ç è X ( ö ø ( - k k x m x m æ ç è ( ö ( - ø k x 1 k x 1 æ ç è ( ö ( - k x 1 ø k x 1 Projkčí matc odpovídající podzřlým bodům j pak dfováa vztahm X (X X (31 1 X 1 Vlča S (E odpovídá síží rzduálího součtu čtvrců vlvm odstraěí k tc dxovaých bodů Aalogí klasckých stadardzovaých rzduí pro víc bodů j vlča S S (3 s Pro skupu vlvých bodů má Cookova vzdálost tvar D ( 1 (33 ms a pro Adrws Prgboovu statstku platí

AP S 1 (1 dt(e m (34 Věrohodostí vzdálost L ( b, s má pro případ k vloučých bodů tvar é( m ù S ( 1( m + md LD ( b, s l + m m ë û J patré, ž ž př vhodém přuspořádáí dxů lz poměrě sado ahradt skalár vktorm dxů Dosavadí mír bl vhodé pro vbraé charaktrstk rgrs a posthoval komplxě vlv bodů a výsldk rgrs ad [3] avrhl jdu míru vcházjící z přdpokladu, ž vlvé bod mohou vbočovat vzhldm k prostoru proměých x a vzhldm k vktoru Kombací charaktrstk vjadřujících vlv v prostoru x (vzdálost podzřlých hodot od ostatích a v prostoru (chba prdkc rsultuj vztah S A m k (E Pro případ, kd k 1 a ( pak vjd A m (1 d * (1 d + 1 (31 kd d j dfováo rov (30 Prví čl v rov (31 j fukc tého rzdua a dagoál projkčí matc (chba prdkc Druhý čl s azývá potcál Potcál rzduový graf (PRG má a os x prví čl a a os druhý čl matc (31 d pro k 1 a s m d vášjí prot 1 1 (1 d V tomto grafu jsou xtrém v lvém horím rohu a vbočující hodot jsou v pravém dolím rohu Další dagostk vlvých bodů jsou popsá v prác [4] Zajímavou možostí j také kombac robustích mtod s dtfkací vlvých bodů [] 8 Program REGDA Na základě výš popsaých charaktrstk vlvých bodů bl sstav program REGDA v jazc MALAB to program počítá základí charaktrstk rgrs a dagostk založé a vpouštěí jdotlvých bodů Kromě zd uvdých charaktrstk jsou v programu obsaž další charaktrstk, jjchž pops lz alézt apř v čláku [] J použt také PR graf pro posouzí obcého vlvu jdotlvých bodů a výsldk rgrs Pro řší odhadu paramtrů s užívá trí zabudovaé fukc vrtac s provádí pomocí zabudovaé fukc v Užvatl můž volt modl bz bo s absolutím člm Jsou k dspozc jak rozsáhlé tablárí výstup tak řada grafů

Pro lustrac čost tohoto programu bla použta ockgova sttcká data [6] určá pro rgrsí dagostku Počt bodů 6 a počt proměých, m 4 Modl: Y a0 + a1*x1 + a*x + a3*x3 Grac dat : 0 + 3*x1 - *x + ps1 ps1áhodá čísla z N(0,5 multkolarta: *x3 60-3*x1-15*x + ps, ps áhodá čísla z N(0,16 Vbočující bod : č11,17,18 Extrém : č4 (lží mmo rovu multkolart Data bla zpracováa programm REGDA S ohldm a zaměří této prác bl vbrá dva tpcké grafcké výstup dxový graf pro clkovou věrohodostí vzdálost LD (b,s a potcál rzduový graf (PR graf jsou zobraz a obr3 a 4 J patré, ž v obou případch bl dtfková všch arušující bod 5 Lkl ovrall 4 18 4 3 LDV 1 0 11-1 17-0 5 10 15 0 5 30 dx Obr3 dxový graf pro clkovou věrohodostí vzdálost LD (b, s

0035 Pottal rsdual plot 003 18 005 00 0015 17 001 11 0005 4 0 0 4 6 8 10 1 x Obr 4 Potcál rzduový graf 9 Závěr Bl uvd základí mšlk a souvslost pro mtodu jmších čtvrců Bl popsá vbraé mtod rgrsí dagostk Pozorost bla zaměřa přdvším a postup dtfkac vlvých bodů Bla zmíěo také použtí tchk průzkumové aalýz dat Bl uvd program v jazc MALAB Poděkováí: ato prác vzkla s podporou výzkumého ctra xtl LN00B090 10 Ltratura [1] Mlou M, Mltký J: Zpracováí xprmtálích dat, East Publshg Praha 1998 [] Mltký J, Mlou M: Vbočující bod v vícrozměrých datch, Sborík z kofrc Zajštěí kvalt aaltckých výsldků, Komorí Lhotka, břz 00 [3] ad A A: Comput Statst Data Aal 14, 1 (199 [4] Brow GP, Lawrac AJ: Commu Statst A9, 079 (000 [5] Mlou M, Mltký J::Aal Chm Acta 439, 16 (001 [6] ockg RR,Pdlto OJ: CommuStatst A1,497 (1983