REGRESNÍ DIAGNOSTIKA V JAZYCE MATLAB. Jiří Militký a Milan Meloun 1 Technická universita v Liberci; 1 Universita Pardubice

Podobné dokumenty
Regresní diagnostika v materiálovém výzkumu

PRAVDĚPODOBNOST A STATISTIKA

Téma 2: Náhodná veličina

Variabilita měření a statistická regulace procesu

PRAVDĚPODOBNOST A STATISTIKA

Odhady parametrů základního souboru. Ing. Michal Dorda, Ph.D.

8 NELINEÁRNÍ REGRESNÍ MODELY

Analýza rozptylu (ANOVA)

Přednáška 6: Lineární, polynomiální a nelineární regrese

PRAVDĚPODOBNOST A STATISTIKA

Odhady parametrů základního. Ing. Michal Dorda, Ph.D.

Tento odhad má rozptyl ( ) σ 2 /, kde σ 2 je rozptyl souboru, ze kterého výběr pochází. Má-li každý prvek i. σ 2 ( i. ( i

4.KMITÁNÍ VOLNÉ. Rozlišujeme: 1. nepoddajné vazby - nedovolující pohyb 2. pružně poddajné vazby - dovolují pohyb

Úvod do korelační a regresní analýzy

Exponenciální funkce a jejich "využití" - A (Tato doplňková pomůcka nemůže v žádném případě nahradit systematickou matematickou přípravu.

1.1 Rozdělení pravděpodobnosti dvousložkového náhodného vektoru

, jsou naměřené a vypočtené hodnoty závisle

12. N á h o d n ý v ý b ě r

Generování dvojrozměrných rozdělení pomocí copulí

Ilustrativní příklad ke zkoušce z B_PS_A léto 2014.

Odhad optimálního stupně regresního polynomu

1. Základy měření neelektrických veličin

USTÁLENÉ PROUDĚNÍ V OTEVŘENÝCH KORYTECH

S1P Popisná statistika. Popisná statistika. Libor Žák

Metody zkoumání závislosti numerických proměnných

PRAVDĚPODOBNOST A STATISTIKA. Neparametrické testy hypotéz čast 2

PRAVDĚPODOBNOST A STATISTIKA

a další charakteristikou je četnost výběrového souboru n.

6 Intervalové odhady. spočteme aritmetický průměr, pak tyto průměry se budou chovat jako by pocházely z normálního. nekonečna.

Testování statistických hypotéz

Odhady parametrů 1. Odhady parametrů

11. Časové řady Pojem a klasifikace časových řad

Spolehlivost a diagnostika

Doc. Ing. Dagmar Blatná, CSc.

SP2 Korelační analýza. Korelační analýza. Libor Žák

VÝVOJ NÁSTROJE PRO POSUZOVÁNÍ RECYKLAČNÍCH TECHNOLOGIÍ ASFALTOVÝCH VOZOVEK S DŮRAZEM NA UHLÍKOVOU STOPU

Regrese. Aproximace metodou nejmenších čtverců ( ) 1 ( ) v n. v i. v 1. v 2. y i. y n. y 1 y 2. x 1 x 2 x i. x n

Ilustrativní příklad ke zkoušce z B_PS_A léto 2013.

PRAVDĚPODOBNOST A STATISTIKA

Lineární regrese ( ) 2

je daná vztahem v 0 Ve fyzice bývá zvykem značit derivaci podle proměnné t (podle času) tečkou, proto píšeme

Odhady parametrů polohy a rozptýlení pro často se vyskytující rozdělení dat v laboratoři se vyčíslují podle následujících vztahů:

9.3.5 Korelace. Předpoklady: 9304

PRAVDĚPODOBNOST A STATISTIKA

Test dobré shody se používá nejčastěji pro ověřování těchto hypotéz:

Přednáška č. 10 Analýza rozptylu při jednoduchém třídění

Statistická analýza dat

ZÁKLADNÍ STATISTICKÉ VÝPOČTY (S VYUŽITÍM EXCELU)

4. PRŮBĚH FUNKCE. = f(x) načrtnout.

jsou reálná a m, n jsou čísla přirozená.

Intervalové odhady parametrů některých rozdělení.

Chyby přímých měření. Úvod

1 Měření závislosti statistických znaků. 1.1 Dvourozměrný statistický soubor

Náhodný výběr 1. Náhodný výběr

5.5. KOMPLEXNÍ ODMOCNINA A ŘEŠENÍ KVADRATICKÝCH A BINOMICKÝCH ROVNIC

Testy statistických hypotéz

4.2 Elementární statistické zpracování Rozdělení četností

Kapitola 2. Bohrova teorie atomu vodíku

IV. MKP vynucené kmitání

3. Hodnocení přesnosti měření a vytyčování. Odchylky a tolerance ve výstavbě.

PRAVDĚPODOBNOST A STATISTIKA

14. B o d o v é o d h a d y p a r a m e t r ů

PRAVDĚPODOBNOST A STATISTIKA. Náhodný vektor

Nejistoty měření. Aritmetický průměr. Odhad směrodatné odchylky výběrového průměru = nejistota typu A

8. Zákony velkých čísel

Pravděpodobnost a aplikovaná statistika

PRAVDĚPODOBNOST A STATISTIKA. Náhodný vektor

M ě ř e n í o d p o r u r e z i s t o r ů

8.2.1 Aritmetická posloupnost I

Katedra pravděpodobnosti a matematické statistiky. χ 2 test nezávislosti

Mendelova univerzita v Brně Statistika projekt

Jednoduchá lineární regrese

Úvod do teorie měření

8. Analýza rozptylu.

TĚŽIŠTĚ A STABILITA. Těžiště tělesa = bod, kterým stále prochází výslednice tíhových sil všech jeho hmotných bodů, ať těleso natáčíme jakkoli

Odhady a testy hypotéz o regresních přímkách

Téma 11 Prostorová soustava sil

NEPARAMETRICKÉ METODY

Univerzita Karlova v Praze Pedagogická fakulta

Přednáška V. Úvod do teorie odhadu. Pojmy a principy teorie odhadu Nestranné odhady Metoda maximální věrohodnosti Průměr vs.

Téma 2 Přímková a rovinná soustava sil

Optimalizace portfolia

Intervalové odhady parametrů

Přednáška č. 2 náhodné veličiny

Náhodné jevy, jevové pole, pravděpodobnost

PRAVDĚPODOBNOST A STATISTIKA. Bodové a intervalové odhady

Mezní stavy konstrukcí a jejich porušov. Hru IV. Milan RůžR. zbynek.hruby.

6. FUNKCE A POSLOUPNOSTI

Úvod do zpracování měření

( NV, )} Řešením Schrödingerovy rovnice pro N částic

K čemu slouží regrese?

PRAVDĚPODOBNOST A STATISTIKA

jako konstanta nula. Obsahem centrálních limitních vět je tvrzení, že distribuční funkce i=1 X i konvergují za určitých

MATICOVÉ HRY MATICOVÝCH HER

11. Regresní analýza. Čas ke studiu kapitoly: 60 minut. Cíl VÝKLAD Úvod

veličiny má stejný řád jako je řád poslední číslice nejistoty. Nejistotu píšeme obvykle jenom jednou

Správnost vztahu plyne z věty o rovnosti úhlů s rameny na sebe kolmými (obr. 13).

Pravděpodobnost a aplikovaná statistika

Měření závislostí. Statistická závislost číselných znaků

VY_52_INOVACE_J 05 01

Transkript:

REGRESNÍ DAGNOSKA V JAZYCE MALAB Jří Mltký a Mla Mlou 1 chcká uvrsta v Lbrc; 1 Uvrsta Pardubc 1Úvod V prax s pomocí rgrsích modlů řší řada přírodovědých a tchckých úloh Mz základí patří: 1 Kostrukc kalbračích modlů, vorba tchckých modlů, 3 vorba mprckých modlů, V všch případch s hldá vhodá popsující vztah mz vsvětlovaou proměou a vsvětlujícím proměým x Podl tpu úloh s volí přístup k procsu tvorb rgrsího modlu f(x, b) j fukcí vktoru astavovaých (dtrmstckých, kotrolovatlých, vsvětlujících) proměých x a vktoru paramtrů b Vlastí rgrsí úloha s formuluj s ohldm a: 1 zadaá data, avržý modl, 3 krtérum rgrs Účlm j hldáí modlu f(x, b) s vužtím xprmtálích dat a s ohldm a zadaé krtérum rgrs Zatímco u lárích modlů mívají rgrsí paramtr fzkálí smsl a jsou pouhým umrckým kofct, mají paramtr v lárích modlch přsý fzkálí výzam Jjch číslé hodot jsou často hlavím cílm rgrsí aalýz Příkladm jsou matrálové charaktrstk (modul, rlaxačí čas) bo rchlostí kostat u ktckých modlů,, atd Př trprtac odhadů modlových paramtrů j třbua brát v úvahu, ž jd o áhodé vlč, ktré mají jom svůj rozptl, al bývají často slě kuorlovaé Často s možostí rgrsích modlů přcňují Modl bývají používá mmo rozsah své platost a přdpokládá s, ž mohou ahrazovat chubějící formac Podrobost o zd uvdých tématch lz (až a výjmk) ualézt v kz [1] Př tvorbě mprckých modlů v matrálovém výzkumu s hldají vztah mz vlastostm a složím matrálů Přdstavou j, ž vlastost matrálu P s dá vjádřt fukcí P f (s1 sm), kd s jsou obsah jdotlvých prvků, rsp slouč v matrálu Výzam těchto modlů tkví zjméa v přdstavě, ž umoží přdvídat vlastost a optmalzovat složí Vžaduj s td progostcká schopost modlu souvsjící s možostí rozšíří mmo oblast sldovaého složí Vzhldm k tomu, ž xstuj fzkálí tor, ktrá b bla východskm pro alzí tpu modlové fukc f(s 1 s m ) s vužívá aparátu rgrs Vchází s z lárího rgrsího modlu, ktrý s dál rozšřuj a upravuj tak, ab měl postačující prdkčí schopost Vzhldm k tomu, ž j sahou posthout jvýzamější složk s j ovlvňující vlastost P j třba řšt zjméa tto úloh: - staoví vazb mz proměým s 1 m) za účlm odstraěí multkolart a paraztích proměých - alzí vazb mz vsvětlovaou proměou P a vsvětlujícím proměým s za účlm zpřsěí modlu (1), rsp jho rozšíří o trakuc a lart

- posouzí kvalt dat s ohldm a omzý rozsah (obsah prvků j omz jak shora, tak z zdola), přítomost vlvých bodů (vbočující bod, xtrém) a případě ormálí rozdělí V tomto příspěvku j popsá program REGDA umožňující kromě odhadu paramtrů a statstcké aalýz posoudt kvaltu dat, ktrá j pro kostrukc kvaltího modlu jdou z rozhodujících součástí Jsou ukázá výhod jazka MALAB (přdvším vktorzac) př kostrukc růzých měr vlvu vbočujících bodů a jjch sukup to program počítá základí charaktrstk rgrs a dagostk založé a vpouštěí jdotlvých bodů J použt také spcálí graf pro posouzí obcého vlvu jdotlvých bodů a výsldk rgrs Pro řší odhadu paramtrů s užívá trí zabudovaé fukc Základ rgrs Rgrsí aalýza umožňuj alzí závslost výstupí vlč (odzv) a astavovaé kombac hodot m-tc vstupích proměých x (x 1, x x m ) Vchází s z aměřých hodot př růzých kombacích astavovaých proměých x 1, x, x m Jd vlastě o -tc bodů {, x j }, j 1,, m, 1,,, vjádřých v zkrácém matcovém zápsu {, X} Vktor má rozměr ( 1) a matc X ( m) Cílm statstcké aalýz j objasěí varablt měřé, výstupí závsl proměé (vsvětlovaé) vlč s vužtím rgrsí fukc f(x, β) obsahující astavovaé, vstupí, závsl proměé (vsvětlující) vlč x Běžě s přdpokládá, ž vlča j áhodá a vlč x jsou áhodé a lbovolě astavovatlé to přdpoklad j možé akcptovat pro hutcká data pouz s tím, rozdílm, ž obsah jdotlvých složk v matrálu í lbovolě astavtlý J ovlvtlý xprmtátorm a jho vlkost j omza o můž čt problém zjméa př posuzováí výzamost přs korlačí kofct, kd omzí v datch působí výrazě a jho vlkost Dalším přdpokladm j adtví modl měří, kds s áhodé vlč ε adují a rgrsí modl Omzm s a lárí rgrsí modl, kd j rgrsí modl lárí v paramtrch a občjě j přímo lárí kombací vsvětlujících proměých Podmíěá střdí hodota proměé pro daé x (rgrs) j pak v tvaru E(/ x ) m β j 1 x j (1) J patré, ž tomuto modlu vhovuj také rov (1) výchozí pro hldáí vztahu mz složím a vlastostm matrálů Odhad b paramtrů β j pak možé určt mtodou jmších čtvrců, ktrá bývá v prax jpoužívaější Ukažm s guomtrcký výzam této mtod V případě platost adtvího modlu měří pro lárí rgrsí modl j možé zapsat výsldk xprmtů jdoduš s pomocí lárí kombuac sloupcových vktorů 1 x11 x 1 x1 m β 1 x x 1 x m β m x1 x β x m + ε1 ε ε (x1) (xm) (mx1) (x1) (3)

Sloupc x j matc X dfují z gomtrckého hldska m-rozměrý souřadcový sstém rsp adrovu L v -rozměrém ukldovském prostoru E Vktor obcě lží v adrově L, (vz obr 1 pro případ dvou závsl proměých m ) V adrově L však lží všch lárí kombac sloupců matc X tj vktor X β Paramtr β lz td chápat jako kofct úměrost u jdotlvých složk x j souřadcového sstému (vsvětlujících proměých) jjchž lárí kombac tvoří rgrsí modl Bz ohldu a užté krtérum rgrs bud td u lárích rgrsích modlů lžt modlová fukc X b stjě jako tortcký modl X β v m-rozměré adrově L Mtoda jmších čtvrců (MNČ) hldá odhad paramtrů b tak, ab bla mmalzováa vzdálost mz vktorm a adrovou L o j kvvaltí požadavku mmálí délk vktoru rzduí P (4) kd p X b j vktor prdkc V ukldovském prostoru lz délku vktoru vjádřt vztahm d 1 (5) Čtvrc délk vktoru j td číslě shodý s hodotou krtrálí podmík S(b) mtod jmších čtvrců Odhad modlových paramtrů b pak mmalzují výraz S (b) m 1 j 1 x b j j (6) Vktor a P jsou zázorě a obr1 Vktor P azývaý vktor prdkc přdstavuj kolmou projkc vktoru do adrov L Vktor azývaý vktor rzduí lží v (-m) rozměré adrově L*, kolmé a adrovu L ε P Xβ x 1 Obr 1 Gomtr lárího rgrsího modlu Na základě tohoto gomtrckého zázorěí lz hldat odhad paramtrů b tak, ab bla mmalzováa vzdálost mz vktorm a adrovou L J patré, ž vktor rzduí j kolmý a všch sloupc matc X, a proto jsou odpovídající skalárí souč ulovéuto soustavu podmík lz zapsat matcově jako X 0 (7)

Po dosazí za - X b a úpravě vjd odhad b, mmalzující vzdálost d v tvaru 1 b (X X) X (8) kd smbol A -1 ozačuj vrz matc A Z rovc (8) lz určt tvar projkčí matc pomocí ktré s promítá vktor do adrov L d P (9) Pomocí vktoru b lz vjádřt rovc (9) v tvaru 1 P X b X(X X) X (10) Projkčí matc X (X X) -1 X má tu vlastost, ž promít lbovolý vktor V do rov L Projkčí matc P pro kolmou projkc do adrov L*, kolmé a adrovu L má tvar P E (11) kd E j jdotková matc S vužtím těchto projkčích matc lz provést rozklad vktoru do dvou složk + P P + Gomtrck to zamá, ž vktor bl rozlož a dva vzájmě kolmé vktor Jd souvsí s částí varablt objasěé rgrsím modlm a druhý s zbtkovou (rzduálí varabltou) K stjým vztahům lz dospět aaltckou mmalzací krtéra MNČ, tz drvováím rovc (6) a dalším úpravam Pro určí statstckých vlastostí áhodých vktorů, rsp b s užívá přdpokladů, P za ktrých má mtoda jmších čtvrců (MNČ) optmálí vluastost [1]: Rgrsí paramtr β mohou abývat lbovolých hodot V prax však často xstují omzí paramtrů, ktrá vcházjí z jjch fzkálího smsulu Rgrsí modl j lárí v paramtrch a platí adutví modl měří () Matc áhodých, astavovaých hodot vsvětlujících proměých X má hodost rovou právě m o zamá, ž žádé jjí dva sloupc x j, x k jsou kolárí, tj rovoběžé vktor omu odpovídá formulac, ž matc X X j smtrcká rgulárí matc, k ktré xstuj vrzí matc a jjíž dtrmat j větší ž ula Z gomtrckého hldska to zamá, ž rova L j m-rozměrá a vktor X b jsou jdozačě urč Jdozačé jsou odhad b paramtrů β, staové mtodou jmších čtvrců V Náhodé chb ε mají ulovou střdí hodotu E(ε ) 0 o musí u korlačích modlů platt vžd U rgrsích modlů s můž stát, ž E(ε ) K, 1,,, což zamá, ž modl obsahuj absolutí čl Po jho zavdí však bud E( ε ) 0, kd ε P, K Modl tpu (1a) obsahují absolutí čl, pokud j posldí proměá

x m 1 pro všcha 1,, Posldí sloupc matc X obsahuj td samé jdčk a b m přdstavuj absolutí čl V Náhodé chb ε mají kostatí a kočý rozptl E( ε ) σ aké podmíěý rozptl D(/x) σ j kostatí a jd o homoskdastcký případ V Náhodé chb ε jsou vzájmě korlovaé a platí cov(ε ε j ) E(ε ε j ) 0 Pokud mají chb ormálí rozdělí, jsou závslé to požadavk odpovídá požadavku závslost měřých vlč V Chb ε mají ormálí rozdělí N(0, s ) Vktor má pak vícrozměré ormálí rozdělí s střdí hodotou Xβ a kovaračí matcí s E, kd E j jdotková matc Pokud platí prvích šst přdpokladů, jsou odhad b, získaé mmalzací krtéra jmších čtvrců, jlpší vchýlé lárí odhad rgrsích paramtrů: Njlpší odhad b jsou proto, ž jjch lbovolá lárí kombac má jmší rozptl z všch lárích vchýlých odhadů Zamá to, ž jdotlvé rozptl odhadů D(b j ) jsou mmálí z všch možých lárích vchýlých odhadů (Gaussova-Markova věta) J třba pozamat, ž xstují vchýlé odhad, jjchž rozptl jsou mší ž rozptl odhadů D(b j ) Nvchýlé odhad b jsou proto, ž platí E(β - b) 0, což zamá, ž střdí hodota vktoru odhadů E(b) j rova vktoru rgrsích paramtrů β Lárí odhad b jsou proto, ž j lz zapsat jako lárí kombac měří s váham Q j, ktré závsí pouz a polohách proměých x j, j 1,, m Za jstých přdpokladů o matc X avíc platí, ž odhad b mají asmptotck vícrozměré ormálí rozdělí s kovaračí matcí D( ) ( ) b XX σ 1 (1) V případě, ž platí také přdpoklad V, mají odhad b ormálí rozdělí už pro kočé rozsah výběru Protož j matc áhodá, platí pro kovaračí matc prdkc vztah D( P ) σ (13) a aalogck platí pro kovaračí matc rzduí vztah D( ) σ P σ ( E ) (14) Oba vztah vplývají z důlžtých vlastostí projkčích matc, tj dmpottost, kd a smtr, kd Součt čtvrců rzduí RSC lz apsat v tvaru RSC S ( b) ( E ) P a pro jho střdí hodotu platí, ž E( RSC) tr( P) ( m σ σ - ) (15) kd tr(p) j stopa matc P a j vzhldm k dmpottost a smtr matc P rova jjí

hodost Pro straý odhad s rozptlu chb σ lz td vužít rzduálí rozptl S ( b) s m m Př použtí odhadů paramtrů b j třba mít a pamět, ž jd o bodové odhad paramtrů β to bodové odhad jsou áhodé vlč, a mají proto pro prax mší výzam Důlžtější jsou kofdčí oblast, azývaé také oblast bo trval spolhlvost, v ktrých lží tortcká hodota β s zvolou pravděpodobostí (1-α) Stjě jako u jdorozměrých výběrů, s volí hlada výzamost α 005 bo 001 éto volbě odpovídají 95 %í bo 99 %í trval (oblast) spolhlvost Př kostrukc trvalů spolhlvost s vchází z skutčost, ž áhodá vlča ( - m) s / σ má χ rozdělí s ( - m) stup volost a áhodá vlča (b - β) X X (b - β) / σ má χ -rozdělí s m stup volost Podíl těchto vlč korgovaý stup volost má F-rozdělí s m a ( - m) stup volost Pro hrac 100 (1-α) %-ího trvalu spolhlvost pak vjd (b β ) X X(b β ) ms F ( m, 1 α m ) (17) kd F 1-α(m, - m) j (1-α) kvatl F-rozdělí s m a ( - m) stup volost Vzhldm k tomu, ž matc X X j rgulárí, dfuj rov (17) hprlpsod, jhož os jsou ortová do směrů vlastích vktorů V j matc (X X) -1 Délk jdotlvých poloos jsou rov p jsou vlastí čísla matc (X X) -1 a p - m s F1 (m, - m) (18) α λ, kd l j j Jak j patré, jsou jak odhad paramtrů, tak další statstcké charaktrstk rgrs závslé jak a hodotách tak X Mtoda jmších čtvrců posktuj správé výsldk jom př současém splěí přdpokladů o datch a o rgrsím modlu K ověřováí těchto přdpokladů s používá rgrsí dagostka, ktrá zahruj : 1 Mtod pro průzkumovou aalýzu jdotlvých proměých Mtod pro aalýzu vlvých bodů 3 Mtod pro odhalí poruší přdpokladu mtod jmuších čtvrců Základí rozdíl mz rgrsí dagostkou a klasckým tst spočívá v tom, ž u rgrsí dagostk í třba přsě formulovat altratví hpotézu a jsou přtom odhal tp odchlk od dálího rgrsího trpltuu data - modl - mtoda odhadu 3 Průzkumová aalýza dat Účlm průzkumové aalýz j zkoumáí statstckých zvláštostí v datch, Problémm použtí těchto mtod v rgrs j to, ž jd o strukturovaá data s vazbam vjádřým rgrsí fukcí O mtodách průzkumové aalýz jdorozměrých dat j dtalě pojdáo v kz [1] V rgrsí aalýz s vbraých postupů průzkuumové aalýz používá pro: a) určí statstckých zvláštostí jdotlvých proměuých bo rzduí, b) posouzí "párových" vztahů mz všm sldovaým pruoměým, c) ověří přdpokladu o rozdělí proměých bo rzduíu V řadě případù jž pouhé vsí aměřé vlč prot dxu můž odhalt skrtou proměou, často souvsjící s časm bo pořadím měří K ortačímu posouzí vztahů mz jdotlvým proměým s užívá rozptlových

grafů, kd s a os vášjí přímo hodot sldovaých proměých formac o multkolartě lz získat vsím dvojc vsvětlujících proměých x j prot x k, Přblžě lárí závslost zd dkuj slou multkolartu Na druhé straě však můž vést váší prot x j, j 1,, m, k mlým závěrům o lartě modlu, ktrý j v skutčost lárí K ověří ormalt dat s často používá Q-Q grafů [1] Mz základí tchk průzkumové aalýz patří staoví rozsahu a rozmzí dat, jjch varablt a přítomost vbočujících pozorováí K tomu lz vužít grafù rozptýlí s kvatl a řad dalších postupů [1] Přs svoj jdoduchost umožňuj průzkumová aalýza dtfkovat jště přd vlastí rgrsí aalýzou: 1 vhodost dat jako důsldk malého rozmzí bo přítomost vbočujícuích bodů, správost avržého modlu (skrté proměé), 3 multkolartu (přblžě lárí vztah mz sloupc matc X) 4 ormaltu v případě, kd jsou vsvětlující proměé áhodé vlču 4 Posouzí kvalt dat Kvalta dat úzc souvsí s použtým rgrsím modlm Př posuzováí s slduj přdvším výskt vlvých bodů (VB), ktré jsou hlavím zdrojm řad problémů, jako j zkrslí odhadů a růst rozptlů až k aprosté použtlost rgrsích odhadů paramtrů V zvláštích případch však vlvé bod zlpšují prdkčuí schopost modlů Vlvé bod slě ovlvňují většu výsldků rgrs Lz j rozdělt do tří základích skup: a) rubé chb, ktré jsou způsob měřou vlčou (vbočující pozorováí) bo vhodým astavím vsvětlujících proměých (xtrém) Jsou občjě důsldkm chb př mapulac s dat b) Bod s vsokým vlvm (tzv gold pots) jsou spcálě vbraé bod, ktré bl přsě změř, a ktré obvkl rozšřují prdkčí schopoust modlu c) Zdálvě vlvé bod vzkají jako důsldk správě avržého rgrsíhou modlu Podl složk dat, v ktré s vlvé bod vsktují, lz pruovést dělí a: 1 vbočující pozorováí (outlrs O), ktré s a os výrazě lší od ostatích, xtrém (hgh lvrag pots E), ktré s lší v hodotách a os x, bo v jjch kombac (v případě multkolart) od ostatích boudů Vsktují s však bod, ktré jsou jak vbočující tak xtrémí (OE) O jjch výsldém vlvu však přdvším rozhoduj to, ž jsou xtrém O E x Obr Vlv vbočujícího bodu (O plá čára), xtrému (E čárkovaá čára) a kombac (OE tčkovaá čára) a průběh rgrsí přímk určé MNČ K dtfkac vlvých bodů tpu vbočujícího pozorováí s vužívá zjméa rzduí OE

a k dtfkac xtrémů pak dagoálích prvků projkčí matc Obcější charaktrstk vlvých bodů jsou fukcí rzduí a dagoálích prvkù projkčí matc s faktorm souvsjícím s počtm bodů a počtm proměých m 5 Statstcká aalýza rzduí Rzdua jsou základm pro dtfkac podzřlých bodů a korktost avržého rgrsího modlu Př jjch trprtac s však vsuktuj řada chb a přsostí Statstcká aalýza rzduí - x b, kd x j -tý řádk v matc X, vchází z přdpokladu, ž jd o odhad chb Nsprávé přdstav o klasckých rzduích jsou, ž: 1 rozdělí rzduí j stjé jako rozdělí chb a statstcké vlastost rzduí jsou shodé s vlastost chb čím j rzduum vtší, tím j daý bod vlvější, a tím spíš b s měl z duat vloučt Z gomtr a obr1 pl, ž rzdua jsou závslá, kdž chb jsou závslé Jd totž o projkc vktoru do podprostoru rozměru ( - m) S vužtím projkčí matc P lz psát, ž β P P(X + ε ) P ε (19) j_ j_ Každé rzduum j td lárí kombací všch chb ε Rozdělí rzduí j obcě závslé a rozdělí chb, a prvcích projkčí matc a a vlkost výběru Protož j rzduum součtm áhodých vlč s ohračým rozptlm, projvuj s zjméa u mších výběrů tzv fkt suprormalt o zamá, ž kdž chb ε mají ormálí rozdělí, vchází rozdělí rzduí blízké ormálímu U mších výběrů jsou prvk projkčí matc vlké a přvažující rol hraj součt člů j ε j Rozdělí tohoto součtu s víc blíží ormaltě ž rozdělí původích chb ε U dostatčě vlkých výběrů, kd 1/ j blízké 0 j ε a aalýza rozdělí rzduí podává formac o rozdělí uchb Pro rozptl rzduí platí D( ) Př úpravě rovc (19) blo vužto faktu, ž vktor X b lží v rově kolmé a rovu, do ktré s provádí projkc, takž výsldkm j ulový vkutorpro -té rzduum vjd (1- ) - j j (1- ) - j j ε ε (0) (1- ) s (1) Rozptl rzduí D( ) j td kostatí, kdž rozptl chb j kostatí Pro párový korlačí kofct r j mz dvěma rzdu a j platí - j r j (1- )(1- ) jj J td patré,ž rzdua jsou korlovaá, kdž chb ε a ε j jsou závslé Pro slě xtrémí bod platí, ž dagoálí prvk 1, zatímco všch dagoálí prvk j 0 Z rovc (0) pak ovšm pl, ž 0 j bz ohldu a vlkost Rzdua proto dkují vžd správě slě odchýlé hodot Klascká rzdua jsou td korlovaá, s kostatímu rozptlm, jví s ormálější a musí dkovat slě odchýlé bod V odboré ltratuř s často doporučuj užíváí ormovaých rzduí N /s, o ktrých s soudí, ž to jsou ormálě rozdělé vlč s ulovou střdí hodotou

a jdotkovým rozptlm N ~ N(0, 1) K vjádří jjch vlvu s používá pravdla 3s, tj hodot větší ž ± 3s jsou považová za vbočující Pro případ ormálího rozdělí lží za hrací x A ± 3s pouz 03 % hodot Rozptl D( N ) (1 - ) í a kostatí, a jdotkový Navíc blo ukázáo, ž pro slě vlvé xtrémí bod j 0, takž užtí pravdla ± 3s můž vést k vlučováí správých dat př zachováí chbých hodot Kostatí rozptl mají tprv stadardzovaá rzdua S, ktrá vzkou dělím rzduí jjch směrodatou odchlkou s, td S s 1- Vlastost stadardzovaých rzduí S jsou téměř stjé jako klasckých rzduí Maxmálí hodota S j m Vlča S/ ( - m) má bta-rozdělí B [05; ( - m - 1) / ] Pokud s v rov () pro výpočt stadardzovaého rzdua S použj místo odhadu s odhadu směrodaté odchlk s (-), získaé př vcháím -tého bodu, rsultují plě Studtzovaé, rsp Jackkf rzdua J J S - m -1 - m - S - m cotg Θ ato rzdua mají za přdpokladu ormalt chb Studtovo rozdělí s ( - m - 1) stup volost Odpovídají tstovací statstc Studtova t-tstu ulové hpotéz 0 : C 0 v modlu jdoduchého posuutí () (3) β + * + ε X C (4) kd j jdotkový vktor, obsahující jako -tý prvk jdčku a ostatí prvk jsou ulové Modl (4) vsthuj j případ vbočujícího měří, kd C j přímo vlkost vchýlí, al případ xtrému, kd j C a d j vktor vchýlí jdotlvých x-ových složk -tého bodu Jackkf rzdua jsou běžě vužíváa místo klasckých rzduí k dtfkac vbočujících bodů A tato rzdua však musí být spolhlvá v případě xtrémů Další skup rzduí jsou popsá v prác [1] 6 Aalýza prvků projkčí matc Aalýza prvků projkčí matc hraj v rgrsí dagostc důlžtou rol Dagoálí prvk této matc x (X X) -1 x dkují přítomost xtrémích bodů, ktré jsou zachc aalýzou rzduí Dagoálí prvk mají řadu vlastostí, ploucích z smtr a dmpottost matc : 1 Z vlastostí projkčí matc přímo pl podmíka pro dagoálí prvk 0 < < 1 a prvk mmo dagoálu -1 j 1 Pokud modl obsahuj absolutí čl a hodost matc X j m, platí pro dagoálí prvk podmíka 1/ 1/C, kd C j počt opakováí měří tj opakováí -tého řádku matc X Pro modl s absolutím člm a plou hodostí matuc X platí, ž 1, j 1 1 1 a průměrá hodota dagoálího prvku j m/ j j1 3 Z dmpottost matc pl, ž + j Z těchto rovostí vplývají dvě důlžté vlastost dagouálích prvkù : j

a) pokud jsou dagoálí prvk blízké ul, 0, jsou všch mmodagoálí prvk blízké ul j 0, pro j 1,, ; b) pokud jsou dagoálí prvk blízké jdé, 1, jsou všch mmodagoálí prvk blízké ul, j 0, pro j 1,, 4 Jstlž matc X pochází z vícrozměrého ormálího rozdělí, má vlčua F ( - m) [ - 1/] [(1 - ) (m - 1)] F-rozdělí F (m - 1, - m) 5 Čím jsou dagoálí prvk všší, tím víc ovlvňuj -tý bod prdkc P Jsou-l hodotou blízké jdé 1, j P a vškrá varablta v místě x j objasěa rgrsím modlm(vz tčkovaá a čárkovaá čára a obur ) 6 Dagoálí prvk d P / d vjadřují ctlvost prdkc P a změu hodot Jjch ulová hodota 0 potom dkuj bod, ktrý má žádý vlv a prdkcu 7 Dagoálí prvk jsou klsající fukcí počtu vsvětlujících proměých m a rostoucí fukcí počtu bodů 8 Čím j bod x vzdálější od těžště ostatích bodů, tím víc s bud jvt xtrémí, a tím víc porost hodota dagoálích prvků 9 Pokud mají vsvětlující proměé x ormálí rozdělí, platí pro vlké poèt bodù, ž - 1 má přblžě χ () rozdělí m Pro komplxější aalýzu j vhodé provést rozšíří matc X o vktor, takž vzk matc X * (X ) éto matc odpovídá projkčí matc * + Protož matc * obsahuj formac o všch datch, j vhodá jako clková míra vlvých bodù Pro dagoálí prvk této matc platí vztah * + ( - m) s Pro grafcké zázorěí s používá dxový graf prvkù prot dxu 7 Charaktrstk vlvých bodù Př posuzováí vlvých bodů j třba mít a pamět, žu mohou stjě výrazě ovlvňovat růzé charaktrstk rgrs Například, bod ovlvňující výrazě prdkc P musí být z hldska rozptlu paramtrů vůbc vlvé Stupň vlvu jdotlvých bodů j třba posuzovat vžd s ohldm a to, ktré charaktrstk rgrs ovlvňují K dtfkac vlvých bodů xstuj řada dalších dagostk, ktré lz rozdělt dlu dvou základích skup Zvětšý rozptl to přístup vchází z platost lárího rgrsího modlu (1a) s spcálí strukturou rozptlů chb Pro -tou chbu ε platí, ž má ormálí rozdělí N(0, s / w ), zatímco ostatí chb ε j, j, mají ormálí rozdělí N(0, s ) s kostatím rozptlm Váhový paramtr w lží v trvalu 0 < w < 1 akový modl působí vlvých bodù s ozačuj jako modl zvětšého rozptlu (flatd varac) Pro w 1 s jdá o klasckou mtodu jmších čtvrců Ozačm b(w ) odhad paramtrù b, určý MNČ pro případ, ž rozptl -té chb j rov právě su /w Pak platí 1 (X X) x (1 w ) b(1) b( w ) (5) 1 (1 w ) kd x j -tý řádk matc X, ktrý obsahuj x-ové složk -tého bodu Pro w 0 vjd z rovc (5), ž b(1) - b(0) b - b (), kd b () j odhad získaý mtodou jmších čtvrců

z všch bodù kromě -tého Vcháí -tého bodu j td stjé, jako kdž má tto bod ohračý, tj kočý rozptl Vpouštěí bodů to přístup j založ a sldováí změ charaktrstk rgrs, k ktrým dojd př vpuštěí jdotlvých bodů bo jjch skup J sahou používat vhodé skalárí mír rgrsích charaktrstk, ktré s sado trprtují a grafck zázorňují Njzámější skalárí míra j Cookova vzdálost D souvsjící s kofdčím lpsodm odhadů ( b b() ) X X(b b() ) S D (6) ms m 1 o umožňuj jjí porováí s kvatl F-rozdělí Jd zd však o posu odhadů, ktrý vzkl vcháím -tého bodu Ortačě platí, ž pro D > 1 posu přsahuj 50%í kofdčí oblast a daý bod j proto vlvý Další možé vsvětlí Cookov vzdálost D vchází z toho, ž jd o Eukldovskou vzdálost mz vktorm prdkc P mtod jmších čtvrců a vktorm prdkc P(), ktrý odpovídá odhadům mtodou jmších čtvrců př vcháí -tého bodu Cookova vzdálost D vjadřuj vlv -tého bodu pouz a odhad paramtrů b Pokud td -tý bod ovlví odhad rgrsích paramtrů b výrazě, bud hodota Cookov vzdálost D malá akový bod však můž slě ovlvt odhad rzduálího rozptlu s K vjádří rlatví změ odhadů paramtrů, způsobé vcháím -tého bodu j možé užít stadardzovaých odchlk j-tého odhadu b j od téhož odhadu b ()j, získaého př vcháí -tého bodu Odpovídající dagostka má tvaru b - j b () j DS (7) j s () V kd V j dagoálí prvk matc X X Vlv -tého bodu a odhad j-tého rgrsího paramtru j výzamý, pokud j DS > / Adrwsova-Prgboova dagostka AP vjadřuj vlv -tého bodu a změu objmu kofdčího lpsodu AP X dt( dt( X * ( ) * X * X ( ) * ) ) kd X * (X ) j matc X rozšířá o vktor Dagostka AP souvsí s prvk rozšířé projkčí matc * vztahm (8) AP 1- - N 1 - * (9) * Za výrazě vlvé s považují bod, pro ktré j (1 - AP ) > (m + 1) / K ufkovaému vjádří vlvých bodů s používá věrohodostí vzdálost LD dfovaou výrazm LD ( L( Θ) L( Θ ) ( ) kd L(Θ ) j maxmum logartmu věrohodostí fukc př použtí všch bodù a L(Θ () ) j totéž s vcháím -tého bodu Vktor paramtrů Θ obsahuj jak odhad rgrsích paramtrů b tak rozptlu s Za slě vlvé s považují bod, pro ktré j LD > χ (m + 1), 1 -α kd χ (m + 1) j kvatl χ rozdělí s (m + 1) stup volost 1 -α Pomocí růzých varat LD lz vštřovat vlv -tého bodu a odhad paramtrů, rozptl chb bo kombac obojích Pro sldováí vlvu jdotlvých bodů pouz a odhad rgrsích paramtrů b vjd

věrohodostí vzdálost v tvaru d LD l + 1 1 Pro sldováí ctlvost odhadu rzduálího rozptlu s a přítomost vlvých bodů má věrohodostí vzdálost tvar LD ( s ) d ( -1) l + l(1 - d ) + -1-1 1 - d Pro sldováí vlvu -tého bodu a odhad paramtrů rozptlu má věrohodostí vzdálost tvar ( 1) d LD ( b, s ) l + l(1 d ) + 1 1 (1 d )(1 ) V těchto vztazích j d s - m Z rozboru těchto tří varat věrohodostí vzdálostu pl: (30) a) Dagostka LD (b) j mootóí fukcí Cookov vzdálost D a v porováí s í přáší žádé ové pozatk b) Dagostka LD (s ) závsí a a bud td ovlvěa xtrémím bod c) Dagostka LD (b, s ) vsthuj vlv jdotlvých bodů a b a s J výhodá zjméa pro modl bz absolutího člu Dagostka LD (b,s ) ohračuj shora vlč LD (b) a LD (s ) a postačuj proto v prvím přblíží sldovat pouz uj A vlč LD jsou zcla uvrzálí a k vštří vlvých bodů s proto užívá kombac řad růzých dagostk Z jjch hodot s usuzuj, zda j uté daé bod z další aalýz vpustt č kolv K tstováí vlvu -tého bodu a součt střdích kvadratckých chb odhadů, střdích kvadratckých chb prdkc a tgrálí střdí kvadratcké chb prdkc s doporučuj jako tstovací statstka Jackkf rzduum J, ktré j vhodé jak pro modl jdoduchého posuutí tak pro modl zvětšého rozptlu D( ε ) s / w Pokud s slduj současě bodů, platí pro modl jdoduchého posuutí podmíkau J 1-α / F (1, - m- 1, 05) Jjí splěí pro všcha zamá přítomost vlvých bodů v datch Vlča F 1-α / (1, - m - 1, 05) j 100 (1 - α / ) %í kvatl ctrálího F-rozdělí s paramtrm ctralt 05 a (1, - m - 1) stup volost Pro modl zvětšého rozptlu platí aalogck, ž splěí rovost F J 1 α / (1, m 1) pro všcha zamá přítomost vlvých bodù Zd F 1-α /(1, - m - 1) j 100 (1 - α / ) %í kvatl ctrálího F-rozdělí s 1 a ( - m - 1) stup volost Na základě těchto dvou tstů lz dfovat ortačí pravdlo: slě vlvé bod mají čtvrc Jackkf rzduí větší J ž 10 K aalýz vlvých bodů j vhodé užít také dagostckýcuh grafů: a) dxové graf (G) obsahují charaktrstk vlvých bodů v závslost a dxu daého bodu, stjě jako dxové graf pro prvk projkčí matc, atd Výhodější jsou

však spcálí graf, ktré vužívají faktu, ž všch charaktrstk vlvých bodù jsou jdoduchým fukcm rzduí a prvků projkčí matc b) V L-R grafch s váší a osu čtvrc ormovaých rzduí N / RSC a a osu x prvk Všch bod pak lží pod přpoou v pravoúhlém trojúhlíku s pravým úhlm v počátku souřadc a přpoou, dfovaou lmtí ruovostí + N 1 Většu charaktrstk vlvých bodů lz vjádřt v tvaru K(m, ) f(, N ), kd K(m, ) j kostata, závsjící j a m a [1] V praktckých aplkacích j problémm, ž přítomost uvíc vlvých bodů s můž projvt maskováím bo přkrtím [] Dagostk smultáího uposuzováí skup vlvých bodů lz sado dfovat a základě dagostk založých au vpouštěí bodů Nchť ( 1,, k ) pro k < (-m) j moža k dxů jjchž vlv s má posoudt S výhodou s vužj přuspořádáí tak, ž podzřlých k bodů jsou posldí řádk matc X a vktoru Zavďm ozačí X ( - k) x m ( - k) x 1 ( ) ( ) ( ) X X k x m k x 1 Projkčí matc odpovídající podzřlým bodům j pak dufováa vztahm ( - k) x 1 k x 1 X (X X) 1 X (31) 1 Vlča S ( E ) odpovídá síží rzduálího součtu čtvrců vlvm odstraěí k tc dxovaých bodů Aalogí klasckých stadardzovaých rzduí pro víc bodů j vlča S S s Pro skupu vlvých bodů má Cookova vzdálost tvar D 1 ( ) ms a pro Adrws Prgboovu statstku platí S AP 1 (1 ) dt( E ) m Věrohodostí vzdálost L ( b, s ) má pro případ k vloučých bodů tvar LD ( ( m b, s ) l m ) S ( 1)( m + md + m S J patré, ž ž př vhodém přuspořádáí dxů lz poměrě sado ahradt skalár vktorm dxů Dosavadí mír bl vhodé pro vbraé charaktrstk rgrs a posthoval komplxě vlv bodů a výsldk rgrs ad [3] avrhl jdu míru vcházjící z přdpokladu, ž vlvé bod mohou vbočovat vzhldm k prostoru proměých x a vzhldm k vktoru Kombací charaktrstk vjadřujících vlv v prostoru x (vzdálost podzřlých hodot od ostatích) a v prostoru (chba prdkc) rsultuj vztah A m k ( E ) Pro případ, kd k 1 a () pak vjd ) (3) (33) (34)

m d A * + (31) (1 ) (1 d ) 1 kd d j dfováo rov (30) Prví čl v rov (31) j fukc tého rzdua a dagoál projkčí matc (chba prdkc) Druhý čl s azývá potcál Potcál rzduový graf (PRG) má a os x prví čl a a os druhý čl matc (31) d pro k 1 a s m d vášjí prot 1 1 (1 d ) V tomto grafu jsou xtrém v lvém horím rohu a vbočující hodot jsou v pravém dolím rohu Další dagostk vlvých bodů jsou popsá v prác [4] Zajímavou možostí j také kombac robustích mtod s dtfkací vlvých buodů [] 8 Program REGDA Na základě výš popsaých charaktrstk vlvých bodů bl sstav program REGDA v jazc MALAB to program počítá základí charaktrstk rgrs a dagostk založé a vpouštěí jdotlvých bodů J použt také PR graf pro posouzí obcého vlvu jdotlvých bodů a výsldk rgrs Pro řší odhadu paramtrů s užívá trí zabudovaé fukc (lvé dělí matc tj bx\) S výhodou s používá vktorzac fukcí a tvorb matc s vpouštěým sloupc pro určí lokálích projkcí (u PR grafů) Pří výpočtch s volí mtoda vžadující síží dms rgrsí úloh al vchází s pouz b() z odhadů pro všch bod (vz rov (5) pro w0)právě sadost prác s matcm a přsost lárí algbr jsou zd hlavím výhodam 9 Závěr Bl uvd základí mšlk a souvslost pro mtodu jmších čtvrců Bl popsá vbraé mtod rgrsí dagostk Pozorost bla zaměřa přdvším a postup dtfkac vlvých bodů Bla zmíěo také použtí tchk průzkumové aalýz dat Bl uvd program v jazc MALAB vužívající přdvším matcově ortovaého řší dílčích úloh Poděkováí: ato prác vzkla s podporou výzkumého ctra x1tl LN00B090 10 Ltratura [1] Mlou M, Mltký J: Zpracováí xprmtálích dat, East Publshg Praha 1998 [] Mltký J, Mlou M: Vbočující bod v vícrozměrých datch, Komorí Lhotka, břz 00 [3] ad A A: Comput Statst Data Aal 14, 1 (199) [4] Brow GP, Lawrac AJ: Commu Statst A9, 079 (000) Kotakt: Prof g Jří Mltký CSc, Katdra txtlích matrálů, chcká uvrsta v Lbrc, ` álkova 6 61 17 Lbrc, - mal: jrmlk@vslbcz