Podobné dokumenty
Skupina Testování obsahuje následující moduly: Síla a rozsah výběru, Testy a Kontingenční tabulka.

1 3Statistika I (KMI/PSTAT)

Line rn oper tory v euklidovsk ch prostorech V t to sti pou ijeme obecn v sledky o line rn ch oper torech ve vektorov ch prostorech nad komplexn mi sl

Osvětlovací modely v počítačové grafice

Vyvažování tuhého rotoru v jedné rovině přístrojem Adash Vibrio

A. PODÍL JEDNOTLIVÝCH DRUHŮ DOPRAVY NA DĚLBĚ PŘEPRAVNÍ PRÁCE A VLIV DÉLKY VYKONANÉ CESTY NA POUŽITÍ DOPRAVNÍHO PROSTŘEDKU

ZATÍŽENÍ SNĚHEM A VĚTREM

( x ) 2 ( ) Další úlohy s kvadratickými funkcemi. Předpoklady: 2501, 2502

SEMESTRÁ LNÍ PRÁ CE. Licenč ní studium STATISTICKÉZPRACOVÁ NÍ DAT PŘ I KONTROLE A Ř ÍZENÍ JAKOSTI

4 DVOJMATICOVÉ HRY. Strategie Stiskni páku Sed u koryta. Stiskni páku (8, 2) (5, 3) Sed u koryta (10, 2) (0, 0)

Neuronová síť. x 2 x 3. σ j. x 4. x 5. Menu: QCExpert Prediktivní metody

ČESKÁ ZEMĚDĚLSKÁ UNIVERZITA V PRAZE

Řízení kalibrací provozních měřicích přístrojů

DYNAMICKÉ VÝPOČTY PROGRAMEM ESA PT

2 Trochu teorie. Tab. 1: Tabulka pˇrepravních nákladů

p (1) k 0 k 1 je pravd podobnost p echodu ze stavu k i v l ; 1 kroku do stavu k j

6. Matice. Algebraické vlastnosti

Uložení potrubí. Postupy pro navrhování, provoz, kontrolu a údržbu. Volba a hodnocení rezervy posuvu podpěr potrubí

Průzkum dopravy v ulicích Pod Vinohrady a Havlíčkova

STANOVISKO č. STAN/1/2006 ze dne

MMEE cv Stanovení množství obchodovatelného zboží mezi zákazníkem a dodavatelem

269/2015 Sb. VYHLÁŠKA

c sin Příklad 2 : v trojúhelníku ABC platí : a = 11,6 dm, c = 9 dm, α = Vypočtěte stranu b a zbývající úhly.

Tel/fax: IČO:

Analýza oběžného kola

Metody hodnocení rizik

Malé vodní elektrárny

4.5.1 Magnety, magnetické pole

a m1 a m2 a mn zobrazení. Operaci násobení u matic budeme definovat jiným způsobem.

Miroslav Čepek

ATHÉNSKÁ CHARTA CIAM (1933) Zásady plánování měst, zrevidovaná verze charty vypracovaná v roce 2002 Evropskou radou urbanistů.

SYLABUS PŘEDNÁŠKY 6b Z INŽENÝRSKÉ GEODÉZIE (Polohové vytyčování) 4. ročník bakalářského studia studijní program G studijní obor G

ČÁST PÁTÁ POZEMKY V KATASTRU NEMOVITOSTÍ

Multikriteri ln optimalizace proces 0 1 v elektrotechnice

1.7. Mechanické kmitání

Exponenciála matice a její užití. fundamentálních matic. Užití mocninných řad pro rovnice druhého řádu

Projekční činnost (dendrologické průzkumy, náhradní výsadby, osazovací plány, realizační dokumentace), realizace sadových úprav, údržba, poradenství

1.11 Vliv intenzity záření na výkon fotovoltaických článků

Seznamka. Adéla Hrubá Zš Bří Jandusů 8.A Prosinec 2015

EXPERTNÍ POSUDEK Doc. RNDr. Martin Ouředníček, Ph.D. Stručný výtah z posudku.

1. DÁLNIČNÍ A SILNIČNÍ SÍŤ V OKRESECH ČR

Slovní úlohy vedoucí na lineární rovnice I

Řešení: Dejme tomu, že pan Alois to vezme popořadě od jara do zimy. Pro výběr fotky z jara má Alois dvanáct možností. Tady není co počítat.

Balancéry Tecna typ

Moderní technologie ve studiu aplikované fyziky CZ.1.07/2.2.00/ Reálná čísla

10 je 0,1; nebo taky, že 256

Obsah. Trocha právničiny

11 Soustavy rovnic a nerovnic, Determinanty a Matice

Názory na bankovní úvěry

Stanovisko komise pro hodnocení dopadů regulace

1.2.5 Reálná čísla I. Předpoklady:

Zadání. Založení projektu

Projekt: Inovace oboru Mechatronik pro Zlínský kraj Registrační číslo: CZ.1.07/1.1.08/

Měření hustoty kapaliny z periody kmitů zkumavky

7. Domy a byty Charakteristika domovního fondu

PALETOVÉ REGÁLY SUPERBUILD NÁVOD NA MONTÁŽ

VYUŽITÍ ENERGIE VĚTRU


Oblastní stavební bytové družstvo, Jeronýmova 425/15, Děčín IV

PRAKTIKUM... Oddělení fyzikálních praktik při Kabinetu výuky obecné fyziky MFF UK. Odevzdal dne: Seznam použité literatury 0 1. Celkem max.

2.1 Pokyny k otevřeným úlohám. 2.2 Pokyny k uzavřeným úlohám TESTOVÝ SEŠIT NEOTVÍREJTE, POČKEJTE NA POKYN!

Preference v u ívání prost edk elektronické komunikace áky a studenty

ODBORNÝ POSUDEK. č. 2661/108/15

STP097 STATISTIKA CVIČENÍ EMPIRICKÁ DISTRIBUČNÍ FUNKCE, JEDNOVÝBĚROVÉ TESTY

9. února algoritmech k otáčení nedochází). Výsledek potom vstupuje do druhé fáze, ve které se určuje, jestli se

1.2.7 Druhá odmocnina

Příprava na 1. čtvrtletní písemku pro třídu 1EB

Gymnázium Christiana Dopplera, Zborovská 45, Praha 5. ROČNÍKOVÁ PRÁCE Teoretické řešení střech

1 METODICKÉ POKYNY AD HOC MODUL 2007: Pracovní úrazy a zdravotní problémy související se zaměstnáním

4 Stromy a les. Petr Hlin їn 0 5, FI MU Brno 1 FI: MA010: Stromy a les

TECHNICKÉ KRESLENÍ A CAD

R O Z S U D E K J M É N E M R E P U B L I K Y

ODŮVODNĚNÍ VEŘEJNÉ ZAKÁZKY Dostavba splaškové kanalizace - Prostřední Bečva a Horní Bečva, zhotovitel, dle vyhlášky č. 232/2012 Sb.

Státní maturita 2011 Maturitní testy a zadání jaro 2011 Matematika: didaktický test - základní úrove obtíºnosti MAMZD11C0T02 e²ené p íklady

Stanovení optimálních teplot výpalu vápenců z různých lokalit a jejich souvislostí s fyzikálními vlastnostmi vápenců

Náležitosti nutné k zahájení znaleckých úkonů

10 KROKŮ K VYŠŠÍMU VÝKONU PRACOVNÍKŮ. Jak snadno a účinně předcházet nedostatkům v práci. Jan Urban

Zobrazení v rovině je předpis, který každému bodu X roviny připisuje právě jeden bod X roviny. Bod X se nazývá vzor, bod X se nazývá obraz.

Metoda Lokální multiplikátor LM3. Lokální multiplikátor obecně. Ing. Stanislav Kutáček. červen 2010

Kočí, R.: Účelové pozemní komunikace a jejich právní ochrana Leges Praha, 2011

Kdy (ne)testovat web oční kamerou

ODBORNÝ POSUDEK. č. 2381/21/14

Statistika ČESKÉ VYSOKÉ UČENÍ TECHNICKÉ V PRAZE FAKULTA DOPRAVNÍ. Jiří Volf, Adam Kratochvíl, Kateřina Žáková. Semestrální práce - 0 -

HLAVA III ODVOLACÍ FINANČNÍ ŘEDITELSTVÍ 5 ÚZEMNÍ PŮSOBNOST A SÍDLO

Novinky verzí SKLADNÍK 4.24 a 4.25

Národní informační středisko pro podporu kvality Tůmová

Elasticita a její aplikace

V tabulce jsou uvedeny roční náklady na údržbu (v dolarech) a cena domu (v tis. dolarů).

Mezní kalibry. Druhy kalibrů podle přesnosti: - dílenské kalibry - používají ve výrobě, - porovnávací kalibry - pro kontrolu dílenských kalibrů.

Investice a akvizice

SMĚRNICE Zjednodušená analýza rizika blesku

3. Polynomy Verze 338.

Základní škola, Staré Město, okr. Uherské Hradiště, příspěvková organizace. Komenské 1720, Staré Město, Metodika

Názory obyvatel na přijatelnost půjček leden 2016

7. Stropní chlazení, Sálavé panely a pasy - 1. část

TECHNICKÁ UNIVERZITA V LIBERCI

ODBORNÝ POSUDEK. č. 2588/35/15

Projekt: Inovace oboru Mechatronik pro Zlínský kraj Registrační číslo: CZ.1.07/1.1.08/

Česká zemědělská univerzita v Praze Fakulta provozně ekonomická. Obor veřejná správa a regionální rozvoj. Diplomová práce

STANDARD 3. JEDNÁNÍ SE ZÁJEMCEM (ŽADATELEM) O SOCIÁLNÍ SLUŽBU

Transkript:

Zpracov n v decko v zkumn ch dat trubka Znojil zpracoval Ale K enek nor duben 1995 Obsah 1 Z kladn pojmy 1 2 Momenty a rozd len 1 3 Testovac krit ria 2 4 Optimalizace 2 5 Anal za variance 3 6 Zp tn anal za variance 4 7 Korelace 5 8 Neparametrick testy 5 9 Multivaria n metody 6 10 Shlukov a diskrimina n anal za 6

1 Z KLADN POJMY 1 1 Z kladn pojmy Prvn dojem o povaze nam en ch dat lze z skat z histogramu spo temsloupc a m tkem p im en m datov mu souboru (o to se v t inou postar software). Z kladn spo itateln hodnoty vypov daj c o datech jsou 1. -kvantil pro 0 <<1 je takov hodnota m en veli iny, e100 % nam en ch hodnot v dan m souboru je men ch. 2. Medi n je 0.5-kvantil, tj. prost edn z nam en ch hodnot. P i symetrick m rozlo en spl v s pr m rem. 3. Kvartily jsou 0.25- a 0.75-kvantily. P i zpracov n jde v t inou o to z skat n jakou transformac z nam en ch dat alespo p ibli n norm ln rozlo en pak se tomu d v it. O tom, e je v echno patn, se lze p esv d it metodou hradeb. Naneseme na ob strany od medi nu n jak n sobek (1.5, 2.5, 3.5...) vzd lenosti mezi kvartily a pokud do tohoto intervalu padnou v echny nam en hodnoty, rozd len nelze pova ovat za norm ln. Dal mo nost je Kolgomorov v test, nam en mi daty se prolo co nejl pe norm ln rozlo en a m se maxim ln odchylka. 2 Momenty a rozd len Propracovan j hodnoty, kter n co eknou jsou momenty m k = 1 n nx i=1 (x i ; p) k tzv. k-t moment v i hodnot p (pro k =1, p =0je to pr m r) a k = 1 n nx i=1 (x i ; x) k kde x je pr m r tzv. k-t centr ln moment. Vych z 1 =0a standardn zna me s 2 = 2,kdes je standardn odchylka. To ov em pouze v kontextu moment. Jedn -li se o odhad p esnosti m en, pou v me P s 2 =1=(n ; 1) (x i ; p) 2 ist z toho d vodu, e rozptyl m o jeden stupe volnosti m n, nem smysl mluvit o rozptylu u jedn nam en hodnoty. Normovan mi centr ln mi momenty naz v me sla k = k =s k (v tomto kontextu tedy s = p 2 ). Vych z 1 =0, 2 =1,smysl maj a 3, tzv. asymetrie, a 4, tzv. pi atost. Je-li 3 > 0, znamen to, e pr m r je v t ne medi n, a tedy histogram je oproti norm ln mu rozlo en deformov n doleva, pro 3 < 0 naopak. Pro norm ln rozd len vych z 4 = 3, zav d se excess (p ebytek) jako 4 ; 3. Vypov d jednak o skute n,, pi atosti k ivky hustoty rozlo en v maximu (prorovnom rn rozd len vych z ;1:2, naopak pro Laplaceovo (symetrick z porn exponenci ln ) +3, ale hlavn orychlosti konvergence k 0 v extr mech. Proto mluv me o rozd len ch s t k mi konci pro kladn excess, analogicky s lehk mi konci pro z porn. P pad velmi nep jemn je Cauchyho rozd len, speci ln p pad studentova. Vznikne nap klad jako (x; x)=(y; y), kde x a y jsou norm ln. Pro hodnoty bl zk pr m ru (a t ch je pro norm ln rozd len nem lo) dost v me limitu typu 0=0 atam e nab vat celkem libovoln ch hodnot. Cauchyho rozd len m tedy velmi t k konce. Jsou-li nam en data ve skupin ch, m smysl vyn st rozptyl, asymetrii a pi atost do grafu v z vislosti na pr m ru skupiny. Lze tak odhadnout z vislost t chto veli in na pr m ru. V praxi je velmi ast, e nap. rozptyl je tolik a Zn me l i, zatracen l i a statistiky

3 TESTOVAC KRIT RIA 2 tolik procent nam en hodnoty, celkov rozd len je pak asymetrick, ale po logaritmick transformaci (tj. m sto x uva ujeme ln x) u ano. Jindy m e pomoci odmocninov transformace, p padn i n jak slo it j. Na druh stran nen dobr transformace p eh n t, nevhodn m pou it m m e doj t ke zna n mu zkreslen. Pokud u nen patrn dn z vislost, lze hovo it o homogenn ch datech a je mo n aplikovat z kladn testovac metoty, kter funguj pr v na data norm ln rozd len. 3 Testovac krit ria P i experimentu z sk me obvykle dv sady dat. M en n jak ho faktoru p ed proveden m experimentu (tzv. kontroln data) a po proveden (experiment ln data), resp. po dvou r zn ch experimentech (nap. aplikace n jak ho l ku, p padn dvou r zn ch l k ). Na z klad statistiky m eme z t chto dat ci, e s takovou a takovou pravd podobnost m l experiment na m enou veli inu takov vliv. Standardn m postupem, p i stejn m po tu m en v obou sad ch, je sestaven n hodn ch p r a vypo ten rozd lu. Vypov daj c m krit riem je pak slo, tzv. t-test t = y s= p n kde y jsou pr v zm n n rozd ly, s je standardn odchylka y (tentokr t s n ; 1), a n po et m en. Ud v pr h pravd podobnosti, se kterou m eme tvrdit, e efekt experimentu, kter jsme zjistili (tedy na zm n n m p klad po aplikaci nov ho l ku zem e v ce pacient ), nenastal n hodou, ale je z konit. D ky omezen m mo nostem statistiky se m eme dostat do takov chto probl m 1. Prohl s me, e experiment m l k en efekt (s pravd podobnost nap. 95%), ale nen to ve skute nosti pravda, pr v kv li zb vaj c m 5%. 2. Ve skute nosti dan efekt nast v, ale ze statistiky zjist me, e nikoli. Chyba druh ho druhu jezp sobena p li vysoko nasazen m po adavkem na jistotu odpov di vzhledem k p esnosti m en. P edexperimentem lze odhadnout tzv. s lu testu. Je nutn stanovit, jak rozd l v nam en hodnot hled me a p isp sobit bu po adovanou jistotu anebo po et m en. 4 Optimalizace Optimaliza n lohy vesmyslu statistiky znamenaj nal zt n jakou teoretickou, v t inou analyticky jednodu e vyj d enou funkci, kter se dostate n dob e bl experiment ln m hodnot m. Pro jednoduchost p edpokl dejme funkci vracej c jednu hodnotu. Lze ji vyj d it jako y = F (x 1 ::: x n q 1 ::: q m ) kde vektor x i jsou nez visl prom nn (hodnoty zkouman ch faktor ) a q j parametry analytick ho vyj d en funkce F, kter hled me. Optimalizace znamen nal zt minimum v razu X F (x j 1 ::: xj n q 1 ::: q m ) ; y j c j Proto e se psal s "w", byl pan Swoboda raku k jako d lo

5 ANAL ZA VARIANCE 3 kde x j i je hodnota i-t ho faktoru a yj experiment ln v sledek pro j-t m en, pro ka d parametr q. Konstanta c ud v d optimalizace, pro c =1hovo me o line rn optimalizaci, kter sice ned v nejlep p ibl en, ale je m n citliv navelk chyby, p pad c =2je v praxi nejpou van j tzv. metoda nejmen ch tverc. Po t se pochopiteln polo en m parci ln derivace podle jednotliv ch q rovn nule, tedy syst m P @ F; j x j 1 ::: xj n q 1 ::: q m ) ; y j 2 ) @q i =0 Dostaneme tak syst m rovnic v prom nn ch q. M -li m t cel metoda smysl, je nutn, aby po et m en byl podstatn vy, ne po et parametr, jinak se pot k me se patn denovan mi veli inami. Nej ast ji pou van optimaliza n (nebo tak regresn ) funkce jsou polynomi ln, logaritmick, exponenci ln a goniometrick. 5 Anal za variance P edstavme si, e prov d me v zkum, kolik kopk vypa vybran reprezentativn skupina respondent za ve er. Na v sledek tohoto experimentu m e m t zcela jist vliv mnoho faktor, nap klad kde se nach z experiment ln hospoda, kdy je zav rac hodina, jak pivo se tam to, kolik stoj, kter den v t dnu experiment provedeme atd. Zaj m n s, kter z t chto faktor jsou statisticky v znamn, p padn jak m zp sobem. Z takto z skan ch m en z sk me obecn multidimenzion ln tabulku, pro n zornost budeme uva ovat d le jen dva faktory. Hodnotu jednoho prvku tabulky (resp. pr m rnou hodnotu, je-li m en pro danou kombinaci faktor v ce) m eme, s ohledem na transformace, vyj d it jako x ij = X + x 0 i + x00 j + x000 ij kde X je n jak konstantn slo ka, x 0 i dkov faktor, x 00 j sloupcov faktor a x 000 ij interakce i-t ho dku a j-t ho sloupce, tzv. synergetick efekt, samotn znalost p soben jednotliv ch faktor je t nemus vypov dat nic o p soben jejich kombinace (kdy pa m kopky, jsem o ralej, kdy piju ml ko, je mi patn, ale pokud to sm ch m, je to mnohem hor, ne bych mohl z d l ch efekt o ek vat). V p pad pouze jednoho pokusu pro danou kombinaci faktor nelze o interakci v bec uva ovat, nedok zali bychom rozhodnout, zda se jedn o interakci nebo o chybu m en. P i obecn n faktorech lzevtomto p pad mluvit pouze ointerakci nanejv n ; 1 faktor. Nahrad me-li nam en hodnoty rozd lem od pr m ru cel tabulky,zbav me se konstantn slo ky X. D le spo t me pr m ry po dc ch a po sloupc ch, z nich potom zbytkov rozptyly v dc ch a sloupc ch. Nejsou-li data homogenn, tj. rozptyly se p li li, je nutn aplikovat n jakou vhodnou transformaci a po tat od za tku. Rozptyly porovn me svlivem jednotliv ch faktor (pozn se z pr m rn ch hodnot pro dky a sloupce), a tak zjist me, kter je v znamn. Ktakov mu porovn n slou nap klad Barlet v test. Vy aduje alespo 6 hodnot v pol ku, jinak je velmi citliv na hodnoty t eba n hodn bl zk. Levene v test, pro m lo m en ch hodnot podstatn robustn j. Pokud v me dop edu, e interakce je nemo n, a p esto n jak vy la,jevhodn op tsenaddaty zamyslet a zkusit aplikovat vhodnou transformaci. Statistika je p esn po t n s nep esn mi sly

6 ZP TN ANAL ZA VARIANCE 4 Jakmile zjist me, e vliv n jak ho faktoru je v znamn, lze se pt t konkr tn ji, tedy jak rozd ly jsou mezi jednotliv mi hodnotami. Problematick v tuto chv li je po et r zn ch porovn n a rove pravd podobnosti, p i nap. 6 dc ch tj. 15 porovn n ch u z ejm n jak z vislost vyjde na alespo 95%, i kdy to nemus b t pravda. Proto je nutn aplikovat n jak restrikce, nap. Holm v postup. Se ad me t-testem z skan pravd podobnosti, e dan porovn n vy lo n hodou, od nejmen k nejv t m. Stanov me p pustn pr h pravd podobnosti chyby p a nejmen pravd podobnost porovn v me s p=n, kden je po et porovn n. Pokud vyjde pravd podobnost chyby men, prohl s me rozd l za v znamn a postupujeme d le. Porovn v me druhou hodnotu s p=(n ; 1) atd. dokud nenaraz me na opa nou nerovnost. T m prohl s me v echny dal porovn n za statisticky nev znamn. Pokud je z n jak ho d vodu n kter porovn n nezaj mav, ve zm n n m postupu ho neuva ujeme, kriteria na ostatn jsou tak trochu m rn j, p itom je postup statisticky st le korektn. M e se st t, e n kter daje v tabulce chyb. Z klasick ho hlediska se nelze hnout z m sta, ale regresn mi metodami (kapitola 4) lze spo tat teoretickou hodnotu, kterou za chyb j c experiment ln dosad me. 6 Zp tn anal za variance V t to sti se budeme zab vat metodou,,co se nehod, to se zahod 1. Princip je takov, e teoretick model vytvo me z v ce mo n ch vliv a na z klad anal zy dat vylu ujeme potom ty nepodstatn. Narozd l od klasick anal zy variance je tato metoda podstatn robustn j v i chyb j c m daj m a m e bez v t ch probl m zahrnout i vlivy spojit veli iny. Na druh stran m e b t nebezpe n co se t e homogenity dat a nedostate n denovanosti, v dy je pot eba d t pozor na po et stup volnosti po tan veli iny. Op t to znamen, e jakkoli zakuklen po et koecient v dan m teoretick m modelu mus b t podstatn men ne po et z skan ch experiment ln ch hodnot. Po tejme nap klad z vislost v nos chmele (pokus lze pochopiteln prov st i pro je men) na sr k ch v dan m roce. V nos modelujeme funkc y = a 1 x 1 + a 2 x 2 + :::+ bz kde a i jsou nezn m koecienty ud vaj c kvalitu jednotliv ch pokusn ch ploch, pr v jedna z hodnot x i je prodan m en rovna 1, ostatn 0 to ud v, odkud data poch zej a kone n b je po tan koecient vlivusr ek, z potom mno stv sr ek. Metodou nejmen ch tverc, p padn jinou optimalizac, spo t me, co n s zaj m, v tomto p pad koecient b. Podobn jako p i klasick anal ze variance m e b t tabulka v cerozm rn, znamen to tedy, evedle a i x i budou v modelu vystupovat dal alternativy b i y i atd. Analogicky porovn v n m rozptyl v r mci jednotliv ch alternativ lze ur it jejich statistickou v znamnost. Pokud nap klad rozptyl p i polo en a i = 0 vyjde podle n jak ho testu bl zk rozptylu uvnit jedn skupiny m en (tj. se stejn mi hodnotami x i, y i atd.) je faktor dan alternativami x i nev znamn. Na druh stran nasadit p li slo itou hypot zu tak nen optim ln e en, nemus toti vyj t, vzhledem k nedostate n mu po tu stup volnosti, jako statisticky v znamn v bec nic. Je-li potenci ln ch vliv p li mnoho, je mo n dal e en. Z datov ho souboru vybereme n hodn p ibli n 40% (lze teoreticky odvodit) a nasad me komplikovanou hypot zu s nen ro n m krit riem na statistickou v znamnost jednotliv ch faktor. Zjist me, e n kter by v znamn b t mohly, z sk me tak podstatn jednodu hypot zu a tu ov me na cel m datov m souboru. 1 HA HA HA Lep statistick peky to mo n spo taj, ale stejn to bude patn

7 KORELACE 5 7 Korelace asto je pot ebn zjistit, zda mezi n jak mi nam en mi veli inami existuje ur it vztah. M me-li hypot zu, jak by vztah mohl vypadat, tj. jeho teoretickou funk n z vislost s n jak mi obecn mi koecienty, lze je spo tat n jakou optimaliza n metodou a testem rozptylu nam en ch hodnot oproti teoretick m zjistit, jak dan hypot za vyhovuje. Alternativn m p stupem jsou koecientykorelace. Jako zobecn n moment zm n n ch v sti 2 denujeme sm en (centr ln ) momenty pro v ce n hodn ch veli in, tzv. korela n koecienty jako m1 m 2 ::: = 1 n nx i=1 Analogicky se denuj i normovan korela n koecienty r m1 m 2 ::: = (x i ; x) m1 (y i ; y) m2 ::: m 1 m 2 ::: m1 1 m2 2 ::: Nej ast ji po tan je r 1 1,ud v line rn z vislost dvou veli in. Pokud jsou veli iny nez visl, vyjdou faktory jednou : kladn, podruh z porn, dohromady se to p i dostate n velk m n vyru a vyjde r 1 1 =0. Naopak p i siln line rn z vislosti, nap klad kladn, znamen x i > x v t inou i y i > y, obr cen nerovnost analogicky, a tedy v t ina len : : sumy je kladn ch, vzhledem k normov n potom vyjde r 1 1 =1. Analogicky pro z pornou z vislost r 1 1 = ;1. Nulov hodnota r 1 1 znamen, e neexistuje line rn z vislost, o jin z vislosti nic nevypov d. Pro z vislosti vy ch d je t eba nasadit vy korela n koecienty, testy na n jsou potom ale podstatn komplikovan j. Je-li zkouman chveli in v ce, lze z nich sestavit s korelac a po tat korigovan korelace, tj. takov, kter nepova- uj dv veli iny zakorelovan, pokud maj spole nou p inu. V zkumy toti nap klad ukazuj paradoxn skute nost, e u ku k je riziko infarktu ni. Zp sobeno je to ale faktem, e lid n chyln k infarktu rad ji p estanou kou it d ve. Korigovan korelace ov em m smysl po tat pouze v p pad, e s korelac nen p li hust, tj. existuj alespo n jak dvojice nekorelovan ch veli in. 8 Neparametrick testy V t ina v praxi se vyskytuj c ch dat nen rozd lena norm ln. Naopak v t ina statistick ch metod vesv m teoretick m odvozen po t s norm ln m rozd len m. Je tedy nutn jeden z n sleduj c ch postup Upraven rozd len na zhruba norm ln Modikace metod na nenorm ln rozd len Do prvn kategorie spad u zm n n transformace. Pokud jsou m en zat ena p edpokl dan mi chybami, lze vypustit ur itou malou st dat v extr mn ch hodnot ch. To je ale nebezpe n, pokud extr mn hodnoty nebyly zp sobeny chybou, m e tak, zejm na p i relativn mal m mno stv dat, doj t ke zna n mu zkreslen. Do druh kategorie pat tzv. neparametrick testy. Nejjednodu p pad nast v, pokud n s zaj m jen srovn n experiment (tj. v sledky jednoho jsou v t ne druh ho) a ne d me dn podrobn j kvantitativn vyj d en. Potom sta z nam en ch hodnot sestavit n hodn p ry a porovnat. Pokud vyjdou v echny pozitivn, lze tvrdit, e pokus o n m en ch m dan efekt s pravd podobnost 1 ; 1=2 n atd. Tato metoda mnoho nevypov d, je ale robustn v i prakticky emukoli. Jeden obr zek l e v c ne tis c sel, j m m nejrad ji tabulky

9 MULTIVARIA N METODY 6 Dal neparametrick testy vych zej z uspo d n nam en ch hodnot a nahrazen vlastn ch hodnot jejich po ad m. Pokud nap klad m me porovnat n kolik experiment ln ch skupin, spo teme pro ka dou sou et po ad jej ch len (v r mci v ech nam en ch hodnot). Probl m nast v p i po t n krit ri test, je nutn vy slit funkce dan v t nou v tv c m se rekurentn m p edpisem podle po tu m en. V t inou je n jak m zp soben nutn spo tat po et mo n ch kombinac, jak mohla dan situace nastat. Algoritmy pro v po et takov ch funkc jsou exponenci ln, tedy rozumn spo itateln pouze pro hodnoty zhruba do 10. Pokud je po et nam en ch hodnot vy (od 50 nahoru), lze funkce p ijateln aproximovat spojit mi, nejproblemati t j tedy je interval 1050, kam bohu el spad v t ina praktick ch expariment. Pro hodnoty do 20 si lze je t pomoci jist mi p edpo tan mi tabulkami, ale jinak... Analogisk m zp sobem lze vyhodnocovat z vislost dvou veli in. Koecientkorelace po t me op t z po ad hodnot m sto hodnot sam ch. T mto zp sobem ur me nanejv pozitivn nebo negativn z vislost veli in, tj. e se vzr staj c prvn roste nebo kles druh, p padn absenci takov z vislosti, o konkr tn podob z vislosti p vodn ch veli in nelze pochopiteln usozovat nic. P i porovn v n dvou veli in je op t podstatn, jak m zp sobem polo me ot zku. Je rozd l, pt me-li se, zda veli ina vzrostla anebo se zm nila. V obou p padech bude p i stejn m prahu pravd podobnosti a stejn m p vodn m rozlo en po adovan nam en odchylka r zn. P i dan pravd podobnosti mus me m t stejnou plochu pod k ivkou rozlo en, pokud n s zaj m jen na jedn stran, sta men odchylka od pr m ru, aby bylo mo n konstatovat, e nam en veli ina je patrn v t. 9 Multivaria n metody Dal m mo n m statistick m p padem je situace, kdy m me vyhodnotit velk mno stv atribut dan mno iny objekt (nap klad ekologick v zkumy, data jsou v skyty des tek a stovek druh v n jak mno in lokalit). Hlavn lohou je zde redukce nep jemn mnoha dimenz cel lohy. Z kladn metodou je anal za hlavn ch komponent (Principal Component Analysis). Zkouman objekty (v,,ekologick m p pad lokality) ch pe jako body v hyperprostoru o sou adnic ch podle hodnot jejich atribut. Takov vytv ej jak si prostorov tvar, PCA p edpokl d, e je to p ibli n zkosen hyperelipsoid a na z klad modikovan anal zy variance se sna ur it jeho statisticky v znamn osy (tj. takov, kolem nich je nezanedbateln rozptyl). T ch u b v podstatn m n, loha se tak st v iteln j. Z kladn PCA funguje uspokojiv pouze tehdy, pouze jsou-li etnosti v jednotliv ch dimenz ch,,rozumn rozlo en. Pokud vyjde tvar tvo en body komplikovan j, PCA ned d v ryhodn v sledky. Hodn lze napravit modikac metriky na jednotliv ch os ch, a to do t m ry, e v sledn metrika je euklieidovsk jen lok ln. Takto pracuje detrendovan anal za korespondence. 10 Shlukov a diskrimina n anal za Shlukov anal za je statistick metoda, jej m c lem je uspo dat z skan data body ve zm n n m multidimenzion ln m prostoru do tzv. shluk, tedy podmno in, kter maj p ibli n spole n vlastnosti. Existuje cel ada zp sob, jak se takov ho rozd len dopo tat, mnohdy se vych z z korela n matice, tj. matice korela n ch koecient v ech dvojic m en ch veli in a r zn se cvi s metrikami. P i shlukov n lze postupovat shora dol i sdola nahoru. Zaj mav visualiza n metoda vyu v ketvorb shluk p irozen ch lidsk ch schopnost. Transformuje jednotliv m en veli iny do rys lidsk ho obli eje a v sledn ksicht ky zobraz. Je na obsluze, aby rozhodla, kter jsou si podobn, co jsme u tv zvykl posuzovat, a tak to jde pom rn snadno a p esn. Matkou faktorov anal zy byla psychologie

10 SHLUKOV A DISKRIMINA N ANAL ZA 7 Diskrimina n anal za si nav c v m vlivu jednotliv ch faktor na rozd len do shluk. D le zav d tzv. aposteri ln pravd podobnost, kter ur uje, jak moc se lze spol hat na to, e dan objekt skute n p slu do ur en ho shluku. Nach z -li se objekt t sn u hran n nadroviny dvou shluk a etnost v obou je p ibli n stejn, je pravd podobnost, e jsme ho za adili spr vn, vy proti p padu, kdy je etnost ve shluku na druh stran nadroviny podstatn vy. Diskrimina n anal za je metoda relativn robustn v i nadm rn slo itosti modelu, p id me-li nav c dimenze, kter jsou ve skute nosti nev znamn, metodu v t inou nezmatou a vyjdou tak jako bezv znamn. I v renomovan ch asopisech se ob as objev takov statistick nesmysly