Co e to statistika? Statistické hodoceí výsledků zkoušek Petr Misák misak.p@fce.vutbr.cz Statistika e ako bikiy. Odhalí téměř vše, ale to edůležitěší ám zůstae skryto. (autor ezámý) Statistika uda e, má však ceé údae.. (Zdeěk Svěrák) Statistika e auka, která ám říká ak získat přesé iformace z epřesých čísel. (Ja Hedl) Nevěřím statistice, kterou sem sám ezfalšoval. (Podvržeý výrok Wistoa Churchilla rozšířil Joseph Goebbels.) Statistiky už máme atolik sofistikovaé, že z ich lze doložit prakticky cokoliv. (Ja Keller) Statistické myšleí bude edoho de pro zdatého občaa právě tak ezbyté, ako e schopost číst a psát. (H. G. Wells) Úvod statistické myšleí Jasé vymezeí problému, který má být řeše. Staoveí rozhoduící veličiy akostí vlastosti azpůsobu eího zišťováí. Zabezpečeí stálých podmíek při eím zišťováí. Uvědoměí si, že výsledky měřeí vykazuí istou (často e částečě odstraitelou) variabilitu. Vytvářeí podskupihomogeích výsledků, zahruících pouze áhodou promělivost. Respektovat áhodé odebíráíedotek do áhodých výběrů, tak aby každá edotka v souboru mělasteou pravděpodobost, že může být vybráa do výběru. Úvod statistické myšleí Studium ee celkové variability, ale i variability uvitř podskupi a variability mezi podskupiami (v čase). Prováděí dostatečého počtu pozorováí. Vážeí rizikchybých závěrů, čiěých a základě eúplé iformace z áhodých výběrů. Prezetováí datpřehledě, ve zhuštěé formě číselě, ebo graficky. Charakterizováí dat číselě, udáím polohya číselé ose a míry promělivosti variability. Uvědoměí si ee variability studovaé áhodé veličiy, ale i z í odvozeé variability vypočítaých statistik výběrových charakteristik. Úvod statistické myšleí Popisá statistika 45 4 35 3 5 15 1 5 A B Iformace obsažeé ve velkém počtu dat se eví lidskému pozorovateli ako epřehledé. Úkolem popisé statistiky e tuto iformaci zhustit do saděi vímatelé formyrůzých tabulek, grafů, číselých a iých charakteristik. 1
Popisá statistika Popisá statistika Hromadé evy evy, které vzikaí za určitých podmíek opakovaě u velkého počtu prvků (statistických edotek) Příklad: sériová a hromadá výroba, výsledky laboratorích zkoušek, výsledky kotrol kvality, ekoomické výsledky, vlastosti lidí. Statistické edotky elemetárí edotky statistického pozorováí Příklad: zaměstaci v podiku, výrobky, poskytovaé služby, eshodé výrobky, stroe, zařízeí, měřidla, lidé, zvířata, věci, události. Statistický soubor možia všech statistických edotek, u ichž zkoumáme příslušé statistické zaky Jedorozměrý statistický soubor u každé statistické edotky zišťueme pouze ede statistický zak Vícerozměrý statistický soubor u každé statistické edotky zišťueme dva a více statistických zaků Základí soubor statistický soubor všech edotek, který e předmětem sledováí a o ěmž chceme provádět závěry Popisá statistika Popisá statistika Statistické zaky kvalitativí (sloví, kategoriálí) kvatitativí (číselé, umerické) meé (omiálí) měřitelé (kardiálí) pořadové (ordiálí) pořadové (ordiálí) spoité espoité (diskrétí) Statistické zkoumáí Statistické zkoumáí shromažďováí dat Statistické zkoumáí lze zpravidla rozdělit do tří etap: 1. shromažďováí dat(příprava a sběr). zpracováí dat 3. rozbor dat(vyhodoceí) 1. zadáí úkolu. volba edotky (zkušebí místo, část kostrukce, ) 3. vymezeí souboru (kterých edotek se zkoumáí týká) 4. určeí statistického zaku (rozměr, obem, hmotost, pevost v tlaku, ) 5. způsob měřeí (hodoceí) zaku (kvatitativí, kvalitativí, spoité, ) 6. sběr dat (kdo a akým způsobem data zišťue a evidue)
Statistické zkoumáí zpracováí dat 1. Výpočet popisé statistiky, ástroe matematické statistiky. Grafické zázorěí Grafy dávaí rychlou a přehledou představu edak o rozložeí dat uvitř souboru a edak o tredech (časová řada). Statistické zkoumáí popisá statistika Tříděí edorozměrý statistický soubor s kvatitativím zakem Uspořádáme data sledovaého kvatitativího zaku do rostoucí poslouposti. Ke každé variatě zaku přiřadíme počty příslušých edotek, které azýváme četosti. Hodoty zazameáme do tzv. tabulky četostí. Statistické zkoumáí popisá statistika Variata zaku i absolutí f i Četost relativí f i / Kumulativí četost absolutí F i relativí F i / 1 f 1 f 1 / F 1 = f 1 f 1 / f f / F = f 1 + f f 1 / + f / f f / Celkem k = 1 f = k = 1 f = 1 F = f = k = 1 k fk F = = 1 k = 1 Popisá statistika charakteristiky polohy Určuí umístěí souboru a číselé ose. výběr o rozsahu : 1,,..., Aritmetický (výběrový) průměr eroztříděý soubor 1 = i roztříděý soubor i = 1 1 * f = 1 = Popisá statistika charakteristiky polohy Mediá hodota kokrétí prostředí edotky statistického souboru uspořádáí podle velikosti: (1), (),..., () prostředí hodota; pro liché ɶ = průměr dvou prostředích hodot; pro sudé Modus hodota v eíž okolí se vyskytue evíce hodot ečetěší hodota souboru Popisá statistika charakteristiky variability Rozptyl = s 1 1 ( = i ) i i = 1 i = 1 Výběrový rozptyl: s 1 1 = = ( i ) i 1 i = 1 1 i = 1 Směrodatá odchylka a výběrová směrodatá odchylka s = s s = s 3
Popisá statistika charakteristiky variability Variačí koeficiet s V = Jde o relativí míru variability (uvádí se též v %). Má smysl pouze pro zak, který abývá pouze kladých ebo záporých hodot. Popisá statistika charakteristiky souměrosti Koeficiet šikmosti (asymetrie) A = 1 i ( ) 3 i= 1 s 3 ukazue, ak sou hodoty kolem aritmetického průměru rozložey; symetrické rozložeí má koeficiet šikmosti rove ule. Popisá statistika charakteristiky souměrosti Korelačí koeficiet 1 r = ( i )( yi y ) i= 1 s( ) s( y) ukazue míru lieárí závislosti dvou veliči -1 r 1 r - sledovaé veličiy sou ekorelovaé r 1- sledovaé veličiy sou korelovaé Výpočty v MS EXCEL Výběrový průměr - PRŮMĚR(číslo1; číslo; ) Výběrový mediá - MEDIAN(číslo1; číslo; ) Výběrový modus - MODE(číslo1; číslo; ) Směrodatá odchylka stat. souboru - SMODCH(číslo1; číslo; ) Výběrová směrodatá odchylka - SMODCH.VÝBĚR(číslo1; ) Výběrový rozptyl - VAR.VÝBĚR(číslo1; číslo; ) Maimálí hodota - MAX(číslo1; číslo; ) Miimálí hodota - MIN(číslo1; číslo; ) Počet hodot - POČET(číslo1; číslo; ) Výpočty v MS EXCEL Výpočty v MS EXCEL 4
Statistické zkoumáí zpracováí dat grafické zázorěí Bodový graf Spoicový graf Histogram Výsečový graf (koláč) Krabicový graf Grafické zázorěí - bodový graf Slouží ke zištěí či ověřeí vzáemé závislosti mezi dvěma kvatitativími zaky Nahrazue výpočty korelačích koeficietů v případech, kdy chceme získat o případé závislosti pouze orietačí iformaci. Glyf (radarový graf) Grafické zázorěí - bodový graf Grafické zázorěí - bodový graf y y y y Silá záporá závislost Slabá záporá závislost Nezávislost Silá kladá závislost Grafické zázorěí spoicový graf Grafické zázorěí dat - histogram slouží k prostému zázorěí četostí polygo četostí 3 5 15 1 počet výskytů 35 3 5 15 1 5 5 1 3 4 5 1 3 4 5 6 7 8 9 1 11 sledovaá veličia itervalové děleí 5
Číslo měřeí Rychlost [m/s] Číslo měřeí Rychlost [m/s] Grafické zázorěí dat - histogram Příklad: Rychlost prostupu ultrazvukových vl 1 3 4 5 6 7 8 9 1 479 411 4117 4189 4184 41 3947 484 4177 44 11 1 13 14 15 16 17 18 19 45 398 3971 43 446 395 46 47 419 474 Grafické zázorěí dat - histogram 1. Seřazeí podle velikosti. Výpočet rozpětí R = ma mi = 74 m/s 3. Výpočet délky třídy h= R/počet_tříd= 74/7 = 39,14 4. Sestaveí tříd Grafické zázorěí dat - histogram 7 Grafické zázorěí dat - histogram a) Symetrický histogram zvoovitého tvaru 6 Počet pozorováí 5 4 3 1 1 8 6 4 1 1 3 4 5 6 7 8 9 1 11 1 13 14 15 39 395 4 45 41 415 4 45 Rychlost prostupu ultrazvukových vl [m/s] 1 1 8 6 4 Grafické zázorěí dat - histogram b) Dvovrcholové histogramy Grafické zázorěí dat - histogram c) Histogramy plochého a hřebeovitého tvaru 1 8 6 4 1 3 4 5 6 7 8 9 1 11 1 13 14 15 1 3 4 5 6 7 8 9 1 11 1 13 14 15 14 8 1 1 6 8 6 4 4 1 3 4 5 6 7 8 9 1 11 1 13 14 15 1 3 4 5 6 7 8 9 1 11 1 13 14 15 6
Grafické zázorěí dat - histogram d) Histogramy asymetrického tvaru Grafické zázorěí dat výsečový graf 14 1 1 8 6 4 1 5 1 3 4 5 6 7 8 9 1 11 1 13 14 15 14 35 1 1 8 3 6 4 1 3 4 5 6 7 8 9 1 11 1 13 14 15 Grafické zázorěí dat krabicový graf Grafické zázorěí dat krabicový graf Slouží ke zázorěí etrémích hodot a kvartilů(kvartilydělí statistický soubor a 4 části přičemž každá část obsahue 5% edotek). mi 5 5 75 ma Grafické zázorěí dat glyf Slouží k určeí vzáemých souvislostí dvou či více obektů. PROŠKOLENÍ ŠETRNOST FIRMY K ŽIVOTNÍMU PROSTŘEDÍ 1,3 KVALITA 1,8,5 1,5 1,5 DODRŽENÍ TERMÍNU,3 PORADENSK Á ČINNOST, sběr údaů, eich popis a aalýzu rozšířeí platosti závěrů z malého počtu vzorků a soubor, z ěhož vzorky pocházeí REAKCE NA ZMĚNY V PRŮBĚHU STAVBY 1,6 KOMUNIKAC E 1,7 zpracováí a vyhodocováí iformací o realitě, která eí zámá JAKOST PROVEDENÍ 1,9 ZPŮSOB JEDNÁNÍ 1,7 7
Věrohodost závěrů aalýzy vyžadue, aby: výrobí dávky byly vyrobey za steých podmíek, podmíky pokusubyly specifikováy předem a byly dodržováy během celého pokusu, vzorky byly odebráy áhodě a byly reprezetativí pro soubor, z ěhož sou odebráy. Náhodý pokus e takový pokus, který může dávat růzé výsledky i při dodržeí steých podmíek Náhodý ev e tvrzeí o výsledku áhodého pokusu, o kterém lze po eho uskutečěí edozačě rozhodout, zda e či eí pravdivé. Pravděpodobost míra astoupeí áhodého evu Výsledky áhodého pokusu (realizace áhodé veličiy) tedy ai realizace áhodého evu elze s istotou předpovědět. Náhodá veličia Xe reálá proměá, která abývá áhodě reálých číselých hodot. spoitá diskrétí Náhodá veličia e edozačě určea svou distribučí fukcí: F( ) = P( X < ) Distribučí fukce určue tzv. rozděleí pravděpodobosti áhodé veličiy spoitááhodá veličia spoité rozděleí pravděpodobosti diskrétí áhodá veličia diskrétí rozděleí pravděpodobosti Spoitá áhodá veličia: hustota pravděpodobosti Vlastosti: + 1. f ( ) d = 1. 3. 4. f ( ) = F`( ) F( ) f( t) dt = P( a X b) = P( a < X < b) = P( a X < b) = P( a < X b) = b = f( ) d = F( b) F( a) a P( X = c) = Diskrétí rozděleí pravděpodobosti Biomické rozděleí áhodý výběr s vraceím Hypergeometrické rozděleí áhodý výběr bez vraceí Poissoovo rozděleí Spoité rozděleí pravděpodobosti Rovoměré rozděleí Normálí rozděleí fukčí charakteristiky: středí hodota µ směrodatá odchylka σ Studetovo rozděleí (t rozděleí) 8
hustota pravděpodobosti distribučí fukce F( ) f( t) dt = Kvatil e hodota, která rozdělue soubor hodot určitého statistického zaku a dvě části, eda obsahue ty hodoty, které sou meší (ebo steé) ež teto kvatil, a druha část aopak obsahue hodoty, které sou větší (ebo steé) ež kvatil. X spoitá áhodá veličia s distribučí fukcí F() eí P-kvatil(P*1%kvatil) e číslo P, pro které platí: P= F( P ) Používaí se tyto kvatily: mediá (prostředí kvatil):,5 dolí kvartil:,5 horí kvartil:,75 decily:,1,,, percetily:,1,,, Náhodý výběr statistický soubor ( 1,, ) získáme -krát opakováím áhodého pokusu > pozorováí áhodé veličiy = pozorovaá hodota áhodého výběru (X 1,, X ) Realizací áhodého výběru získáme obecě růzé statistické soubory. Statistika(výběrová charakteristika) = fukce áhodého výběru T(X 1,, X ) odhady parametrů rozděleí Skutečou hodotu parametrů rozděleí pravděpodobosti áhodé veličiy obvykle ezáme. Odhadueme i pomocí statistického souboru Odhad: Nestraý Straý(vychýleý) Bodový odhad parametru e pozorovaá hodota t = T( 1,, ) a statistickém souboru ( 1,, ) 9
odhady parametrů rozděleí Bodové odhady: Středí hodota aritmetický průměr Směrodatá odchylka výběrová směrodatá odchylka Rozptyl druhá mocia výběrové směrodaté odchylky odhady parametrů rozděleí Itervalový odhad (iterval spolehlivosti, kofidečí iterval) pro parametr εse spolehlivostí 1 α, kde α ;1 e iterval <t 1; t >, kde hodoty t 1 a t sou daé statistickým souborem Spolehlivost 1 αvolíme,95 ebo,99 Itervalový odhad středí hodoty ormálího rozděleí: s s t1 α / ; + t1 α / 1 1 Při sledováí áhodých veliči sme často ucei ověřit určité předpoklady či doměky o eich vlastostech pomocí eích pozorovaých hodot. Statistická hypotézahe tvrzeí o vlastostech rozděleí pravděpodobosti pozorovaé áhodé veličiy X. Postup ímž ověřueme daou hypotézu, se azývá test statistické hypotézy. H: η= η ulová hypotéza H A : η η alterativí hypotéza volíme dle požadavků úlohy Hypotéza: Dvoustraá Jedostraá Pro testováí hypotézy H: η= η proti ěaké zvoleé alterativí hypotéze se kostruue vhodé testovací kritériumt(x 1,,X ). Obor hodot testovacího kritéria T se za předpokladu, že platí hypotéza H, rozdělí a dvě podmožiy: Kritický obor W α Obor ezamítutí W α Hladia výzamosti α pravděpodobost toho, že testovací kritérium abude hodotu z kritického oboru. Rozhodutí o hypotéze Jestliže pozorovaá hodota testovacího kritéria t= T( 1,, ) a statistické souboru ( 1,, ) pade do kritického oboru, zamítáme hypotézuh současě ezamítáme alterativí hypotézu H A. Chyby Chyba prvího druhu hypotéza H platí a my i zamítáme. Pravděpodobost této chyby e hladia výzamosti α. Chyba druhého druhu Hypotéza H eplatí a my i ezamítáme. Pravděpodobost této chyby se azývá síla testu. 1
Obvyklým výstupem většiy softwarů, které umožňuí testovaí statistických hypotéz, eí přímo zamítutí či ezamítutí hypotézy, ale tzv. P - hodota. P -hodota udává mezí hladiu výzamosti, při které bychom daou hypotézu eště zamítali. Hypotézu H zamítáme a hladiě výzamosti, estliže P -hodota e meší ež α. Studetův t-test Hypotézy: zda ormálí rozděleí, z ěhož pochází áhodý výběr, má určitou kokrétí středí hodotu, přičemž rozptyl e ezámý; Zda dvě ormálí rozděleí se steým (třeba i ezámým) rozptylem, z ichž pocházeí dva ezávislé áhodé výběry maí steé středí hodoty (případě lišící se o určitou hodotu). Studetův t-test Studetův t-test Jedovýběrový H : µ = µ Párový testue se rozdíl středích hodot, steý rozsah Dvouvýběrový dva výběry, růzý rozsah Studetův t-test Studetův t-test 11
ANOVA (AalysisOfVariace) ANOVA (AalysisOfVariace) Srováváme, zda rychlost prostupu ultrazvukových vl e ve třech růzých částech ŽB kostrukce steá. Obecě srováváme a více skupi Proč esrovat po dvoicích? -> roste šace, že uděláme chybu prvího druhu. => e výhoděší testovat pouze edu hypotézu Hypotéza: H : µ 1 = µ = µ 3 =... = µ k. Předpoklad homogeity variace (a ormality). H A : eí pravda, že sou všechy středí hodoty steé (tedy alespoň eda se liší od ostatích) ANOVA (AalysisOfVariace) Needodušší variata: Sigle Factor ANOVA Model: X i = μ+α i + ε i áhodá variabilita N(,σ ) ANOVA (Aalysis Of Variace) příklad : Porováí tří částí kostrukce rychlost šířeí ultrazvukových vl Společá středí hodota posuutí i-té skupiy proti společému průměru H e tedy možé vyádřit α i = pro všecha i (iými slovy -posuutí mezi skupiami eí, e tam e áhodá variabilita) 1
Testy dobré shody Testováí a fitováí rozděleí pravděpodobosti Testy dobré shody Testováí a fitováí rozděleí pravděpodobosti Aderso Darlig Rya Joier(Shapiro Wilk) Kolmogorov- Smirov Regresí aalýza Hledáí a zkoumáí závislostí proměých, eichž hodoty získáme při realizaci eperimetu. apř.: vztah mezi epřímou a přímou metodou zkoušeí y Proložeí bodového diagramu Regresí aalýza Závislost mezi veličiami X a Y vyadřue regresí fukce: y = ϕ(; β), kde β= (β 1,, β m ) sou regresí koeficiety Regresí aalýza Pro určeí ezámých regresích koeficietů β= (β 1,, β m ) miimalizueme tzv. reziduálí součet čtverců: S* = yi ϕ ( i, β ) i = 1 => Metoda emeších čtverců Lieárí regresí fukce: m = ( ) y β f = 1 13
Dotazy? Děkui za pozorost! Petr Misák misak.p@fce.vutbr.cz 14