STATISTICKÉ MINIMUM PRO STUDENTY BAKALÁŘSKÉHO STUDIA NA TECHNICKÝCH OBORECH BOHUMIL MINAŘÍK 04
prof. Ig. Bohuml Mařík, CSc. STATISTICKÉ MINIMUM PRO STUDENTY BAKALÁŘSKÉHO STUDIA NA TECHNICKÝCH OBORECH. vydáí ISBN 978-80-88064-03-9 Vydala Vysoká škola polytechcká Jhlava, Tolstého 6, Jhlava, 04 Za jazykovou a věcou správost osahu díla odpovídá autor. Tet eprošel jazykovou a redakčí úpravou. Bohuml Mařík, 04
Teto učeí tet je směrová a cílovou skupu studetů techckých oorů a akalářském stup studa. Statstka patří těžším předmětům, protože vyžaduje určtou matematckou průpravu a způso uvažováí, který eí zdaleka ěžý. Také průěžá příprava je docela důležtá, eoť árazově a a posledí chvíl se statstka rozhodě astudovat edá. Každé podceěí a odkládáí studa a pozděj se s jstotou projeví. Také teto učeí tet, jakkol sympatcký ízkým počtem stra, rozhodě epatří do kategore lehké čety. Na druhou strau je třea kostatovat, že rozhodě ejde o matematckou ehc, ale určté (sad ohleduplé, pokud se to tak dá říc) převyprávěí se sahou o mamálí čtvost a srozumtelost. Př srováí s ěžým učecem statstky, které se vyzačují pět až desetkrát větším počtem stra, je výklad poměrě hutý, pozameaý sahou ve čtyřech kaptolách se alespoň dotkout moha témat, které použtí statstky v techckých oorech otevírá. Jde rozhodě o statstcké mmum, které ude uce skutečý užvatel statstckých metod v udoucu podstatě rozšířt. Na ěkolka místech tetu je poukázáo a užtí pravděpodoost a statstky v techce, která jsou a těchto základech vyudováa. Protože však amcí tohoto tetu je sezámt čteáře s oecým základy statstky (jak ostatě odpovídá sylaům příslušého předmětu), emůže v žádém případě jít o systematcký výklad týkající se (amátkou) ejstot měřeí, hromadé osluhy, regulačích dagramů eo statstcké přejímky. To už je áplň dalších dscplí, které oecé základy statstky využívají a aplkují a kokrétí případy z techckého výzkumu prae. Jde takříkajíc o pokus o eta-verz (sad) udoucího kvaltího učeího tetu, který jž udou přpravovat jí, pro výuku statstky a techckých oorech (především v olast výpočetí techky a formatky) jstě lépe dspoovaí učtelé. Nakolk je už tato zkušeí verze alespoň zčást zdařlá, echť posoudí studet sam. To, že v deší doě lze většu pojmů použtých v této pomůcce vyhledat a teretu (ohužel e vždy přesě a správě), eí třea přpomíat. Jhlava, srpe 04 Autor
Oretace v tetu Tet sestává ze čtyř kaptol Zpracováí a pops datového souoru v rozsahu 0 stra, který osahuje tyto odstavce Datový souor (straa 5) Tříděí (straa 6) Charakterstky úrově (straa 5) Charakterstky varalty (straa 8) Pravděpodoost v rozsahu 9 stra, s těmto odstavc Rekaptulace základích pojmů (straa 5) Náhodá velča (straa 9) Zákoy rozděleí dskrétích áhodých velč (straa 39) Zákoy rozděleí spojtých áhodých velč (straa 43) Odhady a testy hypotéz v rozsahu 30 stra, s těmto odstavc Náhodý výěr z rozděleí áhodé velčy (straa 54) Bodový odhad (straa 6) Itervalový odhad (straa 64) Testováí hypotéz o parametrech rozděleí (straa 70) Některé další testy hypotéz (ukázky) (straa 77) Metoda ejmeších čtverců v rozsahu stra, s těmto odstavc Regresí úloha (straa 84) Měřeí průěhu závslost (straa 85) Měřeí tezty závslost (straa 87) Příklad regresí úlohy (straa 88) Kalrace (straa 90) Na koc tetu je přpoje stručý výtah z taulek kvatlů dvou důležtých áhodých velč. Vždy za jedím eo ěkolka odstavc jsou vložey otázky a úkoly, které y měl studet vyřešt, pokud chce postoupt vpřed. Celkem jde o 59 položek, které mohou dokoale prověřt samostatou přípravu studeta a současě tvoří výchozí materál pro průěžé písemé práce a formulováí otázek ke zkoušce. Každá kaptola kočí souhrem proraé látky. Na závěr kaptoly jsou vyjmeováy ěkteré další souvsející prolémy, a které ezyl čas a prostor.
Kaptola Zpracováí a pops datového souoru Základí surovou popsé statstky je datový souor, kokrétě způso jeho pořízeí, zpracováí (k tomu se používá se především metoda tříděí) a měřeí hlavích statstckých vlastostí dat (především úrově a varalty) pomocí souhrých statstckých charakterstk. Pořízeí datového souoru (statstcké zjšťováí, šetřeí) má, vzhledem k velm šrokému použtí statstky dotýkajícího se moha oorů ldské čost, velm růzou podou počíaje epermetálím měřeím v laoratořích a zkušeách, přes ejrůzější zjšťováí proíhající takříkajíc v provozích podmíkách, až třea po dotazíková šetřeí v souorech domácostí. Moderí přístup k získáváí statstckých dat představuje tzv. data mg, spočívající v sofstkovaém vytěžováí statstckých dat orgazovaých v dataázích. O tom, že tato čost ayla průmyslového charakteru, svědčí používaé pojmy jako datový sklad, datová pumpa apod. K epermetálím účelům se také využívají tzv. geerátory áhodých čísel, které automatcky produkují smulovaé datové souory požadovaých vlastost. Pokud ychom hodlal zůstat a půdě popsé statstky (apř. v rámc ašeho studjího předmětu), ehrál y způso pořízeí datového souoru až takovou rol. Protože však hodláme zaroust také do matematcké statstky (ta se zaývá především metodam statstcké dukce zoecěí pozatků získaých a datovém souoru), dospějeme v jstém okamžku k pojmu áhodý výěr z rozděleí pravděpodoost áhodé velčy. Čstě pro potřey popsé statstky ovšem zatím stačí představt s, že jsme přšl k hotovému a datový souor máme tudíž k dspozc, až pátráme po způsou, jakým yl poříze.. Datový souor Měřeá velča Měřeé velčy rozlšujeme podle způsou, jakým získáváme jejch hodoty: Kardálí velča jejíž číselé hodoty získáváme cestou měřeí ve vlastím slova smyslu (typcky fyzkálích měřeí) v měrých jedotkách v souladu se soustavou SI (sedm základích jedotek, odvozeé jedotky, ásoé jedotky, vedlejší jedotky). Př ozačováí měřeé velčy má předost X (velké ). Kardálí velčy rozlšujeme podle spojtost a dskrétí espojté (aývající zolovaých hodot, často e utě celočíselých) a spojté (reálá čísla). Kromě toho rozlšujeme kardálí velčy s přrozeou a kovečí ulou. To je důležté pro jejch rozděleí a poměrové (jejch hodoty lze porovávat rozdílem podílem) a tervalové (jejch hodoty lze porovávat je rozdílem typcky apř. teploty ve C). V dalším tetu této kaptoly udeme předpokládat výhradě kardálí velču. Ordálí velča, jejíž číselé hodoty získáme růzě, typcky apř. očíslováím uspořádaých hodot kardálí velčy pořadovým čísly vzestupě eo sestupě. V tomto případě jsou elmováy rozdíly mez hodotam (rozdíl dvou sousedích hodot je ahraze jedotkovým rozdílem jejch pořadových čísel). S touto velčou se v ašem předmětu praktcky esetkáme. Kategorálí velča, kdy jedotlvé případy klasfkujeme do slově vyjádřeých kategorí (apř. událost astala/eastala, tskára je jehlčková/koustová/laserová apod.). Zde se ehovoří o měřeí, ale o srováváí, a o hodotách, ýrž o oměách. Pokud jsou kategore očíslováy (apř. událost astala, událost eastala 0), jde o číselý kód a čísla emají výzam velkost. V rámc této kaptoly se s kategorálí velčou esetkáme. 5
Naměřeé hodoty Pokud jde o kardálí velču (vezměme příklad měřeí určté fyzkálí vlastost součástky), je třea s uvědomt, že její aměřeá hodota je je áhodou totožá s hodotou skutečou. Naměřeá hodota je především zatížea ejstotou měřeí. Skutečá hodota je pak složea z hodoty omálí (jmeovté, očekávaé) a dvduálí, případ od případu se měící, odchylky od omálí hodoty vz dagram. Naměřeá hodota datový souor jako celek jsou tedy jedotou determstcké (předvídatelé) složky a složky áhodé (tudíž epředvídatelé). Pokud y šlo apř. o měřeí proudových jstčů, můžeme očekávat že aměřeé hodoty udou kolísat oretačě kolem omálí hodoty (jmeovtého proudu v A uvedeého a jstč), jedak vlvem dvduálích odchylek vzklých př výroě jedotlvých jstčů, jedak vlvem ejstot měřeí. Statstka (zejméa popsá) se prolematkou ejstot měřeí ezaývá, proto j poecháme straou. Dagram: aměřeá vs. skutečá hodota Naměřeá hodota Skutečá hodota Nejstoty měřeí Typ A Typ B Nomálí hodota Idvduálí odchylka od omálí hodoty Naměřeé hodoty měřeé velčy X, které tvoří datový souor, ozačíme uď jako,,...,,...,, kde číslo je rozsah datového souoru, alteratvě můžeme použít ozačeí, pro,,...,, kde de souvsí s pořadím měřeí. Posloupost ( ) ()... ( )... ( ) azveme uspořádaým datovým souorem, kde čísla jsou pořádkové statstky. Platí ( ) ( ) (ejmeší aměřeá hodota), m. Vzdáleost mez oěma etrémím hodotam R ma m je varačí rozpětí. ( ) ma Posloupost [ ] < [ ] <... < [ ] <... < [ k] azveme vektorem varat. Číslo k (počet vzájemě od see růzých varat) je řádově meší ež rozsah souoru.. Tříděí Má-l datový souor větší rozsah (oretačě alespoň > 30) je vhodé přstoupt k jeho zpracováí pomocí tříděí. Výsledkem tříděí je rozděleí četostí, které je opět jedotou očekávaého zákotého a ahodlého. Tříděí eí samoúčelé, protože taulkové eo grafcké vyjádřeí rozděleí četostí umožňuje usuzovat apř. a symetr č esymetr rozděleí kolem ějakého cetrálího odu, stupeň a místo akupeí ejvětšího počtu hod- 6
ot, délku koců, přítomost chvostu apod. Kromě toho rozděleí četostí umožňuje měřt a porovávat strukturu datových souorů. Bodové a tervalové tříděí, rozděleí četostí O odovém tříděí se hovoří tehdy, pokud se podaří z dat etrahovat vektor varat (ěkolk málo růzých hodot se mohoásoě opakuje). Rozděleí četostí př odovém tříděí je tvořeo dvousloupcovou taulkou (vz). K tervalovému tříděí přstoupíme tehdy, pokud se z dat epodaří etrahovat vektor varat (aměřeé hodoty jsou apř. vesměs růzá reálá čísla). V tom případě přstoupíme k vytvořeí třídcích tervalů. Jde o sujektví záležtost, ale aychom dosáhl žádoucího efektu, je vhodé př tom respektovat určté oecé zásady (přměřeý počet k tervalů, jejchž počet y eměl poklesout pod šest, kostatí šířka tervalu h, esporé vymezeí hrac tervalů, elmace odlehlých hodot pomocí prvího a posledího otevřeého tervalu). Iterval je zpravdla zastupová svým středem (vz taulka). Taulka rozděleí četostí př odovém a tervalovém tříděí Varata Četost Střed třídcího tervalu Četost [] [] [ ] : : : : [ k ] k Součet Součet Pozámky k taulce hraaté závorky u varat udeme adále vyechávat, takže varaty středy tervalů udeme začt stejě, výzam vyplye z kotetu, počet varat a počet třídcích tervalů se začí shodě jako k, pojmem četost (vz dále) ozačujeme počet opakováí -té varaty eo počet hodot ležících v -tém tervalu, součet četostí je v oou případech rove rozsahu výěru. k k Druhy četostí Četost v taulce, ěkdy azývaé také asolutí četost, ejsou vhodé pro porováváí struktury dvou eo více rozděleí četostí, eoť závsí a rozsahu souoru, který je jejch součtem. Závslost četostí a rozsahu souoru odstraíme přechodem a relatví četost (případě v procetech vyjádřeé ). Relatví četost p. Relatví četost jsou tedy ezáporá desetá čísla, jejchž součet je rove jedé. Postupým ačítáím (kumulací) asolutích eo relatvích četostí vzkají kumulatví četost. Kumulatví četost k j j (tj. p k j j, +, + + 3,..., ). Relatví kumulatví četost mohou ýt rověž vyjádřey v procetech. Případý součet 7
kumulatvích četostí y edával smysl. Toto v taulce ozačíme symolem (ležatý křížek) v příslušém políčku součtového řádku. Skalárím součem asolutích četostí a varat/středů tervalů získáme úhr hodot souoru. Zatímco v prvím případě jde o přesé číslo (stejý výsledek ychom získal sečteím původích etříděých hodot), ve druhém případě jde je o přlžý úhr, vzhledem k tomu, že střed tervalu eí dokoalým reprezetatem všech hodot tervalu. Taulkové a grafcké vyjádřeí rozděleí četostí vz ásledující příklady. Příklad odového tříděí V datovém souoru o rozsahu 80 yly detfkováy varaty ula a přrozeá čísla až 4. Následující taulka prezetuje rozděleí četostí př odovém tříděí tohoto datového souoru. Taulka rozděleí četostí př odovém tříděí Varata Asolutí četost Relatví četost p Kumulatví četost k 00 kp 0 0,50 5,0 33 0,4 45 56, 6 0,00 6 76, 3 5 0,88 76 95,0 4 4 0,050 80 00,0 Součet 80,000 Úsečkový graf asolutí četost a graf relatví kumulatví četost v % 00kp Pozámky k příkladu a odové tříděí součty relatvích četostí emusí vzhledem k zaokrouhlováí utě vyjít jeda (00 %), 8
k skalárí souč 6 udává úhr (přesou hodotu) datového souoru, graf kumulatví četost má typcký stupňovtý průěh, relatví četost postačí ke srováí struktury datových souorů růzých rozsahů. Příklad tervalového tříděí Hodoty datového souoru o rozsahu 0 jsou reálá čísla (po zaokrouhleí a celá čísla) ležící v rozmezí m 783, ma 738. Rozhodl jsme třídt datový souor do šest třídcích tervalů pro h 000, které vymezíme, jak je uvedeo v taulce rozděleí četostí. Taulka rozděleí četostí př tervalovém tříděí Vymezeí tervalu Střed tervalu Asolutí četost Relatví četost p Kumulatví četost ( 000) 500 3 0,07 3 0,07 <000 3000) 500 0,00 4 0,7 <3000 4000) 3500 8 0,64 3 0,9 <4000 5000) 4500 9 0,73 5 0,464 <5000 6000) 5500 4 0,38 93 0,846 <6000 + ) 6500 7 0,54 0,000 Součet 0,000 k kp Hstogram asolutí četost a graf relatví kumulatví četost kp Pozámky k příkladu a tervalové tříděí tervaly musíme vymezt tak, aychom do ch (ejlépe s určtou rezervou) umístl všechy hodoty, 9
šířku, hrace a středy tervalů je třea volt s ohledem a mamálí přehledost, tervaly jsme vymezl esporě, výzam závorek je zřejmý (vyskyte-l se apř. hodota 3000, patří do třetího tervalu), prví a posledí terval jsme kocpoval tak, ay yly otevřeé, což má smysl zejméa u posledího tervalu, kam y se hodota 738 jak evešla, eí žádoucí, ay rozděleí četostí osahovalo tervaly s ulovou četostí, šířka otevřeých tervalů se považuje za stejou jako u ostatích tervalů, když se do ch zařazují odlehlé hodoty to a vysvětleou ke středům prvího a posledího tervalu, k skalárí souč 5000 udává úhr (přlžá hodota) datového souoru, sloupcový graf asolutí (relatví) četost se slepeým sloupc se azývá hstogram, graf kumulatví četost je lomeá čára, často esovtého tvaru; ody se vyášejí prot horím hracím tervalů; čáru je vhodé apojt a vodorovou osu v horí hrac fktvího předchozího tervalu, relatví četost epostačí k porováí struktury tervalově tříděých datových souorů z důvodu předpokládaé růzé šířky a růzého počtu tervalů. Četostí fukce a četostí hustota p Pro tervalově tříděá data zavedeme hustotu četostí jako fukc f, tj. jako h relatví četost přpadající a jedotku třídcího tervalu. Hustota četostí (a rozdíl od relatví četost) ezávsí a šířce třídcího tervalu a zachovává s svůj průěh př tříděí do stále většího počtu stále užších tervalů. Lze s představt, že př etrémě jemém tříděí, kdy h 0, přejde lomeá čára představující průěh relatví kumulatví četost v hladkou křvku a podoě hladkou čarou se oaluje hstogram hustoty četostí. Pokud udeme relatví četost př odovém tříděí a hustotu četostí př tervalovém tříděí chápat jako fukc hodot měřeé velčy, můžeme zavést četostí fukc p ( ), která je ezáporá a ormovaá a tervalu 0 ;, přčemž p( ) (součet délek úseček představujících relatví četost je rove jedé), fukc četostí hustoty, která je ezáporá f ( ) 0 a ormovaá tj. plocha hstogramu četostí hustoty je vždy rova jedé. + f ( ) d, Výzamé hodoty V etříděém, odově eo tervalově tříděém datovém souoru lze ajít hodoty, které jsou výzamé svojí polohou eo četostí. Jde o Etrémí hodoty, m ma, které lze u etříděých a odově tříděých dat určt přesě, zatímco u tervalově tříděých dat je z taulky rozděleí četostí určt edokážeme. 0
Typcká hodota (modus, ˆ ), což je u odově tříděých dat varata s ejvětší četostí, zatímco u tervalově tříděých dat leží uvtř tervalu s ejvětší četostí (jak její polohu uvtř tervalu odhadujeme, poecháme straou). U etříděých údajů s malým rozsahem souoru se o určeí typcké hodoty zpravdla epokoušíme. Kvatly, což jsou hodoty, které dělí uspořádaý eo tříděý datový souor ve staoveém poměru četostí. Hlavím kvatlem je medá 0, 50 (prostředí hodota), což je u etříděých uspořádaých dat hodota s pořadím. Pokud + vypočteé pořadí eí celé číslo, vyhovují defc medáu dvě hodoty ezprostředě předchozí a ásledující (apř. 7, 4, medáem je tedy čtvrtá + + hodota, zatímco pro 8, 4, 5 a medáem je současě čtvrtá a pátá hodota). U odově tříděých dat je medáem varata, u které kumulatví relatví četost poprvé překročí hodotu 0,5 (50 %). U tervalově tříděých dat leží medá v tervalu, pro který kumulatví relatví četost poprvé překročí tutéž hodotu (0,5 eo 50 %). Jak jeho polohu uvtř tervalu odhadujeme, poecháme straou. Kvartly ( 0,5, 0,50, 0, 75 ) jsou tř kvatly, které rozdělují souor a čtvrty. Dolí kvartl 0, 5 je medáem dolí polovy souoru, horí kvartl 0, 75 je medáem horí polovy souoru. Prostředí kvartl je medá. Vedle medáu a kvartlů estuje možství dalších kvatlů. Jako vhodý příklad uvádíme percetly, jejchž počet je 99 ( 0,0,..., ) a dělí souor a sto částí 0, 99 o relatví četost 0,0 ( %). Prostředím (padesátým) percetlem je medá a oa percetly v závorce se azývají dolí a horí percetl. Kokrétě s těmto kvatly se pozděj v jé souvslost setkáme. Tvar rozděleí četostí Jak jsme jž dříve uvedl, datový souor osahuje prvek zákotého a předvídatelého a současě prvek ahodlého, případ od případu promělvého. Proto můžeme hovořt o určtých typckých, opakovatelých, tvarech rozděleí četostí. Všímáme s symetre č asymetre rozděleí četostí. Praktcky se ěžě setkáváme s oěma případy. Pokud jde o asymetrcká rozděleí, hovoříme o levostraé (vz příklad k odovému tříděí) eo pravostraé (vz příklad k tervalovému tříděí) asymetr. Př tom se řídíme tím, zda vrchol rozděleí je vychýle doleva (k žším hodotám) č doprava. O etrémě asymetrckých rozděleích se hovoří tehdy, je-l vrchol rozděleí zcela vlevo (apř. v prvím tervalu) eo vpravo (apř. u posledí varaty). Dále se zajímáme o rovoměrost č erovoměrost rozložeí četostí mez jedotlvé varaty/tervaly. Pokud jsou četost rozděley přlžě rovoměrě, hovoří se o rovoměrém rozděleí. V opačém případě jde zpravdla (e vždy) o modálí rozděleí vyzačující se vyšší frekvecí hodot u určté varaty eo v určtém tervalu. Protkladem k modálím rozděleí je rozděleí typu U (dolík místo vrcholu). Zvláští kategor tvoří vícevrcholová rozděleí. Přítomost více vrcholů může vypovídat o škodlvé heterogetě v datech (vzká apř. sloučeím datových souorů, které vzkaly za růzých podmíek).
Kromě toho se můžeme zaývat délkou koců rozděleí, výskytem odlehlých hodot, případě přítomostí chvostu hodot a jedom z okrajů rozděleí. Tuto prolematku ale poecháme straou. Růzé typcké tvary rozděleí četostí př tervalovém tříděí Kracový graf s vláky Teto graf představuje vedle grafů rozděleí četostí alteratví pohled a statstcká data, založeý a výzamých hodotách. V grafu se ojevuje krace ohračeá dolím a horím kvartlem a s vyzačeou polohou medáu. Šířka krace je fukcí rozsahu datového souoru. Vláka mají mamálí hodotu,5ásoku vzdáleost příslušého kvartlu od medáu eo kočí v příslušé etrémí hodotě (pokud je vzdálea méě ež,5ásoek vzdáleost kvartlu a medáu). Vymezují tzv. hrady dat. Hodoty ležící za hradam jsou podle vzdáleost ozačey jako odlehlé, případě etrémě odlehlé. I když a prví setkáí se z toho grafu edá moc vyčíst, tak zkušeé oko rychle odhalí vlastost a zvláštost takto zorazeých dat.
Kracové grafy s vláky Pozámky ke grafu podle šířky krac je zřejmé, že souor vpravo má větší rozsah, souor vlevo je přesě symetrcký a eosahuje žádé odlehlé hodoty (všechy jeho hodoty jsou uvtř hrade dat), souor vpravo je slě levostraě esymetrcký (vzdáleost mez dolím kvartlem a medáem je malá, protože zde leží více hodot souoru ež a opačé straě), souor vpravo osahuje jedu odlehlou a jedu etrémě odlehlou hodotu, graf je zázorěý v etrémě zjedodušeé podoě, protože může osahovat daleko více prvků vypovídajících o dalších vlastostech dat (pro ás y yl ovšem přílš složtý). Zmíěé pohledy a datový souor jsou kromě dalších postupů součástí tzv. průzkumové (eploratorí) aalýzy dat. 3
Témata pro tutorál (resp. pro cvčeí a prezečí formě studa). Charakterzujte kardálí, ordálí a kategorálí velču.. Co vám říkají pojmy dskrétí a spojtá velča a tervalová a poměrová velča? Ke které z velč z odu se vztahují? 3. Rozeerte vztah mez aměřeou a skutečou hodotou kardálí velčy. 4. Co je uspořádaý datový souor a jak se azývají jeho hodoty? 5. Co jsou varaty? 6. Jaké druhy tříděí rozlšujeme? 7. Shrňte oecé prcpy tervalového tříděí. 8. Rekaptulujte druhy četostí a jejch vzájemé vztahy. 9. Srovejte grafcké zázorěí rozděleí četostí pro odové a tervalové tříděí. 0. Jak se staoví úhr hodot tříděého datového souoru? Kdy jde o přesé číslo a kdy jde je o odhad úhru a proč?. Proveďte samostatě tervalové tříděí dvduálě zadaého datového souoru.. U ásledujících pojmů rozhoděte, zda se vztahují k odovému eo tervalovému tříděí, případě k oěma druhům vektor varat, hstogram, relatví kumulatví četost v %, stupňový graf kumulatví četost, hustota četostí, četostí fukce. 3. Co rozumíme pod pojmem výzamé hodoty? Čím jsou výzamé a jaké jsou jejch druhy? 4. Doplňte způso určeí etrémích hodot, medáu a modu do taulky. Netříděé údaje Bodově tříděé údaje Itervalově tříděé údaje Etrémí hodoty Medá Modus 5. Co je medá? Přesvědčte se, že jste pochopl prcp jeho určeí a příkladu, kde hodoty :,, 6,3,5,0,0,9,5, 3. 6. Jak se azývá a jaké prvky osahuje graf založeý a výzamých hodotách, ze kterého lze vyčíst hlaví vlastost datového souoru (asymetre, přítomost odlehlých hodot apod.)? 7. Pojmeujte každý z tvarů rozděleí četostí a příslušém orázku. 8. Pokud ezáte, vyhledejte výzam pojmů data mg, smulace, geerátory áhodých čísel a eploratorí aalýza dat. 4
.3 Charakterstky úrově Údaje datového souoru charakterzují každý případ zvlášť. V této chvíl jde o to, aychom zoecl statstcké vlastost datového souoru jako celku. Tvrzeí souor A má žší úroveň ež souor B ezameá utě, že každý údaj souoru A aývá žší hodoty ež lovolý údaj souoru B, ale to, že estuje taková tedece, která je rozpozatelá pro datové souory jako celek. Velčy, které jedím číslem vyjadřují určtou vlastost datového souoru jako celku, se azývají souhré statstcké charakterstky. Nejěžější charakterstkou úrově je artmetcký průměr, když se o průměrech zpravdla hovoří v možém čísle (estuje apř. průměr geometrcký, harmocký aj.). Kromě toho lze ke změřeí úrově datového souoru využít apř. medá. Artmetcký průměr Artmetcký průměr ( s pruhem) se od ostatích průměrů lší tzv. určující vlastostí, kterou můžeme formulovat takto: + +... + + +... + a můžeme j přepsat jako, z čehož artmetcký průměr Vzhledem k tomu, že př výpočtu využíváme prostý součet hodot datového souoru, azývá se tato forma prostou formou artmetckého průměru. Jsou-l data předem zpracováa pomocí odového eo tervalového tříděí, využíváme artmetcký průměr ve vážeé formě. Hodoty jsou v případě odového tříděí varaty a v případě tervalového tříděí středy tervalů. Jde o tutéž charakterstku, pouze o jou formu vyjádřeí. Artmetcký průměr ve vážeé formě je relatví četost, k k p, k k p., kde je asolutí a p a k je počet varat eo počet třídcích tervalů. Pro artmetcký průměr je typcké, že a jeho hodotu má vlv každá, tedy odlehlá hodota datového souoru, případě hruá chya. Vlastost artmetckého průměru artmetcký průměr má rozměr měřeé velčy a lze ho určt z jakýchkol reálých hodot, artmetcký průměr kostaty je rove této kostatě, odchylky hodot datového souoru od artmetckého průměru se kompezují (jako ezprostředí důsledek určující vlastost) a platí ( ) 0 (artmetcký průměr je těžštěm datového souoru), 5
souhlasě s vlastostm těžště platí c) ( ( ) + ( c) a ejmeší možou hodotu tedy součet čtverců odchylek aývá, je-l je-l velča Y kx + c, kde k, c jsou kostaty, platí také y ( k + c) k + c, je-l velča W X ± Y, je současě w ± y, c, je-l dáo k dílčích souorů s rozsahy,,...,,..., k a dílčím průměry, pak k společý průměr těchto dílčích souorů je rove k. Výpočet artmetckého průměru v prosté formě a využtí jeho vlastostí Hodoty datového souoru tvoří pět aměřeých teplot ve C :,6; 4,8;,9; 3,7;,. Součet teplot je 5, a průměrá teplota staoveá jako artmetcký průměr v prosté formě 5, 3, 0 [ C]. 5 Průměr staoveý ve C přepočteme a F (Fahreheta). Vztah mez oěma teplotím stupcem je F,8 C + 3. Takže y,8 3,0 + 3 73, 44 [ F]. Máme tedy 5, 3, 0 K dspozc je další souor měřeí o rozsahu 8 s průměrem 3,. Z oou dílčích souorů měřeí vypočteme společý průměr jako vážeý artmetcký průměr (3,0 5 + 3, 8) 99,98 3,08 + 3 3 [ C]. Další charakterstky úrově Ke změřeí úrově datového souoru můžeme z dosud zámých velč využít medá a modus 0, 50 ˆ. Pro medá je charakterstcká poloha uvtř datového souoru je jeho prostředí hodotou. Modus zase souvsí s četostí výskytu (často ejvětší četost vykazují právě varaty eo tervaly ěkde uprostřed tříděého datového souoru, když to eí 00% pravdlem). Žádá z oou jmeovaých charakterstk eí odvozea od všech hodot datového souoru, etrémí hodoty dokoce a charakterstku emají žádý eo je mmálí vlv. Charakterstky s takovou vlastostí azýváme roustí charakterstky. 6
Vlastost medáu jako charakterstky úrově Použjeme uspořádaý výěr z předchozího příkladu, tj. ( ) :,9;,;,6; 3,7; 4,8 Medáem je prostředí hodota 0,50, 6 [ C]. Na F ychom přepočítával medá podle stejého vzorce jako artmetcký průměr. Společý medá z medáů dílčích souorů elze staovt. Nyí rozšíříme datový souor o jedu hodotu. Př poruše klmatzace yla aměřea teplota 44,5 C. Vypočítáme-l z těchto údajů artmetcký průměr, jeho hodota ude 6,6 C. Defc medáu aprot tomu vyhovují hodoty,6 a 3,7. Chceme-l získat medá jako,6 + 3,7 jedé číslo, určíme 0,50 3, 5 [ C]. Vzájemá poloha artmetckého průměru, modu a medáu určuje tvar rozděleí četostí, pokud jde o jeho symetr, resp. asymetr. U symetrckého rozděleí platí ˆ 0,. 50 Máme zde ovšem a mysl statstckou symetr, kol symetr přísě geometrckou. U asymetrckých rozděleí ude ˆ < u levostraě (poztvě) asymetrckého rozděleí četostí, < ˆ u pravostraě (egatvě) asymetrckého rozděleí četostí, přčemž medá zpravdla leží mez oěma uvedeým charakterstkam. Asymetre datového souoru je jeho další měřtelou statstckou vlastostí. Jejím měřeím se ovšem eudeme zaývat. Na závěr jsme s poechal krátký příklad výpočtu vážeého artmetckého průměru z tervalově tříděých dat. k Výpočet vážeého artmetckého průměru z tervalově tříděých dat V příkladu a tervalové tříděí jsme azačl tříděí 0 hodot (řekěme, že jde o žvotost součástek v hodách) do šest tervalů o šířce h 000. Vážeý artmetcký k průměr. V pozámkách pod zmíěým příkladem je uvedea hodota skalár- ího souču 5000. Vážeý artmetcký průměr je tedy 5000 4745, 5. 0 Průměrá žvotost součástky je tedy 4745,5 hod. Pozámka k příkladu musíme s uvědomt, že ejde o stejou hodotu, kterou ychom získal výpočtem prostého artmetckého průměru ze všech 0 etříděých údajů (je vám jasé, proč?). 7
.4 Charakterstky varalty Varalta promělvost je eodmysltelou součástí každých statstckých dat. Příč a zdrojů varalty je více, v zásadě rozlšujeme varaltu přrozeou a chyovou. K chápáí a měřeí varalty lze přstupovat růzým způsoem a estuje také velké možství charakterstk varalty. Od ejprmtvějších (mez které patří jž dříve zmíěé varačí rozpětí R), až po ejdůležtější (a eje to, doslova ukátí) charakterstku varalty, kterou je rozptyl průměrá čtvercová odchylka kolem artmetckého průměru. Ukátí vlastostí rozptylu (kterou emá žádá další charakterstka varalty) je rozkládat celkovou varaltu ve složky a ty opět podle potřey skládat. Proto se v této část udeme věovat především této charakterstce varalty. Rozptyl V souladu se svojí defcí průměré čtvercové odchylky kolem artmetckého průměru staovíme rozptyl v prosté formě (pro etříděá data) jako var s ( ), po úpravě var s Vdíme, že rozptyl lze ozačovat dvojím způsoem, přčemž ozačeí var je zkratkou alteratvího ázvu rozptylu varace. Tomuto ozačeí udeme většou dávat předost. Ve vážeé formě (pro tříděá data) ude aalogcky k k var s ( ), po úpravě var s, kde jsou varaty (př odovém tříděí) eo středy třídcích tervalů a jsou jejch četost. Vdíme, že v oou případech můžeme rozptyl vyjádřt prostředctvím artmetckých průměrů jako průměr čtverců hodot zmešeý o čtverec jejch artmetckého průměru. Vlastost rozptylu rozptyl je rozměrá charakterstka (jako čtverec má rozměr, který je čtvercem rozměru velčy X) a lze ho určt z lovolých reálých hodot, rozptyl, jako čtverec, je vždy ezáporý, ule je rove př výpočtu z kostaty, rozptyl je v souladu odpovídající vlastostí artmetckého průměru ejmeší estující průměrou čtvercovou odchylkou, je-l velča Y kx + c, kde k, c jsou kostaty, platí var y k var, je-l velča W X ± Y, je var w ( w w) var + var y ± cov y (zdůrazňujeme zaméko + mez oěma rozptyly, přčemž mez zaky je ± ), kde cov y ( )( y y) y y y y, cov y 0, je tzv. kovarace velč X, Y, jejíž hodota souvsí s uspořádáím hodot, y do dvojc (stejé hodoty př růzém uspořádáí vedou k růzé hodotě kovarace), je-l dáo k dílčích souorů s rozsahy,,...,,..., k, dílčím průměry a dílčím rozptyly s, společý rozptyl těchto dílčích souorů. 8
k k s ( ) k s + k s + přčemž prví sčítaec reprezetuje průměrý rozptyl uvtř dílčích souorů a druhý sčítaec rozptyl dílčích průměrů kolem společého průměru ( ). Způso výpočtu a vlastost rozptylu udeme demostrovat a příkladech. s, Výpočet rozptylu z etříděých dat V taulce jsou aměřeé hodoty vstupího apětí ve voltech. Taulku využjeme současě k demostrováí postupu výpočtu rozptylu dvěma způsoy. Číslo měřeí Naměřeá hodota [V] ( ).. 3. 4. 5. 6. 7. 8. 36,3 38,7 39,6 39,0 39,5 37,0 37,9 36,8 3,4 0,36,5 0,8,96, 0,04,69 55837,69 56977,69 57408,6 57,00 57360,5 5669,00 56596,4 56074,4 Součet 904,8,56 453544,44 Artmetcký průměr 904,8 38, [V]. 8 Rozptyl (vzorec se závorkou) var,56, 445 [V ]. 8 Rozptyl (vzorec ez závorky) var 453544,44 38, 56693,055 5669,6, 445 8 [V ]. Pozámky k příkladu vzorec pro výpočet volíme zpravdla podle komplkovaost průěhu výpočtu (zde se více hodí závorková forma), oěma způsoy musí vyjít stejý výsledek, pokud ychom do taulky vložl sloupec ( ), získal ychom v součtovém řádku ulu, v průěhu výpočtu se sažíme ezaokrouhlovat apř. zaokrouhleím průměru staovíme odchylky od hodoty lšící se od průměru, což se a výsledku projeví, vzhledem k měré jedotce je otížé s pod vypočteou hodotou ěco představt teto prolém řeší charakterstky odvozeé od rozptylu (vz dále). 9
Schematcké příklady týkající se vlastostí rozptylu Zvolíme jedoduchá data v taulce y + 3 + y y z + z 9-7 5 7 3 7 0-4 9 4 5 9-5 5 3 8 7 6 7 5 3 9 var (každá pětce čísel rostoucích/klesajících po jedé má rozptyl rove této hodotě), var y var + 0 8 (rozptyl se měí se čtvercem kostaty k, přčemž kostata c a ěj emá vlv), var( + y ) var + var y + cov y, tj. rozptyl součtu je rove součtu rozptylů zvětšeý o dvojásoek kovarace, z čehož cov y ( 8) 4, var( y ) 8 var + var y cov y, tj. rozptyl rozdílu je rove součtu rozptylů zmešeý o dvojásoek kovarace, z čehož opět cov y (8 8) 4, sloupec z osahuje původí hodoty y v jém pořadí (čímž přestal platt vztah z druhého sloupce, ale var z var y 8 ), pak var( + z ) 7, 6, z čehož cov y (7,6 8), záleží tedy a uspořádáí hodot ve dvojcích, sloučíme-l hodoty prvích dvou sloupců do jedoho souoru, můžeme z těchto 0 hodot určt rozptyl 5,5, což je společý rozptyl, který lze staovt také jako + 8 průměrý rozptyl uvtř dílčích souorů ( 5 + 8 5) 5 (výjmečě př 0 stejém rozsahu postačí prostý průměr), zvětšeý o rozptyl dílčích průměrů kolem společého průměru 0,5 + 0,5 [(4 4,5) 5 + (5 4,5) 5] 0, 5 (opět výjmečě př stejém rozsahu postačí prostý artmetcký průměr). Společý rozptyl 0 je tedy 5 + 0,5 5, 5 (stejý výsledek, jako př výpočtu z původích hodot). Dále se zaměříme a výpočet rozptylu ve vážeé formě. K tomu využjeme příklad a odové tříděí. 0