Popé (derptví) metody Číme závěry pouze z určtého zpracovávaého ouboru výběrového, popujeme je to, co bylo zjštěo, bez zobecňováí Stattcé metody a zpracováí dat II. Popé tattcé metody Petr Dobrovolý Derptví metody:. přehledé vyjádřeí výledů pomocí četotích tabule a grafů. Výpočty a grafcé zázorěí záladích popých tattcých charatert Popá tatta polečě tzv. eploračí (průzumovou) aalýzou dat obvyle tvoří počáte vlatí tattcé aalýzy. Rozděleí četotí Stattcé údaje jedotlvých tattcých ouborů pro další zpracováí upořádáváme U jedote tattcého ouboru můžeme a záladě vattatvích hodot zjšťovat jejch četot frevec. Četot - počet prvů e tejou hodotou tattcého zau Používáme ho pro epojté zay a př malém počtu varat (počet čleů domácot). Přílad: U 0 áhodě vybraých domácotí byl ledová počet čleů domácot:,,,,,,,,,,,,,,,5,,,, Počet čleů četot 6 5 5 Supové rozděleí četotí Pro pojté zay udáváme počet prvů hodotam zau patřícím do určtého tervalu (třídy). Jedoty tattcého ouboru roztřídíme podle velot do ěola tervalů. Dolí a horí hrace (mez) tervalu udává, jaou ejmeší a ejvětší hodotu zau do daého tervalu zařadíme. Déla č šířa tervalu je ladý rozdíl dvou po obě áledujících dolích (horích) mezí. Krají terval může být otevřeý (euzavřeý). U upového rozděleí četotí zatupuje hodoty zau třed tervalu ( ). Supové rozděleí četotí Záady pro taoveí hrac tervalů: aždý terval je urče horí a dolí hrací aždý terval muí být vymeze ta, abychom mohl aždý prve jedozačě zařadt tervaly e emí přerývat má-l být rozděleí četotí použto výpočtu dalších tatt, muí mít tervaly tejou šířu šířa tervalu emí být velá aby eetřela zvláštot rozděleí hodot, ale a malá aby evzlo více tervalů ulovou četotí (optmum 5 0). počty tervalů (m) lze určovat ubjetvě pomocí vzorců: m m 5 log Sturgeovo pravdlo m +, log 0 ()
Četot abolutí relatví umulovaé Iterval hodot Četot Kumulovaá dolí mez horí mez třed abolutí relatví abolutí relatví 7,0 7,50 7,5 6 0,07 6 0,07 7,5 8,00 7,75 7 0,0 0,059 8,0 8,50 8,5 0,00 5 0,58 8,5 9,00 8,75 0,9 68 0,08 9,0 9,50 9,5 0,86 09 0,9 9,5 0,00 9,75 9 0, 58 0,75 0,0 0,50 0,5 0 0,8 98 0,896 0,5,00 0,75 5 0,068 0,96,0,50,5 8 0,06,000 Suma Vícerozměré rozděleí četotí tříděí e realzuje podle dvou č více zaů tzv. ombačí tabula louží e zoumáí závlotí tudovaých zaů (orelačí tabula) poud zay abývají pouze dvou hodot - aocačí tabula Grafcé zázorěí rozděleí četotí Htogram Pravoúhlá outava ouřadc, oa tervaly hodot zau, oa y četot hodot Htogram typ loupového dagramu Polygo pojcový dagram Čára umulovaých četotí oučtová čára, četot vyášíme horí hrac tervalu Graf relatvích umulovaých četotí umožňuje odvozeí vatlů Polygo Součtová čára Četot 50 0 0 0 0 0 7,50 8,00 8,50 9,00 9,50 Htogram 0,00 Třídy 0,50,00,50 Specálí typy četotího zpracováí - Věová trutura obyvatel (trom žvota) 00,00% 80,00% 60,00% 0,00% 0,00%,00% Četot Kumul. % Popá tatta K čemu je to dobré? jedoduše popat chováí tattcého ouboru dat (odezace dat) porovat více ouborů mez ebou Jedoduchý přílad: Vythout průměrou teplotu vzduchu loalty za určté období Složtý přílad: Vythout průměré chováí ldí aupujících vurčtém upermaretu
Záladí tattcé charaterty Charaterty úrově Charaterty varablty Charaterty aymetre Charaterty špčatot Výchozí data způob výpočtu z reálých hodot ze upového rozděleí četotí (reálé hodoty eupeé do tervalů) Charaterty úrově (tředí hodoty, míry polohy, míry cetrálí tedece) Jedá e o číla, terá reprezetují jedotlvé hodoty tattcého zau, udávají polohu, charaterzují obecou velot jevu. Artmetcý průměr úhr hodot vattatvího tattcého zau děleý rozahem ouboru. Stattcý za X abývá hodot,,. Artmetcý průměr bude: Vlatot artmetcého průměru Vlatot artmetcého průměru oučet ladých odchyle e rová oučtu odchyle záporých uma čtverců odchyle od průměru je vždy meší ež uma čtverců odchyle od jaéolv jé hodoty přčteme-l e všem hodotám zau otatu, průměr e zvětší o tuto otatu záobí-l e všechy hodoty zau otatou, průměr e -rát zvětší průměr oučtu dvou proměých e rová oučtu obou průměrů Geometrcy lze artmetcý průměr předtavt jao těžště. Průměr muí být typcý (větša hodot je blízá průměru). Typcý je tehdy, blíží-l e ejčetější hodotě. Aby artmetcý průměr vhodě vythoval úroveň tudovaého ouboru rozděleí hodot zau muí být jedovrcholové. Artmetcý průměr má myl je tehdy, jetlže má ějaý myl oučet hodot. Průměr, poud je uvedeý amotý, může být lě zavádějící. Artmetcý průměr Sládá-l e oubor z up o rozazích průměry platí pro celový průměr ouboru: Vážeý artmetcý průměr + + +... + + +... Vážeý artmetcý průměr Přílady použtí: výpočtu artmetcého průměru z rozděleí četotí hlazováí čaových řad výpočet možtví tudovaého prvu v ploše (váha plocha území v rozmezí tervalu zolí výpočet průměré deí teploty vzduchu 50 0 0 0 0 0 96 966 97 976 98 986
Geometrcý průměr -tá odmoca ouču z řady hodot zau. Používá e u ouborů, jejchž hodoty tvoří geometrcou poloupot. Protý geometrcý průměr Vážeý geometrcý průměr... g gv... Použtí: počítá e pouze z hodot, teré jou ladé v případě, dy má myl ouč hodot tudovaého jevu určeí tzv. tempa růtu v čaových řadách. obvyle e používá pro velčy měřeé a logartmcé tupc. Geometrcý průměr - přílad Růt ce určtého zboží byl potupě 0 %, 0 %, poté 5 % pole a 0 % růt. Potom průměrý růt je rove (,0,0 0,85,0) /,05, tz. průměrý růt je přblžě 5, %. Koefcety růtu produce závodu pro jedotlvá období: gv období 996-00 00/00 00-005 006/005 Σ ročí oef. růtu,0,07,05,0 počet roů ( ) 5...,0,07,05,0,06 5 0 Průměrý oefcet růtu produce závodu za poledích 0 roů je,6% Geometrcý průměr - přílad použtí: Nalezeí průměrého přírůtu obyvatel, dy populace a určté ploše rote geometrcy čaový oamž počet jedců t 000 t 9 000 t 7 000 Geometrcý průměr je vhodý pro použtí v tuacích, dyž je rozděleí hodot aymetrcé a logartmcá traformace jej opět vrací ymetr. Harmocý průměr Počet jedote ouboru děleý oučtem recproých hodot. Používá e pro charaterzováí průměré rychlot změy popu teztích uazatelů. Protý harmocý průměr Vážeý harmocý průměr h + + +... hv Používá e tam, de má myl čítat převráceé hodoty. Harmocý průměr přílady použtí Výpočet celové průměré rychlot dojíždějících do cetra. Vzhledem rozdílé dopraví proputot, průměrá rychlot e výrazě měí a jedotlvých úecích cety. K výpočtu celové průměré rychlot je pa vhodější využít harmocého průměru Harmocý průměr přílady použtí Přílad : Určeí průměré rychlot tzv. geotrofcého větru ze vzdáleotí dvou zobar Dotupot míta: z bodu A.. 0 m. z bodu B.. 0 m. z bodu C.. 6 m. h + + +... + + 0 m 5 5
Kvadratcý průměr Protý vadratcý průměr Vážeý vadratcý průměr + + +... + + +... v + +... Nahrazuje dvduálí hodoty řady ta, že e eměí oučet jejch čtverců Modu ˆ Nejčetější (typcá) hodota vattatvího zau tudovaého ouboru U rozděleí četotí modálí terval záví a šířce tervalů (ubjetví vlv modu je etablí hodota). V grafu frevečí fuce je modu hodota, ve teré tato doahuje vrcholu. Má velý výzam u epojtých velč a u valtatvích zaů. Umožňuje popovat omálí data (Auto je ejčatěj využívaým dopravím protředem). Poud hodoty zau ejou tejé, potom platí: < < < h g Modu - přílad použtí: Určeí domatí třídy v rámc tudovaé plochy Artmetcý průměr: Modu: Modu - vlatot: Něterá rozděleí mohu mít více modů apř. bmodálí. Taovéto oubory mají dva mody. A ebo žádá hodota emuí domovat. Výhodé je použtí modu př porováí ouborů, poud jde o typcé hodoty zau. Výpočet modu z rozděleí četotí: ˆ L + h + de L je dolí hrace modálího tervalu, h je šířa modálího tervalu je četot tervalu předcházejícího před modálím tervalem a četot tervalu áledujícího za modálím Medá ~ Medá je prve řady, upořádaé v eleajícím pořadí, terý j dělí ta, že polova prvů má hodotu větší, druhá polova větší, ež je hodota medáu. Medá eí ovlvě etrémím hodotam, ale jejch počtem. Porováím medáu dvou ouborů lze zíat formac o tedec vyššímu (žšímu) výytu etrémích hodot. Nědy lépe charaterzuje úroveň ouboru ež průměr. Lze ho taovt z řady upořádaých hodot a ebo ho určt zrozděleí četotí. Kvatly Medá dělí tattcý oubor a polovy. Aalogcým děleím ouboru a více čátí zíáme vatly ( vartly, decly percetly) Dolí vartl Horí vartl ~ 5 ~ Medá vatty lze ado určt z čáry umulovaých četotí 75 Geografcý medá le rozdělující plochu, a íž e vyytuje tudovaý jev a dvě čát, ta aby hodota jevu byla v obou čátech tejá. 5
Artmetcý třed Artmetcý průměr m. a ma. hodoty zau. Etrémy e čato začě lší od otatích hodot jou etypcé, čato ahodlé, mají vša výzam amy o obě. ma + m t Ueutý (trmmed) průměr u~ ~ ~ 0,5 + u0,5 + u u T ~ 0, 75 Použtí měr cetrálí tedece Artmetcý průměr použjeme: pro data tervalová a poměrová, e pro data ategorálí je-l rozděleí ymetrcé hodláme-l použít tattcých tetů Medá použjeme v případech, dy: data jou zíáa mmálě vordálím měřítu chceme zát třed rozděleí dat data mohou obahovat odlehlé hodoty je-l rozděleí lě zešmeé Modu použjeme v případech, dy: data jou zíáa mmálě v ordálím měřítu má-l rozděleí více vrcholů chceme-l o rozděleí zíat je záladí přehled mííme-l lovem průměrý ejčatější hodotu Krtéra pro výběr ejvhodější míry úrově Záví a těchto fatorech vlatotech použté míry úrově typu řešeé úlohy typu rozložeí dat Omezeí měr úrově Omezeí počívají v porováváí průměrů dvou výběrových ouborů bez ohledu a tvar rozložeí. Dva oubory e hodou hodotou artmetcého průměru mohu mít zcela odlšé rozložeí hodot. Je uté uvažovat taé charaterty popující míry promělvot a ocetrace olem tředí hodoty Charaterty varablty Popují tupeň promělvot tattcého zau v daém tattcém ouboru. Vypovídají taé o tom, ja dobře vythuje použtá míra úrově jedotlvé hodoty ouboru. Míry varablty založeé a vybraých hodotách zau v ouboru založeé a všech hodotách zau v ouboru Charaterty varablty Varačí rozpětí R ma m Kvatlové odchyly ladé odchyly jedotlvých vatlů (vartlová, declová, percetlová odchyla). Kvartlová odchyla Q ( ~ ~ ) + ( ~ ~ ) ~ ~ 75 5 75 5 Varačí rozpětí a vatlové odchyly ejou založey a všech hodotách tudovaého ouboru eberou tedy ohled a rozděleí hodot Průměré odchyly Jou defováy jao artmetcý průměr abolutích odchyle jedotlvých hodot zau od tředí hodoty. Abolutí hodota odtraňuje ompezac ladých a záporých odchyle. Uazují a odlšot prvů od tředí hodoty. d Průměrá odchyla od průměru Zrozděleí četotí e průměrá odchyla od průměru počítá formou vážeého artmetcého průměru abolutích odchyle jao váhy e používají četot : d 6
Středí dferece Artmetcý průměr abolutích hodot všech možých vzájemých rozdílů jedotlvých hodot tudovaého zau. Je vhodou mírou varablty zau u ouborů malým rozahem. j ( ) j Nejpoužívaější míry varablty jou založey a všech hodotách ouboru Rozptyl Je defová jao průměr ze čtverců odchyle jedotlvých hodot zau od jejch artmetcého průměru: ( ) Rozptyl měří velot promělvot, avša v jedotách čtverců odchyle. Výpočet rozptylu ze upového rozděleí četotí: ( ) de jou tředy tervalů a je počet tervalů. Směrodatá odchyla ( ) Druhá odmoca z rozptylu. Je vyjádřeím promělvot v jedotách původích dat. Je abolutí mírou varablty. Máejvětší použtí pro porováí promělvot více ouborů. Má velý výzam pro vymezeí třídích tervalů za předpoladu ormálího rozděleí. Výpočet měrodaté odchyly ze upového rozděleí četotí: ( ) Vlatot rozptylu a měrodaté odchyly Rozptyl hodot zau v celém ouboru e rová oučtu artmetcého průměru upových rozptylů a rozptylu upových průměrů. Přdáím otaty jedotlvým zaům e jejch rozptyl a měrodatá odchyla eměí. Náobíme-l jedotlvé zay otatou, jejch rozptyl je áobe čtvercem této otaty a měrodatá odchyla je áobea touto otatou. Náobíme-l váhy otatou, rozptyl a měrodatá odchyla e eměí. (Modface výpočtu rozptylu a měrodaté odchyly pro záladí oubor vz. odhady parametrů) Varačí oefcet Nejpoužívaější relatví míra promělvot. Poměr měrodaté odchyly průměru (měrodatá odchyla vyjádřeá v procetech průměru): v 00 Slouží porováí promělvot více ouborů o etejé úrov (průměru). Přílad: Charaterty aměřeé a dvou objetech mají tejou měrodatou odchylu avša výrazě jý artmetcý průměr hodot. Charaterta Stace č. Stace č. X 6 56 X 8 58 X 0 60 X 6 X5 6 66 X6 8 68 Artmetcý průměr,67 6,67 Směrodatá odchyla,, Varačí oefcet 9,5 7,5 7
Charaterty aymetre - šmot (SKEWNESS) Charaterzují eouměrot rozděleí četotí. Dávají předtavu o tvaru rozděleí. Míry šmot založeé a varačím rozpětí Míry šmot založeé a rozpětí vatlů Koefcet aymetre α Artmetcý průměr z třetích moc odchyle jedotlvých hodot zau od artmetcého průměru vyjádřeých v jedotách měrodaté odchyly. Pro deálě ymetrcé rozděleí abývá hodoty 0. Ze upového rozděleí četotí e oefcet aymetre vypočte: α ( ) ( ) Umožňuje objetví porováí dvou htogramů. Koefcet aymetre α Podle hodoty oefcetu aymetre rozlšujeme rozděleí ouměré α 0 ešmeé doprava (záporá aymetre) α < 0 ešmeé doleva (ladá aymetre) α > 0 Charaterty špčatot (KURTOSIS) Popují ocetrac prvů ouboru v blízot určté hodoty zau. Dávají předtavu o rozděleí ohledem a jeho špčatot č plochot. Vyšší hodoty charatert špčatot mají oubory, u terých jou prvy ouboru více ocetrováy olem uvažovaé hodoty zau. Míra ocetrace olem medáu ma K ~ ~ 75 m 5 Koefcet špčatot (ece) ε Průměrá hodota oučtu čtvrtých odmoc odchyle hodot zau od průměru měřeých v jedotách měrodaté odchyly. Jedá e o bezrozměré čílo. Ze upového rozděleí četotí e oefcet špčatot vypočte: ε ( ) Špčatot (rep. plochot) rozděleí je tím větší, čím více e hodota ε odlšuje od uly. Koefcet špčatot (ece) ε Podle hodoty oefcetu špčatot rozlšujeme rozděleí. ladě zašpčatělé (špčaté) ε > 0. ormálě zašpčatělé ε 0. záporě zašpčatělé (ploché) ε < 0 Obě uvedeé míry dávají formac o tom, do jaé míry e rozděleí tudovaého ouboru lší od ormálího. Mají využtí v aplacích tzv. parametrcých tetů. 8
Průzumová aalýza dat (EDA - Eploratory Data Aaly) Souhr metod popé tatty, teré předchází vlatímu tattcému zpracováí. Cílem je ověřt ěteré vlatot vtupího datového ouboru, teré jou ezbytým předpolady pro vlatí tattcé metody zpracováí. EDA e zaměřuje a grafcé a tabelačí zázorňováí dat Každá aalýza by měla začíat pečlvým zoumáím trutury dat Průzumová aalýza dat (EDA - Eploratory Data Aaly) EDA zahruje především: výpočet charatert úrově a varablty aalýzu odlehlých hodot tudum htogramu cílem ověřeí ormalty rozděleí otruc grafů ověřeí homogety vtupích dat ověřeí tacoarty vtupích dat Výledem EDA je závěr o evet. potřebě traformace vtupích dat Traformace dat Krabcový graf (Bo plot) Cíle: úprava dat pro áledou aalýzu, plěí požadavů ěterých tattcých metod, zjedodušeí výpočtu, fučí traformace tadardzace traformace do pořadí traformace a percetly, Krabcový graf porováí více ouborů 9