P: Statistické zpracováí dat
Úvodem - Statistika: věda, zabývající se shromažďováím, tříděím a ásledým popisem velkých datových souborů. - Základem statistiky je teorie pravděpodobosti, založeá a popisu zákoitostí týkajících se jevů, které mohou a emusí astat. Základí pojmy Statistická jedotka (Statistical uit) zkoumaý objekt Statistický zak (Statistical property) vlastost statistické jedotky. Statistický zak může být dvojího typu, a to kvatitativí a kvalitativí. Kvatitativí zak je možé defiovat prostředictvím číselé hodoty a je možé jej dále rozdělit a spojitý ebo diskrétí. Kvalitativí zak je aproti tomu vlastost, která je popsáa slově.
Základí pojmy Statistický soubor (Statistical dataset) možia zahrující všechy statistické jedotky. V závislosti a tom, kolik zaků u statistické jedotky zjišťujeme, defiujeme -rozměrý statistický soubor. Zjišťujeme-li pouze jede zak (apř. barvu karoserie u automobilu), pak hovoříme o jedorozměrém souboru. Zjišťujeme-li dva zaky, hovoříme o dvourozměrém souboru atd. Základí soubor (Statistical populatio) (hovoříme o populaci) obsahuje všechy statistické jedotky Výběrový soubor (Statistical subpopulatio) (hovoříme o výběru) obsahuje pouze ěkteré statistické jedotky
Rozděleí četostí Absolutí četost (Absolute frequecy) Absolutí četost hodoty zaku i vyjadřuje počet statistických jedotek, kterým přísluší stejá hodota zaku i pro i=,,3,, h. Pro absolutí četost platí: Relativí četost (Relative frequecy) Relativí četost hodoty zaku i je defiováa jako podíl absolutí četosti i hodoty zaku i a rozsahu souboru. Platí: Pro relativí četost f i platí: f h i i i i h i f i
Rozděleí četostí V případě, že pracujeme se spojitými zaky, popřípadě se zaky sice diskrétími, ale s velkým počtem možých variat, je a místě použití itervalového rozděleí četostí, u ěhož staovujeme počet výskytů hodot zaku, které áleží do předem defiovaých itervalů. - Počet itervalů s optimálě v rozmezí 8 0. Možosti určeí s:. Sturgesovo pravidlo: s log kde vyjadřuje počet statistických jedotek.. s 8 00 ma mi 3. s kde vyjadřuje počet statistických jedotek. Délka itervalu je poté rova: h = ma mi k
Charakteristiky statistického souboru charakteristiky polohy (Measures of positio) Mezi charakteristiky polohy řadíme aritmetický průměr, modus, mediá, harmoický a geometrický průměr Aritmetický průměr hodot kvatitativího zaku,,, (Arithmetic mea)... E( ) i V ěkterých případech se rověž používá tz. vážeý aritmetický průměr, kdy každou hodotu zaku ásobíme koeficietem, který většiou reprezetuje počet výskytů daé hodoty (četost):... i i Geometrický průměr hodot kvatitativího zaku,,, (Geometric mea) G
Charakteristiky statistického souboru charakteristiky polohy V prai se rověž používá průměré tempo růstu (average growth rate) jedá se o geometrický průměr podílů hodot za dvě po sobě jdoucí (časová) období: Harmoický průměr hodot kvatitativího zaku,,, (Harmoic mea) Defiová jako podíl rozsahu souboru a součtu převráceých hodot zaku statistického souboru: Harmoický průměr se využívá v případě erovoměrého rozložeí zaku kolem aritmetického průměru ebo v případě etrémě ízkých či vysokých hodot. ń ń G 0 0 i H...
Charakteristiky statistického souboru charakteristiky polohy Modus zaku statistického souboru (Mode of statistical dataset) Modus zaku statistického souboru představuje hodotu, která se v souboru vyskytuje ejčastěji. V případě itervalového rozděleí četostí staovujeme tzv. modálí iterval. Mediá ˆ ~ zaku statistického souboru Mediá zaku statistického souboru představuje prostředí hodotu ze souboru uspořádaého podle velikosti. Jiými slovy, mediá rozděluje statistický soubor a dvě stejě velké části. Kvatily (Quatiles) Kvatily jsou čísla, která dělí soubor seřazeých hodot a ěkolik (zhruba) stejě velkých částí. Kvatil tedy představuje míru polohy rozděleí pravděpodobosti áhodé veličiy. (viz apř. Mediá)
Charakteristiky statistického souboru charakteristiky variability (measures of variability) - Charakteristiky variability ám dávají iformaci o míře odlišosti zaků prvků statistického souboru od zvoleé charakteristiky polohy (středí hodoty), popřípadě od sebe avzájem. - Mezi charakteristiky variability patří variačí rozpětí, rozptyl, směrodatá odchylka, variačí koeficiet a koeficiet korelace Variačí rozpětí (Rage) Variačí rozpětí je ejjedodušší ale zároveň i ejhrubší mírou variability. Je defiováo jako rozdíl mezi ejmeší a ejvětší hodotou zaku: R ma mi Rozptyl a směrodatá odchylka (Variace ad stadard deviatio) Rozptyl a směrodatá odchylka patří mezi míry variability, které jsou, a rozdíl od variačího rozpětí, závislé a všech hodotách statistického souboru. Rozptyl, jiými slovy průměrá kvadratická odchylka a směrodatá odchylka jsou defiováy ásledově (jako přesý parametr populace): i i
Charakteristiky statistického souboru charakteristiky variability Nahlížíme-li a daý soubor jako a výběrový, mluvíme o tzv. výběrovém rozptylu σ resp. výběrové směrodaté odchylce. Pomocí výrazu (-) místo čleu docílíme přesějšího odhadu skutečé hodoty populačího rozptylu, především při výpočtu a základě malých výběrových souborů: i Z obou výpočtů je zřejmé, že rozdíl mezi rozptylem a jedé straě a výběrovým rozptylem a druhé straě je při velkém rozsahu souboru ( > 30) prakticky zaedbatelý. V případě, že statistický zak abývá hodot,,, s četostmi,,,, popřípadě relativími četostmi f i, pak lze rozptyl vypočítat ásledově: i i i i f i
Charakteristiky statistického souboru charakteristiky variability Variačí koeficiet (Coefficiet of variatio) Variačí koeficiet je defiová jako podíl směrodaté odchylky a aritmetického průměru sledovaého zaku : Variačí koeficiet vyjadřuje míru kvality průměru. Koeficiet korelace (Correlatio coefficiet) Koeficiet korelace popisuje míru závislosti dvou zaků a y. Platí: k r y kde k i yi y Aby defiice měla smysl, musí být směrodaté odchylky růzé od uly (platí v případě, že zaky a y ejsou kostatí).
Literatura [] Litschmaová, M.: Úvod od Statistiky, elektroický učebí tet dostupý a adrese: http://mi.vsb.cz/sites/mi.vsb.cz/files/uit/uvod_do_statistiky.pdf [] Fajom, B.: Úvod do statistiky, elektroický učebí tet dostupý a adrese: http://www.rozhovor.cz/ma+fy/statistika.pdf [3] Wikipedie - https://cs.wikipedia.org/wiki/chyby_typu_i_a_ii#chyba_typu_i [4] http://www.george.eu/matematika/claky/rozptyl.pdf [5] http://www.ef.jcu.cz/~birom/stat/predasky/09.pdf [6] https://cit.vfu.cz/stat/fvl/teorie/pred/variabil.htm Study materials i Eglish https://www.csu.edu/crsc/evets/ugw06/presetatios/scheywar/fialudergrad.pdf http://www.mv.helsiki.fi/home/jmisotal/bos.pdf https://www.khaacademy.org/math/probability