Obah přednášky 1. Základní pojmy. Jednorozměrné charakteritiky 3. Rozložení 4. Vícerozměrné charakteritiky Jak tručně popat data 5. Hypotézy, tety O kvalitě dat a modelů
Základní a výběrový oubor, pravděpodobnot, věrohodnot Základní oubor (ZS) Pravděpodobnot (P)? Věrohodnot (L) Výběrový oubor???základní oubor??základní oubor? 3
Pravděpodobnot v. věrohodnot Na základě konkrétního výběru lze bez vhodně tanovených omezujících podmínek vyrobit nekonečně mnoho ZS, pro které mohl výběr natat. Pravděpodobnot i věrohodnot jou podmíněné pravděpodobnoti. Zapišme podmíněnou pravděpodobnot takto p(<jev> <předpoklad>). Rozdíl je v tom, co je neznámá; v případě podmíněné pravděpodobnoti je neznámou jev (výběr), v případě věrohodnoti předpoklad (ZS). pravděpodobnot: věrohodnot ZS výběr p výběr ZS = 1 p výběr ZS Pokud je omezen počet ZS, které mohou eitovat, platí, že ZS p výběr ZS = kont., čehož využívá např. zápi Bayeova vzorce bez tzv. evidence = p(výběr), jejíž zjištění vyžaduje velké množtví dat. Další ukázka dále v přednášce u -rozměrných charakteritik družená pravděpodobnot. VIS: vyvětli rozdíl mezi pravděpodobnotí a věrohodnotí 4
Pravděpodobnot v. věrohodnot Pravděpodobnot P (probability) základní výběrový P, že natane právě tento výběr. ΣP = 1 deduktivní charakter Př.: známe základní oubor nebo ytém (hazardní hry) Věrohodnot L (likelihood) výběrový základní L, že výběr pochází právě z tohoto základního ouboru. ΣL = libovolné čílo induktivní charakter Př.: většina případů, pracujeme většími či menšími vzorky, hypotézy o základním ouboru VIS: vyvětli rozdíl mezi pravděpodobnotí a věrohodnotí 5
6 Podmíněná pravděpodobnot Bayeův vzorec Pojmy, Charakteritiky1, Rozložení, Charakteritiky, Hypotézy a tety A p H p H A p H p H A p H p H A p A H p k k K i i i k k k 1 H 1 H H 3 H 4 H 5 A
Proměnná (veličina, atribut) nezávilá, vtupní, vyvětlující, prediktor - závilá, výtupní, vyvětlovaná, cílová veličina - y jednorozměrná vícerozměrná kvalitativní kvantitativní? jaký je rozdíl mezi závilou a vyvětlovanou proměnnou 7
Další pojmy charakteritika (jedno-více rozměrná) hitogram (třídy) rozložení (rozdělení) funkce hutoty pravděpodobnoti ditribuční funkce kvartil, centil, percentil tatitika popiná (charakterizuje větší množtví dat) a induktivní (analýza, z mála vypovídá o celku) variace a kombinace /bez opakování permutace? rozdíl mezi hutotou pravděpodobnoti a ditribuční funkcí, kolik definujeme kvartilů v libovolném rozložení 8
Hitogram jako příznakový vektor Frekvence pímen 16,00% 14,00% Angličtina Francouzština 1,00% 10,00% 8,00% 6,00% 4,00%,00% 0,00% a b c d e f g h i j k l m n o p q r t u v w y z 9
Průměry aritmetický a N vážený. w w w harmonický (průměrná rychlot) geometrický N... g 1 N N h 1 medián (protřední hodnota) modu (nejčetněji zatoupená hodnota) 10
Něco málo z prae Kde je chyba? http://data.idne.cz/g/tudium/infografika_platyab.html, 19..008 11
Co je třední hodnota E()? Střední hodnota = míra polohy, obecný moment prvního řádu, průměr, tzv. očekávaná hodnota, Epectation E(). Očekávaná hodnota je definována jako oučet oučinů všech hodnot D(f) a jejich pravděpodobnoti p(), že budou při náhodném eperimentu pozorovány. E X = p, E X = f d U očekávané hodnoty je předpokládána znalot hutoty pravděpodobnoti nebo frekvenční funkce veličiny. Aritmetický průměr je aproimací třední hodnoty zíkanou z výběrového ouboru. Pravděpodobnot p() nahrazuje četnot nebo rozložení konkrétních hodnot ve výběru. 1
Rozptyl, měrodatná odchylka Rozptyl = variance var( ) N Výběrová variance N 1 Směrodatná odchylka Výběrová měrodatná odchylka N N 1 VIS: jaký je rozdíl mezi tatitickými charakteritikami σ a 13
14 Obecné a centrální momenty Obecný moment (k=1 třední hodnota) Centrální moment (k=1 0; k= rozptyl) Pojmy, Charakteritiky1, Rozložení, Charakteritiky, Hypotézy a tety Q i k i k i f X M d f X M k k Q i k i k i f X E X m d f X E X m k k
pojitá dikrétní Rozložení hutota pravděpodobnoti / frekvenční funkce ditribuční funkce 15
Binomické rozložení Binomické rozložení popiuje pravděpodobnot četnotí (k = 1..n) výkytu jevu A při provedení n pokuů. Binomické rozložení určuje chování znaku A a jeho negace A, znaky dohromady vyplňují celý pravděpodobnotní protor. Jev A natane pravděpodobnotí p A, nenatane prav. 1-p A. Binomické rozložení vyjadřuje pravděpodobnot, že při n pokuech událot A natala -krát a (n-)-krát nenatala. Frekvenční funkce (obdoba funkce hutoty pravděpodobnoti pro dikrétní rozložení) f() n n f p p A 1 A, i 0,1,,..., n 16
Koeficienty binomického rozložení Koeficient binomického rozložení udává počet variací, pro které po provedení n nezávilých eperimentů platí, že ledovaný jev natal právě -krát a n- krát nenatal. f n n p A 1 p Pravděpodobnot natolení jedné variace je rovna p A 1 p A n A http://weball.creo.cz/data/editor/image/ruleta/tematicke/050306a1.gif 17
Grafy binomického rozložení 0.6 pravděpodobnot [-] 0.5 0.4 0.3 0. f n n p A 1 p A pa=0,5 pa=0,3 pa=0,1 pa=0,05 0.1 0 0 1 3 4 5 6 7 8 9 10 11, kolikrát natal jev A [-] 18
Vlatnoti binomického rozložení Binomické rozložení udává, jaká je pravděpodobnot výběrového ouboru bez ohledu na pořadí, v jakém byly prvky výběrového ouboru pořízeny. Binomické koeficienty lze zíkat z tzv. Pacalova či aritmetického trojúhelníku. Střední hodnota = n.p, rozptyl ( ) = n.p.(1-p) Binomické rozložení aproimuje normální rozložení pro p=0,5 a n. Normální rozložení je používáno jako aproimace rozložení binomického pro dotatečně velké p. Poionovo rozložení je používáno pro aproimaci binomického rozložení pro p<0,1 a n>30. Příklad: mince hozena 4-krát, urči pravděpodobnot, že orel padnul maimálně 3-krát. Aproimace normálním rozložením později (ilutrativní příklad, pro n=4 není důvod k aproimaci) 19
Normální rozložení (rozdělení) 1733 Abraham de Moivre, mince od hitogramu ke křivce 18. tol., Gau křivka chyb (geografická měření na základě atronomie) 19. tol. Quetelet [ketəlæ], kotští vojáci 0. tol. Pearon, nenormální rozložení loženo z několika normálních rozložení 0. tol. Eintein: Bůh nehraje v kotky. normální rozložení, zvonovitá křivka, Gauova křivka rozložení chyby, de Moivrova tochatika centrální limitní věta dle Ljapunova (nejobecnější definice) je-li znak určen půobením většího počtu navzájem nezávilých vlivů libovolného rozložení, je výledné rozložení alepoň přibližně normální 0
Centrální limitní věta http://cmp.felk.cvut.cz/~hlavac/public/teachinglecture/
www.am.org
Rogue wave Ne každé rozložení je normální popci.typepad.com Náledující údaje nalezeny cca v roce 008, nedaří e mi však najít zdroj Každý týden e potopí 1 velká loď Každý měíc e potopí jeden tanker delší než 00m 3
Normální rozložení charakterizováno dvěma parametry μ a σ f 1 e F t 1 dt normované normální rozložení normovaná hodnota z pak μ z =0 a σ z =1, jedinou veličinou je z z 4
Normální rozložení odhad chyby (-σ,σ) 68,3% (-σ,σ) 95,0% (-3σ,3σ) 99,7% Jev A natane pravděpod. p A =0,. Provedli jme N=100 pokuů. Odhadněte pomocí normálního rozložení bez tabulek a kalkulačky, jakou pravděpodobnotí p natal jev A během N pokuů méně než 17-krát. Tedy: p(16), E()=N.p, =N.p.(1-p)? kolik procent (celočíelně) předtavují 3 uvedené intervaly (68%,95%,99%) 5
Tabelované hodnoty Tabelované hodnoty mohou vyjadřovat tejnou informaci různou formou. V grafech je ukázka funkce hutoty normálního rozložení a její tabelovaná hodnota pro =1,5. D(z), (z), (-z), * (z) 6
7
X (=etiny 0 1 3 4 5 6 7 8 9 + deetiny) 0,3 0,618 0,6 0,66 0,69 0,633 0,637 0,641 0,644 0,648 0,65 0,4 0,655 0,659 0,663 0,666 0,670 0,674 0,677 0,681 0,684 0,688 0,5 0,691 0,695 0,698 0,70 0,705 0,709 0,71 0,716 0,719 0,7 0,6 0,76 0,79 0,73 0,736 0,739 0,74 0,745 0,749 0,75 0,755 0,7 0,758 0,761 0,764 0,767 0,770 0,773 0,776 0,779 0,78 0,785 0,8 0,788 0,791 0,794 0,797 0,800 0,80 0,805 0,808 0,811 0,813 0,9 0,816 0,819 0,81 0,84 0,86 0,89 0,831 0,834 0,836 0,839 1 0,841 0,844 0,846 0,848 0,851 0,853 0,855 0,858 0,860 0,86 1,1 0,864 0,867 0,869 0,871 0,873 0,875 0,877 0,879 0,881 0,883 1, 0,885 0,887 0,889 0,891 0,893 0,894 0,896 0,898 0,900 0,901 1,3 0,903 0,905 0,907 0,908 0,910 0,911 0,913 0,915 0,916 0,918 1,4 0,919 0,91 0,9 0,94 0,95 0,96 0,98 0,99 0,931 0,93 1,5 0,933 0,934 0,936 0,937 0,938 0,939 0,941 0,94 0,943 0,944 1,6 0,945 0,946 0,947 0,948 0,949 0,951 0,95 0,953 0,954 0,954 1,7 0,955 0,956 0,957 0,958 0,959 0,960 0,961 0,96 0,96 0,963 1,8 0,964 0,965 0,966 0,966 0,967 0,968 0,969 0,969 0,970 0,971 1,9 0,971 0,97 0,973 0,973 0,974 0,974 0,975 0,976 0,976 0,977 Příklad: Pomocí binomického a normovaného normálního rozložení počtěte, jaká je pravděpodobnot, že po 4 hodech mincí padne orel ma 3-krát (zkute pro N = 8 hodů, ma 5-krát; zjitěte přenot aproimace). Binomické rozložení: - Přímo počítat z Pacalova trojúhelníku ( p = 1-p = 0,5 ) Normované normální rozložení: - = N.p, = N.p.(1-p) - převod počtu hodů na normované normální rozložení - odpočet z tabulky
Sdružená pravděpodobnot Mějme náhodné veličiny X={1,,3} a Y={y1,y}. p(x) a p(y) jou pravděpodobnotní funkce veličin X a Y, udávají pravděpodobnot výledků náhodných pokuů. Sdruženou pravděpodobnotí p(x,y) rozumíme pravděpodobnoti výledků kombinací hodnot veličin X a Y. Příklad: V uvedeném příkladu jou veličiny P(X) a P(Y) označovány jako marginální pravděpodobnoti. 9
Sdružená pravděpodobnot Příklad: Spočítejte hodnoty výrazů (družená a podmíněná pravděpodobnot): Rozdíl mezi pravděpodobnotí a věrohodnotí počítejte umy: 30
Vícerozměrné charakteritiky Kovariance jak e hodují veličiny v odchylkách od vé třední hodnoty. Může nabývat záporných, nulových i kladných hodnot. Čím větší abolutní hodnota (pro daný příklad), tím větší lineární závilot. y y n 1 Korelace normovaná kovariance (oběma měrodat. odch.), míra lineární záviloti y y y r y y y y Regree normovaná kovariance, zohledňuje závilot proměnných. r y y y 31
3 Kovariance 1 Pojmy, Charakteritiky1, Rozložení, Charakteritiky, Hypotézy a tety 0 1 3 4 5 6 0 1 3 4 5 6 y 0 1 3 4 5 6 0 1 3 4 5 6 y 0 1 3 4 5 6 0 1 3 4 5 6 y A) B) C) 3 C B A C B A y y y 3,3 C B A C B A y y y 3,3 4 3 yy N y Jak ai vypadají původní data? průměr
Kovariance A) B) C) A y A yy A 3,3 3,3 B y B yy B 3,3 C y C yy C 1 3,3 Ze zadaných dat počítejte rozptyl a kovarianci. 33
Kovariance 3 Kovarianční matice pro veličiny: y y yy y yy y n 1 y y n 1 y y n 1 rozptyl v rozptyl v y kovariance Ze zadané kovarianční matice vypočtěte korelační koeficient. 34
Kovariance 4 Které z kovariančních matic nemohly z dat vzniknout a proč? A) B) C) D) 4 1 4 1 1 1 9 3 3 1 9 5 5 1 NE Rozptyl nemůže být záporný NE Matice není ymetrická (kovariance y a y muejí být tejné) ANO Toto může být kovarianční matice NE Nedefinuje elipu ale hyperbolu, nemohlo vzniknout z naměřených dat (korelace = 5/3 > 1) 35
Vícerozměrné charakteritiky Korelace r y y y y y y Regree y = f() = f(y) r r y y y y y y y y y y y 36
Zdánlivé ouviloti Korelace může být zdánlivá / podmíněná délka ukní v. cena akcií ebevraždy žen po tranplantaci prních implantátů růt platu patora a ceny alkoholu tělené míry občanek BRD černá barva auta je nebezpečnější než barvy otatní (větší riziko nehody) 37
Hypotézy, tety volba H A a H 0 zaleží na řešeném problému chci dokázat H A, ale nelze dokázat přímo (nebo obtížně) zaměřím e na H 0 (doplněk k H A ), kterou lze dokázat hladina významnoti přejímací kontrola (chyba I. a II. druhu) I. druhu = chyba = fale poitive = H 0 zamítáme, i když je platná (a přijímáme H 1 ); P(H 1 H 0 ) II. druhu = chyba = fale negative = H 0 přijímáme, i když je chybná P(H 0 H 1 ) 38
. Tety hypotéz o průměrech a rozptylech H Pojmy, Charakteritiky1, Rozložení, Charakteritiky, Hypotézy a tety H : 0 tet právnoti výledku, hypotéza o rozdílu odhadu třední hodnoty z náhodného výběru a kontanty μ Par.:t-tet, Lordův tet / Nepar.: Wilcoon, Mann-Whitney 0 : A B tet hodnoti výledků; t-tet, Moorův tet / Wilco., M-W H0 : A B Tet hody dvou rozptylů; F-tet ANOVA tety (analýza rozptylu-vychází z předešlých tetů) zda více výběrů pochází ze tejného základního ouboru, tetuje e rozdíl ve třední hodnotě výběrů 39
tet čato používaný a velice jednoduchý tet podle hodnoty e dozvíme, jetli ledovaný příklad padá do % všech náhodných výledků může být příliš velké, ale i podezřele malé Otázka: odpovídá eperimentální rozdělení očekávanému? Odpověď: nulová hypotéza nebyla na hladině % zamítnuta nutné tanovit tupeň volnoti porovnání vypočtené a tabulkové hodnoty podle vzorce E T T E eperiment, pozorování (nutno naměřit) T teoretická, očekávaná (předpoklad) 40
E T T tet - příklad Prověřte H 0 : 1/3 aut jou červené, 1/3 bílé, 1/3 otatní Poku koukám z okna a dělám i čárky : E T /T B 17-5 5 1,14 Č 15-7 49,3 O 34 1 144 6,55 = 9,9 Tvrzení H 0 lze zamítnou na hladině významnoti 0,01. V provozu není třetina aut červený, bílých a otatních. Příklad: Vypočti chí-kvadrát pro zadané hodnoty. Stupeň volnoti = Stupně volnoti 0,05 0,05 0,01 41 0,001 1 3,8 5,0 6,6 7,9 6,0 7,4 9, 10,6 3 7,8 9,3 11,3 1,8 4 9,5 11,1 13,3 14,9 5 11,1 1,8 15,1 16,7
tet příklad zkute i ami Prověřte eperimentálně náledující hypotézu (60 pokuů): H 0 : pravděpodobnoti padnutí číel na kotce jou 1 0, 4 0,3 0, 5 0,1 3 0,1 6 0,1 =? Stupně volnoti =? 4
Příklad: rozhodnutí 3 jinak Máme dva modely M1 a M. Bylo provedeno 40 pokuů, přičemž model M1 byl lepší 5-krát než M. Je to tatiticky významný výledek? 1. Všimněme i, že nevíme o kolik byl lepší (což by ná mohlo vét např. k t-tetu), víme jen, že bylo N pokuů a k-krát byl jeden lepší než druhý.. Potavíme H0 = oba modely jou tejné ; čekali jme, že každý model bude lepší než druhý 0-krát. 3. K poouzení H0 můžeme použít z právě probíraných potupů: binomické rozložení, jeho aproimaci normálním rozložením nebo chí-kvadrát tet. 4. Zeleně jou zvýrazněny tatiticky významné výledky (na hladině 0,05) M1 4 5 6 7 8 9 30 M 16 15 14 13 1 11 10 prum 0 0 0 0 0 0 0 igma 3,16 3,16 3,16 3,16 3,16 3,16 3,16 Chí-q 1,67,67 3,96 5,58 7,6 10,16 13,33 Binom 0,9 0,96 0,98 0,99 1,00 1,00 1,00 Norm 0,90 0,94 0,97 0,99 0,99 1,00 1,00 43
Doporučená literatura [1] SWOBODA H.: Moderní tatitika, Svoboda, 1977. [] ANDĚL, J.: Statitické metody, Matfyzpre Praha, 1993. [3] Meloun M., Militký J.: Kompendium tatitického zpracování dat, Academia 006. [4] Zapletal J.: Základy počtu pravděpodobnoti a matematické tatitiky, kripta VUT. [5] nepřeberné množtví materiálů na internetu 44