Pravděpodobnost a statistika - absolutní minumum



Podobné dokumenty
z možností, jak tuto veličinu charakterizovat, je určit součet

1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.

17. Statistické hypotézy parametrické testy

1. Základy počtu pravděpodobnosti:

Cvičení 3 - teorie. Teorie pravděpodobnosti vychází ze studia náhodných pokusů.

Deskriptivní statistika 1

Odhad parametru p binomického rozdělení a test hypotézy o tomto parametru. Test hypotézy o parametru p binomického rozdělení

Seznámíte se s pojmem Riemannova integrálu funkce jedné proměnné a geometrickým významem tohoto integrálu.

Pravděpodobnost a aplikovaná statistika

Matice. nazýváme m.n reálných čísel a. , sestavených do m řádků a n sloupců ve tvaru... a1

12. N á h o d n ý v ý b ě r

Matematika I. Název studijního programu. RNDr. Jaroslav Krieg České Budějovice

1. K o m b i n a t o r i k a

P2: Statistické zpracování dat

ZÁKLADNÍ STATISTICKÉ VÝPOČTY (S VYUŽITÍM EXCELU)

6 Intervalové odhady. spočteme aritmetický průměr, pak tyto průměry se budou chovat jako by pocházely z normálního. nekonečna.

u, v, w nazýváme číslo u.( v w). Chyba! Chybné propojení.,

Náhodný výběr 1. Náhodný výběr

odhady parametrů. Jednostranné a oboustranné odhady. Intervalový odhad střední hodnoty, rozptylu, relativní četnosti.

Statistika. Statistické funkce v tabulkových kalkulátorech MSO Excel a OO.o Calc

2 EXPLORATORNÍ ANALÝZA

Měřící technika - MT úvod

jako konstanta nula. Obsahem centrálních limitních vět je tvrzení, že distribuční funkce i=1 X i konvergují za určitých

Úvod do zpracování měření

MATEMATIKA PŘÍKLADY K PŘÍJÍMACÍM ZKOUŠKÁM BAKALÁŘSKÉ STUDIUM MGR. RADMILA STOKLASOVÁ, PH.D.

1 POPISNÁ STATISTIKA V PROGRAMU MS EXCEL

Testy statistických hypotéz

Mezní stavy konstrukcí a jejich porušov. Hru IV. Milan RůžR. zbynek.hruby.

Odhady parametrů 1. Odhady parametrů

Test dobré shody se používá nejčastěji pro ověřování těchto hypotéz:

STATISTIKA. Statistika se těší pochybnému vyznamenání tím, že je nejvíce nepochopeným vědním oborem. H. Levinson

DISKRÉTNÍ MATEMATIKA PRO INFORMATIKY

Základy statistiky. Zpracování pokusných dat Praktické příklady. Kristina Somerlíková

Závislost slovních znaků

Statistika je vědní obor zabývající se zkoumáním jevů, které mají hromadný charakter.

Odhady parametrů polohy a rozptýlení pro často se vyskytující rozdělení dat v laboratoři se vyčíslují podle následujících vztahů:

IV-1 Energie soustavy bodových nábojů... 2 IV-2 Energie elektrického pole pro náboj rozmístěný obecně na povrchu a uvnitř objemu tělesa...

2. Definice plazmatu, základní charakteristiky plazmatu

Matematika 1. Katedra matematiky, Fakulta stavební ČVUT v Praze. středa 10-11:40 posluchárna D / 13. Posloupnosti

Test hypotézy o parametru π alternativního rozdělení příklad

Pro statistické šetření si zvolte si statistický soubor např. všichni žáci třídy (několika tříd, školy apod.).

vají statistické metody v biomedicíně

veličiny má stejný řád jako je řád poslední číslice nejistoty. Nejistotu píšeme obvykle jenom jednou

13 Popisná statistika

vají statistické metody v biomedicíně Literatura Statistika v biomedicínsk nském výzkumu a ve zdravotnictví

Pevnost a životnost - Hru III 1. PEVNOST a ŽIVOTNOST. Hru III. Milan Růžička, Josef Jurenka, Zbyněk Hrubý.

Náhodu bychom mohli definovat jako součet velkého počtu drobných nepoznaných vlivů.

6. Posloupnosti a jejich limity, řady

i 1 n 1 výběrový rozptyl, pro libovolné, ale pevně dané x Roznačme n 1 Téma 6.: Základní pojmy matematické statistiky

2. Znát definici kombinačního čísla a základní vlastnosti kombinačních čísel. Ovládat jednoduché operace s kombinačními čísly.

3. Charakteristiky a parametry náhodných veličin

3. Lineární diferenciální rovnice úvod do teorie

KABELY. Pro drátové okruhy (za drát se považuje i světlovodné vlákno): metalické kabely optické kabely

2. Náhodná veličina. je konečná nebo spočetná množina;

Cvičení 6.: Výpočet střední hodnoty a rozptylu, bodové a intervalové odhady střední hodnoty a rozptylu

1. ZÁKLADY VEKTOROVÉ ALGEBRY 1.1. VEKTOROVÝ PROSTOR A JEHO BÁZE

Přednáška VI. Intervalové odhady. Motivace Směrodatná odchylka a směrodatná chyba Centrální limitní věta Intervaly spolehlivosti

Cvičení z termomechaniky Cvičení 5.

1. Základy měření neelektrických veličin

Popisná statistika. Zdeněk Janák 9. prosince 2007

Matematická analýza I

n=1 ( Re an ) 2 + ( Im a n ) 2 = 0 Im a n = Im a a n definujeme předpisem: n=1 N a n = a 1 + a a N. n=1

- metody, kterými lze z napozorovaných hodnot NV získat co nejlepší odhady neznámých parametrů jejího rozdělení.

Pravděpodobnost a statistika Výpisky z cvičení Ondřeje Chocholy

1. Nakreslete všechny kostry následujících grafů: nemá žádnou kostru, roven. roven n,

Cvičení 6.: Bodové a intervalové odhady střední hodnoty, rozptylu a koeficientu korelace, test hypotézy o střední hodnotě při známém rozptylu

Regulace frekvence a velikosti napětí Řízení je spojeno s dodávkou a přenosem činného a jalového výkonu v soustavě.

je konvergentní, právě když existuje číslo a R tak, že pro všechna přirozená <. Číslu a říkáme limita posloupnosti ( ) n n 1 n n n

Dynamická pevnost a životnost Statistika

Statistika pro metrologii

PRAVDĚPODOBNOST A STATISTIKA

Intervalové odhady parametrů

6. T e s t o v á n í h y p o t é z

Ilustrativní příklad ke zkoušce z B_PS_A léto 2013.

Přednášky část 7 Statistické metody vyhodnocování dat

Ilustrativní příklad ke zkoušce z B_PS_A léto 2014.

TESTOVÁNÍ STATISTICKÝCH HYPOTÉZ

Číselné charakteristiky náhodných veličin

Číslicové filtry. Použití : Analogové x číslicové filtry : Analogové. Číslicové: Separace signálů Restaurace signálů

Matematika 1. Ivana Pultarová Katedra matematiky, Fakulta stavební ČVUT v Praze. středa 10-11:40 posluchárna D Posloupnosti

1. Pravděpodobnost a statistika (MP leden 2010)

ÚLOHA ČÍNSKÉHO LISTONOŠE, MATEMATICKÉ MODELY PRO ORIENTOVANÝ A NEORIENTOVANÝ GRAF

Intervalové odhady parametrů některých rozdělení.

Obsah. 1 Mocninné řady Definice a vlastnosti mocninných řad Rozvoj funkce do mocninné řady Aplikace mocninných řad...

Katedra pravděpodobnosti a matematické statistiky. χ 2 test nezávislosti

je konvergentní, právě když existuje číslo a R tak, že pro všechna přirozená <. Číslu a říkáme limita posloupnosti ( ) n n 1 n n n

0. 4b) 4) Je dán úhel Urči jeho základní velikost a převeď ji na radiány. 2b) Jasný Q Q ZK T D ZNÁMKA. 1. pololetí

Úvod do lineárního programování

ZÁKLADNÍ POJMY OPTIKY

PRAVDĚPODOBNOST ... m n

Analýza a zpracování signálů. 3. Číselné řady, jejich vlastnosti a základní operace, náhodné signály

Pravděpodobnost a aplikovaná statistika

Teoretická rozdělení

Petr Šedivý Šedivá matematika

III/2 Inovace a zkvalitnění výuky prostřednictvím ICT

PRAVDĚPODOBNOST A STATISTIKA. Náhodná proměnná vybraná rozdělení

4. B o d o v é o d h a d y p a r a m e t r ů

n=0 a n, n=0 a n = ±. n=0 n=0 a n diverguje k ±, a píšeme n=0 n=0 b n = t. Pak je konvergentní i řada n=0 (a n + b n ) = s + t. n=0 k a n a platí n=0

Parametr populace (populační charakteristika) je číselná charakteristika sledované vlastnosti

procesy II Zuzana 1 Katedra pravděpodobnosti a matematické statistiky Univerzita Karlova v Praze

Transkript:

Pravděpodobost a statistika - absolutí miumum Jaromír Šrámek 4108, 1.LF, UK

Obsah 1. Základy počtu pravděpodobosti 1.1 Defiice pravděpodobosti 1.2 Náhodé veličiy a jejich popis 1.3 Číselé charakteristiky 1.3.1 Kvatily 1.3.2 Středí hodota 1.3.3 Rozptyl a směrodatá odchylka 1.4. Některá důležitá rozděleí 1.4.1 Biomické rozděleí 1.4.2 Poissoovo rozděleí 1.4.3 Expoeciálí rozděleí 1.4.4 Normálí rozděleí 2. Základy statistiky 2.1 Základí pojmy, metody výběru 2.2 Typy dat 2.3 Prezetace dat 2.4 Sipmsoův paradox 3. Testováí hypotéz 3.1 Základí pojmy 3.2 t-test 3.3 χ 2 test dobré shody 4. Použitá literatura

1.1 Defiice pravděpodobosti 1.Základy počtu pravděpodobosti Teorie pravděpodobosti doprovází člověka sad od epaměti. Vždyť její ejvětší aplikací byly hazardí hry. Nicméě teorií pravděpodobosti začse al výzaměji zabývat až Blais Pascal v 17. století. Shrutí a formalizaci provedl Pierre Simo de Laplace v díle Essai Philosophique sur les Probabilités (1814). Říká se, že šlo o zakázku jistého šlechtice toužícího zbohatout a hazardu. Právě od Laplacea pochází tzv. klasiká defiice pravděpodobosti: Může-li ějaký jev vykázat N vzájemě se vylučujících stejě možých výsledků a má-li m z těchto výsledků za ásledek realizaci jevu A a -m výsledků teto jev vylučuje, pak pravděpodobost jevu A položíme: P A = m (1.1) Je jasé, že ejde o defiici v pravém slova smyslu, ale pro řešeí základích úloh zcela postačuje. Neřeěitelým problémem je z hlediska této defiice asymetrická kostka. Určitým zobecěím je geometrická pravděpodobost, kdy je v klasické defiici ahraže počet ějakou geometrickou mírou délkou, plochou, objemem. V situaci, kdy chceme pravděpodobostí počet uchopit poěkud exaktěji, je uté pravděpodobost zavést jiak. Pro ematematika hůře uchopitelá, icméě další úvahy podstatá, je axiomatická defiice pravděpodobosti (A.N.Kolgomorov, 1924): Pravděpodobostím modelem azveme trojici (Ω,, P), kde: 1. Ω je všech růzých, vzájemě se vylučijících výsledků. Její prvky azýváme elemetárí jevy. 2. je taková možia podmožiω, pro iž platí: a) Ω b) je-li A, potom i A C = Ω - A c) jsou-li A1, A2,..., potom je li Ai Prvky možiy azveme jevy. 3. P je fukce z do <0,1> taková, že platí: a) P(Ω) = 1 b) P(A C ) = 1 P(A) pro všecha A c) P( Ai) = P(Ai) pokud jsou všecha Ai disjuktí. Fukci P azveme pravděpodobostí mírou ebo krátce pravděpodobostí.

1.2 Náhodé veličiy a jejich popis Náhodá veličia je de facto fukce zobrazující z Ω do R, která musí splňovat jisté podmíky. Klasickým příkladem je přiřazeí čísel straám kostky podle počtu teček. Jiým vhodým příkladem je pohyb ručky měřícího přístroje áhodému jevu "výchylka ručky" přiřadíme hodotu "veličia odečteá a stupici".i takto e zcela korektě zavedeá áhodá veličia je velmi důležitá a vlastě se jako červeá it bude viout téměř celým textem. Distribučí fukce áhodé veličiy X je taková reálá fukce F(t) defiovaá pro každé t R, pro kterou platí: F t =P [ X,t ]=P [ X t ] (1.2) Slovy vztah 1.2 říká, že distribučí fukce je taková fukce, která udává, s takou pravděpodobostí abývá áhodá veličia hodoty ejvýše t. Každou distribučí fukci má ěkteré důležité vlastosti: 1. F t 0,1 2. F je eklesající 3. lim t 4. lim t F t =0 F t =1 poz.:jako syoymum k pojmu se distribučí fukce se používá pojem rozděleí áhodé veličiy. Diskrétí rozděleí je takové, že existuje koečá ebo ejvýše spočetá možia reálých čísel {t1, t2,...} taková, že pro každé ti je P[X = ti] = pi > 0. Distribučí fukce je pak dáa součtem všech pi s ti meším ebo rovým daému t. Jde tedy o áhodý děj abývající koečého (ebo spočetého) počtu hodot. Příkladem může být házeí kostkou, ruleta ebo losováí Sportky. Fukci defiovaou vztahem P(t) = P[X = t] (1.3) azveme pravděpodobostí fukcí áhodé veličiy X. Pravděpodobostí fukce má ěkteré zajímavé vlastosti: 1. P[X = a] = P(a) 2. P[X < a] = F(a) - P(a) 3. P[X a] = F(a) 4. P[X > a] = 1 - F(a) 5. P[X a] = 1 F(a) + P(a) Absolutě spojité rozděleí áhodé veličiy X je takové rozděleí, pro jehož distribučí fukci F(t) existuje ezáporá reálá fukce f(t) taková, že pro všecha x R platí: x F x = f t dt (1.4) Fukci f(t) azvemehustotou pravděpodobosti ebo krátce je hustotou. A jaká tedy je spojiá áhodá veličia? Obecě taková, jejíž hodota může abývat všech reálých čísel ebo všech hodot z ějakého itervalu reálých čísel. Pro praktické užití se uvažuje i u hodot, které jsou pricipiálě kvatovaé (laboratorí výsledky). Za předpokladu spojitosti F(t) platí: df x f x = (1.5) dx

Pro určeí pravděpodobosti kokrétích jevů lze použít ásledující vztahy: 1. P[X = a] = 0 2. P[X < a] = P [X a] = F(a) 3. P[X > a] = P [X a] = 1 F(a) 4. P[a < X < b] = P[a X b] = F(b) F(a) Na závěr by bylo vhodé se zmíit o tom, že existují i smíšeá rozděleí, tedy taková rozděleí, jejichž distribučí fukci lze vyjádřit jako součet spojité a diskrétí složky. Taková fukce by popisovala apř. situaci, kdy je určitá část výrobků vadých ihed po vyrobeí a zbytek výrobků má životost určeou ějakým rozděleím. Obvykle se však takové případy uvažují odděleě. 1.3 Číselé charakteristiky Pro popis áhodého děje je ejpřesější distribučí ebo pravděpodobostí (resp. hustotí) fukce. Protože jde ale o rovici, emá pro většiu lidí valou vypovídací hodotu. Pro hrubou charakteristiku (a ěkdy i hrubou deziformaci) jsou ejvhodbější číselé ukazatele. 1.3.1 Kvatily Nejdříve defiice: Nechť je α (0,1), pak hodotu áhodé veličiy X azveme α-kvatilem a ozačíme x α, jestliže splňuje obě ásledující podmíky: P[X < x α ] α a současě P[X x α ] 1 - α (1.6) Tato defiice umožňuje určit jedozačě α-kvatil u spojitého rozděleí, u diskrétího lze však určit pouze iterval, ve kterém se daý kvatil achází. Některé kvatily mají své speciálí ázvy: x0.5 mediá x0.25 dolí kvartil x0.75 horí kvartil x0.1 dolí decil x0.9 horí decil (x0.75 x0.25) mezikvartilové rozpětí Zvláští pozorost si zasluhuje mediá, x. Jde o jedu z často užívaých "průměrých hodot". 1.3.2 Středí hodota Pro áhodou veličiu s diskrétím rozděleím je středí hodotou zobecěý aritmetický průměr: EX = x i P [ X =x i ] = x i p i (1.7) i i Pro áhodou veličiu se spojitým rozděleím platí obdobý vztah: EX = x f x dx (1.8) 1.3.3 Rozptyl a směrodatá odchylka Kromě "průměru" je vhodé určovat i "šíři" áhodé veličiy. K tomu se používá zejméa rozptyl (σ 2, var X) (1.9), který je vlastě průměrou čtvercovou odchylkou od středí hodoty a směrodatá odchylka(σ) (1.10), která je druhou odmociou rozptylu. var X =E X EX 2 (1.9) = var X (1.10)

1.4 Některá důležitá rozděleí Začá část studovaých áhodých jevů má vlastosti blízké ěkterému ze základích rozděleí. Tím je velmi usaděa práce, protože většiu případů lze řešit mechaicky pomocí "statistické kuchařky". Je ovšem třeba mít eustále a paměti, že počet všech možých rozděleí je omeze je aší matematickou fatazií a příroda je v tomto směru lehce zlomyslá. 1.4.1 Biomické rozděleí Biomické rozděleí modeluje situaci, kdy probíhá ezávislých dějů, z ichž každý má je dvě možosti výsledku obvykle ao/e, 1/0, atp. Pravděpodobost, že se dílčí jev realizuje, je p, pravděpodobost, že k realizaci edojde, je 1 p. Otázkou pak je, s jakou pravděpodobostí astae právě k jevů a k jevů eastae. Pravděpodobostí fukce biomického rozděleí je: P [ X =k ]= k pk 1 p k (1.11) To, že áhodá veličia X má biomické rozděleí, začíme X~Bi(,p). Základí číselé hodoty rozděleí jsou: středí hodota EX = p rozptyl var X = p(1-p) 1.4.2 Poissoovo rozděleí Poissoovo rozděleí je vlastě biomické rozděleí pro rostoucí k ekoeču a velmi vzácý výskyt přízivé události (tedy p se blíží k ule). V praxi se může použít všude tam, kde by byl výpočet biomického rozděleí díky vysokému velmi obtížý. Jeho častějším použitím je však popis áhodých událostí, které astaou za časovou jedotku. Příkladem takových událostí mohou být mutace, průchod exotické částice detektorem ebo počet telefoích hovorů spojeých ústředou. Časový rozměr ale eí podmíkou tímto rozděleím lze apříklad modelovat počet baktérií v objektivu mikroskopu. Pravděpodobostí fukce Poissoova rozděleí je: P [ X =k ]= k k! e (1.12) To, že áhodá veličia X má Poissoovo rozděleí, začíme X~Po(λ). Koeficiet λ ozačuje průměrý počet událostí ve sledovaém časovám ebo prostorovém itervalu (itezitu). Základí číselé hodoty rozděleí jsou: středí hodota EX = λ rozptyl var X = λ 1.4.3 Expoeciálí rozděleí Expoeciálí rozděleí určuje dobu čekáí a áhodou událost. V praxi se může jedat apříklad o čekáí a pacieta ebo určeí doby mezi vzikem dvou chyb. Hustota rozděleí je: f x = 1 x A e Celkem bez problémů lze spočítat i distribučí fukci: (1.13) F x =1 e x A (1.14) To, že áhodá veličia X má expoeciálí rozděleí, začíme X~E(A,δ). Parametr A určuje posu v čase od začátku ("okamžik startu") a parametr δ je vlastě středí délka itevalu mezi událostmi. Základí číselé hodoty rozděleí jsou: středí hodota EX = A + δ rozptyl var X = δ 2

1.4.4 Normálí (Gaussovo) rozděleí Normálí rozděleí je jedo z ejčastěji používaých rozděleí vůbec. Bohužel se stává, že jsou metody založeé a předpokladu ormálího rozděleí aplikováy a jiak rozděleý soubor a výsledky jsou zcela špaté. Normálí rozděleí je určeo dvěma parametry - μ a σ 2. Parametr μ je středí hodota a parametr σ 2 je rozptylem rozděleí. To, že áhodá veličia X má ormálí rozděleí, začíme X~N(μ,σ 2 ). Hustota ormálího rozděleí je: x 2 f x = 1 2 e 2 2 (1.15) Poměrě zámý je i graf hustoty. Protože se bude hodit při úvahách o testováí hypotéz, uvádím jej: V obrázku jsou vyzačey (e ejlépe, ale lepší jsem ealezl) důležité hodoty, apříklad že zhruba 68% hodot leží v itervalu ±. Z výpočetího hlediska je výhodá trasformace áhodé veličiy X a áhodou veličiu U~N(0,1) podle vztahu: U = X (1.16) Náhodá veličia U má pak rozděleí x = 1 x 2 2 e 2 (1.17) a distribučí fukci x = 1 2 x e t 2 2 dt (1.18)

Vzhledem k tomu, že itegrál v (1.18) elze aalyticky řešit, jsou fukce tabelováy. Důležité je, že pomocí ich lze vyjádřit i hustotu a distribuci áhodé veličiy s obecými parametry: f x = 1 x (1.19) F x = x (1.20) Díky výše uvedeé trasformaci můžeme celkem jedoduše (s pomocí tabulek) počítat jakékoliv ormálí rozděleí prostě tak, že si svá data trasformujeme.

2.1 Základí pojmy, metody výběru 2. Základy statistiky Nejdříve si defiujme statistiku jako vědu: Statistika je obor zabývající se popisem existující variability dat a hodoceím hypotéz vysvětlujících tuto variabilitu.její vývoj začíá ěkdy v 17. století, je motivová zejméa dvěma vlivy politicky a zájmem o teorii her. Statistický zak je prostorově a časově přesě defiovaý pojem, jehož vlastosti sledujeme. Může jím být apříklad příjem domáctosti v určitém měsíci, přítomost choroby u jedice v daém období ebo fermetace cukrů určitou barkteriálí koloií.hodotu statistického zaku obvykle azýváme statistická proměá. Statistická jedotka je objekt statistického zkoumáí, hodotí se u ěj statistické zaky. Například může jím o paciety, domáctosti ebo o koloie mikrobů. Statistický soubor je sada statistických jedotek, a ichž je prováděo vlastí zkoumáí. Příkladem mohou býl všichi lidé v daé populaci, všichi okologičtí pacieti ebo myslivci a Vysočiě. Statistické zjišťováí je proces zjišťováí statistických zaků u statistických jedotek v daém statistickém souboru. Může být vyčerpávající, kdy je zkoumá celý subor, ebo výběrové, kdy je zkoumáa je část souboru. V případě výběrového zjišťováí existuje ěkolik způsobů výběru statistických jedotek, které by měly reprezetovat celý soubor. Dlužo však pozameat, že oprávěý je je radomizovaý výběr, tedy takový výběr, kdy má každá jedotka v souboru stejou pravděpodobost, že bude vybráa, přičemž svým výběrem eovliví pravděpodobost výběru jiých jedotek. Jakákoliv forma eáhodého výběru může hrubě zkreslit výsledek (což může být zeužito), ale alespoň ve společeských vědách jde o podstatě levější záležitosti. 2.2 Typy dat Statistickým šetřeím můžeme získat růzá data. Podle jejich charakteru je můžeme dělit do ěkolika skupi: 1. miktodata - údaje o jedotlivých statistických jedotkách (statistické proměé) 2. makrodata ageregovaá mikrodata, tedy ukazetele (průměry, růzé idexy, atp.) 3. metadata charakteristiky makrodat, tedy defiice ukazatelů Statistické zaky můžeme dělit do ěkolika skupi: kvatitativí zak je vyjádře číslem majícím výzam rozměru. Dále se dělí a zak: spojitý libovolý eprázdý iterval reálých číselé (výška, apětí, glykémie) diskrétí - řada odděleých čísel (počet dětí v rodiě, počet úmrtí) Kvatitativí zak můžeme vyjádřit a dvou stupicích podle volby uly: itervalová stupice ula je libovolě volitelá, proto lze určit je vzdáleost dvou bodů poměrová stupice ula je pevě defiovaé, lze určit i (smysluplý) poměr dvou hodot kvalitativí zak je zak, který charakterizuje přítomost určité vlastosti. Může být: omiálí, kdy se ptáme je a přítomost prvku určité možiy (barva, pohlaví) ordiálí, kdy má výzam uvažovat i pořadí, apř. spokojeost={ao, částečě, e} Zaky omiálí, ordiálí a diskrétí můžeme ozačit jako kategoriálí zaky a jejich možosti jako kategorie ebo též třídy. Kategoriálí zaky můžeme dále dělit: vícekategoriálí mají více ež dvě kategorie dichotomické - mají právě dvě kategorie symetrické obě možosti jsou stejě výzamé (muž žea) asymetrické jeda z možostí je výzamější (přežil zemřel)

2.3 Prezetace dat Primárím produktem statistického šetřeí je ovbykle etříděá tabulka údajů matice dat. Deskriptiví statistika pak dispouje řadou metod, jak z této epřehledé změti údajů získat přehledou charakteristiku zkoumé populace. Důležitou iformaci poskytují číselé charakteristiky souboru: Kvatily jsou probráy výše Modus x říká, které hodoty je v souboru ejvíce. V případě spojitého rozděleí je výpočet (alespoň formálě) jedoduchý stačí zjistit maxima hustotí fukce.v případě diskrétí distribuce se staovuje tzv. modálí iterval a ěkdy staovuje pomocí iterpolace i modus. Pro kategoriálí zaky je určeí ejsažší prostě se vybere ejčetější kategorie. Aritmetický průměr x je často užívaý pro svůj jedoduchý výpočet. Je však velmi citlivý a extrémí hodoty. x= 1 x i (2.1) Geometrický průměr x G je méě často používaou charakteristikou. Lze použít je tam, kde jsou všechy prvky souboru větší ež ula. Je odolější vůči vlivu extrémích hodot. x G = i=1 i=1 Harmoický průměr x H je zřídka užívaou charakteristikou. x H = i=1 x i (2.2) 1 (2.3) x i Kromě měr polohy existují (a používají se) i míry variability výběru. Výběrový rozptyl s 2 je protějškem rozptylu rozděleí, z ěhož výběr pochází. Lze ukázat, že středí hodota výberových rozptylů je rova rozptylu rozděleí populace. s 2 = 1 1 x i x 2 (2.4) i=1 Výběrová směrodatá odchylka s je obdobou směrodaté odchylky. s= 1 1 x i x (2.5) Většiou však jedo číslo estačí a data je třeba prezetovat v tabulkách. Základem je prostá tabulka, která v podstatě odpovídá matici dat. Přehledější je skupiová tabulka, ve ktré jsou data rozdělea podle tříd ebo třídích iterval a a kombiačí tabulka, ve které jsou data tříděa podle více kritérií.každé políčko tabulky by mělo být vyplěo číslem ebo symbolem. Speciálí výzam mají zaky: 0,000 velmi ízký výskyt (počet des. míst odpovídá ostatím hodotám) evyskytl se žádý případ hodotu ezáme ebo elze zjistit zápis eí možý z logických důvodů Data je třeba ejdříve rozdělit do tříd. U kategoriálích zaků je existece tříd celkem jasá, u spojitých veliči si pomáháme zavedeím třídího itervalu. Pro odhad počtu třídích itervalů můžeme použít apř. vzorec TI = 10*log, kde je počet prvků v souboru. Je vhodé, aby se počet kategorií pohyboval v rozmezí 5 až 20. i=1

U každé kategorie je vhodé určit četost. Ta může být: absolutí, tedy počet prvků daé kategorie v souboru relativí, tedy poměré zastoupeí daé kategorie v souboru kumulativí četost je součet četosti daé kategorie s četostmi všech ižších kategorií Velice ázorý výstup, ale také ejsáze maipulovatelý, je výstup v podobě grafů. bodový graf zázorňuje aměřeé hodoty v podobě bodů. Vhodý je pro sledováí závislosti dvou veliči. V případě vyášeí více závislostí se body graficky rozlišují. spojicový graf je podobý bodovému, body jsou však spojey úsečkami. Často se používá ke začeí časových řad. sloupcový graf je velmi často používaý. Jede sloupec reprezetuje jedu třídu respektive třídí iterval (pak bude šířka sloupce úměrá šířce itervalu), plocha sloupce je úměrá četosti. histogram je sloupcový graf charakterizovaý tím, že sloupce jsou vždy vertikál, vodorová osa má vždy měřítko a plocha sloupců odpovídá četosti třídy. kruhový (výsečový) graf zachycuje relativí zastoupeí jedotlivých tříd celého souboru. krabicový graf zachycuje poměrě komplexí údaje. Bohužel symbolika eí jedotá. c a b d e f a horí extrém, ejvýše však 1.5 ásobek mezikvartilového rozpětí b horí kvartil c průměr d mediá e dolí kvartil f dolí extrém, ejvýše však 1.5 ásobek mezikvartilového rozpětí 2.4 Simpsoův paradox V rámci statistického hodoceí dochází často ke spojováí růzých dat do jedé kategorie. Na ebezpečí euvážeého spojováí růzých dat, obdorě zvaého též sčítáí jablek s hruškami, upozorňuje ásledující příklad. Uvažujme dvě emocice, apříhlad Horí Sádrovice a Stará Dlaha. Pro jedoduchost uvažujme je dvě skupiy pacietů lehce emocí a těžce emocí, a dva možé výssledky léčby vyléčeí a úmrtí pacieta.násleující tabulka srovává obě emocice: stav přijatých pacietů emocice Horí Sádrovice Stará Dlaha dobrý kritický celkem přijato přijato přijato 600 10 1.6% 400 190 47% 1000 200 20% 900 30 3.2% 100 70 70% 1000 100 10% Pokud je paciet v dobrém stavu, jistě si vybere emocici v Horích Sádrovicích, pobyt tam bude jistě méě rizikový. I paciet v kritickém stavu bude mít jistě větší aději, pokud bude doveze (apříklad trpělivými dědici) do emocice v Horích Sádrovicích. Když se však udělá průměrá hodota všech úmrtí ze všech přijatých, tak vyjde lepší hodoceí emocici ve Staré Dlaze. Čím to je způsobeo? Odpověď spočívá ve spekru přijímaých pacietů. Zatímco v Horích Sádrovicích představují pacieti v kritickém stavu 40% případů, ve Staré Dlaze je jich je 10%.

3. Testováí hypotéz 3.1 Základí pojmy Iduktiví statistika je obor, který se pokouší a základě zalostí souboru testovat platost hypotéz o rozděleí výsledků a který umožňuje ejistotu závěrů kvatifikovat. Základí metodika testu je velmi jedoduchá. Nejdříve si formulujeme ulovou hypotézu, tedy teorii, jejíž platost testujeme. Obecě se začí H0. Proti í formulujeme alterativí hypotézu H1, která představuje opačé tvrzeí k ulové hypotéze. Nulovou hypotézu obvykle formulujeme tak, že se ějaké dva parametry rovají. Aletrativí hypotéza může být erovost obou parametrů (oboustraá alterativí hypotéza), ale i poměr větší-meší, zejméa pokud to eodporuje logice uspořádáí (jedostraá alterativíhypotéza). Po formulaci hypotéz je třeba staovit (určit si) hladiu výzamosti α, tedy maximálí povoleou pravděpodobost, že ulová hypotéza eplatí, i když elze podle výsledků testu zamítout. Často se staovuje a 5% (α = 0,05) ebo 1% (α = 0,01). Z dat si lze staovit dostažeou hladiu výzamosti p (p-value), tedy pravděpodobost, že ulová hypotéza eplatí. Tedy pokud p vyjde meší ež α, elze ulovou hypotézu zamítout. Pokud vyjde p větší ež α, zamítáme ulovou hypotézu. Pro vlastí výpočet si staovíme testovou statistiku: pozorovaá hodota očekávaá hodota testová statistika= (3.1) směrodatá chyba pozorováí Za předpokladu dostatečě velkého výběru ( > 60) a spojité áhodé veličiy lze předpokládat ormálí rozděleí hodot změřeých průměrů kolem středí hodoty. Testová statistika se pak bude začit Z: X Z = 0 (3.2) / Za předpokladu, že platí H0, bude platit Z ~ N(0,1). Další postup je tedy v případě oboustraé alterativí hypotézy jedoduchý. V tabulkách si alezeme z 1 kvatil ormálího rozděleí s 2 parametry 0 a 1. Nalezeý kvatil pak porováme s hodotou Z. Je-li Z vyšší ež tabulková hodota příslušého kvatilu, zamíteme ulovou hypotézu. Je-li Z ižší ež tabulková hodota příslušého kvatilu prohlásíme, že ulovou hypotézu elze zamítout a hladiě výzamosti α. V případě jedostraé alterativí hypotézy hledáme v tabulkách kvatil z 1. Při testováí hypotéz může dojít ke vziku chyb, která jsou dvojího druhu.chyba I. druhu (α) vzike, jestliže ulová hypotéza platí, ovšem došlo k jejímu zamítutí. Zcela ekvivaletě chyba II. druhu (β) astae v situaci, jestliže ulová hypotéza eplatí, ovšem edošlo k jejímu zamítutí. Obvykle volíme riziko chyby I. druhu (hladia výzamosti) a jsme si vědomi toho, že chyba II. druhu může být poměrě vysoká. Proto by měl být výsledek testu formulová buď "ulovou hypotézu zamítáme"(s chybou α) ebo "o hypotézách elze udělat žádé rozhodutí". V souvislosti s chybou II. druhu je vhodé se zmíit o síle testu defiovaé jako 1 β. Ta závisí (podobě jako β) a rozsahu výběru a vlastostech souboru. Správou volbou rozsahu výběru tak lze zvyšovat sílu testu, respektive sižovat β.

3.2 t-test V praxi obvykle ezáme směrodatou odchylku testovaého zaku, která je třeba pro výpočet testové statistiky Z. Nahrazujeme jí tedy jejím odhadem výběrovou směrodatou odchylkou, čímž ovšem zvyšujeme ejistotu. Počítáme statistiku T: T = X 0 s/ Tato charakteristika již emá ormálí rozděleí, ale Studetovo t-rozděleí. Parametrem dohoto rozděleí je počet stupňů volosti (df), přičemž df = 1. Toto rozděleí je podobé ormálímu rozděleí a pro > 100 lze již poměrě aproximovat ormálím rozděleím. V tabulkách se vyhledá kvatil pro zvoleé α a pro přislušý počet stupňů volosti ( 1) a celý postup je obdobý postupu uvedeému výše. (3.3) 3.3 χ 2 -test dobré shody χ 2 -test slouží k testováí kategoriálích dat. Testuje se hypotéza, zda rozložeí kategorií aměřeých dat odpovídá teoretickému rozděleí. Předpokládejme, že zjistíme k kategorií, každá bude mít četost oi a budeme testovat, zda mají daé kategorie teoretické rozděleí četostí πi. Hypotézu o shodě aměřeých a předpokládaých četostí zamíteme, jestliže bude platit: o i i 2 i=1 i 2 1 k 1 (3.4) 2 Přičemž 1 k 1 je (α 1) kvatil rozděleí χ 2. Velkými rizikem je, že zde uvedeá statistika má rozděleí χ 2 pouze pro blížící se k ekoeču. Proto se požaduje, aby teoretická četost každé testovaé kategorie v soubou byla ejméě 5. 4. Použitá literatura [1] Zvárová J: Biomedicíská statistika I Základy statistiky pro biomedicíské obory, Karolium, Praha 2002 [2] Rogalewicz V: Pravděpodobost a statistika pro ižeýry, Vydavatelství ČVUT, Praha1998 [3] Řezaková H et al: Iteraktiví učebice statistiky, http://badame.vse.cz/iastat [4] Friesel M: Pravděpodobost a statistika hypertextově, http://home.zcu.cz/~friesl/hpsb/tit.html [5] Houser P: Sipmsoův paradox a slučováí dat, ScieceWorld, 20.9.2004, http://scieceworld.cz [6] Duchoslav M: Předášky k předmětu Statistika pro biology, http://botay.upol.cz [7] Svršek J, Bartoš R: Z historie matematiky a fyziky 1, Natura 6, 2001