Statistika. Jindřich Soukup. University of South Bohemia in České Budějovice Faculty of Fisheries and Protection of Waters, School of complex systems

Podobné dokumenty
Vytěžování znalostí z dat

Cvičení ze statistiky - 9. Filip Děchtěrenko

Dobývání znalostí. Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze

Všechno, co jste chtěli vědět z teorie pravděpodobnosti, z teorie informace a

Intervalový odhad. Interval spolehlivosti = intervalový odhad nějakého parametru s danou pravděpodobností = konfidenční interval pro daný parametr

Lékařská biofyzika, výpočetní technika I. Biostatistika Josef Tvrdík (doc. Ing. CSc.)

Testy. Pavel Provinský. 19. listopadu 2013

Tomáš Karel LS 2012/2013

Testování statistických hypotéz

SEMINÁRNÍ PRÁCE Z MATEMATIKY

Základy biostatistiky II. Veřejné zdravotnictví 3.LF UK - II

Testování hypotéz. Testování hypotéz o rozdílu průměrů t-test pro nezávislé výběry t-test pro závislé výběry

Tomáš Karel LS 2012/2013

Korelační a regresní analýza

Lékařská biofyzika, výpočetní technika I. Biostatistika Josef Tvrdík (doc. Ing. CSc.)

4ST201 STATISTIKA CVIČENÍ Č. 7

PRAVDĚPODOBNOST A STATISTIKA

Pravděpodobnost a statistika, Biostatistika pro kombinované studium. Tutoriál č. 5: Bodové a intervalové odhady, testování hypotéz.

Určujeme neznámé hodnoty parametru základního souboru. Pomocí výběrové charakteristiky vypočtené z náhodného výběru.

Testování hypotéz. testujeme (většinou) tvrzení o parametru populace. tvrzení je nutno předem zformulovat

Cvičení ze statistiky - 8. Filip Děchtěrenko

Testování hypotéz. 1. vymezení základních pojmů 2. testování hypotéz o rozdílu průměrů 3. jednovýběrový t-test

Obsah přednášky Jaká asi bude chyba modelu na nových datech?

Testování hypotéz. Testování hypotéz o rozdílu průměrů t-test pro nezávislé výběry t-test pro závislé výběry

VÝBĚR A JEHO REPREZENTATIVNOST

Testování statistických hypotéz. Ing. Michal Dorda, Ph.D.

Jednofaktorová analýza rozptylu

Design Experimentu a Statistika - AGA46E

10. cvičení z PST. 5. prosince T = (n 1) S2 X. (n 1) s2 x σ 2 q χ 2 (n 1) (1 α 2 ). q χ 2 (n 1) 2. 2 x. (n 1) s. x = 1 6. x i = 457.

P13: Statistické postupy vyhodnocování únavových zkoušek, aplikace normálního, Weibullova rozdělení, apod.

ÚVOD DO TEORIE ODHADU. Martina Litschmannová

TESTOVÁNÍ HYPOTÉZ STATISTICKÁ HYPOTÉZA Statistické testy Testovací kritérium = B B > B < B B - B - B < 0 - B > 0 oboustranný test = B > B

Základní statistické metody v rizikovém inženýrství

Statistické metody - nástroj poznání a rozhodování anebo zdroj omylů a lží

Jana Vránová, 3.lékařská fakulta UK, Praha. Hypotézy o populacích

Učící se klasifikátory obrazu v průmyslu

Cvičení 10. Přednášející: Mgr. Rudolf B. Blažek, Ph.D. prof. RNDr. Roman Kotecký, DrSc.

6. T e s t o v á n í h y p o t é z

Doporučené příklady k procvičení k 2. Průběžnému testu

STATISTICKÝ SOUBOR. je množina sledovaných objektů - statistických jednotek, které mají z hlediska statistického zkoumání společné vlastnosti

= = 2368

MATEMATICKO STATISTICKÉ PARAMETRY ANALYTICKÝCH VÝSLEDKŮ

a) Základní informace o souboru Statistika: Základní statistika a tabulky: Popisné statistiky: Detaily

PARAMETRICKÉ TESTY. 1) Měření Etalonu. Dataset - mereni_etalonu.sta - 9 měření etalonu srovnáváme s PŘEDPOKLÁDANOU HODNOTOU 10.

Ing. Michael Rost, Ph.D.

Využití statistických metod v medicíně (teorie informace pro aplikace VaV, vícerozměrné metody, atd.)

Katedra kybernetiky laboratoř Inteligentní Datové Analýzy (IDA) Katedra počítačů, Computational Intelligence Group

KOMBINATORIKA, PRAVDĚPODOBNOST, STATISTIKA. Charakteristiky variability. Mgr. Jakub Němec. VY_32_INOVACE_M4r0120

Náhodné signály. Honza Černocký, ÚPGM

Náhodné veličiny, náhodné chyby

Poznámky k předmětu Aplikovaná statistika, 9.téma

Intervalové odhady. Interval spolehlivosti pro střední hodnotu v N(µ, σ 2 ) Interpretace intervalu spolehlivosti. Interval spolehlivosti ilustrace

Program Statistica Base 9. Mgr. Karla Hrbáčková, Ph.D.

Statistické metody v digitálním zpracování obrazu. Jindřich Soukup 3. února 2012

Organizační pokyny k přednášce. Matematická statistika. Přehled témat. Co je statistika?

Statistika. Počet přestupků počet odebraných bodů za jeden přestupek. Statistický soubor 1

12. cvičení z PST. 20. prosince 2017

Intervalové odhady. Interval spolehlivosti pro střední hodnotu v N(µ, σ 2 ) Interpretace intervalu spolehlivosti. Interval spolehlivosti ilustrace

na za átku se denuje náhodná veli ina

Pravděpodobnost, náhoda, kostky

7. cvičení 4ST201. Úvod: bodový a intervalový odhad

HTS Report. d2-r. d2-r. Jan Novák ID Datum administrace Standard 1. Vydání. Hogrefe Testcentrum, Praha

Cvičení ze statistiky - 7. Filip Děchtěrenko

Testování hypotéz. 4. přednáška

Příklad 1. Řešení 1 ŘEŠENÉ PŘÍKLADY Z MV2 ČÁST 11

Pravděpodobnost a statistika (BI-PST) Cvičení č. 1

Testy dobré shody Máme dvě veličiny, u kterých bychom chtěli prokázat závislost, TESTY DOBRÉ SHODY (angl. goodness-of-fit tests)

Tomáš Karel LS 2012/2013

Normální (Gaussovo) rozdělení

Normální (Gaussovo) rozdělení

STATISTICKÉ ODHADY Odhady populačních charakteristik

Ústav matematiky Fakulta chemicko inženýrská Vysoká škola chemicko-technologická v Praze

PORUCHY CHOVÁNÍ V ZÁKLADNÍM ŠKOLSTVÍ V DATECH

tazatel Průměr ve Počet respondentů Rozptyl ve

Testování statistických hypotéz

Vyhodnocení dotazníků Kvalita očima pacientů

Statistika, Biostatistika pro kombinované studium Letní semestr 2011/2012. Tutoriál č. 4: Exploratorní analýza. Jan Kracík

Regresní a korelační analýza

Tomáš Karel LS 2012/2013

Inovace bakalářského studijního oboru Aplikovaná chemie

ČESKÉ VYSOKÉ UČENÍ TECHNICKÉ V PRAZE FAKULTA DOPRAVNÍ STATISTIKA. Semestrální práce

KGG/STG Statistika pro geografy

STATISTIKA jako vědní obor

STATISTIKA A INFORMATIKA - bc studium OZW, 1.roč. (zkušební otázky)

PROHLOUBENÍ NABÍDKY DALŠÍHO VZDĚLÁVÁNÍ NA VŠPJ A SVOŠS V JIHLAVĚ

4EK211 Základy ekonometrie

4EK211 Základy ekonometrie

STATISTIKA VĚDA O USUZOVÁNÍ NA ZÁKLADĚ DAT. Patrícia Martinková Ústav informatiky AV ČR

Úvod do teorie odhadu. Ing. Michael Rost, Ph.D.

Ilustrační příklad odhadu LRM v SW Gretl

22. Pravděpodobnost a statistika

Test dobré shody v KONTINGENČNÍCH TABULKÁCH

III/2 Inovace a zkvalitnění výuky prostřednictvím ICT

Analytické znaky laboratorní metody Interní kontrola kvality Externí kontrola kvality

Česká zemědělská univerzita v Praze. Provozně ekonomická fakulta. Statistické softwarové systémy projekt

Otázky k měření centrální tendence. 1. Je dáno rozložení, ve kterém průměr = medián. Co musí být pravdivé o tvaru tohoto rozložení?

MSI LS 2006/2007 Ing. Pavla Hošková, Ph.D., 2. test

Aplikovaná statistika v R - cvičení 2

Využití a zneužití statistických metod v medicíně

Transkript:

Statistika Jindřich Soukup 2013-07-24 University of South Bohemia in České Budějovice Faculty of Fisheries and Protection of Waters, School of complex systems

Statistika umí: Předpovídat budoucnost? "... pak statistika předpovídá, že nestvůra už neposnídá." Popisovat současnost? "Policejní statistika prezentující Českou republiku jako ostrov bezpečí se opírá z velké části o schopnost policie odrazovat občany od žádostí o pomoc, ochranu a spravedlnost." Vysvětlit minulost? "Průměrná mzda loni stoupla na 25 tisíc korun, reálně však klesla" 2

Statistika jako manipulační metoda "Nevěřím žádné statistice, kterou jsem sám nezfalšoval." "Statistiky ukazují, že ženy jsou lepší řidiči než ženy. Tady znovu vidíme, jak je možno lhát pomocí čísel." "Statistiky už máme natolik sofistikované, že z nich lze doložit prakticky cokoliv." "S pomocí statistiky je jednoduché lhát. Bez ní je ale těžké říci pravdu." 3

Role statistiky Pomocník, nástroj Jazyk, komunikační prostředek Náhražka důkazu Extrapolační nástroj Získat přehled Zorientovat se v datech Získat argument Najít pravidelnosti, nepravidelnosti, anomálie v datech Učící algoritmy 4

Strojové učení Systémy pro podporu rozhodování Automatické překladače Rozpoznávání řeči Učení s učitelem Učení bez učitele 5

Klasifikace s učením Klasifikace = zařazení vzorku do jedné ze tříd Oklasifikovaná data Nová data, která chceme zpracovat 6

Systém pro automatickou diagnózu Velká databáze medicínských dat Příznaky nemoci, rodinná anamnéza,... Diagnóza provedená lékařem Rozdělení prostoru příznaků mezi nemoci Spolehlivost původních dat Překrývání jednotlivých tříd Velikost učící množiny Tvar rozhodovací hranice 7

Rozhodovací hranice k-nn klasifikátor Rozhodovací hranice - analyticky zadaná 8

Princip maximální věrohodnosti Opakované házení mincí Házeli jsme 100x, panna padla 55x, orel 45x. Jaký závěr z toho vyvodíme? Jak odhadnout pravděpodobnost, že padne panna? Obrátíme otázku: Pokud by byla pravděpodobnost, že padne panna p, jak by byl pravděpodobný výsledek 55x panna a 45x orel? P(panna=55,orel=45 pravd=p) = p 55 (1-p) 45 (100 nad 45) Plot p^55 1 p ^45, p, 0.2, 0.8 9

Statistické dokazování Stanovení hypotézy Její statistické ověření Kontrola kvality ve výrobě Testování nových léků Pouze specifické typy dotazů : Je trvanlivost větší než pět dnů? Je tento lék účinnější, než jiný? 10

Nepřesnost/nejistota výsledků Opakovaný pokus, různé výsledky kvůli chybám v měření Nejvěrohodnější hodnota výsledku je průměr z pozorování Jak moc se můžeme mýlit? Míry nepřesnosti Rozptyl, směrodatná odchylka, interkvartil range, range, průměr odchylek od průměru, konfidenční intervaly,... p-hodnota Praxe - oteplování, rakety 11

Statistické testy Házeli jsme 100x, panna padla 55x, orel 45x Testujeme hypotézu, že na minci padá panna stejně často jako orel (p=0.5) Je rozdíl deseti hodů dostatečně zásadní, abychom něco takového mohli prohlásit? Statistické testy nám dají následující odpověď: Pokud by hypotéza nebyla splněna, pravděpodobnost rozdílů 10 je... Pokud je pravděpodobnost dostatečně malá, považujeme předpoklady (hypotéza není splněna) za chybné Hranice signifikance Hypotézu nelze vyvrátit na hranici signifikance... p-hodnota 12

Dvojitě slepý pokus Lék vs placebo Pacient ani doktor netuší, co kdo dostává Dostatečně velký soubor t-test - je průmerné zlepšení u pacientů větší u léku než u placeba? 13

Předpovídání budoucnosti Předvolební výzkumy preferencí Testování nových léků "... pak statistika předpovídá, že nestvůra už neposnídá." Extrapolace "Víme, že v extralize ještě nikdo sérii za stavu 0:3 neotočil, tyhle statistiky nás ale vůbec nezajímají." 14

Popisovat současnost "Ne všichni přesně vědí, o čem ta statistika je a co je jejím posláním, že má vlastně popisovat hromadné jevy, a v případě, že její vnímání reality je jiné, než vykazuje statistika, tak jsou s ní nespokojeni. Ale statistika opravdu nemůže zobrazovat ty individuální záležitosti, na těch ona staví, zobecňuje je a z nich vzniká právě charakteristika nějakým způsobem kondenzovaná." "S pomocí statistiky je jednoduché lhát. Bez ní je ale těžké říci pravdu." 15

Vysvětlit minulost Pouze pokud máme data Korelace vs. kauzalita 16

Zmatení, manipulace,... "Když má hlavu v sauně a nohy v ledničce, hovoří statistik o příjemné průměrné teplotě." "Když lovec mine zajíce jednou zleva a podruhé zprava, je zajíc v průměru mrtvý." "Naprostá většina lidí má nadprůměrný počet končetin." "Statistika je metoda, jak vyjádřit nejistá data s přesností na setinu procenta." "Pokud jsem už pětkrát nevyhrál ve sportce, příště mám větší šanci." 17

Děkuji za vaši pozornost 18