Statistické metody - nástroj poznání a rozhodování anebo zdroj omylů a lží

Podobné dokumenty
Co je to statistika? Úvod statistické myšlení. Základy statistického hodnocení výsledků zkoušek. Petr Misák

UNIVERZITA OBRANY Fakulta ekonomiky a managementu. Aplikace STAT1. Výsledek řešení projektu PRO HORR2011 a PRO GRAM

Statistika, Biostatistika pro kombinované studium Letní semestr 2011/2012. Tutoriál č. 4: Exploratorní analýza. Jan Kracík

Základní statistické metody v rizikovém inženýrství

Základy biostatistiky II. Veřejné zdravotnictví 3.LF UK - II

STATISTIKA A INFORMATIKA - bc studium OZW, 1.roč. (zkušební otázky)

Tématické okruhy pro státní závěrečné zkoušky. bakalářské studium. studijní obor "Management jakosti"

Tématické okruhy pro státní závěrečné zkoušky. bakalářské studium. studijní obor "Management jakosti"

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz

Testování statistických hypotéz

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Tématické okruhy pro státní závěrečné zkoušky. bakalářské studium. studijní obor "Management jakosti"

Vybraná rozdělení náhodné veličiny

23. Matematická statistika

PRAVDĚPODOBNOST A STATISTIKA. Neparametrické testy hypotéz čast 1

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

PRAVDĚPODOBNOST A STATISTIKA

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Grafický a číselný popis rozložení dat 3.1 Způsoby zobrazení dat Metody zobrazení kvalitativních a ordinálních dat Metody zobrazení kvan

Základy biostatistiky

Statistika. Základní pojmy a cíle statistiky. Roman Biskup. (zapálený) statistik ve výslužbě, aktuálně analytik v praxi ;-) roman.biskup(at) .

1. Číselné posloupnosti - Definice posloupnosti, základní vlastnosti, operace s posloupnostmi, limita posloupnosti, vlastnosti limit posloupností,

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Normy ČSN a ČSN ISO z oblasti aplikované statistiky (stav aktualizovaný k )

Komplexní čísla, Kombinatorika, pravděpodobnost a statistika, Posloupnosti a řady

Návrh a vyhodnocení experimentu

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Lékařská biofyzika, výpočetní technika I. Biostatistika Josef Tvrdík (doc. Ing. CSc.)

VYSOKÁ ŠKOLA BÁŇSKÁ TECHNICKÁ UNIVERZITA OSTRAVA FAKULTA METALURGIE A MATERIÁLOVÉHO INŽENÝRSTVÍ KATEDRA KONTROLY A ŘÍZENÍ JAKOSTI

Inženýrská statistika pak představuje soubor postupů a aplikací teoretických principů v oblasti inženýrské činnosti.

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

E(X) = np D(X) = np(1 p) 1 2p np(1 p) (n + 1)p 1 ˆx (n + 1)p. A 3 (X) =

Mgr. Karla Hrbáčková, Ph.D. Základy kvantitativního výzkumu

4ST201 STATISTIKA CVIČENÍ Č. 7

Tomáš Karel LS 2012/2013

Tématické okruhy pro státní závěrečné zkoušky. magisterské studium

MÍRY ZÁVISLOSTI (KORELACE A REGRESE)

5 Vícerozměrná data - kontingenční tabulky, testy nezávislosti, regresní analýza

Statistika. cílem je zjednodušit nějaká data tak, abychom se v nich lépe vyznali důsledkem je ztráta informací!

Diskrétní náhodná veličina

Zápočtová práce STATISTIKA I

Pravděpodobnost a matematická statistika

Statistika. Diskrétní data. Spojitá data. Charakteristiky polohy. Charakteristiky variability

Kombinatorika, pravděpodobnost a statistika, Posloupnosti a řady

Určujeme neznámé hodnoty parametru základního souboru. Pomocí výběrové charakteristiky vypočtené z náhodného výběru.

Charakteristika datového souboru

UNIVERZITA PARDUBICE CHEMICKO-TECHNOLOGICKÁ FAKULTA KATEDRA ANALYTICKÉ CHEMIE

Me neˇ nezˇ minimum ze statistiky Michaela S ˇ edova KPMS MFF UK Principy medicı ny zalozˇene na du kazech a za klady veˇdecke prˇı pravy 1 / 33

Pravděpodobnost a aplikovaná statistika

Úvodem Dříve les než stromy 3 Operace s maticemi

Praktická statistika. Petr Ponížil Eva Kutálková

Náhodná veličina a rozdělení pravděpodobnosti

Metody sociálních výzkumů. Velmi skromný úvod do statistiky. Motto: Jsou tři druhy lži-lež prostá, lež odsouzeníhodná a statistika.

Regresní analýza 1. Regresní analýza

You created this PDF from an application that is not licensed to print to novapdf printer (

Analýza dat na PC I.

Pravděpodobnost a aplikovaná statistika

Popisná statistika. Statistika pro sociology

MATEMATIKA III V PŘÍKLADECH

INDUKTIVNÍ STATISTIKA

STATISTIKA. Inovace předmětu. Obsah. 1. Inovace předmětu STATISTIKA Sylabus pro předmět STATISTIKA Pomůcky... 7


7. Rozdělení pravděpodobnosti ve statistice

Tomáš Karel LS 2012/2013

Testování statistických hypotéz. Ing. Michal Dorda, Ph.D.

Základy popisné statistiky

Testování hypotéz. Analýza dat z dotazníkových šetření. Kuranova Pavlina

Aproximace binomického rozdělení normálním

Normální (Gaussovo) rozdělení

Normální (Gaussovo) rozdělení

Testování hypotéz. 1 Jednovýběrové testy. 90/2 odhad času

ANALÝZA DAT V R 3. POPISNÉ STATISTIKY, NÁHODNÁ VELIČINA. Mgr. Markéta Pavlíková Katedra pravděpodobnosti a matematické statistiky MFF UK

Přednáška X. Testování hypotéz o kvantitativních proměnných

Tomáš Karel LS 2012/2013

Název testu Předpoklady testu Testová statistika Nulové rozdělení. ( ) (p počet odhadovaných parametrů)

Bakalářské studium na MFF UK v Praze Obecná matematika Zaměření: Stochastika. 1 Úvodní poznámky. Verze: 13. června 2013

Mnohorozměrná statistická data

1. Přednáška. Ing. Miroslav Šulai, MBA

TESTOVÁNÍ HYPOTÉZ STATISTICKÁ HYPOTÉZA Statistické testy Testovací kritérium = B B > B < B B - B - B < 0 - B > 0 oboustranný test = B > B

MATEMATICKÁ STATISTIKA. Katedra matematiky a didaktiky matematiky Technická univerzita v Liberci

Úvod do problematiky měření

Pearsonůvχ 2 test dobré shody. Ing. Michal Dorda, Ph.D.

Pravděpodobnost a statistika, Biostatistika pro kombinované studium. Tutoriál č. 5: Bodové a intervalové odhady, testování hypotéz.

TESTOVÁNÍ STATISTICKÝCH HYPOTÉZ ZÁKLADNÍ POJMY

Univerzita Pardubice Fakulta chemicko-technologická Katedra analytické chemie STATISTICKÉ ZPRACOVÁNÍ EXPERIMENTÁLNÍCH DAT

JEDNOVÝBĚROVÉ TESTY. Komentované řešení pomocí programu Statistica

P13: Statistické postupy vyhodnocování únavových zkoušek, aplikace normálního, Weibullova rozdělení, apod.

Testování statistických hypotéz. Ing. Michal Dorda, Ph.D. 1

Pojem a úkoly statistiky

Limitní věty teorie pravděpodobnosti. Jiří Neubauer. Katedra ekonometrie, FVL, UO Brno kancelář 69a, tel

UNIVERZITA PARDUBICE Fakulta chemicko-technologická Katedra analytické chemie Nám. Čs. Legií 565, Pardubice

PRŮZKUMOVÁ ANALÝZA JEDNOROZMĚRNÝCH DAT Exploratory Data Analysis (EDA)

HODNOCENÍ VÝKONNOSTI ATRIBUTIVNÍCH ZNAKŮ JAKOSTI. Josef Křepela, Jiří Michálek. OSSM při ČSJ

ROZDĚLENÍ SPOJITÝCH NÁHODNÝCH VELIČIN

Statistická analýza jednorozměrných dat

Transkript:

Statistické metody - nástroj poznání a rozhodování anebo zdroj omylů a lží Zdeněk Karpíšek Jsou tři druhy lží: lži, odsouzeníhodné lži a statistiky. Statistika je logická a přesná metoda, jak nepřesně sdělit polopravdu.

Od vědy o státu a hazardních her k matematické statistice Statistika: číselné údaje o hromadných jevech sběr, zpracování a vyhodnocování statistických údajů teoretická disciplína Tři etapy statistického zkoumání: získávání statistických údajů statistickým zjišťováním (šetřením) kontrola, verifikace, třídění a agregace statistických souborů vyhodnocování a rozbor získaných statistických údajů Aplikace výsledků + zpětná vazba

Od vědy o státu a hazardních her k matematické statistice Popisná statistika: vytvoření a třídění statistických souborů číselné a grafické zpracování Teorie pravděpodobnosti: náhodné jevy a pravděpodobnost náhodné veličiny, vektory a procesy Matematická statistika: náhodný výběr odhady parametrů a rozdělení testování statistických hypotéz

Od vědy o státu a hazardních her k matematické statistice Historie:

Od vědy o státu a hazardních her k matematické statistice Historie:

Od vědy o státu a hazardních her k matematické statistice Historie:

Od vědy o státu a hazardních her k matematické statistice Historie:

Populace, výběr, náhoda a neurčitost patří k sobě Základní soubor (populace) = souhrn statistických jednotek Statistické jednotky - statistické znaky - hodnoty Statistické znaky Kvantitativní Kvalitativní Diskrétní Spojité Ordinální Nominální Jednorozměrné Statistické znaky Vícerozměrné

Populace, výběr, náhoda a neurčitost patří k sobě Základní soubor výběrový soubor, rozsah Výběry: malé (obvykle do 30 až 50) velké (řádově stovky, tisíce i více) Požadavky na výběr: reprezentativní (informace bez omezení) homogenní (bez vlivu dalších faktorů) náhodný Neurčitost výběru = zkreslení informací o základním souboru

Populace, výběr, náhoda a neurčitost patří k sobě Druhy výběrů: bez opakování s opakováním záměrný oblastní mechanický Statistický soubor = soubor pozorovaných hodnot (x1, x2,, xn) znaku X na vybraných statistických jednotkách

Průměry a jejich ctnosti i nectnosti Zpracování statistického souboru = příprava + grafické znázornění + výpočet číselných charakteristik Roztříděný soubor - třídy, střed a četnost Grafy = vizuální informace o poloze, variabilitě, symetrii, modalitě,

Četnost Průměry a jejich ctnosti i nectnosti Číselné (empirické) charakteristiky = číselné informace o poloze, variabilitě, symetrii, modalitě, Aritmetický průměr = (x1 + x2 + + xn)/n Medián = prostřední hodnota uspořádaného souboru Příklad: Měsíční platy 10 pracovníků (v tis. Kč): 3, 3, 4, 4, 5, 6, 7, 7, 11, 50. Průměrný měsíční plat = 100/10 = 10. Medián měsíčního platu = 5 až 6 (5 + 6)/2 = 5,5. Průměrný měsíční plat po změně (50 na 100) = 150/10 = 15. Medián měsíčního platu po změně (50 na 100) = 5 až 6 (5 + 6)/2 = 5,5. Histogram 3 2 1 0 3 4 5 6 7 11 Třídy 50 5,5 10

Vlastnosti průměru: Průměry a jejich ctnosti i nectnosti poměrně citlivý na změnu hodnot souboru u kladně (záporně) asymetrických souborů je průměr větší (menší) než medián konvergence s rostoucím rozsahem souboru k průměru celé populace rychlá konvergence rozdělení pravděpodobnosti průměru k normálnímu rozdělení

Četnost Měříme proměnlivost veličin a vztahy mezi nimi Rozptyl (disperze) = průměr kvadrátů odchylek od průměru Směrodatná odchylka = druhá odmocnina z rozptylu Příklad: Dva soubory hmotnosti balíčku kávy (v gramech): 1. automat: 67; 68; 69; 69; 70; 70; 71; 71; 72; 73 2. automat: 65; 67; 69; 69; 70; 70; 71; 72; 73; 75 Průměrná hmotnost je stejná = 70 Rozptyl (směrodatná odchylka) pro 1. automat = 3,00 (1,732) Rozptyl (směrodatná odchylka) pro 2. automat = 8,22 (2,867) Balíčky kávy 3 2 1 0 65 66 67 68 69 70 71 72 73 74 75 Hmotnost Řada1 Řada2

Měříme proměnlivost veličin a vztahy mezi nimi Koeficient korelace = normovaná kovariance = průměr součinů odchylek od průměrů/součin směrodatných odchylek (hodnoty od -1 do 1)

Měříme proměnlivost veličin a vztahy mezi nimi Koeficient korelace = 0 nemusí znamenat nezávislost Regresní analýza = "jemnější" vyjádření závislosti mezi znaky a predikce y = 0,361 + 0,181x ; y(10) 2,172; r = 0,984798 y(10) <2,040 ; 2,302> ; y(10) <1,804 ; 2,539>

Měříme proměnlivost veličin a vztahy mezi nimi

Rozdělení pravděpodobnosti a zákon velkých čísel jsou obrazem nás i okolního světa Pravděpodobnost P(A) - teoretická míra možnosti nastoupení náhodného jevu A Klasická definice: P(A) = m/n m = počet příznivých případů jevu A n = počet všech možných případů Axiomatická definice - založená na teorii množin Funkční charakteristiky Rozdělení pravděpodobnosti Číselné charakteristiky Funkční charakteristiky: distribuční funkce, hustota aj. Číselné charakteristiky: střední hodnota, rozptyl aj. Rozdělení pravděpodobnosti pro modelování reálných jevů: binomické, hypergeometrické, normální aj.

Rozdělení pravděpodobnosti a zákon velkých čísel jsou obrazem nás i okolního světa Bernoulliův zákon velkých čísel - asymptotické chování relativní četnosti Normální rozdělení - významné postavení při modelování reálného světa

Rozdělení pravděpodobnosti a zákon velkých čísel jsou obrazem nás i okolního světa

Rozdělení pravděpodobnosti a zákon velkých čísel jsou obrazem nás i okolního světa

Výběrové charakteristiky a kletba statistikova Základní úlohy matematické statistiky: odhady parametrů a rozdělení testování statistických hypotéz o parametrech a rozděleních Principy matematické statistiky: hodnoty získané výběrem ze základního souboru jsou náhodné získaný statistický soubor je hodnotou náhodného výběru Statistická indukce: Náhodná veličina X Teoretická charakteristika Náhodný výběr (X 1,,X n ) Výběrová charakteristika T(X 1,,X n ) Statistický soubor (x 1,,x n ) Empirická charakteristika t = T(x 1,,x n )

Výběrové charakteristiky a kletba statistikova Např.: Střední hodnota výběrového průměru = střední hodnota pozorované veličiny ("průměru" populace) a rozptyl výběrového průměru 0 pro n, takže pro dostatečně velké n je takřka jistě průměr souboru blízký neznámé střední hodnotě; avšak tento rozptyl 0 s rychlostí n 1/2. Velmi často však rozdělení výběrového průměru konverguje k rozdělení normálnímu:

Výběrové charakteristiky a kletba statistikova

Je lepší odhad statistika anebo experta? Odhad parametru = výběrová charakteristika T(X1,,Xn) Bodové Odhady Intervalové Bodový odhad : t = T(x1,..,xn) Intervalový odhad se spolehlivostí 1 - : konfidenční interval <T1;T2> <t1;t2> Riziko chybného odhadu =

Je lepší odhad statistika anebo experta? Příklad: Při průzkumu názoru z dotázaných n osob řeklo "ano" x osob. Pro spolehlivost 0,95: n x Bodový odhad Intervalový odhad (%) (%) Od Do 400 80 20 16,08 23,92 1600 320 20 18,04 21,96 6400 1280 20 19,02 20,98

Nezamítnutí statistické hypotézy ještě není potvrzení její správnosti Statistické hypotézy = tvrzení o vlastnostech pozorovaného statistického znaku Nulová hypotéza H0 Alternativní hypotéza HA Algoritmus testování hypotézy pomocí statistického souboru: 1. Stanovení hypotéz H0 a HA. 2. Volba testového kritéria T(X1,,Xn). 3. Výpočet hodnoty testového kritéria t = T(x1,..,xn). 1. Stanovení hladiny významnosti a kritického oboru W. 2. Rozhodnutí o hypotézách H0 a HA. Hladina významnosti: = obvykle 5% anebo 1%

Nezamítnutí statistické hypotézy ještě není potvrzení její správnosti Rozhodnutí: t W H0 zamítáme a HA nezamítáme t W H0 nezamítáme a HA zamítáme Rizika : H0 PLATÍ NEPLATÍ ZAMÍTÁME CHYBA 1. DRUHU ------- NEZAMÍTÁME ------- CHYBA 2. DRUHU pravděpodobnost chyby 1. druhu = hladina významnosti pravděpodobnost chyby 2. druhu snižujeme zvýšením rozsahu Aspekty: nezamítnutí hypotézy neznamená vždy její přijetí zvýšíme rozsah výběru a znovu testujeme nezamítnutí nebo přijetí hypotézy není potvrzení její platnosti

Nezamítnutí statistické hypotézy ještě není potvrzení její správnosti

Používání statistických metod při řízení jakosti technologických procesů není samoúčelné ani módou Statistické metody (SPC) = nástroje pro hodnocení a řízení jakosti výroby (QC) Shewhartovy regulační diagramy: regulace měřením (normální rozdělení) regulace porovnáváním (binomické a Poissonovo rozdělení)

Používání statistických metod při řízení jakosti technologických procesů není samoúčelné ani módou Aplikace: výběry relativně malých skupin sledovaných výrobků ke kontrole během výroby ve stanovených časových intervalech grafické zpracování číselných charakteristik pro informace o negativních vlivech na kvalitu výroby při vybočení sledované charakteristiky mimo statisticky určené meze zásah nebo vyhodnocení pro přípravu další výroby Důsledek : finanční efekt pro výrobce a zvýšení důvěry odběratele Nyní: SPC součástí norem pro QC na státní a nadstátní úrovni i obsahem příruček jakosti u jednotlivých firem (certifikace) Další metody: způsobilost výrobních procesů, statistické přejímky, optimalizace nákladů aj.

Spolehlivost výrobku se dá měřit a úspěšně využívat Spolehlivost výrobku = jeho schopnost plnit požadované činnosti Statistický princip: doba bezporuchového stavu, doba opravy apod. sledovaného objektu jsou náhodné veličiny Charakteristiky spolehlivosti: funkční: funkce spolehlivosti, intenzita poruch, hustota obnov aj. číselné: střední doba do poruchy, koeficient pohotovosti aj.

Postupy: Spolehlivost výrobku se dá měřit a úspěšně využívat odhady charakteristik ze statistických souborů často speciálně orientovanými metodami podle realizace zkoušek (např.cenzorované výběry) plány údržby pravděpodobnostní modely systémů - celků (např. výrobní linky, energetické bloky) optimalizace spolehlivosti vzhledem k nákladům Efekty spolehlivosti: užitná hodnota, bezpečnosti, cena

No to snad ne!? Proč a jak někdy statistiky lžou, a co dál

Proč a jak někdy statistiky lžou, a co dál

Proč a jak někdy statistiky lžou, a co dál Říká se, že statistiky někdy lžou. Pojmy, metody a postupy matematické statistiky jsou součástí matematiky, tedy produktem našeho abstraktního myšlení. Jejich aplikace (tzv. statistiky) jsou výsledkem konkrétní činnosti lidí, která může být seriozní anebo naopak neseriozní. Ve druhém případě pak může jít buď o nevědomost anebo záměr. Tak či onak za to samy statistiky nemohou - lhát může jen člověk. Statistiky proto nelžou, avšak horší to bývá s jejich realizátory a vykladači, kteří z nich někdy polopravdy, nepravdy, případně až lži vytvářejí. Racionální a zodpovědné používání statistických metod naopak přináší pozitivní výsledky tím, že rozšiřuje naše poznání okolního světa i sebe sama a umožňuje nám účelně rozhodovat o našem dalším konání. A v tom lze vidět i jejich možný přínos v budoucnosti.