Cvičení ze statistiky - 2. Filip Děchtěrenko

Podobné dokumenty
Cvičení ze statistiky - 6. Filip Děchtěrenko

Nerovnice s absolutní hodnotou

Tvorba trendové funkce a extrapolace pro roční časové řady

Domácí úkol DU01_2p MAT 4AE, 4AC, 4AI

SPOLEHLIVOST KONSTRUKCÍ & TEORIE SPOLEHLIVOSTI část 2: Statistika a pravděpodobnost

3.2.4 Podobnost trojúhelníků II

2.8.9 Parametrické rovnice a nerovnice s absolutní hodnotou

{ } Kombinace II. Předpoklady: =. Vypiš všechny dvoučlenné kombinace sestavené z těchto pěti prvků. Urči počet kombinací pomocí vzorce.

Úvod. Analýza závislostí. Přednáška STATISTIKA II - EKONOMETRIE. Jiří Neubauer

1.1.1 Kvadratické rovnice (dosazení do vzorce) I

Cvičení ze statistiky. Filip Děchtěrenko ZS 2012/2013

KOMBINATORIKA, PRAVDĚPODOBNOST, STATISTIKA. Charakteristiky variability. Mgr. Jakub Němec. VY_32_INOVACE_M4r0120

( ) Kreslení grafů funkcí metodou dělení definičního oboru I. Předpoklady: 2401, 2208

Aplikovaná statistika v R

Výsledky testování školy. Druhá celoplošná generální zkouška ověřování výsledků žáků na úrovni 5. a 9. ročníků základní školy. Školní rok 2012/2013

E-ZAK. metody hodnocení nabídek. verze dokumentu: QCM, s.r.o.

Výsledky testování školy. Druhá celoplošná generální zkouška ověřování výsledků žáků na úrovni 5. a 9. ročníků základní školy. Školní rok 2012/2013

Kvadratické rovnice pro učební obory

4.6.6 Složený sériový RLC obvod střídavého proudu

Sada 2 - MS Office, Excel

KGG/STG Statistika pro geografy

Dopravní úloha. Jiří Neubauer. Katedra ekonometrie FEM UO Brno

Příklady k třetímu testu - Matlab

AUTORKA Barbora Sýkorová

Řešení: a) Označme f hustotu a F distribuční funkci náhodné veličiny X. Obdobně označme g hustotu a G distribuční funkci náhodné veličiny Y.

( ) ( ) ( ) 2 ( ) Rovnice s neznámou pod odmocninou II. Předpoklady: 2715

9.2.5 Sčítání pravděpodobností I

(a) = (a) = 0. x (a) > 0 a 2 ( pak funkce má v bodě a ostré lokální maximum, resp. ostré lokální minimum. Pokud je. x 2 (a) 2 y (a) f.

Základní informace. Kolín, Leden/Únor

1.3.1 Kruhový pohyb. Předpoklady: 1105

Číselné soustavy Ing. M. Kotlíková, Ing. A. Netrvalová Strana 1 (celkem 7) Číselné soustavy

Statistika. Diskrétní data. Spojitá data. Charakteristiky polohy. Charakteristiky variability

Popisná statistika. Komentované řešení pomocí MS Excel

Výrobní produkce divizí Ice Cream Po lo ha plane t Rozložený výse ový 3D graf Bublinový graf Histogram t s tn e ídy

M - Rovnice - lineární a s absolutní hodnotou

Jednoduché úročení. Centrum pro virtuální a moderní metody a formy vzdělávání na Obchodní akademii T. G. Masaryka, Kostelec nad Orlicí

Statistika (MD360P03Z, MD360P03U) ak. rok 2007/2008

Parametry hledáme tak, aby součet čtverců odchylek byl minimální. Řešením podle teorie je =

= musíme dát pozor na: jmenovatel 2a, zda je a = 0 výraz pod odmocninou, zda je > 0, < 0, = 0 (pak je jediný kořen)

Statistika. Zpracování informací ze statistického šetření Charakteristiky úrovně, variability a koncentrace kvantitativního znaku.

Semestrální projekt. do předmětu Statistika. Vypracoval: Adam Mlejnek Oponenti: Patrik Novotný Jakub Nováček Click here to buy 2

Funkce více proměnných

Rovnice s neznámou pod odmocninou a parametrem

INTEGRÁLNÍ POČET NEURČITÝ INTEGRÁL,

( ) Neúplné kvadratické rovnice. Předpoklady:

Peer Group User Quick Reference Cards

Základy. analýzy hlavních komponent a multivariačních regresních metod pro spektrální analýzu

Popisná statistika. Statistika pro sociology

Zpracování studie týkající se průzkumu vlastností statistických proměnných a vztahů mezi nimi.

Kvadratické rovnice pro studijní obory

Vyhledávání v databázi CINAHL with Fulltext prostřednictvím EBSCOhost. Příklad vyhledávání tématu pomocí předmětových hesel

Dualita v úlohách LP Ekonomická interpretace duální úlohy. Jiří Neubauer. Katedra ekonometrie FEM UO Brno

Statistika. cílem je zjednodušit nějaká data tak, abychom se v nich lépe vyznali důsledkem je ztráta informací!

Popis připojení elektroměru k modulům SDS Micro, Macro a TTC.

Lokální a globální extrémy funkcí jedné reálné proměnné

Základy zpracování kvantitativních dat ZZD

Cesta do Prahy. 6) Při výběru dopravce, co ovlivňuje váš výběr nejvíce? (očíslujte podle priority)

2.7.2 Mocninné funkce se záporným celým mocnitelem

Organizační pokyny k přednášce. Matematická statistika. Přehled témat. Co je statistika?

Cvičení ze statistiky - 3. Filip Děchtěrenko

Statistika s Excelem aneb Máme data. A co dál? Martina Litschmannová Katedra aplikované matematiky, FEI, VŠB-TU Ostrava

Používání IS Carsystem

Číselné charakteristiky

Zvyšování kvality výuky technických oborů

Př. 3: Dláždíme čtverec 12 x 12. a) dlaždice 2 x 3 12 je dělitelné 2 i 3 čtverec 12 x 12 můžeme vydláždit dlaždicemi 2 x 3.

Statistika, Biostatistika pro kombinované studium Letní semestr 2011/2012. Tutoriál č. 4: Exploratorní analýza. Jan Kracík

Sada 2 - MS Office, Excel

POPISNÁ STATISTIKA Komentované řešení pomocí programu Statistica

Matematika 9. ročník

Základy pravděpodobnosti a statistiky. Popisná statistika

Aplikovaná statistika v R - cvičení 2

PŘIJÍMACÍ ZKOUŠKY I.termín

Statistika. Program R. popisná (deskriptivní) statistika popis konkrétních dat. induktivní (konfirmatorní) statistika. popisná statistika

3. Ve zbylé množině hledat prvky, které ve srovnání nikdy nejsou napravo (nevedou do nich šipky). Dát do třetí

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Zpracování náhodného výběru. Ing. Michal Dorda, Ph.D.

PRAKTIKUM II Elektřina a magnetismus

4.2.7 Voltampérová charakteristika rezistoru a žárovky

Matematická statistika

ELEKTROTECHNICKÁ MĚŘENÍ PRACOVNÍ SEŠIT 2-3

UŽITÍ DERIVACÍ, PRŮBĚH FUNKCE

Kvantové počítače algoritmy (RSA a faktorizace čísla)

a) Základní informace o souboru Statistika: Základní statistika a tabulky: Popisné statistiky: Detaily

Zákonitosti, vztahy a práce s daty

Soustavy lineárních rovnic

Úvod do kurzu. Moodle kurz. (a) (b) heslo pro hosty: statistika (c) skripta na pravděpodobnost

STROPNÍ DÍLCE PŘEDPJATÉ STROPNÍ PANELY SPIROLL

Pohyb a klid těles. Průměrnou rychlost pohybu tělesa určíme, když celkovou dráhu dělíme celkovým časem.

V týmové spolupráci jsou komentáře nezbytností. V komentářích se může např. kolega vyjadřovat k textu, který jsme napsali atd.

když n < 100, n N, pak r(n) = n,

2. Základní typy dat Spojitá a kategoriální data Základní popisné statistiky Frekvenční tabulky Grafický popis dat

Přednáška 5. Výběrová šetření, Exploratorní analýza

Úpravy skříní a čelních ploch pro úchopovou lištou

VY_52_INOVACE_2NOV37. Autor: Mgr. Jakub Novák. Datum: Ročník: 8. a 9.

VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ BRNO UNIVERSITY OF TECHNOLOGY PŘÍLOHA Č. 1 DOTAZNÍK DIPLOMOVÁ PRÁCE MASTER'S THESIS. prof. PhDr. HANA VYKOPALOVÁ, CSc.

LABORATORNÍ CVIČENÍ Elektrotechnika a elektronika

Každý jednotlivý záznam datového souboru (tzn. řádek) musí být ukončen koncovým znakem záznamu CR + LF.

Některé zákony rozdělení pravděpodobnosti. 1. Binomické rozdělení

Všechny možné dvojice ze čtyř možností, nezáleží na uspořádání m (všechny výsledky jsou rovnocenné), 6 prvků. m - 5 prvků

TECHNICKÁ UNIVERZITA V LIBERCI SEMESTRÁLNÍ PRÁCE

Transkript:

Cvičení ze statistiky - 2 Filip Děchtěrenko

Probrali jsme základní statistiky Tyhle termíny by měly být známé: Populace Výběr Rozsah výběru Četnost Relativní četnost Kumulativní (relativní) četnost Průměr Medián Modus Kvantily, horní a dolní kvartil Rozpětí Mezikvartilové rozpětí a odchylka Rozptyl a směrodatná odchylka Variační koeficient Minule bylo..

Příklad pokr. Jméno Počet bodů Děti ve škole psaly test. Jako statistici jste dostali počty bodů jednotlivých dětí, určete charakteristiky středu a charakteristiky variability pro následující data Anna 11 Bára 13 Cyril 12 Dominik 7 Eva 8 Filip 13 Gustav 12 Charakteristiky variability: Rozpětí Mezikvartilové rozpětí Mezikvartilovou odchylku Rozptyl Směrodatnou odchylku Hubert 8 Ilona 11 Jana 9 Klára 12 Lukáš 4 Martin 16 Norbert 10 Otto 9 Petra 9 Richard 8

Když čísla nestačí.... Zobrazíme si data! Grafy je dobré udělat vždy Základní typy grafů Histogram Sloupcový graf (bar plot) Bodový graf (scatter plot) Koláčový graf (pie chart) Krabicový graf (box plot)

Histogram Vhodný pro kvalitativní data (později) Na ose x jsou možné hodnoty Na ose y jsou počty/rel. četnosti Histogram 2 zobrazuje data X=(6,7,11,9,10,7,11,10,4,10)

Sloupcový graf Vhodný pro kategoriální data (opět později) Speciální varianta histogramu Zobrazuje nějakou charakteristiku přes různé skupiny (tady např. součet za různé dny)

Bodový graf Často používaný graf pro zobrazení vztahu dvou proměnných Vhodný na korelace a regrese (opět později)

Koláčový graf Zobrazuje poměrové rozdělení dat Poměrně přehledné a pochopitelné i pro nezkušeného statistika Rozbor pacmana Toto je pacman Toto není pacman

Často používaný graf, který v sobě obsahuje hodně charakteristik Tučná čára je medián, v krabici je jsou hodnoty mezi 1. a 3. kvartilem, ty fousy nahoře a dole značí extrémní hodnoty Dnes se používají i jiné hodnoty (např. průměr) -> je třeba si dát pozor, co ten graf zobrazuje Krabicový graf

Příklad Najděte na grafu modus a odhadněte medián a průměr

Příklad 2 A co tady? Napadá vás pravidlo, kdy se medián rovná průměru?

Experiment Udělejme deskriptivní statistiku na počet sourozenců lidí přítomných na cvičení (aneb statistika v praxi ) Výsledky (n=32): Počet sourozenců 0 1 2 3 4 5 6 Četnost 5 16 7 2 0 1 1 Mohli bychom to rozepsat na jednotlivá pozorování a použít meotdy jak jsme zvyklí. To je zbytečné, pomůžeme si fintou (byť jednoduchou)

Výsledky experimentu Máme vlastně jen 7 různých hodnot, části výpočtu můžeme dát dohromady Označíme n i jako četnost hodnoty x i Tedy dostaneme kde k je počet rozdílných hodnot, které máme (u nás tedy 7)

Výsledky experimentu 2 x = 5 0+16 1+7 2+2 3+0 4+1 5+1 6 =1.47 32 s = (5 0 1.47 2 + (16 1 1.47 2 + + (1 6 1.47 2 ) 31 (hodnoty jsou bez záruky) = 1.32

Typy proměnných Zatím jsme pracovali jen s čísly, která můžeme porovnávat, ne vždy to tak musí být Jak porovnávat pohlaví? Jak počítat průměr pohlaví? Proměnnou budeme označovat cokoli, co jsme změřili nebo nějak pojmenovali Určení správného typu proměnné je klíčové pro inferenční statistiku (bez toho nevíme, co použít za statistickou metodu)

Rozdělení proměnných

Kvantitativní proměnné Jdou porovnávat (můžeme rozhodnout, které je větší, či menší) Věk, váha, IQ, počet bodů v testu, Mohou být diskrétní nebo spojité Diskrétní mají konečný počet hodnot, třeba počet psů v rodině (2.5 psa je divná míra), počet bodů Spojité nabývají libovolné hodnoty z intervalu (váha, výška, ) Používáme na ně charakteristiky míry a polohy Na grafické zobrazení používáme krabicový graf nebo histogram

Kvalitativní proměnné Nabývají hodnoty z několika kategorií Důležité je, zda je můžeme porovnávat (ordinální) nebo ne (nominální) Např: Barvy porovnáme dle kvality těžko, zatímco známky ve škole snadno

Nominální proměnné Nemůžeme porovnávat, takže kumulované četnosti nedávají smysl, můžeme se ptát na pouze na modus Pohlaví, barva, typy psychických poruch Na grafické zobrazení použijeme histogram nebo koláčový graf

Ordinální proměnné Můžeme mezi sebou porovnávat, rozdíl oproti kvantitativním proměnným je v tom, že nemusíme mít čísla, ale obecné kategorie Obtížnost testu (lehký, středně těžký a těžký), známky ve škole, Můžeme použít i kumulovanou četnost (vzhledem k tomu, že máme definované uspořádání)

Příklady na typy proměnných Velikost triček Plat Rozdělení na experimentální a kontrolní skupinu Čekací doba zákazníka na obsluhu (v minutách) Jednotlivé kraje v ČR Množství srážek v jednotlivých krajích Volební preference Počet hvězdiček hotelů

Standardní skóry Každá proměnná může mít vlastní měřítko, s tím se může špatně pracovat (musím kontrolovat, kolik je průměr, odchylka apod., abych dokázal rozhodovat o jednotlivých proměnných) Lepší je data převádět do známých měřítek Převádí se přes z-skór

Z-skór Máme data (x 1, x 2,, x n ), spočítáme x a s x Pro každé x i určíme z-hodnotu z i Důležitá vlastnost: z =0 a s z =1 Tím máme data normovaná a hned vidíme, jak si jednotlivý jedinec stojí

Příklad X=(4,5,7,10,14) Již jsme spočítali, že x =8 a s x =4.06 Tedy z-hodnoty: X Z 4 (4-8)/4.06=-0.985 5 (5-8)/4.06=-0.739 7 (7-8)/4.06=-0.24 10 (10-8)/4.06=0.493 14 (14-8)/4.06=1.478

Standardní skóry Všechny se počítají ze vzorce y i = z i s st + m st Kde y i je hodnota vybraného st. skóru z i je příslušný z-skór s st je dohodnutá směr. odchylka vybraného st. Skóru Skór m st s st rozsah je celočíselný IQ-skór 100 15 T-skór 50 10 < 0, 100 > Steny 5,5 2 < 1, 10 > Stanine 5 2 < 1, 9 > WISC 10 3 < 0, 20 > Školní zn. 3 " -1 " < 1, 5 >

Více proměnných Obvykle vyšetřujeme více proměnných, než jen jednu Kromě jednoduchých charakteristik vyšetřujeme i vztahy mezi nimi Použitá metoda závisí na typu proměnných Pro dvě proměnné X a Y jsou možnosti: X i Y kvantitativní X kvantitativní, Y kvalitativní (to dělat nebudeme) X i Y kvalitativní

X i Y kvalitativní Omezíme se na alternativní proměnné (každá nabývá 2 hodnot) Vztah mezi proměnnými se nazývá korelace, značí, jakou měrou se obě proměnné vyskytují souběžně Př: X člověk pil večer alkohol Y ráno ho bolí hlava Mají-li X a Y vysoké korelace, znamená to, že budu-li pít večer alkohol, bude mě ráno pravděpodobně bolet hlava (ale stejně tak, že pokud mě ráno bolí hlava, pravděpodobně jsem pil večer alkohol) Pozor! Korelace nezaručuje kauzalitu

Jak vzniká korelace X a Y mají vysokou korelaci, pokud X a Y měří podobné věci (např. budu-li měřit výšku a délku kalhot) X je příčinnou Y (korelace mezi početím a porodem je velká) X a Y se ovlivňují (touha uklidit si pokoj a nepořádek v pokoji) X a Y jsou způsobeny třetí neznámou proměnnou Z (moje známka z ČJ a Ma je ovlivněná tím zda jsem se včera učil)

Korelace u alt. proměnných Vyšetřujeme kontingenční tabulkou Y=muž Y=žena součet X=je z města 76 54 130 X=je z venkova 12 20 32 součet 88 74 162 Vyšetřovali jsme, zda lidé bydlí na venkově nebo ve městě Na červených políčkách jsou možné hodnoty jedné proměnné (je z města, není z města) Na modrých jsou možné hodnoty druhé proměnné Na zelených jsou počty lidí, které splňují obě kritéria (tedy ze všech 162 lidí jich 76 byli muži, kteří žili ve městě)

Výpočet závislosti Pro tabulku (zapsáno obecně) Platí, že Y=1 Y=2 součet X=1 N 11 N 12 N 1 X=2 N 21 N 22 N 2 součet N 1 N 2 N kde je čtyřpolní koeficient korelace Čitatel zlomku je tam pouze pro normalizaci výsledku (aby to nenabývalo neomezených hodnot)

Čtyřpolní koeficient korelace Nabývá hodnot -1 až 1 0 značí nezávislost, 1 pozitivní korelaci (pokud se vyskytuje jedna proměnná, vyskytuje se i druhá), -1 negativní korelaci (pokud se vyskytuje jedna proměnná, druhá se nevyskytuje) Otázka: Jak vypadá tabulka, kde je r φ =1? Umocníme-li r Φ 2 dostaneme koeficient determinace, který určuje, kolik procent variability je vysvětleno druhou proměnnou