Vyhodnocování biologických dat pomocí statistických metod Eva Gelnarová

Podobné dokumenty
Tabulka 1. Výběr z datové tabulky

Popisná statistika. Komentované řešení pomocí MS Excel

Analýza dat na PC I.

POPISNÁ STATISTIKA Komentované řešení pomocí programu Statistica

STATISTIKA S EXCELEM. Martina Litschmannová MODAM,

Statistika, Biostatistika pro kombinované studium Letní semestr 2011/2012. Tutoriál č. 4: Exploratorní analýza. Jan Kracík

Lineární regrese. Komentované řešení pomocí MS Excel

Statistika pro geografy

, Brno Hanuš Vavrčík Základy statistiky ve vědě

mezi studenty. Dále bychom rádi posoudili, zda dobrý výsledek v prvním testu bývá doprovázen dobrým výsledkem i v druhém testu.

Regresní a korelační analýza

x T 1 matici & S 1 kovarianční matici &

Statistika. Diskrétní data. Spojitá data. Charakteristiky polohy. Charakteristiky variability

Úvod do kurzu. Moodle kurz. (a) (b) heslo pro hosty: statistika (c) skripta na pravděpodobnost

Základy popisné statistiky

Pearsonův korelační koeficient

Statistika. cílem je zjednodušit nějaká data tak, abychom se v nich lépe vyznali důsledkem je ztráta informací!

Regresní a korelační analýza

Popisná statistika. Statistika pro sociology

Informační technologie a statistika 1

Základy popisné statistiky

4. Zpracování číselných dat

Statistická analýza jednorozměrných dat

Statistika s Excelem aneb Máme data. A co dál? Martina Litschmannová Katedra aplikované matematiky, FEI, VŠB-TU Ostrava

Základy popisné statistiky. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek

Matematika III. 27. listopadu Vysoká škola báňská - Technická univerzita Ostrava. Matematika III

Výrobní produkce divizí Ice Cream Po lo ha plane t Rozložený výse ový 3D graf Bublinový graf Histogram t s tn e ídy

Korelace. Komentované řešení pomocí MS Excel

Inferenční statistika - úvod. z-skóry normální rozdělení pravděpodobnost rozdělení výběrových průměrů

TEST Z TEORIE EXPLORAČNÍ ANALÝZA DAT

Příloha podrobný výklad vybraných pojmů

ANALÝZA DAT V R 2. POPISNÉ STATISTIKY. Mgr. Markéta Pavlíková Katedra pravděpodobnosti a matematické statistiky MFF UK.

Normální (Gaussovo) rozdělení

VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ. FAKULTA STROJNÍHO INŽENÝRSTVÍ Ústav materiálového inženýrství - odbor slévárenství

Statistika - charakteristiky variability

Popisná statistika kvantitativní veličiny

Zpracování náhodného výběru. Ing. Michal Dorda, Ph.D.

Pokročilé neparametrické metody. Klára Kubošová

Obsah. Statistika Zpracování informací ze statistického šetření Charakteristiky úrovně, variability a koncentrace kvantitativního znaku


Organizační pokyny k přednášce. Matematická statistika. Přehled témat. Co je statistika?

1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.

RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr.

Statistika. Program R. popisná (deskriptivní) statistika popis konkrétních dat. induktivní (konfirmatorní) statistika. popisná statistika

veličin, deskriptivní statistika Ing. Michael Rost, Ph.D.

6. Lineární regresní modely

PRŮZKUMOVÁ ANALÝZA JEDNOROZMĚRNÝCH DAT Exploratory Data Analysis (EDA)

Praktická statistika. Petr Ponížil Eva Kutálková

Zpracování náhodného výběru. Ing. Michal Dorda, Ph.D.

Jednofaktorová analýza rozptylu

přesné jako tabulky, ale rychle a lépe mohou poskytnou názornou představu o důležitých tendencích a souvislostech.

Číselné charakteristiky a jejich výpočet

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Aplikovaná statistika v R - cvičení 2

Statistické vyhodnocování ankety pilotního projektu Kvalita výuky na Západočeské univerzitě v Plzni

PRAVDĚPODOBNOST A STATISTIKA

KOMBINATORIKA, PRAVDĚPODOBNOST, STATISTIKA. Charakteristiky variability. Mgr. Jakub Němec. VY_32_INOVACE_M4r0120

V roce 1998 se v Liberci oženili muži a vdaly ženy v jednotlivých věkových skupinách v následujících počtech:

Pravděpodobnost v závislosti na proměnné x je zde modelován pomocí logistického modelu. exp x. x x x. log 1

Normální (Gaussovo) rozdělení

ANALÝZA DAT V R 3. POPISNÉ STATISTIKY, NÁHODNÁ VELIČINA. Mgr. Markéta Pavlíková Katedra pravděpodobnosti a matematické statistiky MFF UK

STATISTICKÉ ODHADY Odhady populačních charakteristik

Vysoká škola báňská technická univerzita Ostrava. Fakulta elektrotechniky a informatiky

Metodologie pro ISK II

Univerzita Pardubice Chemicko-technologická fakulta Katedra analytické chemie

Metoda Monte Carlo a její aplikace v problematice oceňování technologií. Manuál k programu

Získávání znalostí z dat

Předzpracování dat. Pavel Kordík. Department of Computer Systems Faculty of Information Technology Czech Technical University in Prague

Regresní a korelační analýza

Matematická statistika

{ } ( 2) Příklad: Test nezávislosti kategoriálních znaků

Mgr. Karla Hrbáčková, Ph.D. Základy kvantitativního výzkumu

Vybrané partie z biostatistiky

Otázky k měření centrální tendence. 1. Je dáno rozložení, ve kterém průměr = medián. Co musí být pravdivé o tvaru tohoto rozložení?

LINEÁRNÍ REGRESE Komentované řešení pomocí programu Statistica

Zápočtová práce STATISTIKA I

UNIVERZITA PARDUBICE CHEMICKO-TECHNOLOGICKÁ FAKULTA KATEDRA ANALYTICKÉ CHEMIE

Metodologie pro Informační studia a knihovnictví 2

INDUKTIVNÍ STATISTIKA

Regresní a korelační analýza

Univerzita Pardubice Fakulta chemicko-technologická Katedra analytické chemie STATISTICKÉ ZPRACOVÁNÍ EXPERIMENTÁLNÍCH DAT

pracovní list studenta Kombinatorika, pravděpodobnost, základy statistiky Jak jsou vysocí? Mirek Kubera

Popisná statistika. úvod rozdělení hodnot míry centrální tendence míry variability míry šikmosti a špičatosti grafy

UNIVERZITA OBRANY Fakulta ekonomiky a managementu. Aplikace STAT1. Výsledek řešení projektu PRO HORR2011 a PRO GRAM

III/2 Inovace a zkvalitnění výuky prostřednictvím ICT

Induktivní statistika. z-skóry pravděpodobnost

Předpoklad o normalitě rozdělení je zamítnut, protože hodnota testovacího kritéria χ exp je vyšší než tabulkový 2

Pojem a úkoly statistiky

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz

Regresní a korelační analýza

Statistické metody. Martin Schindler KAP, tel , budova G. naposledy upraveno: 9.

Aplikovaná statistika v R

You created this PDF from an application that is not licensed to print to novapdf printer (

Popisná statistika. Komentované řešení pomocí programu R. Ústav matematiky Fakulta chemicko inženýrská Vysoká škola chemicko-technologická v Praze

MATEMATICKÁ STATISTIKA. Katedra matematiky a didaktiky matematiky Technická univerzita v Liberci

Obsah přednášky Jaká asi bude chyba modelu na nových datech?

Transkript:

Vyhodnocování biologických dat pomocí statistických metod Eva Gelnarová Úvod Kdybyste se zeptali studentů nebo absolventů přírodovědecké fakulty, co je to Statistika, většina by si vzpomněla na písničku Statistika nuda je a následně poznamenala, že jsou velice rádi, že se rozhodli pro studium botaniky (zoologie, chemie apod.), protože nikdy neměli matematiku a vzorečky v oblibě. A v zajímavém světě biologie či chemie jsou od matematiky a statistiky dostatečně daleko a v bezpečí. Není tomu tak docela pravda V současné době je trend, nejen v přírodních vědách ale i medicíně, sledovat velké množství subjektů nebo pacientů, a takto získané informace vyhodnotit statistickými metodami. Tento text je zaměřený na aplikaci statistických metod, které jsou probírány v rámci středoškolské matematiky, na dva konkrétní datové soubory z oblasti biologie. Tyto základní statistické metody jsou rozšířeny o několik dalších pojmů a doplněny o odkazy na příslušnou literaturu a software. Doufáme, že uvedené příklady budou motivací pro sběr vlastních dat a jejich vyhodnocení. Statistická metodika Po provedení experimentu a naměření jsou data zapsaná do datového souboru ve formě obdélníkové tabulky. V této tabulce odpovídá každý řádek jednomu měřenému subjektu, např. pacientovi nebo rostlině. A každý sloupec odpovídá jedné sledované veličině, např. krevnímu tlaku pacienta nebo počtu listů rostliny. Při větším rozsahu dat, ale závislosti mezi veličinami nejsou na první pohled zřejmé (tabulky mohou obsahovat řádově desítky až stovky sloupců a řádků). Proto je prvním krokem při každé analýze dat jejich vizualizace-zviditelnění jedné veličiny (histogram, krabičkový diagram) nebo závislostí mezi více veličinami (bodový graf). Než se pustíme do vysvětlení dalších statistických pojmů a metod, doporučujeme čtenářům tohoto textu nahlédnout do učebnice Calda,Dupač (1994), kde jsou vysvětleny základní statistické pojmy. Krabičkový diagram (Box-plot): IQR =mezikvartilové rozpětí =Horní kvartil Dolní kvartil Box-plot: Vyska rostliny Ulétlá (odlehlá) hodnota (outlier) Vous (whisker) Krabička (box) Vous (whisker) Ulétlá (odlehlá) hodnota (outlier) cm 65 70 75 Vnitřní hradba (upper fence) =1,5xIQR nebo hodnota maxima, jeli menší Horní kvartil Median IQR Dolní kvartil Vnitřní hradba (lower fence)=1,5xiqr nebo hodnota minima, jeli větší Aritmetický průměr, je jednou z charakteristik polohy (viz. Calda,Dupač (1994)). Další charakteristikou polohy je medián, jehož výhodou je malá citlivost na odlehlá pozorování (outliers).

Korelační koeficient charakterizuje závislost mezi dvěmi naměřenými veličinami, měří těsnost jejich vztahu. Korelační koeficient může nabývat hodnot od -1 do 1. Hodnota blízko 1 nebo -1 znamená, že veličiny jsou navzájem úzce spjaté (+1 - přímo úměrně, -1 - nepřímo úměrně). Hodnota kolem 0 pak indikuje, že mezi veličinami není žádná závislost.. Animace, které názorně ukazují vzájemný vztah veličin a příslušnou hodnotu korelačního koeficientu jsou dostupné na adrese: http://broiler.stat.vt.edu/~sundar/java/applets/ (anglicky) (Sekce: Statistical application, podsekce: Correlation) Vzorce pro výpočet Pearsonova korelačního koeficientu lze nalézt v internetové encyklopedii Wikipedia http://cs.wikipedia.org/wiki/korelace nebo na adrese http://www.cba.muni.cz/vyuka/sources/biostaticky_seminar/korelace_regrese.pdf Pro správnost Pearsonova korelačního koeficientu je nutné, aby byly splněny jisté předpoklady. Regrese popisuje závislost jedné kvantitativní veličiny (obvykle se značí y) na jedné (či více) kvantitativní veličině, která se obvykle značí x. Nejjednodušším případem je lineární regresní závislost, kdy závislost y na x lze vyjádřit přímkou. Názornou ukázku hledání regresní přímky (a dost prostoru pro vlastní pokusy) naleznete na adrese http://broiler.stat.vt.edu/~sundar/java/applets/ (anglicky) (Sekce: Statistical application, podsekce: Regression) Zájemců o bližší seznámení s dalšími statistickými metodami doporučujeme populárně naučnou knížku Moderní statistika (Swoboda 1977), učební texty University Karlovy v Praze (Zvára (001), Zvárová (004)) nebo následující internetový odkaz: http://botany.upol.cz/prezentace/duch (soubory statistika1.pdf,,statistika4.pdf) Způsob zpracování dat V případě malého množství dat je možné spočítat průměr a další charakteristiky ručně, dosazením naměřených hodnot do vzorců. Nicméně pro větší množství dat by byl tento postup příliš obtížný a pracný. Moderní statistika proto využívá pro analýzu dat počítače a existuje velké množství specializovaných statistických programů. Uveďme alespoň dva programy, které jsou volně přístupné. Prvním z jich je software R, který je možné stáhnout, zcela zdarma, na adrese: http://www.r-project.org/ (anglicky) Pomocí tohoto programu byly provedeny analýzy i v tomto výukovém textu. R je programovací jazyk, příkazy se píší na příkazový řádek ve formě kódu, je tedy vhodný pro ty s kladným vztahem k programování. Poněkud přístupnější je program NCSS. Na níže uvedené adrese je zdarma ke stažení jeho zjednodušená verze, NCSS junior: http://www.ncss.com/download.html#ncss%06.0%0junior (anglicky) Základní statistické funkce jsou implementovány také v EXCELU. Časově omezené demoverze statistických programů STATISTICA a SPSS jsou také volně dostupné na internetu.

Příklad: Studenti Data: Na přednášce bylo osloveno studentů, aby napsali svou váhu (kg), výšku (m) a obvod pasu (cm). Ke každému údaji navíc známe pohlaví studenta (8 mužů a 14 žen). Data jsou uvedena v apendixu, tabulka č. A.1. Úkol: Na základě získaných údajů, bychom chtěli odhadnout průměrnou výšku a váhu studenta a vypočítat průměrné BMI (body mass index) a určit procento lidí s nadváhou. Na závěr bychom chtěli určit, zda existuje vzájemná souvislost mezi naměřenými veličinami. Řešení: Vypočtené hodnoty aritmetických průměrů a mediánů jsou uvedeny v tabulce č.1. Aritmetický průměr výšky vyšel 9,497 metrů, což je naprosto nemyslný výsledek. Na obrázku č.1 vlevo je nakreslen histogram, který poukazuje na existenci člověka, jehož výška je mezi 150 a 00 metry. Jeden ze studentů se spletl a omylem uvedl svou výšku v centimetrech místo v metrech. Při analýze reálných dat je tedy nutné počítat s chybami v datech. Náš datový soubor byl velice malý, proto jsem chybu nalezli okamžitě, ale zpracovávané datové soubory mohou být mnohem větší.. V běžných datových souborech zůstává v průměru 1 až 10% chyb (Hampel (1986)). Data vznikají chybou měření, chybami při opisu dat (z papírového formuláře do počítače) nebo chybným naplánováním experimentu (př. do zkoumané populace určitého druhu malého ptáka se vmísil větší jedinec, který tam nepatří, kukaččí mládě). Hodnota mediánu byla 1,685. Tento výsledek je mnohem realističtější. V případě podezření na přítomnost odlehlých hodnot nebo v nesymetrických datech je vhodné pro odhad polohy použít medián. Klasickým příkladem nesymetrických zešikměných dat jsou údaje o výšce platu. (http://www.mesec.cz/clanky/bude-vase-mzda-prumerna/ ) Tabulka č. 1 Výška (m) {po opravení} Váha (kg) Obvod pasu vaha (cm) BMI = vyska Průměr Muži 3, {1,79} 76,13 80,38 3,53 Medián Muži 1,81 {1,79} 7 77 3,11 Průměr Ženy 1,67 57,8 68,7 0,79 Medián - Ženy 1,67 59 68 1,01 Průměr obě 9,497 {1,71} 64,48 7,95 1,49 pohlaví Medián obě pohlaví 1,685 60,5 70 1,36 V další analýze budeme pracovat s opravenou hodnotou výšky. Podívejme se na obrázek č., který zobrazuje histogramy a box-ploty pro měřené veličiny. Dívky jsou v průměru menší než muži, méně váží a mají útlejší pas. Zajímavé je porovnání variability dat v případě váhy a obvodu pasu. Data mužů mají mnohem větší mezikvartilové rozpětí ( délka krabičky ) než data žen. Na základě dat, která jsme vyhodnotili, nelze tvrdit, že obecně průměrná česká žena má obvod pasu 68 cm nebo muži jsou o 18,5 cm větší než ženy. Při interpretaci statistik musíme být obezřetní, neboť údaje se vztahují jen na zkoumanou populaci studentů a výsledky nelze přímo zobecnit na širší populaci, např. na všechny muže a ženy v ČR.

V posledním sloupci tabulky jsou uvedeny odhady polohy pro BMI. Průměrná hodnota BMI pro muže je 3,53, ale uvědomme si, že 76,13 3,53 3,76. 1,79 = Průměrnou hodnotu BMI nelze vypočítat z průměrné výšky a váhy, ale je nutné vypočítat hodnotu BMI pro každého studenta individuálně a až z takto získaných hodnot spočítat průměr nebo medián. Na základě BMI lze určit, zda student má normální váhu nebo trpí nadváhou. V tabulce č. jsou uvedeny hraniční hodnoty BMI a zároveň počet studentů v jednotlivých kategoriích. Zvýšenou váhu mají 3 studenti, což je 13.6% souboru. Téměř 70% studentů má normální váhu (1+3). Tabulka č. Podváha Normální váha Nadváha Obezita Těžká obezita Muži BMI BMI<0 0-4,9 5-9,9 30-39,9 BMI>40 Počet 3 1 0 Ženy BMI BMI<19 19-3.9 4-8.9 9-38.9 BMI>39 Počet 1 0 0 0 Studenti Studenti (opravena hodnota) Pocet 0 5 10 15 0 1 0 0 1 Pocet 0 1 3 4 5 5 5 4 3 0 1 0 50 100 150 00 1.6 1.7 1.8 1.9 Vyska(m) Obrázek č.1: Histogram, výška studentů uvedená v metrech. Vyska(m)

6 Studenti - Výška (m) Studenti - Vyska(m) Počet 5 4 3 1 1.6 1.7 1.8 1.9 0 1.50 1.60 1.70 1.80 1.90.00 1.55 1.65 1.75 1.85 1.95 Muži Ženy Zeny Pohlavi Muzi Počet 9 8 7 6 5 4 3 Studenti - váha(kg) 50 60 70 80 90 100 110 Studenti - Vaha(kg) 1 0 30 40 50 60 70 80 90 100 110 10 Muži Ženy Zeny Pohlavi Muzi 1 Studenti - Obvod pasu (cm) Studenti - Obvod pasu(cm) Počet 10 8 6 4 70 80 90 100 0 55 65 75 85 60 70 80 90 95 105 115 100 110 Muži Ženy Zeny Pohlavi Muzi

1 Studenti - BMI Studenti - BMI Počet 10 8 6 4 0 5 30 0 14 16 18 0 4 6 8 30 3 34 Muži Ženy Zeny Pohlavi Muzi Obrázek č.: Histogramy a box-ploty pro měřené veličiny Předpokládejme, že vztah mezi výšku, váhou a obvodem pasu je stejný pro obě pohlaví. Data tedy budeme analyzovat pro obě pohlaví dohromady. Tabulce č.3 jsou uvedeny Pearsonovy korelační koeficienty. Všimněme si, že tabulka je symetrická. Jako nejtěsnější se jeví závislost váhy a obvodu pasu, korelační koeficient je roven 0,96. Na diagonále tabulky jsou hodnoty 1, protože každá veličina je ideálně korelovaná sama se sebou. Tabulka č. 3: Pearsonův korelační koeficient Výška (m) Váha (kg) Obvod pasu (cm) Výška (m) 1 0,80 0,69 Váha (kg) 0,80 1 0,96 Obvod pasu (cm) 0,69 0,96 1 Na obrázku 3 jsou bodové grafy znázorňující vztah mezi výškou a váhou (vpravo) a váhou a obvodem pasu. Každý bod odpovídá jednomu studentovi. Vztahy mezi veličinami jsou lineární, body jsme proložili regresní přímky, které jsou tvaru Vyska = 1.38 + 0. 005Vaha Obvod pasu = 9.67 + 0. 671Vaha Směrnice první přímky je 0,005. Je-li jeden student o 1kg těžší než druhý, pak by měl být také v průměru o 0,005m=0,5 cm větší. Směrnice druhé přímky je 0,671. Je-li jeden student o 1kg těžší než druhý, pak by měl mít v pase v průměru o 0,671cm více. Další náměty pro analýzu: Výše uvedená analýza samozřejmě není zcela kompletní. Bylo by zajímavé spočítat např. směrodatnou odchylku (viz. Calda,Dupač (1994)) nebo analyzovat souvislost výšky, váhy a obvodu pasu pro obě pohlaví odděleně.

Studenti (Muzi-cervena, Zeny-cerna) Studenti (Muzi-cervena, Zeny-cerna) Obvod pasu (cm) 70 80 90 100 Vyska (m) 1.6 1.7 1.8 1.9 50 60 70 80 90 100 110 50 60 70 80 90 100 110 vaha (kg) vaha (kg) Obrázek č.3: Bodový graf: závislost mezi vahou studenta a obvodem jeho pasu (vlevo) a závislost mezi vahou a výškou (vpravo).

Příklad: Květy kosatců Bylo změřeno celkem 150 květů kosatců, které patří mezi 3 druhy: setosa (50 měřených květů), versicol (50 měřených květů) a virginica (50 měřených květů). U každého květu byla změřena délka a šířka kališního lístku a korunního plátku. Data jsou uvedena v apendixu, tabulka č. A.. Data (soubor iris) jsou k dispozici také jako součást volně šířitelného statistického software R (http://www.r-project.org/ ). Setosa Versicolor Virginica Úkol: Na základě dat srovnejte tvary květů 3 druhů kosatců. Řešení: Podívejme se nejdříve na krabičkové diagramy v obrázku č.4 a na bodové diagramy na obrázku č. 6. Nejmenší korunní plátek má druh setosa. V porovnání s versicolorem a virginicou je nejkratší a také nejužší. Naopak nejširší a nejdelší korunní plátky má virginica. Poměr šířky ku délce korunních plátků je zobrazen na obrázku č.5 (vpravo). V případě kališních lístků je situace jiná. Opět nejkratší kališní lístek má setoza, tento kališní lístek je však nejširší. Z obrázku č. 5 (vlevo) je zřejmé, že versicolor a virginica mají stejný tvar kališních lístků (každý měřený květ má zhruba stejný poměr šířky a délky kališního lístku) a liší se od sebe pouze velikostí. Medián poměru mezi šířkou a délkou je u setozy 0.68. U versicolorem a virginicz je medián tohoto poměru mnohem menší (0,46;0.460). Čím blíže k hodnotě 1, tím kulatější jsou kališní lístky. Na základě datového souboru máme zhruba představu, jak se chovají typičtí zástupci jednotlivých druhů kosatců. V případě nového nezařazeného měření je tedy možné odhadnout podle tvaru a velikosti, ke kterému druhu kosatců měřený květ patřil. Na základě znalosti rozměrů korunních plátků lze sestavit určitou posloupnost pravidel, které pomohou k zařazení nového měření. Je-li délka korunního plátku menší než,1cm, pak květ paří kosatci druhu Setosa. Jeli korunní plátek květu delší než,1cm a zároveň není širší než 1,64, pak patří ke druhu Versicolor. Je-li korunní plátek květu delší než,1cm a zároveň širší než 1,64cm, pak se jedná o druh Virginica. Schematicky je tato posloupnost rozhodnutí zakreslena na obrázku č.7.

Tip na další analýzy: Tento příklad byl poněkud umělý, protože při novém měření je obvykle známo, ke kterému druhu kosatce květ patří. Na adrese http://lib.stat.cmu.edu/dasl/stories/egyptianskulldevelopment.html http://lib.stat.cmu.edu/dasl/datafiles/egyptianskulls.html lze stáhnout datový soubor obsahující údaje o rozměrech lebek, které byly nalezeny při vykopávkách v Egyptě. Podle okolních nálezů bylo možné identifikovat do kterého období lebka patří, lebky jednotlivých období se mezi sebou lišily nejen velikostí, ale i tvarem. Při nálezu nové lebky je možno časově ji zařadit právě podle jejího charakteristického tvaru a rozměrů. KALISNI LISTEK (delka) KALISNI LISTEK (sirka) 4.5 5.0 5.5 6.0 6.5 7.0 7.5 8.0.0.5 3.0 3.5 4.0 setosa versicolor virginica setosa versicolor virginica KORUNNI PLATEK (delka) KORUNNI PLATEK (sirka) 1 3 4 5 6 7 0.5 1.0 1.5.0.5 setosa versicolor virginica setosa versicolor virginica Příklad č.4: Box-ploty: Šířky a délky kališních lístků a korunních plátků.

Pomer sirka/delka Kalisniho listku Pomer sirka/delka Korunniho platku 0.4 0.5 0.6 0.7 0.8 0.1 0. 0.3 0.4 setosa versicolor virginica setosa versicolor virginica Obrázek č.5: Box-ploty: Poměr šířky ku délce korunních plátků a kališních lístků KALISNI LISTEK (sirka).0.5 3.0 3.5 4.0 KORUNNI PLATEK (sirka) 0.5 1.0 1.5.0.5 4.5 5.0 5.5 6.0 6.5 7.0 7.5 8.0 1 3 4 5 6 7 KALISNI LISTEK (delka) KORUNNI PLATEK (delka) Obrazek č.6: Bodový graf: červená setosa, zelená versicolor, modrá virginica. Délka korunního plátku.1cm Setosa Šířka korunního plátku 1,64cm Délka korunního plátku >.1cm Šířka korunního plátku >1,64cm Versicolor Virginica Obrázek č.7: Schématické rozdělení kosatců podle velikosti korunního plátku. Odpovídá dělení datového souboru naznačeném přerušovanýmí čarami na obrázku č.6 vpravo.

Literatura a odkazy: Calda E., Dupač V.(1994): Matematika pro gymnázia Kombinatorika a pravděpodobnost. nakladatelství Prometheus Hampel (1986): Robust statistics. Wiley-Interscience Swoboda H. (1977): Moderní statistika. Svoboda, Praha. Zvára K.(001): Biostatistika. Nakladatelství Karolinum Zvárová J.(004): Základy statistiky pro biomedicínské obory: Biomedicínská statistika I.. Universita karlova v Praze Appendix: Data Tabulka č.a.1: Studenti, reálný datový soubor, studenti Masarykovy university v Brně, 004 Pohlaví Výška (m) Váha (kg) Obvod Pasu (cm) M 1,85 110 108 Z 1,65 59 68 Z 1,69 63 77 M 1,95 9 90 Z 1,8 65 67 M 1,75 78 80 M 1,8 83 86 M 1,78 65 70 M 1,65 60 70 Z 1,6 58 67 M 1,8 66 74 Z 1,67 57 70 Z 1,58 43 6 Z 1,68 53 70 Z 1,67 61 71 Z 1,68 59 7 Z 1,74 63,5 70 Z 1,61 53 67 Z 1,65 59 67 Z 1,56 53 66 Z 1,73 63 68 M 173 55 65

Tabulka č.a.: Květy kosatců KLd Kališní lístek, délka (Sepal Length) KLš Kališní lístek, šířka (Sepal Width) KPd Korunní plátek, délka (Petal Length) KPš Korunní plátek, šířka (Petal Width) Setosa Versicolor Virginica KLd KLš KPd KPš KLd KLš KPd KPš KLd KLš KPd KPš 5,1 3,5 1,4 0, 7 3, 4,7 1,4 6,3 3,3 6,5 4,9 3 1,4 0, 6,4 3, 4,5 1,5 5,8,7 5,1 1,9 4,7 3, 1,3 0, 6,9 3,1 4,9 1,5 7,1 3 5,9,1 4,6 3,1 1,5 0, 5,5,3 4 1,3 6,3,9 5,6 1,8 5 3,6 1,4 0, 6,5,8 4,6 1,5 6,5 3 5,8, 5,4 3,9 1,7 0,4 5,7,8 4,5 1,3 7,6 3 6,6,1 4,6 3,4 1,4 0,3 6,3 3,3 4,7 1,6 4,9,5 4,5 1,7 5 3,4 1,5 0, 4,9,4 3,3 1 7,3,9 6,3 1,8 4,4,9 1,4 0, 6,6,9 4,6 1,3 6,7,5 5,8 1,8 4,9 3,1 1,5 0,1 5,,7 3,9 1,4 7, 3,6 6,1,5 5,4 3,7 1,5 0, 5 3,5 1 6,5 3, 5,1 4,8 3,4 1,6 0, 5,9 3 4, 1,5 6,4,7 5,3 1,9 4,8 3 1,4 0,1 6, 4 1 6,8 3 5,5,1 4,3 3 1,1 0,1 6,1,9 4,7 1,4 5,7,5 5 5,8 4 1, 0, 5,6,9 3,6 1,3 5,8,8 5,1,4 5,7 4,4 1,5 0,4 6,7 3,1 4,4 1,4 6,4 3, 5,3,3 5,4 3,9 1,3 0,4 5,6 3 4,5 1,5 6,5 3 5,5 1,8 5,1 3,5 1,4 0,3 5,8,7 4,1 1 7,7 3,8 6,7, 5,7 3,8 1,7 0,3 6,, 4,5 1,5 7,7,6 6,9,3 5,1 3,8 1,5 0,3 5,6,5 3,9 1,1 6, 5 1,5 5,4 3,4 1,7 0, 5,9 3, 4,8 1,8 6,9 3, 5,7,3 5,1 3,7 1,5 0,4 6,1,8 4 1,3 5,6,8 4,9 4,6 3,6 1 0, 6,3,5 4,9 1,5 7,7,8 6,7 5,1 3,3 1,7 0,5 6,1,8 4,7 1, 6,3,7 4,9 1,8 4,8 3,4 1,9 0, 6,4,9 4,3 1,3 6,7 3,3 5,7,1 5 3 1,6 0, 6,6 3 4,4 1,4 7, 3, 6 1,8 5 3,4 1,6 0,4 6,8,8 4,8 1,4 6,,8 4,8 1,8 5, 3,5 1,5 0, 6,7 3 5 1,7 6,1 3 4,9 1,8 5, 3,4 1,4 0, 6,9 4,5 1,5 6,4,8 5,6,1 4,7 3, 1,6 0, 5,7,6 3,5 1 7, 3 5,8 1,6 4,8 3,1 1,6 0, 5,5,4 3,8 1,1 7,4,8 6,1 1,9 5,4 3,4 1,5 0,4 5,5,4 3,7 1 7,9 3,8 6,4 5, 4,1 1,5 0,1 5,8,7 3,9 1, 6,4,8 5,6, 5,5 4, 1,4 0, 6,7 5,1 1,6 6,3,8 5,1 1,5 4,9 3,1 1,5 0, 5,4 3 4,5 1,5 6,1,6 5,6 1,4 5 3, 1, 0, 6 3,4 4,5 1,6 7,7 3 6,1,3 5,5 3,5 1,3 0, 6,7 3,1 4,7 1,5 6,3 3,4 5,6,4 4,9 3,6 1,4 0,1 6,3,3 4,4 1,3 6,4 3,1 5,5 1,8 4,4 3 1,3 0, 5,6 3 4,1 1,3 6 3 4,8 1,8 5,1 3,4 1,5 0, 5,5,5 4 1,3 6,9 3,1 5,4,1 5 3,5 1,3 0,3 5,5,6 4,4 1, 6,7 3,1 5,6,4 4,5,3 1,3 0,3 6,1 3 4,6 1,4 6,9 3,1 5,1,3 4,4 3, 1,3 0, 5,8,6 4 1, 5,8,7 5,1 1,9 5 3,5 1,6 0,6 5,3 3,3 1 6,8 3, 5,9,3 5,1 3,8 1,9 0,4 5,6,7 4, 1,3 6,7 3,3 5,7,5 4,8 3 1,4 0,3 5,7 3 4, 1, 6,7 3 5,,3 5,1 3,8 1,6 0, 5,7,9 4, 1,3 6,3,5 5 1,9 4,6 3, 1,4 0, 6,,9 4,3 1,3 6,5 3 5, 5,3 3,7 1,5 0, 5,1,5 3 1,1 6, 3,4 5,4,3 5 3,3 1,4 0, 5,7,8 4,1 1,3 5,9 3 5,1 1,8