Tvar dat a nástroj přeskupování



Podobné dokumenty
StatSoft Jak vyzrát na datum

TESTOVÁNÍ KVALITATIVNÍCH ZNAKŮ V PROGRAMU

Předpovídejte snadno a rychle

STATISTICA Téma 7. Testy na základě více než 2 výběrů

Vzorce. StatSoft. Vzorce. Kde všude se dá zadat vzorec

Zobrazení zdrojových dat u krabicového grafu

STATISTICA. Vlastní menu v programu. StatSoft

Zpracování chybějících dat a dat mimo rozsah

Programujeme v softwaru Statistica

StatSoft Jak poznat vliv faktorů vizuálně

Textové popisky. Typ dat

= = 2368

StatSoft Odkud tak asi je?

Diagnostika regrese pomocí grafu 7krát jinak

STATISTICA Téma 6. Testy na základě jednoho a dvou výběrů

PARAMETRICKÉ TESTY. 1) Měření Etalonu. Dataset - mereni_etalonu.sta - 9 měření etalonu srovnáváme s PŘEDPOKLÁDANOU HODNOTOU 10.

NEPARAMETRICKÉ TESTY

Popisná statistika kvantitativní veličiny

Slučování tabulek. Sloučení dvou tabulek

Omezení funkcionalit v softwaru STATISTICA

Metodologie pro ISK 2, jaro Ladislava Z. Suchá

Intervalový odhad. Interval spolehlivosti = intervalový odhad nějakého parametru s danou pravděpodobností = konfidenční interval pro daný parametr

StatSoft Jak se pozná normalita pomocí grafů?

Programujeme v softwaru Statistica - příklady

t-test, Studentův párový test Ing. Michael Rost, Ph.D.

DVOUVÝBĚROVÉ A PÁROVÉ TESTY Komentované řešení pomocí programu Statistica

Typy souborů ve STATISTICA. Tento článek poslouží jako přehled hlavních typů souborů v programu

Kategorická data METODOLOGICKÝ PROSEMINÁŘ II TÝDEN 7 4. DUBNA dubna 2018 Lukáš Hájek, Karel Höfer Metodologický proseminář II 1

, Brno Hanuš Vavrčík Základy statistiky ve vědě

VĚRNOSTNÍ PROGRAM (VP)

ZÁKLADY POŘIZOVÁNÍ TEXTU

Popisná statistika. Komentované řešení pomocí MS Excel

GOODWILL vyššší odborná škola, s. r. o. P. Holého 400, Frýdek-Místek

4ST201 STATISTIKA CVIČENÍ Č. 7

Jednofaktorová analýza rozptylu

Rozdílová dokumentace k ovládání IS KARAT.net

Příprava dat v softwaru Statistica

Vlastnosti dokumentu/stránky

StatSoft Shlukování podobných

Příklady na testy hypotéz o parametrech normálního rozdělení

Chernoffovy tváře (ikonové grafy)

KAPITOLA 5 - POKROČILÉ ZPRACOVÁNÍ TEXTU

Metodologie pro Informační studia a knihovnictví 2

Manuální kroková regrese Newsletter Statistica ACADEMY

Styly odstavců. Word Přiřazení stylu odstavce odstavci. Změna stylu odstavce

Tabulkový procesor. Orientace textu. O úroveň níž O úroveň výš

Excel 2007 praktická práce

Soutěž: Nejméně kliknutí

Obsah Úvod Kapitola 1 Než začneme Kapitola 2 Práce s hromadnými daty před analýzou

Používání IS Carsystem

Jana Vránová, 3.lékařská fakulta UK, Praha. Hypotézy o populacích

Téma 9: Vícenásobná regrese

Příklad 1. Korelační pole. Řešení 1 ŘEŠENÉ PŘÍKLADY Z MV2 ČÁST 13

Testy dobré shody Máme dvě veličiny, u kterých bychom chtěli prokázat závislost, TESTY DOBRÉ SHODY (angl. goodness-of-fit tests)

Pracovat budeme se sestavou Finanční tok. S ostatními se pracuje obdobně. Objeví se předdefinovaná sestava. Obrázek 1

3. Podmíněná pravděpodobnost a Bayesův vzorec

V exponenciální rovnici se proměnná vyskytuje v exponentu. Obecně bychom mohli exponenciální rovnici zapsat takto:

Výroková logika II. Negace. Již víme, že negace je změna pravdivostní hodnoty výroku (0 1; 1 0).

Úvod do analýzy rozptylu

Začínáme pracovat s tabulkovým procesorem MS Excel

Intervalové odhady. Interval spolehlivosti pro střední hodnotu v N(µ, σ 2 ) Interpretace intervalu spolehlivosti. Interval spolehlivosti ilustrace

3. Optimalizace pomocí nástroje Řešitel

MANUÁL MOBILNÍ APLIKACE GOLEM PRO OPERAČNÍ SYSTÉM ANDROID 4.X A VYŠŠÍ

Intervalové odhady. Interval spolehlivosti pro střední hodnotu v N(µ, σ 2 ) Interpretace intervalu spolehlivosti. Interval spolehlivosti ilustrace

VYTVÁŘENÍ DATABÁZÍ, VKLÁDÁNÍ ÚDAJŮ

Projekt Využití ICT ve výuce na gymnáziích, registrační číslo projektu CZ.1.07/1.1.07/ MS Excel

8 A (strana 1) Soubory a složky, procházení, orientace

Matice se v některých publikacích uvádějí v hranatých závorkách, v jiných v kulatých závorkách. My se budeme držet zápisu s kulatými závorkami.

Jednostranné intervaly spolehlivosti

ANALYTICKÁ GEOMETRIE LINEÁRNÍCH ÚTVARŮ V ROVINĚ

5. Závislost dvou náhodných veličin různých typů (kategoriální a metrická veličina)

Teorie informace a kódování (KMI/TIK) Reed-Mullerovy kódy

GDPR General Data Protection Regulation

Dokument a jeho části oddíly, záhlaví, zápatí

Reporting. Ukazatele je možno definovat nad libovolnou tabulkou Helios Orange, která je zapsána v nadstavbě firmy SAPERTA v souboru tabulek:

Postup při studiu principu výpočtu řezných podmínek obrábění programu Nortns. Princip výpočtu.

20 years PLM and 3D experience. Hustopeče, TIPY & TRIKY

POPIS PROSTŘEDÍ PROGRAMU GIMP 2. Barvy 2. Okno obrázku 4 ZÁKLADNÍ ÚPRAVA FOTOGRAFIÍ V GRAFICKÉM EDITORU 6. Změna velikosti fotografie 6

Definice. Vektorový prostor V nad tělesem T je množina s operacemi + : V V V, tj. u, v V : u + v V : T V V, tj. ( u V )( a T ) : a u V které splňují

Tvorba prezentaci v Autodesk Inventoru 10

Lomené výrazy sčítání a odčítání lomených výrazů

UNIVERZITA OBRANY Fakulta ekonomiky a managementu. Aplikace STAT1. Výsledek řešení projektu PRO HORR2011 a PRO GRAM

Konstrukce nepravidelného půdorysu

KAPITOLA 4 ZPRACOVÁNÍ TEXTU

Zdokonalování gramotnosti v oblasti ICT. Kurz MS Excel kurz 6. Inovace a modernizace studijních oborů FSpS (IMPACT) CZ.1.07/2.2.00/28.

Access. Tabulky. Vytvoření tabulky

Výhody a nevýhody jednotlivých reprezentací jsou shrnuty na konci kapitoly.

Spuštění a ukončení databázové aplikace Access

8.3). S ohledem na jednoduchost a názornost je výhodné seznámit se s touto Základní pojmy a vztahy. Definice

M - Kvadratické rovnice a kvadratické nerovnice

KAPITOLA 8 TABULKOVÝ PROCESOR

Excel tabulkový procesor

Strom funkcí Lenovo Solution Center: Systémové nástroje (System)

Export tabulky výsledků

Jednoduchá exponenciální rovnice

Matematika (CŽV Kadaň) aneb Úvod do lineární algebry Matice a soustavy rovnic

Vektory a matice. Obsah. Aplikovaná matematika I. Carl Friedrich Gauss. Základní pojmy a operace

Studijní informační systém. Tvorba rozvrhu ve Studijním informačním systému (SIS) I. Obecné principy

Transkript:

StatSoft Tvar dat a nástroj přeskupování Chtěli jste někdy použít data v jistém tvaru a STATISTICA Vám to nedovolila? Jistě se najde někdo, kdo se v této situaci již ocitl. Není ale potřeba propadat panice, ukážeme si totiž jedno jednoduché řešení tohoto problému a také trochu osvětlíme, jak se lépe v problematice tvaru dat vyznat. J ak můžete uhádnout z názvu následující kapitoly, budeme se zabývat tvarem dat pro jednu z nejběžnějších úloh statistiky a to testování hypotéz rozdílů mezi skupinami. Ukážeme si data použitelná pro tuto úlohu, dále jak poznat v softwaru, jakou strukturu mají data mít, a nakonec si ukážeme jednoduchý postup, co dělat, když máme zrovna data ve špatném tvaru. Typy dat pro úlohu porovnání několika skupin Na následujícím příkladu si ukážeme, jak mohou být data reprezentována pro klasické úlohy testování hypotéz pro dva nebo více výběrů. Příklad: Máme data o IQ jedinců a jejich dosaženém vzdělání. Takováto informace může být buď ve tvaru dvou proměnných, kde jedna reprezentuje IQ a druhá dosažené vzdělání, viz obrázek vpravo. Nicméně naprosto stejnou informaci dostaneme i z tabulky vlevo, která rozděluje velikost IQ do sloupů, z nichž každý představuje jednu úroveň vzdělání. V obou situacích ihned vidíme, že máme 15 naměřených hodnot IQ a ke každé hodnotě umíme jednoznačně přiřadit, jaké vzdělaní má jedinec s tímto IQ.

Piktogramy Všimli jste si v softwaru následujících piktogramů? Nejsou tam jen tak, aby byla u metod nějaká ikona, tyto piktogramy nám mohou výrazně pomoci při identifikaci toho, jaká data metoda potřebuje. Tedy v jakém tvaru předpokládá vstup. Vysvětleme si tedy detailně tyto piktogramy, je to velmi logické: Tento piktogram znamená, že chceme porovnávat hodnoty ve dvou sloupcích, navíc musí mít sloupce stejnou délku. Příklad souboru je vpravo: Chceme porovnávat hodnoty ve dvou sloupcích, sloupce nemusí mít stejnou délku. Příklad souboru je zde: Chceme porovnávat hodnoty ve více než dvou sloupcích, sloupce musí mít stejnou délku. Příklad souboru je zde: Chceme porovnávat hodnoty z jednoho slouce patřících do jedné ze dvou kategorií definované ve sloupci jiném. Příklad souboru je zde: Chceme porovnávat hodnoty z jednoho slouce patřících do jedné z více než dvou možných kategorií definované ve sloupci jiném. Příklad souboru je zde: Tak teď už víte, co tyto piktogramy znamenají, použití metod Vám tedy již nebude dělat žádné problémy. Podívejme se například na záložku Statistiky Základní statistiky/tabulky. Vidíme zde sekci se zde zmíněnými piktogramy. Dvouvýběrový t-test (tedy t-test pro dva nezávislé výběry) má možnost výpočtu z obou typů vstupů (první dvě možnosti s výše uvedenými piktogramy). Párový t-test (tedy t-test pro závislé vzorky) může být zadán pouze ve formě dvou sloupců a navíc musí mít stejný počet případů, což je u párového testu logické. Nyní si otevřeme menu Statistiky Neparametrická statistika. Aniž bychom se dívali na popis u jednotlivých metod, víme ihned díky piktogramům a tvaru dat, kterou možnost můžeme využít. Opět si můžeme všimnout, že testy s předpokladem nezávislosti vyžadují data ve formě a data pro závislé vzorky zase.

Přeskupování/seskupování Ale co dělat, když máme data zrovna v opačném tvaru než potřebujeme. Není potřeba mnohdy složitě ručně předělávat a překopírovávat hodnoty tabulky, ve STATISTICE jsou nástroje, které jsou přímo k tomu uzpůsobeny. K vytvoření jednoho či druhého typu souboru popsaného výše využijeme nástroje Přeskupování či Seskupování. Ty nám dovolí tyto dvě reprezentace dat mezi sebou převádět. Ukažme si postup na datech o IQ. Nejdříve lehčí Seskupování: Chceme převést data z tvaru ve více sloupcích do dat v jednom sloupci s přítomností indikátoru skupiny ve sloupci druhém, jinak řečeno: Postup: Otevřeme si dialog Data Přeskupování, zde se podíváme do záložky Seskupování, vybereme proměnné pro seskupení, zadáme jména výsledných proměnných (kódy pro kódovou proměnnou budou názvy jednotlivých sloupců ve výchozím souboru). Přesné nastavení je vidět na obrázku vpravo: Výsledkem seskupování je soubor typu jak jsme potřebovali.

Opačnou operací je Přeskupování: Zde chceme data převést opačným způsobem, tedy do více sloupců, kde každý bude obsahovat jen hodnoty patřící do dané skupiny. Chceme tedy: Postup: Otevřeme si dialog Data Přeskupování, nyní vybereme Přeskupování. Jedinou věcí, na kterou je potřeba si dávat pozor, je správně zvolit proměnné a nevyměnit je. Kódová proměnná je ta, podle které se bude rozkládat do sloupců, a rozložené hodnoty jsou hodnoty, které chceme mít v tabulce, tedy v našem příkladu IQ. Výsledkem seskupování je soubor typu jaký jsme potřebovali.

Poznámka nakonec: Možnosti přeskupování a seskupování můžeme samozřejmě využít i v jiných situacích, proto je dobré mít na paměti, že něco takového existuje. Navíc jsme si ukázali pouze základní možnosti těchto metod, pro další využití se podívejte do nápovědy. Dovolíme si v tomto kontextu připomenout, že nápovědu k danému tématu vyvoláme klávesou F1 v dialogu Data Přeskupování/seskupování: