Zpracování chybějících dat a dat mimo rozsah

Podobné dokumenty
TESTOVÁNÍ KVALITATIVNÍCH ZNAKŮ V PROGRAMU

Zobrazení zdrojových dat u krabicového grafu

StatSoft Jak vyzrát na datum

ZÁKLADNÍ VYHODNOCENÍ KVALITATIVNÍCH ZNAKŮ V PROGRAMU

Textové popisky. Typ dat

Soutěž: Nejméně kliknutí

Omezení funkcionalit v softwaru STATISTICA

Ovládání a základy statistiky v softwaru STATISTICA

STATISTICA Téma 1. Práce s datovým souborem

Excel tabulkový procesor

Zdokonalování gramotnosti v oblasti ICT. Kurz MS Excel kurz 6. Inovace a modernizace studijních oborů FSpS (IMPACT) CZ.1.07/2.2.00/28.

Popisná statistika kvantitativní veličiny

Vzorce. StatSoft. Vzorce. Kde všude se dá zadat vzorec

Excel 2007 praktická práce

Stručný manuál k ovládání programu STATISTICA. Mgr. Petra Beranová

Příprava dat v softwaru Statistica

Začínáme pracovat s tabulkovým procesorem MS Excel

Výsledný graf ukazuje následující obrázek.

Tabulkový kalkulátor

Gymnázium a Střední odborná škola, Rokycany, Mládežníků 1115

Tabulkový procesor. Orientace textu. O úroveň níž O úroveň výš

Tvorba článků na knihožroutu: Slovo úvodem... 2 Přihlášení... 3 Tvorba tabulky... 5 Vložení obrázků... 8 Vložení hypertextového odkazu...

Grafy opakování a prohloubení Při sestrojování grafu označíme tabulku a na kartě Vložit klikneme na zvolený graf

Práce s programem IIS Ekonom

Export tabulky výsledků

Manuál k programu KaraokeEditor

Tiskové sestavy. Zdroj záznamu pro tiskovou sestavu. Průvodce sestavou. Použití databází

Uživatelský manuál. Aplikace GraphViewer. Vytvořil: Viktor Dlouhý

Manuál: Editace textů v textovém editoru SINPRO Úprava tabulek a internetových odkazů, řádkování

Excel - pokračování. Př. Porovnání cestovních kanceláří ohraničení tabulky, úprava šířky sloupců, sestrojení grafu

Postup: Nejprve musíme vyplnit tabulku. Pak bude vypadat takto:

Centrální příjem (CP) požadavků, Pracovní listy (PL), Výsledky po metodách (VPM)

EXCEL IV. část. 7. Vzorce a funkceuložení, tisk a doplňky 8. Používané zkratky. Zpracoval: Ing. Pavel branšovský. pro potřebu VOŠ a SŠSE

Použití filtrů v Museionu

2017 CARAT "New design"

Návod k aplikaci DPH Kontrol

VĚRNOSTNÍ PROGRAM (VP)

Typy souborů ve STATISTICA. Tento článek poslouží jako přehled hlavních typů souborů v programu

Vytvoření uživatelské šablony

WEBOVÉ STRÁNKY ŠKOLY A REDAKČNÍ SYSTÉM

1 Tabulky Příklad 3 Access 2010

Kurikulum počítačové gramotnosti pro žáky se speciálními vzdělávacími potřebami příloha ŠVP ( 2.stupeň ZŠ - 3.část )

Použijeme-li prostorový typ grafu, můžeme pro každou datovou zvolit jiný tvar. Označíme datovou řadu, zvolíme Formát datové řady - Obrazec

Nový způsob práce s průběžnou klasifikací lze nastavit pouze tehdy, je-li průběžná klasifikace v evidenčním pololetí a školním roce prázdná.

Standardně máme zapnutý panel nástrojů Formátování a Standardní.

Pro definici pracovní doby nejdříve zvolíme, zda chceme použít pouze informační

PRACOVNÍ SEŠIT MS EXCEL KOMPLET. Optimálním doplňkem stálého vzdělávání jsou elektronické kurzy.

Autorem materiálu a všech jeho částí, není-li uvedeno jinak, je Kateřina Raichová. Materiál je publikován pod licencí Creative Commons.

Babyware Software pro nastavení a naprogramování ústředen Instalační příručka

MS Excel 3: Pokročilý kurz

Generování dat. Generování pomocí funkcí

Spuštění a ukončení databázové aplikace Access

PRÁCE S TEXTOVÝM EDITOREM 6.4 TEXTOVÉ POLE

UniLog-D. v1.01 návod k obsluze software. Strana 1

Word 2007 praktická práce

Inovace výuky prostřednictvím ICT v SPŠ Zlín, CZ.1.07/1.5.00/ Vzdělávání v informačních a komunikačních technologií

Ovládání Open Office.org Calc Ukládání dokumentu : Levým tlačítkem myši kliknete v menu na Soubor a pak na Uložit jako.

Programujeme v softwaru Statistica

Základní popis Toolboxu MPSV nástroje

Návod pro práci s aplikací

Tvar dat a nástroj přeskupování

Zdokonalování gramotnosti v oblasti ICT. Kurz MS Excel kurz 2. Inovace a modernizace studijních oborů FSpS (IMPACT) CZ.1.07/2.2.00/28.

Formátování pomocí stylů

8 Makra Příklad 4 Excel 2007

UniLog-L. v0.81 návod k obsluze software. Strana 1

Úvod do problematiky ÚPRAVY TABULKY

KAPITOLA 11 - POKROČILÁ PRÁCE S TABULKOVÝM PROCESOREM

Přehledy pro Tabulky Hlavním smyslem této nové agendy je jednoduché řazení, filtrování a seskupování dle libovolných sloupců.

ZARÁŽKY A TABULÁTORY V MS OFFICE WORD

Změna formuláře při výběru kompetencí (odborných dovedností) 1. Hledání textové formulace kompetence - odborné dovednosti

Reliance 3 design OBSAH

Excel 2007 pro začátečníky

HROMADNÉ ÚPRAVY NAJÍT A NAHRADIT

8. Formátování. Úprava vzhledu tabulky

ZŠ ÚnO, Bratří Čapků 1332

Práce s programem IIS Ekonom

Pracovat budeme se sestavou Finanční tok. S ostatními se pracuje obdobně. Objeví se předdefinovaná sestava. Obrázek 1

Obsah, oddíly, záhlaví a zápatí, číslování stránek Word egon. Obsah dokumentu, oddíly, záhlaví a zápatí, číslování

Excel tabulkový procesor

KONTINGENČNÍ TABULKY Komentované řešení pomocí programu Statistica

Přílohy. Příloha 1. Obr. P1.1 Zadání úlohy v MS Excel

Časové řady - Cvičení

Pracovní prostředí Excel 2010

OFFICE MS EXCEL SEZNÁMENÍ S PROGRAMEM

Použití databází. Mnoho postupů, které si ukážeme pro prací s formulářů využijeme i při návrhu tiskových sestav.

Práce v programu Word 2003

Stručný manuál k ovládání programu STATISTICA. Mgr. Petra Beranová Ing. Miloš Uldrich

V modulu Vygenerovaná korespondence jsme na vaši žádost přidali další šablonu tentokrát jsme připravili dokument Výzva na Finanční úřad.

Pracovní prostředí Word 2003 versus Word 2010

Odhady parametrů základního souboru. Cvičení 6 Statistické metody a zpracování dat 1 (podzim 2016) Brno, říjen listopad 2016 Ambrožová Klára

GDPR General Data Protection Regulation

Integrovaná střední škola, Kumburská 846, Nová Paka. NetStorage. Webový přístup k souborům uložených na serveru Novell NetWare

Jeden z mírně náročnějších příkladů, zaměřený na úpravu formátu buňky a především na detailnější práci s grafem (a jeho modifikacemi).

KAPITOLA 12 - POKROČILÁ PRÁCE S TABULKOVÝM PROCESOREM

Databox CONTACT 6 základní operace programu

Tabulkový editor MS Excel II

Šablona KRYPTON. Slidery na úvodní straně. kompletní návod pro obsluhu všech nově přidaných funkcí

Transkript:

StatSoft Zpracování chybějících dat a dat mimo rozsah V tomto článku si představíme jeden z možných postupů, jak se rychle a snadno vypořádat s detekcí chybějících dat a dat mimo stanovený rozsah. Načtení souboru Postup si představíme na kompletním příkladu, jak postupovat. Začneme samotným datovým souborem a jeho načtením. Máme excelovský soubor, do kterého byly ručně zadány výsledky dotazníkového šetření. Soubor obsahuje řadu chybějících hodnot a překlepů. Přes Soubor -> Otevřít načteme tento datový soubor: V posledním kroku mě software STATISTICA upozorňuje na to, že v proměnné, kterou vyhodnotil jako číselnou, se vyskytují textové popisky. Ve verzi 12 lze zaškrtnou Provést pro všechny a nově kliknout na Převést na ChD, v tomto případě budou textové popisky v číselných proměnných (např. N/A apod.) převedeny na chybějící pozorování, tedy na prázdnou buňku. Starší verze tuto možnost nemají, a proto si ukážeme případ, kde tyto textové popisky v číslených proměnných máme.

Editor textových hodnot Dvojklikem na záhlaví každé proměnné můžeme vyvolat dialog konkrétní proměnné a v části Textové hodnoty se lze podívat, jestli se zde nějaký text (kterému by software přiřadil číselnou reprezentaci) nevyskytuje: Vlastní překódování bychom potom provedli individuálně, například takto: Textový popisek má od softwaru přiřazenu číselnou reprezentaci, pokud je proměnná typu Double, lze se na tuto reprezentaci v Editoru textových hodnot podívat. Pokud je proměnná typu Text, přiřazení čísel proběhne automaticky až v případě využití proměnné k analýze. Máte-li v softwaru kategorické proměnné, které budou vstupovat do analýz jako grupovací proměnné (faktory), doporučujeme mít všechny tyto proměnné jako číselný typ Double s právě zmíněnými textovými popisky. Číselnou reprezentaci si mohu libovolně překódovat (v Editoru textových hodnot) na vlastní hodnoty (vhodné a využitelné například u pořadí sloupcových grafů nebo při řazení případů číselně, apod.). Změnu z Text na Double provedeme buď jednotlivě ve specifikaci jednotlivých proměnných nebo hromadně ve specifikaci všech proměnných, tedy po kliknutí na tlačítko Všechny specif. v dialogu kterékoli proměnné. Poznámka: Textové popisky jsou vlastně přiřazení textu jakékoli číselné hodnotě, což je vhodné především pro přehlednost souboru, kde můžeme vidět buď textové popisky nebo číselnou reprezentaci. U proměnných číselných jsou samozřejmě textové popisky nežádoucí, pojďme se nyní podívat na to, jak bychom je detekovali.

Detekce neexistujících kategorií Jednou z možností, jak se podívat na jednotlivé proměnné je tabulka četností. V základních statistikách vybere Tabulku četností: V případě našeho datového souboru (výsledky dotazníkového šetření) vybereme všechny proměnné a klikneme na Výpočet. Postupně se proklikám jednotlivými tabulkami četností v sešitu výsledků a snadno identifikuji, jestli se v datech nevyskytují jiné kategorie, než mají, kolik je chybějících hodnot, atd. V případě, že v datovém souboru máme i spojité proměnné, tak tyto proměnné načteme zvlášť v druhém kroku, v dialogu tabulky četností přepneme na Detaily a zvolíme například Pěkné intervaly:

Takto můžeme například identifikovat hodnoty, které jsou například mimo reálně možné meze. Berme tuto metodu pouze jakousi základní hrubou detekci nevhodných dat, rozsahy intervalů bychom pro potřeby popisné statistiky optimalizovali samozřejmě pro každou proměnnou zvlášť. V hlavní roli průzkumník Nyní bychom chtěli identifikovat případy (řádky), ve kterých se škodlivá data vyskytují, to bude dalším krokem v naší analýze. Využijeme grafickou metodu, kterou je Graf chybějících hodnot. V záložce Grafy -> 2D -> Grafy chybějících hodnot dat nebo dat mimo rozsah otevřeme dialog tohoto grafu a vybereme proměnné. Přepneme na kartu Detaily a v roletce zvolíme Oboje (tedy detekci dat mimo rozsah i ChD). V části Zadejte platný rozsah dat je možné zvolit rozmezí hodnot, které jsou platné. V našich datech máme dva možné typy rozsahů, rozdělíme tedy proměnné na dvě skupiny a určíme pro ně rozsahy. Zvolíme první a druhou sadu proměnných a upřesníme jejich rozsah (to je výhodné především u dotazníků, kdy víme předem, jaké jsou možné výsledky otázky, které otázky jsou například na škále 1-10, atd.), po té klikneme Ok a získáme graf. Jedná se o graf, který vykresluje místa, kde v souboru chybí pozorování nebo je zde pozorování mimo stanovený rozsah. Jsou tedy vyobrazeny jen problémové místa souboru. Najedeme-li kurzorem na konkrétní označené pozorování, získáme informaci o čísle případu (v obrázku jde o pozorování č. 18). Naším cílem je identifikovat všechna tato pozorování v datovém souboru. Jednou z možností je využít interaktivního průzkumníka grafu. V záložce Upravit vyberme Průzkumníka (to platí

pro nabídky typu Pás karet nebo klikneme do grafu pravým tlačítkem například vedle nadpisu - a vybereme Průzkumník). Poté obdélníkovým výběrem vyberte označte body grafu při zapnutém Průzkumníku dáte kurzor do plochy grafu, následně stiskněme levé tlačítko myši a označme (roztáhněme čtverec) celou plochu grafu. V dialogu Průzkumníka zvolme potom např. Obarvit a klikněme na Použít a následně na Konec: Případy, které přísluší označeným bodům v grafu, byly obarveny přímo v datovém souboru. Klávesou F1 v dialogu Průzkumník vyvoláme nápovědu, kde je popsán význam jednotlivých možností. Novinkou ve verzi STATISTICA 12 je možnost (přes pravé tlačítko myši) označená data nechat vygenerovat jako podmnožinu do nové tabulky. Na takovéto podmnožině se poté přehledně podíváme na jednotlivá vadná pozorování.

Náš hlavní hrdina (Průzkumník) má široké využití, a proto se k němu budeme v budoucnu pravidelně vracet a jednotlivé možnosti popisovat. Možnost Ověřit data Velmi obdobně, jako jsme využili před chvílí graf hodnot mimo rozsah, můžeme najít data mimo rozsah i jinak. Stačí použít funkcionalitu Ověřit data, kterou najdeme v záložce Data-Ověřit-Ověřit data Zde si můžeme zadat velký počet podmínek a omezení, které mají data splňovat (tyto podmínky lze pomocí tlačítka Uložit jako uložit pro pozdější použití, taktéž lze pomocí Otevřít podmínky nahrát). Data, která nejsou platná poté můžeme označit pomocí tlačítka Označit neplatné nebo jít jedno neplatné pozorování po druhém, podobně jako funguje vyhledávání textu v souborech(tlačítko Nalézt první a poté přejít na další pomocí klávesové zkratky ctrl+f3). Takto je možné neplatné pozorování v souboru postupně kontrolovat a případně přímo manuálně opravovat.