Generování dat. Generování pomocí funkcí

Podobné dokumenty
Textové popisky. Typ dat

Slučování tabulek. Sloučení dvou tabulek

Předpovídejte snadno a rychle

Manuální kroková regrese Newsletter Statistica ACADEMY

StatSoft Jak vyzrát na datum

Soutěž: Nejméně kliknutí

Programujeme v softwaru Statistica

Zpracování chybějících dat a dat mimo rozsah

Vzorce. StatSoft. Vzorce. Kde všude se dá zadat vzorec

Zobrazení zdrojových dat u krabicového grafu

Příprava dat v softwaru Statistica

Programujeme v softwaru Statistica - příklady

Uživatelská příručka pro ředitele škol

STATISTICA Téma 1. Práce s datovým souborem

Pro definici pracovní doby nejdříve zvolíme, zda chceme použít pouze informační

Typy souborů ve STATISTICA. Tento článek poslouží jako přehled hlavních typů souborů v programu

TESTOVÁNÍ KVALITATIVNÍCH ZNAKŮ V PROGRAMU

Omezení funkcionalit v softwaru STATISTICA

GOODWILL vyššší odborná škola, s. r. o. P. Holého 400, Frýdek-Místek

Statistica Enterprise

Export tabulky výsledků

StatSoft Jak se pozná normalita pomocí grafů?

NÁHODNÉ VELIČINY JAK SE NÁHODNÁ ČÍSLA PŘEVEDOU NA HODNOTY NÁHODNÝCH VELIČIN?

Téma 9: Vícenásobná regrese

Postup obnovy a nastavení nového připojovacího certifikátu pro úložiště SÚKL

Autodesk Inventor 8 - výkresová dokumentace, nastavení

Postup: Nejprve musíme vyplnit tabulku. Pak bude vypadat takto:

THEOPHILOS. (návod k použití)

METODICKÝ POKYN PRÁCE S PORTÁLEM DUMY.CZ. Tento projekt je spolufinancován Evropským sociálním fondem a státním rozpočtem České republiky.

Národní šetření výsledků žáků v počátečním vzdělávání

Microsoft Word - Styly, obsah a další

Výsledný graf ukazuje následující obrázek.

Hromadná korespondence

Simulace. Simulace dat. Parametry

Postup získání a nastavení připojovacího certifikátu pro úložiště SÚKL k použití pro elektronické recepty v systému Mediox

V ukázce jsou zalomení řádku signalizována znakem a konce odstavců znakem. Nástroje Vkládání odrážek a číslování v nabídce DOMŮ v sekci ODSTAVEC.

Instalace. Produkt je odzkoušen pro MS SQL server 2008 a Windows XP a Windows 7. Pro jiné verze SQL server a Windows nebyl testován.

E-BILLING UŽIVATELSKÝ MANUÁL. Platí od

UŽIVATELSKÁ PŘÍRUČKA PRO HOMEBANKING PPF banky a.s.

MS SQL Server 2008 Management Studio Tutoriál

Návod k práci s programem MMPI-2

Formátování pomocí stylů

PŘÍRUČKA PRÁCE SE SYSTÉMEM SLMS CLASS pro učitele

Nejčastější změny v rozvrhu hodin

2HCS Fakturace 3 - výzvy k platbě (upomínky) -

Business Media CZ, s. r. o., člen skupiny Docu Group Company

Studijní informační systém. Tvorba rozvrhu ve Studijním informačním systému (SIS) I. Obecné principy

Ovládání Open Office.org Calc Ukládání dokumentu : Levým tlačítkem myši kliknete v menu na Soubor a pak na Uložit jako.

Excel tabulkový procesor

1. Zapnutí a vypnutí 2. Přidání režimu do seznamu provedení

Vzorce. Suma. Tvorba vzorce napsáním. Tvorba vzorců průvodcem

Excel tabulkový procesor

Práce s programem MPVaK

Návod na tvorbu časové přímky v programu Microsoft PowerPoint 2013

František Hudek. červen 2012

STATISTICA Téma 8. Regresní a korelační analýza, regrese prostá

KORELACE. Komentované řešení pomocí programu Statistica

Systém eprojekty Příručka uživatele

Pracovat budeme se sestavou Finanční tok. S ostatními se pracuje obdobně. Objeví se předdefinovaná sestava. Obrázek 1

Tutoriál k AUKRO konektoru InShop4

Bayesovské metody. Mnohorozměrná analýza dat

Kapitola 11: Formuláře 151

Vkládání prvků do dokumentu MS Word

6. Formátování: Formátování odstavce

StatSoft Jak poznat vliv faktorů vizuálně

Internetový prohlížeč-vyhledávání a ukládání dat z internetu do počítače

NÁVOD PRO PRÁCI S ems PŘI VYÚČTOVÁNÍ PROJEKTU PŘÍJEMCEM DOTACE

Generování přístupových údajů a certifikátů pro zdravotnická zařízení

UŽIVATELSKÁ PŘÍRUČKA PRO HOMEBANKING PPF banky a.s.

Stručný manuál k ovládání programu STATISTICA. Mgr. Petra Beranová

GeoGebra známá i neznámá

DVOUVÝBĚROVÉ A PÁROVÉ TESTY Komentované řešení pomocí programu Statistica

AUTOMATICKÉ ZÁLOHOVÁNÍ DATABÁZE PRO SQL Express 2005

VYUŽITÍ PRAVDĚPODOBNOSTNÍ METODY MONTE CARLO V SOUDNÍM INŽENÝRSTVÍ

Historie. Mapový podklad. Aktuální stav jednotek

pro začátečníky pro pokročilé na místě (dle požadavků zákazníka)

Intervalový odhad. Interval spolehlivosti = intervalový odhad nějakého parametru s danou pravděpodobností = konfidenční interval pro daný parametr

Návod na základní používání Helpdesku AGEL

Návod pro použití aplikace crisp [vyjádření]

Modul IRZ návod k použití

Návod na aktivaci účtu SÚKL a vygenerování certifikátu pro přístup do centrálního úložiště receptů

Tabulkový kalkulátor. Tabulkový kalkulátor. LibreOffice Calc 12.část

Karusel. Compiled :34:04 by Document Globe 1

Návod na nastavení klienta pro připojení k WiFi síti SPŠE Brno

Obr. P1.1 Zadání úlohy v MS Excel

Nastavení MS Windows XP (SP2) pro připojení k eduroam na UTIA AVCR

1. Pro přihlášení k odběru novinek klikněte na tlačítko Registrace nového uživatele.

Návod pro SMS Operátor off-line klient

Bakala ř i - manua l. Obsah

V případě, že váš operační systém Windows neobsahuje nástroj BitLocker, stahujete jej jen ze stránek Microsoft, odkaz ZDE.

Generování pseudonáhodných. Ing. Michal Dorda, Ph.D.

Registrační číslo projektu: CZ.1.07/1.5.00/ Název projektu: Moderní škola 21. století. Zařazení materiálu: Ověření materiálu ve výuce:

Začínáme pracovat s tabulkovým procesorem MS Excel

si.shimano.com Uživatelský návod

Přílohy. Příloha 1. Obr. P1.1 Zadání úlohy v MS Excel

INTERNETOVÉ BANKOVNICTVÍ Hromadné platby a stahování výpisů

Excel tabulkový procesor

Transkript:

Generování dat Newsletter Statistica ACADEMY Téma: Simulace, pravděpodobnostní rozdělení Typ článku: Návody Pokud se dostanete do situace, kdy budete potřebovat nasimulovat data z nějakého rozdělení, Statistica Vám s tímto úkolem pomůže. Ukážeme si možnosti, jak generovat data z konkrétních rozdělení a to nejen jednorozměrných, ale i vícerozměrných. Pokud byste si chtěli na začátek zopakovat, co je pravděpodobnostní rozdělení a jaká rozdělení známe, pak se může hodit jeden z našich starších článků. Generování pomocí funkcí První možností, jak nagenerovat data z konkrétního rozdělení přímo do proměnné, je pomocí funkcí. Rozkliknete dialog proměnné a do okénka pro vzorec vybereme jednu z funkcí, které generují náhodná čísla. Poznáte je jednoduše, tyto funkce začínají písmeny rnd. Nejklasičtějším zástupcem je funkce rnd(x), která generuje čísla z intervalu (0,x) a to rovnoměrně. Tato funkce je nejpoužívanější a jistě nejužitečnější. Náhodná čísla takto vygenerovaná lze použít mnoha způsoby pro nejrůznější účely. Zmiňme několik z nich: Můžeme využít pro generování dat z jiných rozdělení: simulace hodu mincí: =round(rnd(1)) Simulace hodu kostkou: =floor(rnd(6)) Transformace náhodné veličiny ze spojitého rovnoměrného rozdělení v intervalu (0;1) mohou dát i jiná rozdělení. Vygenerování identifikátoru trénovací a testovací

množiny. Pokud chceme zastoupení přibližně 70 ku 30, tak to zajistíme například takto: =iif(rnd(1)>0,3; Trénovací ; Testovací ) Náhodně vybrat nějaké množství případů stačí vytvořit pomocnou proměnnou =rnd(1), seřadit soubor podle této proměnné a vybrat požadovaný počet případů. Když už jsme u generování náhodných čísel z intervalu (0;1), zmiňme možnost vyplnit blok dat náhodnými čísly pokud potřebujete rychle vyplnit nějakou oblast daty (například v případě, že chcete mít rychle po ruce data se spojitými proměnnými, na kterých si chcete rychle něco ve Statistice zkoušet), pak můžete využít funkcionalitu: Vyplnit náhodnými hodnotami (vyberete oblast, kliknete do ní pravým tlačítkem a vyberete Vyplnit/standardizovat blok > Vyplnit náhodnými hodnotami). Generování vícerozměrných rozdělení Pokud potřebujeme nasimulovat nějaké složitější chování, jistě se nám bude hodit funkcionalita pro generování vícerozměrných dat. Můžeme si volit typ rozdělení pro danou veličinu, stejně tak korelaci mezi veličinami. Máme několik možností, jak si zvolit schéma pro generování: Nastavíme si přesné parametry rozdělení veličin i korelací sami: Funkcionality pro generování a odhad vícerozměrných rozdělení najdete ve Statistiky > Simulace a rozdělení. Pro kompletně nový návrh vybereme možnost Návrh simulace. Po stisknutí OK se objeví hláška, že chybí vstup ve formě matice. Matice je jeden z formátů Statistica a má svůj speciální tvar. Statistica jej v tomto kroku potřebuje, protože v ní jsou uložena rozdělení, stejně jako korelační struktura simulovaných dat. 2 Generování dat Statistica ACADEMY (srpen 2015)

My ale teprve chceme návrh vytvořit, hláška je tedy v pořádku a zmáčkneme OK. Objeví se nám dialog pro specifikaci počtu a jmen proměnných. Vyplníme ji podle toho, jak potřebujeme, a zmáčkneme OK. Objeví se nám matice návrhu (defaultně nastavená) a také dialog pro specifikaci rozdělení. Nejprve specifikujte korelace mezi veličinami přímo v matici. Poté přejděte do dialogu a nadefinujte zde rozdělení a jejich parametry: na pravé straně dialogu je podrobný návod, co dělat Po nastavení rozdělení klikneme na Uložit na vstup, což uloží vybraná rozdělení do matice. Toto je důležitá informace, formát matice v sobě má uloženu i informaci o rozděleních, i když to není navenek vidět. Dejte si na to pozor, i dvě stejně vypadající matice mohou být různé pro generování náhodných čísel. Poté zmáčkněte OK v dialogu návrhu simulace. Objeví se okno pro specifikaci simulace, můžeme si vybrat více simulačních algoritmů. Pokud chceme generovat data s přihlédnutím k nadefinované korelační struktuře, musíme vybrat některou z metod v sekci Ověření závislosti. Ostatní nastavení jsou intuitivní. Počet vzorků je počet řádků, které chceme vygenerovat. Možnost Oříznout simul. hodnoty do intervalu ořízne nejodlehlejší hodnoty, které vznikly generováním. Zaškrtnutí Automaticky aktualizovat v aktuální tabulce říká, že po opakovaném stisknutí tlačítka Simulovat se budou předchozí nasimulovaná data přepisovat a nebude vytvořen nový soubor. 3 Generování dat Statistica ACADEMY (srpen 2015)

S výslednými daty chcete většinou ihned nějak pracovat. Je potřeba zmínit, že po vygenerování dat není tabulka vnímána jako aktivní tabulka pro analýzu, ale jen jako výsledek. Proto nejdřív musíte zaškrtnout zaškrtávátko Vstup v záložce Data. Nyní je možné s daty pracovat a dělat na nich analýzy. My nyní zkusíme spočítat korelace a popisné statistiky, abychom zjistili, zda nagenerovaná data splňují to, co jsme do simulace zadali. Korelační matice i histogramy odhalují, že data jsou nagenerována přesně podle našeho zadání (všimněte si, že jsme generovali ze spojitých i diskrétních rozdělení): 4 Generování dat Statistica ACADEMY (srpen 2015)

Matici, podle které lze generovat data, si můžete uložit ve formátu s koncovkou smx. Poznámka: Formát matice je možné získat jako výstup u některých metod, jako příklad uveďme výstup z korelační analýzy. Dále je možné příklad formátu matice najít v datových souborech příkladů pod názvem CorrelationMatrix.smx. 5 Generování dat Statistica ACADEMY (srpen 2015)

Parametry simulace se nastaví na základě odhadu z dat: Tato možnost je běžně využívána v nejrůznějších aplikacích, kdy už máme nasbírán vzorek dat a na jejich základě se ptáme například, jak často může nastat nějaká situace. Na reálných datech provedete odhad pravděpodobnostní struktury a poté můžete ze stejné struktury simulovat další a další data, což může pomoci například pro zjištění chování dat, aniž bychom data reálně sbírali či měřili. Krásný příklad na toto téma najdete v nápovědě: Statistics Analyses Distributions & Simulations Distributions &Simulation Example. Jak to provedeme v praxi? Ve zkratce: Máme data, na nich zjistíme, jakého jsou rozdělení a jakou mají korelační strukturu a na základě této parametrizace budeme simulovat data nová. My použijeme pro náš příklad jako náhražku reálných dat výstup z minulého bodu, nicméně Vy můžete pracovat s jakýmkoli souborem, na kterém chcete odhadnout jeho pravděpodobnostní rozdělení. My máme tedy 3 rozměrná data se dvěma spojitými a jednou kategorickou veličinou. Postup: Máme otevřena jen tato data, matici návrhu budeme teprve tvořit. Vybereme: Statistiky Rozdělení a simulace Proložení dat rozděleními. Zvolíme proměnné, pokud máme představu, z jakých rozdělení mají být data, pak zvolíme i prostor posuzovaných rozdělení v záložkách Spojité/Diskrétní proměnné. Klikneme na OK. Ve výsledcích si můžeme vybrat proměnnou, provést nejrůznější diagnostické grafy, podívat se na výsledky testů a podle těchto nástrojů určit, jaké je rozdělení každé z veličin. 6 Generování dat Statistica ACADEMY (srpen 2015)

Jak uložit rozdělení: Pomocí tlačítka Uložit proložení distr. můžete vygenerovat matici návrhu simulace s vybranými rozděleními, včetně korelační matice. Uloží se distribuce, které byly nejvýše v seznamu rozdělení v záložce Uložit proložení. Pokud chcete změnit pořadí a dát na první místo rozdělení, které podle Vás data popisuje, pak použijte šipky vpravo: Pokud chcete vybrat konkrétní rozdělení i jeho parametry, pak zaškrtněte zaškrkávátko Použít vlastní rozdělení a po kliknutí na Vlastní rozdělení můžete nadefinovat konkrétní rozdělení, dokonce i s hranicemi odkud kam mohou data sahat, tedy oříznutí: Pokud již máte korelační matici i s rozděleními: Pak jsou dvě možnosti: buď využít možnost Statistiky > Simulace a rozdělení > Spustit simulaci a přímo pouze vybrat parametry simulování bez možnosti nějak kontrolovat nebo měnit parametry rozdělení. Druhou možností je stejný postup jako v prvním případě, tedy přes Statistiky > Simulace a rozdělení > Návrh simulace, jen již není potřeba specifikovat rozdělení, ta se načtou z informací 7 Generování dat Statistica ACADEMY (srpen 2015)

v souboru matice. Výhodou tohoto postupu je, že si můžeme zkontrolovat či změnit rozdělení, ze kterých generujeme data. Poznámka: Pokud si chcete ověřit, jaká rozdělení se skrývají pod korelační maticí, pak stačí vyvolat Návrh simulace na tuto korelační matici. Závěr V tomto článku jsme Vám odkryli další část softwaru. Věříme, že ji využijete nejen při simulacích, ale také při hledání rozdělení pro Vaše data. Ukázané funkcionality totiž obsahují mnoho zajímavých grafických výstupů i testů, podle kterých se můžete řídit. Vystižení struktury dat a možnost generovat data na základě této struktury, může usnadnit mnoho práce a času a také odpovědět na důležité otázky, které Vás trápí. Věříme, že možnosti generovat náhodná čísla nejen z jednorozměrných, ale také vícerozměrných rozdělení, využijete. 8 Generování dat Statistica ACADEMY (srpen 2015) Dell Information Management Software Group V Parku 2325/16, 148 00 Praha 4 t +420 233 325 006, e info@statistica.cz www.dell.cz/statsoft, www.statsoft.cz