STATISTICA Data Miner

Rozměr: px
Začít zobrazení ze stránky:

Download "STATISTICA Data Miner"

Transkript

1 STATISTICA Data Miner I Základní přehled vlastností systému STATISTICA Data Miner Obsahuje nejrozsáhlejší výběr analytických technik dostupný na trhu (zdaleka největší výběr algoritmů na shlukování, pro různé typy neuronových sítí, interaktivních regresních a klasifikačních stromů, vícerozměrného modelování /včetně např. MAR splinů/ a mnoho dalších; dle našich nejlepších znalostí také největší výběr grafických procedur v porovnání s libovolným produktem, který by měl sloužit podobným cílům). Velký výběr připravených obsáhlých dataminingových projektů, které jsou kompletně přednastavené specialisty společnosti StatSoft a externími experty pro časté dataminingové problémy. Tyto projekty zahrnují i možnost porovnání několika alternativních modelů a výběr různých způsobů jejich použití (např. bagging, boosting, stacking, meta-learning apod.), výstup z těchto modelů je pomocí reportů v nejvyšší kvalitě. Extrémně snadno ovladatelný grafický interface založený na metodě táhni a pusť (drag and drop), který je snadno použitelný i pro začínající uživatele, ale při tom umožňuje okamžitý přístup k používaným skriptům. Modely jsou tvořeny pomocí ikon a šipek. Ikony reprezentují analytické uzly (moduly). STATISTICA Data Miner umožňuje snadnou přípravu vlastních uzlů a jejich kompletní integraci do systému. Výsledkem je systém odpovídající specifickým požadavkům uživatele, kde není možné rozeznat, který z uzlů byl v systému původně, který byl připraven dle konkrétních požadavků uživatele společností StatSoft a který si připravil uživatel velmi jednoduše (např. jednoduše přetažením z Průzkumníka Windows do Prohlížeče uzlů) sám. Velmi užitečné interaktivní nástroje pro průzkum dat (včetně metod jako drilling, slicing, dicing) a jejich vizualizaci. Optimalizováno pro zpracování extrémně velkých dat i z více zdrojů simultánně. Vysoce optimalizovaný přístup k databázím a datovým skladům včetně technologie IDP (In-Place Database Processing), která umožňuje číst data asynchronně přímo z databázového serveru (bez nutnosti importu dat a vytváření lokální kopie souboru). Takto je možné časově náročné dotazy přenést na stranu serveru. Flexibilní možnosti deploymentu (použití dříve natrénovaných modelů na jiných datech či na vzorku dat) s možnostmi exportu modelů do PMML (Predictive Models 1

2 Markup Language), C++, Java, Visual Basic. Možnost použití extrémně rychlého a efektivní deploymentu pomocí standardní syntaxe PMML, natrénované modely lze používat jak v desktop verzi, tak v client-server verzi (při použití systému WebSTATISTICA). Standardní vývojové prostředí, které umožňuje spravovat optimalizované analytické objekty (uzly) za použití skriptů ve standardním Visual Basicu. Otevřená COM-architektura, neomezené možnosti automatizace a podpora vlastních rozšíření (pomocí Visual Basicu, Java, C++) plně programovatelný a přizpůsobitelný systém. Kompletní podpora práce přes internet či intranet pomocí systému WebSTATISTICA (prakticky naprosto stejné ovládání jako v desktop verzi, ale v internetovém prohlížeči!). Zároveň tato verze podporuje true distributed processing za použití více procesorů anebo počítačů. Všechny procedury programů řady programů STATISTICA jsou dostupné jako uzly v systému STATISTICA Data Miner. Prostředí STATISTICA Data Miner je plně integrované s prostředím STATISTICA. Výsledky lze přehledně organizovat v protokolech, tabulkách, pracovních sešitech apod. Lze je také okamžitě publikovat na internetu. Možnost automatické aktualizace analýz a výsledků, kdykoliv dojde ke změně dat. Demonstrační video k systému STATISTICA Data Miner lze spustit přímo z internetu ze stránek II Pracovní prostředí systému STATISTICA Data Miner Systém STATISTICA Data Miner obsahuje grafické uživatelské prostředí, vysoce optimalizované pro práci na datamingových projektech, v kterém lze propojovat data, analýzy či výsledky jednoduše pomocí přetažení ikon a propojení pomocí šipek. V jeden okamžik lze otevřít libovolné množství pracovních prostředí a například jednoduše pomocí myši přetahovat jednotlivé uzly (či celé větve uzlů) mezi těmito prostředími. Zároveň je podporován vstup do jednoho uzlu z více míst typicky z více datových souborů, stejně tak z jednoho datového souboru lze provádět více analýz. Pracovní prostředí je vždy otevřeno v okně přímo v prostředí STATISTICA, které samo o sobě je velice optimalizované a standardní ( Microsoft-like ), čímž je dosaženo toho, že uživatel velmi rychle zvládne ovládání či přizpůsobení si tohoto prostředí (vlastní nabídky, panely nástrojů apod.). 2

3 Uživatel má možnost si jednotlivé uzly upravit podle potřeb svého datamingového projektu jednak nastavením z mnoha parametrů analýzy (dostupných pouhým poklepáním myší), ale také má přístup přímo i ke skriptu ve Visual Basicu, který daný uzel spravuje (jedná se o interface k danému uzlu, samotná procedura je vždy napsána v C++ a vysoce optimalizována tak, aby mohla být použita i pro velmi velké objemy dat, které se obvykle při dataminingu používají). Další velmi důležitou vlastností je možnost plné integrace vlastních uzlů tím, že se buď napíší zcela od začátku, ale typicky spíše pomocí upravení některého již existujícího analytického uzlu. Takto přidaný uzel se chová naprosto stejně jako kterýkoliv uzel, který je v systému originálně. III Používání systému STATISTICA Data Miner s velkými soubory dat STATISTICA Data Miner samozřejmě umožňuje okamžitě pracovat s různými formáty dat jako je soubor Excelu (.xls), soubor dbase (.dbf), textový soubor (.txt,.csv), soubor html (.htm,.html) a mnoha dalšími, ovšem typický datamingový projekt bude spíše zahrnovat získávání dat z databáze nebo datového skladu. Proto je STATISTICA Data Miner optimalizován pro zpracování extrémně velkých dat s miliony případů i miliony proměnných. Porovnání ukázala, že tento systém je až 2x rychlejší než jiné (i výrazně méně pokročilé a obsáhlé) systémy nabízené pro podobné aplikace. Systém STATISTICA Data Miner může číst data z libovolné databáze, která podporuje OLE DB (což podporuje každá běžně používaná databáze). Součástí systému je i intuitivní grafické prostředí pro tvorbu dotazů do databází. Toto prostředí je velice snadno 3

4 použitelné, ale zároveň poskytuje i přístup k textovému SQL dotazu pro případné nestandardní doplnění dotazu. STATISTICA Data Miner obsahuje možnosti ke zpracování databází na místě pomocí vysoce optimalizované technologie In-Place Databases Processing (IDP). Pomocí této technologie je možné rozdělit práci na lokální stanici s databázovým serverem a tak provádět dotaz do databáze a přitom simultánně může běžet výpočet na lokální stanici. Tímto způsobem lze zpracovávat i data takové velikosti, že by je jinak vůbec nebylo možno zpracovat na lokální stanici a zároveň výrazně zrychlit zpracování u menších souborů dat. IV Přehled částí (modulů jednotlivý analytických uzlů) systému STATISTICA Data Miner Jednotlivé analytické moduly (a nyní ponecháme stranou nabídku stovek grafů) lze rozdělit do několika skupin na: Základní statistické moduly Pokročilé lineární a nelineární modely Vícerozměrné průzkumné techniky Specializované dataminingové moduly 4

5 Základní statistické moduly Základní statistiky a tabulky poskytuje přístup ke všem základním statistikám výpočet mnoha popisných statistik (průměr, rozptyl, apod. včetně např. libovolných kvantilů), korelací či kontingenčních tabulek ANOVA detailní zpracování metod analýzy rozptylu Vícerozměrná lineární regrese základní regresní model Neparametrická statistika obsahuje robustní statistické testy a postupy Prokládání rozdělení nabízí možnosti k testování spojitých a diskrétních rozdělení Pokročilé lineární a nelineární modely Obecné lineární modely kompletní zpracování obecného lineární modelu (zobecnění lineární regrese či ANOVA); obsahuje možnost zadávání spojitých i kategorických nezávislých proměnných, umožňuje vytvářet modely s interakcemi či hierarchické modely, modely mohou být tvořeny pomocí několika postupů (krokově dopředně i zpětně, jen přidáváním či jen ubíráním, metoda nejlepší podskupiny) Zobecněné lineární a nelineární modely kompletní zpracování zobecněného lineárního modelu (mj. obsahuje analýzy logit a probit, ale obsahuje i jiné podobné metody); podobně jako mnoho jiných modulů obsahuje možnosti pro zadávání spojitých, kategorických i ordinálních závislých či nezávislých proměnných, umožňuje vytvářet modely s interakcemi či hierarchické modely, modely mohou být tvořeny pomocí několika postupů (krokově dopředně i zpětně, jen přidáváním či jen ubíráním, metoda nejlepší podskupiny) Obecné regresní modely kompletní zpracování regresních modelů; na rozdíl od obecného lineárního modelu je pro odhadování parametrů modelů použita metoda nejmenších čtverců (v obecném lineárním modelu jde o metodu maximální věrohodnosti) 5

6 Obecné modely s metodou parciálních nejmenších čtverců metoda nejmenších čtverců je zde použita pro libovolné schéma závislých a nezávislých proměnných Komponenty rozptylu obsáhlý výběr technik pro analýzu schématu, který může obsahovat náhodné i pevné efekty; může být použit taktéž pro analýzu interakcí schémat s velkým množstvím úrovní Analýza přežívání zpracování metod analýzy přežívání s cenzorovanými i necenzorovanými daty, umožňuje vytvářet různé tabulky života (typicky např. úmrtnostní tabulky), obsahuje zpracování Kaplan-Meierovy metody odhadu funkce přežívání, regresní (Coxovy) modely; jedná se o metody velmi často používané např. v životním pojištění Nelineární regrese jednoduchý modul pro rychlé zpracování nelineárních regresních modelů Log-lineární analýza kontingenčních tabulek obsahuje techniky pro detailnější analýzu (vícerozměrných) kontingenčních tabulek a výběr důležitých faktorů v těchto tabulkách Časové řady detailní zpracování problematiky časových řad zahrnuje metody ARIMA a přerušená ARIMA, exponenciální vyrovnávání, spektrální (Fourierova) analýzu jedné či dvou řad, sezónní dekompozice, metodu X11/Y2K Census II měsíčně a čtvrtletně, analýzu autokorelací a cross-korelací a vyhlazování; spolu s regresními modely představuje kompletní sadu technik pro analýzu časových řad a tvorbu předpovědí Modelování pomocí strukturálních rovnic velmi obecná analytická technika, která nachází aplikace např. jako kauzální modelování (analýza cesty), konfirmativní faktorová analýza, faktorová analýza druhého stupně, zobecnění regresní analýzy, modely struktury kovariancí a korelací Vícerozměrné průzkumné techniky Shluková analýza obsahuje obsáhlé zpracování klasických technik shlukové analýzy spojování (tvorba dendrogramu), dvojrozměrné spojování a metoda k-means; k dispozici je velký výběr parametrů shlukování jako např. typ spojování či způsob 6

7 určování vzdálenosti (euklidovská metrika, druhá mocnina této metriky, Čebyševova vzdálenost, apod.) Faktorová analýza účelem této již tradiční statistické metody je redukce počtu proměnných a detekce vztahů mezi proměnnými k umožnění jejich klasifikace; obsahuje analýzu hlavních komponent a analýzu hlavních faktorů pomocí různých metod (komunality, MINRES, maximálně věrohodné faktory a další) Kanonická analýza je doplňkem k jiným modulům, které obsahují míry korelace vyjadřující vztahy mezi proměnnými (např. Neparametrická statistika, Obecné lineární modely, Zobecněné lineární a nelineární modely, Základní statistiky a tabulky) umožňující zkoumání vztahů mezi dvěma sadami proměnných Klasifikační stromy jedná se o základní zpracování klasifikačních stromů (často jediné nabízené v ostatních produktech) výpočty binárních stromů založených na jednorozměrném dělení s možností zadávání kategoriálních, ordinálních a spojitých nezávislých proměnných (obsáhlejší zpracování klasifikačních i regresních stromů viz níže) Korespondenční analýza poskytuje nástroje pro analýzu dvou- i vícerozměrných tabulek, které mohou obsahovat nějakou míru korespondence mezi řádky a sloupci Vícerozměrné škálování populární metoda redukce dimenzí k vysvětlení vzdáleností či naopak similarit mezi zkoumanými objekty a Diskriminační analýza Obecné modely diskriminační analýzy velmi důležitá analytická metoda, která se používá v případě, kdy je snaha najít vlastnosti, které rozdělují objekty do několika skupin; obecné modely aplikují metody obecného lineárního modelu a umožňují mít na vstupu jak kategoriální, tak spojité proměnné a jejich libovolné interakce Specializované dataminingové moduly Feature selection and variables screening Tento modul umožňuje automaticky vybrat podskupinu proměnných z extrémně velkého datového souboru nebo z databáze připojené pomocí inplace processing. Díky unikátnímu algoritmu může být na vstupu prakticky 7

8 neomezený počet proměnných více jako milion (!) proměnných může být zpracováno ve velmi krátkém čase a z nich mohou být vybrány nejpravděpodobnější důležité proměnné, které mají vliv na daný regresní nebo klasifikační problém. Tento modul je obzvláště užitečný s použitím in-place processing databází (bez nutnosti tvorby lokální verze dat), kdy se používá ke skenování obrovského množství vstupních proměnných a vybrání kandidátůtěch proměnných, které mohou mít vliv na výsledek a jejich automatické propojení s dalšími analytickými uzly. Asociační pravidla Modul obsahuje kompletní implementaci apriorního algoritmu pro detekci asociačních pravidel (typický příklad je zákazník, který si objednal produkt A, si často objedná i produkt B a C ). Algoritmus je optimalizován tak, aby umožňoval velmi rychlé zpracování obrovských dat. Stejně jako u všech ostatních modulů (uzlů) i zde má uživatel pod svoji kontrolou veškeré parametry metody v tomto případě kompletní nastavení velikosti souvislostí, které jsou důležité v reálné aplikaci modelu. Nezanedbatelné je také použití asociačních pravidel při text-miningu. Interaktivní průzkumník s drill-down Prvním krokem ve většině dataminingových projektů je zkoumání dat interaktivně a snaha o získání prvního náhledu na data a jejich možné vztahy. Právě pro toto prvotní zkoumání byl tento modul navržen. Je kombinací grafických průzkumných analytických nástrojů spolu s nástroji pro tvorbu tabulek, díky nimž lze rychle získat přehled o proměnných v daném projektu a detekovat možné skupiny, do nichž se pozorování rozdělují. Co je drill-down? Jde o prozkoumání některých charakteristik pozorování pouze v některých vybraných skupinách ze všech dat je možné se soustředit pouze na jednotlivé skupiny anebo porovnávat skupiny mezi sebou (například lze porovnávat rizikovost v pojištění denní dávky u osob rozděleně dle pohlaví). Modul umožňuje uživateli interaktivně se více a více zavrtávat do dat výběrem dalších a dalších podmínek. Co je drill-up? Díky interaktivní podstatě modulu je možné nejen se stále více zavrtávat, ale také v kterémkoliv okamžiku již vyzkoušené rozdělení na podskupiny zrušit a získat tak náhled na data, která nejsou rozdělena dle dané proměnné. Interaktivní průzkumník s drill-down a OLAP (On-Line Analytic Processing) Nejjednodušší postupy, které umožňuje tento modul, jsou velmi obdobné funkcím, které nabízejí speciálně navržené nástroje pro OLAP. Nicméně zde je nutné zdůraznit, že Interaktivní průzkumník s drill-down je pouze jedním z velmi mnoha analytických nástrojů systému STATISTICA Data Miner, také 8

9 drill-up není běžnou součástí nástrojů pro OLAP. Samozřejmě také přístup ke všem grafickým prostředkům systému STATISTICA Data Miner spolu s platformovou nezávislostí přináší uživateli daleko více možností než běžné nástroje pro OLAP. Zobecněná shluková analýza Tento modul pro shlukovou analýzu je zdaleka nejpokročilejším nástrojem, který lze v současné době pro shlukování nalézt v řešeních pro datamining. Obsahuje zobecněnou EM (expectation maximization) shlukovou analýzu a zobecněnou analýzu metodou k-means. Modul je extenzí modulu pro shlukovou analýzy (viz výše), speciálně navrženou pro práci s velkým množstvím dat a pro vstup jak spojitých, tak kategorických proměnných. Umožňuje kompletně unsupervised learning pro hledání vzorů, včetně všech prostředků pro deployment v případě prediktivního shlukování (s použitím v jazyce C++, Java, Visual Basic či PMML). K dispozici jsou také prostředky pro křížové ověřování modelů a další algoritmy pro automatický výběr nejlepších možných řešení (včetně počtu shluků!). Zobecněné aditivní modely Modul obsahuje zpracování velmi moderní a populární metody rozšířené americko-kanadskou dvojicí Hastie a Tibshirani (1990). Jedná se o zobecnění lineárního modelu a stejně jako u jiných procedur systému STATISTICA Data Miner je implementace provedena tak, že je možné mít na vstupu kategorické i spojité proměnné včetně libovolných interakcí. K dispozici je velký výběr rozdělení závislé proměnné a linkujících funkcí (které spojují nezávislé proměnné se závislými) jako např. logaritmická, inverzní (pro spojité nezávislé proměnné) nebo logitová funkce (pro kategorické nezávislé proměnné). V modulu jsou využity kubické spliny, kdy je počet stupňů volnosti plně pod kontrolou uživatele. Samozřejmostí je velké množství výsledných statistik a grafů (např. lift-chart ) včetně historie tvorby modelu. Neuronové sítě Součástí systému STATISTICA Data Miner je také nejúplnější sada metod neuronových sítí, jaká je v současné době nabízena na trhu. Tato velmi užitečná komponenta nabízí nástroje, pomocí nichž je možno řešit vlastně jakýkoli problém související s vytěžováním dat (klasifikace, detekce skryté struktury, predikce, atd.). Jednou z unikátních vlastností tohoto modulu je i inteligentní výběr metod pro řešení problémů a automatičtí průvodci, kteří využívají technik umělé inteligence a kteří pomohou uživatelů s řešením nejnáročnějších problémů pokročilé analýzy pomocí neuronových sítí (např. volba nejlepší architektury sítě a nejlepší sady proměnných). Modul obsahuje opravdu špičkové procedury využívající neuronové sítě a optimalizované algoritmy - vícevrstvé perceptrony, samoorganizující se mapy funkcí, zpětné šíření (Back Propagation), metodu konjugovaných gradientů, převzorkování, křížové ověření, analýzu citlivosti, křivky ROC, soubory sítí a spoustu dalších. 9

10 Obecné klasifikační a regresní stromy (GTrees) Tento modul je obsáhlou implementací metod pospaných v literatuře CART od Breiman, Friedman, Olshen a Stone (1984). Modul GTrees ale navíc obsahuje různá rozšíření a možnosti, které se obvykle v jiných implementacích tohoto algoritmu nenacházejí a které jsou velice užitečné pro aplikace v dataminingu. Oproti standardním implementacím těchto metod umožňuje STATISTICA Data Miner vytvářet modely se spojitými nebo kategorickými nezávislými proměnnými i jejich interakcemi. Návrhy modelů jsou analogické návrhům a metodám v jiných modulech (například Obecné lineární modely, Obecná diskriminační analýza apod.). Modul poskytuje velký výběr možností pro ovládání procesu sestavování stromů, jejich prořezávání a pro volbu nejlepšího řešení. Pro spojité závislé kriteriální proměnné může být prořezávání založeno na rozptylu nebo se dá použít prořezávání metodou FACT. Pro kategorické závislé kriteriální proměnné se používá prořezávání podle počtu špatně klasifikovaných případů, podle rozptylu nebo prořezávání stylem FACT. Můžete si určit maximální počet uzlů stromu a minimální počet větví jednoho uzlu. Máte možnosti pro nalezení nejlepšího rozhodovacího stromu (např. pomocí křížového ověření nebo aplikací rozhodovacího stromu na nová pozorování ve vzorku dat). Pro kategorické kriteriální proměnné, např. pro klasifikační problémy, je možné zvolit různé míry, jimiž lze modifikovat algoritmus a ohodnotit kvalitu konečného rozhodovacího stromu. K dispozici je mj. i možnost určit apriorní pravděpodobnosti jednotlivých tříd klasifikace a penalizace za chybnou klasifikaci. Míry kvality rozhodovacího stromu obsahují Giniho míru, Chíkvadrát a G-kvadrát. Jednou z unikátních vlastností zpracování těchto stromů v systému STATISTICA Data Miner je možnost chybějící hodnoty dat v prediktorech zpracovat tak, že se umožní programu určit vhodná "místa" větvení pomocí náhradních proměnných, tj. podle proměnných, které jsou podobné příslušné proměnné použité pro určité větvení (uzel stromu). Možnost zobrazit si jednoduchý souhrnný graf stromu je doplněna ještě funkcí intuitivního interaktivního stromového prohlížeče, který vám umožní nechat zkolabovat nebo naopak expandovat libovolný uzel stromu a prohlédnout si k němu příslušné informace. Například můžete kliknutím označit určitý uzel v panelu prohlížeče a okamžitě uvidíte poměr dobře a špatně klasifikovaných případů pro daný uzel. Prohlížeč stromů poskytuje velice efektivní a intuitivní možnost pro kontrolu složitých stromových struktur pomocí metod, které jsou běžně používány v počítačových aplikacích. Několik oken prohlížeče stromových struktur může být otevřeno najednou, takže můžete zároveň sledovat celkový strom i několik jednotlivých podstromů, což vám umožní jejich snadné porovnání. Interaktivní prohlížeč stromů je důležitým nástrojem, který velice pomůže uživatelům při interpretaci složitých rozhodovacích stromů. 10

11 Klasifikační a regresní modely CHAID Stejně jako implementace obecných klasifikačních a regresních stromů (viz výše) v systému STATISTICA, ani modul Obecné modely CHAID neposkytuje jen obsáhlou implementaci původní techniky, ale její metody rozšiřuje na analýzu modelů se spojitými i kategorickými proměnnými, včetně interakcí u nezávislých proměnných. K dispozici je spousta možností, jak ovládat proces tvorby hierarchického stromu. Je zde např. možnost stanovit nejnižší počet větví v každém uzlu, maximální počet uzlů a pravděpodobnosti pro větvení a slučování kategorií. Uživatel také může provádět mohutná vyhledávání nejlepšího řešení (Exhaustive CHAID). Jako u jiných modulů i zde lze použít křížové ověření a ohodnotit stabilitu cílového řešení. Pro klasifikační problémy můžete určit i různé penalizace za chybnou klasifikaci. Pro implementaci modelů CHAID platí velmi mnoho z toho, co bylo uvedeno výše pro obecné klasifikační a regresní stromy. Asi jako nejdůležitější je nutno uvést, že i zde je k dispozici interaktivní prohlížeč stromů. Vícerozměrné adaptivní regresní spliny Jedná se o kompletní implementaci metody navržené Friedmanem (1991). Opět jako v jiných případech (např. u zobecněných aditivních modelů) je tato metoda rozšířena a zobecněna pro prakticky libovolný vstup a pro regresní i klasifikační problémy. Samozřejmě je také optimalizován pro zpracování velkých dat, což je velmi užitečné u rozsáhlých dataminingových projektů. Modul porovnání kvality proložení (goodness of fit) V dataminigovém projektu je typické použití více různých metod jak statistických, tak například metod umělé inteligence. Pro porovnání výsledků různých metod je nezbytné mít k dispozici nástroj, který by porovnal výsledky dosažené jednotlivými postupy a vybrat z nich ten nejlepší. Právě takovým nástrojem je tento modul. Je navržen jak pro kategorické, tak pro spojité nezávislé proměnné (pro klasifikační i regresní problémy). Může porovnávat výsledky libovolných metod obsažených v systému STATISTICA Data Miner (samozřejmě včetně těch, které si do tohoto systému dodá uživatel sám!). Pro porovnání výsledků je k dispozici větší množství statistik tak, aby se mohla použít vždy ta, která nejlépe odpovídá danému praktickému problému. Rapid deployment Modul rychlého použití prediktivních modelů umožňuje snadné nahrání jednoho nebo více standardních souborů PMML (Predictive Models Markup Language) s informacemi pro deployment modelů. Velice snadno lze tyto modely použít pro výpočet předpovědí (jedním průchodem daty) velkého počtu pozorování (platí i pro více alternativních modelů). Soubory PMML mohou být generovány v prakticky všech modulech pro prediktivní datamining. 11

12 Potud jsme zde uvedli přehled analytických možností (a to bez bližšího popsání grafických možností systému, kde se jedná o stovky grafů, přičemž tato paleta je samozřejmě ještě rozšiřitelná o libovolný uživatelský graf, neboť každý jednotlivý aspekt grafu každá jednotlivá čára apod. je upravitelná pouhým poklepáním myši a tyto úpravy lze ukládat a opětovně používat). Nesmíme zapomenout, že velmi důležitou součástí libovolného dataminingového projektu je předzpracování dat, která později vstupují do analýz. Tato část projektu je samozřejmě systémem STATISTICA Data Miner velmi podporována a zahrnuje předpřipravené uzly pro filtrování dat, vzorkování (včetně stratifikovaného), nahrazování chybějících dat, transformaci dat (např. možnost využití libovolné matematické formule včetně statistických funkcí a rozdělení) a mnohé další. Právě zde se projeví jako naprosto zásadní také možnost definice libovolných vlastních uzlů, které mohou odpovídat konkrétním potřebám jednotlivých uživatelů a povaze daného dataminingového projektu. Reálný dataminigový projekt bude samozřejmě prakticky vždy obsahovat směs výše uvedených modulů (od vstupních dat pomocí tabulky nebo připojení k databázi, přes transformaci a přípravu proměnných, dále použití analytických a grafických metod až k výsledkům umístěným v pracovním sešitě či přímo v reportu). V Client-server verze programu STATISTICA Data Miner a datamining pomocí systému WebSTATISTICA V desktop verzi programu STATISTICA Data Miner všechny výpočty probíhají na lokálním počítači a zdroje ostatních počítačů jsou použity pouze v případě, pokud je zadán interface do externí databáze pomocí In-Place Database Processing (IDP). IDP je technologie, která umožňuje asynchronní čtení dat přímo ze vzdáleného databázového serveru (za použití distribuovaného processingu, pokud jej podporuje server) a tím se obchází nutnost tvorby lokální kopie dat. Záznamy dat z databáze jsou posílány do počítače se systémem STATISTICA Data Miner asynchronně za použití CPU databázového serveru, přičemž STATISTICA Data Miner je simultánně zpracovává pomocí CPU lokálního počítače. Client-server architektura Při použití client-server verze systému STATISTICA Data Miner je lokální počítač použit pouze jako uživatelský interface k STATISTICA Data Miner a všechny výpočty probíhají na serveru. Client-server architektura využívá multithreadingu a technologie distribuovaného processingu (viz níže) a případně rozšíření na více serverů, které mohou pracovat paralelně. Tato architektura poskytuje zřejmé výhody v případě, že dataminingové projekty jsou velmi velké (např. výpočetně náročné či zahrnují zpracování extrémně velkých dat) je možné je přemístit na stranu serveru a uvolnit tak lokální počítač na jinou práci. Multithreading, distribuovaný processing Mnoho dalších výhod přináší konkrétní implementace client-server architektury v systému STATISTICA Data Miner, která je založena na použití systému WebSTATISTICA. Rozšíření na client-server verzi je velice snadné a například všechny vlastní analytické uzly lze 12

13 používat i při přechodu na client-server verzi. WebSTATISTICA je založena na pokročilém (true) distribuovaném processingu a multithreadingu tak, aby podporovala optimální zpracování velkých výpočtů. Tato technologie umožňuje rychlé zpracování i velmi velkých a výpočetně náročných projektů, neboť plně využívá více CPU na serveru a dokonce i více serverů, které pracují společně. Na obrázku je vidět projekt, který běží na serveru se čtyřmi procesory spolu se zobrazením výkonu serveru a tak je vidět plné využití všech čtyř CPU. Neomezená rozšiřitelnost (paralelní processing) Jednou z unikátních vlastností distribuovaného processingu tak, jak je zpracován v systému WebSTATISTICA, je flexibilita ve využití nejen všech CPU na daném serveru, ale také možnost rozšíření na více serverů. Tato unikátní vlastnost je důležitá, neboť přináší výrazný výpočetní zisk. Například, pokud jsou k dispozici tři servery každý se čtyřmi procesory, STATISTICA může jeden projekt spustit na všech 12 procesorech. Uživatelské prostředí systému WebSTATISTICA Implementace systému WebSTATISTICA umožňuje uživateli navrhovat, upravovat a spravovat dataminingové projekty na klientském počítači v prostředí internetového prohlížeče (např. Internet Explorer, Netscape) prakticky stejně jako v případě desktop aplikace! Proto tedy klientská část aplikace může být spustitelná prakticky na libovolném počítači (např. notebook), pokud je připojen k internetu (příp. intranetu). Všechny výpočty a další operace probíhají na serveru s lepším procesorem a lepšími možnostmi ukládání dat (a tyto výpočty budou probíhat pomocí optimalizovaného multithreadingu a distribuovaného processingu a tak využívat maximum výkonu serveru). 13

Úvodem Dříve les než stromy 3 Operace s maticemi

Úvodem Dříve les než stromy 3 Operace s maticemi Obsah 1 Úvodem 13 2 Dříve les než stromy 17 2.1 Nejednoznačnost terminologie 17 2.2 Volba metody analýzy dat 23 2.3 Přehled vybraných vícerozměrných metod 25 2.3.1 Metoda hlavních komponent 26 2.3.2 Faktorová

Více

Příprava dat v softwaru Statistica

Příprava dat v softwaru Statistica Příprava dat v softwaru Statistica Software Statistica obsahuje pokročilé nástroje pro přípravu dat a tvorbu nových proměnných. Tyto funkcionality přinášejí značnou úsporu času při přípravě datového souboru,

Více

Pokročilé neparametrické metody. Klára Kubošová

Pokročilé neparametrické metody. Klára Kubošová Klára Kubošová Další typy stromů CHAID, PRIM, MARS CHAID - Chi-squared Automatic Interaction Detector G.V.Kass (1980) nebinární strom pro kategoriální proměnné. Jako kriteriální statistika pro větvení

Více

Typy souborů ve STATISTICA. Tento článek poslouží jako přehled hlavních typů souborů v programu

Typy souborů ve STATISTICA. Tento článek poslouží jako přehled hlavních typů souborů v programu StatSoft Typy souborů ve STATISTICA Tento článek poslouží jako přehled hlavních typů souborů v programu STATISTICA, ukáže Vám jejich možnosti a tím Vám dovolí využívat program efektivněji. Jistě jste již

Více

Moderní systémy pro získávání znalostí z informací a dat

Moderní systémy pro získávání znalostí z informací a dat Moderní systémy pro získávání znalostí z informací a dat Jan Žižka IBA Institut biostatistiky a analýz PřF & LF, Masarykova universita Kamenice 126/3, 625 00 Brno Email: zizka@iba.muni.cz Bioinformatika:

Více

ZÍSKÁVÁNÍ ZNALOSTÍ Z DATABÁZÍ

ZÍSKÁVÁNÍ ZNALOSTÍ Z DATABÁZÍ metodický list č. 1 Dobývání znalostí z databází Cílem tohoto tematického celku je vysvětlení základních pojmů z oblasti dobývání znalostí z databází i východisek dobývání znalostí z databází inspirovaných

Více

ZÍSKÁVÁNÍ ZNALOSTÍ Z DATABÁZÍ

ZÍSKÁVÁNÍ ZNALOSTÍ Z DATABÁZÍ Metodický list č. 1 Dobývání znalostí z databází Cílem tohoto tematického celku je vysvětlení základních pojmů z oblasti dobývání znalostí z databází i východisek dobývání znalostí z databází inspirovaných

Více

MBI - technologická realizace modelu

MBI - technologická realizace modelu MBI - technologická realizace modelu 22.1.2015 MBI, Management byznys informatiky Snímek 1 Agenda Technická realizace portálu MBI. Cíle a principy technického řešení. 1.Obsah portálu - objekty v hierarchiích,

Více

Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek, M. Cvanová. 5. Statistica

Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek, M. Cvanová. 5. Statistica Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek, M. Cvanová 5. Statistica StatSoft, Inc., http://www.statsoft.com, http://www.statsoft.cz. Verze pro Mac i PC, dostupná

Více

5 Vícerozměrná data - kontingenční tabulky, testy nezávislosti, regresní analýza

5 Vícerozměrná data - kontingenční tabulky, testy nezávislosti, regresní analýza 5 Vícerozměrná data - kontingenční tabulky, testy nezávislosti, regresní analýza 5.1 Vícerozměrná data a vícerozměrná rozdělení Při zpracování vícerozměrných dat se hledají souvislosti mezi dvěma, případně

Více

Software pro analýzu energetických dat W1000

Software pro analýzu energetických dat W1000 Software pro analýzu energetických dat W1000 Data pro snadný život vašich zákazníků Manage energy better Mít správné informace ve správný čas je základem úspěchu každého snažení, tedy i řízení spotřeby

Více

Grafický a číselný popis rozložení dat 3.1 Způsoby zobrazení dat Metody zobrazení kvalitativních a ordinálních dat Metody zobrazení kvan

Grafický a číselný popis rozložení dat 3.1 Způsoby zobrazení dat Metody zobrazení kvalitativních a ordinálních dat Metody zobrazení kvan 1 Úvod 1.1 Empirický výzkum a jeho etapy 1.2 Význam teorie pro výzkum 1.2.1 Konstrukty a jejich operacionalizace 1.2.2 Role teorie ve výzkumu 1.2.3 Proces ověření hypotéz a teorií 1.3 Etika vědecké práce

Více

Pokročilé neparametrické metody. Klára Kubošová

Pokročilé neparametrické metody. Klára Kubošová Pokročilé neparametrické metody Klára Kubošová Pokročilé neparametrické metody Výuka 13 přednášek doplněných o praktické cvičení v SW Úvod do neparametrických metod + princip rozhodovacích stromů Klasifikační

Více

1. Vlastnosti diskretních a číslicových metod zpracování signálů... 15

1. Vlastnosti diskretních a číslicových metod zpracování signálů... 15 Úvodní poznámky... 11 1. Vlastnosti diskretních a číslicových metod zpracování signálů... 15 1.1 Základní pojmy... 15 1.2 Aplikační oblasti a etapy zpracování signálů... 17 1.3 Klasifikace diskretních

Více

IBM SPSS Decision Trees

IBM SPSS Decision Trees IBM Software IBM SPSS Decision Trees Jednoduše identifikujte skupiny a predikujte Stromově uspořádané postupné štěpení dat na homogenní podmnožiny je technika vhodná pro exploraci vztahů i pro tvorbu rozhodovacích

Více

Možnosti aplikace: Copyright 2001, COM PLUS CZ, Praha

Možnosti aplikace: Copyright 2001, COM PLUS CZ, Praha Vyhodnocovací program CP TARIF 2001 umožňuje rychlé a podrobné sledování telefonního provozu pobočkových ústředen. Uživatel programu tak získává všechny potřebné údaje o odchozích telefonních hovorech,

Více

Pravděpodobnost v závislosti na proměnné x je zde modelován pomocí logistického modelu. exp x. x x x. log 1

Pravděpodobnost v závislosti na proměnné x je zde modelován pomocí logistického modelu. exp x. x x x. log 1 Logistická regrese Menu: QCExpert Regrese Logistická Modul Logistická regrese umožňuje analýzu dat, kdy odezva je binární, nebo frekvenční veličina vyjádřená hodnotami 0 nebo 1, případně poměry v intervalu

Více

UŽIVATELSKÁ PŘÍRUČKA K INTERNETOVÉ VERZI REGISTRU SČÍTACÍCH OBVODŮ A BUDOV (irso 4.x) VERZE 1.0

UŽIVATELSKÁ PŘÍRUČKA K INTERNETOVÉ VERZI REGISTRU SČÍTACÍCH OBVODŮ A BUDOV (irso 4.x) VERZE 1.0 UŽIVATELSKÁ PŘÍRUČKA K INTERNETOVÉ VERZI REGISTRU SČÍTACÍCH OBVODŮ A BUDOV (irso 4.x) VERZE 1.0 OBSAH 1 ÚVOD... 3 1.1 HOME STRÁNKA... 3 1.2 INFORMACE O GENEROVANÉ STRÁNCE... 4 2 VYHLEDÁVÁNÍ V ÚZEMÍ...

Více

Pořízení licencí statistického SW

Pořízení licencí statistického SW Pořízení licencí statistického SW Zadavatel: Česká školní inspekce, Fráni Šrámka 37, 150 21 Praha 5 IČO: 00638994 Jednající: Mgr. Tomáš Zatloukal Předpokládaná (a maximální cena): 1.200.000 vč. DPH Typ

Více

Projekční algoritmus. Urychlení evolučních algoritmů pomocí regresních stromů a jejich zobecnění. Jan Klíma

Projekční algoritmus. Urychlení evolučních algoritmů pomocí regresních stromů a jejich zobecnění. Jan Klíma Urychlení evolučních algoritmů pomocí regresních stromů a jejich zobecnění Jan Klíma Obsah Motivace & cíle práce Evoluční algoritmy Náhradní modelování Stromové regresní metody Implementace a výsledky

Více

K možnostem krátkodobé předpovědi úrovně znečištění ovzduší statistickými metodami. Josef Keder

K možnostem krátkodobé předpovědi úrovně znečištění ovzduší statistickými metodami. Josef Keder K možnostem krátkodobé předpovědi úrovně znečištění ovzduší statistickými metodami Josef Keder Motivace Předpověď budoucí úrovně znečištění ovzduší s předstihem v řádu alespoň několika hodin má význam

Více

Informační systémy 2006/2007

Informační systémy 2006/2007 13 Vysoká škola báňská Technická univerzita Ostrava Fakulta strojní, Katedra automatizační techniky a řízení Informační systémy 2006/2007 Ivan Kedroň 1 Obsah Analytické nástroje SQL serveru. OLAP analýza

Více

GRR. získávání znalostí v geografických datech Autoři. Knowledge Discovery Group Faculty of Informatics Masaryk Univerzity Brno, Czech Republic

GRR. získávání znalostí v geografických datech Autoři. Knowledge Discovery Group Faculty of Informatics Masaryk Univerzity Brno, Czech Republic GRR získávání znalostí v geografických datech Autoři Knowledge Discovery Group Faculty of Informatics Masaryk Univerzity Brno, Czech Republic GRR cílet 2 GRR - Popis systému - cíle systém pro dolování

Více

Statistika. Regresní a korelační analýza Úvod do problému. Roman Biskup

Statistika. Regresní a korelační analýza Úvod do problému. Roman Biskup Statistika Regresní a korelační analýza Úvod do problému Roman Biskup Jihočeská univerzita v Českých Budějovicích Ekonomická fakulta (Zemědělská fakulta) Katedra aplikované matematiky a informatiky 2008/2009

Více

Marketingová komunikace. 3. soustředění. Mgr. Pavel Vávra 9103@mail.vsfs.cz. Kombinované studium Skupina N9KMK3PH (vm3bph)

Marketingová komunikace. 3. soustředění. Mgr. Pavel Vávra 9103@mail.vsfs.cz. Kombinované studium Skupina N9KMK3PH (vm3bph) Marketingová komunikace Kombinované studium Skupina N9KMK3PH (vm3bph) 3. soustředění Mgr. Pavel Vávra 9103@mail.vsfs.cz http://vavra.webzdarma.cz/home/index.htm Zdroje Studijní materiály Heleny Palovské

Více

xrays optimalizační nástroj

xrays optimalizační nástroj xrays optimalizační nástroj Optimalizační nástroj xoptimizer je součástí webového spedičního systému a využívá mnoho z jeho stavebních bloků. xoptimizer lze nicméně provozovat i samostatně. Cílem tohoto

Více

IBM SPSS Exact Tests. Přesné analýzy malých datových souborů. Nejdůležitější. IBM SPSS Statistics

IBM SPSS Exact Tests. Přesné analýzy malých datových souborů. Nejdůležitější. IBM SPSS Statistics IBM Software IBM SPSS Exact Tests Přesné analýzy malých datových souborů Při rozhodování o existenci vztahu mezi proměnnými v kontingenčních tabulkách a při používání neparametrických ů analytici zpravidla

Více

RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr.

RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr. Analýza dat pro Neurovědy RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr. Jaro 2014 Institut biostatistiky Janoušová, a analýz Dušek: Analýza dat pro neurovědy Blok 7 Jak hodnotit vztah spojitých proměnných

Více

STATISTICA 10. Nové funkce a vylepšení. Obsah

STATISTICA 10. Nové funkce a vylepšení. Obsah STATISTICA 10 Nové funkce a vylepšení Obsah STATISTICA 10...1 VÝKONNOST...1 KONEKTIVITA A INTEGRACE...1 SHAREPOINT...1 OFFICE 2010...1 OLAP...2 STATISTICA PI CONNECTOR...3 VIZUALIZACE DAT...3 PŘEHLED...3

Více

Obsahy kurzů MS Office

Obsahy kurzů MS Office Obsahy kurzů MS Office V současné době probíhají kurzy MS Office 2010 s následující osnovou: 1. Základy práce na PC, MS Office - praktické užití Kurz je určen pro všechny, kteří mají s prací na PC minimální

Více

MIS. Manažerský informační systém. pro. Ekonomický informační systém EIS JASU CS. Dodavatel: MÚZO Praha s.r.o. Politických vězňů 15 110 00 Praha 1

MIS. Manažerský informační systém. pro. Ekonomický informační systém EIS JASU CS. Dodavatel: MÚZO Praha s.r.o. Politických vězňů 15 110 00 Praha 1 MIS Manažerský informační systém pro Ekonomický informační systém EIS JASU CS Dodavatel: MÚZO Praha s.r.o. Politických vězňů 15 110 00 Praha 1 Poslední aktualizace dne 5.8.2014 MÚZO Praha s.r.o. je certifikováno

Více

Obsah Úvod Kapitola 1 Než začneme Kapitola 2 Práce s hromadnými daty před analýzou

Obsah Úvod Kapitola 1 Než začneme Kapitola 2 Práce s hromadnými daty před analýzou Úvod.................................................................. 11 Kapitola 1 Než začneme.................................................................. 17 1.1 Logika kvantitativního výzkumu...........................................

Více

NOVINKY v PROGRAMU DOCHÁZKA ADS

NOVINKY v PROGRAMU DOCHÁZKA ADS NOVINKY v PROGRAMU DOCHÁZKA ADS 4 1.2.2010 Uživatelské prostředí nové grafické prostředí programu rychlé menu ve dvou režimech - pouze ikony, ikony s popisem implementace Drag & Drop při přiřazování kalendáře,

Více

Katedra kybernetiky laboratoř Inteligentní Datové Analýzy (IDA) Katedra počítačů, Computational Intelligence Group

Katedra kybernetiky laboratoř Inteligentní Datové Analýzy (IDA) Katedra počítačů, Computational Intelligence Group Vytěžování dat Miroslav Čepek, Filip Železný Katedra kybernetiky laboratoř Inteligentní Datové Analýzy (IDA) Katedra počítačů, Computational Intelligence Group Evropský sociální fond Praha & EU: Investujeme

Více

Ing. Petr Hájek, Ph.D. Podpora přednášky kurzu Aplikace umělé inteligence

Ing. Petr Hájek, Ph.D. Podpora přednášky kurzu Aplikace umělé inteligence APLIKACE UMĚLÉ INTELIGENCE Ing. Petr Hájek, Ph.D. Podpora přednášky kurzu Aplikace umělé inteligence Aplikace umělé inteligence - seminář ING. PETR HÁJEK, PH.D. ÚSTAV SYSTÉMOVÉHO INŽENÝRSTVÍ A INFORMATIKY

Více

Základy business intelligence. Jaroslav Šmarda

Základy business intelligence. Jaroslav Šmarda Základy business intelligence Jaroslav Šmarda Základy business intelligence Business intelligence Datový sklad On-line Analytical Processing (OLAP) Kontingenční tabulky v MS Excelu jako příklad OLAP Dolování

Více

Wonderware Information Server 4.0 Co je nového

Wonderware Information Server 4.0 Co je nového Wonderware Information Server 4.0 Co je nového Pavel Průša Pantek (CS) s.r.o. Strana 2 Úvod Wonderware Information Server je výrobní analytický a reportní informační portál pro publikaci výrobních dat

Více

Základní informace o co se jedná a k čemu to slouží

Základní informace o co se jedná a k čemu to slouží Základní informace o co se jedná a k čemu to slouží založené na relačních databází transakční systémy, které jsou určeny pro pořizování a ukládání dat v reálném čase (ERP, účetní, ekonomické a další podnikové

Více

GTL GENERATOR NÁSTROJ PRO GENEROVÁNÍ OBJEKTŮ OBJEKTY PRO INFORMATICA POWERCENTER. váš partner na cestě od dat k informacím

GTL GENERATOR NÁSTROJ PRO GENEROVÁNÍ OBJEKTŮ OBJEKTY PRO INFORMATICA POWERCENTER. váš partner na cestě od dat k informacím GTL GENERATOR NÁSTROJ PRO GENEROVÁNÍ OBJEKTŮ OBJEKTY PRO INFORMATICA POWERCENTER váš partner na cestě od dat k informacím globtech spol. s r.o. karlovo náměstí 17 c, praha 2 tel.: +420 221 986 390 info@globtech.cz

Více

Úvod. Klíčové vlastnosti. Jednoduchá obsluha

Úvod. Klíčové vlastnosti. Jednoduchá obsluha REQUESTOR DATASHEET Úvod Requestor Service Desk poskytuje kompletní řešení pro správu interních i externích požadavků, které přicházejí do organizace libovolnou cestou. Produkt je zaměřen na vytvoření

Více

Obsah. Kapitola 1. Kapitola 2. Kapitola 3. Úvod 9

Obsah. Kapitola 1. Kapitola 2. Kapitola 3. Úvod 9 Obsah Úvod 9 Kapitola 1 Business Intelligence, datové sklady 11 Přechod od transakčních databází k analytickým..................... 13 Kvalita údajů pro analýzy................................................

Více

Simulace. Simulace dat. Parametry

Simulace. Simulace dat. Parametry Simulace Simulace dat Menu: QCExpert Simulace Simulace dat Tento modul je určen pro generování pseudonáhodných dat s danými statistickými vlastnostmi. Nabízí čtyři typy rozdělení: normální, logaritmicko-normální,

Více

Software pro analýzu dat VERZE 8 NOVINKY. Buďte lepším auditorem. Vy máte znalosti. My máme nástroje.

Software pro analýzu dat VERZE 8 NOVINKY. Buďte lepším auditorem. Vy máte znalosti. My máme nástroje. Software pro analýzu dat VERZE 8 NOVINKY Buďte lepším auditorem. Vy máte znalosti. My máme nástroje. O softwaru IDEA Zlepšete svůj výkon a rozšiřte svoje kapacity. Se softwarem IDEA můžete snížit náklady

Více

Tovek Tools. Tovek Tools jsou standardně dodávány ve dvou variantách: Tovek Tools Search Pack Tovek Tools Analyst Pack. Připojené informační zdroje

Tovek Tools. Tovek Tools jsou standardně dodávány ve dvou variantách: Tovek Tools Search Pack Tovek Tools Analyst Pack. Připojené informační zdroje jsou souborem klientských desktopových aplikací určených k indexování dat, vyhledávání informací, tvorbě různých typů analýz a vytváření přehledů a rešerší. Jsou vhodné pro práci s velkým objemem textových

Více

Vícerozměrné statistické metody

Vícerozměrné statistické metody Vícerozměrné statistické metody Podobnosti a vzdálenosti ve vícerozměrném prostoru, asociační matice II Jiří Jarkovský, Simona Littnerová Vícerozměrné statistické metody Práce s asociační maticí Vzdálenosti

Více

10. Datové sklady (Data Warehouses) Datový sklad

10. Datové sklady (Data Warehouses) Datový sklad 10. Datové sklady (Data Warehouses) Datový sklad komplexní data uložená ve struktuře, která umožňuje efektivní analýzu a dotazování data čerpána z primárních informačních systémů a dalších zdrojů OLAP

Více

Infor Performance management. Jakub Urbášek

Infor Performance management. Jakub Urbášek Infor Performance management Jakub Urbášek Agenda prezentace Stručně o produktu Infor PM 10 Komponenty Infor PM - PM OLAP a PM Office Plus Reporting Analýza Plánování / operativní plánování Infor Performance

Více

Efektivní práce s Excelem (středně pokročilí uživatelé)

Efektivní práce s Excelem (středně pokročilí uživatelé) 2015 Efektivní práce s Excelem (středně pokročilí uživatelé) rozsah: 2 dny (10 hodin) Mgr. Jiří Číhař www.dataspectrum.cz Efektivní práce s Excelem pro středně pokročilé uživatele Práce s rozsáhlými tabulkami

Více

METODY DOLOVÁNÍ V DATECH DATOVÉ SKLADY TEREZA HYNČICOVÁ H2IGE1

METODY DOLOVÁNÍ V DATECH DATOVÉ SKLADY TEREZA HYNČICOVÁ H2IGE1 METODY DOLOVÁNÍ V DATECH DATOVÉ SKLADY TEREZA HYNČICOVÁ H2IGE1 DOLOVÁNÍ V DATECH (DATA MINING) OBJEVUJE SE JIŽ OD 60. LET 20. ST. S ROZVOJEM POČÍTAČOVÉ TECHNIKY DEFINICE PROCES VÝBĚRU, PROHLEDÁVÁNÍ A MODELOVÁNÍ

Více

Marketingová komunikace. 2. a 3. soustředění. Mgr. Pavel Vávra 9103@mail.vsfs.cz. Kombinované studium Skupina N9KMK3PH (vm3aph)

Marketingová komunikace. 2. a 3. soustředění. Mgr. Pavel Vávra 9103@mail.vsfs.cz. Kombinované studium Skupina N9KMK3PH (vm3aph) Marketingová komunikace Kombinované studium Skupina N9KMK3PH (vm3aph) 2. a 3. soustředění Mgr. Pavel Vávra 9103@mail.vsfs.cz http://vavra.webzdarma.cz/home/index.htm Co nás čeká: 2. soustředění 16.1.2009

Více

Informace k e-learningu

Informace k e-learningu Informace k e-learningu Příprava na testy bude probíhat samostatně formou e-learningových školení přístupných způsobem popsaným níže. Zkušební testy, pomocí kterých se budete připravovat na závěrečný test,

Více

Vícerozměrné statistické metody

Vícerozměrné statistické metody Vícerozměrné statistické metody Vícerozměrné statistické rozdělení a testy, operace s vektory a maticemi Jiří Jarkovský, Simona Littnerová FSTA: Pokročilé statistické metody Vícerozměrné statistické rozdělení

Více

IBM SPSS Modeler Professional

IBM SPSS Modeler Professional IBM SPSS Modeler Professional 16 IBM SPSS Software IBM SPSS Modeler Professional Včasné rozhodnutí díky přesným informacím Metodami data miningu získáte detailní přehled o svém současném stavu i jasnější

Více

MĚŘENÍ STATISTICKÝCH ZÁVISLOSTÍ

MĚŘENÍ STATISTICKÝCH ZÁVISLOSTÍ MĚŘENÍ STATISTICKÝCH ZÁVISLOSTÍ v praxi u jednoho prvku souboru se často zkoumá více veličin, které mohou na sobě různě záviset jednorozměrný výběrový soubor VSS X vícerozměrným výběrovým souborem VSS

Více

Program Sharpdesk Sharpdesk řešení pro správu dokumentů

Program Sharpdesk Sharpdesk řešení pro správu dokumentů Program Sharpdesk Sharpdesk řešení pro správu dokumentů Práce s firemními informacemi Správa firemních dokumentů Jak zaznamenávat, organizovat a sdílet Vaše informace Sharpdesk je jedním z nejoblíbenějších

Více

Analýza a prezentace dat

Analýza a prezentace dat 2015 Analýza a prezentace dat rozsah: 2 dny (10 hodin) Mgr. Jiří Číhař www.dataspectrum.cz Analýza a prezentace dat Formátování buněk Nastavení vhodného formátu čísla Vytváření vlastních formátovacích

Více

1. Číselné posloupnosti - Definice posloupnosti, základní vlastnosti, operace s posloupnostmi, limita posloupnosti, vlastnosti limit posloupností,

1. Číselné posloupnosti - Definice posloupnosti, základní vlastnosti, operace s posloupnostmi, limita posloupnosti, vlastnosti limit posloupností, KMA/SZZS1 Matematika 1. Číselné posloupnosti - Definice posloupnosti, základní vlastnosti, operace s posloupnostmi, limita posloupnosti, vlastnosti limit posloupností, operace s limitami. 2. Limita funkce

Více

Desigo Control Point řešení pro ovládání a monitorování budov siemens.cz/desigo

Desigo Control Point řešení pro ovládání a monitorování budov siemens.cz/desigo Jedna budova. Různí uživatelé. Desigo Control Point řešení pro ovládání a monitorování budov siemens.cz/desigo Desigo Control Point navržen pro zjednodušení správy technologií budov Budovy nejsou jen pouhé

Více

PRODUKTY Tovek Server 6

PRODUKTY Tovek Server 6 Tovek Server je serverová aplikace určená pro efektivní zpracování velkého objemu sdílených strukturovaných i nestrukturovaných dat. Umožňuje automaticky indexovat data z různých informačních zdrojů, intuitivně

Více

Počítačové kurzy buildit

Počítačové kurzy buildit Počítačové kurzy buildit Kurz MS Windows - základy 1 590 Kč principy systému Windows, ovládání systému, práce s aplikacemi a okny, správa souborů a složek, multitasking, práce se schránkou Uživatelům,

Více

UNIVERZITA OBRANY Fakulta ekonomiky a managementu. Aplikace STAT1. Výsledek řešení projektu PRO HORR2011 a PRO GRAM2011 3. 11.

UNIVERZITA OBRANY Fakulta ekonomiky a managementu. Aplikace STAT1. Výsledek řešení projektu PRO HORR2011 a PRO GRAM2011 3. 11. UNIVERZITA OBRANY Fakulta ekonomiky a managementu Aplikace STAT1 Výsledek řešení projektu PRO HORR2011 a PRO GRAM2011 Jiří Neubauer, Marek Sedlačík, Oldřich Kříž 3. 11. 2012 Popis a návod k použití aplikace

Více

Tovek Server. Tovek Server nabízí následující základní a servisní funkce: Bezpečnost Statistiky Locale

Tovek Server. Tovek Server nabízí následující základní a servisní funkce: Bezpečnost Statistiky Locale je serverová aplikace určená pro efektivní zpracování velkého objemu sdílených nestrukturovaných dat. Umožňuje automaticky indexovat data z různých informačních zdrojů, intuitivně vyhledávat informace,

Více

Sísyfos Systém evidence činností

Sísyfos Systém evidence činností Sísyfos Systém evidence Sísyfos : Evidence pracovních Systém Sísyfos je firemní aplikace zaměřená na sledování pracovních úkonů jednotlivých zaměstnanců firmy. Umožňuje sledovat pracovní činnosti na různých

Více

Zkušenosti s tvorbou náročných grafů editorem ORIGIN

Zkušenosti s tvorbou náročných grafů editorem ORIGIN Zkušenosti s tvorbou náročných grafů editorem ORIGIN Ing. Tomáš Syrový, Katedra analytické chemie, Univerzita Pardubice, 532 10 Pardubice, tomas.syrovy@upce.cz a Prof. RNDr. Milan Meloun, DrSc., Katedra

Více

PRODUKTY. Tovek Tools

PRODUKTY. Tovek Tools jsou desktopovou aplikací určenou k vyhledávání informací, tvorbě různých typů analýz a vytváření přehledů a rešerší. Jsou vhodné pro práci i s velkým objemem textových dat z různorodých informačních zdrojů.

Více

Uživatelská příručka. 06/2018 Technické změny vyhrazeny.

Uživatelská příručka. 06/2018 Technické změny vyhrazeny. Uživatelská příručka 1 OBSAH 1 ÚVOD... 3 1.1 Merbon SCADA... 3 1.1.1 K čemu program slouží...3 2 Přihlášení a odhlášení z programu... 4 3 Projekty... 5 3.1 Výběr zobrazení... 5 3.2 Schémata... 6 3.3 Grafy...

Více

Předmluva 11 Typografická konvence použitá v knize 12. 1 Úvod do Excelu 2003 13

Předmluva 11 Typografická konvence použitá v knize 12. 1 Úvod do Excelu 2003 13 Předmluva 11 Typografická konvence použitá v knize 12 1 Úvod do Excelu 2003 13 Spuštění a ukončení Excelu 14 Spuštění Excelu 14 Ukončení práce s Excelem 15 Přepínání mezi otevřenými sešity 16 Oprava aplikace

Více

Algoritmy a struktury neuropočítačů ASN - P11

Algoritmy a struktury neuropočítačů ASN - P11 Aplikace UNS při rozpoznání obrazů Základní úloha segmentace obrazu rozdělení obrazu do několika významných oblastí klasifikační úloha, clusterová analýza target Metody Kohonenova metoda KSOM Kohonenova

Více

Prozkoumání příkazů na pásu karet Každá karta na pásu karet obsahuje skupiny a každá skupina obsahuje sadu souvisejících příkazů.

Prozkoumání příkazů na pásu karet Každá karta na pásu karet obsahuje skupiny a každá skupina obsahuje sadu souvisejících příkazů. Úvodní příručka Microsoft Excel 2013 vypadá jinak než ve starších verzích, proto jsme vytvořili tuto příručku, která vám pomůže se s ním rychle seznámit. Přidání příkazů na panel nástrojů Rychlý přístup

Více

Statistické metody v ekonomii. Ing. Michael Rost, Ph.D.

Statistické metody v ekonomii. Ing. Michael Rost, Ph.D. Statistické metody v ekonomii Ing. Michael Rost, Ph.D. Jihočeská univerzita v Českých Budějovicích Cíle kurzu: seznámit posluchače s vybranými statistickými metodami, které jsou aplikovatelné v ekonomických

Více

Obsah. Co je to Field-Map? Field-Map software Popis technologie Field-Map Zdroje

Obsah. Co je to Field-Map? Field-Map software Popis technologie Field-Map Zdroje Michal Zigo, ZIG012 Obsah Co je to Field-Map? Field-Map software Zdroje Co je to Field-Map? Field-Map je technologie, která vzniká spojením jedinečného software s vhodným hardwarem, takže umožňuje terénní

Více

DATABÁZOVÉ SYSTÉMY. Metodický list č. 1

DATABÁZOVÉ SYSTÉMY. Metodický list č. 1 Metodický list č. 1 Cíl: Cílem předmětu je získat přehled o možnostech a principech databázového zpracování, získat v tomto směru znalosti potřebné pro informačního manažera. Databázové systémy, databázové

Více

INFORMAČNÍ SYSTÉM VIDIUM A VYUŽITÍ MODERNÍCH TECHNOLOGIÍ

INFORMAČNÍ SYSTÉM VIDIUM A VYUŽITÍ MODERNÍCH TECHNOLOGIÍ INFORMAČNÍ SYSTÉM VIDIUM A VYUŽITÍ MODERNÍCH TECHNOLOGIÍ Michal Brožek, Dominik Svěch, Jaroslav Štefaník MEDIUM SOFT a.s., Cihelní 14, 702 00 Ostrava, ČR Abstrakt Neustále rostoucí význam sběru dat, možnost

Více

Začínáme pracovat s tabulkovým procesorem MS Excel

Začínáme pracovat s tabulkovým procesorem MS Excel Začínáme pracovat s tabulkovým procesorem MS Excel Nejtypičtějším představitelem tabulkových procesorů je MS Excel. Je to pokročilý nástroj pro tvorbu jednoduchých i složitých výpočtů a grafů. Program

Více

MATURITNÍ OTÁZKY ELEKTROTECHNIKA - POČÍTAČOVÉ SYSTÉMY 2003/2004 PROGRAMOVÉ VYBAVENÍ POČÍTAČŮ

MATURITNÍ OTÁZKY ELEKTROTECHNIKA - POČÍTAČOVÉ SYSTÉMY 2003/2004 PROGRAMOVÉ VYBAVENÍ POČÍTAČŮ MATURITNÍ OTÁZKY ELEKTROTECHNIKA - POČÍTAČOVÉ SYSTÉMY 2003/2004 PROGRAMOVÉ VYBAVENÍ POČÍTAČŮ 1) PROGRAM, ZDROJOVÝ KÓD, PŘEKLAD PROGRAMU 3 2) HISTORIE TVORBY PROGRAMŮ 3 3) SYNTAXE A SÉMANTIKA 3 4) SPECIFIKACE

Více

STATISTICA 9.0. Nativní 64-bitová architektura... 2. Požitek z užívání... 2

STATISTICA 9.0. Nativní 64-bitová architektura... 2. Požitek z užívání... 2 STATISTICA 9.0 NOVINKY ve verzi 9.0 Ještě rychlejší! Další vylepšení výkonnosti...2 Nativní 64-bitová architektura... 2 Novinky v uživatelském prostředí...2 Požitek z užívání... 2 Grafické novinky...4

Více

Analýza dat na PC I.

Analýza dat na PC I. CENTRUM BIOSTATISTIKY A ANALÝZ Lékařská a Přírodovědecká fakulta, Masarykova univerzita Analýza dat na PC I. Popisná analýza v programu Statistica IBA výuka Základní popisná statistika Popisná statistika

Více

Technologické postupy práce s aktovkou IS MPP

Technologické postupy práce s aktovkou IS MPP Technologické postupy práce s aktovkou IS MPP Modul plánování a přezkoumávání, verze 1.20 vypracovala společnost ASD Software, s.r.o. dokument ze dne 27. 3. 2013, verze 1.01 Technologické postupy práce

Více

QAD Business Intelligence

QAD Business Intelligence QAD Business Intelligence Vladimír Bartoš, Pavel Němec Konzultanti 13.6.2012 Komponenty QAD BI Analytické tabule pro podporu rozhodování Spolupráce uživatelů nad analyzovanými daty Reporty Generátor analytických

Více

Zpráva o zhotoveném plnění

Zpráva o zhotoveném plnění Zpráva o zhotoveném plnění Aplikace byla vytvořena v souladu se Smlouvou a na základě průběžných konzultací s pověřenými pracovníky referátu Manuscriptorium. Toto je zpráva o zhotoveném plnění. Autor:

Více

Informační systémy 2008/2009. Radim Farana. Obsah. Obsah předmětu. Požadavky kreditového systému. Relační datový model, Architektury databází

Informační systémy 2008/2009. Radim Farana. Obsah. Obsah předmětu. Požadavky kreditového systému. Relační datový model, Architektury databází 1 Vysoká škola báňská Technická univerzita Ostrava Fakulta strojní, Katedra automatizační techniky a řízení 2008/2009 Radim Farana 1 Obsah Požadavky kreditového systému. Relační datový model, relace, atributy,

Více

Obsah. Předmluva 13. O autorovi 15. Poděkování 16. O odborných korektorech 17. Úvod 19

Obsah. Předmluva 13. O autorovi 15. Poděkování 16. O odborných korektorech 17. Úvod 19 Předmluva 13 O autorovi 15 Poděkování 16 O odborných korektorech 17 Úvod 19 Co kniha popisuje 19 Co budete potřebovat 20 Komu je kniha určena 20 Styly 21 Zpětná vazba od čtenářů 22 Errata 22 KAPITOLA 1

Více

Aplikace je program určený pro uživatele. Aplikaci je možné rozdělit na části:

Aplikace je program určený pro uživatele. Aplikaci je možné rozdělit na části: Aplikace Aplikace je program určený pro uživatele. Aplikaci je možné rozdělit na části: prezentační vrstva vstup dat, zobrazení výsledků, uživatelské rozhraní, logika uživatelského rozhraní aplikační vrstva

Více

Geografické informační systémy ArcGIS Pavel Juška (jus011) 4. března 2010, Ostrava

Geografické informační systémy ArcGIS Pavel Juška (jus011) 4. března 2010, Ostrava Geografické informační systémy ArcGIS Pavel Juška (jus011) 4. března 2010, Ostrava Charakterisitka ArcGIS Geografický informační systém. Integruje mnoho součástí v jednom systému. Integrované sady aplikací

Více

Statistica, kdo je kdo?

Statistica, kdo je kdo? Statistica, kdo je kdo? Newsletter Statistica ACADEMY Téma: Typy instalací Typ článku: Teorie Někteří z vás používají univerzitní licence, někteří síťové, podnikové atd. V tomto článku Vám představíme,

Více

Marketingová komunikace. 2. soustředění. Mgr. Pavel Vávra 9103@mail.vsfs.cz. Kombinované studium Skupina N9KMK1aPH/N9KMK1bPH (um1a1ph/um1b1ph)

Marketingová komunikace. 2. soustředění. Mgr. Pavel Vávra 9103@mail.vsfs.cz. Kombinované studium Skupina N9KMK1aPH/N9KMK1bPH (um1a1ph/um1b1ph) Marketingová komunikace Kombinované studium Skupina N9KMK1aPH/N9KMK1bPH (um1a1ph/um1b1ph) 2. soustředění Mgr. Pavel Vávra 9103@mail.vsfs.cz http://vavra.webzdarma.cz/home/index.htm Minulé soustředění úvod

Více

Tomáš Karel LS 2012/2013

Tomáš Karel LS 2012/2013 Tomáš Karel LS 2012/2013 Doplňkový materiál ke cvičení z předmětu 4ST201. Na případné faktické chyby v této presentaci mě prosím upozorněte. Děkuji. Tyto slidy berte pouze jako doplňkový materiál není

Více

Uživatelský manuál. Aplikace GraphViewer. Vytvořil: Viktor Dlouhý

Uživatelský manuál. Aplikace GraphViewer. Vytvořil: Viktor Dlouhý Uživatelský manuál Aplikace GraphViewer Vytvořil: Viktor Dlouhý Obsah 1. Obecně... 3 2. Co aplikace umí... 3 3. Struktura aplikace... 4 4. Mobilní verze aplikace... 5 5. Vytvoření projektu... 6 6. Části

Více

Aplikovaná statistika v R - cvičení 3

Aplikovaná statistika v R - cvičení 3 Aplikovaná statistika v R - cvičení 3 Filip Děchtěrenko Matematicko-fyzikální fakulta filip.dechterenko@gmail.com 5.8.2014 Filip Děchtěrenko (MFF UK) Aplikovaná statistika v R 5.8.2014 1 / 10 Lineární

Více

Hledání optimální polohy stanic a zastávek na tratích regionálního významu

Hledání optimální polohy stanic a zastávek na tratích regionálního významu Hledání optimální polohy stanic a zastávek na tratích regionálního významu Václav Novotný 31. 10. 2018 Anotace 1. Dopravní obsluha území tratěmi regionálního významu 2. Cíle výzkumu a algoritmus práce

Více

Přehledy pro Tabulky Hlavním smyslem této nové agendy je jednoduché řazení, filtrování a seskupování dle libovolných sloupců.

Přehledy pro Tabulky Hlavním smyslem této nové agendy je jednoduché řazení, filtrování a seskupování dle libovolných sloupců. Přehledy pro Tabulky V programu CONTACT Professional 5 naleznete u firem, osob a obchodních případů záložku Tabulka. Tuto záložku lze rozmnožit, přejmenovat a sloupce je možné definovat dle vlastních požadavků

Více

Středoškolská technika SCI-Lab

Středoškolská technika SCI-Lab Středoškolská technika 2016 Setkání a prezentace prací středoškolských studentů na ČVUT SCI-Lab Kamil Mudruňka Gymnázium Dašická 1083 Dašická 1083, Pardubice O projektu SCI-Lab je program napsaný v jazyce

Více

Maturitní projekt do IVT Pavel Doleček

Maturitní projekt do IVT Pavel Doleček Maturitní projekt do IVT Pavel Doleček CO FILMBOOK JE Filmbook je uzavřená webová aplikace pro celkovou správu informací a dat souvisejících se sledováním filmů. Primárně je zaměřen na uchovávání a spravování

Více

Programujeme v softwaru Statistica

Programujeme v softwaru Statistica Programujeme v softwaru Statistica díl třetí Newsletter Statistica ACADEMY Téma: Programování, makra, skripty Typ článku: Návody V předchozích článcích (díl první, díl druhý) jsme si osvětlili základní

Více

Datová věda (Data Science) akademický navazující magisterský program

Datová věda (Data Science) akademický navazující magisterský program Datová věda () akademický navazující magisterský program Reaguje na potřebu, kterou vyvolala rychle rostoucí produkce komplexních, obvykle rozsáhlých dat ve vědě, v průmyslu a obecně v hospodářských činnostech.

Více

Úvod do zpracování signálů

Úvod do zpracování signálů 1 / 25 Úvod do zpracování signálů Karel Horák Rozvrh přednášky: 1. Spojitý a diskrétní signál. 2. Spektrum signálu. 3. Vzorkovací věta. 4. Konvoluce signálů. 5. Korelace signálů. 2 / 25 Úvod do zpracování

Více

ABBYY Automatizované zpracování dokumentů

ABBYY Automatizované zpracování dokumentů ABBYY Automatizované zpracování dokumentů tradiční řešení OCR versus Cloud Jiří Dvořák ECM konzultant Světový leader v produktech pro zpracování dokumentů Individulání uživatelé Malé a střední společnosti

Více

Evidence a správa kanalizace v GIS Kompas 3.2

Evidence a správa kanalizace v GIS Kompas 3.2 IČ: 25472593 MK Consult, v.o.s. Drážďanská 493/40, 40007 Ústí nad Labem tel.,fax 47550500408, e-mail info@mkconsult.cz Evidence a správa kanalizace v GIS Kompas 3.2 Základní popis programu Kompas 3.2 Systém

Více

Jádrem systému je modul GSFrameWork, který je poskytovatelem zejména těchto služeb:

Jádrem systému je modul GSFrameWork, který je poskytovatelem zejména těchto služeb: Technologie Marushka Základním konceptem technologie Marushka je použití jádra, které poskytuje přístup a jednotnou grafickou prezentaci geografických dat. Jádro je vyvíjeno na komponentním objektovém

Více