Efektivní sběr dat a jejich automatizované analýzy Aneta Živná Kavalierová Libor Šlik Michal Kadlec Katarína Vlčková Ondřej Brom www.acrea.cz info@acrea.cz Program Úvod Rychlé a efektivní elektronické pořizování formulářů a dotazníků Přestávka Způsoby a možnosti tvorby automatizovaných reportů Polední přestávka IBM SPSS Statistics základní statistické procedury Novinky v IBM SPSS Statistics 23 Přestávka Regresní analýza Analýza časových řad Analýza kauzálních časových řad Závěrečné informace a otázky 1
ACREA CR v číslech 24 let zkušeností se softwarovými nástroji a poskytováním služeb 22 let zkušeností s výukou přes 800 zákazníků mezi společnostmi v ČR a SR stovky tisíc uživatelů ve více než 60ti zemích světa 45 let praxe ověřených nástrojů SPSS (nyní IBM SPSS) 2011 ocenění IBM BEST PERFORMANCE AWARD pro Evropu v oblasti Predictive analytics 2012 ocenění IBM ASL AWARD za nejlepší individuální řešení pro zákazníky 2013 ocenění IBM BUSINESS PARTNER za nejlepší pokrytí řešeními v oblasti mid-market SW SPSS Statistické služby 1990 1992 Výuka Výzkum SC&C s.r.o. 1998 SPSS CR 2011 ACREA CR Partnerství s IBM 2012 ACREA SR 2013 IBM Premier Business Partner Žijeme ve věku informací umíme je využívat? informace, informace, informace spontánní upozornění, podezření, záznam z příjmu systematické ukládání soustavně budované databáze, formalizované vstupy, formuláře účelové sběry výzkum (pacientů, občanů, zaměstnanců), rychlý sběr dodatečných informací Vdatabázích jsou informační hodnoty nesmírné ceny, které neumíme využívat 2
Analýza dat speciální průběžné reportování a analýzy statistiky a analýzy strukturovaných dat analýzy nestrukturovaných dat ad hoc analýzy analýzy dle okamžité potřeby k těmto analýzám patří také ad hoc výzkumné sběry dat detekce a predikce detekce faktorů ovlivňujících vznik onemocnění, co ovlivňuje dlouhodobou nezaměstnanost predikce vývoje (nezaměstnanosti, onemocnění) - krátkodobá/ dlouhodobá predikce potřeb pracovní síly v období/kraji Jak trávíme čas pohled na týden Ostatní Sběr dat Sběr dat Údržba tabulek Příprava reportů a prezentací Analýzy & práce daty Údržba tabulek Příprava reportů a prezentací Po Út St Čt Pá 3
Jak bychom mohli trávit čas efektivněji? Data Collection Sběr dat Analýzy & práce Analysis daty Analýzy & práce Analysis daty Analýzy & Analysis práce daty Report Příprava and reportů Present. a prezentací Dev & Údržba Maint. tabulek Sprdshts. Ostatní Other Po Út St Čt Pá Portfolio ACREA CR Zaznamenejte Vyhodnoťte Konejte Reporting 4
Hlavní oblasti využití SPSS Prevence a odhalování podvodů, plýtvání a zneužívání Bezpečnost země a boj s kriminalitou Výzkum veřejného mínění a chování občanů Efektivní řízení lidských zdrojů Vědecká pracoviště a výzkumné ústavy E-government Rychlé a efektivní pořizování elektronických formulářů a dotazníků Libor Šlik www.acrea.cz info@acrea.cz 5
Agenda Představení systému Data Collection Fáze projektu sběru dat Vlastnosti formulářů/dotazníků a projektů Tvorba formuláře a podporované typy otázek Vybraná funkcionalita Demo ukázka Představení systému Sada programů zajištující proces sběru dat Technologie klient server Decentralizace činností, online/offline přístup 6
Architektura systému Klienti pro tvorbu formuláře Klienti pro sběr dat Serverová část Klienti pro analýzu dat IBM SPSS Data Collection Kvalitní a funkční systém, prověřený desítkami instalací po celém světě Sestavení řešení z modulárních komponent Úspora nákladů a vyšší efektivita práce bez ohledu na použitý jazyk komunikační kanál 7
IBM SPSS Data Collection Podpora nejrozšířenějších způsobů sběru dat CAWI, CATI, CAPI, PAPI Standardizovaná tvorba dotazníku a formulářů, správa projektů z jednoho rozhraní, uložení dat v centrálním datovém úložišti Vícejazyčné výzkumy Zabezpečení / Technologie Systémové zabezpečení serveru/ů firewall Omezení přístupu login/password, práva Technologie Microsoft (32/64b) 8
3 základní fáze projektu Příprava projektu Vytvoření a otestování formulářů Realizace projektu Online dotazování přes internet Supervize, kontrola a možné úpravy, kvóty Výstupy a vyhodnocení projektu Výstupy a vyhodnocení projektu Statistiky o sběru dat v internetovém rozhraní Export dat do externích datových formátů Export, analýza a další zpracování dtb respondentů 9
Typy otázek Kategorizovaná (jedna/více odpovědí) Maticová (kategorizovaná, číselná, textová) Číselná Textová Boolean(A/N) Datum Tvorba dotazníku 10
Vybraná funkcionalita komplexní nastavení průchodu formulářem adresný i anonymní sběr, možný přechod mezi formuláři podmíněné zobrazení otázek a kategorií odpovědí HTML prvky ve formuláři, např. kalendář, vyhledávač v seznamu aj. specifikace šablon otázek, skupin otázek, podle odpovědí snadné spojení s nástroji Statistics a Cognos knihovna otázek, sekcí či celých formulářů specifická funkcionalita pro výzkumné projekty rotace otázek, odpovědí, skupin otázek multimédia, kvóty databázové i dotazníkové Příklad Hlášení o uživatelích drog Délka dotazníku: 1 strana Metodické pokyny: 10 stran Vybrané otázky: Pohlaví Vzdělání Základní a jiná droga (1,2) Způsob aplikace, věk 1. užití Užití jehel, vyšetření HIV, VHx 11
Demo ukázka Záznam faktur Délka formuláře: 1 strana Počet vyplňujících: 3 Vybrané typy otázek: Datumová Číselná Kategorizovaná Maticová Zvláštnosti Vyplňují různí lidé v různém čase Import informací z externího zdroje Další HTML funkcionalita 3 různé reporty Automatizace reportingu Michal Kadlec www.acrea.cz info@acrea.cz 12
Jak je tráven čas? Sběr dat Údržba tabulek Příprava reportů a prezentací Analýzy & práce s daty Ostatní Co se vytváří? IBM SPSS Data Collection Sběr dat shromažďování dat, kontrola, ukládání Údržba tabulek tvorba, aktualizace, úprava, odstranění Příprava reportů a prezentací ad hoc reporty, ppt pro vedení Analýzy & práce s daty práce s daty, podrobný náhled s použitím základních i pokročilých metod Ostatní vedení projektů, porady, schůzky, komunikace 13
Proč se věnovat analýze dat Reportování podávání přehledových zpráv (informací) o průběhu a stavu daných aktivit či prací report by měl odpovídat na to co se stalo Analýza dat nalezení vdostupných datech takové informace, které podpoří pochopení a příčiny daného jevu a pomůže nám při nebo v rozhodování analýza dat by měla odpovídat na to, proč se to stalo a co bude dál Problémy při reportování Dostupnost dat Počet datových zdrojů Konzistence dat Nepřehlednost Distribuce (Ne)Závislost Lidský faktor 14
Jak to celé zjednodušit? IBM Cognos = reportovací nástroj pro oddělení a organizace Jak pomáhá zlepšit reportování? Výsledek Dostupnost dat Autorizační systém Počet datových zdrojů Napojení na různé datové zdroje Konzistence dat Automatická aktualizace reportů Nepřehlednost Tabulky, grafy, mapy, vizualizace Distribuce Automatizované rozesílání, upozorňování (Ne)Závislost Samostatnost při tvorbě reportů Lidský faktor Jednou nastavený systém nevyžaduje zásahy Jak to vypadá v praxi Datový zdroj Datový zdroj Datový zdroj Datový zdroj Datový zdroj Datový zdroj Datový zdroj Datový zdroj Datový zdroj Zuzana Pavel IBM Cognos Administrátor Radka Petra Ondra Vedoucí odboru Zástupkyně vedoucí Auditorka Referent 15
Jak to vypadá v praxi Pavel Administrátor nastavuje a spravuje přístupy k datům a reportům zálohuje obsah nástroje předpřipravuje datové zdroje vytváří reporty zaučuje ostatní kolegy konzultuje s Acrea možnosti dalšího rozvoje Jak to vypadá v praxi Radka upravuje a tvoří reporty, které odcházejí vedení tvoří zprávy na základě získaných dat stará se o každodenní chod oddělení vytváří pravidelné prezentace na porady Zástupkyně vedoucí 16
Jak to vypadá v praxi Petra Auditorka zabývá se interním auditem kontroluje finanční a další ekonomické ukazatele kontroluje transakce získává data z různých zdrojů tvoří pravidelné zprávy Jak to vypadá v praxi Ondra nahlíží do jemu určených reportů tvoří si ad-hoc jednoduché reporty spravuje evidence statistik plní operativní úkoly Referent 17
Jak to vypadá v praxi Zuzana dostává emailem pravidelné informace oblíbila si souhrnné dashboardy jedná s přidruženými odbory zúčastňuje se výjezdů do krajských pracovišť Vedoucí odboru IBM Cognos V čem vidí hlavní výhody Autorizovaný přístup k datům, které využívají pro práci Automatická aktualizace vytvořených reportů Automatická distribuce na emaily, upozorňování Interaktivita a nové grafické prvky Ovládání pro normální uživatele 18
Jakými nástroji to lze zjednodušit? Sběr dat IBM SPSS Data Collection Údržba tabulek Příprava reportů a prezentací IBM Cognos Analýzy & práce s daty Ostatní IBM SPSS Statistics IBM SPSS Modeler IBM SPSS Statistics Katarína Vlčková www.acrea.cz info@acrea.cz 19
IBM SPSS Statistics Statisticko-analytický software Od roku 2009 součástí produktů IBM SPSS Statistics modularita IBM SPSS Statistics Base + 14 modulů každý rok nová verze plně funkční demo verze platnost 14 dní podporované operační systémy Windows XP, Windows Vista, Windows 7 a Windows 8 Mac OS Linux Systém IBM SPSS Statistics pokrytí analytického procesu 20
Statistics Base vstupy a výstupy různé formáty transformace proměnných datové manipulace popisná statistika jednorozměrné statistické metody mnohorozměrné statistické metody statistická grafika editace výstupů předávání výsledků Příprava dat Analýzy Výstupy Otevřenost systému na vstupu široká paleta vstupních datových formátů napojení na databáze na výstupu export do různých formátů spolupráce s jinými aplikacemi možnost propojení s jakýmkoli programem k dispozici Java propojení s jinými aplikacemi v Javě, novinka verze 21 Python programování vlastních výpočtů, úprava výstupů Microsoft.NET vlastní aplikace s využitím výpočetního jádra IBM SPSS Statistics R využití nejnovějších algoritmů SPSS Community: www.ibm.com/developerworks/spssdevcentral 21
Vlastnosti, které analytik ocení Uživatelská příjemnost zadávání analýz interakční řízení a dávkové řízení komplexní možnosti práce s daty automatizace a optimalizace činností otevřenost k okolí (vstup i výstup) spolupráce s jazyky Java, Python,.NET a R Dynamika vývoje každý rok nová rozšířená funkčnost s programem nekupujete jen současný stav, ale i budoucnost práce s informací Standard ve světě, v ČR/SR i v organizacích široké užití a velký počet uživatelů výměna dat v mezinárodních projektech 22
Novinky v IBM SPSS Statistics v. 23 Katarína Vlčková www.acrea.cz info@acrea.cz Tematické okruhy novinek Zobecněná prostorová asociační pravidla Časoprostorové predikce Geoprostorová analýza Časové kauzální modelování Větší využití dat Změny v integračních pluginech R a Python Web reporty Zlepšení produktivity 23
Geoprostorová analýza modul: Statistics Base vztahy mezi daty vzhledem k příslušné geografické poloze široké uplatnění: veřejná bezpečnost, územní plánování, marketing, epidemiologie, klimatologie volně dostupné mapy na stránkách: https://www.openstreetmap.org/ Zobecněná geoprostorová asociační pravidla Motivace prostorový objekt událost jak ovlivňují prostorové objekty události na mapě? jak neprostorové atributy událostí ovlivňují události? jak neprostorové atributy objektů ovlivňují události? 24
Časoprostorové predikce Motivace nalezení trendů v čase a prostoru které ukazatele v čase a prostoru ovlivňují pozorované události? co můžeme ovlivnit a jak můžeme dosáhnout vytyčené cíle? které prostorové objekty jsou podobné? Časové kauzální modelování modul: Forecasting vztahy ve velkém počtu časových řad předpovědi do budoucnosti what-if analýzy 25
Možnosti integračních pluginů R a Python Python 38 předinstalovaných funkcí, např.: anonymizace proměnných sloučení tabulek aplikace syntaxi na více datových souborů rozdělení souboru na více datových souborů homogenita klastrů R spouštění SPSS Statistics z R 40 předinstalovaných funkcí nové regresní modely klasifikace: náhodné lesy, SVM Lorenzova křivka Web reporty modernizace vzhledu změna typu písma v tabulkách 26
IBM SPSS Base Linear Regression Ondřej Brom www.acrea.cz info@acrea.cz 27
Regresní analýza vztah mezi závislou proměnou a skupinou nezávislých lineární model součet komponent s neznámými koeficienty odhad koeficientů metodou nejmenších čtverců 2 y = ax + bx+ c Y = f (X) + ε ε i2 min Regression regresní analýza odhad koeficientů, vyrovnaných hodnot reziduí statistiky pro kvalitu modelu shoda dat a modelu multikolinearita testování parametrů modelu podmodelů diagnostika reziduí automatický výběr nezávislých proměnných vážená metoda nejmenších čtverců 28
DEMO IBM SPSS Forecasting Ondřej Brom www.acrea.cz info@acrea.cz 29
Forecasting analýza časových řad časová řada - záznam hodnot v čase podmínky modelů stejně dlouhé časové intervaly problémy sezónnost autokorelace změny chování řady Forecasting nástroje a metody nástroje doplnění chybějících hodnot sekvenční graf korelační funkce spektrální analýza metody sezónní očištění autoregrese exponenciální vyrovnávaní ARIMA modely včetně nezávislých řad časové kauzální modelování 30
Forecasting automatizace použití komplexních metod je pro běžného uživatele složité nalézt správný model je časově náročné automatizace hledání nejlepšího modelu modely ARIMA a exponenciální vyrovnávaní hledaní odlehlých pozorovaní vztahy mezi řadami Forecasting časové kauzální modelování model vztahu mezi několika časovými řadami nalézt vhodný model ručně je prakticky nemožné hledání nejlepšího vztahu mezi řadami algoritmus GOMP (Group Orthogonal Matching Pursuit) automatický výběr prediktorů grafické znázornění vztahů 31
DEMO Centrum výuky ACREA Vladimíra Kozojedová www.acrea.cz info@acrea.cz 32
Centrum výuky ACREA Naše zkušenosti: v oblasti vzdělávání působíme více než 20 let lektorský tým tvořený zkušenými analytiky, výzkumníky a vysokoškolskými učiteli celkový počet účastníků našich kurzů: 5 417 celkový počet organizací, které naše kurzy navštěvují: 705 Nabízíme profesní vzdělávání v oblastech: statistika a analýza dat softwareibm SPSS data mining Veřejné kurzy místo konání: Praha, Bratislava délka kurzů: jednodenní, dvoudenní, třídenní, semestrální úroveň: široké spektrum kurzů od základních až po speciální určeno zájemcům na všech úrovních forma: klasická výuka, praktikum 33
Kurzy na klíč kurz vytvořený na míru podle potřeb zákazníka přizpůsobení obsahu, formy, délky kurzu možnost výuky na vlastních datech ucelená skupina kolegů z jedné firmy místo konání dle potřeb zákazníka celkový počet realizovaných kurzů na klíč: 138 Doporučené kurzy (1) IBM SPSS StatisticsBase: Základní statistické procedury (12. 10. 14. 10. 2015) představení základních statistických procedur IBM SPSS Statistics Base zaměření na metody určené pro jednorozměrnou analýzu dat důraz je kladen na výuku programu a stručné vysvětlení principu metod IBM SPSS Statistics Base: Základní statistické procedury praktika (19. 10. 2015) Základy statistiky pro analýzu dat (30. 11. 2. 12. 2015) základní témata a nejčastěji užívané metody statistické analýzy dat zaměření na získání informací o datech na popisné a komparativní úrovni 34
Doporučované kurzy (2) Logistická regrese (20. 10. 2015) umožňuje identifikovat model závislosti jedné veličiny. Na základě nalezeného modelu lze provádět predikce pro neznámé případy včetně odhadu pravděpodobnosti výskytu jednotlivých kategorií. seznámení s výhodami a nevýhodami logistické regrese důraz je kladen na interpretaci vlastního modelu a jeho výstupů Analýza a predikce časových řad (14. 12. 16. 12. 2015) základní přístupy k časovým řadám i pokročilé metody příprava reálných dat časové řady pro modelování, modelování časové řady využití těchto poznatků pro předpověď budoucího chování řady důraz kladený na použití v situacích, se kterými se účastník setkává ve své praxi Vzdělávání pro každého Zakoupení kurzu: oborové slevy množstevní slevy výhodné balíčky kurzů Rok neomezeného vzdělávání Varianty programu RNV BASIC nepřenosné, vztahuje se pouze na osobu uvedenou na přihlášce MIDDLE přenosné, mohou se zúčastnit všichni zaměstnanci daného pracoviště, vždy však maximálně v počtu odpovídajícím zakoupenému počtu oprávnění MULTI mohou se zúčastnit všichni zaměstnanci daného pracoviště bez omezení počtu až do naplnění kapacity kurzu (max. 12 účastníků) 35
Kde je možné získat informace o kurzech přímo zde osobně během přestávky (nebo kdykoliv jindy) webové stránky: http://www.acrea.cz/cz/centrum-vyuky/cv kalendář kurzů: http://www.acrea.cz/cz/centrum-vyuky/kalendar tel/fax: +420 234721444 email: kurzy@acrea.cz Co si zapamatovat Možnost měsíčního pronájmu licencí: IBM SPSS Statistics Base IBM SPSS Statistics Standard IBM SPSS Modeler Balíčky softwaru: IBM SPSS Statistics Standard IBM SPSS Statistics Professional IBM SPSS Statistics Premium Moduly lze zakupovat samostatně (i bez IBM SPSS Statistics Base) Základní zaškolení IBM SPSS Statistics: Začínáme 36
SPSS Datové analýzy Vychází 16.11.2015 Autoři: Doc. RNDR Jan Řehák Ing. Ondřej Brom Publikace pomůže čtenáři jak při seznamování se s programem, tak při samotné práci jako referenční příručka: v celkové orientaci komplexního přístupu k datům efektivně ovládat program důsledně využívat všech možností programu připravovat data pro analýzu používat popisné statistiky, základní testy hypotéz i komplexní statistické metody upravovat tabulkové a grafické výstupy procedur automatizovat práci s programem Důležité odkazy IBM SPSS Smartreader volně ke stažení http://www.acrea.cz/software/ibm-spss-smartreader Trial licence na 14 dní zdarma http://www.acrea.cz/cz/podpora/download Prezentační semináře bezplatná účast http://www.acrea.cz/cz/seminare.php Softwarové skripty volně ke stažení http://www.acrea.cz/cz/podpora/download 37
Využijte jeden z mnoha způsobů, jak se s námi spojit: Web: E-Mail: www.acrea.cz azivna@acrea.cz Telefon: +420 234 721 405 +420 731 920 910 Adresa: Krakovská 7 110 00 Praha 1 Sociální média: ACREA group @acrea_cr ACREA CR 38