Big Data a oficiální statistika. Unicorn College Open 24. dubna 2015 Doc. Ing. Marie Bohatá, CSc.



Podobné dokumenty
Datová věda (Data Science) akademický navazující magisterský program

PRO VNITROSTÁTNÍ STATISTICKÉ ORGÁNY A PRO STATISTICKÝ ÚŘAD SPOLEČENSTVÍ

Marketingové aplikace. Doc. Ing.Vladimír Chalupský, CSc., MBA

MODERNÍ MARKETINGOVÝ VÝZKUM

STATISTICKÉ PROGRAMY

Co je xport? Inkubátor nápadů na vlastní podnikání

GIS jako důležitá součást BI. Jan Broulík, Petr Panec ARCDATA PRAHA, s.r.o.

VÝVOJ EVROPSKÉ LEGISLATIVY V OBLASTI INFORMAČNÍCH SYSTÉMŮ

Statistika. Základní pojmy a cíle statistiky. Roman Biskup. (zapálený) statistik ve výslužbě, aktuálně analytik v praxi ;-) roman.biskup(at) .

MANAŽERSKÉ INFORMAČNÍ SYSTÉMY

BIG DATA. Nové úlohy pro nástroje v oblasti BI. 27. listopadu 2012

PLÁN REALIZACE STRATEGICKÉHO ZÁMĚRU FAKULTY ZDRAVOTNICKÝCH STUDIÍ TECHNICKÉ UNIVERZITY V LIBERCI PRO ROK 2019

Specializace Kognitivní informatika

Opatření děkana LF MU č. 5/2013 k zajištění ověřitelnosti výzkumných dat. Část I. Základní ustanovení

GIS v regionální analýze a jejich využití na příkladu Moravskoslezského kraje a města Ostravy

Setkání interních auditorů z finanční oblasti. Nové výzvy pro interní audit Big Data a socialní sítě

Úvodem Dříve les než stromy 3 Operace s maticemi

NAŘÍZENÍ EVROPSKÉHO PARLAMENTU A RADY (ES) č. 763/2008. ze dne 9. července o sčítání lidu, domů a bytů

Informační a komunikační technologie. Informační a komunikační technologie

Plán realizace strategického záměru Fakulty přírodovědně-humanitní a pedagogické Technické univerzity v Liberci na rok 2019

1 Úvod 1.1 Vlastnosti programového vybavení (SW)

Aplikovaná informatika

Synergické efekty VaVpI projektů na VŠB-TU Ostrava

Přeji nám všem hodně zdaru. prof. Ing. Petr Konvalinka, CSc., FEng., rektor ČVUT v Praze

Příští výrobní revoluce příležitost nebo hrozba?

Příloha č. 86. Formulář pro audity (Formulář A, MS Excel)

Řízení výkonnosti nemovitostního portfolia. Integrační platforma innosys. Květen 2014

SíťIT: Portál na podporu sociální sítě informatiků v ČR

Kritérium relevance v hodnocení udržitelného rozvoje. Doc. PaedDr. Tomáš Hák, PhD. Doc. RNDr. Svatava Janoušková, PhD.

Teorie systémů TES 5. Znalostní systémy KMS

Datová kvalita základ úspěšného BI. RNDr. Ondřej Zýka, Profinit

Legislativní smršť v roce2018 a její vliv na kybernetickou a informační bezpečnost Ing. Aleš Špidla

Doc. Ing. Daniel Kaminský, CSc. ELCOM, a.s.

IBM SPSS Exact Tests. Přesné analýzy malých datových souborů. Nejdůležitější. IBM SPSS Statistics

PŘÍLOHA C Požadavky na Dokumentaci

Standard pro písemné práce k magisterské zkoušce

MANAŽERSKÉ INFORMAČNÍ SYSTÉMY

PODNĚTY PRO REVIZI STANDARDŮ KVALITY V EVROPSKÉM RÁMCI PRO KVALITU SOCIÁLNÍCH SLUŽEB

PŘEDMLUVA ODDÍL I 1. MANAŽEŘI A JEJICH KOMPETENCE

Osnova vstupní analýzy pro vyhledávání vhodných firem pro klastry

Moderní systémy pro získávání znalostí z informací a dat

Proces auditu. Health Research & Information Division, ESRI, Dublin, July 2008

Představení výsledků projektu. Implementace procesního modelu s využitím ADONIS na Městském úřadě Prostějov

Zdroj:

Význam inovací pro firmy v současném. Jan Heřman 26. říjen 2012

Proces marketingového výzkumu - jednotlivé fáze, význam, stručná charakteristika. Výběr a formulace výzkumného problému. Vztahy mezi proměnnými.

Základy business intelligence. Jaroslav Šmarda

Datová kvalita. RNDr. Ondřej Zýka

Specifikace předmětu plnění Datová tržiště

Aktuální hlediska a trendy v přístupu k vědeckým informacím a datům. David Novák Archeologický ústav AV ČR, Praha, v. v. i.

Interaktivní mapa neziskového sektoru

PROPOJENÍ VĚDY, VÝZKUMU, VZDĚLÁVÁNÍ A PODNIKOVÉ PRAXE. PhDr. Dana Pokorná, Ph.D. Mgr. Jiřina Sojková, Státní zámek Sychrov,

Experimentální systém pro WEB IR

EMBARCADERO TECHNOLOGIES. Jak na BYOD chytře? Možnosti zapojování různých mobilních zařízení do podnikových informačních systémů.


PODNIKATELSKÉ FÓRUM ÚSTECKÝ KRAJ

Prognostické metody. Prognostické metody. Vybrané prognostické metody ANALÝZA DAT V REGIONALISTICE. Doc. Ing. Alois Kutscherauer, CSc.

Gradua-CEGOS, s.r.o. člen skupiny Cegos MANAŽER KVALITY PŘEHLED POŽADOVANÝCH ZNALOSTÍ K HODNOCENÍ ZPŮSOBILOSTI

XXXXXXXXXXXXXX NADPIS. PODNADPIS Text text text. Bod KURZY A SEMINÁŘE. naše edukační aktivity

PLÁN REALIZACE STRATEGICKÉHO ZÁMĚRU FAKULTY ZDRAVOTNICKÝCH STUDIÍ TECHNICKÉ UNIVERZITY V LIBERCI PRO ROK 2017

Psychologie práce a organizace v ČR

Obsah ODDÍL A ZÁKLADNÍ SOUVISLOSTI MAKROEKONOMICKÉ ANALÝZY 3 ODDÍL B: ANALÝZA VNITŘNÍ A VNĚJŠÍ EKONOMICKÉ ROVNOVÁHY 63. Úvod 1

Společnost vědeckotechnických parků ČR

1. ZÁVAZNÉ PŘEDMĚTY. Ekonomická teorie. Matematicko statistické metody v ekonomii 2. POVINNĚ VOLITELNÉ PŘEDMĚTY

5.1.7 Informatika a výpočetní technika. Časové, obsahové a organizační vymezení. ročník hodinová dotace

NAŘÍZENÍ EVROPSKÉHO PARLAMENTU A RADY (ES) č. 223/2009. ze dne 11. března 2009

TCP Open Cloud Provider

Možnosti a perspektivy odborných pozorování nejen na hvězdárnách

Projekt BRIS a jeho přínos Zahajovací konference projektu RIS Zlínského kraje

Předmluva ke třetímu vydání Předmluva k českému vydání Co je to marketingový výzkum? Pátrání po marketingových rozhodnutích...

KODEX EVROPSKÉ STATISTIKY

Studentské hodnocení výuky

Příprava dat v softwaru Statistica

Datová kvalita. RNDr. Ondřej Zýka

OZNÁMENÍ O VOLNÉM PRACOVNÍM MÍSTĚ ZA ÚČELEM SESTAVENÍ REZERVNÍHO SEZNAMU

Průzkumy dopravního chování: základní zdroj dat o dopravní poptávce. Petr Šenk Centrum dopravního výzkumu, v.v.i.

Algoritmy a struktury neuropočítačů ASN - P10. Aplikace UNS v biomedicíně

OPONENTSKÝ POSUDEK HABILITAČNÍ PRÁCE

Význam inovací pro firmy v současném období

Úloha marketingu v řízení podniku. Metody, nástroje a prostředky řízených vztahů s veřejností (PR)

Průřezová inovace studijních programů Lesnické a dřevařské fakulty MENDELU v Brně (LDF) s ohledem na disciplíny společného základu (AKADEMIE)

Regionální dopady sektorových politik

Chytré město pro 21. století

OBLASTI VEDENÍ ZÁVĚREČNÝCH PRACÍ PEDAGOGŮ INSTITUTU 545

3. Očekávání a efektivnost aplikací

Redesign statistického systému a INSPIRE

KONCEPT INTELIGENTNÍ SPECIALIZACE A JEHO VYUŽITÍ V REGIONÁLNÍCH ROZVOJOVÝCH STRATEGIÍCH

Sázíte-li v loterii, je to hazard. Hrajete-li poker, je to zábava. Obchodujete-li na burze, je to ekonomie. Vidíte ten rozdíl?

Vize ERRAC do roku 2050 Rail 2050 Vision Ing. Jaroslav Vašátko

Sledování regionálních rozdílů

Zkvalitnění shromažďování informací o vysílání a o podmínkách pro vysílané pracovníky. Kristin Alsos & Anne Mette Ødegård

Antonín Přibyl Odborná praxe oborů PS a AI

Zhodnocení architektury podniku. Jiří Mach

Výrobní pracoviště budoucnosti

UŽIVATELSKÝ MANUÁL. Obecné informace pro uživatele a administrátory dotazníku. Kariérový kompas

Výzkumná otázka přiměřená naší práci (bakalářská, diplomová apod.), nelze na ni odpovědět pouze ano, či ne, v rámci teoretické přípravy k ní můžeme

Informační technologie požadavky a realizace vzdělávacího procesu

Kristýna Rybová Univerzita J.E.Purkyně v Ústí nad Labem Viktor Květoň Univerzita Karlova. Správa železniční dopravní cesty, Praha,

O co vlastně jde? Meze a limity terénních šetření a jejich řešení v praxi marketingového výzkumu. Kombinace metodologií sběru dat

Impulzy ze zámoz. USA a Austrálie. Prof. Milan KONEČNÝ, CSc. Laboratoř geoinformatiky a kartografie, GÚ MU, Brno

Transkript:

Big Data a oficiální statistika Unicorn College Open 24. dubna 2015 Doc. Ing. Marie Bohatá, CSc.

Obsah příspěvku Charakteristiky Big Data Výzvy a úskalí z perspektivy statistiky Výzvy z perspektivy computing (výpočetní metody, teorie a algoritmy) Příklady možných aplikací ve statistice Závěr

Charakteristiky Big Data Populární termín užívaný k popisu exponenciálního růstu dat a jejich dostupnosti; nový pohled na vypovídací schopnost dat Velký rozsah, velká rychlost a velká různorodost informací vyžadují nové formy zpracování, ale i porozumění datům Kombinování velkých objemů dat umožňuje inovace Nerespektují hranice států Multidisciplinární charakter

Charakteristiky Big Data pokrač. Šum roste rychleji než signál Účel, k němuž jsou sbírána; některá využití jen vedlejší produkt Často jde o všudypřítomnost dat, nikoliv big data jako taková Big data neznamená kvalitnější data než menší vzorek

Rysy související s rozsahem Velký rozsah dnes již nepředstavuje problém pro uchovávání Nový problém, jak určit relevantnost, reprezentativnost a jak používat analytiku Rozsáhlé možnosti modelování Často velmi detailní data

Rysy související s rychlostí Příval dat v téměř reálném čase Nutnost rychle zpracovávat (statistikové zvyklí na rezervoáry, nikoliv nepřetržité toky dat)

Rysy související s různorodostí Všechny druhy formátů Obtížné sjednocování a zpracování Nejdůležitější krok identifikace, klasifikace a pochopení proměnných vytvoření datové mapy

Hodnota Big Data Sběr je levný (nová snaha zpeněžit) Ne všechna mají hodnotu; nutnost identifikovat ta významná Řízení dat může být dlouhodobě nákladné (časové řady) Mylné přesvědčení, že obrovské množství dat poskytne správnou odpověď, ale Big Data jsou často Složena z relativně malých podsouborů dat, které spolu obtížně souvisejí (Bradley Efron) Nereprezentativní (systematická chyba) Algoritmy umožňují hledat vzájemné vazby mezi daty - prediktivní modely

Big Data z perspektivy oficiální statistiky

Atributy oficiální statistiky Veřejný statek Mandát sbírat data od respondentů Povinnost respondentů poskytovat data Základní principy státní statistické služby (profesionální nezávislost, nestrannost, objektivita, ochrana důvěrnosti dat, využití dat pouze pro statistické účely)

Motivace využívat Big Data Včasnost dat Úspora nákladů Snížení zátěže respondentů Nadnárodní rozměr dat

Výzvy a úskalí Možná nedorozumění rozsáhlý objem dat eliminuje potřebu teorie a vědecké metody, ale Čísla nemluví sama za sebe Odpovídají zejména na otázky co a kdo, nikoliv proč Potřeba kombinovat s tradičními zjišťováními Interpretace Při každé aplikaci jde o průnik mezi statistikou, computing a vlastní aplikační doménou nutná spolupráce Problémy ochrany a vlastnictví dat

Výzvy a úskalí pokrač. Kultura a reputace statistických úřadů Důvěra veřejnosti ve statistiku Význam ochrany soukromí v nové situaci Obavy, že Big Data znamená Big Brother Ne všechna data shromažďována se souhlasem subjektů Mnohdy data užívána pro jiný účel, než za jakým byla shromážděna

Výzkumné výzvy Simultánní testování hypotéz v řádu tisíců a kombinace klasických (četnostních) a Bayesovských přístupů (chybí teorie) Zacházení se šumem a čištění dat Sumarizace a vizualizace rozsáhlých a komplexních souborů Analýza heterogenních dat Automatizace modelování, testování a výběru modelů Stanovení kvality a komunikace kvality ve vztahu k uživatelům (relevance, přesnost, včasnost, srovnatelnost, koherence, srozumitelnost)

Výzvy pro computing Rozsah dat často neumožňuje jejich uchovávání v 1 databázi Zpracování může trvat příliš dlouho pro rozhodování v reálném čase Zpracování heterogenních druhů datových souborů Uchovávání/zpracování v cloudu představuje specifický problém SOA zpracování by mělo být přesunuto k datům, nikoliv data ke zpracovatelským programům

Společná výzkumná výzva Jak řídit, podporovat, aktualizovat, dokumentovat a archivovat data a umožňovat k nim přístup Partnerství Společenství odborníků propojujících různé relevantní dovednosti

Příklady možného využití Rozsáhlé aplikace v komerční sféře (viz program konference). Statistika - zatím ve fázi ověřování (existující, nové statistiky) Mobilní telefony - statistika turismu, dopravy Kreditní karty náklady na cestování a geografická distribuce Čárové kódy - cenová statistika Sociální sítě subjektivní statistiky blahobytu, podnikatelský sentiment, ale např. i míra nezaměstnanosti

Závěry Řada výzev a úskalí, ale obrovské příležitosti Práce s daty se stává kreativní činností Potřeba rozvíjet mix znalostí a dovedností data talent Rýsuje se nová profese data scientist Organizační a legislativní předpoklady Big Data jako doplněk konvenčních zdrojů dat