Big Data a oficiální statistika Unicorn College Open 24. dubna 2015 Doc. Ing. Marie Bohatá, CSc.
Obsah příspěvku Charakteristiky Big Data Výzvy a úskalí z perspektivy statistiky Výzvy z perspektivy computing (výpočetní metody, teorie a algoritmy) Příklady možných aplikací ve statistice Závěr
Charakteristiky Big Data Populární termín užívaný k popisu exponenciálního růstu dat a jejich dostupnosti; nový pohled na vypovídací schopnost dat Velký rozsah, velká rychlost a velká různorodost informací vyžadují nové formy zpracování, ale i porozumění datům Kombinování velkých objemů dat umožňuje inovace Nerespektují hranice států Multidisciplinární charakter
Charakteristiky Big Data pokrač. Šum roste rychleji než signál Účel, k němuž jsou sbírána; některá využití jen vedlejší produkt Často jde o všudypřítomnost dat, nikoliv big data jako taková Big data neznamená kvalitnější data než menší vzorek
Rysy související s rozsahem Velký rozsah dnes již nepředstavuje problém pro uchovávání Nový problém, jak určit relevantnost, reprezentativnost a jak používat analytiku Rozsáhlé možnosti modelování Často velmi detailní data
Rysy související s rychlostí Příval dat v téměř reálném čase Nutnost rychle zpracovávat (statistikové zvyklí na rezervoáry, nikoliv nepřetržité toky dat)
Rysy související s různorodostí Všechny druhy formátů Obtížné sjednocování a zpracování Nejdůležitější krok identifikace, klasifikace a pochopení proměnných vytvoření datové mapy
Hodnota Big Data Sběr je levný (nová snaha zpeněžit) Ne všechna mají hodnotu; nutnost identifikovat ta významná Řízení dat může být dlouhodobě nákladné (časové řady) Mylné přesvědčení, že obrovské množství dat poskytne správnou odpověď, ale Big Data jsou často Složena z relativně malých podsouborů dat, které spolu obtížně souvisejí (Bradley Efron) Nereprezentativní (systematická chyba) Algoritmy umožňují hledat vzájemné vazby mezi daty - prediktivní modely
Big Data z perspektivy oficiální statistiky
Atributy oficiální statistiky Veřejný statek Mandát sbírat data od respondentů Povinnost respondentů poskytovat data Základní principy státní statistické služby (profesionální nezávislost, nestrannost, objektivita, ochrana důvěrnosti dat, využití dat pouze pro statistické účely)
Motivace využívat Big Data Včasnost dat Úspora nákladů Snížení zátěže respondentů Nadnárodní rozměr dat
Výzvy a úskalí Možná nedorozumění rozsáhlý objem dat eliminuje potřebu teorie a vědecké metody, ale Čísla nemluví sama za sebe Odpovídají zejména na otázky co a kdo, nikoliv proč Potřeba kombinovat s tradičními zjišťováními Interpretace Při každé aplikaci jde o průnik mezi statistikou, computing a vlastní aplikační doménou nutná spolupráce Problémy ochrany a vlastnictví dat
Výzvy a úskalí pokrač. Kultura a reputace statistických úřadů Důvěra veřejnosti ve statistiku Význam ochrany soukromí v nové situaci Obavy, že Big Data znamená Big Brother Ne všechna data shromažďována se souhlasem subjektů Mnohdy data užívána pro jiný účel, než za jakým byla shromážděna
Výzkumné výzvy Simultánní testování hypotéz v řádu tisíců a kombinace klasických (četnostních) a Bayesovských přístupů (chybí teorie) Zacházení se šumem a čištění dat Sumarizace a vizualizace rozsáhlých a komplexních souborů Analýza heterogenních dat Automatizace modelování, testování a výběru modelů Stanovení kvality a komunikace kvality ve vztahu k uživatelům (relevance, přesnost, včasnost, srovnatelnost, koherence, srozumitelnost)
Výzvy pro computing Rozsah dat často neumožňuje jejich uchovávání v 1 databázi Zpracování může trvat příliš dlouho pro rozhodování v reálném čase Zpracování heterogenních druhů datových souborů Uchovávání/zpracování v cloudu představuje specifický problém SOA zpracování by mělo být přesunuto k datům, nikoliv data ke zpracovatelským programům
Společná výzkumná výzva Jak řídit, podporovat, aktualizovat, dokumentovat a archivovat data a umožňovat k nim přístup Partnerství Společenství odborníků propojujících různé relevantní dovednosti
Příklady možného využití Rozsáhlé aplikace v komerční sféře (viz program konference). Statistika - zatím ve fázi ověřování (existující, nové statistiky) Mobilní telefony - statistika turismu, dopravy Kreditní karty náklady na cestování a geografická distribuce Čárové kódy - cenová statistika Sociální sítě subjektivní statistiky blahobytu, podnikatelský sentiment, ale např. i míra nezaměstnanosti
Závěry Řada výzev a úskalí, ale obrovské příležitosti Práce s daty se stává kreativní činností Potřeba rozvíjet mix znalostí a dovedností data talent Rýsuje se nová profese data scientist Organizační a legislativní předpoklady Big Data jako doplněk konvenčních zdrojů dat