Fenomén Big Data Pohled technický Diribet / Q-DAS Konference Homo Digitalis, 2014-10-09
Motivace Běžná situace při rozhodování: Mám více dat, než jsem schopen zpracovat Mám pocit nedostatku informací Více dat Pocit nedostatku informací Více možných rozhodnutí Zhoršená rozhodovací schopnost
Rozhodování na základě informace Rozhodovací Systém Lidský člověk, team, společnost Automatizovaný např. bezpečnostní prvek v autě, automatizovaná regulace výrobního procesu 3 skupiny problémů Absence informace v systému chybí, není k dispozici Ignorance informace je k dispozici, ale systém jí nezpracovává Chyba informace je k dispozici, systém ji zpracuje nesprávně Přidaná informace řeší jen problém typu Absence Intuitivní odhad, že informace se nachází ve velkém množství dat
Zdroje dat Big Data Informace o počasí rostoucí počet čidel a rostoucí vzorkovací frekvence Velký hadronový urychlovač (LHC): 150 000 000 čidel při 40 000 000 Hz Informace o spotřebitelském chování, telefonní sítě, sociální sítě Výrobní stroj, automobil, domácí spotřebič Virtuální simulace
Kde začínají Big Data? Definice Nejednotná, vágní definice Obecně: Množství dat je větší, než je možné efektivně zpracovat Objektivní rozvoj kompetencí ke zpracování velkého množství dat Vývoj nových technik, výkonného hardware, posun poznání Big Data jako slogan Vychází vstříc (nedůvodné) poptávce po množství metrik Populární (marketingové) zaříkávadlo
Analytický stroj Augusta Ada King, hraběnka z Lovelace Článek o Babbageově analytickém stroji (1843) První programátor(ka) Konceptuální přerod z počítacího stroje na analytický stroj, který umí řešit problém jakékoliv komplexnosti Poetická věda : Rozvíjela hypotézy a kladla si otázky o tom, jak se jednotlivci a společnost vztahují k výpočetní technice jako nástroji pro spolupráci
Velká čísla = 2 1000
Taková normální optimalizační úloha Stroj (auto, bagr, frézka) 400 parametrů, každý jen 2 možnosti (min, max) Například kontrola tolerančního řetězce Počet elementárních částic ve vesmíru Každá částice provede výpočtů za vteřinu (Tera Herz) Výpočetní čas = 2 400 10 85 10 12 Hz 600 tisíc krát stáří vesmíru
Technologie s Big Data - příklady Data Mining (Information Mining) Vyhledávání schémat/vzorů ve velkých souborech dat (anomálie, shluky, klasifikace, regrese,...) informace o (dříve) neznámých vlastnostech dat Strojové učení Program se mění podle dat Predikce na základě poznaných vlastností Umělá inteligence, optimalizace Učitel versus dříví v lese Tvorba předsudků, předporozumění
Technologie s Big Data - příklady Multilinear subspace learning nízkodimenzionální reprezentace vysokodimenzionálního tenzoru Problém inicializace, Lokální optimum mechanický příklad: Tenzometr Statistický strojní překlad (1949, 1980) E.g. Google Translate Statistický model na textovém korpusu Nepředvídatelný výsledek Genetické algoritmy Heuristické algoritmy mimikující přirozený výběr Problém nulté populace, evoluce nemá předvídavost
Technologie pro zpracování Big Data Vizualizace Florence Nightingale 1850 Charles Minard (6D) 1866
Florence Nightingale Klínový diagram
Charles Minard Vizualizace Big Data Svět potřebuje moudré inspektory silnic a mostů v důchodu!
Aplikační příklad Best Fit v metrologii Scan bodů na povrchu měřeného objektu Porovnání s CAD modelem Výhody Není třeba stavět program měření Není třeba metrologická kompetence Intuitivní přečtení výsledku Rychlé a atraktivní předvedení Nevýhody Všechny body mají stejnou váhu Chybí informace o funkčních rozměrech Neodpovídá na otázku je díl v toleranci?
Aplikační příklad Best Fit v metrologii Na každou komplikovanou otázku existuje nejméně jedna jednoduchá, srozumitelná, nesprávná odpověď
Informace versus Kompetence Informaci lze vnímat jen skrze kompetenci Kompetence k podstatě problému Technická, sociologická, medicínská,... Čím vyšší je odborná kompetence, tím vyšší je užitek z dat a jejich analýzy Kompetenci nelze nahradit daty / informacemi Karl Pearson parafráze: Statistika je gramatikou technické kompetence
Statistické a matematické metody Pozoruhodné vlastnosti: Metoda není nástroj Ostrá logika Ryzí abstraktnost Výstup je v jasném a logickém vztahu ke vstupu It is not box of chocolates, we know what we re gonna get Metody dávají smysl samy sobě, nevztahují se k žádnému reálnému problému. Praktická náplň přichází jen aplikací Aplikace Praktický problém Statistický problém Úskalí: Aplikace Je technický problém správně přeložen do statistického? Je statistický výsledek relevantní k technickému problému? Je logické pozadí metody ve vztahu k technickým/fyzikálním vlastnostem? Vede řešení k závěru? Může být závěr ověřen jinou metodou? Čas do poruchy výrobku A a B je zamlžen nejistotou Je životnost B alespoň tak dobrá jako A? Nejasná logika Praktický závěr Životnost B je nejméně taková, jako životnost A. Aplikace H0: Výběr z B je podřadný výběru z A H1: Výběr z B je nepodřadný výběru z A Známá logika Statistický výsledek H0 zamítnuta na úrovni α.
Interakce Informace a jejího okolí Vlastnosti okolí mají vliv na vnímání informace Odbornost, profesní kontext, kulturní kontext Informace a její forma má vliv na vlastnosti okolí Rychlá dostupnost informace umožní věnovat čas její interpretaci Snadná dostupnost informace negativně ovlivní krátkodobou pamět Porušená krátkodobá pamět zabraňuje učení / tvorbě kompetence
Závěry, teze Metody pro zpracování Big Data přináší (nové) příležitosti pro získání informací Nové technologie umožňují komplexnější analýzy a nové způsoby prezentace jejich výsledku Neexistuje záruka, že v datech je (potřebná) informace obsažena Neexistuje záruka, že příležitost bude využita Každé použití statistiky je z podstaty doprovozeno ztrátou informace, tím spíše při velké destilaci z velkých dat Člověku je třeba poskytnout takový výstup (a průběh) analýzy, aby Byl srozumitelný, odpovídající oprávněně očekávané kompetenci Mohl zapojit kritický pohled na výsledek a proces jeho vzniku Mohl informaci vnímat v jejím kontextu Vznik a použití informace bylo efektivní (výsledek, čas, peníze)