Big Data Josef Šlerka, Ataxo Interactive, SNM FF UK Business & Information Forum 2011, Praha
3 000 000 000 počet hledání na Googlu denně
30 000 000 000 počet zpráv a příspěvků na Facebooku měsíčně
5 000 000 000 mobilních telefonů po celém světě
140 000 000 průměrný počet zpráv poslaných denně na Twitteru
1 000 000 počet denně vygenerovných zpráv na českém Facebooku v otevřených profilech
600 dolarů cena disku na který se vejde veškerá hudba na světě v MP3
100 dolarů cena hodiny provozu klastru 10 počítačů na Amazonu
0 dolarů cena open-source softwarů, jako je Hadoop, Lucene,Cassandra, CouchDB, Elastich Search a dalších
Big (Data (Science)) buzzwords, které tu s námi dlouho zůstanou
Co jsou to Big Data? Big Data is a term applied to data sets whose size is beyond the ability of commonly used software tools to capture, manage, and process the data within a tolerable elapsed time. Big data sizes are a constantly moving target currently ranging from a few dozen terabytes to many petabytes of data in a single data set.
Co je Data Science? A data application acquires its value from the data itself, and creates more data as a result. It's not just an application with data; it's a data product. Data science enables the creation of data products.
Příklady Jaccardův index a TOEFL Google Translate ZIP klastrování
require 'zlib' require 'pp' files = Dir[ARGV[0] + '/*'] def deflate(*files) z = Zlib::Deflate.new z.deflate(files.collect { f open(f).read}.join("\\n"), Zlib::FINISH).size end pairwise = files.combination(2).collect do f1, f2 a, b = deflate(f1), deflate(f2) both = deflate(f1, f2) {:files => [f1, f2], :score => (a+b)-both} end pp pairwise.sort { a,b b[:score] <=> a[:score]}[0,20]
Změna paradigmatu data-driven vs. knowledge-drive (algorithm-driven) statistické modely vs. modelování skutečnosti Peter Norvig vs Noam Chomsky
Potřebné dovednosti Drew Conway
Big Social Data deep data vs. surface data data-driven sociální a humanitní vědy Lev Manovich: The Promises and the Challenges of Big Social Data
Případové studie prediktivní analýza pomocí velkých dat v praxi
Google a zaměstnanost
Twitter a burza
Mobily a cholera
Facebook a filmy zmínky o Inception na českém Facebooku 2010 a divácký ohlas
Facebook a filmy Harry Potter na českém Facebooku 2010 a divácký ohlas
Problémy aneb co nás brzdí u nás (podle mých omezených zkušeností)
Selhání vysokých škol Informatika - úzké obzory, staré názory, disky už jsou levné Java - cesta pro lepší ukrajinské dělníky
Potřeba přesahu Interdisciplinarita, spolupráce polytechnik a univerzit je toco dnes zoufale chybí, bez ní jsme jen lepší montovna.
Strach z experimentů Jsme příliš v zajetí sezónních prémií, placení za čas a strachu z IT bezpečnostní politiky. Neúspěch se neodpouští.
Inovace chtějí volnost Grantové projekty z MPO a podobné ve skutečnosti brzdí inovace, protože se orientují na řešení průmyslových problémů. Neřešíme myšlení out of box.
Co za to dostanete? podle analytiků McKinsey & Company a jejich BIG DATA: THE NEXT FRONTIER FOR INNOVATION,
Včasný přehled Making big data more accessible in a timely manner.
Budeme vědět s kým Segmenting populations to customize actions.
Přesnější rozhodování Replacing and supporting human decision-making with automated algorithms.
Produkty, které nejsou Innovating new business models, products, and services.
... a taky dobrý pocit něčeho nového:-)
Děkuji za pozornost. josef.slerka@ataxo.com josef.slerka@gmail.com