GPU jako levný výpočetní akcelerátor pro obrazovou JPEG2000 kompresi. ORS 2011 Karviná,

Podobné dokumenty
Hardwarová akcelerace HD videa v návaznosti na architektury čipu grafických karet

Hlavní využití počítačů

Obecné výpočty na GPU v jazyce CUDA. Jiří Filipovič

GPGPU Aplikace GPGPU. Obecné výpočty na grafických procesorech. Jan Vacata

Povídání na téma. SUPERPOČÍTAČE DNES A ZÍTRA (aneb krátký náhled na SC) Filip Staněk

PŘEDSTAVENÍ GRAFICKÉHO PROCESORU NVIDIA G200

Geekovo Minimum. Počítačové Grafiky. Nadpis 1 Nadpis 2 Nadpis 3. Božetěchova 2, Brno

Vyuºití GPGPU pro zpracování dat z magnetické rezonance

Bezpečný JPEG Úvod 2. JPEG Vlastnosti JPEG /

Nvidia CUDA Paralelní programování na GPU

GPGPU. Jan Faigl. Gerstnerova Laboratoř pro inteligentní rozhodování a řízení České vysoké učení technické v Praze

Vestavný modul pro počítačové vidění využívající hradlové pole

GPU A CUDA HISTORIE GPU CO JE GPGPU? NVIDIA CUDA

Gymnázium Vysoké Mýto nám. Vaňorného 163, Vysoké Mýto

Vlastnosti produktu. Seznamte se s novým šampionem na poli stolních počítačů

Jan Nekvapil ČESKÉ VYSOKÉ UČENÍ TECHNICKÉ V PRAZE Fakulta elektrotechnická

Závěrečná zpráva projektu Experimentální výpočetní grid pro numerickou lineární algebru

Hardwarová akcelerace HD videa v návaznosti na architektury čipu grafických karet

5 990,- květen , ,- ceník. HCOMP AMD 4000 Trinity. Záruka 2 roky možnost splátek. Doporučený software. Cena s DPH.

5 990,- leden ceník. HCOMP AMD 4020 Trinity. Záruka 2 roky. Příplatky a software: Cena s DPH. Počítač: 4GB DDR3 RAM AMD HD GB HDD

2.8 Procesory. Střední průmyslová škola strojnická Vsetín. Ing. Martin Baričák. Název šablony Název DUMu. Předmět Druh učebního materiálu

DigiDepot: JPEG 2000 jako ukládací formát

SUPERPOČÍTAČE DANIEL LANGR ČVUT FIT / VZLÚ

Gymnázium Vysoké Mýto nám. Vaňorného 163, Vysoké Mýto

5 790,- únor ceník. HCOMP AMD 4020 Trinity. Záruka 2 roky. Příplatky a software: Cena s DPH. Počítač: 4GB DDR3 RAM AMD HD GB HDD

Záznamy přednášek a streaming

Základní definice Aplikace hašování Kontrukce Známé hašovací funkce. Hašovací funkce. Jonáš Chudý. Úvod do kryptologie

Pokročilá architektura počítačů

Architektury počítačů

5 990,- prosinec , ,- ceník. HCOMP AMD 4000 Trinity. Záruka 2 roky možnost splátek. Doporučený software. Cena s DPH.

Roman Výtisk, VYT027

Pokročilé architektury počítačů

5 790,- prosinec ceník. HCOMP AMD 4020 Trinity. Záruka 2 roky. Příplatky a software: Cena s DPH. Počítač: 4GB DDR3 RAM AMD HD GB HDD

Speciální přenosy UltraGrid Výkon a vlastnosti Vícebodové přenosy Závěr. Miloš Liška CESNET z.s.p.o. <milos.liska@cesnet.

AKCELERACE EVOLUCE PRAVIDEL CELULÁRNÍCH AUTOMATŮ NA GPU


REALIZACE SUPERPOČÍTAČE POMOCÍ GRAFICKÉ KARTY

Pokročilé architektury počítačů

5 990,- září , ,- ceník. HCOMP AMD 4000 Trinity. Záruka 2 roky možnost splátek. Doporučený software. Cena s DPH. Počítač: 4GB DDR3 RAM

Optimalizace pro GPU hardware

C2115 Praktický úvod do superpočítání

Část 2 POROVNÁNÍ VÝKONNOSTI A POUŽITELNOSTI ARCHITEKTUR V TYPICKÝCH APLIKACÍCH

5 990,- září ceník. HCOMP AMD 4020 Trinity. Záruka 2 roky. Příplatky a software: Cena s DPH. Počítač: 4GB DDR3 RAM AMD HD GB HDD

Multimédia. Jan Růžička Konference CESNET 2019

Paralelní výpočty ve finančnictví

5 990,- listopad ceník. HCOMP AMD 4020 Trinity. Záruka 2 roky. Příplatky a software: Cena s DPH. Počítač: 4GB DDR3 RAM AMD HD GB HDD

SYSTÉMY NAČIPU MI-SOC

Úvod do GPGPU J. Sloup, I. Šimeček

Fakulta elektrotechniky a komunikačních technologií Ústav radioelektroniky. prof. Ing. Stanislav Hanus, CSc v Brně

Optimalizace pomocí icc/gcc - vektorizace

Profilová část maturitní zkoušky 2017/2018

Pokročilé architektury počítačů

Notebooky za výhodné ceny. Počítačové sestavy s prodlouženou zárukou. Základní domácí počítač ASUS X53BR ASUS K53U.

Modernizace a inovace výpočetní kapacity laboratoří ITE pro účely strojového učení. Jiří Málek

Co je grafický akcelerátor

ReDefine Midrange Storage VNX/VNXe. Václav Šindelář, EMC

Hardware 1. Přehled platforem podle procesorů

Pokročilé architektury počítačů

Architektura grafických ip pro Xbox 360 a PS3

GPU a CUDA. Historie GPU. Co je GPGPU? Nvidia CUDA

Zpracování obrazu v FPGA. Leoš Maršálek ATEsystem s.r.o.

Cvičení MI-PAP I. Šimeček, M. Skrbek, J. Trdlička

DODATEČNÉ INFORMACE K ZADÁVACÍM PODMÍNKÁM Č. 4

Platforma Juniper QFabric

IIS Media Services. David Gešvindr MSP MCT MCITP

Paralelní a distribuované výpočty (B4B36PDV)

Profilová část maturitní zkoušky 2013/2014

OPS Paralelní systémy, seznam pojmů, klasifikace

Návrh softwarových systémů - architektura softwarových systémů

MATURITNÍ OTÁZKY ELEKTROTECHNIKA - POČÍTAČOVÉ SYSTÉMY 2003/2004 TECHNICKÉ VYBAVENÍ POČÍTAČŮ

Úvod do modelování v programu COMSOL Multiphysics verze 4

PROCESOR. Typy procesorů

NSWI /2011 ZS. Principy cpypočítačůčů aoperačních systémů ARCHITEKTURA

Kompresní techniky. David Bařina. 15. února David Bařina Kompresní techniky 15. února / 37

Ro R dina procesor pr ů Int In e t l Nehalem Šmída Mojmír, SMI108 PAP PA 2009

1. Zpracování událostí na pozadí aplikace

IB109 Návrh a implementace paralelních systémů. Organizace kurzu a úvod. Jiří Barnat

Procesy a vlákna (Processes and Threads)

Novinky HMI. Magelis HMISTO501 ipc Magelis BOX PC Vijeo Designer v.6.0

Evropský sociální fond Praha & EU: Investujeme do vaší budoucnosti

Grafické karty s podporou DirectX 11 Quynh Trang Dao Dao007

CUDA J. Sloup a I. Šimeček

ZADÁVACÍ DOKUMENTACE PRO VEŘEJNOU ZAKÁZKU

Grafika a grafický design. Internetové publikování

Herní PC HAL3000 Artemis výkonný lovec pro nekončící zábavu

Výukový materiál Hardware je zaměřený především na výuku principů práce hardwaru a dále uvádí konkrétní příklady použití.

Webové stránky. 16. Obrázky na webových stránkách, optimalizace GIF. Datum vytvoření: str ánk y. Vytvořil: Petr Lerch.

5 590,- říjen ceník. HCOMP AMD 4020 Trinity. Záruka 2 roky. Příplatky a software: Cena s DPH. Počítač: Nová nižší cena!

Architektura procesoru ARM Cortex-A9 MPCore

Osobní počítač. Zpracoval: ict Aktualizace:

Architektura Intel Atom

Podrobnosti o produktu Dell XPS M ) Přehled

Nová architektura od ATI (Radeon HD 4800) Datum: Vypracoval: Bc. Radek Stromský

Najde si Software Defined Storage své místo na trhu?

Architektura procesoru ARM

Hardware 1. Přehled platforem podle procesorů. PC (Wintel) různí výrobci - domácí počítače, pracovní stanice, servery 1-4 procesory Intel, AMD

Základní pojmy. Multimédia. Multimédia a interaktivita

Gymnázium Vysoké Mýto nám. Vaňorného 163, Vysoké Mýto

INFORMAČNÍ A KOMUNIKAČNÍ TECHNOLOGIE

Xbox 360 Cpu = IBM Xenon

Transkript:

GPU jako levný výpočetní akcelerátor pro obrazovou JPEG2000 kompresi Jiří Matela ORS 2011 Karviná, 2011 10 21

PROPOJENÍ 3

UltraGrid

nízkolatenční,

nízkolatenční, vysoké rozlišení,

nízkolatenční, vysoké rozlišení, (3D),

nízkolatenční, vysoké rozlišení, (3D), Linux,

nízkolatenční, vysoké rozlišení, (3D), Linux, Mac,

nízkolatenční, vysoké rozlišení, (3D), Linux, Mac, vzdálená výuka,

nízkolatenční, vysoké rozlišení, (3D), Linux, Mac, vzdálená výuka, filmový postprocesing

Potřeba komprese

Nízká latence & Vysoká propustnost

+

Kompresní standard JPEG2000 Následník standardu JPEG Vynikající kompresní vlastnosti Ztrátová i bezztrátová komprese Odolnost proti chybám a výpadkům při přenosech Standard v mnoha oblastech (DCI)

JPEG2000 Schéma Code-blocks -> EBCOT Tier-1

DWT Massively Parallel Design DWT na černobílém obrázku v HD na GPU 0.2ms (NVIDIA GeForce 580GTX) J.Matela. GPU-Based DWT Acceleration for JPEG2000. MEMICS, 2009 Stránka projektu: http://gpudwt.googlecode.com

DWT Massively Parallel Design CPU 55ms (Single threaded Core i7 @ 3GHz) J.Matela. GPU-Based DWT Acceleration for JPEG2000. MEMICS, 2009 Stránka projektu: http://gpudwt.googlecode.com

DWT Massively Parallel Design Zrychlení 275 Nevěřte tomu J.Matela. GPU-Based DWT Acceleration for JPEG2000. MEMICS, 2009 Stránka projektu: http://gpudwt.googlecode.com

Context Modeling reformulovaný pro GPU J.Matela, V. Rusňák, P. Holub. Efficient JPEG2000 EBCOT Context Modeling for Massively Parallel Architectures. DCC, 2011 J.Matela, V. Rusňák, P. Holub. GPU-Based Sample-Parallel Context Modeling for EBCOT in JPEG2000. MEMICS, 2011

Paralelní design a implementace J.Matela, V. Rusňák, P. Holub. Efficient JPEG2000 EBCOT Context Modeling for Massively Parallel Architectures. DCC, 2011 J.Matela, V. Rusňák, P. Holub. GPU-Based Sample-Parallel Context Modeling for EBCOT in JPEG2000. MEMICS, 2011

OpenJPEG (CPU) JasPer (CPU) Kakadu (CPU) CUJ2K (GPU) Performance compared to...

Context Modeling 800 Performance [ms] 600 400 200 0 642 ms, 71 599 ms, 66 OpenJPEG JasPer 98 ms 10 94 ms 9 Kakadu CUJ2K 9 ms, ref bpcuda

Aritmetické kódování J.Matela, M. Šrom, P. Holub. Low GPU Occupancy Approach to Fast Arithmetic Coding in JPEG2000. MEMICS LNCS, 2011

Hrubá datová granularita Datově závislé větvení

Metody akcelerace Přechod k registrům (+) (Opravená) Vylepšená renormalizace (+) Loop unrolling (-) Suma prefixů (-) Nahrávání dat po větších kusech (+) Nízké obsazení karty (Low-occupancy) (+)

Metody akcelerace Přechod k registrům (+) (Opravená) Vylepšená renormalizace (+) Loop unrolling (-) Suma prefixů (-) Nahrávání dat po větších kusech (+) Nízké obsazení karty (Low-occupancy) (+)

Metody akcelerace Přechod k registrům (+) (Opravená) Vylepšená renormalizace (+) Loop unrolling (-) Suma prefixů (-) Nahrávání dat po větších kusech (+) Nízké obsazení karty (Low-occupancy) (+)

Metody akcelerace Přechod k registrům (+) (Opravená) Vylepšená renormalizace (+) Loop unrolling (-) Suma prefixů (-) Nahrávání dat po větších kusech (+) Nízké obsazení karty (Low-occupancy) (+)

Metody akcelerace Přechod k registrům (+) (Opravená) Vylepšená renormalizace (+) Loop unrolling (-) Suma prefixů (-) Nahrávání dat po větších kusech (+) Nízké obsazení karty (Low-occupancy) (+)

Metody akcelerace Přechod k registrům (+) (Opravená) Vylepšená renormalizace (+) Loop unrolling (-) Suma prefixů (-) Nahrávání dat po větších kusech (+) Nízké obsazení karty (Low-occupancy) (+)

Aritmetické kódování HD obrazu 400 Performance [ms] 300 200 100 0 316 ms, 35 178 ms, 19 OpenJPEG JasPer 84 ms, 9 49 ms, 5 Kakadu CUJ2K 9 ms, ref bpcuda

EBCOT Tier-1 processing time for HD image Performance [ms] 1,000 500 958 ms, 50 777 ms, 41 182 ms, 9 143 ms, 8 0 OpenJPEG JasPer Kakadu CUJ2K ( -> IEEE Transaction on Multimedia) 19 ms, ref bpcuda

S čím jsme se potýkali... Dobrá znalost GPU architektury Programátorský overhead Inicializace zařízení Management pamětí a Pamět ové operace

... ale především Udržitelnost kódu (novější GPU architektury) Optimalizace využití zdrojů

+ +

Abstrakce na vyšší úrovni Čitelnější a snadnější zápis Překlad pro konkrétní architekturu (Obecne složitý problém) Ověřené techniky (Sliding Window)

Abstrakce na vyšší úrovni Čitelnější a snadnější zápis Překlad pro konkrétní architekturu (Obecne složitý problém) Ověřené techniky (Sliding Window)

Abstrakce na vyšší úrovni Čitelnější a snadnější zápis Překlad pro konkrétní architekturu (Obecne složitý problém) Ověřené techniky (Sliding Window)

Abstrakce na vyšší úrovni Čitelnější a snadnější zápis Překlad pro konkrétní architekturu (Obecne složitý problém) Ověřené techniky (Sliding Window)

Děkuji vám za pozornost! <matela@ics.muni.cz> http://www.sitola.cz/