Introdução as Unidades de Processamento Gráfico (GPUs) · Pipeline Gráfico Fixo...

Introdução as Unidades de Introdução as Unidades de Processamento Gráfico (GPUs)Processamento Gráfico (GPUs)

Giovane Roslindo KuhnGiovane Roslindo Kuhn

Computação Gráfica x RealidadeComputação Gráfica x Realidade

Consulta ao BDConsulta ao BD

SELECT nome FROM Pessoa WHERE idade > 25SELECT nome FROM Pessoa WHERE idade > 25

SumárioSumário• Pipeline Gráfico Fixo (Pipeline Gráfico Fixo (OverviewOverview))

• Pipeline Gráfico ProgramávelPipeline Gráfico Programável– Porque os jogos avançaram tanto em realidade?Porque os jogos avançaram tanto em realidade?

• GPU para Propósito GeralGPU para Propósito Geral– Pra que? Como? Exemplos?Pra que? Como? Exemplos?

• Tecnologias CorrentesTecnologias Correntes

• ConsideraçõesConsiderações

Pipeline Gráfico Fixo (Pipeline Gráfico Fixo (OverviewOverview))

ModeloProcessador

deVértices

RasterizadorProcessador

deFragmentos

Display

VérticesVérticesCoordenadas texturaCoordenadas texturaNormaisNormais

Fonte: Comba, Dietrich, Oliveira, Pagot, ScheideggerFonte: Comba, Dietrich, Oliveira, Pagot, Scheidegger

ModeloProcessador

deVértices

deFragmentos

Display

Transforma vértices para coordenadas do mundoTransforma vértices para coordenadas do mundoTransforma vértices para coordenadas da câmeraTransforma vértices para coordenadas da câmeraAplica iluminaçãoAplica iluminaçãoEfetua clippingEfetua clippingTransforma para coordenadas de telaTransforma para coordenadas de tela

ModeloProcessador

deVértices

deFragmentos

Display

Primitivas são decompostas em fragmentosPrimitivas são decompostas em fragmentosAtributos dos fragmentos são a interpolação dos atributos vérticesAtributos dos fragmentos são a interpolação dos atributos vértices

ModeloProcessador

deVértices

deFragmentos

Display

Texturização é aplicadaTexturização é aplicadaCor dos fragmentos são determinadasCor dos fragmentos são determinadasDiversas operações de rasterização são efetuadasDiversas operações de rasterização são efetuadasScissor-test, alpha-test, stencil-test, depth-testScissor-test, alpha-test, stencil-test, depth-testBlending, dithering, operações lógicasBlending, dithering, operações lógicas

ModeloProcessador

deVértices

deFragmentos

Display

ModeloProcessador

deVértices

deFragmentos

Display

• 1ª geração (1998) – TNT2, Voodoo31ª geração (1998) – TNT2, Voodoo3

• 2ª geração (1999~2000) – GeForce 2, ATI 7500, Savage3D2ª geração (1999~2000) – GeForce 2, ATI 7500, Savage3D

Paralelismo no PipelineParalelismo no Pipeline

ModeloProcessador

deVértices

deFragmentos

Display

Processador de

Vértices

Processador de

Vértices

Processadorde

Fragmentos

Processadorde

Fragmentos

Processadorde

Fragmentos

Processadorde

Fragmentos

Pipeline Gráfico ProgramávelPipeline Gráfico Programável• Programar os processadores de fragmentosProgramar os processadores de fragmentos

– 3ª geração (2001~2002) – GeForce 3 e 4, ATI 8500 3ª geração (2001~2002) – GeForce 3 e 4, ATI 8500

• Programar os processadores de vértices e fragmentosProgramar os processadores de vértices e fragmentos– 4ª geração (2003~2006) – GeForce FX, 6 e 7, ATI 9700 e 98004ª geração (2003~2006) – GeForce FX, 6 e 7, ATI 9700 e 9800

• Linguagens gráficas de alto-nívelLinguagens gráficas de alto-nível– Cg – NVidiaCg – NVidia– HLSL – MicrosoftHLSL – Microsoft– GLSL – OpenGLGLSL – OpenGL

• Permitiram os avanços de realismo nos jogosPermitiram os avanços de realismo nos jogos

Modelos de IluminaçãoModelos de Iluminação

Gouraud shading (por vértice)Gouraud shading (por vértice) Phong shading (por pixel)Phong shading (por pixel)

Reflexão e RefraçãoReflexão e Refração

ReflexãoReflexão Refração 1 desvioRefração 1 desvio

Efeito FresnelEfeito Fresnel

Refração 1 desvioRefração 1 desvio FresnelFresnel

Normal MapNormal Map

DilataçãoDilatação ErosãoErosão

Normal Map + FresnelNormal Map + Fresnel

LogoLogo EstudanteEstudante

Relief MapRelief Map

VídeosVídeos

Fonte: Manuel M. Oliveira (http://www.inf.ufrgs.br/~oliveira/RTM.html)Fonte: Manuel M. Oliveira (http://www.inf.ufrgs.br/~oliveira/RTM.html)

Shadow Map + Caustic MapShadow Map + Caustic Map

Mapeamento de sombras e cáusticasMapeamento de sombras e cáusticas

O que mais?O que mais?

Subsurface scatteringSubsurface scattering

Fonte: http://graphics.ucsd.edu/~henrikFonte: http://graphics.ucsd.edu/~henrik

TranslucênciaTranslucênciaFonte: http://graphics.ucsd.edu/~henrikFonte: http://graphics.ucsd.edu/~henrik

Como Começo?Como Começo?• Recomendo o programa FX ComposerRecomendo o programa FX Composer

– Suporte OpenGL e DirectX 9Suporte OpenGL e DirectX 9– Suporte HLSL, CgFXSuporte HLSL, CgFX– Dezenas de modelos prontosDezenas de modelos prontos

• Perfeito para prototipar os shadersPerfeito para prototipar os shaders– Centenas de exemplos prontosCentenas de exemplos prontos– Programe apenas o seu shaderPrograme apenas o seu shader– Altere os parâmetros sem stressAltere os parâmetros sem stress

Perguntas (1º parte)Perguntas (1º parte)

Giovane Roslindo KuhnGiovane Roslindo Kuhngrkuhn@gmail.comgrkuhn@gmail.com

GPU para Propósito GeralGPU para Propósito Geral• Porque GPU em computação de propósito geral?Porque GPU em computação de propósito geral?

Simular dinâmica de fluídosSimular dinâmica de fluídos

Demo da NvidiaDemo da Nvidia [Liu et al. 2004][Liu et al. 2004]

GPU para Propósito Geral GPU para Propósito Geral (cont.)(cont.)

Visualizar e interagir com dados científicosVisualizar e interagir com dados científicos

[Krüger et al. 2005][Krüger et al. 2005]

GPU para Propósito Geral GPU para Propósito Geral (cont.)(cont.)

Combinar sequências genéticasCombinar sequências genéticas

[Horn et al. 2005][Horn et al. 2005]

Modelo

Consulta

Base de Dados

Junk Junk Junk Junk Junk

Del Del Del Del

Start EndF R N T PT

Queremos tudo isso...Queremos tudo isso...• ...no nosso PC desktop...no nosso PC desktop

• ...de modo que possamos interagir...de modo que possamos interagir

• ...de modo a obter resultados instantâneos...de modo a obter resultados instantâneos

Queremos tudo isso...Queremos tudo isso...• ...no nosso PC desktop...no nosso PC desktop

• ...de modo que possamos interagir...de modo que possamos interagir

• ...de modo a obter resultados instantâneos...de modo a obter resultados instantâneos

• Estamos na era do paralelismo em desktopsEstamos na era do paralelismo em desktops

Paralelismo em DesktopsParalelismo em Desktops• Softwares mais rápidos precisam paralelismoSoftwares mais rápidos precisam paralelismo

• 2x mais rápido ao dobrar número de cores2x mais rápido ao dobrar número de cores

Qtde. núcleos.

Perf. aritmética

Largura banda

Modelo

6 GFLOPS

6 GB/sec

P4 3GHz

Fonte: Kurt Akeley, StanfordFonte: Kurt Akeley, Stanford

Qtde. núcleos.

Perf. aritmética

Largura banda

Modelo

6 GFLOPS

6 GB/sec

P4 3GHz

20 GFLOPS

25 GB/sec

GF 5900

Qtde. núcleos.

Perf. aritmética

Largura banda

Modelo

6 GFLOPS

6 GB/sec

P4 3GHz

96 GFLOPS

21 GB/sec

Core2 Quad 3GHz

Valor $ 1100

20 GFLOPS

25 GB/sec

GF 5900

Qtde. núcleos.

Perf. aritmética

Largura banda

Modelo

6 GFLOPS

6 GB/sec

P4 3GHz

96 GFLOPS

21 GB/sec

Core2 Quad 3GHz

Valor $ 1100

20 GFLOPS

25 GB/sec

GF 5900

330 GFLOPS

104 GB/sec

GF 8800

Características GPUCaracterísticas GPU• Diversos processadores paralelos (SIMD)Diversos processadores paralelos (SIMD)

• Alta eficiência para processamento de streamsAlta eficiência para processamento de streams

• Grande largura de banda para memóriaGrande largura de banda para memória

• Suporte a ponto flutuante 32 bitsSuporte a ponto flutuante 32 bits

Estudo de Caso #1 (Matrizes)Estudo de Caso #1 (Matrizes)

x00 x01 x02

x10 x11 x12

x20 x21 x22

y00 y01 y02

y10 y11 y12

y20 y21 y22

a= + *

y = y + a.xy = y + a.x

Estudo de Caso #1 (Matrizes)Estudo de Caso #1 (Matrizes)

x00 x01 x02

x10 x11 x12

x20 x21 x22

y00 y01 y02

y10 y11 y12

y20 y21 y22

a= + *

y = y + a.xy = y + a.x

for (int i=0; i<3; i++) for (int j=0; j<3; j++) y[i][j] = y[i][j] + a * x[i][j];

Implementação CPUImplementação CPU

StreamStream de Dados de Dados

CPUCPU

MatrizesMatrizes

ÍndicesÍndices

y00 y01 y02

y10 y11 y12

y20 y21 y22

(i, j)

StreamStream de Dados de Dados

CPUCPU GPUGPU

MatrizesMatrizes TexturasTexturas

ÍndicesÍndices CoordenadasCoordenadas

y00 y01 y02

y10 y11 y12

y20 y21 y22

y00 y01 y02

y10 y11 y12

y20 y21 y22

(i, j) (s, t)

KernelKernel de Processamento de ProcessamentoCPUCPU

Loops internosLoops internos

GPUGPU

Programas de fragmentosProgramas de fragmentos

y = texRect(texY, coord);x = texRect(texX, coord);return y + a * x;

GPUGPU

Programas de fragmentosProgramas de fragmentos

y = texRect(texY, coord);x = texRect(texX, coord);return y + a * x;

Executando Executando KernelKernel• Configurar OpenGL para desenhar 1:1Configurar OpenGL para desenhar 1:1

• Desenhar quadrilátero (e.g. Desenhar quadrilátero (e.g. 3x33x3))

glBegin(GL_QUADS); glVertex2f(0, 0); glVertex2f(0, 3); glVertex2f(3, 3); glVertex2f(3, 0);glEnd();

float4 somaKernel(uniform samplerRect texY, uniform samplerRect texX, float2 coord: WPOS, uniform float a){ y = texRect(texY, coord); x = texRect(texX, coord); return y + a * x;}

OverviewOverview do Mapeamento do Mapeamento

ModeloProcessador

deVértices

deFragmentos

x00 x01 x02

x10 x11 x12

x20 x21 x22

ModeloProcessador

deVértices

deFragmentos

y00 y01 y02

y10 y11 y12

y20 y21 y22

x00 x01 x02

x10 x11 x12

x20 x21 x22

ModeloProcessador

deVértices

deFragmentos

y00 y01 y02

y10 y11 y12

y20 y21 y22

Limitações ComputacionaisLimitações Computacionais• Sem Sem heapheap

• Sem Sem stackstack

• Sem Sem scatterscatter ( (a[i] = ba[i] = b))

• Sem operações de redução (Sem operações de redução (max, min, summax, min, sum))

• Número limitado de Número limitado de outputsoutputs

Emulando Operações de ReduçãoEmulando Operações de Redução• Utilizam todos os elementos (Utilizam todos os elementos (max, min, summax, min, sum))

• Utilizam Utilizam log(n)log(n) passadas no pipeline passadas no pipeline

47 57 15

38 64 68

46 49 61

71 67 69 70

47 57 15

38 64 68

46 49 61

71 67 69 70

Emulando Operações de ReduçãoEmulando Operações de Redução• Utilizam todos os elementos (Utilizam todos os elementos (max, min, summax, min, sum))

• Utilizam Utilizam log(n)log(n) passadas no pipeline passadas no pipeline

1º passo1º passo

Máximo da região 2x2Máximo da região 2x2

47 57 15

38 64 68

46 49 61

71 67 69 70

Emulando Operações de ReduçãoEmulando Operações de Redução

1º passo1º passo

Máximo da região 2x2Máximo da região 2x2

float4 v1 = texRect(tex, coord);float4 v2 = texRect(tex, coord+float2(1,0));float4 v3 = texRect(tex, coord+float2(1,1));float4 v4 = texRect(tex, coord+float2(0,1));return max(v1, max(v2, max(v3, v4)));

1º passo1º passo

Emulando Operações de ReduçãoEmulando Operações de Redução

47 57 15

38 64 68

46 49 61

71 67 69 70

2º passo2º passo

float4 v1 = texRect(tex, coord);float4 v2 = texRect(tex, coord+float2(1,0));float4 v3 = texRect(tex, coord+float2(1,1));float4 v4 = texRect(tex, coord+float2(0,1));return max(v1, max(v2, max(v3, v4)));

Estudo de Caso #2 (Massa-Mola)Estudo de Caso #2 (Massa-Mola)• Sistemas massa-molaSistemas massa-mola

– particulas conectadas por molasparticulas conectadas por molas– simulação de corpos rígidossimulação de corpos rígidos

• Posição de cada partícula é dada:Posição de cada partícula é dada:– velocidade e aceleração (soma das forças aplicadas)velocidade e aceleração (soma das forças aplicadas)– força externa = gravidade, colisão, atrito, inérciaforça externa = gravidade, colisão, atrito, inércia– força interna = força restauradora das molasforça interna = força restauradora das molas

Calculando Forças Restauradoras Calculando Forças Restauradoras [scatter][scatter]

para cada mola calcule a força restauradora diminua a força na partícula esquerda soma a força na partícula direita

para cada partícula para cada mola conectada calcule a força restauradora diminua a força nesta partícula

Calculando Forças Restauradoras Calculando Forças Restauradoras [gatter][gatter]

Simulando Sistema Massa-MolaSimulando Sistema Massa-Mola

para cada partícula some forças restauradoras + forças externas calcule a aceleração com estas forças calcule a nova velocidade com aceleração calcule a nova posição com velocidade

1º passo1º passo

2º passo2º passo

Operações de BD Operações de BD [Govindaraju 2004][Govindaraju 2004]

• Avaliação de predicados (Avaliação de predicados (<, >, <=, >=, !=, =<, >, <=, >=, !=, =))– utiliza utiliza depth-testdepth-test para efetuar comparações para efetuar comparações

• Combinações booleanas (Combinações booleanas (AND, OR, NOTAND, OR, NOT))– utiliza utiliza stencil-teststencil-test para efetuar combinações para efetuar combinações

• Agregações (Agregações (count, max, min, sum, avgcount, max, min, sum, avg))– utiliza utiliza occlusion queryocclusion query para efetuar para efetuar countcount

• Speedups de 2~4x Speedups de 2~4x

Simulações Baseadas em FísicaSimulações Baseadas em Física• Fenômenos físicos pode ser aproximados com PDEsFenômenos físicos pode ser aproximados com PDEs

– PDEs = equações diferenciais parciaisPDEs = equações diferenciais parciais– integrar o estado de um objeto ao longo do tempointegrar o estado de um objeto ao longo do tempo

• Evaporação d'águaEvaporação d'água– estado é temperaturaestado é temperatura

• Dinâmica de fluídos Dinâmica de fluídos [Harris 2004][Harris 2004]– estado é velocidade e pressãoestado é velocidade e pressão

• Dinâmica de nuvensDinâmica de nuvens– estado é velocidade, pressão e temperaturaestado é velocidade, pressão e temperatura

Tecnologias CorrentesTecnologias Correntes• GliftGlift

– Estruturas de dados genéricas para GPU estilo STLEstruturas de dados genéricas para GPU estilo STL– N-trees, estruturas adaptativas, matrizes esparsas, iteradoresN-trees, estruturas adaptativas, matrizes esparsas, iteradores

• Arquitetura unificadaArquitetura unificada– Um tipo de processador para diversas funçõesUm tipo de processador para diversas funções– Vertíces, geometria, fragmentosVertíces, geometria, fragmentos– CUDA e CTM, biblioteca para abstrair pipelineCUDA e CTM, biblioteca para abstrair pipeline

• Hardwares atuaisHardwares atuais– NVidia com GeForce 8800 UltraNVidia com GeForce 8800 Ultra– ATI com Radeon HD 2900 XTATI com Radeon HD 2900 XT– NVidia Tesla GPU Computing ServerNVidia Tesla GPU Computing Server

Tecnologias CorrentesTecnologias Correntes• GliftGlift

– Estruturas de dados genéricas para GPU estilo STLEstruturas de dados genéricas para GPU estilo STL– N-trees, estruturas adaptativas, matrizes esparsas, iteradoresN-trees, estruturas adaptativas, matrizes esparsas, iteradores

• Arquitetura unificadaArquitetura unificada– Um tipo de processador para diversas funçõesUm tipo de processador para diversas funções– Vertíces, geometria, fragmentosVertíces, geometria, fragmentos– CUDA e CTM, biblioteca para abstrair pipelineCUDA e CTM, biblioteca para abstrair pipeline

• Hardwares atuaisHardwares atuais– NVidia com GeForce 8800 UltraNVidia com GeForce 8800 Ultra– ATI com Radeon HD 2900 XTATI com Radeon HD 2900 XT– NVidia Tesla GPU Computing ServerNVidia Tesla GPU Computing Server

ConsideraçõesConsiderações• Paralelismo em desktops é uma tendênciaParalelismo em desktops é uma tendência

• Grandes fornecedores de CPU estão no mercado GPUGrandes fornecedores de CPU estão no mercado GPU– Intel pesquisando GPUsIntel pesquisando GPUs– AMD comprou ATI (Jul / 2006)AMD comprou ATI (Jul / 2006)

• Esforços para simplificar o desenvolvimentoEsforços para simplificar o desenvolvimento– CUDA, CTMCUDA, CTM

• Universidades precisam ensinar paralelismoUniversidades precisam ensinar paralelismo

PerguntasPerguntas

Giovane Roslindo KuhnGiovane Roslindo Kuhngrkuhn@gmail.comgrkuhn@gmail.com

LinksLinksNVidia Developer Zone - NVidia Developer Zone - http://developer.nvidia.com/page/home.htmlhttp://developer.nvidia.com/page/home.htmlATI Developer Zone - ATI Developer Zone - http://ati.amd.com/developer/index.htmlhttp://ati.amd.com/developer/index.htmlGPGPU - GPGPU - http://www.gpgpu.org/http://www.gpgpu.org/OpenGL - OpenGL - http://www.opengl.org/http://www.opengl.org/CMP249 Rendering Avançado - CMP249 Rendering Avançado - http://grkuhn.googlepages.com/cmp249http://grkuhn.googlepages.com/cmp249NVIDIA CUDA Homepage - NVIDIA CUDA Homepage - http://developer.nvidia.com/object/cuda.htmlhttp://developer.nvidia.com/object/cuda.htmlAMD Stream Processor - AMD Stream Processor - http://ati.amd.com/products/streamprocessor/index.htmlhttp://ati.amd.com/products/streamprocessor/index.htmlChips NVidia - Chips NVidia - http://www.clubedohardware.com.br/artigos/519http://www.clubedohardware.com.br/artigos/519Chips ATI - Chips ATI - http://www.clubedohardware.com.br/artigos/520http://www.clubedohardware.com.br/artigos/520

Introdução as Unidades de Processamento Gráfico (GPUs) · Pipeline Gráfico Fixo...

Documents

Transcript of Introdução as Unidades de Processamento Gráfico (GPUs) · Pipeline Gráfico Fixo...

Processador 4 bits - LOGISIM

Gerência do Processador - esj.eti.bresj.eti.br/INED/FSO/FSO_Unidade_03_003.pdf · Unidade 03 - 003 – Gerência de Processador 29 Algoritmos de Escalonamento

Exploração de Paralelismo em Criptografia Utilizando GPUs · Renan Corrêa Detomini Exploração de Paralelismo em Criptografia Utilizando GPUs Monografia apresentada ao Departamento

Processador de texto parte 4

Processador Automático de Tecidos - opatologista.com.bropatologista.com.br/catalogos/Processador de Tecidos PT12.pdfO Processador Automático de Tecidos de marca “OPATOLOGISTA”

Manual de Instruções HC31 - Mini Processador€¦ · HC31 - Mini Processador Manual de Instruções Leia as instruções antes de usar o produto MODELO HC31 Mini Processador GUIA

Apostila processador de_texto

Processador de texto - Processamento e edição

DCB - Manual Processador de Texto

Por que você precisa de um Processador Gráfico? · O que é importante para você + Por que você precisa de um processador gráfico? Para explicar isso, vamos dar um passo para

Comparação Processadores Hardwired x Microcoded Processador Microded Processador Hardwired Ciclos por Instrução e Bytes p/modo de end.

Hardware 1 Processador [Modo de Compatibilidade]ricardojcsouza.com.br/download/Hardware_1_Processador6.pdf · Barramento Utilitários para análise do processador CPU - Processador

Xtensa LX Processador Configurável Tensilica

25 de fevereiro de 2014 Programação em GPUs (OpenGL/GLSL CUDA) Yalmar Ponce.

Gerenciador de Processador

cap3 processador Faíska

Processador Pld

Word O Word é um processador de textos. Um processador de ... · Um processador de textos é um software superior a um editor de textos, como algumas literaturas equivocadamente

FastLAP - Desenvolvimento de um pré-processador gráfico ...€¦ · FastLAP - Desenvolvimento de um pré-processador gráfico visual para o código RELAP5 DANIEL FERNANDO MONACO

Como instalar o processador