Post on 17-Apr-2015
Atividades do Grupo de Processamento de Alto Desempenho
do CPTEC(formalmente, Grupo de Modernização de Software)
Jairo Panetta
INPE/CPTEC/DMD
Agenda
• O Grupo:– Finalidade, composição, projetos, dificuldades
• Os Projetos:– O que foi feito, o que falta fazer, quem trabalha
• Futuro:– Direções de trabalho
Agenda
• O Grupo:O Grupo:– Finalidade, composição, projetos, dificuldadesFinalidade, composição, projetos, dificuldades
• Os Projetos:– O que foi feito, o que falta fazer, quem trabalha
• Futuro:– Direções de trabalho
Finalidade (1)
• Alterar os modelos operacionaisoperacionais visando:– Incorporar desenvolvimentos que melhorem a
qualidade dos resultados e atendam as necessidades da produção;
• pontes pesquisa – produção e produção - produção
– Otimizar o desempenho computacional;• vetorização, paralelismo
– Explorar novas arquiteturas de computadores;• modelos prontos para a próxima aquisição
– Melhorar a qualidade de software.• transformar protótipos em produtos
Finalidade (2)
• Finalidade Estratégica– Autonomia dos outros centros– Paridade com os melhores modelos mundiais
• Metas:– atual: aumentar a resolução dos modelos– médio prazo: paralelismo massivo– longo prazo: modelos acoplados (multi-modelos)
Equipe
• Capacitação:– 3 Doutores, 2 Mestres (um doutorando), 2 Graduados (um mestrando)
• Contratação:– 2 Funcionários, 2 Funcate, 3 Projeto
• Componentes:Alvaro Luiz Fazenda Doutor ProjetoEugenio Sper de Almeida Mestre FuncionárioJairo Panetta Doutor ProjetoLuiz Flavio Rodrigues Graduado FuncionárioPaulo Kubota Mestre FuncateSaulo Freitas Doutor ProjetoSimone Shizue Tomita Graduada Funcate
Projeto 1 – Modelo Eta 2D
• O que é:– Modelo operacional do CPTEC
• Trabalho Realizado:– Instalação, modernização, otimização, paralelismo
memória central
• Próximos Passos: – Paralelismo memória distribuída
• Participantes: – Equipe interna do CPTEC
Projeto 2 – Modelo BRAMS
• O que é:– Modelo básico dos “Centros Regionais”
• Trabalho Realizado:– Versão 1.0 desenvolvida
• Próximos Passos: – Versão 2.0 em desenvolvimento– Versão 3.0
• Participantes: – Projeto Finep: CPTEC + IME/USP + IAG/USP +
ATMET
Projeto 3 – Modelo Global
• O que é:– Modelo operacional do CPTEC
• Trabalho Realizado:– Modernização e otimização
• Próximos Passos: – Substituição
• Participantes: – Equipe interna do CPTEC + IAG/USP + IME/USP
Projeto 4 – Novo Modelo Global
• O que é:– Futuro Modelo operacional do CPTEC
• Trabalho Realizado:– Formulação Euleriana ou Semi-Lagrangeano– Shallow Cumulus + Grell– Otimização seqüencial
• Próximos Passos: – Paralelismo de memória central
• Participantes: – Equipe interna do CPTEC + IAG/USP + IME/USP +
IMPA
Pesquisa
• Portar os modelos para outras arquiteturas– Memória distribuída (clusters de dezenas de
processadores)– Massivamente paralelo (clusters de centenas –
milhares de processadores)– Micro-processadores de 32 bits (Pentium X)– Micro-processadores de 64 bits (Itanium 2, IBM
Power X)
• Utilizar máquinas ociosas na rede interna (Grid Computing restrito à rede interna)
Dificuldades (1)
• Bugs nos modelos: – Interferindo ou não no resultado, impedem o
desenvolvimento.
Dificuldades (2)
• Manter prazos face a bugs– É impossível determinar, a priori, o número de
bugs em um programa e o tempo para removê-los– Não há trechos “pouco importantes” em um
programa, quando impedem o desenvolvimento
Dificuldades (3)
• Cultura: Desenvolvimentos alteram resultados!– Reproduzir os campos de saída após uma
alteração:• não garante a correção da alteração;
• propaga erros entre versões;
– Como você sabe que esta é a resposta certa?• Faltam testes de componentes (resposta a impulso)
Dificuldades (4)
• Perseguir alvos móveis:– Modelos– Compiladores– Computadores
Dificuldades (5)
• Coordenação Pesquisa - Produção
Agenda
• O Grupo:– Finalidade, composição, projetos, dificuldades
• Os Projetos:Os Projetos:– O que foi feito, o que falta fazer, quem trabalhaO que foi feito, o que falta fazer, quem trabalha
• Futuro:– Direções de trabalho
Eta 2D
• Finalidade:– Substituir Eta 1D na produção
• Instalação Inicial (Fonte original, após 6 homens-mês):– Só funciona com opção debug de compilação;– Muito mais lento que Eta 1D– 23467 linhas, 57 arquivos
Eta 2D
• Elimina a necessidade de debug – Invasões de área; 2 homens-mês; 215 Mflops
• Fortran 90 otimizado– Reestruturação parcial; 3 homens-mês; 394 Mflops
• Versão operacional no CPTEC
Eta 2D
• Modulos, eliminando common– Passo necessário para paralelização; – Reestruturação total; 30 homens-mês, 20184 linhas, 24
arquivos; 440 Mflops
• Paralelismo PortátilPortátil Open MP (40 km, SX-4)– 20 homens-mês, 1670 Mflops com 6 procs – 30 minutos paralelo; 2 horas seqüencial– Requer metade da memória da versão seqüencial– Reproducibilidade binária no SX-4
• SX-6: Versão 20 km a partir do T126L28 e T254L64
ETA 2D – Reestruturação do CódigoETA 2D – Reestruturação do Código
Cond. Iniciais/ Contorno
Arquivos de saída
Init Pdte
Vtadv Hzadv
Hzadv2 Pdnew
Rdtemp Gscond
Precpd Hdiff
Bocoh Pfdht
Ddamp Bocov
Procedimentos
Radt
Turb
Conv
Chko
Módulos
VariáveisGlobais
Módulos de Variáveis
ProgramaPrincipal
• Conhecimento do fluxo de invocaçõesConhecimento do fluxo de invocações• Conhecimento do fluxo de dadosConhecimento do fluxo de dados• Eliminação de Eliminação de common common e e equivalenceequivalence• Acesso a variáveis globais: Acesso a variáveis globais:
• Use <módulo> Only Use <módulo> Only : : <var><var> • Transformar em procedimentos purosTransformar em procedimentos puros
5 6 S u bro tin as 4 3 in clu d es f iles
P ro gra m aP rin c ip a l
Versão Original Fortran Versão Original Fortran 7777
Versão Fortran 90Versão Fortran 90
5 6 S u bro tin as 4 3 in clu d es f iles
P ro gra m aP rin c ip a l
Versão ParalelaVersão Paralela
• Implicit NoneImplicit None• Eliminação de GO TOEliminação de GO TO• Eliminação de invasões Eliminação de invasões
de memóriade memória
ETA 2D –Estratégias de ParalelizaçãoETA 2D –Estratégias de Paralelização
• Estudo da Dependência de Dados Estudo da Dependência de Dados
• Transformação de Laços, preparando-os para o ParalelismoTransformação de Laços, preparando-os para o Paralelismo• Eliminação de desvios dentro de laçosEliminação de desvios dentro de laços• Inversão de laços Inversão de laços • Quebra de laçosQuebra de laços
• Paralelismo OpenMPParalelismo OpenMP• Paralelismo HomogêneoParalelismo Homogêneo
• Paralelismo em laços que não invocam procedimentosParalelismo em laços que não invocam procedimentos• Paralelismo em laços que invocam procedimentosParalelismo em laços que invocam procedimentos• Eliminação de construções seqüenciais Eliminação de construções seqüenciais • Otimizar laços onde o paralelismo elimina a vetorizaçãoOtimizar laços onde o paralelismo elimina a vetorização Ex: Distribuição cíclica ou por bloco, etc.Ex: Distribuição cíclica ou por bloco, etc.
• Teste de eficiência do compilador f90/OpenMP do NEC-SX4Teste de eficiência do compilador f90/OpenMP do NEC-SX4• Minimizar o número de regiões paralelasMinimizar o número de regiões paralelas• Paralelismo homogêneo de granulação grossa (OpenMP)Paralelismo homogêneo de granulação grossa (OpenMP)
ETA 2D – Resultados NEC SX4ETA 2D – Resultados NEC SX4
Mudança de CompiladorMudança de Compilador
Mudança de Versão do ModeloMudança de Versão do Modelo
ETA 2D – 20km NEC/SX6ETA 2D – 20km NEC/SX6
• Dificuldades no Pré-processamento:Dificuldades no Pré-processamento:– Eliminação de valores fixos (Eliminação de valores fixos (hardwirehardwire))
• Ex: CI/CC : permitia a entrada de no máximo 28 níveis verticais e Ex: CI/CC : permitia a entrada de no máximo 28 níveis verticais e 100km de resolução horizontal do modelo global100km de resolução horizontal do modelo global
– Mudança de resolução em tempo de compilaçãoMudança de resolução em tempo de compilação
• Dificuldades no Pós-processamentoDificuldades no Pós-processamento– Gerar arquivos de entrada inexistentesGerar arquivos de entrada inexistentes
• Testes:Testes: – Condições iniciais e de contorno: T126L28 e T254L64Condições iniciais e de contorno: T126L28 e T254L64
• Tempo de execução, 72h de previsão, 8 processadores:Tempo de execução, 72h de previsão, 8 processadores:– 2h 15min2h 15min
ETA 2D – 20km Campos ResultantesETA 2D – 20km Campos Resultantes T126L28 T254L64T126L28 T254L64
ETA 2D – Trabalhos FuturosETA 2D – Trabalhos Futuros
Trabalhos FuturosTrabalhos Futuros- PortabilidadePortabilidade- Metodologia para paralelizar programas Metodologia para paralelizar programas
- (Tese Mestrado; Prazo: Novembro 2003)(Tese Mestrado; Prazo: Novembro 2003)
Eta 2D
• Alocação Dinâmica de Memória– Resolução do modelo definida durante a execução
• Pré e Pós Processamento em modernização– Remoção de bugs– Recodificação Fortran 90– Otimização (por remoção) de I/O
ETA 2D – Histórico – Alocação Dinâmica
O que se esperava:O que se esperava:
•Definição da resolução em tempo de execução;Definição da resolução em tempo de execução;
•Redução do uso de memória com o uso de alocação dinâmica;Redução do uso de memória com o uso de alocação dinâmica;
•Diminuição do volume de shell scripts;Diminuição do volume de shell scripts;
•Todas as variáveis que afetassem resolução ou domínio deviam Todas as variáveis que afetassem resolução ou domínio deviam ser lidas de um arquivo de configuração;ser lidas de um arquivo de configuração;
• Garantir a portabilidade.Garantir a portabilidade.
Como estava:Como estava:
•Para alterar a resolução ou domínio era necessário alterar Para alterar a resolução ou domínio era necessário alterar arquivos de parâmetros e recompilar “todo” o Eta. Pré, Previsão e arquivos de parâmetros e recompilar “todo” o Eta. Pré, Previsão e pós;pós;
•Havia um grande número de shell scripts para definir arquivos e Havia um grande número de shell scripts para definir arquivos e path´s;path´s;
•Utilizava-se passar dados via Utilizava-se passar dados via NAMELISTNAMELIST para uso no modelo; para uso no modelo;
•Utilizava-se rotinas intrínsecas da NEC.Utilizava-se rotinas intrínsecas da NEC.
ETA 2D – Histórico – Alocação Dinâmica
Trabalho realizado:• Criação de um arquivo de configuração com:
Definição dos limites do modelo;
Definição da resolução do modelo;
Definição dos parâmetros da rodada
• Nos de timesteps, saídas, etc;
Definição dos paths;
Definição dos arquivos de entrada;
• Uso de um único módulo com as variáveis globais (alocáveis via rotina de inicialização do modelo).
• Introdução das variáveis passadas por NAMELIST no arquivo de configuração.
CONFIG
INIT
PARMGER
I,J,L ...
Procedimentos
Eta
ETA 2D – Histórico – Alocação Dinâmica
Testes no SX-4:
Modelo Sem Alocação DinâmicaCom Alocação DinâmicaRazão40 Km 38L 757 MB 384 MB 51%20 Km 38L 4,7 GB 1,9 GB 40%
1 Processador
40Km 38 L - Alocação DinâmicaRtime V.O Ratio Memory
(s) (%) (MB)
SSAFE 1 28359 0 384VSAFE 1 3126 95 384VSAFE 4 1704 95 448VSAFE 8 1517 95 512
VET NP
Tempo por Caso
1704 1517
28359
3126
1000
2000
3000
4000
5000
1 1 4 8
SSAFE VSAFE VSAFE VSAFE
Casot(
s)
ETA 2D – Histórico – Alocação Dinâmica
Análise de Resultados: Modo escalar (SSAFE) não introduz diferenças.
Modo vetorial (VSAFE) introduz pequenas diferenças.
Número de processadores não altera resultado. (reproducibilidade binária somente depende do tipo de vetorização)Caso 0 1 proc. SSAFE
Caso 1 1 proc. VSAFECaso 13 8 proc. VSAFE
ETA 2D – Histórico – Alocação Dinâmica
PRÉ PROCESSAMENTO:• Convertido para F90;
• Estrutura em módulos USE <módulo>, ONLY: <var>;
• Apenas um arquivo de parametrização para todo o pré;Preparação para a alocação dinâmica.
• Retirada das subrotinas dependentes da NEC.Ex: FFT;
• Retirada de Hardwires;
• GESPREP em alocação dinâmica;
• Retirados Bug na interpolação na borda;
• União dos módulos PTETABC e BCTEND em um único módulo.
Eta 2D - Resultados
Configuração Resolução Horizontal
(km)
Contas Normalizadas
(Mflop)
Tempo de Execução
Normalizado
ETA40kmL38 40 1,00 1,00
ETA20kmL38 20 8,73 4,89
Quanto maior a resolução, mais veloz a execução
BRAMS
• PAD FINEP– Visa Indústria Nacional de Hardware e Software
para PAD– Hadware: InfoCluster Itautec– Software: BRAMS, a cargo do CPTEC, IME/USP,
IAG/USP, ATMET– Usuários: Centros Regionais de Meteorologia
BRAMS
• Prover Centros com um Modelo:– Homogêneo;– Com Qualidade de Software;– Rápido em Máquinas Baratas;– Previsões Adequadas aos Trópicos;– Tecnologicamente Dominado;– Suportado Nacionalmente;– Em Constante Evolução Internacional
BRAMS
• Metodologia:– Grupos geram contribuições que são consolidadas em três
Versões de Pesquisa que tornam-se Versões de Produção após três meses de produção diária
• CPTEC gera Versões de Pesquisa (contribuições IAG/USP, IME/USP, ATMET);
• IAG promove Versões de Pesquisa para Versões de Produção
• Duração:– janeiro 2002 à outubro 2003
• Esforço:– 200 homens-mês
BRAMS 1.0
• Baseado no RAMS 5.0.2 (“Shaved Eta”)• Dados de Vegetação Acurados• Nova Convecção (“Shallow” + “Grell”)• Umidade do solo inicializada por modelo próprio
sobre dados de satélite• Melhor Codificação (Metade do Trabalho)• Reproducibilidade binária em uma grade• Ciclo Operacional (com Assimilação) incluso• Versão de Produção aprovada pelo IAG em testes do
SIMEPAR
BRAMS - Implementações
• Introdução de novas funcionalidades:– Parametrização de Cumulos Rasos– Nova parametrização de Convecção profunda com
vários fechamentos para cálculo do fluxo de massa– Assimilação de umidade de solo
• Maior portabilidade do código– Utilização de diferentes compiladores e CPU’s
• Redução de bugs
• Desenvolvimento de shell scripts operacionais
BRAMS – Documentação e controle• Documentação:
– Novas funcionalidades introduzidas:• Parametrizações de Cumulus Rasos e de Convecção Profunda
baseado em G.Grell (2002), com várias opções de fechamento• Assimilação de Umidade de Solo Heterogênea através de arquivo• Suítes operacionais para Previsão e Ciclo de Assimilação com
controle de qualidade• Guias para inserção de novos módulos
– http://tucupi.cptec.inpe.br/hpc/guide.PDF
• Treinamento nos centros regionais • Controle de Versões centralizado no CPTEC
– Muitos grupos de desenvolvimento:• CPTEC, IME/USP, IAG/USP, ATMET
BRAMS - Características do Software
• BRAMS 2.0:– FORTRAN 90
• + de 91000 linhas
– Alocação dinâmica de dados (Fortran 90)– Substituição de todos os “INCLUDE + COMMON” por
“MODULE” (Fortran 90)– Declaração de todas as variáveis– Correção de Bugs– Portabilidade:
• Compiladores: PGI (x86), Intel F95 (x86, Itanium), NEC F90 (sx-6)
– Avaliação de desempenho• PAPI (x86, Itanium)• Proginfo (NEC sx-6)
Aval.desempenho – Serial - BRAMSDesempenho Seqüencial
1,00
1,36
2,07
1,90
1,02
1,00
1,20
1,40
1,60
1,80
2,00
2,20
P3 1GHz P4 1,6GHz Xeon 2,2 GHz Athlon 1,66 GHz NEC SX-6
Processador
Vel
oci
dad
e R
elat
iva
Aval.desempenho ParaleloMFlops BRAMS 1.0
0
100
200
300
400
500
600
700
800
0 1 2 3 4 5 6 7 8
Escravos
MF
lop
s
8 nós P3 Dual 1GHz 4 nós P4 1,6 GHz 2 nós Xeon Dual 2,2 GHz
2 nós Xeon Dual 2,2 GHz Com Hiperthread 1 nó Athlon 1,66GHz Dual NEC SX-6
Próximos passos - BRAMS
• Versão 2.0 (atrasada!)– SIB 3 (atrasado!)
– Iteração dinâmica atmosfera-vegetação
– Reproducibilidade binária multi-grids
– Estimada para junho/2003
Novas Funcionalidades e/ou Aperfeiçoamentos Novas Funcionalidades e/ou Aperfeiçoamentos no modelo RAMS/BRAMSno modelo RAMS/BRAMS
-Calibração da parametrização de superfície-Parametrização de cumulus profundos-Parametrização de cumulus rasos-Estimativa da umidade do solo para
inicialização de modelos de PNT-Monitoramento do transporte de emissões de
queimadas na América do Sul
Parametrização de superfície/radiaçãoParametrização de superfície/radiação
Estudo detalhado da parametrização com a adequação de parâmetros e processos para os biomas:
floresta, pastagem e cerradofloresta, pastagem e cerrado.Principais parâmetros/processos modificados:LAIalbedocondutância estomática máximarugosidade (z0)plano de deslocamento (d)capacidade térmica do solo e da biomassaporosidade e ponto de murcha do soloprofundidade de raízes participantes do processo de transpiraçãofração de cobertura de nuvens c/ sensível melhoria no ciclo diurno da CLP
Floresta
EXP1 – controle
Fluxos LE, H
EXP2 – calibrado
Fluxos LE, H
Freitas, 1999.
Floresta
Razão de Bowen (H/LE)
Altura da camada de mistura (Zi)
Parametrização de cumulus profundos
Grell (1993) e Grell e Devenyi (2002) fluxo de massa com vários tipos diferentes de fechamentos (Arakawa e Schubert, Grell, Kain e Fritsch, Low Level Omega, Kuo.)técnicas estatísticas para determinação do fluxo de massa baseado num ‘ensemble’ de fechamentosinclui o efeito de correntes descendentesadequado para resoluções espaciais entre 20 e 50 km (apropriado para modelos regionais)Campos de precipitação e modificação na dinâmica muito mais realistas.
Perfis de aquecimento e umidecimentoPerfis de aquecimento e umidecimento
Comparação entre Precipitação Comparação entre Precipitação
Grell cumulus+resolvida X GOES-8 IR imagemGrell cumulus+resolvida X GOES-8 IR imagem
GOES-8 Prec X Grell Cumulus Conv Prec GOES-8 Prec X Grell Cumulus Conv Prec 24-25 Sep 200224-25 Sep 2002
GOES Precipitation4 km resolution
Grell cumulus prec.40 km resolution
Estimativa da umidade do solo para inicialização Estimativa da umidade do solo para inicialização de modelos de PNTde modelos de PNT
GOES-8 estimativa de precipitaçãoGOES-8 estimativa de precipitação
Umidade do solo do dia anteriorUmidade do solo do dia anterior
Modelo de transporte de água em Modelo de transporte de água em meios porosos ajustado com meios porosos ajustado com parâmetros observadosparâmetros observados
Prognóstico para a umidade do Prognóstico para a umidade do solosolo
Mapas de Bioma e Solo
Estimativa de umidade Estimativa de umidade do solo para do solo para
a América do Sula América do Sul
Projeto de IC do aluno Rodrigo Gevaerd (apoio FAPESP).
Resolução espacial: 4km
Resolução temporal: 24h
Resolução vertical: 3 camadas com 10, 30 e 200 cm de espessura.
Início da base de dados: 01/01/2000.
Operacional
Estimativa de umidade do solo Estimativa de umidade do solo 04/09/2002 (camada de 10cm)04/09/2002 (camada de 10cm)
(mm(mm33 /mm/mm33 ))
Real Time Transport Real Time Transport Monitoring of Monitoring of CO and PM2.5CO and PM2.5
CP TE CG lobal M od el
A n alys is /F orecas ts
G O E S-8 A B B AF ire P rod uct
Con cen tration ofth e prev iou s day
E m issio n M o d el R A M S IS A Nm od ule
CO an d P M 2 .5Source E m is s ion
Tracer in itialcond ition
A tm os ph eric in itialan d b oun dary
cond itions
R A M S m od elw ith in -lin e
tracer trans p ort
P roducts (4 8 h ):a) A tm os p heric field sb ) CO and P M 2 .5 con cen tration
http://www.master.iag.usp.br
GOES ABBA Source Emission for COGOES ABBA Source Emission for CO kg/(m2s)- 19SEP2002
Freitas, 1999, 2003.
Model TransportModel Transport
The in-line model transport follows the Eulerian approach:
where:adv grid-scale advection,PBL turb sub-grid transport in the PBL,deep conv sub-grid transport associated to deep convection,W convective wet removal for PM2.5, R sink term associated with generic process of removal e/ou transformation of
tracers,Q source emission associated to the biomass burning process.
,5.2
QRWts
ts
ts
ts
PM
convdeep
turbPBL
adv
Parameterized Convective TransportParameterized Convective Transport
Coupled to the mass flux cumulus scheme (Grell, 1993; Grell and Devenyi 2002).
Transport term:
zs
ssssm
ts
ddduuu
b
convdeep
~~~~
updraft detrainment
downdraft detrainment
environment subsidence
Wet removal for PM2.5 based on Berge (1993) accounts for washout and rainout.
Plume of PM2.5Plume of PM2.5 00Z 27 Aug 2002 00Z 27 Aug 2002
(column integrated - mg/m(column integrated - mg/m22))
40 km grid 40 km grid resolutionresolution
200 km grid resolution200 km grid resolutionSouth America and AfricaSouth America and Africa
Metas do BRAMS 3.0
• BRAMS 2.0 Otimizado para clusters de PCs
• Distribui apenas o binário
• Versão de Pesquisa em abril/2003 (vai atrasar)
Modelo Global
• Jan 1999:– Fortran 77 seqüencial em produção– T062L28: 545 MFlops no SX-4
• Jan 2001:– Fortran 90 paralelo em pesquisa– Múltiplas otimizações localizadas– T062L28: 850 MFlops (seqüencial) no SX-4
• (65% do tempo de execução do 77)
– Produção: Fortran 77 paralelo não portátilnão portátil
Modelo Global
• Ago 2001:– Fortran 90 seqüencial no SX-4 (2000 MFlops
pico) Modelo Velocidade (MFlops)
T062L28 860
T126L28 931
T170L28 994
T170L42 1005
• Abril 2003:– Produção: Fortran 77 paralelo no SX-4
Transformada de Legendre
0
20
40
60
80
100
50 100 150 200 250 300
Modelo Global
• SX-6:
Modelo Resolução
(km)
Contas Relativas
Tempo
Relativo
T062L28 215 1,00 1,00
T126L28 105 6,69 5,22
T170L42 78 26,20 15,74
T254L64 52 171,32 82,65
Quanto maior a resolução, mais veloz a execução
Novo Modelo Global
• Meta e Meios:– De T62L28 para T213L42 (60 vezes)
– Otimização Sequencial e Paralela; Fortran 90/95– Formulação Semi-Lagrangeana; – Grade Reduzida e Grade Linear– Shallow Cummulus + Grell
• Equipe:– CPTEC, IME/USP, IAG/USP, IMPA
• Esforço: – 140 homens-mês
Novo Modelo Global
• Situação atual:– Dinâmica Euleriana aprovada
• (requer 51% das contas da versão atual)
– Grade Reduzida aprovada• (requer 42% das contas da versão atual)
– Dinâmica Semi-Lagrangeana em testes• (segunda versão, corrigindo problemas da primeira)
– Paralelismo em desenvolvimento– Física do global atual em adaptação
• Prazo: julho 2003
Modelo Global - Histórico
gwater.f90 gloop.f90
Parametrização da Convecção
Parametrização da Radiação
Parametrização da CLP
Parametrização dos Fluxos de
Superfície
OFFLINE da Convecção
OFFLINE da Rad. + CLP + Fluxos de Sup.
OFFLINE FÍSICA 1D
RET. COMMON
PREP. OFFLINE
JUNÇÃO OFFLINE
MOD. GLOBAL
NOVO GLOBAL
Física do Novo Modelo Global
• Estágio atual:– 8 homens-mês de trabalho– 49 commons removidos
• (transformados em argumentos)
– Todos os nomes declarados e parcialmente documentados• (100 subrotinas)
– Duas físicas stand-alone
• Próximos passos: – Alimentar com conjunto qualquer de verticais
• (Atualmente requer fatia de latitude constante)
– Unificar as duas físicas– Acoplar ao novo global– Prazo: Julho/2003
Pesquisa – Grid Computing
• Finalidade imediata:– Utilizar computadores ociosos – É aplicável à centros de meteorologia?
• Finalidade futura:– Potencialmente, novo paradigma de computação
http://setiathome.ssl.berkeley.edu/
Ultimas 24 Horas:Ultimas 24 Horas:
3 581 Usuários
1470 anos de CPU
57 TFlops
WWW x GRID
Criação sob demanda de sistemas virtuais de computação
http://
http://
WWW: Acesso a documentos
Grid: Acesso a recursos computacionais
Redes de sensores
arquivos de dados
Computadores
Catálogos deSoftware
Colegas
Grades Internacionais
NASA’s Information Power Grid The Alliance National Technology Grid
GUSTO Testbed
Onde utilizar
Supercomputação distribuída
Computação com “high-throughput”
Computação sob demanda
Computação intensiva de dados
Computação colaborativa
Computação intensiva de dados
Repositórios, Bibliotecas digitais e Base de dados
Uso intensivo de computação e comunicação
Uso em meteorologia:
– CPTEC/INPE enorme conjunto de dados meteorológicos
Objetivo: Sintetizar novas informações a partir de dados geograficamente distribuídos
Pesquisadores do INPEOutras instituições
Estudos de casoMelhoria de modelos
Computação intensiva de dados uso remoto dos dados meteorológicos
Economia de custo e tempo evita deslocamento ao CPTEC/INPE
Grade Computacional do CPTEC
Grade restrita ao âmbito do CPTEC:– 7 Ws HP-Compaq - True64– 2 PC - Linux– 1 cluster (8 processadores duais)
Componentes da grade:– “Globus Toolkit” 2.0 – Biblioteca de passagem de mensagem MPI
para grade (MPICH-G2).
Paralelização do pós-processamento
• Fase 1 - Grade homogênea (finalizada)
• Fase 2 - Grade heterogênea
• Fase 3 - Grade heterogênea + Cluster
Ganho de Desempenho
Ganho de Desempenho
0
0,5
1
1,5
2
2,5
3
1 2 3 4 5 6 7
número de processadores
Ganho d
e D
ese
mpenho
Tendência de aumento do Speedup com a incorporação de mais computadores (ideal = 19)
BRAMS
• Fase 1 - Execução paralela em 1 PC com Linux
• Fase 2 - Grade homogênea + Cluster
• Fase 3 - Grade heterogênea– Otimizar balanceamento de carga– Tese de Doutorado no LAC (3 anos)
Agenda
• O Grupo:– Finalidade, composição, projetos, dificuldades
• Os Projetos:– O que foi feito, o que falta fazer, quem trabalha
• Futuro:Futuro:– Direções de trabalhoDireções de trabalho