MPI – Comunicações Com. Colectiva esquecida Barrier não há troca de dados, apenas sincroniza...

MPI – Comunicações

Com. Colectiva esquecida

Barrier não há troca de dados, apenas sincroniza os processos

int MPI_Barrier( MPI_Comm, comm)

= Tlat

+ Bandwidth*tamanho mensagem

~10s 1000Mb/s

Menor número de comunicações

Medidas de Performance

Parallel Speedup Razão entre o tempo de execução sequencial T(N,1)

e o tempo de execução do algoritmo paralelo em P

processadores

N = tamanho do problema

S N ,P=T N ,1

T N , P

S(N,P) = P speedup linear ou perfect speedup

S(N,P) > P superlinear speedu

GRANULARIDADEDe um conjunto de tarefas paralelas é o trabalho

da mais pequena tarefa que pode ser realizado

independentemente de todas as outras tarefas

Sequencial

A=∑ i=1

Paralelo

N = k*P

k = granularidade

Aj=∑ i= j−1∗k1

j∗kai

A=∑ i=1

T1 = N T(N,P)= C*P + N/P

S(N,P) = 1 / [ (1/P) + C*P/N ] = P/[ 1 + C*P2/N ]

S'(N,P) = 0

S(N,P)max

P= NC1

Eficiência Paralela Speedup por processador

E(N,P) = S(N,P) / P

Limitações à Performance

Lei de Amdahl

T1 = tempo de execução em 1 processador

f = fracção do código que não pode ser paralelizado

f T1 = tempo de execução da fracção sequencial não paralizável

(1-f) T1 = tempo de execução da restante parte do código

TP f T

1 + (1-f) T

1 / P ( f + (1-f) / P ) S

SP < 1 / [ f + (1-f) / P ] < 1/f

Algoritmos Nem sempre é possível paralelizar o melhor algoritmo

Comunicações TP = T

Com + T

T1 < P*T

SP < P*T

Cal / [ T

Com + T

Cal ] = 1 / [ 1 + (T

Com / T

Cal )]

Load Balance TP proporcional tempo de execução do processador com

mais trabalho

Sincronização Falta de sincronização pode levar a que alguns processadores

fiquem à espera (idle), levando ao aumento do tempo de

execução

Algoritmo Escalável Um algoritmo diz-se escalável se existir uma

eficiência mínima tal que, para qualquer tamanho

do problema N, há um número de processadores

que cresce com N, P(N), tal que

E( N, P(N) ) >=

para N suficientemente grande

S(N,P) = P/[ 1 + C*P2/N] P = N1/2

S(N,P) = N1/2 / [ 1 + C] = P / [ 1 + C]

Álgebra Linear I

Multiplicação Matriz-Vector Yi = A

Solução I

> X cópia em todos os processos

> cada processo tem uma ou

várias linhas inteiras da matriz

N multiplicações + (N-1) somas

2N-1 operações vírgula flutante

N = k*P

Y calculado em

2(N-1) Tvf

~ 2N2 Tvf / P

Matriz * Vector (master/slave)

Slave:

i) Recebe X

ii) while (não fim programa)

recebe linha A;

multiplica Aij Xj;

devolve resultado;

Master:

i) Ler matriz A e vector X

ii) Broadcast X

iii) Envia linha da matriz A

cada processo MPI

iv) for (i=nproc; i < linhas; i++)

recebe linha de slave;

envia nova linha

v) envia mensagem finalização

Um processo (master) coordena o trabalho realizado pelos

outros processos (slaves)

int MPI_Bcast(void *buf, int count, MPI_Datatype datatype,

int root, MPI_Comm comm)

int MPI_Send(void *buf, int count, MPI_Datatype datatype,

int dest, int tag, MPI_Comm comm)

int MPI_Recv(void *buf, int count, MPI_Datatype datatype, int source, int tag,

MPI_Comm comm, MPI_Status *status)

typedef struct MPI_Status {

int count;

int cancelled;

int MPI_SOURCE;

int MPI_TAG;

int MPI_ERROR;

} MPI_Status;

#include <stdio.h>

#include <stdlib.h>

#include "mpi.h"

main( int argc, char *argv[] )

int master, nprocs, myid, linhas, colunas, emissor, tipo_resposta, nova_linha, i, j;

static int NLINHAS = 300, NCOLUNAS = 400;

double A[NLINHAS][NCOLUNAS],

buffer[NCOLUNAS], X[NCOLUNAS], B[NCOLUNAS], resposta;

MPI_Status status;

master = 0;

MPI_Init( &argc, &argv);

MPI_Comm_size( MPI_COMM_WORLD, &nprocs );

MPI_Comm_rank( MPI_COMM_WORLD, &myid );

if (myid == master) { /* ======================= MASTER */

printf("Introduza o número linhas e colunas ");

scanf("%ld %ld",&linhas,&colunas);

printf("%ld %ld\n\n",linhas, colunas);

MPI_Bcast( &linhas, 1, MPI_INT, master, MPI_COMM_WORLD );

MPI_Bcast( &colunas, 1, MPI_INT, master, MPI_COMM_WORLD );

if (linhas > NLINHAS){

printf(" ERRO: linhas excedem o maximo permitido (%ld) \n", NLINHAS);

MPI_Abort( MPI_COMM_WORLD, i);

return 1;

if (colunas > NCOLUNAS){

printf(" ERRO: colunas excedem o maximo permitido (%ld) \n", NCOLUNAS);

MPI_Abort( MPI_COMM_WORLD, i);

return 2;

if (myid == master) { /* ======================= MASTER */

else { /* ============================================= Slave */

if (myid == 0){

for (i=0; i<linhas; i++)

printf(" %ld %lf \n",i,B[i]);

MPI_Finalize();

return 0;

I printf(" \n Numero de linhas e colunas dentro dos limites \n");

for (i=0; i<linhas; i++){ /* ======================== Inicializa */

for (j=0; j<colunas; j++){

A[i][j] = i*j + 1.0;

X[j] = j + 2.0;

MPI_Bcast( &X, colunas, MPI_DOUBLE, master, MPI_COMM_WORLD );

for (i=0; i<nprocs-1; i++){ /* ======= Uma linha para cada processo */

for (j=0; j<colunas; j++)

buffer[j] = A[i][j];

MPI_Send( &buffer, colunas, MPI_DOUBLE, i+1, i, MPI_COMM_WORLD );

printf(" Enviou primeira linha para cada processador \n");

II for (i=nprocs-1; i<linhas+1; i++){

MPI_Recv( &resposta, 1, MPI_DOUBLE, MPI_ANY_SOURCE,

MPI_ANY_TAG, MPI_COMM_WORLD, &status );

emissor = status.MPI_SOURCE;

tipo_resposta = status.MPI_TAG;

B[tipo_resposta] = resposta;

for (j=0; j<colunas; j++)

buffer[j] = A[i][j];

MPI_Send( &buffer, colunas, MPI_DOUBLE, emissor, i, MPI_COMM_WORLD);

printf(" Finaliza Ciclo \n"); /* ============== FINALIZA */

for (i=1; i<nprocs; i++)

MPI_Send( &resposta, 1, MPI_DOUBLE, i, linhas, MPI_COMM_WORLD );

veMPI_Bcast( &X, colunas, MPI_DOUBLE, master, MPI_COMM_WORLD );

while ( status.MPI_TAG < linhas ){

MPI_Recv( &buffer, colunas, MPI_DOUBLE, master,

MPI_ANY_TAG, MPI_COMM_WORLD, &status );

if (status.MPI_TAG < linhas ){

resposta = 0.0;

for (i=0; i<colunas; i++)

resposta = resposta + buffer[i]*X[i];

nova_linha = status.MPI_TAG;

MPI_Send( &resposta, 1, MPI_DOUBLE,

master, nova_linha, MPI_COMM_WORLD);

Exercício

Escreva um código paralelo para a multiplicação de uma matriz por

um vector sem usar o paradigma Master/Slave, isto é distribuindo o

cálculo por todos os processadores.

Multiplicação Matriz-Vector Yi = A

Solução II

> A divida por colunas

> X dividido por blocos

N ( N/P multiplicações + (N/P-1) somas )

Soma Colectiva

N = k*P

Y calculado em

~ 2N2 Tvf / P

+ comunicações0 1 2 3 4=

Exercício

Implemente a multiplicação de uma matriz por um vector usando a

decomposição discutida no slide anterior.

int MPI_Allreduce ( void *sendbuf, void *recvbuf, int count,

MPI_Datatype datatype,

MPI_Op op,

MPI_Comm comm )

Multiplicação Matriz -Vector Yi = A

Solução III

> A (e X divididos) por blocos

> cada processo tem um só bloco

N/P multiplicações + (N/P-1) somas

2N/P - 1 operações vírgula flutuante

N = k*P

Y calculado em

~ 2N3 Tvf / P3

+ comunicações

MPI – Comunicações Com. Colectiva esquecida Barrier não há troca de dados, apenas sincroniza...

Documents

Transcript of MPI – Comunicações Com. Colectiva esquecida Barrier não há troca de dados, apenas sincroniza...

CommBank...Contoh llustrasi Bapak Bagus membeli manfaat COMM Classy Care Ultimate plan B dengan wilayah pertanggungan ASIA. Beliau mengikutsertakan istri dan kedua anaknya. Berikut

TESE DE DOUTORADO N 193 - repositorio.ufmg.br€¦ · pela algebra max-plus. Tais sistemas s~ao sujeitos a fen^omenos de sincroniza˘c~ao e atraso de tempo. O foco principal para

[ e-comm ] Comércio Eletrônico I © Profa. Francilene Procópio Garcia, 2001 Departamento de Sistemas e Computação DSC/CCT/UFPb francilene@ieee.org.

Sinalização Fotoluminescente ADV COMM

capitaodomingoswebsite.files.wordpress.com€¦ · Web view1.3 Fábio Valim Ribeiro, foi funcionário da Câmara dos Deputados, aposentado, casado comm Marly Lima Ribeiro, filha

Assertividade e qualidade de informações garantidas com ...€¦ · Comm.09.17_BP Com o EFI Metrics Printware, é possível: • Gerenciamento de vendas e fluxos de trabalho de

Artigo Briefing Rui Martins Forum Davos Comm on Top 2011

GUIA DE INSTALAÇÃO · Compatibilidade eletromagnética (EMC - Electromagnetic Compatibility) ... Configuração de Saídas 1. Selecione o modulo Comm 4 I/O a ser configurado 2.

Cap ítulo 6: Sincroniza ção de Processosjeiks.net/wp-content/uploads/2012/02/ch6br.pdfOperating System Concepts 6.3 Silberschatz, Galvin and Gagne ©2005 Módulo 6: Sincroniza ção

Comm SK 2to6 Braz Port Iss5 - voges.com.br Guia Rápido para Commander SK Tamanhos 2 a 6 Edição Número: 5 Índice 1 Informações de Segurança ...

Instruções de funcionamento. Instrucciones de funcionamiento.s7d2.scene7.com/is/content/Irwin/Uploads/From E-Comm Team/manuals...Utilização do instrumento Utilização permitida

Sul no Albiano - pbpublishing.com.br€¦ · Florianópolis High and São Paulo Dorsal formed an effective barrier to sea-water circulation between the ... que, ao longo da zona axial,

Como Nosso Código vencemos de conduta - i.dell.comi.dell.com/sites/doccontent/corporate/corp-comm/pt/Documents/Dell... · comunidades em que trabalhamos e vivemos. ... Nossa reputação

REGULAMENTO 1. APRESENTAÇÃO - staticns.ankama.comstaticns.ankama.com/comm/news/dofus/www/06_2017/reglement-dofus... · Os personagens dispõem de todos os feitiços de classe, bem

Skin Barrier Function Evaluation by Bi-compartmental ...

Sistemas Operativos Izegonc/material/Sistemas_Operacionais/Sincroniza… · Sistemas Operativos I Luis Lino Ferreira / Maria João Viamonte 3 Problemas Starvation: Em consequência

¦decLicajcio aos Comm e:rci ou Lavonrfí nmemoria.bn.br/pdf/369381/per369381_1875_00055.pdf · 2012. 5. 6. · LIBERDADE PLENA DE ENÜKOIAOlO DO PENSAMENTO OOM RESPONSABDLIDÍDE

SISTEMA ROAD ZIPPER - Barrier Systems · O SISTEMA ROAD ZIPPER O sistema Road Zipper é projetado para aumentar a capacidade das vias, de forma econômica, e reduzir os congestionamentos,

BOLETIM COMMhemeroteca.ciasc.sc.gov.br/jornais/boletimcommercial/1921/BOL192… · BOLETIM COMM -,,-.IAL • • 1141·,-1 tu .....1 "I "4' In' ..rl· 4'I'tI, .....ｾH＠.. Sob 08

Sincronização Plano de IVA 7 - primaverabss.com · sincronização, após a migração do módulo de Contabilidade para a v7 SR3. Sincroniza Plano IVA 7.00 PRIMAVERA – Business