Estudo de caso técnico Transformando um farm computacional ... · Nossa tecnologia de unidade de...

6
tudo de caso técnico Na NVIDIA, nosso sucesso é impulsionado e determinado pela inovação constante e pela capacidade de levar novos designs de processadores ao mercado rapidamente. Já reconhecida como líder em computação visual, a empresa está diversificando e expandindo seus produtos rapidamente para novos mercados. Nossa tecnologia de unidade de processamento gráfico (GPU) possibilita grandes inovações nos setores de saúde, ciência, transportes, entretenimento, entre outros, gerando uma série de novas oportunidades para a NVIDIA. O desempenho e a confiabilidade de nosso farm computacional de engenharia são absolutamente essenciais para que a NVIDIA seja a primeira empresa a lançar novos designs de chips no mercado e que, por fim, possa aumentar a receita e gerar valor para nossos parceiros e clientes. Para atingir nossas metas de negócios hoje e no futuro, é essencial ter uma plataforma de storage de alto desempenho. Por Pethuraj Perumal, gerente de storage de TI da NVIDIA Corporation Transformando um farm computacional em uma fábrica de inovação Como a NVIDIA dobrou sua capacidade de computação de engenharia com a NetApp e acelerou a inovação em novos mercados

Transcript of Estudo de caso técnico Transformando um farm computacional ... · Nossa tecnologia de unidade de...

Page 1: Estudo de caso técnico Transformando um farm computacional ... · Nossa tecnologia de unidade de ... confiabilidade de nosso farm computacional de engenharia são ... failover otimizado

Estudo de caso técnico

Na NVIDIA, nosso sucesso é impulsionado e determinado pela inovação constante e pela capacidade de levar novos designs de processadores ao mercado rapidamente. Já reconhecida como líder em computação visual, a empresa está diversificando e expandindo seus produtos rapidamente para novos mercados.

Nossa tecnologia de unidade de processamento gráfico (GPU) possibilita grandes inovações nos setores de saúde, ciência, transportes, entretenimento, entre outros, gerando uma série de novas oportunidades para a NVIDIA. O desempenho e a confiabilidade de nosso farm computacional de engenharia são absolutamente essenciais para que a NVIDIA seja a primeira empresa a lançar novos designs de chips no mercado e que, por fim, possa aumentar a receita e gerar valor para nossos parceiros e clientes. Para atingir nossas metas de negócios hoje e no futuro, é essencial ter uma plataforma de storage de alto desempenho.

Por Pethuraj Perumal, gerente de storage de TI da NVIDIA Corporation

Transformando um farm computacional em uma fábrica de inovaçãoComo a NVIDIA dobrou sua capacidade de computação de engenharia com a NetApp e acelerou a inovação em novos mercados

Page 2: Estudo de caso técnico Transformando um farm computacional ... · Nossa tecnologia de unidade de ... confiabilidade de nosso farm computacional de engenharia são ... failover otimizado

2

Oferecendo suporte para pesquisa e desenvolvimento de nível internacionalOs engenheiros da NVIDIA projetam uma série de processadores, desde pequenos chips para smartphones e tablets até enormes processadores para supercomputadores, equipados com 7 bilhões de transistores. O design e a simulação desses chips são tarefas cada vez mais complexas e tecnicamente desafiadoras. Ao longo dos anos, geramos um número crescente de arquivos que são cada vez maiores. Nos últimos nove meses, nossos engenheiros criaram 2,4 bilhões de arquivos, ou seja, cerca de 10 milhões de arquivos por dia. Já acumulamos mais de 15 PB de dados de engenharia, e o volume dobra aproximadamente a cada dois anos. O planejamento para esse nível de crescimento de dados é desafiador, pois os orçamentos permanecem iguais, mas a demanda continua aumentando.

Não queremos que nossas equipes de engenharia de produtos pensem em storage durante o teste de seus designs — e definitivamente não queremos que o storage seja um obstáculo para o fluxo de trabalho de pesquisa e desenvolvimento (P&D) das equipes. Nosso fluxo de trabalho de automação de design eletrônico (EDA) não pode ser atrasado nem interrompido por qualquer motivo. Se uma tarefa de computação for interrompida, ela deverá ser executada novamente desde o início, possivelmente afetando todo o ciclo de teste e atrasando o time-to-market. Felizmente, nossa fábrica computacional criada com o storage da NetApp® consegue seguir o ritmo da inovação definido por nossos milhares de engenheiros, permitindo que eles concluam designs de chips, simulações e verificações lógicas de forma rápida e confiável.

Para permitir que nossos engenheiros inovem sem interrupções nem atrasos, a TI deve fornecer a plataforma de storage com o mais alto desempenho disponível, ajustada especificamente para fornecer “espaço transitório” e volumes de dados para cargas de trabalho de engenharia orientadas para arquivos e com uso intenso de E/S. À medida que os dados aumentam, um dos principais objetivos de minha equipe é maximizar a taxa de “tempo/tempo total de CPU”, em que o tempo total representa o tempo necessário para processar a tarefa computacional, ao passo que o tempo de CPU mede a quantidade de tempo de trabalho ativo da CPU para processar a tarefa. Quanto mais alta a taxa, mais eficiente será nossa fábrica computacional. No entanto, para aumentar essa taxa, é necessário ter uma plataforma de storage com E/S rápida. Se a CPU precisar esperar pela resposta do storage, esse tempo ocioso prejudicará nossa eficiência geral.

Requisitos técnicos para a camada de storageMuitos anos atrás, tentamos usar a tecnologia de storage de outro fornecedor, que distribui todos os discos por um array muito maior, mas enfrentamos três problemas:

• Nãoobtivemosodesempenholineardequeprecisávamosdosistema.• AE/Saleatóriadearquivospequenossetornouumgargalo.• Aestabilidadeeaconfiabilidadeeraminsuficientes.Umafalhadocontrolador

de storage poderia ter atrasado o time-to-market; todas as tarefas ativas no fluxo de trabalho precisariam ser iniciadas novamente no primeiro dia.

Durante a avaliação de maneiras para solucionar os problemas, a substituição daquele sistema se tornou a escolha certa. Nossa equipe escolheu a NetApp para dar suporte às nossas operações de computação de P&D pelos seguintes motivos:

• Desempenho. Nossas operações de computação de P&D envolvem alto nível de simultaneidade, com mais de 5.000 nós de computação acessando o storage; por isso, o desempenho é amplamente determinado pelo controlador de storage. Queremos ter sempre os processadores mais rápidos disponíveis no controlador de storage, com o maior número de threads de rede paralelas para processar as solicitações de E/S. Também precisamos ter a capacidade de lidar com eficiência com as operações de E/S aleatória de arquivos pequenos, pois esse é outro fator determinante do desempenho de nossas cargas de trabalho.

Resultados da transformação da fábrica computacional da NVIDIA

Por meio da implantação dos sistemas de storage NetApp FAS6290 e FAS6280 com armazenamento em cache inteligente baseado em controlador e da otimização do ambiente de storage para fluxos de trabalho de design de processadores, a NVIDIA conseguiu:

•Maisdoquedobraraeficiênciadeprocessamento geral de sua fábrica de computação, de 2 milhões para 4,5 milhões de tarefas computacionais por dia.

•Melhorarodesempenhoparacompilações em até 19% e os tempos de execução de simulação em até 25%.

•Acomodar60.000tarefascomputacionais em execução simultânea a qualquer momento, acelerando os fluxos de trabalho.

•Fornecermaisoperaçõesesuportesem exigir orçamento adicional e com um número reduzido de funcionários de TI.

Page 3: Estudo de caso técnico Transformando um farm computacional ... · Nossa tecnologia de unidade de ... confiabilidade de nosso farm computacional de engenharia são ... failover otimizado

3

• Escalabilidade. A NetApp nos permite adotar uma abordagem modular e adicionar outros controladores para manter o desempenho ideal à medida que nossos dados aumentam. Podemos usar o modelo de dimensionamento horizontal de storage, muito eficaz para nós. Isso também reduziu os riscos, pois não estamos vinculados a um ponto único de falha.

• Confiabilidade. Precisávamos de uma plataforma de gerenciamento de dados estável e comprovada, como o NetApp Data ONTAP®. O uso dos controladores de storage da NetApp agrupados em pares de HA nos permite fornecer um failover otimizado em caso de falhas do hardware, além de realizar atualizações sem gerar nenhuma interrupção para as tarefas em execução em nossa fábrica computacional. Se um domínio for interrompido, não fará com que o cluster inteiro fique inoperante.

• Eficiência. Procuramos manter nosso consumo de energia e espaço físico ocupado pelo hardware sob controle e aumentar a densidade sempre que possível. A NetApp oferece uma série de tecnologias que maximizam a eficiência, incluindo a capacidade de manter a consistência de dados com cópias Snapshot™ pontuais que consomem espaço de storage mínimo. Os volumes da NetApp utilizam thin provisioning por padrão, reduzindo o consumo inicial de espaço de storage.

• Simplicidade. A flexibilidade de provisionamento rápido de storage e de fornecimento de acesso compartilhado para arquivos de engenharia usando os protocolos Network File System (NFS) e Common Internet File System (CIFS) foi essencial. O suporte multiprotocolo da arquitetura de storage unificado da NetApp nos permite usar os dois protocolos (veja a Figura 1).

Como dobramos a capacidade com a NetAppEm 2012, nossa infraestrutura de computação de engenharia estava quase na capacidade máxima com o storage da NetApp que utilizávamos. Para dar suporte à inovação contínua, precisávamos acomodar um número maior de fluxos de trabalho simultâneos e melhorar o desempenho das tarefas computacionais.

Para enfrentar esse desafio, implantamos os sistemas de storage NetApp FAS6280 e FAS6290 com armazenamento em cache inteligente para uma taxa de transferência maior e consolidamos sistemas autônomos em pares de HA. Também mudamos para uma versão atualizada do Data ONTAP, que nos forneceu um número maior de threads de rede paralelas para processar as solicitações de E/S, além de uma utilização de CPU mais equilibrada em todos os núcleos. Trabalhamos também ao lado da engenharia da NetApp para realizar testes de benchmark e otimizar o storage para nossas ferramentas de EDA específicas, sem alterar nem afetar os fluxos de trabalho subjacentes de nossas equipes de engenharia (veja a barra lateral: “Criando uma fábrica de engenharia personalizada e otimizada”).

O resultado final dos sistemas de storage da NetApp adicionais, do armazenamento em cache e de outras otimizações é que a eficiência de processamento geral de nossa fábrica computacional mais do que dobrou, de 2 milhões para 4,5 milhões de tarefas computacionais por dia. Conseguimos acomodar 60.000 tarefas computacionais a qualquer momento. Nossa taxa geral de “tempo/tempo total de CPU” aumentou. Observamos uma melhoria de até 19% no desempenho em termos de tempo para compilações e de até 25% em tempos de execução de simulação.

Criando uma fábrica de engenharia personalizada e otimizada

Na NVIDIA, gostamos de saber que a NetApp participa ativamente, ao lado dos fornecedores do mercado de semicondutores, para acelerar os fluxos de trabalho de design de processadores e para criar uma plataforma de storage capaz de lidar com todo o ciclo de vida do design de chips. Nós nos reunimos frequentemente com especialistas técnicos da equipe de automação de design eletrônico da NetApp para otimizar o desempenho em nosso ambiente, e essas conversas geraram várias ideias:

•ANetApppossuiumaótimaparceriacom a Red Hat e ajudou a nos informar sobre o uso de algoritmos de leitura antecipada no kernel Linux® e a otimizar as solicitações de E/S entre o cliente e o storage.

•Comomuitasempresasdedesigndesemicondutores, usamos o software de agendamento de tarefas IBM Platform Computing Load Sharing Facility (LSF). A NVIDIA está ansiosa para explorar um plug-in com reconhecimento de storage que a NetApp desenvolveu para monitorar e relatar os recursos de storage disponíveis para as tarefas de nossa fábrica computacional. Isso permite que o scheduler LSF tome decisões informadas durante o envio das tarefas, reduzindo a probabilidade de falhas em tarefas.

•Diferentesferramentasdedesigneletrônico possuem requisitos de storage distintos, e a NetApp fornece recomendações e diretrizes detalhadas para cada uma delas. Práticas recomendadas, arquitetura de storage, configuração e dimensionamento são fornecidos, por exemplo, para cargas de trabalho com verificação da Synopsys VCS e para o gerenciamento de configuração de software Perforce implantado nas soluções de storage do NetApp Data ONTAP.

Figura 1) A fábrica computacional de engenharia da NVIDIA com o NetApp Data ONTAP 8.2. A integridade de dados é completamente preservada pelo Data ONTAP quando os mesmos sistemas de arquivos são acessados pelo NFS e CIFS.

Os usuários enviam tarefas ao cluster por meio do Scheduler

Camada do Scheduler (IBM LSF)

Camada de computação (nós Linux) Hosts de execução

Sistemas de storage NetApp FAS6290 e FAS6280 executando o Data ONTAP 8.2

Nó principal

Page 4: Estudo de caso técnico Transformando um farm computacional ... · Nossa tecnologia de unidade de ... confiabilidade de nosso farm computacional de engenharia são ... failover otimizado

4

As eficiências de storage resultam em time-to-market mais rápidoAs tecnologias da NetApp desempenham um papel importante no desempenho, na eficiência e na confiabilidade de nossa fábrica computacional, permitindo a otimização do desempenho de cargas de trabalho sequenciais e aleatórias usando a mesma plataforma de storage. O resultado é o time-to-market mais rápido.

Melhorando o desempenho para E/S aleatória de arquivos pequenosA NetApp faz um ótimo trabalho de lidar com as solicitações de E/S à medida que elas chegam pelo NFS; em parte, isso ocorre devido ao WAFL® (Write Anywhere File Layout), que é um dos recursos que mais me impressionaram na NetApp. Em vez de armazenar dados e metadados em locais predeterminados em disco, o WAFL grava os metadados com os dados de usuário usando um layout de dados temporal para minimizar o número de operações de disco exigidas para alocar os dados no storage. Arquivos muito pequenos (com menos de 64 bytes) não são armazenados em blocos de disco, mas em estruturas de dados inode no sistema de arquivos. Portanto, nenhum acesso ao disco (tempo de pesquisa) é necessário, melhorando o desempenho.

Otimizando leituras e economizando espaço e energia com o armazenamento em cache inteligenteGrande parte de nossa carga de trabalho depende de leituras, que são aceleradas usando o NetApp Flash Cache. Por meio do armazenamento em cache dos dados e metadados lidos recentemente em placas PCIe conectadas ao controlador, o Flash Cache funciona como um buffer ampliado do WAFL no barramento PCI, nos ajudando a acomodar nossos conjuntos de dados muito grandes. Trabalhamos ao lado da NetApp para determinar a quantidade de Flash Cache que seria ideal para nossas cargas de trabalho e decidimos usar placas PCIe de 512 GB e 1 TB. Como resultado, o uso de cache é sempre superior a 90%.

O Flash Cache nos permite usar um modelo de storage híbrido que mistura unidades SAS (Serial-Attached SCSI) de alto desempenho com maior densidade e unidades SATA (Serial ATA) de custo inferior, nos ajudando a minimizar nosso espaço físico de storage e manter os custos baixos. Para atingir nosso nível atual de desempenho sem o Flash Cache, um número três vezes maior de compartimentos de disco seria necessário, além dos recursos correspondentes de energia e refrigeração. Sem o Flash Cache, o uso de discos SATA de alta capacidade não funcionaria em nosso ambiente, dificultando o dimensionamento de nossa fábrica computacional. Teríamos crescido mais rápido do que nossos data centers. De fato, a eficiência energética dos novos sistema de storage NetApp nos ajudou a obter um desconto de US$ 200.000 da empresa de eletricidade depois da expansão da capacidade de nossa fábrica computacional.

Mantendo a consistência de dados e reduzindo os riscosOutro recurso atraente do storage da NetApp são as cópias Snapshot, que são clones somente leitura baseados em ponteiros do sistema de arquivos ativo. O WAFL utiliza uma técnica de copy-on-write para minimizar o espaço de disco consumido pelas cópias Snapshot, para que seja possível manter cópias pontuais dos conjuntos de dados sem sacrificar o espaço de storage e sem impacto no desempenho. As cópias Snapshot nos ajudam a manter a consistência de dados, que é essencial em um ambiente de engenharia, e a mitigar o risco de perda de dados.

Elas são uma maneira muito conveniente de proteger temporariamente os dados que não precisam ser mantidos após a conclusão de uma tarefa computacional, sem gerar os custos do storage duplicado. As cópias Snapshot fornecem recuperação rápida em um ambiente com alta contagem de arquivos, como o nosso, por meio da simples inversão dos ponteiros de sistema de arquivos — se algo der errado durante uma experiência, podemos restaurar rapidamente o ambiente para um estado conhecido usando a cópia dos dados das cópias Snapshot. A NVIDIA usa o NetApp SnapVault® para fazer backup e o NetApp SnapMirror® para replicar os dados para um local de recuperação de desastres em Sacramento.

Cinco benefícios da série NetApp FAS6200 para fluxos de trabalho de design de processadores

•Potência de processamento. Um único controlador FAS6290 tem 12 núcleos de processamento, sendo que todos eles são usados para acelerar o processamento de dados para que seja possível lidar com mais tarefas simultâneas.

•Memória do controlador (DRAM). Com 96 GB de memória por controlador, os metadados podem ser armazenados em cache na memória de base, o que nos fornece menos de 1 milissegundo de tempo de resposta para os metadados. Isso é essencial para acomodar tamanhos maiores de conjuntos de trabalho ativos.

•Rede. Dois chips IOH do FAS6290 nos fornecem 72 pistas de PCIe gen 2, que são ainda mais divididas usando switches para criar 152 pistas de PCIe de conectividade de E/S no FAS6290, com largura de banda interna total acima de 72 GB por segundo.

•NetApp Flash Cache™. O armazenamento em cache inteligente baseado em PCIe e conectado ao controlador reduz o número de eixos necessários para atingir o mesmo nível de desempenho e reduz significativamente a latência das operações de leitura.

•Otimização do grupo RAID. A NetApp nos fornece flexibilidade para dimensionar adequadamente nossos grupos RAID para nossas cargas de trabalho de gravação em “espaço transitório”, minimizando a latência.

Page 5: Estudo de caso técnico Transformando um farm computacional ... · Nossa tecnologia de unidade de ... confiabilidade de nosso farm computacional de engenharia são ... failover otimizado

5

Também nos beneficiamos da deduplicação da NetApp, usada para eliminar blocos de dados redundantes em determinados volumes. A deduplicação localiza blocos de dados idênticos e os substitui por referências a um único bloco compartilhado. Isso funciona particularmente bem para o nosso sistema de gerenciamento de configuração de software Perforce, que mantém várias cópias que contêm muitos dados duplicados. Nesses volumes, reduzimos os requisitos de capacidade em 30%.

Gerenciamento de mais storage com menos funcionáriosEmbora a capacidade de storage de nossa fábrica computacional tenha aumentado significativamente, não contratamos novos funcionários de infraestrutura e nosso orçamento permaneceu igual ao longo dos anos. De fato, foi possível operar com um funcionário em tempo integral a menos. Isso só é possível porque a NetApp facilita e simplifica a administração e o gerenciamento de nosso espaço físico de 15 PB de dados.

Usamos o software de gerenciamento NetApp OnCommand® Unified Manager, que nos fornece métricas de desempenho e estatísticas de utilização rapidamente. Para identificar os problemas de infraestrutura de storage antes que eles afetem as tarefas computacional, contamos com o NetApp AutoSupport™, que fornece uma resposta rápida e nos envia alertas sobre falhas de disco ou outros problemas em potencial.

Impacto nos negócios: time-to-market mais rápido para a NVIDIA e nossos clientesPara a NVIDIA, um aumento de 25% da eficiência da fábrica computacional significa que os designs de chips podem ser testados, validados e levados ao mercado com mais rapidez. A NetApp nos ajudou a obter uma taxa de “tempo/tempo total de CPU” mais alta, o que é essencial para nosso time-to-market. Com maior desempenho e capacidade, conseguimos dar suporte a mais do que o dobro de tarefas por dia, o que, por sua vez, nos permite dar suporte a mais designs. Também não ficamos mais limitados pela inatividade, obtendo uma disponibilidade acima de 99,99% em nossos sistemas da NetApp. Paramos de medir o tempo de atividade do storage, pois nosso storage da NetApp está sempre disponível quando os engenheiros precisam dele.

A aceleração de nossos ciclos de lançamento oferece um valor de negócios significativo para nossos clientes, nos tornando um parceiro de negócios estratégico e permitindo que eles lancem produtos inovadores com base na tecnologia da NVIDIA.

O que vem a seguirCom o NetApp Flash Cache e nossa eficiência de storage, a NVIDIA atingiu a meta de transformar a computação de P&D e criar uma fábrica de computação que possibilita o desenvolvimento da inovação. Continuamos contando com nossa parceria com a NetApp à medida que expandimos e aprimoramos nossa fábrica computacional. Estamos ansiosos para obter mais ganhos de desempenho e vantagens adicionais de energia e refrigeração com a próxima geração de sistemas de storage NetApp FAS6000. Enquanto isso, estamos expandindo nosso espaço físico da NetApp para outras áreas de negócios, incluindo a TI corporativa e nosso ambiente do servidor virtual VMware vSphere®.

No futuro próximo, planejamos migrar nossa fábrica computacional para o sistema operacional Clustered Data ONTAP da NetApp, que está sendo testado no momento. Reunindo nossos sistemas de storage da NetApp existentes em um único namespace global no Clustered Data ONTAP, nos beneficiaremos da escalabilidade horizontal otimizada, do balanceamento de carga fácil e da capacidade de manter os dados de designs de chips continuamente on-line durante todo o ciclo de vida.

Pethuraj PerumalGerente de storage de TI da NVIDIA Corporation

Pethuraj Perumal entrou para a NVIDIA como gerente de storage de TI em junho de 2011 e é responsável por um ambiente de storage global com mais de 20 PB. Com mais de 15 anos de experiência como gerente e arquiteto de sistemas complexos de tecnologia da informação, Pethuraj trabalhou anteriormente como gerente de serviços de proteção de dados na Synopsys, um dos principais fabricantes de software de design de semicondutores.

Page 6: Estudo de caso técnico Transformando um farm computacional ... · Nossa tecnologia de unidade de ... confiabilidade de nosso farm computacional de engenharia são ... failover otimizado

Siga-nos em:

www.netapp.com.br

© 2014 NetApp, Inc. Todos os direitos reservados. Nenhuma parte deste documento pode ser reproduzida sem permissão prévia, por escrito, da NetApp, Inc. As especificações estão sujeitas a alterações sem aviso. NetApp, o logotipo da NetApp, Go further, faster, AutoSupport, Data ONTAP, Flash Cache, OnCommand, SnapMirror, SnapRestore, Snapshot, SnapVault e WAFL são marcas comerciais ou registradas da NetApp, Inc. nos Estados Unidos e/ou em outros países. Linux é marca registrada de Linus Torvalds. VMware vSphere é uma marca registrada da VMware, Inc. Cisco é uma marca registrada da Cisco Systems, Inc. Todas as outras marcas ou produtos são marcas registradas ou comerciais dos respectivos proprietários e devem ser tratados como tal. NA-187-0214-ptBR

Sobre a NVIDIADesde 1993, a NVIDIA (NASDAQ: NVDA) é pioneira na arte e na ciência da computação visual. As tecnologias da empresa estão transformando um mundo de telas em um mundo de descoberta interativa para todos, desde os jogadores até os cientistas, e desde os consumidores finais até os clientes empresariais. Mais informações podem ser encontradas em http://nvidianews.nvidia.com e http://blogs.nvidia.com.

Sobre a NetAppA NetApp cria soluções inovadoras de gerenciamento de storage e dados que oferecem eficiência de custo excepcional e aprimoram o desempenho. Descubra nossa paixão por ajudar empresas do mundo inteiro a avançar mais rápido, acessando o site www.netapp.com/br/.

Go further, faster®

Produtos da NetApp• SistemasdestorageNetApp

FAS6290 e FAS6280

• SistemaoperacionalNetAppDataONTAP 8.2

• NetAppOnCommandUnified Manager 5.1

• NetAppFlashCache

• DeduplicaçãodaNetApp

• TecnologiadereplicaçãoNetAppSnapMirror

• NetAppSnapVault

• TecnologiasNetAppSnapshote SnapRestore®

• NetAppAutoSupport

Produtos de outros fornecedores• Softwaredeagendamento

de tarefas IBM Platform LSF• Sistemadegerenciamentode

configuração de software Perforce• Ferramentadesimulaçãode

lógica Synopsys Verilog Compile Simulation (VCS)

• RedHateCentOSLinux• SwitchesdaCisco® e da Arista

Networks