PRENDIZAGEM UTOMÁTICA E PROFUNDA C RMAZENAMENTO … · demandas de densidade, throughput,...

16
Página 1 Aprendizagem automática e profunda com armazenamento inteligente para empresas Copyright © 2019 Moor Insights & Strategy Junho de 2019 APRENDIZAGEM AUTOMÁTICA E PROFUNDA COM ARMAZENAMENTO INTELIGENTE RESUMO Impulsionadas por dados, avanços de infraestrutura e a onipresença de kits de aprendizagem automática e profunda (ML/DL), as soluções de inteligência artificial (IA) estão se tornando rapidamente presença obrigatória no data center empresarial. A IA transforma os dados em percepções em uma diversidade de mercados verticais, como o automotivo, financeiro, tecnológico, de assistência médica, ciências biomédicas e varejo, entre outros. Agora, os dados são uma vantagem competitiva em setores como o de seguros, em que a IA preditiva remove os riscos das subscrições; o financeiro, em que a aprendizagem profunda em tempo real reconhece fraudes no momento em que acontecem; e o gerenciamento de data centers, em que padrões são analisados para prever falhas e problemas de escalabilidade. A inteligência artificial e a aprendizagem profunda, em especial, exigem novos modos de fornecer dados para os mecanismos de computação que os consomem. As novas realidades da implementação de inteligência artificial no data center alteram as demandas de densidade, throughput, simultaneidade e até mesmo de arquitetura de dados de scale-out. A TI deve mudar sua maneira de enxergar a combinação de armazenamento e computação para conseguir cumprir sua promessa de oferecer IA às empresas. Este artigo descreve como a aprendizagem profunda e a inteligência artificial para empresas trazem novos fluxos de trabalho e desafios para a arquitetura do data center. Ele também aborda como as soluções podem ser construídas a partir de arquiteturas de infraestrutura especificamente projetadas para aproximar a computação de scale-out e o armazenamento. A aprendizagem profunda exige que grandes volumes de dados sejam alimentados no processador, sem que ele aguarde por esses dados. Ao combinar a computação com a tecnologia de armazenamento adequada, como a série Dell EMC Isilon, é possível alimentar os dados no pipeline da aprendizagem automática na mesma velocidade do processador. Sistemas corretamente equilibrados aceleram a inovação e oferecem flexibilidade e agilidade para as organizações de TI e os cientistas de dados que contam com eles.

Transcript of PRENDIZAGEM UTOMÁTICA E PROFUNDA C RMAZENAMENTO … · demandas de densidade, throughput,...

Page 1: PRENDIZAGEM UTOMÁTICA E PROFUNDA C RMAZENAMENTO … · demandas de densidade, throughput, simultaneidade e até mesmo de arquitetura de dados de scale-out. A TI deve mudar sua maneira

Página 1 Aprendizagem automática e profunda com armazenamento inteligente para empresas Copyright ©2019 Moor Insights &

Strategy

Junho de 2019

APRENDIZAGEM AUTOMÁTICA E PROFUNDA

COM ARMAZENAMENTO INTELIGENTE

RESUMO

Impulsionadas por dados, avanços de infraestrutura e a onipresença de kits de

aprendizagem automática e profunda (ML/DL), as soluções de inteligência artificial (IA)

estão se tornando rapidamente presença obrigatória no data center empresarial. A IA

transforma os dados em percepções em uma diversidade de mercados verticais, como o automotivo, financeiro, tecnológico, de assistência médica, ciências biomédicas

e varejo, entre outros. Agora, os dados são uma vantagem competitiva em setores

como o de seguros, em que a IA preditiva remove os riscos das subscrições;

o financeiro, em que a aprendizagem profunda em tempo real reconhece fraudes

no momento em que acontecem; e o gerenciamento de data centers, em que padrões são analisados para prever falhas e problemas de escalabilidade.

A inteligência artificial e a aprendizagem profunda, em especial, exigem novos modos

de fornecer dados para os mecanismos de computação que os consomem. As novas realidades da implementação de inteligência artificial no data center alteram as

demandas de densidade, throughput, simultaneidade e até mesmo de arquitetura

de dados de scale-out. A TI deve mudar sua maneira de enxergar a combinação de

armazenamento e computação para conseguir cumprir sua promessa de oferecer IA às empresas.

Este artigo descreve como a aprendizagem profunda e a inteligência artificial para empresas trazem novos fluxos de trabalho e desafios para a arquitetura do data center.

Ele também aborda como as soluções podem ser construídas a partir de arquiteturas

de infraestrutura especificamente projetadas para aproximar a computação de scale-out

e o armazenamento.

A aprendizagem profunda exige que grandes volumes de dados sejam alimentados no

processador, sem que ele aguarde por esses dados. Ao combinar a computação com

a tecnologia de armazenamento adequada, como a série Dell EMC Isilon, é possível

alimentar os dados no pipeline da aprendizagem automática na mesma velocidade do processador. Sistemas corretamente equilibrados aceleram a inovação e oferecem

flexibilidade e agilidade para as organizações de TI e os cientistas de dados que

contam com eles.

Page 2: PRENDIZAGEM UTOMÁTICA E PROFUNDA C RMAZENAMENTO … · demandas de densidade, throughput, simultaneidade e até mesmo de arquitetura de dados de scale-out. A TI deve mudar sua maneira

Página 2 Aprendizagem automática e profunda com armazenamento inteligente para empresas Copyright ©2019 Moor Insights &

Strategy

Junho de 2019

A APRENDIZAGEM AUTOMÁTICA ESTÁ TRANSFORMANDO O MUNDO

CORPORATIVO

Aparentemente, todos já viram a famosa capa da revista The Economist que mostra,

sobre um plano de fundo dominado por uma plataforma de petróleo, a frase que diz algo

como: “Dados são o recurso de maior valor do Mundo”1. Avanços em aprendizagem

automática (ML) e profunda (DL) deram nova importância aos dados das organizações.

Eles se tornaram um diferencial competitivo.

FIGURA 1: A RELAÇÃO ENTRE IA, ML E DL

Fonte: Moor Insights & Strategy

Inteligência artificial descreve uma classe geral de tecnologias em que os

computadores tomam decisões ou oferecem percepções que, normalmente, são

associadas à inteligência humana. Um exemplo simples de IA é o mecanismo de

recomendação de varejo, como encontrado em sites de compras on-line, que faz

recomendações de produtos com base no histórico de compras passado e no que

o consumidor está procurando no momento.

Aprendizagem automática é um tipo de inteligência artificial em que os algoritmos analisam os dados, aprendem com eles e aplicam esse aprendizado em ambientes

físicos para tomar decisões. Um sistema de aprendizagem automática que detecta

spam por e-mail, por exemplo, pode ser treinado com amostras de milhões de e-mails

enviados para a pasta de spam pelos usuários todos os dias.

1 The Economist, The World’s Most Valuable Resource is No Longer Oil, But Data. 6 de maio de 2017

Page 3: PRENDIZAGEM UTOMÁTICA E PROFUNDA C RMAZENAMENTO … · demandas de densidade, throughput, simultaneidade e até mesmo de arquitetura de dados de scale-out. A TI deve mudar sua maneira

Página 3 Aprendizagem automática e profunda com armazenamento inteligente para empresas Copyright ©2019 Moor Insights &

Strategy

Junho de 2019

A aprendizagem profunda, uma das áreas mais interessantes e ativas da inteligência artificial, é uma subcategoria da aprendizagem automática. Ela usa algoritmos

chamados redes neurais para refinar continuamente suas previsões a partir de dados

conforme eles são encontrados. A aprendizagem profunda está por trás de veículos

autônomos, análises de sentimentos que reconhecem os humores humanos e a maioria das outras técnicas de IA que lidam com dados reais para tomar decisões

ou fazer recomendações de maneira dinâmica. Este artigo lida mais diretamente com

a DL, embora haja semelhanças arquitetônicas à implementação de qualquer tipo de

sistema de IA com uso intenso de dados.

Os casos de uso de IA são muitos e diversificados, de chatbots e sistemas de resposta

de voz orientados à previsão de comportamentos de clientes e ao gerenciamento de

cadeia de suprimentos otimizado. A era da empresa inteligente chegou e muitos

encontram dificuldades em decidir como explorar tecnologias de aprendizagem

automática para obter vantagem competitiva em seu setor.

De acordo com uma pesquisa recente2 realizada com mais de 1.300 profissionais de

TI, mais de 60% dos entrevistados trabalham para organizações que planejam gastar

pelo menos 5% de seu orçamento de TI em inteligência artificial. Um quinto desses

entrevistados trabalha para organizações que planejam gastar mais de 20% de seu orçamento de TI em IA.

A inteligência artificial que usa técnicas de aprendizagem profunda afeta todos os negócios, muitas vezes de maneiras inesperadas. Veja a seguir apenas alguns

exemplos de como a aprendizagem automática, e mais especificamente

a aprendizagem profunda, influenciam a empresa moderna:

O setor de mídia e entretenimento (M&E) utiliza a aprendizagem automática em

uma série de tarefas. A análise de sentimentos é usada para classificar a reação

do público à exibição de filmes e programas de televisão. O setor de M&E também conta com reconhecimento de imagem treinado por algoritmos

de aprendizagem profunda para oferecer geração automática de metadados

em inúmeros volumes de conteúdo de vídeo.

As operações modernas de produção em diversos setores contam com

inteligência artificial e aprendizagem automática em muitos aspectos. Sistemas

de reconhecimento de imagem analisam os produtos em linhas de fabricação para

identificar defeitos. Sistemas de aprendizagem automática também auxiliam na

análise preditiva, usando sensores em uma fábrica para reconhecer e identificar

padrões que podem levar a falhas caso não sejam resolvidos. A aprendizagem

automática também é usada para respaldar decisões da cadeia de suprimento

para manter uma operação a tempo e otimizada, com aquisição e logística

2 O'Reilly Media, The State of Machine Learning Adoption in the Enterprise, 2019.

Page 4: PRENDIZAGEM UTOMÁTICA E PROFUNDA C RMAZENAMENTO … · demandas de densidade, throughput, simultaneidade e até mesmo de arquitetura de dados de scale-out. A TI deve mudar sua maneira

Página 4 Aprendizagem automática e profunda com armazenamento inteligente para empresas Copyright ©2019 Moor Insights &

Strategy

Junho de 2019

inteligentes.

Os setores automotivo e de transporte estão usando aprendizagem profunda

para mudar a forma como o mundo pensa sobre carros. As técnicas de

aprendizagem profunda estão impulsionando a corrida rumo aos veículos

autônomos.

Ao longo do caminho, estamos vendo aplicativos reais na forma de sistemas

de piloto automático adaptáveis e inteligentes, direção semiautônoma, análise

preditiva de falhas e até mesmo monitoramento de motoristas, para garantir que

eles estejam cientes do que está acontecendo no veículo. Nenhuma dessas

coisas seria possível sem os avanços contínuos em aprendizagem automática

e profunda.

Embora a implementação de tecnologias de IA em empresas gere grande impacto, ela

continua sendo algo novo para muitas organizações. É importante simplificar e analisar

os componentes modulares comuns antes de iniciar um projeto de IA. Quase todas as

soluções de DL, sejam de suporte a detecção e classificação de imagens, segmentação,

processamento de linguagem natural e/ou análise preditiva, utilizam um conjunto comum

de tecnologias centrais. Essas técnicas são implementadas em plataformas nativamente

compatíveis e ajustadas para pacotes de software comuns, como TensorFlow, PyTorch

e Caffe2, onipresentes na implementação desses casos de uso.

Os profissionais de TI mais tradicionais não têm as habilidades necessárias para

arquitetar e implementar soluções de IA com eficiência para casos de uso amplamente

diversificados. Aprendizagem automática e profunda são tecnologias que apresentam

novos desafios e exigem maneiras inovadoras de pensar sobre dados.

A mesma pesquisa citada acima mostra que a falta de entendimento sobre

a implementação da aprendizagem profunda, combinada com uma infraestrutura

que não está pronta para essas cargas de trabalho, acaba por inibir sua adoção.

A tarefa mais crítica para qualquer departamento de TI competitivo é eliminar essa

lacuna e desenvolver o conjunto de habilidades necessário para implementar

a aprendizagem profunda, com suporte de arquiteturas de lógica analítica flexíveis

e à prova de obsolescência.

Page 5: PRENDIZAGEM UTOMÁTICA E PROFUNDA C RMAZENAMENTO … · demandas de densidade, throughput, simultaneidade e até mesmo de arquitetura de dados de scale-out. A TI deve mudar sua maneira

Página 5 Aprendizagem automática e profunda com armazenamento inteligente para empresas Copyright ©2019 Moor Insights &

Strategy

Junho de 2019

PLANEJAMENTO DE IMPLEMENTAÇÃO DE APRENDIZAGEM PROFUNDA

NO DATA CENTER

Compreender o impacto multidimensional da aprendizagem profunda sobre

a arquitetura de armazenamento requer um alto nível de entendimento de fluxos de

trabalho típicos de aprendizagem. Cada fase no pipeline de aprendizado apresenta

diferentes demandas à infraestrutura subjacente. Isso está ilustrado na Figura 2.

FIGURA 2: PIPELINE TÍPICO PARA APRENDIZAGEM AUTOMÁTICA

E PROFUNDA

Fonte: Moor Insights & Strategy

Esses passos são resumidos da seguinte forma:

Inclusão de dados – Os dados provenientes de uma ou várias fontes externas,

como dispositivos periféricos, arquivos de log, fluxos de voz ou vídeo ou sistemas

de gerenciamento de relacionamento com clientes. Os dados são recebidos

e armazenados. A solução de armazenamento precisa apenas desempenhar

Preparação dos dados− Os dados são limpos e transformados para

o treinamento. Essa etapa crítica garante que eles sejam consistentes, que

as exceções sejam identificadas e que o conjunto de dados seja otimizado

para os algoritmos de treinamento. Alguns tipos de aprendizagem automática,

como aprendizado supervisionado, exigem que os dados sejam rotulados

durante essa etapa.

Page 6: PRENDIZAGEM UTOMÁTICA E PROFUNDA C RMAZENAMENTO … · demandas de densidade, throughput, simultaneidade e até mesmo de arquitetura de dados de scale-out. A TI deve mudar sua maneira

Página 6 Aprendizagem automática e profunda com armazenamento inteligente para empresas Copyright ©2019 Moor Insights &

Strategy

Junho de 2019

Detecção e visualização de dados – Cientistas de dados trabalham para

otimizar os algoritmos e parâmetros de treinamento. Esse é um processo

muito iterativo, embora exija apenas volumes modestos de armazenamento

e computação.

Treinamento e desenvolvimento de modelos −A maior parte do trabalho

ocorre nessa etapa. Os dados limpos são alimentados em um cluster de GPUs

ou outro mecanismo de computação de alto desempenho, onde, geralmente,

são iterados por longos períodos. Treinamento requer armazenamento de alto

throughput, otimizado para operações de leitura aleatórias de alta

simultaneidade.

Implementação de modelos ou inferência de produção − Os modelos gerados

pela etapa de treinamento são implementados em relação aos dados no mundo

real. As características dessa fase são altamente dependentes do tipo de

aprendizagem profunda que está sendo implementado. O reconhecimento de

imagem, por exemplo, pode ocorrer em um dispositivo do cliente, como uma

câmera inteligente, com pouca interação com os sistemas de armazenamento,

enquanto aplicativos mais avançados podem ser executados em um data center

corporativo.

Retenção de dados − Dados usados no treinamento do modelo ou em

inferência repetitiva para aprendizagem profunda são mantidos para fins de

arquivamento ou reutilização. Essa é uma etapa crítica. O arquivamento dos

dados garante que os modelos possam ser recriados e que os dados, extraídos

para percepções futuras.

Essas etapas são respaldadas por um conjunto de princípios de projeto que devem

ser considerados ao implementar uma infraestrutura para dar suporte à aprendizagem

profunda:

Desempenho e dimensionamento: o desempenho não pode cair com a

escala. Cada componente, seja computação, armazenamento ou sistema de

rede, deve ser dimensionado linear e independentemente, de modo que o

sistema possa crescer perfeitamente com a carga de trabalho a fim de evitar

gargalos de computação, I/O e sistema de rede.

Flexibilidade: os sistemas de IA são desenvolvidos com base em dados.

A realidade inerente a essa dinâmica é que o software, as técnicas analíticas

e os casos de uso são inevitavelmente alterados, pois o ecossistema de IA

evolui, mas os dados da organização permanecem relativamente constantes. os

sistemas devem dar suporte ao armazenamento de dados de longo prazo e, ao

mesmo tempo, serem flexíveis para evoluir com as mudanças nas necessidades

dos negócios.

Gerenciamento de dados corporativos: apesar de seu uso não tradicional,

os dados utilizados pela aprendizagem profunda são corporativos e devem ser

gerenciados como tal. A segurança, a proteção de dados, a conformidade com

Page 7: PRENDIZAGEM UTOMÁTICA E PROFUNDA C RMAZENAMENTO … · demandas de densidade, throughput, simultaneidade e até mesmo de arquitetura de dados de scale-out. A TI deve mudar sua maneira

Página 7 Aprendizagem automática e profunda com armazenamento inteligente para empresas Copyright ©2019 Moor Insights &

Strategy

Junho de 2019

normas e outras questões tradicionais de gerenciamento de dados também se

aplicam a dados de aprendizagem profunda. As soluções de armazenamento

implementadas nesses ambientes devem se integrar bem às políticas e aos

procedimentos existentes para o gerenciamento de dados na empresa.

Embora as discussões de aprendizagem automática e profunda gravitem

naturalmente em torno da computação, fica claro que essas soluções forçam

a concepção de novas maneiras de pensar sobre os dados. A aprendizagem

profunda exige diferentes maneiras de pensar sobre como os dados são gerenciados,

analisados e armazenados.

DADOS EM UM AMBIENTE DE APRENDIZAGEM PROFUNDA

As características dos dados em um fluxo de trabalho de aprendizagem profunda são

diferentes da maioria dos outros aplicativos de TI:

Os dados são majoritariamente não estruturados, consistindo em imagens, áudio, texto livre ou até mesmo fluxos de dados de série de tempo. A

arquitetura de armazenamento para um ambiente de aprendizagem profunda

deve ser otimizada para dados não estruturados. O armazenamento também

deve dar suporte a vários protocolos de acesso aos dados, como SMB, NFS,

HDFS, S3 e HTTP, a fim de entregar o máximo em flexibilidade operacional.

A escala dos dados está aumentando drasticamente com os sensores de vídeo

e borda, em particular; o conteúdo de resolução mais alta gera muitos terabytes

de dados para análise em períodos concisos. Reter esses dados para análise posterior ou retreinamento pode levar a uma necessidade de armazenamento

na casa dos petabytes. A extração de percepções confiáveis da DL exige um

registro histórico profundo dos dados para análise. As soluções de

armazenamento nesse ambiente devem ter a capacidade de passar por scale-out de maneira simples e sem interrupções.

O uso de dados varia significativamente, tendo necessidades diferentes para

cada fase do pipeline de aprendizado. A limpeza ou a rotulação de dados, por exemplo, tem demandas de desempenho muito diferentes do que os processos

que alimentam os mesmos dados em um cluster para treinamento ou inferência

em tempo real. Uma extremidade desse pipeline pode ser atendida por

armazenamento local tradicional, DAS ou armazenamento de nível intermediário. A outra extremidade exige recursos corporativos e de throughput

que acompanhem a tecnologia moderna de processamento.

Os dados chegam de qualquer lugar. Os aplicativos de aprendizagem profunda

têm fontes de dados muito diferentes. Dados para análise ou geração de modelos

podem chegar de áreas periféricas, aplicativos nativos da nuvem, serviços de voz e até mesmo aplicativos de agregação de registro de servidor. O armazenamento

deve ser projetado para incluir dados de uma variedade de fontes.

Page 8: PRENDIZAGEM UTOMÁTICA E PROFUNDA C RMAZENAMENTO … · demandas de densidade, throughput, simultaneidade e até mesmo de arquitetura de dados de scale-out. A TI deve mudar sua maneira

Página 8 Aprendizagem automática e profunda com armazenamento inteligente para empresas Copyright ©2019 Moor Insights &

Strategy

Junho de 2019

O ciclo de vida dos modelos de dados. A IA exige um conjunto consistente de ferramentas de gerenciamento, de alto desempenho a armazenamento de arquivos profundo, a fim de manter os dados ativos em uma arquitetura de armazenamento alinhada com o fluxo de trabalho de IA geral de uma empresa. Da mesma forma, a transformação dos dados existentes em entradas para novos recursos de IA exige ferramentas de gerenciamento de dados que permitam à organização de TI implementar novas soluções no armazenamento existente.

Essas características de alto nível se convertem em considerações reais ao escolher uma solução de gerenciamento de dados para aprendizagem profunda. É importante destacar que esses dados ainda são “dados corporativos” e precisam ser protegidos contra falhas de hardware e software e violações, assim como serem gerenciados com eficiência.

O tipo de aprendizagem profunda que uma organização implementa também afeta a arquitetura de armazenamento que dá suporte a esses fluxos de trabalho. Reconhecimento de imagem, por exemplo, muito usado em setores como o de mídia e entretenimento, manufatureiro e automotivo, baseia-se na aplicação de CNNs (Convolutional Neural Networks, Redes Neurais Convolucionais) e DNNs (Deep Neural Networks, Redes Neurais Profundas).

CNN é um tipo de rede neural que aprende a classificar e reconhecer imagens por meio de uma série de etapas altamente repetitivas. Os padrões de acesso aos dados para CNNs durante o treinamento e o reconhecimento exigem uma arquitetura de armazenamento ajustada para um número alto de acessos de leitura de blocks pequenos no storage array subjacente.

Colocando isso em perspectiva no mundo real, em comparação realizada pela Dell EMC e pela NVIDIA, um sistema de armazenamento Dell EMC Isilon F800 foi pareado com servidores NVIDIA DGX-1 compostos por várias GPUs NVIDIA Tesla V100. Cada GPU executava mais de 5.000 threads paralelos, o que equivale a uma média de 703 leituras simultâneas de arquivos por GPU3. É essencial que o sistema de armazenamento, pareado com um sistema de aprendizagem profunda, tenha a capacidade de servir dados em escala e com simultaneidade extrema, sem causar a interrupção dos elementos de processamento enquanto aguardam dados.

Esse é apenas um exemplo. Outros sistemas de aprendizagem profunda têm requisitos diferentes. Sistemas inteligentes que oferecem reconhecimento de padrões em tempo real para a detecção de fraudes financeiras, por exemplo, podem exigir um armazenamento em block de alto desempenho. Aplicativos com essas restrições podem ser mais bem atendidos por storage arrays em block de alto throughput e baixa latência, como a série Dell EMC PowerMax.

3 White paper: Dell EMC Isilon and NVIDIA DGX-1 Servers for Deep Learning, https://www.dellemc.com/pt-

br/collaterals/unauth/white- papers/products/storage/Dell_EMC_Isilon_and_NVIDIA_DGX_1_servers_for_deep_learning.pdf

Page 9: PRENDIZAGEM UTOMÁTICA E PROFUNDA C RMAZENAMENTO … · demandas de densidade, throughput, simultaneidade e até mesmo de arquitetura de dados de scale-out. A TI deve mudar sua maneira

Página 9 Aprendizagem automática e profunda com armazenamento inteligente para empresas Copyright ©2019 Moor Insights &

Strategy

Junho de 2019

Existem considerações semelhantes em relação a tamanhos de block, padrões de I/O

de arquivos e dimensionamento. O importante é que o fornecimento de dados para

aprendizagem automática e profunda é muito diferente de qualquer outra carga de

trabalho corporativa. O gerenciamento de dados para aprendizagem profunda exige

a implementação de soluções projetadas para alta simultaneidade e desempenho

multidimensional em escala, com classificação por níveis em um só namespace

e gerenciamento simples por meio de um conjunto consistente de ferramentas.

DELL EMC: ENTREGANDO ARMAZENAMENTO PARA APRENDIZAGEM

PROFUNDA

A força da IA só pode ser aproveitada por meio de uma entrega de dados eficiente

e de alto desempenho, exigindo que vários fatores sejam considerados ao projetar

soluções de armazenamento para aplicativos de aprendizagem automática e profunda,

em que as diferentes etapas do pipeline de aprendizado tenham diferentes requisitos

de desempenho, escala e simultaneidade.

Ao mesmo tempo, faz sentido implementar arquiteturas de armazenamento que

classifiquem e dimensionem perfeitamente para atender aos requisitos de todas

as etapas de uma carga de trabalho de aprendizagem profunda.

A família Dell EMC Isilon oferece uma base sólida para entregar recursos de

armazenamento compatíveis com o ciclo de vida completo de aprendizagem profunda

corporativa. Isso segue o fluxo de trabalho de treinamento, aprendizagem,

implementação e, em última análise, às necessidades de arquivamento de longo prazo.

DELL EMC ISILON ONEFS

A força de qualquer sistema de armazenamento reside em seu software de sistema

operacional subjacente. O sistema operacional Dell EMC Isilon OneFS oferece

a inteligência por trás das soluções de armazenamento NAS de scale-out do

Dell EMC Isilon.

Os recursos avançados do OneFS otimizam e simplificam o armazenamento de dados

no centro de cada fluxo de trabalho de inteligência artificial. O software oferece

classificação por níveis perfeita e um namespace único, gerenciando o posicionamento

de dados, otimizando e ajustando o desempenho de cada array com base nos padrões

de tráfego detectados e oferecendo dimensionamento de armazenamento linear e sem

interrupções. O sistema operacional Dell EMC Isilon OneFS atende a cada um desses

recursos.

Page 10: PRENDIZAGEM UTOMÁTICA E PROFUNDA C RMAZENAMENTO … · demandas de densidade, throughput, simultaneidade e até mesmo de arquitetura de dados de scale-out. A TI deve mudar sua maneira

Página 10 Aprendizagem automática e profunda com armazenamento inteligente para empresas Copyright ©2019 Moor Insights &

Strategy

Junho de 2019

A simplicidade de gerenciamento de armazenamento permite que os cientistas de

dados se concentrem em gerenciar o processo de aprendizagem automática, sem ter

que se preocupar com os detalhes da infraestrutura de armazenamento subjacente.

Essa simplicidade também permite que os administradores de TI implementem

a combinação certa de soluções de armazenamento flexíveis e eficientes, que atendem

às necessidades de aprendizagem automática e profunda.

Data Lake consolidado – Consolida dados no fluxo de trabalho de lógica

analítica em um só lugar para simplificar os pipelines de lógica de dados.

Suporte a vários protocolos – Permite a aproximação da lógica analítica

aos dados para dar suporte a uma metodologia “armazene uma vez, use

muitas” para promover maior agilidade.

Governança de dados corporativos – Protege os dados com recursos nativos

de resiliência e segurança.

Classificação por níveis perfeita – Armazenamento hierárquico entre nós

totalmente flash, híbridos e de arquivamento no mesmo cluster para permitir

o dimensionamento econômico de petabytes e o acesso a conjuntos de dados

maiores.

Armazenamento em cache inteligente − Oferece a capacidade de ajustar

dinamicamente as características de armazenamento em cache do sistema

de armazenamento com base nas cargas de trabalho que estão consumindo

dados. O armazenamento em cache do Isilon OneFS tem como alvo

o desempenho de leituras simultâneas, que é uma característica crucial

de desempenho em fluxos de trabalho de aprendizagem profunda.

Escalabilidade linear − Permite que os sistemas Isilon mantenham

o desempenho consistente enquanto atendem a cargas de trabalho paralelas

altamente simultâneas das implementações de aprendizagem profunda.

DevOps e suporte como serviço integrado – Permite que as empresas

façam o desenvolvimento de ambientes de dados de desenvolvimento, teste

e produção ou ofereçam vários ambientes de dados de produção com

separação clara de locatários por meio de várias zonas de acesso dentro

do mesmo cluster do Isilon.

O software gerencia a experiência geral e a inteligência inerente à série Dell EMC

Isilon. A combinação de capacidade de gerenciamento simples com as características

sólidas de desempenho e escalabilidade do array fazem do Isilon uma plataforma

atraente para cargas de trabalho de aprendizagem profunda.

Page 11: PRENDIZAGEM UTOMÁTICA E PROFUNDA C RMAZENAMENTO … · demandas de densidade, throughput, simultaneidade e até mesmo de arquitetura de dados de scale-out. A TI deve mudar sua maneira

Página 11 Aprendizagem automática e profunda com armazenamento inteligente para empresas Copyright ©2019 Moor Insights &

Strategy

Junho de 2019

DELL EMC ISILON: UMA PLATAFORMA PROJETADA PARA

APRENDIZAGEM AUTOMÁTICA E PROFUNDA

O nível superior da família de armazenamento Dell EMC Isilon é o NAS de scale-out

Isilon F800 All-flash. De acordo com a Dell4, o F800 entrega desempenho e

capacidade próximos dos líderes do setor. Ele pode realizar até 250 mil IOPS com

throughput agregado de 15 GB/segundo em um só chassi de 4U e até 15,75 milhões

de IOPS e 945 GB/segundo em um cluster completo de 252 nós.

Em termos de capacidade, o Isilon F800 começa com dezenas de terabytes de

armazenamento e pode fazer scale-out sem interrupções de dezenas de petabytes

em um só namespace. O Isilon entrega até 85% de eficiência de armazenamento,

além de oferecer tecnologia de desduplicação e compactação que pode reduzir os

requisitos de capacidade de armazenamento de dados em uma proporção de até 3:1,

aumentando a capacidade efetiva da solução.

O Isilon F800 é capaz de manter a alimentação dos nós de computação de

aprendizagem profunda. Equipado com 60 SSDs de alto desempenho e 8 conexões

Ethernet de 40 Gbps, essas máquinas são projetadas para entregar desempenho

consistente nos altos níveis de simultaneidade exigidos pela aprendizagem profunda.

Além de simplesmente oferecer desempenho consistente, o Isilon F800 pode ser

classificado por níveis com nós Isilon Archive e Hybrid para oferecer escalabilidade

de petabytes fácil de gerenciar.

A melhor demonstração desse desempenho é nas arquiteturas de referência da

Dell EMC desenvolvidas de maneira a unir os recursos do Isilon F800 com os

servidores de GPU acelerado NVIDIA Tesla V100, como PowerEdge C4140, DSS 8440

e NVIDIA DGX-1. As referências de desempenho dessas soluções demonstraram

o desempenho do ResNet-50, com até 72 GPUs e um desempenho de imagem linear

por segundo de 8 a 72 GPUs, com utilização de GPU a 97%5.

Esses números comparativos demonstram que, em um dos computadores de

aprendizagem profunda de maior desempenho disponíveis atualmente, o processador

é o gargalo, enquanto o Dell EMC Isilon F800 o mantém totalmente alimentado com os

dados.

4 Especificações do Dell EMC Isilon F800: https://www.dellemc.com/pt-br/collaterals/unauth/data-

sheets/products/storage/h15963-ss-isilon-all-flash.pdf 5 White paper da Dell EMC. Dell EMC Isilon and NVIDIA DGX-1 servers for deep learning. Novembro

de 2018. https://www.dellemc.com/pt-br/collaterals/unauth/white- papers/products/storage/Dell_EMC_Isilon_and_NVIDIA_DGX_1_servers_for_deep_learning.pdf

Page 12: PRENDIZAGEM UTOMÁTICA E PROFUNDA C RMAZENAMENTO … · demandas de densidade, throughput, simultaneidade e até mesmo de arquitetura de dados de scale-out. A TI deve mudar sua maneira

Página 12 Aprendizagem automática e profunda com armazenamento inteligente para empresas Copyright ©2019 Moor Insights &

Strategy

Junho de 2019

DELL EMC POWERMAX: ARMAZENAMENTO EM BLOCK DE ALTO

DESEMPENHO Há algumas etapas do fluxo de trabalho de IA e algoritmos específicos de aprendizagem

automática e profunda que exigem armazenamento em block de latência baixíssima

para as taxas de resposta em tempo real durante a inclusão e a preparação de dados

e a inferência de produção.

Entre as arquiteturas de armazenamento de mais alto desempenho disponíveis

atualmente, a série Dell EMC PowerMax foi desenvolvida para dar suporte a esses

cenários. O PowerMax é baseado em NVMe completo, entregando latências inferiores

a 300 ms, entre 1,7 e 10 milhões de IOPS (para o PowerMax 2000 e PowerMax 8000,

respectivamente), com até 13 TB por brick6.

A Dell concebeu o PowerMax para dar suporte às mais exigentes cargas de trabalho

de IA em tempo real que estão sendo implementadas nas empresas de hoje.

DELL EMC: PILHA COMPLETA DE APRENDIZAGEM PROFUNDA

O armazenamento e a computação são interligados em ambientes de aprendizagem

profunda. Uma infraestrutura bem projetada para a aprendizagem profunda, com todas

as complexidades associadas ao gerenciamento de dados, se resume a equilíbrio,

interoperabilidade, desempenho e flexibilidade. Apesar dos altos níveis de semelhança

entre as implementações, não há um jeito certo. Todas as implementações e todos os

ambientes são um pouco diferentes.

Há uma grande variedade de opções para implementar cargas de trabalho de

aprendizagem automática e profunda. Fases diferentes exigem variedade de acesso

a dados, mas também de soluções de computação. Os profissionais de IA podem

optar por executar cargas de trabalho em servidores bare metal, máquinas virtuais

ou até mesmo em contêineres tipo Docker.

Além de simplesmente entregar elementos individuais em uma infraestrutura de

aprendizagem profunda, a Dell EMC trabalha para viabilizar soluções que possam

ser rapidamente implementadas por profissionais de TI. Ela simplifica as decisões

arquitetônicas e reduz os tempos de implementação com Ready Solutions

e arquiteturas de referência (RA) que combinam elementos para resolver o problema

em questão. A Dell EMC também oferece diretrizes de configuração de solução que

ajudam as empresas a dimensionar suas soluções de lógica de dados e de IA para se

alinhar aos requisitos específicos de carga de trabalho

6 Dell EMC PowerMax Specification Sheet: https://brazil.emc.com/collateral/data-

sheet/h16739-powermax-2000-8000-ss.pdf

Page 13: PRENDIZAGEM UTOMÁTICA E PROFUNDA C RMAZENAMENTO … · demandas de densidade, throughput, simultaneidade e até mesmo de arquitetura de dados de scale-out. A TI deve mudar sua maneira

Página 13 Aprendizagem automática e profunda com armazenamento inteligente para empresas Copyright ©2019 Moor Insights &

Strategy

Junho de 2019

As Ready Solutions e as RAs mesclam os tamanhos certos de servidores Dell

PowerEdge com os switches de rede Dell EMC, armazenamento Isilon e uma pilha

de software otimizada para a solução. EMC Ready Solutions são pacotes de hardware

validados e pilhas de software otimizadas para acelerar as iniciativas de IA, reduzindo

o tempo de elaboração de uma nova solução para 6 a 12 meses. Os serviços de

implementação, consultoria, suporte e finanças da Dell Technologies agregam ainda

mais força e vantagem às Dell EMC Ready Solutions.Esses serviços funcionam juntos

para garantir uma implementação de solução sem complicações.

As arquiteturas de referência são pilhas testadas e validadas, direcionadas a clientes

e parceiros de solução da Dell. As Ready Solutions podem ser solicitadas diretamente

à Dell, enquanto as RAs têm como objetivo ajudar os profissionais de TI a criar suas

próprias soluções de tecnologia avançada com base nos produtos comprovados da

Dell Technologies.

Page 14: PRENDIZAGEM UTOMÁTICA E PROFUNDA C RMAZENAMENTO … · demandas de densidade, throughput, simultaneidade e até mesmo de arquitetura de dados de scale-out. A TI deve mudar sua maneira

Página 14 Aprendizagem automática e profunda com armazenamento inteligente para empresas Copyright ©2019 Moor Insights &

Strategy

Junho de 2019

TABELA 1: EXEMPLOS DE READY SOLUTIONS E ARQUITETURAS DE

REFERÊNCIA

Tipo Solução Elementos-chave Parceiros-chave

Ready Solutions para IA

Aprendizagem profunda com a Intel

Isilon H600 PowerEdge R740xd PowerEdge C6420

Intel

Aprendizagem profunda com NVIDIA

Isilon F800 PowerEdge R740xd PowerEdge C4140

NVIDIA

Aprendizagem automática com o Hadoop

Isilon H500/H600 PowerEdge R640

Hortonworks

Arquiteturas de referência para IA

Dell EMC Isilon and NVIDIA DGX-1 for Deep Learning

Isilon F800 NVIDIA DGX-1

NVIDIA

Dell EMC Isilon e PowerEdge C4140 para aprendizagem profunda

Isilon F800 PowerEdge C4140

NVIDIA

Dell EMC Isilon e DSS 8440 para aprendizagem profunda

Isilon F800 DSS 8440

NVIDIA

Dell EMC Isilon e PowerEdge R940 para robôs de investimento

Isilon F800 PowerEdge R940

Intel

Fonte: Moor Insights & Strategy

CONCLUSÃO

Os dados se tornaram o ativo mais estratégico e o maior diferencial de muitas

organizações. As técnicas de IA estão revolucionando o modo como os dados são

interpretados e utilizados. As empresas estão investindo muito no desenvolvimento

de conhecimentos e na implementação de infraestrutura para dar suporte a essa

realidade.

Ao mesmo tempo, a inteligência artificial (seja a aprendizagem automática ou

profunda) exige que os departamentos de TI pensem sobre a arquitetura de dados

e armazenamento de maneira diferente daquelas que dão suporte a cargas de trabalho

corporativas mais tradicionais. Os atributos dos dados são diferentes. A complexidade

da lógica analítica é diferente. As necessidades dos consumidores desses dados são

diferentes. A capacidade de manter os nós de computação acelerados alimentados

com os dados é fundamental. As soluções de IA com base no Dell EMC Isilon são

projetadas para atender exatamente a essas necessidades.

A implementação de soluções de aprendizagem profunda exige cuidado; ela requer

parcerias com provedores de tecnologia que entendam às demandas desse novo

mundo, oferecendo a abrangência das soluções direcionadas necessárias para facilitar

a vida dos profissionais de TI que atuam nesse universo.

Page 15: PRENDIZAGEM UTOMÁTICA E PROFUNDA C RMAZENAMENTO … · demandas de densidade, throughput, simultaneidade e até mesmo de arquitetura de dados de scale-out. A TI deve mudar sua maneira

Página 15 Aprendizagem automática e profunda com armazenamento inteligente para empresas Copyright ©2019 Moor Insights &

Strategy

Junho de 2019

A Dell EMC é um ótimo exemplo de parceiro. A aprendizagem profunda coloca os

dados em primeiro lugar, e a Dell EMC é uma das líderes mundiais em gerenciamento

de dados de data centers, nuvens públicas e privadas e redes periféricas.

A abrangência do portfólio de IA da Dell EMC a coloca em excelente posição para

ajudar a projetar o melhor ambiente possível para atender às necessidades do cliente.

A empresa tem um amplo portfólio de armazenamento que gerencia e protege dados

de clientes, assim como soluções e serviços otimizados para o sucesso com a IA.

Saiba mais no site da Dell EMC: https://www.dellemc.com/pt-

br/solutions/artificial-intelligence/index.htm

Page 16: PRENDIZAGEM UTOMÁTICA E PROFUNDA C RMAZENAMENTO … · demandas de densidade, throughput, simultaneidade e até mesmo de arquitetura de dados de scale-out. A TI deve mudar sua maneira

Página 16 Aprendizagem automática e profunda com armazenamento inteligente para empresas Copyright ©2019 Moor Insights &

Strategy

Junho de 2019

INFORMAÇÕES IMPORTANTES SOBRE ESTE ARTIGO

COLABORADOR

Steve McDowell, analista sênior da Moor Insights & Strategy

EDITOR

Patrick Moorhead, fundador, presidente e analista principal da Moor Insights & Strategy

CONSULTAS

Se quiser discutir esse relatório, entre em contato conosco. A Moor Insights & Strategy responderá prontamente.

CITAÇÕES

Este artigo pode ser citado pela imprensa e por analistas acreditados, mas deve ser citado com o contexto apropriado, exibindo o nome do autor, o título do autor e o nome da empresa “Moor Insights & Strategy”. Indivíduos que não sejam da imprensa ou analistas deverão obter uma permissão prévia por escrito da Moor Insights & Strategy se quiserem fazer quaisquer citações.

LICENCIAMENTO

Este documento, inclusive quaisquer materiais de apoio, é de propriedade da Moor Insights & Strategy. Esta publicação não pode ser reproduzida, distribuída ou compartilhada sob nenhuma forma sem a permissão prévia por escrito da Moor Insights & Strategy.

DIVULGAÇÃO

Este artigo foi encomendado pela Dell. A Moor Insights & Strategy fornece serviços de pesquisa, análise, assessoria e consultoria para as várias empresas de alta tecnologia mencionadas neste artigo. Nenhum funcionário da empresa faz parte do capital social das empresas citadas neste documento.

ISENÇÃO DE RESPONSABILIDADE

As informações apresentadas neste documento destinam-se somente a fins informativos e podem conter imprecisões técnicas, omissões e erros de digitação. A Moor Insights & Strategy renuncia a todas as garantias de precisão, integralidade ou adequação de tais informações e não terá nenhuma responsabilidade sobre erros, omissões ou imperfeições em tais informações. Este documento consiste nas opiniões da Moor Insights & Strategy e não deve ser interpretada como demonstrativos de fato. As opiniões expressas neste documento estão sujeitas a alterações sem aviso prévio.

A Moor Insights & Strategy fornece previsões e declarações prospectivas como indicadores de direcionamento, e não como previsões precisas de eventos futuros. Embora nossas previsões e declarações prospectivas representem nosso julgamento atual sobre o que o futuro nos reserva, elas estão sujeitas a riscos e incertezas que poderiam causar resultados reais materialmente diversos. Você é aconselhado a não depositar confiança indevida sobre essas previsões e declarações prospectivas, que refletem nossas opiniões no momento da publicação deste documento. Tenha em mente que não temos obrigação de revisar ou divulgar publicamente os resultados de qualquer revisão dessas previsões e declarações prospectivas caso surjam novas informações ou eventos futuros.

©2019 Moor Insights & Strategy. Os nomes de empresas e produtos são usados puramente para fins informativos e podem ser marcas comerciais de seus respectivos proprietários.