Big Data, Analytics e seus profissionais uma visão geral

9

Click here to load reader

description

"Big Data, Analytics e seus profissionais - uma visão geral", é um capítulo do livro "Múltiplos olhares na construção do conhecimento - vol. IV" e traz informações sobre o tema, com ênfase nos Cientistas de Dados (Data Scientists)

Transcript of Big Data, Analytics e seus profissionais uma visão geral

Page 1: Big Data, Analytics e seus profissionais   uma visão geral

BIG DATA, ANALYTICS E SEUS PROFISSIONAIS – UMA VISÃO GERAL

VIVALDO JOSÉ BRETERNITZ Profissional originário da área de Computação é professor da Faculdade de Computação e Informática da Universidade Presbiteriana Mackenzie. É doutor em Ciências pela Universidade de São Paulo, com pós-doutoramento pela Universidade de Lisboa

INTRODUÇÃO

A forma de atuação das organizações vem sendo moldada pela disponibilidade de dados.

A velocidade e o volume com que estes vem sendo criados é alucinante: Smolan e Erwitt

(2012) afirmam que até 2003 a humanidade havia gerado 5 exabytes, e que em 2013,

bastavam dez minutos para que esse volume fosse criado.

isso contribuiu para que fosse cunhado o termo Big Data (BD), hoje utilizado de forma

genérica para descrever o crescimento, a disponibilidade e o uso exponencial de

informações estruturadas e não estruturadas.

Em 2011, o periódico The Economist entrevistou executivos de grandes organizações em

sua primeira pesquisa sobre o tema Big Data (EIU, 2011). Apurou que a metade deles

acreditava que os dados eram um importante ativo para suas organizações; 10%

afirmaram que a disponibilidade de dados havia alterado completamente a forma como

suas organizações planejavam e operavam.

Mas a pesquisa apurou também que as organizações ainda tinham dificuldades com

alguns aspectos básicos relacionados à captura e administração de dados e à sua efetiva

exploração, dentre eles, a falta de pessoal adequadamente preparado, especialmente

aqueles que o mercado vem chamando Cientistas de Dados (CD) – esses profissionais

com esse perfil são muito raros e sua formação demanda muito tempo, o que torna sua

utilização cara – Bertolucci (2012), citando pesquisas da consultoria McKinsey, diz que

apenas nos Estados Unidos faltarão em 2018 aproximadamente 190.000 desses

profissionais

Page 2: Big Data, Analytics e seus profissionais   uma visão geral

Dado esse cenário, elaborou-se este ensaio que tem como objetivo apresentar uma visão

geral acerca de Big Data, de Analytics (uma de suas áreas mais importantes), e dos

profissionais envolvidos, pretendendo fornecer subsídios àqueles que se envolverão com

o assunto.

O ensaio foi produzido a partir de pesquisa bibliográfica e da experiência profissional e

acadêmica de seu autor, que no meio acadêmico vem se dedicando à pesquisa do

assunto e à formação de pessoal que atuará na área.

BIG DATA

Alguns autores, como Zikipoulos et al (2012) dizem que Big Data se caracteriza por

quatro aspectos: volume, velocidade, variedade e veracidade.

O aspecto volume refere-se ao fato de que a quantidade de dados disponível em forma

digital cresce de maneira exponencial, provenientes não só de sistemas convencionais,

mas também de fontes como Facebook, Tweeter, You Tube, RFID, eletrônica embarcada,

telefones celulares e assemelhados, sensores de diversos tipos, etc.

Além do volume total citado anteriormente, McAfee e Brynjolfsson (2012) diziam que

naquele ano, a cada segundo, mais dados transitavam pela internet do que o total

armazenado na mesma 20 anos antes e que apenas o Walmart coletava mais de 2,5

petabytes a cada hora, derivados das transações efetuadas por seus clientes; cabe

lembrar que um petabyte é um quatrilhão de bytes e um exabyte é esse número

multiplicado por mil, ou um bilhão de gigabytes.

Cabe lembrar o que disse Loukides (2012): como a capacidade de armazenar e processar

dados deve continuar crescendo, o que é big hoje amanha será medium e na próxima

semana small, no sentido de que novas técnicas, ferramentas e habilidades serão

necessárias para tratar o assunto.

Os mesmos autores apresentam outro aspecto relevante de Big Data: a velocidade em

que dados podem ser capturados e processados, praticamente em tempo real, podendo

dar a uma organização vantagem competitiva. Exemplificam essa afirmação relatando

experimento conduzido pelo grupo de pesquisa do Prof. Alex Pentland, do MIT Media Lab:

o grupo capturou dados relativos à localização de celulares de forma a inferir quantas

pessoas colocaram seus carros nos estacionamentos de lojas do grupo americano Macy’s

no Black Friday de 2011 (data que marca o inicio da temporada de compras de Natal nos

Page 3: Big Data, Analytics e seus profissionais   uma visão geral

Estados Unidos); isso permitiu estimar com precisão as vendas dessas lojas antes

mesmo que elas ocorressem, gerando vantagens competitivas às áreas comerciais e de

marketing e a terceiros, como investidores em bolsas de valores. Esse caso e outros

similares são relatados por Clifford (2012).

No que se refere à variedade, cabe registrar que além de fontes diferentes, tais dados

tem, frequentemente, características que fogem das tratadas pelos sistemas de

informação convencionais, não sendo estruturados e referindo-se a coisas como

movimento, temperatura, umidade e até mesmo variações na composição química do ar

(LOHR, 2012).

O aspecto veracidade está relacionado ao fato de que os dados não são “perfeitos”, no

sentido de que é preciso considerar o quão bons eles devem ser para que gerem

informações úteis e também os custos para torná-los bons.

Alguns autores consideram um quinto aspecto, a validade dos dados, ou seja, sua vida

útil, o tempo em que os mesmos precisam ser mantidos (TAUBE, 2012). Esses aspectos

são coletivamente chamados 4V ou 5V.

As ferramentas computacionais, por outro lado, vem acompanhando o crescimento dessa

velocidade e do volume de dados, em termos de capacidade de armazenamento e

processamento. Destacam-se nesse assunto as pesquisas em corrente contínua de

dados (stream computing) e em técnicas de inteligência artificial.

No modelo convencional de armazenamento de dados e tomada de decisão, a

organização filtra dados dos seus vários sistemas e após criar um data warehouse,

constroem-se consultas (queries) de forma exploratória a fim de tomar decisões. Na

prática busca-se informações (mining) em uma base de dados estática, que não reflete o

momento, mas sim o contexto de horas, dias ou mesmo semanas atrás – tudo isso pode

ser chamado Business Intelligence (BI). Com stream computing, por outro lado, esse

mining ocorre em tempo real, com uma corrente contínua de dados (streaming data)

atravessando um conjunto de queries - por isso pode ser considerado um novo

paradigma.

Na Inteligência Artificial, por sua vez, destacam-se os estudos em processamento de

linguagem natural (natural-language processing), reconhecimento de padrões (pattern

recognition) e aprendizado de máquina (machine learning) que podem ajudar a extrair dos

Page 4: Big Data, Analytics e seus profissionais   uma visão geral

grandes volumes de dados (estruturados ou não-estruturados) conhecimento para auxiliar

a gestão (LOHR, 2012).

De forma a complementar as ferramentas computacionais, novos paradigmas de

gerenciadores de bancos de dados como o Cassandra (ferramenta Open Source utilizada

pelo Facebook, Twitter e Reddit), vem sendo apresentados como modelos que tratam

imensos volumes de dados com muita velocidade de forma distribuída e frameworks

como o Hadoop para dar suporte a essas aplicações. Soluções conjugando hardware e

software na modalidade in memory processing como as providas pela IBM e SAP,

Netezza Accelerator e HANA respectivamente, já estão disponíveis.

As possibilidades de aplicação desses conceitos são inúmeras, em finanças, saúde,

segurança, manufatura, etc. McAfee e Brynjolfsson (2012) conduziram estudos que

levaram à conclusão de que as empresas que efetivamente utilizam BD são 5% mais

produtivas e 6% mais lucrativas que seus competidores – na atualidade esses números

são um poderoso argumento em prol da utilização desses conceitos.

Moraes (2012), relata como a aplicação de BD ajudou na campanha de reeleição do

presidente norte-americano, Barack Obama, ajudando a orientar voluntários, indicar as

melhores formas de arrecadar fundos e apontar quem poderia ser convencido a apoiar a

reeleição do presidente. Os responsáveis pela campanha deram prioridade ao uso de BD

em detrimento da propaganda veiculada na televisão.

Os responsáveis pela campanha usaram a Amazon Web Services para armazenar e

processar o enorme volume de dados capturados. Foram adotadas ferramentas de

computação em nuvem para lidar com bancos de dados, como o Amazon DynamoDB e

Amazon RDS. Uma das principais preocupações foi permitir que a base dados fosse

trabalhada por diferentes aplicativos escritos em diversas linguagens de programação –

para isso, se desenvolveu o Narwhal, um conjunto de serviços que funcionava como

interface entre os dados e os muitos sistemas criados para a campanha.

ANALYTICS

Na atualidade, as organizações estão buscando explorar os grandes volumes de dados

(big data) que reuniram e organizaram tentando obter informações que lhes sejam úteis,

quer acerca do que vem ocorrendo, quer acerca do futuro. Essa exploração, a que se

chama Analytics, é feita com o uso de diferentes ferramentas, baseadas em análise

preditiva, mineração de dados, estatística, inteligência artificial e outras - alguns autores

Page 5: Big Data, Analytics e seus profissionais   uma visão geral

usam expressões Advanced, Discovery ou Exploratory Analytics; a partir deste ponto,

neste trabalho, vai ser utilizada a expressão BDA (Big Data Analytics)

Russom (2011) relaciona alguns dos motivos pelos quais as organizações vem utilizando

BDA; os principais deles são conseguir desenvolver social marketing mais eficiente, obter

mais e melhores insights acerca de seus negócios, segmentar base de clientes, identificar

de oportunidades de vendas, automatizar decisões em processos em tempo real,

identificar previamente clientes que tendem a deixar de se-lo (churn) e detectar fraudes.

O mesmo autor identifica barreiras para a aplicação de BDA, destacando-se entre elas os

custos envolvidos, falta de patrocínio da alta administração e problemas de escalabilidade

do hardware e software disponível na organização.

OS PROFISSIONAIS

O mesmo Russom (2011), afirma que há uma barreira ainda maior que as já citadas: a

carência de recursos humanos qualificados.

Apesar de ferramental necessário estar sendo desenvolvido, é preciso lembrar que a

utilização de BDA impõe às diversas áreas das organizações a aplicação de novas

habilidades e formas de atuar; como ocorre com muita frequência, simplesmente aportar

ao processo tecnologia no estado da arte não é suficiente, embora parte importante em

uma estratégia de utilização de BDA.

Já se percebe que não é possível encontrar essas novas habilidades em apenas um tipo

de profissional; já se pode identificar uma série de funções ligadas ao tema, como as de

Arquitetos de Dados, que definirão como os dados provenientes de diversas fontes serão

organizados; Data Visualizers, que cuidarão de temas ligados à apresentação das

informações geradas: Engenheiros de Dados, cuidando de manter a infraestrutura

necessária funcionando adequadamente; Data Stewards, os “donos” de cada fonte de

dados e outros – note-se que para diversas funções não ainda sequer um nome em

português.

Há a percepção de que o profissional mais importante para a prática de BDA é o

Cientista de Dados (Data Scientist); ainda não há uma definição precisa do que seja um

Cientista de Dados; para fins deste trabalho poderíamos citar as de Davenport e Patil

(2012), que afirmam ser este um profissional de alto nível com treinamento e curiosidade

para fazer descobertas no mundo de big data (Patil cunhou o termo em 2008, enquanto

Page 6: Big Data, Analytics e seus profissionais   uma visão geral

trabalhava para o LinkedIn). Já Granville (2014) diz que um CD é um generalista que

conhece negócios, matemática, estatística, ciência da computação e relaciona alguns

conhecimentos e capacidades específicas que o mesmo deve ter, tais como arquitetura

de dados, comunicação no ambiente empresarial e outras. Voulgaris (2014) também é

pouco preciso; diz que o CD é o profissional que trabalha com big data de forma científica,

criativa e inteligível.

Davenport et al (2012) dizem que o CD precisa ter raciocínio lógico apurado,

conhecimento profundo de estatística e software dessa área, modelagem, domínio de

sistemas computacionais e conhecimento do negócio e do mercado em que atuará; além

disso, é necessária a capacidade de comunicar seus insights a um pessoal com uma

formação não técnica, usualmente os altos executivos da organização.

Não havendo sequer uma definição precisa do que seja um Cientista de Dados, fica claro

que ainda não existe uma estrutura consagrada para a formação desses profissionais – é

preciso assumir que BDA é uma nova disciplina, que vem emergindo de um conjunto de

outras, assim como a ciência da computação emergiu da matemática na segunda metado

do século XX.

As pessoas que estão fazendo esse trabalho na atualidade tem formação acadêmica

muito diversificada, embora tenham os conhecimentos e habilidades acima mencionados

e possuam cursos de pós-graduação stricto sensu.

Começam a surgir no exterior alguns cursos de pós-graduação voltados especificamente

para a formação de profissionais para BDA; movimento similar se observa no Brasil,

especialmente na modalidade lato sensu, sendo de se acreditar que a constante menção

ao assunto na imprensa deva gerar grande interesse por esses cursos.

Ainda no exterior, algumas universidades estão alterando seus currículos para incluir BDA

em cursos de graduação, inclusive criando laboratórios onde estudantes podem analisar

dados de interesse de suas áreas específicas. Grandes empresas vêm se preocupando

com a qualificação de seus recursos humanos, movimento que também começa a se

observar em suas subsidiárias no Brasil.

À GUISA DE CONCLUSÃO

Page 7: Big Data, Analytics e seus profissionais   uma visão geral

Na medida em que o volume de dados disponível e a capacidade para armazena-los e

analisa-los aumenta exponencialmente, é de se esperar que seu uso também aumente de

forma similar.

Isso caracteriza uma ruptura, ao impactar a forma pela qual as organizações são

administradas: novas formas de planejar e tomar decisões devem surgir, a competição

deve se acirrar e profissionais para atuar nesse cenário serão necessários cada vez em

maior número.

Tem se observado que, quando ocorrem rupturas similares a essa, os mercados de

tecnologia e educação sofrem alterações, quer no sentido positivo, quando empresas e

instituições de ensino respeitáveis passam a pesquisar o assunto e a oferecer serviços

para atender às novas demandas e cursos destinados a preparar os recursos humanos

necessários, quer no sentido negativo, quando empresas e instituições de ensino menos

comprometidos com a qualidade lançam produtos e serviços de qualidade questionável.

Cabe às empresas usuárias e aos profissionais que pretendem atuar na área tentar

separar o joio do trigo, o que em nosso país, infelizmente, não acontece com a desejável

frequência.

REFERÊNCIAS

BERTOLUCCI, J. Marketing Analytics: How To Start Without Data Scientists.

InformationWeek, edição de 19.11.2012. Disponível em

http://www.informationweek.com/big-data/news/big-data-analytics/marketing-analytics-

how-to-start-without-data-scientists/240142289, Acesso em 15.05.2014.

CLIFFORD, S. Retail Frenzy: Prices on the web change hourly. The New York Times,

edição de 30.11.2012.

DAVENPORT, T. H; PATIL, D. J. Data Scientist: the sexiest job of the 21st century.

Harvard business Review, edição de outubro de 2012.

EIU – Economist Intelligence Unit. Big data - Harnessing a game-changing asset.

Londres: The Economist, 2011.

GRANVILLE, V. Developing Analytic Talent. Becoming a Data Scientist. Indianapolis:

John Wiley, 2014.

Page 8: Big Data, Analytics e seus profissionais   uma visão geral

LOHR, S. The age of Big Data. The New York Times, edição de 11.02.2012. Disponível

em: <www.nytimes.com/2012/02/12/sunday-review/big-datas-impact-in-the-

world.html?_r=1&scp=1&sq=Big%20Data&st=cse>. Acesso em 09.05.2014.

LOUKIDES, M. What Is Data Science? O’Reilly, edição digital (Kindle) disponível em

http://www.amazon.com/What-Data-Science-Mike-Loukides-

ebook/dp/B007R8BHAK/ref=sr_1_1?s=books&ie=UTF8&qid=1399984583&sr=1-

1&keywords=data+scientist, baixado em 12.05.2014.

MILLER, S. Colaborative approaches needed to close the Big Data skills gap. Journal

of Organization Design, vol. 3, nº1, 2014.

MORAES, M. Big Brother Obama. InfoExame, edição de dezembro de 2012.

RUSSOM, P. Big Data Analytics. Renton: TDWI, 2011.

SMOLAN, R; ERWITT, J. The human face of Big Data. Sausalito: Against All Odds

Productions, 2012.

TAUBE, B. Leveraging Big Data and real-time analytics to achieve situational

awareness for smart grids (white paper). Redwood City: Versant Corporation U.S.

Headquarters, 2012.

VOULGARIS, Z. Data Scientist: the definitive guide to becoming a Data Scientist.

Basking Ridge: Technics Publications.

ZIKOPOULOS, P; DE ROOS, D; PARASURAMAN, K; DEUTSCH, T; GILES, J;

CORRIGAN, D. Harness the power of Big Data- The IBM Big Data Platform.

Emeryville: McGraw-Hill Osborne Media, 2012.

VIVALDO JOSÉ BRETERNITZ, profissional originário da área de Computação, é

professor do Centro Universitário Padre Anchieta e da Universidade Presbiteriana

Mackenzie. É Doutor em Ciências pela Universidade de São Paulo, com pós-

doutoramento pela Universidade de Lisboa.

Page 9: Big Data, Analytics e seus profissionais   uma visão geral