Como big data e business analytics podem mudar o rumo do seu ...
Big Data, Analytics e seus profissionais uma visão geral
Click here to load reader
-
Upload
vivaldo-jose-breternitz -
Category
Technology
-
view
167 -
download
3
description
Transcript of Big Data, Analytics e seus profissionais uma visão geral
BIG DATA, ANALYTICS E SEUS PROFISSIONAIS – UMA VISÃO GERAL
VIVALDO JOSÉ BRETERNITZ Profissional originário da área de Computação é professor da Faculdade de Computação e Informática da Universidade Presbiteriana Mackenzie. É doutor em Ciências pela Universidade de São Paulo, com pós-doutoramento pela Universidade de Lisboa
INTRODUÇÃO
A forma de atuação das organizações vem sendo moldada pela disponibilidade de dados.
A velocidade e o volume com que estes vem sendo criados é alucinante: Smolan e Erwitt
(2012) afirmam que até 2003 a humanidade havia gerado 5 exabytes, e que em 2013,
bastavam dez minutos para que esse volume fosse criado.
isso contribuiu para que fosse cunhado o termo Big Data (BD), hoje utilizado de forma
genérica para descrever o crescimento, a disponibilidade e o uso exponencial de
informações estruturadas e não estruturadas.
Em 2011, o periódico The Economist entrevistou executivos de grandes organizações em
sua primeira pesquisa sobre o tema Big Data (EIU, 2011). Apurou que a metade deles
acreditava que os dados eram um importante ativo para suas organizações; 10%
afirmaram que a disponibilidade de dados havia alterado completamente a forma como
suas organizações planejavam e operavam.
Mas a pesquisa apurou também que as organizações ainda tinham dificuldades com
alguns aspectos básicos relacionados à captura e administração de dados e à sua efetiva
exploração, dentre eles, a falta de pessoal adequadamente preparado, especialmente
aqueles que o mercado vem chamando Cientistas de Dados (CD) – esses profissionais
com esse perfil são muito raros e sua formação demanda muito tempo, o que torna sua
utilização cara – Bertolucci (2012), citando pesquisas da consultoria McKinsey, diz que
apenas nos Estados Unidos faltarão em 2018 aproximadamente 190.000 desses
profissionais
Dado esse cenário, elaborou-se este ensaio que tem como objetivo apresentar uma visão
geral acerca de Big Data, de Analytics (uma de suas áreas mais importantes), e dos
profissionais envolvidos, pretendendo fornecer subsídios àqueles que se envolverão com
o assunto.
O ensaio foi produzido a partir de pesquisa bibliográfica e da experiência profissional e
acadêmica de seu autor, que no meio acadêmico vem se dedicando à pesquisa do
assunto e à formação de pessoal que atuará na área.
BIG DATA
Alguns autores, como Zikipoulos et al (2012) dizem que Big Data se caracteriza por
quatro aspectos: volume, velocidade, variedade e veracidade.
O aspecto volume refere-se ao fato de que a quantidade de dados disponível em forma
digital cresce de maneira exponencial, provenientes não só de sistemas convencionais,
mas também de fontes como Facebook, Tweeter, You Tube, RFID, eletrônica embarcada,
telefones celulares e assemelhados, sensores de diversos tipos, etc.
Além do volume total citado anteriormente, McAfee e Brynjolfsson (2012) diziam que
naquele ano, a cada segundo, mais dados transitavam pela internet do que o total
armazenado na mesma 20 anos antes e que apenas o Walmart coletava mais de 2,5
petabytes a cada hora, derivados das transações efetuadas por seus clientes; cabe
lembrar que um petabyte é um quatrilhão de bytes e um exabyte é esse número
multiplicado por mil, ou um bilhão de gigabytes.
Cabe lembrar o que disse Loukides (2012): como a capacidade de armazenar e processar
dados deve continuar crescendo, o que é big hoje amanha será medium e na próxima
semana small, no sentido de que novas técnicas, ferramentas e habilidades serão
necessárias para tratar o assunto.
Os mesmos autores apresentam outro aspecto relevante de Big Data: a velocidade em
que dados podem ser capturados e processados, praticamente em tempo real, podendo
dar a uma organização vantagem competitiva. Exemplificam essa afirmação relatando
experimento conduzido pelo grupo de pesquisa do Prof. Alex Pentland, do MIT Media Lab:
o grupo capturou dados relativos à localização de celulares de forma a inferir quantas
pessoas colocaram seus carros nos estacionamentos de lojas do grupo americano Macy’s
no Black Friday de 2011 (data que marca o inicio da temporada de compras de Natal nos
Estados Unidos); isso permitiu estimar com precisão as vendas dessas lojas antes
mesmo que elas ocorressem, gerando vantagens competitivas às áreas comerciais e de
marketing e a terceiros, como investidores em bolsas de valores. Esse caso e outros
similares são relatados por Clifford (2012).
No que se refere à variedade, cabe registrar que além de fontes diferentes, tais dados
tem, frequentemente, características que fogem das tratadas pelos sistemas de
informação convencionais, não sendo estruturados e referindo-se a coisas como
movimento, temperatura, umidade e até mesmo variações na composição química do ar
(LOHR, 2012).
O aspecto veracidade está relacionado ao fato de que os dados não são “perfeitos”, no
sentido de que é preciso considerar o quão bons eles devem ser para que gerem
informações úteis e também os custos para torná-los bons.
Alguns autores consideram um quinto aspecto, a validade dos dados, ou seja, sua vida
útil, o tempo em que os mesmos precisam ser mantidos (TAUBE, 2012). Esses aspectos
são coletivamente chamados 4V ou 5V.
As ferramentas computacionais, por outro lado, vem acompanhando o crescimento dessa
velocidade e do volume de dados, em termos de capacidade de armazenamento e
processamento. Destacam-se nesse assunto as pesquisas em corrente contínua de
dados (stream computing) e em técnicas de inteligência artificial.
No modelo convencional de armazenamento de dados e tomada de decisão, a
organização filtra dados dos seus vários sistemas e após criar um data warehouse,
constroem-se consultas (queries) de forma exploratória a fim de tomar decisões. Na
prática busca-se informações (mining) em uma base de dados estática, que não reflete o
momento, mas sim o contexto de horas, dias ou mesmo semanas atrás – tudo isso pode
ser chamado Business Intelligence (BI). Com stream computing, por outro lado, esse
mining ocorre em tempo real, com uma corrente contínua de dados (streaming data)
atravessando um conjunto de queries - por isso pode ser considerado um novo
paradigma.
Na Inteligência Artificial, por sua vez, destacam-se os estudos em processamento de
linguagem natural (natural-language processing), reconhecimento de padrões (pattern
recognition) e aprendizado de máquina (machine learning) que podem ajudar a extrair dos
grandes volumes de dados (estruturados ou não-estruturados) conhecimento para auxiliar
a gestão (LOHR, 2012).
De forma a complementar as ferramentas computacionais, novos paradigmas de
gerenciadores de bancos de dados como o Cassandra (ferramenta Open Source utilizada
pelo Facebook, Twitter e Reddit), vem sendo apresentados como modelos que tratam
imensos volumes de dados com muita velocidade de forma distribuída e frameworks
como o Hadoop para dar suporte a essas aplicações. Soluções conjugando hardware e
software na modalidade in memory processing como as providas pela IBM e SAP,
Netezza Accelerator e HANA respectivamente, já estão disponíveis.
As possibilidades de aplicação desses conceitos são inúmeras, em finanças, saúde,
segurança, manufatura, etc. McAfee e Brynjolfsson (2012) conduziram estudos que
levaram à conclusão de que as empresas que efetivamente utilizam BD são 5% mais
produtivas e 6% mais lucrativas que seus competidores – na atualidade esses números
são um poderoso argumento em prol da utilização desses conceitos.
Moraes (2012), relata como a aplicação de BD ajudou na campanha de reeleição do
presidente norte-americano, Barack Obama, ajudando a orientar voluntários, indicar as
melhores formas de arrecadar fundos e apontar quem poderia ser convencido a apoiar a
reeleição do presidente. Os responsáveis pela campanha deram prioridade ao uso de BD
em detrimento da propaganda veiculada na televisão.
Os responsáveis pela campanha usaram a Amazon Web Services para armazenar e
processar o enorme volume de dados capturados. Foram adotadas ferramentas de
computação em nuvem para lidar com bancos de dados, como o Amazon DynamoDB e
Amazon RDS. Uma das principais preocupações foi permitir que a base dados fosse
trabalhada por diferentes aplicativos escritos em diversas linguagens de programação –
para isso, se desenvolveu o Narwhal, um conjunto de serviços que funcionava como
interface entre os dados e os muitos sistemas criados para a campanha.
ANALYTICS
Na atualidade, as organizações estão buscando explorar os grandes volumes de dados
(big data) que reuniram e organizaram tentando obter informações que lhes sejam úteis,
quer acerca do que vem ocorrendo, quer acerca do futuro. Essa exploração, a que se
chama Analytics, é feita com o uso de diferentes ferramentas, baseadas em análise
preditiva, mineração de dados, estatística, inteligência artificial e outras - alguns autores
usam expressões Advanced, Discovery ou Exploratory Analytics; a partir deste ponto,
neste trabalho, vai ser utilizada a expressão BDA (Big Data Analytics)
Russom (2011) relaciona alguns dos motivos pelos quais as organizações vem utilizando
BDA; os principais deles são conseguir desenvolver social marketing mais eficiente, obter
mais e melhores insights acerca de seus negócios, segmentar base de clientes, identificar
de oportunidades de vendas, automatizar decisões em processos em tempo real,
identificar previamente clientes que tendem a deixar de se-lo (churn) e detectar fraudes.
O mesmo autor identifica barreiras para a aplicação de BDA, destacando-se entre elas os
custos envolvidos, falta de patrocínio da alta administração e problemas de escalabilidade
do hardware e software disponível na organização.
OS PROFISSIONAIS
O mesmo Russom (2011), afirma que há uma barreira ainda maior que as já citadas: a
carência de recursos humanos qualificados.
Apesar de ferramental necessário estar sendo desenvolvido, é preciso lembrar que a
utilização de BDA impõe às diversas áreas das organizações a aplicação de novas
habilidades e formas de atuar; como ocorre com muita frequência, simplesmente aportar
ao processo tecnologia no estado da arte não é suficiente, embora parte importante em
uma estratégia de utilização de BDA.
Já se percebe que não é possível encontrar essas novas habilidades em apenas um tipo
de profissional; já se pode identificar uma série de funções ligadas ao tema, como as de
Arquitetos de Dados, que definirão como os dados provenientes de diversas fontes serão
organizados; Data Visualizers, que cuidarão de temas ligados à apresentação das
informações geradas: Engenheiros de Dados, cuidando de manter a infraestrutura
necessária funcionando adequadamente; Data Stewards, os “donos” de cada fonte de
dados e outros – note-se que para diversas funções não ainda sequer um nome em
português.
Há a percepção de que o profissional mais importante para a prática de BDA é o
Cientista de Dados (Data Scientist); ainda não há uma definição precisa do que seja um
Cientista de Dados; para fins deste trabalho poderíamos citar as de Davenport e Patil
(2012), que afirmam ser este um profissional de alto nível com treinamento e curiosidade
para fazer descobertas no mundo de big data (Patil cunhou o termo em 2008, enquanto
trabalhava para o LinkedIn). Já Granville (2014) diz que um CD é um generalista que
conhece negócios, matemática, estatística, ciência da computação e relaciona alguns
conhecimentos e capacidades específicas que o mesmo deve ter, tais como arquitetura
de dados, comunicação no ambiente empresarial e outras. Voulgaris (2014) também é
pouco preciso; diz que o CD é o profissional que trabalha com big data de forma científica,
criativa e inteligível.
Davenport et al (2012) dizem que o CD precisa ter raciocínio lógico apurado,
conhecimento profundo de estatística e software dessa área, modelagem, domínio de
sistemas computacionais e conhecimento do negócio e do mercado em que atuará; além
disso, é necessária a capacidade de comunicar seus insights a um pessoal com uma
formação não técnica, usualmente os altos executivos da organização.
Não havendo sequer uma definição precisa do que seja um Cientista de Dados, fica claro
que ainda não existe uma estrutura consagrada para a formação desses profissionais – é
preciso assumir que BDA é uma nova disciplina, que vem emergindo de um conjunto de
outras, assim como a ciência da computação emergiu da matemática na segunda metado
do século XX.
As pessoas que estão fazendo esse trabalho na atualidade tem formação acadêmica
muito diversificada, embora tenham os conhecimentos e habilidades acima mencionados
e possuam cursos de pós-graduação stricto sensu.
Começam a surgir no exterior alguns cursos de pós-graduação voltados especificamente
para a formação de profissionais para BDA; movimento similar se observa no Brasil,
especialmente na modalidade lato sensu, sendo de se acreditar que a constante menção
ao assunto na imprensa deva gerar grande interesse por esses cursos.
Ainda no exterior, algumas universidades estão alterando seus currículos para incluir BDA
em cursos de graduação, inclusive criando laboratórios onde estudantes podem analisar
dados de interesse de suas áreas específicas. Grandes empresas vêm se preocupando
com a qualificação de seus recursos humanos, movimento que também começa a se
observar em suas subsidiárias no Brasil.
À GUISA DE CONCLUSÃO
Na medida em que o volume de dados disponível e a capacidade para armazena-los e
analisa-los aumenta exponencialmente, é de se esperar que seu uso também aumente de
forma similar.
Isso caracteriza uma ruptura, ao impactar a forma pela qual as organizações são
administradas: novas formas de planejar e tomar decisões devem surgir, a competição
deve se acirrar e profissionais para atuar nesse cenário serão necessários cada vez em
maior número.
Tem se observado que, quando ocorrem rupturas similares a essa, os mercados de
tecnologia e educação sofrem alterações, quer no sentido positivo, quando empresas e
instituições de ensino respeitáveis passam a pesquisar o assunto e a oferecer serviços
para atender às novas demandas e cursos destinados a preparar os recursos humanos
necessários, quer no sentido negativo, quando empresas e instituições de ensino menos
comprometidos com a qualidade lançam produtos e serviços de qualidade questionável.
Cabe às empresas usuárias e aos profissionais que pretendem atuar na área tentar
separar o joio do trigo, o que em nosso país, infelizmente, não acontece com a desejável
frequência.
REFERÊNCIAS
BERTOLUCCI, J. Marketing Analytics: How To Start Without Data Scientists.
InformationWeek, edição de 19.11.2012. Disponível em
http://www.informationweek.com/big-data/news/big-data-analytics/marketing-analytics-
how-to-start-without-data-scientists/240142289, Acesso em 15.05.2014.
CLIFFORD, S. Retail Frenzy: Prices on the web change hourly. The New York Times,
edição de 30.11.2012.
DAVENPORT, T. H; PATIL, D. J. Data Scientist: the sexiest job of the 21st century.
Harvard business Review, edição de outubro de 2012.
EIU – Economist Intelligence Unit. Big data - Harnessing a game-changing asset.
Londres: The Economist, 2011.
GRANVILLE, V. Developing Analytic Talent. Becoming a Data Scientist. Indianapolis:
John Wiley, 2014.
LOHR, S. The age of Big Data. The New York Times, edição de 11.02.2012. Disponível
em: <www.nytimes.com/2012/02/12/sunday-review/big-datas-impact-in-the-
world.html?_r=1&scp=1&sq=Big%20Data&st=cse>. Acesso em 09.05.2014.
LOUKIDES, M. What Is Data Science? O’Reilly, edição digital (Kindle) disponível em
http://www.amazon.com/What-Data-Science-Mike-Loukides-
ebook/dp/B007R8BHAK/ref=sr_1_1?s=books&ie=UTF8&qid=1399984583&sr=1-
1&keywords=data+scientist, baixado em 12.05.2014.
MILLER, S. Colaborative approaches needed to close the Big Data skills gap. Journal
of Organization Design, vol. 3, nº1, 2014.
MORAES, M. Big Brother Obama. InfoExame, edição de dezembro de 2012.
RUSSOM, P. Big Data Analytics. Renton: TDWI, 2011.
SMOLAN, R; ERWITT, J. The human face of Big Data. Sausalito: Against All Odds
Productions, 2012.
TAUBE, B. Leveraging Big Data and real-time analytics to achieve situational
awareness for smart grids (white paper). Redwood City: Versant Corporation U.S.
Headquarters, 2012.
VOULGARIS, Z. Data Scientist: the definitive guide to becoming a Data Scientist.
Basking Ridge: Technics Publications.
ZIKOPOULOS, P; DE ROOS, D; PARASURAMAN, K; DEUTSCH, T; GILES, J;
CORRIGAN, D. Harness the power of Big Data- The IBM Big Data Platform.
Emeryville: McGraw-Hill Osborne Media, 2012.
VIVALDO JOSÉ BRETERNITZ, profissional originário da área de Computação, é
professor do Centro Universitário Padre Anchieta e da Universidade Presbiteriana
Mackenzie. É Doutor em Ciências pela Universidade de São Paulo, com pós-
doutoramento pela Universidade de Lisboa.