Post on 06-Jul-2020
Como ciência de dados soluciona problemas e cria oportunidades
Diego Sanchez Gallo
Principal Consultant – Data Analytics
diego.gallo@dell.com
28/11/2019
INOVA – 2a Semana de Inovação
Agenda
Data Science – Conceitos Gerais
Prevenção de Fraudes &
Sistemas de Recomendação
Natural Language Processing &
Deep Learning
Perguntas e Respostas
Data Science – Conceitos Gerais
Fonte: https://twitter.com/theeconomist/status/860135249552003073
Data Science
Data are only useful when they are used to
answer a question
– “Can I answer it with my data?”
So, the emphasis is on Science
1. Empirical (1000s years ago)
2. Theoretical (100s years ago)
3. Computational (10s years ago)
4. “The Fourth Paradigm”: Data-Intensive
Scientific Discovery
– Jim Gray, 2009
Building the bridge between Business and Technology needs
• Fundamental: what are the targets?
• Extract the model (abstraction, just the important aspects).
Business Modeling
• “Mathematization” of Business Model.
• What are the feasible techniques?
Mathematical Modeling
Computational Modeling
• “Computabilization” of Mathematical Model.
• Matrix-like structures to gain scale and speed.
Big Data Modeling
• Definition of Big Data Architecture.
Big Data needed? Feasible?
1)
2)
3)
4)
5)
Data Science
thinking flow
Business
Hardware
The
bridge
Necessary skills
+
Communication
Essentials: Algorithms, Models, Learning
• Algorithm
• “Any well-defined computational procedure that takes some value, or set of
values, as input and produces some value, or set of values, as output.”
– Cormen, Leiserson, Rivest, Stein
• Computers are fast (but not infinitely fast), memory is cheap (but it’s not free).
Good algorithms matter.
• (Statistical) Model
• Embodies a set of assumptions concerning the generation of some sample data,
and similar data from a larger population.
• “Essentially, all models are wrong, but some are useful”
– George Box
• Machine Learning
• “A computer program is said to learn from experience E with respect to some
class of tasks T and performance measure P, if its performance at tasks in T, as
measured by P, improves with experience E.”
– Tom Mitchell
DS vs. ML vs. AI: Definitions
• Data Science (DS)
• Produces insights
• Human in the loop
• The goal is to gain a better understanding of the data
• Machine Learning (ML)
• Produces predictions (whether about the future or unobserved present variables)
• Spectrum of interpretability: data science ↔ machine learning
• Fit a model (ML) → explain why the model works (DS) (else, refine the model)
• Artificial Intelligence (AI)
• Produces actions
• Oldest among the definitions
• Autonomous agents, search algorithms, NLP, reinforcement learning, ...
Main source: http://varianceexplained.org/r/ds-ml-ai/
Types of Data Science Questions
• Descriptive analysis
– describe a set of data (description and interpretation are different steps)
• Exploratory analysis
– find relationships you didn’t know about (but correlation doesn’t imply causation)
• Inferential analysis
– use a relatively small sample of data to say something about a bigger population
• Predictive analysis
– to use the data on some objects to predict values for another object
• Causal analysis
– to find out what happens to one variable when you make another variable
change (causal relationships as average effects, but there are exceptions)
• Mechanistic analysis
– understand the exact changes in variables that lead to changes in other
variables for individual objects
Main source: http://jtleek.com/modules/01_DataScientistToolbox/03_01_typesOfQuestions
Fraudes em ATMs
• Ataques físicos
– Força bruta (explosões)
– Skimming devices (chupa-cabra)
– Pescaria de envelope
• Ataques lógicos
– Usando o computador do ATM
– Sem usar o computador do ATM
• Auto fraude
• Engenharia socialIllustrative example of explosion-based ATM attack in Brazil. Source:
https://g1.globo.com/mg/minas-gerais/noticia/2019/05/13/bandidos-
explodem-caixa-eletronico-e-destroem-farmacia-em-contagem-na-
grande-bh.ghtml
Use case
Falta de visibilidade dos ataques!
Seria viável prever ataques aos ATMs com base
nos dados existentes?
ATMs
Monitoramentoexistente
Servidores de aplicação do
Monitoramento
Logs (log4j)Monitoramento
GPDB
PHD
PHD
GPDB
OracleDados históricos (estruturados)
Cenário em 2013
Modelo Preditivo – Fraudes Lógicas Conhecidas
• Construção de modelo preditivo para detecção de fraudes lógicas:• Análise exploratória dos dados para validação do entendimento.• Treinamento de modelos supervisionados com base nas mudanças de estadodos ATMs.
Observações Antes Durante Após
ATM data hora
D10.P2.4
D10.P2.5
D100.P24.225
…
D90.P20.2
D90.P5.3
D90.P81.106
D10.P2.4
D10.P2.5
D10.P2.7
…
D90.P20.2
D90.P5.3
D90.P81.106
D10.P2.4
D10.P2.5
D10.P2.6
…
D90.P20.2
D90.P5.3
D90.P81.106
1 6/15/2015 7:40:45 0 0 0 0 0 0 1 1 0 0 0 0 0 0 0 0 0 0
1 6/15/2015 13:11:34 0 0 0 0 0 1 1 1 0 0 0 0 1 1 0 0 0 0
1 6/16/2015 13:31:31 0 0 3 0 0 0 1 1 0 0 0 0 0 0 0 0 0 0
1 6/16/2015 14:48:35 0 0 3 0 0 0 1 1 0 0 0 0 1 1 0 0 0 0
5 6/11/2015 22:03:34 0 0 0 0 0 0 1 1 0 0 0 0 0 0 0 0 0 0
5 6/13/2015 1:58:58 0 0 0 0 0 0 1 1 0 0 0 0 0 0 0 0 0 0
5 6/14/2015 8:28:36 0 0 0 0 0 0 1 1 0 0 0 0 0 0 0 0 0 0
7 6/12/2015 20:27:46 0 0 0 0 0 0 1 1 0 0 0 0 0 0 0 0 0 0
… … … …
62972 6/14/2015 10:05:40 0 0 0 0 0 0 1 1 0 0 0 0 0 0 0 0 0 0
62973 6/10/2015 15:32:44 0 0 0 0 0 0 1 1 0 0 0 0 0 0 0 0 0 0
62973 6/11/2015 21:41:34 0 0 0 0 0 0 1 1 0 0 0 0 0 0 0 0 0 0
Framework para Prevenção de Fraudes
Passo 1
Identificação do comportamento
padrão
Passo 2
Observação do comportamento
atual
Passo 3
Identificação de anomalias no
comportamento
Passo 4
Ponderação das anomalias e
geração de alertas
Estabelecimento do comportamento
padrão (baseline) de cada variável (e.g.,
sensores, transações, processos,
acionamentos, chamados, etc.) para
cada ATM.
Observação do comportamento atual, dentro de uma janela
de tempo determinada, de cada variável para
cada ATM.
Comparação entre o comportamento padrão e o comportamento atual, dentro de uma janela de
tempo, calculando a intensidade da variação no comportamento de cada variável para cada ATM.
Ponderação da intensidade de cada
anomalia identificada e geração de alertas de anomalias ordenadas
por intensidade/prioridade.
Análise de ataques explosivos: Tarefa
“Em quais pontos é mais efetivo instalar dispositivos de prevenção a
ataques com explosivos?”
Análise de ataques explosivos: Método
Prêmios
Next Best Action (NBA)
Resumo do Escopo
Analisar e sugerir planos de uso do dinheiro em momentos oportunos baseados nas transações de cash-in
e cash-out do cliente e, consequentemente, seu comportamento financeiro (fluxo de caixa).
Auxiliar os clientes no uso eficiente do dinheiro e gerar maior engajamento (propensão a aceitar) às
propostas de produtos financeiros, de acordo com o comportamento do usuário, produzindo melhores
resultados financeiros para o banco e para o cliente.
Ingestão de
Dados
Detecção de
Situações
Geração de
Recomendações
Use case
Resumo – Next Best Action (NBA)
Outras fontes*
Transações dos clientes
Dados cadastrais
tempo
$
Série-temporal do extrato
Análise de Safe-to-spend
Algoritmos para análise de cash-{in,out}
Recomendação da melhor próxima ação
Recomendação
Limite de Crédito
Perfil do Investidor
Desenho macro – Next Best Action
Detectores de Situação
Aplicações Financeiras
Adequação de Perfil de Investimento
Tratamento de Instabilidade Financeira
Zelo ao Planejamento
Facilitação e Otimização Transacional
Cross Sell
Recomendador
Atribuidor de Ações
Agrupador de
Recomendações
Filtros e
Enriquecimentos
Aprendizado por
Reforço
Ingestão de Dados
Extrato e Transações
Dados Cadastrais
Limite de Crédito
Perfil do Investidor
Cheque Especial
Logs de Navegação
Modelos auxiliares
Modelo de clusterização de clientes
Modelo de previsão de saldo dos clientes
Fluxo completo: Next Best Action
Ingestão de dados
Data Lake
Camada de Fast Data Modelos / Inteligência Analítica
IT Operations AnalyticsUse case
Planejamento eficaz de recursos
por aplicação crítica
Manutenção preditiva reduzindo o
número de incidentes
Menos alertas e avisos antecipados de
problemas encontrados por usuários
Identificação de padrões de falhas
e causas raiz das mesmas
Entrega de uma monitoração
mais eficiente
Mobilidade Urbana no Rio de Janeiro
• Caso em parceria da prefeitura do Rio de
Janeiro com a TIM.
• Desafio: Entender como cidadãos e
turistas se movimentam na cidade
durante os jogos olímpicos, para auxiliar
no planejamento de mobilidade urbana.
• Solução: Desenvolvimento de uma
solução que utiliza dados das antenas de
telefonia celular da operadora para
entender como as pessoas se
movimentam, permitindo acompanhar tal
movimentação ao longo do evento.
DATA LAKE
Related press releases:https://www.convergenciadigital.com.br/cgi/cgilua.exe/sys/start.htm?UserActiveTemplate=sit
e&UserActiveTemplate=mobile&UserActiveTemplate=site%25252525252525252Cmobile&in
foid=43031&sid=97
Use case
Natural Language Processing
& Deep Learning
Text data: mixed structure
Structured (meta)data
Semi-structured data
Unstructured data
Example tasks:
• Fast lookup of information (easy)
• Document classification (buy / sell) (average)
• Structured information extraction (hard)
Common NLP tasks• Information retrieval
– Search
– Inverted indexes
• Language modelling
– Markovian models
– Non-markovian
• (De)structuring
– Tokenization
– Sentence splitting
– Lemmatization
• Document clustering
– Probabilistic topic models
– Latent Dirichlet Allocation (LDA)
• Word representation
– Skip-grams, Continuous Bag-of-Words
• Word labeling
– Part-of-Speech tagging (POS)
– Named Entity Recognition (NER)
• Sequence to Sequence (Encoder-Attention-
Decoder architecture)
– Translation
– Question Answering
• Sentence parsing
– Shift-Reduce dependency parsing
• Natural Language Generation
• Speech
– Speech-to-Text
– Text-to-Speech
• And so on...
Example task: naïve summarization
VERB
root
objnsubj
Query:
Reverse Indexing of Recognized Named Entities
Research Reports
Index
Metadata
(source, timestamp, …)
Trading Dashboard
Annotations from: https://demos.explosion.ai/displacy-ent
“In view of this, we are holding on to
our long position entered at 123.80.”
Information extraction from sentence structure
ROOT “holding”
nsubj “we” (ACME [from metadata])
Pobj “our long position”
(sub)pobj “123.80”
When? 2017-06-27 [from metadata]
Trade Ideas
IndexExtraction Rules
Metadata
(source, timestamp, …)Tree from: https://demos.explosion.ai/displacy/
Recent AI achievements
Input
Output
Hand-designed
program
Hand-designed
features
Mapping from
features
Input
Output
(Learned)
Features
Mapping from
features
Input
Output
Simple
features
Input
Mapping from
features
More abstract
features
Output
Representation
learning
Rule-based
systems
Classic
machine
learning
Deep
learning
Shallow
learning
Based on: http://www.deeplearningbook.org
Types of machine learning approaches
co
mp
utin
g-h
un
gry d
ata
-hu
ng
ry
Deep Learning? What? Why now?
Computer Science
• Optimization, algorithm complexity, efficient data structures, ...
• Enables: Databases, Distributed Systems, Parallel Processing, ...
Artificial Intelligence
• Logic, rule-based systems, search algorithms, ...
• Enables: Heuristic search, Bio-inspired optimization, ...
Machine Learning
• Statistical learning, probabilistic models, feature engineering, ...
• Enables: Supervised, Unsupervised and Reinforcement Learning, ...
Deep Learning
• Multi-layered neural networks, representation learning, ...
• Enables: Dealing with unstructured data (vision, language), ...
Abstract
Computers
Neurosynaptic
Chips
FPUs
CPUs
TPUs
GPUs
In-memory
algorithms
Big Data
Stack
Theoretical
distributions
External
Memory
Algorithms
Math
Enabling technology
2000+ by early 2016
Stock price prediction from news articles[Herrmann, Togneri, Tozato and Lin, 2017]Use case
Stock price prediction from news articles[Herrmann, Togneri, Tozato and Lin, 2017]
Visual Question Answering
VQA is a new dataset containing open-ended
questions about images. These questions
require an understanding of vision, language
and commonsense knowledge to answer.
• 265,016 images (COCO and abstract scenes)
• At least 3 questions (5.4 questions on
average) per image
• 10 ground truth answers per question
• 3 plausible (but likely incorrect) answers per
question
• Automatic evaluation metric
Source: https://visualqa.org
Approaching VQA with with Deep Learning
Source: https://github.com/avisingh599/visual-qa
Show, Ask, Attend, and Answer
Source: https://research.google.com/pubs/pub45997.html
InterpretabilityExplainable Artificial Intelligence (XAI)
Source: https://www.darpa.mil/program/explainable-artificial-intelligence
Reconhecimento em imagens de satélite
• Desafio: Identificar as variedades de
cultivares da companhia plantadas
nas fazendas de todo o Brasil, via
imagem de satélite.
• Solução: uso de técnicas de Deep
Learning em imagens multi-
espectrais de satélite para identificar,
delimitar e classificar a variedade
existente em cada plantação.
Exemplo de imagem de satélite e ilustração do processamento.
Use case
xkcd.com/1838