Inteligência nos Negócios (Business Inteligente)€¦ · Os dados estão em todos os lugares.Os...

Inteligência nos Negócios (Business Inteligente)

Sistemas de Informação – Sistemas de Apoio a Decisão

Aran Bey Tcholakian Morales, Dr. Eng.

(Apostila 5)

Dados ( OLTP e outras fontes)

Data Warehouse/ Data Marts

Ferramentas OLAP

Mineração de dados - KDD

Interpretação/

Avaliação

Decisões

Analise

de dados

Analises dos

tomadores de

decisão

Fundamentação da disciplina

Informação

Conhecimento

Análises Exploratória de Dados

Os dados estão em todos os lugares . Os sistemas de informação

melhoraram a capacidade de coletar dados em toda a empresa.

Ao mesmo tempo, as empresas passam a recolher dados de seus

clientes, gerados quando navegam na internet, colocam posts nas

redes sociais e nos blogs e de eventos externos, tais como

tendências de mercado, notícias do setor e movimentos dos

concorrentes.

Análises de dados: Conceitos

Por outro lado, os analista de negócios tem perguntas que gostariam

de responder, por exemplo:

Qual foi o retorno de uma campanha publicitária?

Que clientes devem ter uma atenção especial, uma vez que podem

considerar “deixar de utilizar” os nossos serviços ?

É um determinado cliente confiável a se qualificar para um

empréstimo?

Nem sempre é fácil de obter respostas a perguntas.

Em tais situações, vale a pena recorrer aos dados, que podem

esconder informações valiosas para auxiliar no processo decisório,

( as empresas podem coletar dados, internos e externos, com esta

finalidade).

Por exemplo, se sabemos que os clientes deixaram de usar nossos

produtos no passado, podemos construir um modelo analítico

(baseado nos dados) que descreve os padrões, o comportamento e

as características desses clientes.

Análises de dados é:

• o processo de obtenção, transformação, análise e validação de

dados para responder a uma pergunta (geralmente de negócio)

que se traduz em ações (decisões);

• o conjunto de habilidades e técnicas necessárias para encontrar,

armazenar, processar e desenhar insights baseados em dados;

• a habilidade de combinar as capacidades analíticas de um

cientista e um engenheiro com a visão de negócios do um

executivo empresarial;

Comparação com outras disciplinas analíticas

• A mineração de dados : Esta disciplina é sobre a criação de

algoritmos para extrair insights de dados. Tem alguma intersecção

com a estatística, e é um subconjunto da análises de dados.

• Aprendizado de máquina : Disciplina de ciência da computação,

parte da análises de dados e intimamente relacionado com a

mineração de dados. Aprendizagem de máquina é sobre a criação

de algoritmos (como a mineração de dados) para resolver

problemas da ciência da computação.

Podemos definir a relação entre o aprendizado de máquina e

mineração de dados da seguinte forma:

A mineração de dados é parte do processo KDD, durante o qual os

algoritmos de aprendizado de máquina são utilizados como

ferramentas para extrair padrões potencialmente valiosos realizada

dentro de conjuntos de dados e onde a IA é a motivação (teórica e

pratica) para a criação de algoritmos.

Mineração de dados é uma etapa do processo KDD:

“KDD é o processo não trivial interativo e iterativo, para

identificação, a partir de dados, de padrões compreensíveis, que

sejam válidos, novos, potencialmente úteis a partir de grandes

conjuntos de dados.” [Fayyad, 1996]

“KDD é o processo, não trivial, de extração de informações,

implícitas, previamente desconhecidas e potencialmente úteis, a

partir dos dados armazenados em um BD.” [Frawley, Piatetsky-Shapiro & Matheus, 1991]

12Equipe técnica que desenvolve e

oferece suporte ao BIAnalistas de negócio

As principais etapas do processo podem ser:

1. Entendimento do negócio;

2. Coleta e pré-processamento de dados;

3. Modelos de análises (modelos analíticos);

4. Validação dos resultados obtidos com os modelos analíticos;

5. Tomada de decisão;

Análises de dados: O Processo

• Etapa 1: entendimento do negócio:

Consiste, além de entender o assunto de negócio em questão, definir

o problema a ser tratado e as possíveis hipóteses que podem dar

indícios as respostas esperadas do problema levantado;

Nesta fase, o conhecimento, experiência, senso comum, vivencia e

criatividade humana dos analistas sobre o assunto de negócio é

essencial para a realização das perguntas necessárias e pertinentes,

assim como para a formulação das hipóteses que forneçam

sustentação as perguntas de negócio.

• Etapa 1: Entendimento do negócio:

O objetivo procurado, não emerge de forma isolada; ele é

desenvolvido encima de um assunto existente e informações

contextuais conhecidas, inicia com uma necessidade de análise, uma

pergunta de negócio que se traduz em objetivo analítico.

• Etapa 1: Entendimento do negócio:

Devemos ter uma ideia das perguntas de negócio que queremos

responder para ter mais claro o objetivo analítico e o estado final da

análise que pretendemos.

As perguntas nos levam ao levantamento de hipóteses que podem

ser respondidas com o auxílio dos dados.

Exemplo:

Os cientistas de dados do BigMart tem dados de 2013 sobre vendas

de 1559 produtos em 10 lojas de cidades diferentes.

O BigMart pretende compreender as propriedades dos produtos e

estabelecimentos, que desempenham um papel chave nas vendas.

O problema pode ser planteado como:

É possível estimar as vendas de cada produto em cada uma de

nossas lojas?

O objetivo é construir um modelo preditivo das vendas de cada

produto para loja em particular. 17

Hipóteses a nível de loja:• Tipo da cidade: lojas localizadas em cidades urbanas devem ter vendas mais

elevadas por causa dos níveis de rendimento mais elevados de pessoas;

• Densidade populacional: lojas localizadas em áreas densamente povoadas devem ter vendas mais elevadas por causa da maior demanda;

• Capacidade da loja: lojas (stores) muito grandes devem ter vendas maiores;

• Concorrentes: Lojas tendo estabelecimentos semelhantes nas proximidades, deve ter menos vendas por causa de uma maior concorrência;

• Marketing: lojas que têm uma boa divisão de marketing devem ter vendas maiores, pois devem ser capazes de atrair clientes pela publicidade;

• Localização: lojas localizadas dentro de mercados populares deve ter vendas mais elevadas por causa de um melhor acesso aos clientes;

Hipóteses a nível do produto:

• Marca: produtos de marcas conhecidas devem ter vendas mais elevadas devido à maior confiança no cliente;

• Embalagem: Os produtos com boa embalagem podem atrair clientes e vender mais;

• Utilidade: produtos de uso diário devem ter uma maior tendência para vender em comparação com os produtos de uso específicos;

• Área de exibição: os produtos que estão disponíveis em prateleiras de fácil acesso na loja são susceptíveis em chamar mais a atenção e vender mais;

• Visibilidade na loja: A localização do produto em uma loja terá impacto sobre as vendas. Aqueles que são à direita na entrada vai chamar a atenção de clientes em primeiro lugar, em vez de os de volta.

• Publicidade: Melhor publicidade de um determinado produtos na loja, a tendência é vendar mais;

• Ofertas promocionais: os produtos acompanhados com ofertas atraentes e descontos vai vender mais.

Etapa 2: Coleta e Preparação de dados (pré-processamento):

Concentra-se no entendimento e na obtenção de dados que você

precisa. Isto significa preparar os dados para atender às suas

necessidades analíticas.

Temos dados disponíveis e confiáveis para responder o objetivo

analítico?

A qualidade de suas entradas vão decidir a qualidade da saída.

Etapa 2: Coleta e Preparação de dados (pré-processamento):

Uma vez definida a hipótese de negócios, faz sentido gastar tempo

e esforços na, exploração, limpeza e preparação dos dados (70% do

tempo total do projeto está no pré-processamento de dados).

O primeiro passo da etapa de pré-processamento consiste na

identificação das variáveis (seleção dos dados).

O conhecimento sobre o domínio auxilia determinando os valores

válidos, os atributos ou informações para construção de novos

atributos.

A seleção, implica muitas vezes na extração de diferentes fontes de

dados e na integração de tais dados, com o objetivo de obter uma

única fonte de dados.

Na extração e integração, é efetuada a limpeza e transformação dos

dados.

Etapa 3: Modelos analíticos:

Esta é a atividade onde devemos identificar a técnica analítica que

vai produzir os resultados esperados, que nos leva as possíveis ações

que podem ser tomadas para atingir o objetivo esperado.

O conjunto de possíveis técnicas analíticas é grande, vasto e difícil de

compreender, os objetivos e caraterísticas do problema apontam

para as técnicas mais adequadas.

O processo de construir um modelo para representar um conjunto

de dados é comum para todos os modelos analíticos.

O que não é comum é a maneira no qual os modelos são construídos,

utilizando diferentes alternativas.

O objetivo da construção de modelos, é organizar e resumir os dados

para facilitar a interpretação e a descoberta de padrões, tendências

e relações interessantes entre dados e fornecer subsídios para auxiliar

nos processos de gestão e de decisão da organização.

Segundo o objetivo definido, podemos definir os modelos analíticos

descritivas (o que aconteceu?);

descoberta (por que isso aconteceu?);

preditivas (que vai acontecer?);

prescritivas (como podemos fazer para isso acontecer?);

Descritivo: o objetivo da análise descritiva é resumir o que

aconteceu. Os dados brutos são resumidos, através de funções

básicas de análise, como funções agregadas dos bancos de dados tais

como a contagem, somas, médias. As técnicas OLAP e de exploração

de dados se enquadram neste modelo.

Mais do 70% das análises de negócio são descritivas.

Por exemplo: Como os meus clientes estão distribuídos no que diz

respeito à localização (geografia)?

Qual é o número de post, de seguidores, elogios e page views de uma

página no facebook? 28

Análises de dados: Modelos Analíticos

Descoberta: é um olhar sobre o desempenho passado para

determinar o que aconteceu e por quê.

Identifica relações ocultas ou padrões entre os dados.

Por exemplo:

Há grupos dentro meus clientes que compram de forma semelhante?

Clientes que compram tv a cabo compram internet banda larga?

Que clientes devem ter uma atenção especial, uma vez que podem

considerar “deixar de utilizar” os nossos serviços ?

Análises de dados: Modelos Análiticos

Preditiva: utiliza observações passadas para prever futuras

observações, isto é, construí uma análise dos cenários prováveis do

que poderia acontecer.

Por exemplo: Podemos prever quais os produtos que determinados

grupos de clientes são mais propensos a comprar?

Análises de dados: Modelos Análiticos

Prescritiva: este tipo de análise não só prevê um possível futuro,

prevê vários futuros com base nas ações que podem ser tomadas.

Um modelo prescritivo é, por definição, também preditivo.

Este tipo de modelo é muito pouco utilizado (menos de 1% dos

modelos são prescritivos).

Construir um modelo prescritivo significa, não apenas utilizar os

dados existentes, mas também os dados de ação e de feedback

para orientar o tomador de decisão a um resultado desejado.

Por exemplo: Podemos saber que produtos vão maximizar a nossa

receita? 31

Análises de dados: Modelos de Análises

Etapa 4: Validação do modelo e dos resultados:

Queremos que o modelo generalize ou aprenda a relação entre as

variáveis escolhidas para responder aos objetivos traçados ,

confirmando ou rejeitando as hipóteses levantadas.

Para avaliar esta relação, é utilizado um conjunto de dados, que não

foi anteriormente utilizado na construção do modelo (dados de treino

e dados de teste).

Desta forma teremos o que chamamos erro do modelo, e saberemos

se devemos voltar as etapas anteriores ou os resultados obtidos são

satisfatórios.32

Análise Exploratória de Dados (AED)

AED consiste em ORGANIZAR e RESUMIR os dados coletados por

meio de tabelas, gráficos ou medidas numéricas (técnicas de

estatística descritiva e de visualização) e, a partir dos dados

resumidos, procurar identificar padrões, comportamentos, relações

e dependências.

O objetivo final é tornar mais clara a descrição dos dados a fim de

ajudar o analista a desenvolver algumas hipóteses sobre o problema

em questão e permitir a construção de modelos apropriados para

tais dados, isto é auxiliar na INTERPRETAÇÃO dos dados.

1. Folha 11 – exercício 1:

Configure o repositório de dados e

Crie novo processo

ProcessoPropriedades

do Operador

Operadores

Executar processo Visões

Folha 11 – Exercício 1

Execução e do processo

Ícone “estatísticas”: apresenta medidas estatísticas básicas das

variáveis

Clicando em uma variável apresenta os histograma

Clicando sobre o gráfico, ampliamos o histograma

Trocando o tipo de gráfico para “Scatter” e configurando os eixos,

podemos observar as diferenças entre os tipos de flores Iris.

Trocando o tipo de gráfico para “Scatter 3D” e configurando os eixos,

podemos observar as diferenças entre os tipos de flores Iris.

No tipo de gráfico para “Quartile”, podemos observar os outliers.

No tipo de gráfico para “Quartile Color”, podemos observar os

outliers para cada variável referente a cada tipo de Iris.

No tipo de gráfico para “Scatter matrix”, podemos observar a

dispersão de todas as variáveis 2 a 2.

Folha 2: Exercício 2: Escolher e configurar o componente “Read CSV”.

Escolher o componente “Replace Missing Valeus”.

Configurando o componente “Replace Missing Valeus”.

Comparando os dados originais e depois da aplicação do componente

“Replace Missing Valeus”.

Configurando o componente “Replace”.

Para desenvolver os diferentes tipos de modelos de análises, temos

um conjunto de tarefas, técnicas e algoritmos.

As 3 tarefas principais são: associação, classificação e agrupamentos.

Cada uma das diferentes tarefas tem diferentes técnicas de análises e

as estas um conjunto de algoritmos que podem ser utilizados.

As tarefas, técnicas e algoritmos, podem ser aplicados a todos os

modelos analíticos (descrição, descoberta, preditivos e prescritivos).

Modelos Analíticos

Tarefa: Associação

• Associar os itens de vendas de um supermercado

– Tarefa T: associar os itens que são vendidos em uma mesma venda;

– Dados de Treinamento E: uma base de dados com os dados dos itens vendidos na mesma venda;

– Medida de Desempenho P: frequência que as associações acontecem;

Visa descobrir associações importantes entre os itens (k-itemsets),tal que, a presença de um item em uma determinada transação iráimplicar na presença de outro item na mesma transação.

Cada registro corresponde a uma transação, com itens assumindovalores binários (sim/não), indicando se o cliente comprou ou não orespectivo item.

Uma regra de associação é uma implicação na forma X Y, epossui dois parâmetros básicos: um suporte e uma confiança;

Técnica: Regras de Associação

A função do Suporte é determinar a freqüência (contagem ou emporcentagem) que ocorre um itemset entre todas as transações daBase de Dados.

A confiança mede a força da regra e determina a sua validade, istoé, quantifica a frequência do antecedente implicando oconsequente.

A confiança e suporte são utilizadas como filtro para gerar menosregras.

Id Leite Café Cerveja Pão Manteiga Arroz Feijão

1 N S N S S N N

2 S N S S S N N

3 N S N S S N N

4 S S N S S N N

5 N N S N N N N

6 N N N N S N N

7 N N N S N N N

8 N N N N N N S

9 N N N N N S S

10 N N N N N S N

Leite S = 0.2; Pão S=0.5Café e Pão S= 0.3 Se (Café) Então (Pão) C = 1.0 (S(Café e Pão)/S(Café)

Pão e Manteiga S = 0.4 Se (Pão) Então (Manteiga) C = 0.8Se (Manteiga) Então (Pão) C = 0.8

Café, Pão e Manteiga S = 0.3 Se (Café e Pão) Então Manteiga C = 1.0Se (Café) Então (Pão e Manteiga) C =1.0

Fases do algoritmo apriori:

1. Geração dos conjuntos candidatos, com suporte acima do mínimo

estabelecido;

2. Geração da regras de associação dos conjuntos candidatos gerados

no passo anterior com confiança superior ao mínimo estabelecido;

TID Items

100 A, C, D

200 B, C, E

300 A, B, C, E

400 B, E

Base de dados

Itemsets So

{A, C} 2

{B, C} 2

{B, E} 3

{C, E} 2

Itemsets So

L2Itemsets So

{A, B} 1

{A, C} 2

{A, E} 1

{B, C} 2

{B, E} 3

{C, E} 2

Itemsets So

{A, B, C} 1

{A, B, E} 1

{A, C, E} 1

{B, C, E} 2

Itemsets So

{B, C, E} 2

Algoritmo Apriori Suporte mínimo = 2

Itemsets So

{ Null } 2

FIM (Fase I)

Itemsets So

Regras geradas com L2 (para s >= 50% e c >= 60%)

Se A Então C ( s = 50%, c = 100%)

Se C Então A ( s = 50%, c = 66.7%)

Se B Então C ( s = 50%, c = 66.7%)

Se C Então B ( s = 50%, c = 66.7%)

Se B Então E ( s = 75%, c = 100%)

Se E Então B ( s = 75%, c = 100%)

Se C Então E ( s = 50%, c = 66.7%)

Se E Então C ( s = 50%, c = 66.7%)

Algoritmo Apriori

Regras geradas com L3 (para s >= 50% e c >= 60%)

Se B e C Então E ( s = 50%, c = 100%)

Se B e E Então C ( s = 50%, c = 66.7%)

Se C e E Então B ( s = 50%, c = 100%)

Se B Então C e E ( s = 50%, c = 66.7%)

Se C Então B e E ( s = 50%, c = 66.7%)

Se E Então B e C ( s = 50%, c = 66.7%)

Algoritmo Apriori

Folha 11 – Exercício 4

1. Leitura dos dados do problema: Import / Data

2. Escolher o componente Read (segundo o formato dos dados), e configurar os parâmetros (para aparecer mais parâmetros clique no ícone )

Algoritmo Apriori

4. Escolher o algoritmo de mineração: Modeling/Association and Item Set Mining

5. Escolher o componente FT-Growth e configurar o suporte

Algoritmo Apriori

6. Conectar as duas saídas do componente FT-Growth com as saídas do processo.

7. Salvar o arquivo, executar e verificar as saídas.

Algoritmo Apriori

8. Escolher o componente Create Association Rules e configurar o parâmetro confiança.

Algoritmo Apriori

9. Visualizar a saída das regras de associação.

Algoritmo Apriori

Folha 11 – exercício 5. Processo final.

Algoritmo Apriori

Folha 11 – exercício 5. Processo final e configuração do componente “Numerical to Binomial”.

Algoritmo Apriori

Algoritmo AprioriFolha 11 – exercício 5. Resultados

Dados ( OLTP e outras fontes)

Data Warehouse/ Data Marts

Ferramentas OLAP

Mineração de dados - KDD

Interpretação/

Avaliação

Decisões

Analise

de dados

Analises dos

tomadores de

decisão

Fundamentação da disciplina

Informação

Conhecimento

Análises Exploratória de Dados

Inteligência nos Negócios (Business Inteligente)€¦ · Os dados estão em todos os lugares.Os...

Documents

Transcript of Inteligência nos Negócios (Business Inteligente)€¦ · Os dados estão em todos os lugares.Os...

Tecnologias de Análise de Dados - IIA Brasil · A análise de dados, como usada pelos auditores internos, é o processo de identificar, coletar, validar e interpretar diversas formas

Riscos cibernéticos nas indústrias de manufatura e automotoras · Cobertura de ativos de informação: custos para recriar, restaurar, reparametrizar ou coletar novamente dados

Estudando estatística e conhecendo um pouco de … · censos visando coletar dados a respeito da economia dos seus reinos. O primeiro censo populacional incluindo dados estatísticos

UNIVERSIDADE DE SÃO PAULO FACULDADE DE ECONOMIA ... · questionário a uma amostra intencional de analistas contendo assertivas baseadas na Escala Likert, foi possível coletar dados

RELAÇÃO DA INCIDÊNCIA DAS DOENÇAS DIARREICAS AGUDAS … · Coletar dados referentes à Incidência de Doenças Diarreicas Agudas (DDA) na região estudada através de dados do

DENOMINAÇÃO DO CARGO: ASSISTENTE DE DIREÇÃO E … · •Coletar dados; elaborar planilhas de cálculos; confeccionar organogramas, fluxogramas e cronogramas; atualizar dados para

Validando árvoresConstruindo árvoresModelos evolutivosEncontrando homologiasAs árvoresO problema 1 Construindo filogenias Coletar os dados Localizar homologias.

HOME OFFICE - SOBRATT€¦ · Do ponto de vista científico, descrever é coletar dados (para pesquisadores quantitativos, medir; para os qualitativos, coletar informações). Isto

Segurança Baseada no Comportamentopaulomittelman.com.br/wp-content/uploads/2015/08/Segurança-Basea… · Coletar dados sobre a freqüência de comportamentos críticos de segurança.

PNLD 2020 – Moderna - PNLD 2020 – Moderna – Entenda o ... · Web view(EF06MA33) Planejar e coletar dados de pesquisa referente a práticas sociais escolhidas pelos alunos e

estudante.ifpb.edu.brstica... · Coletar, organizar e analisar dados identificando indicadores relevantes (demanda, tempo, custos, preços, tarifas e fretes, custo de manutenção);

MATEMÁTICAcanalseeduc1.hospedagemdesites.ws/aplicativo1/images/curriculo_eja/... · Calcular raiz quadrada de números naturais quadrados perfeitos. ... ANÁLISE DE DADOS Coletar

Dispositivo Intrusivo Para Coletar Dados de Carga

Notas sobre dados para a gestão do Programa Estadual de ... · 12/5/2015 · - coletar dados sobre a maioria dos acidentes fatais e de uma proporção significativa dos acidentes

RE-SIGNFICANDO A PROVA NO COTIDIANO ESCOLAR · serem implementadas na perspectiva de uma avaliação formativa. Visando não só coletar dados, mas tambémbuscar alternativas que

ABORDAGEM NÃO PARAMÉTRICA PARA CÁLCULO DO …abe/lista/pdfoJaw0l8xbb.pdf · para obter um tamanho de amostra aceitável para coletar informações, organizá-las e analisar dados

Pesca, Etnoictiologia e Ecologia de Peixes em Lagoas e ... · peixes e da pesca artesanal no presente, ... to integrado de dados sobre a biologia dos peixes, ... coletar dados sobre

UNESP UNIVERSIDADE ESTADUAL PAULISTA · Membro Titular: Nome e título Universidade. Membro Titular: Nome e título ... Após coletar os dados, descrevemos e analisamos as opiniões

BENCHMARKING · Educar e Treinar Executar a Tarefa D • Planejar o estudo de • benchmarking Verificar Resultados C Agir Corretivamente A • Coletar os dados necessários do próprio

Sérgio Luiz de Oliveira Cel. Silveira Lopes Carmen Dias Castrotransportes.ime.eb.br/etfc/monografias/MON127.pdf · deste trabalho realizado foi possível coletar dados com utilização