Simp sio SINDIRECEITA 2017...
Transcript of Simp sio SINDIRECEITA 2017...
Leni Veiga
SINDIRECEITASINDIRECEITA
Simpósio São Paulo - 11 e 12/11/2017Simpósio São Paulo - 11 e 12/11/2017
RECEITA DATARECEITA DATAA evolução do ambiente analítico para tomada de decisões na RFB
PautaPauta• A Receita Federal do Brasil e a Gestão de TI na Receita Federal
• A captação de dados na Receita Federal
• O início do DW na RFB (o problema a ser resolvido)
• A arquitetura Atual e o tamanho do DW Corporativo RFB
• A utilização do DW na RFB (ações investigativas e gestão)
• Problemas e Desafios
• Capacidades analíticas e perfis de usuários na RFB
• Objetivos e metas
• Arquitetura de Referência BI RFB
• O Receita Data
• Ferramentas do Receita Data
• Resultados obtidos e premiação Receita Data
• BI - Arquitetura Atual e processos de trabalho
• Futuro - Arquitetura de Referência
• Dados disponíveis e ferramentas
• Processo de Negócio Ambiente Analítico
Receita Federal é 1º lugar em Governança de TI na categoria “Órgão Executivo – Administração Direta”
Gestão de TI na RFBGestão de TI na RFB
Relatório do Tribunal de Contas da União (TCU), que avaliou a situação da governança de tecnologia da informação (TI) na Administração Pública Federal
Gestão corporativa, tabelas corporativas, definição de ferramentas e padrões, governança de dados com estrutura corporativa, treinamentos, suporte a usuários.
Centro de Informações BI RFB
Acompanhamento das solicitações de novos temas, participação na especificação e manutenção evolutiva dos temas, suporte a usuários.
Analista de Negócios
Solicitação de novos temas atômicos, agregados e integradores, especificação e manutenção evolutiva, gestão dos temas, construção de relatórios e Dashboards, treinamentos, suporte a usuários.
Área Usuária
Gestão BI na RFBGestão BI na RFB
Início do DW na RFBInício do DW na RFB
• Existência de várias plataformas de hardware e software e de centenas de diferentes sistemas transacionais;
• Diversas áreas com diversos sistemas analíticos e a necessidade de uma visão abrangente e integrada das informações para apoio ao processo decisório;
• Grande dificuldade na recuperação de dados históricos.
Problema a ser resolvidoProblema a ser resolvido
• 35 projetos (temas) de negócio em produção;
• Ambiente único, exclusivo, integrado e rastreável;
• Portal Corporativo na intranet, com suporte e fórum;
• Mais de 2,2 milhões de relatórios executados em 2016;
• Média de 200 mil relatórios executados por mês em 2017;
• Mais de 7 mil usuários cadastrados;
DW Corporativo RFBDW Corporativo RFB
Utilização do DW na RFBUtilização do DW na RFB
• Acompanhamento, análise e previsão de arrecadação;
• Seleção para fiscalização interna e aduaneira;
• Controle internos (RH, TI e patrimônio);
• Estudos Tributários;
• Gestão de Processos Administrativos Tributários;
• Gestão do atendimento ao contribuinte;
• Auditoria de procedimentos internos e externos;
• Análise de informações para combate a fraudes.
Função investigativa e gestãoFunção investigativa e gestão
Arquitetura Atual DW RFB Arquitetura Atual DW RFB Capacidades Analíticas
Data Warehouse
Sistemas Transacionais
ETL
Mostra diversos relatórios feitos
Camada Semântica
Dashboards RelatóriosOLAP
Fontes de Dados
Funções e perfis
Consumidores de Informação
Analistas de Informação
Cientistas de Dados
7000 Usuários35 Projetos50 Tb
Arquitetura Atual DW RFB Arquitetura Atual DW RFB Capacidades Analíticas
Data Warehouse
Sistemas Transacionais
ETL
Mostra diversos relatórios feitos
Camada Semântica
Dashboards RelatóriosOLAP
Fontes de Dados
Funções e perfis
Consumidores de Informação
Analistas de Informação
Cientistas de Dados
7000 Usuários35 Projetos50 Tb
Tenho muito trabalho e poucos recursos.
Preciso priorizar minhas atividades.
Preciso de mais detalhes sobre os
dados. Estou tendo muito trabalho e poucos recursos.
Não consigo cruzar Informações entre
temas. Contrução de novos temas
demandam muito tempo e esforço.
Conjunto de temas centralizado e de difícil acesso
Usuários precisam “dar seu jeito” para superar as dificuldades e conseguir explorar os dados
Problemas e DesafiosProblemas e Desafios
Problemas• Ambiente (hardware) obsoleto• Dados agregados em alguns temas• Performance e disponibilidade do ambiente• Demora na disponibilização da informação• Junção entre temas.
Desafios• Modernização do ambiente• Novas ferramentas e novas capacidades analíticas• Dados atômicos e rapidamente disponíveis
SPED - HCAP
Agregações
Base Temporária BI RFB
NF-e
EFD IPI/ICMS
Contribuinte
Problemas e DesafiosProblemas e Desafios
Atendimento aos diversos perfis analíticos, de acordo com as capacidade analíticas existentes na organização
Objetivos e MetasObjetivos e Metas
Objetivos e MetasObjetivos e Metas
• Tecnologia para Big Data (Hardware e Software);
• Dado atômico, carga diária ou próxima ao tempo real;
• Não descartar dados após período de tempo;
• Self-Service BI (flexibilidade, agilidade e autonomia dos usuários);
• Possibilitar o acesso dos sistemas transacionais;
• Atendimento das diversas capacidades analíticas
Função da TI:
• Prover infraestrutura e solução tecnológica
• Governança de dados e suporte ao usuário
Arquitetura de Referência BI RFBArquitetura de Referência BI RFB
Grande Porte
Sief
Dataprev
Sistemas Fonte
SPED - HCAP
Data Warehouse
Sandbox
Data Lake
Data Warehouse
SP
ED
E S
IST
EM
AS
TR
AN
SA
CIO
NA
IS50 Terabytes
Data Lake
Sandbox
Execução de SQL
UPLOAD
Base TransacionalWebServices
API
�SPED •eFinanceiras•EFD IPI/ICMS•EFD Contribuições•NFe
Réplicas Sistemas Transacionais
Outros Dados
200TB para os Usuários DL
200 TB para o ContÁgil
1 Petabyte
280 Terabytes
80 TB para o ContÁgil
Receita DataReceita Data
Agregações
ETL
FerramentasFerramentasData Warehouse
Dashboards
Relatórios
OLAP
Fon
tes
de
Dad
os
OLAP
•Capacidade Descritiva (Relatórios predefinidos)•Capacidade de Diagnóstico (OLAP)
Analytics Visual Insight
Data Lake
Dados de Negócios
Obrigações Acessórias
Sandbox
Dados de usuários
Resultados Intermediários
Análises FinaisData Discovery
Data Warehouse
FerramentasFerramentasFo
nte
s d
e D
ado
s
•Capacidade Descritiva ( Painéis predefinidos)•Capacidade de Diagnóstico
Indexação
Obs: Indexações precisam ser criadas pelo Especialista de TI
Data Lake
Dados de Negócios
Obrigações Acessórias
FerramentasFerramentasFo
nte
s d
e D
ado
s
•Capacidade de Diagnóstico
Execução tipo SQL
Preparação de Dados
Data Lake
Dados de Negócios
Obrigações Acessórias
Sandbox
Dados de usuários
Resultados Intermediários
Análises Finais
FerramentasFerramentasFo
nte
s d
e D
ado
s
•Capacidade de Diagnóstico
Execução de SQL Preparação de Dados
Relatórios
Análises Avançadas
Simulação
Rede de Relacionamento
Data Lake
Dados de Negócios
Obrigações Acessórias
Sandbox
Dados de usuários
Resultados Intermediários
Análises Finais
FerramentasFerramentasFo
nte
s d
e D
ado
s
•Capacidade de Diagnostico•Capacidade Preditiva
Execução de SQL Preparação de Dados
Relatórios
Análises Avançadas
Simulação
Data Lake
Dados de Negócios
Obrigações Acessórias
Sandbox
Dados de usuários
Resultados Intermediários
Análises Finais
FerramentasFerramentasFo
nte
s d
e D
ado
s•Capacidade de Diagnostico•Capacidade Preditiva
ContÁgil
Relatórios OLAP
Rede de Relacionamento
Execução de SQL
Preparação de Dados
Data Lake
Dados de Negócios
Obrigações Acessórias
Sandbox
Dados de usuários
Resultados Intermediários
Análises Finais
Data Warehouse
FerramentasFerramentasFo
nte
s d
e D
ado
s
•Capacidade de Diagnóstico•Capacidade Preditiva
ContÁgil
Mais de 270 funcionalidades
Mais de 500 scripts compartilhadospelos Usuários
SISAM / ANIITA
Projeto Farol
Receita Data e ContÁgilReceita Data e ContÁgil
IntegraçãoR, WEKA, Neo4J
Possibilidade de acesso ao inteiro teor dos dados do SPED, DW, dados cadastrais, entre outros. Sem restrições.
Exemplos:
ECF149 tipos diferentes de registros153 referências a tabelas de domínio134 relações hierárquicas entre registros995 colunasbilhões de linhas
EFD Contribuições142 tipos diferentes de registros477 referências a tabelas de domínio143 relações hierárquicas entre registros2480 colunasbilhões de linhas
Receita Data e ContÁgilReceita Data e ContÁgilGrandes Tabelas de DadosGrandes Tabelas de Dados
Fonte: ContÁgil
Análise 1: Todas as empresas na situação ativa, com responsável legal com mais de 20 anos na data de abertura, CPF criado a menos de 2 anos da data de abertura e apresentando UF da empresa ≠ UF da residência do responsável.
Acesso aos dados com uso de extratores (sem uso do Receita Data)
Tempo médio gasto na extração de dados cadastrais + QSA de 1 CNPJ : 4 segundos
Quantidade de empresas ativas no Brasil: 18.826.111 (no PR: 1.249.940)
Tempo estimado apenas para baixar dados de CNPJ por meio de extratores: 57 dias (para 1.249.940 empresas do PR)
Receita Data e ContÁgilReceita Data e ContÁgilComparação na forma de acesso aos dadosComparação na forma de acesso aos dados
Tempo total da realização da consulta (já com resultado final) : 34 segundos
Resultado: 23.947 empresas
OBS: consulta realizada sobre a totalidade das empresas ativas (Brasil: 18.826.111)
Consulta com acesso aos dados diretamente na base (com Receita Data)
Fonte: ContÁgil
Receita Data e ContÁgilReceita Data e ContÁgilComparação na forma de acesso aos dadosComparação na forma de acesso aos dados
Análise 3: Despesas Médicas Suspeitas. Em todas as DIRPF do país, identificar todos os casos onde duas pessoas declararam despesas médicas para um mínimo de 6 prestadores em comum.
Qtd. Declarações analisadas (2016): 27 milhões
Grafo de relacionamentos nacional de declarantes de despesasmédicas e médicos:
5.318.043 pessoas10.635.165 relacionamentos
Duração da análise: 1 hora e 20 minutos
OBS: mais de 100 pares de pessoas declarando um mínimo de 11 médicos/hospitais em comum.
Fonte: ContÁgil
Receita Data e ContÁgilReceita Data e ContÁgilComparação na forma de acesso aos dadosComparação na forma de acesso aos dados
Análise 4: Todos os estabelecimentos de empresas diferentes que constam no mesmo endereço (por similaridade de palavras no logradouro, combinado com CEP, número e complemento).
Duração da análise: 2 minutos.
Fonte: ContÁgil
Receita Data e ContÁgilReceita Data e ContÁgilComparação na forma de acesso aos dadosComparação na forma de acesso aos dados
Análise 5: Empresários individuais possivelmente noteiras
Empresários individuais e empresas individuais de responsabilidade LTDA que movimentaram grande número de notas fiscais ou valores expressivos para apenas um destinatário.
Duração da análise: 3 minutos.
Fonte: ContÁgil
Receita Data e ContÁgilReceita Data e ContÁgilComparação na forma de acesso aos dadosComparação na forma de acesso aos dados
Análise 5: Empresas ativas com sócios mortos
Todas as empresas ativas que apresentam no quadro societário ativo sócios com óbito.
Duração da análise: 20 segundos
Fonte: ContÁgil
1) Através de consultas pelo Modelo Analítico Dinâmico
Receita Data e ContÁgilReceita Data e ContÁgilFormas de utilização pelo ContÁgilFormas de utilização pelo ContÁgil
2) Através de grafos de relacionamentos e grafos-consultas
3) Através de scripts
Fonte: ContÁgil
Transacional Analítico
Data WarehouseVERWeb ServicesData MiningData DiscoveryData Recovery....
Novo ProcessoNovo Processo
Receita DataReceita Data
Case de Sucesso IT4CIO 2017Case de Sucesso IT4CIO 2017
100+ Inovadoras no Uso de TI100+ Inovadoras no Uso de TI
09/11/2017 - Projeto Receita Data é premiado na categoria Setor Público.