Painel 04 03 - leon - Construção de modelos preditivos para melhoria na seleção de processos...
-
Upload
tribunal-de-contas-da-uniao-tcu-oficial -
Category
Technology
-
view
151 -
download
0
Transcript of Painel 04 03 - leon - Construção de modelos preditivos para melhoria na seleção de processos...
Crises financeiras e restrições orçamentárias
Redução de Auditores-Fiscais nas administrações tributárias e aduaneiras de todo o mundo
Aumento na carga de trabalho (contribuintes, solicitações de compensação, importação e exportação)
2
3
Saída: pedir mais gente ou trabalhar melhor?
4
Trabalhar melhor = selecionar melhor o que deve ser trabalhado
Volume de dados não permite mais análises de especialistas sem auxílio de ferramentas
Análise de dados: encontrar padrões, correlações e realizar predições a partir de massas de dados* e conhecimento de especialistas nos processos de trabalho
5
6
Compensação de crédito: utilizar um crédito para quitar um débito (diferentes tributos ou não)
Ex: pagamento a maior (erro na hora de pagar um “carnê leão”) pode ser restituído (receber o valor de volta) ou compensado
Vantagem da compensação: processo mais célere em comparação com a restituição
7
O Sistema de Controle de Crédito (SCC) analisa a soliticação e, com base em alguns parâmetros de risco, defere, indefere ou separa a compensaçao para análise manual do Auditor-Fiscal.
Estoque de processos de análise manual se elevou sobremaneira. Classificar melhor as solicitações para escolher aqueles com maior risco de indeferimento
8
Fonte: https://www.serpro.gov.br/tema/noticias-tema/de-volta-para-o-contribuinte
9
Problema: seleção de solicitações para análise manual pode gerar compensações indevidas, afetando o saldo líquido de arrecadação
Proposta: melhorar a seleção de processos de compensação tributária utilizando modelos preditivos
Reduzir os riscos para aumentar a análise de processos que tenham mais riscos de indeferimento (equívoco do contribuinte ou fraude)
10
Mestrado em Computação Aplicada - UnB Orientador: Prof. Dr. João Carlos Felix Coorientador: Prof. Dr. Rommel Novaes Carvalho
(de novo esse cara?)
Predizer se uma solicitação de compensação será indeferida
11
12
Quais características do contribuinte são mais importantes estatisticamente para definir se haverá deferimento ou não da solicitação de compensação?
Para novas solicitações de crédito, quais as chances de serem ou não deferidas?
13
Ensaio inicial: 1a Região Fiscal da RFB, que abrange as unidades federativas do DF, GO, MT, MS e TO
+- 8000 famílias trabalhadas manualmente (classificadas) por Auditores-Fiscais
1 família são todas as solicitações de compensação relativas a um mesmo crédito
14
Tratamentos básicos: Retirada de acentos Exclusão de linhas com poucas informações ou
nulas Transformação de tipos de dados
Os dados foram todos trabalhos utilizando o software R (R Studio).
15
Uma família pode ter solicitações deferidas e indeferidas
Limite arbritrário: acima de 70% do valor do crédito indeferido é uma família indeferida, abaixo de 70% é considerada deferida
16
Do total de variáveis dependentes, foram escolhidas 8 (oito) para iniciar as análise de importância e significância estatística e para construção dos modelos
Variáveis escolhidas por especialistas em compensação de crédito
17
Responder aos questionamentos realizados no entendimento do negócio.
Regressão logística para entender quais características da compensação/contribuinte mais influenciam na decisão de deferimento/indeferimento
18
Regressão logística: somente 4 das 8 delas se mostraram estatisticamente significativas para explicar o modelo
Modelos preditivos: regressão logística, o algoritmo Naive Bayes e Random Forests.
19
Para todos os modelos a base foi separada em duas, uma de treinamento e outra para testes na proporção 80 para 20%.
Base de treinamento foi utilizada para realizar a chamada validação cruzada (cross-validation), que permite que uma mesma base seja usada tanto para treinamento quanto para validação para achar um modelo menos sobreajustado
20
21
22
Boa técnica: usar regressão para escolher as variáveis antes da confecção dos modelos preditivos (modelos com todas as variáveis não passou de 0.53 de acurácia).
Resultados interessantes, cerca de 70% de acerto nas predições
23
Nem sempre acertar mais significa melhora no processo de seleção de trabalhos
Indicador de performance de processo é necessário: valor indeferido/família analisada
Resultado: fracasso completo
24
Retornar ao entendimento do negócio para avaliar por tipo de crédito (Saldo negativo de IRPJ, PIS/Cofins não cumulativo, etc)
Resultado: um pouco melhor
25
26
Análise por tipo de crédito com retirada de outliers (instituições financeiras, grandes empreiteiras)
Amostras maiores (8a RF)
A partir de um modelo com boa predição, aplicar em algumas unidades
27
Obrigado!
Auditor-Fiscal Leon Sólon da Silva – [email protected] Márcio Vital Santos de Araujo – [email protected]