Técnicas de Machine Learning aplicadas na recuperação de ...

75
FUNDAÇÃO GETULIO VARGAS ESCOLA DE ECONOMIA DE SÃO PAULO MELISSA FORTI TÉCNICAS DE MACHINE LEARNING APLICADAS NA RECUPERAÇÃO DE CRÉDITO DO MERCADO BRASILEIRO SÃO PAULO 2018

Transcript of Técnicas de Machine Learning aplicadas na recuperação de ...

Page 1: Técnicas de Machine Learning aplicadas na recuperação de ...

FUNDAÇÃO GETULIO VARGAS

ESCOLA DE ECONOMIA DE SÃO PAULO

MELISSA FORTI

TÉCNICAS DE MACHINE LEARNING APLICADAS NARECUPERAÇÃO DE CRÉDITO DO MERCADO

BRASILEIRO

SÃO PAULO2018

Page 2: Técnicas de Machine Learning aplicadas na recuperação de ...

MELISSA FORTI

Técnicas de Machine Learning aplicadas na recuperação decrédito do mercado brasileiro

Dissertação apresentada à Escola de Economiade São Paulo da Fundação Getulio Vargas, comoparte dos requisitos para a obtenção do título deMestre em Economia.

Orientador: Prof. Dr. João Luiz Chela

São Paulo

2018

Page 3: Técnicas de Machine Learning aplicadas na recuperação de ...

Forti, Melissa. Técnicas de machine learning aplicadas na recuperação de crédito do mercado brasileiro / Melissa Forti. - 2018. 74 f. Orientador: João Luiz Chela Dissertação (MPFE) - Escola de Economia de São Paulo. 1. Administração de crédito. 2. Cobrança de contas. 3. Créditos – Modelos matemáticos. I. Chela, João Luiz. II. Dissertação (MPFE) - Escola de Economia de São Paulo. III. Título.

CDU 336.77

Ficha catalográfica elaborada por: Raphael Figueiredo Xavier CRB SP-009987/O

Biblioteca Karl A. Boedecker da Fundação Getulio Vargas - SP

Page 4: Técnicas de Machine Learning aplicadas na recuperação de ...

AGRADECIMENTOS

Agradeço à Deus por ser luz nos momentos de escuridão.

Agradeço à minha família por ser meu porto seguro, me apoiar nos momentos maisdifíceis e me incentivar a seguir meu caminho.

Ao meu irmão Rodrigo por acreditar, confiar e, acima de tudo, me guiar nos momentosmais incertos.

Ao Banco Bradesco e os envolvidos Alessandro, Julian, Julio, Karen e Marcelo pelaoportunidade de crescimento e por confiarem em meu potencial.

Ao meu orientador João Chela pela atenção e orientação ao longo desses meses.

Aos professores Priscilla e Gustavo por serem grandes mentores e orientadores.

Aos amigos por me apoiarem e entenderem minha ausência ao longo desses anos deestudo.

Aos amigos Akira e Paulo, por serem meus grandes incentivadores pela busca de conhe-cimento.

Page 5: Técnicas de Machine Learning aplicadas na recuperação de ...

RESUMO

A necessidade de conhecer o cliente sempre foi um diferencial para o mercado e nestes últimosanos vivenciamos um crescimento exponencial de informações e técnicas que promovem aavaliação para todas as fases do ciclo de crédito, desde a prospecção até a recuperação de dívidas.Nesse contexto, as empresas estão investindo cada vez mais em métodos de Machine Learning

para que possam extrair o máximo de informações e assim terem processos mais assertivos erentáveis. No entanto, essas técnicas possuem ainda alguma desconfiança no ambiente financeiro.Diante desse contexto, o objetivo desse trabalho foi aplicar as técnicas de Machine Learning:

Random Forest, Support Vector Machine e Gradient Boosting para um banco de dados realde cobrança, a fim de identificar os clientes mais propensos a quitar suas dívidas (Collection

Score) e comparar a acurácia e interpretação desses modelos com a metodologia tradicional deRegressão Logística. A principal contribuição desse trabalho está relacionada com a comparaçãodas técnicas em um cenário de recuperação de crédito considerando as principais características,vantagens e desvantagens.

Palavras-chaves: Collection score. Modelos de cobrança. Ciclo de crédito. Recuperação de dí-vidas. Regressão logística. Gradient boosting. Random forest. Support vector machine. Machine

learning.

Page 6: Técnicas de Machine Learning aplicadas na recuperação de ...

ABSTRACT

The need to know the customer has always been a differential for the market, and in currentlyyears we have experienced an exponential growth of information and techniques that promotethis evaluation for all phases of the credit cycle, from prospecting to debt recovery. In this context,companies are increasingly investing in Machine Learning methods, so that they can extract themaximum information and thus have more assertive and profitable processes. However, thesemodels still have a lot of distrust in the financial environment. Given this need and uncertainty, theobjective of this work was to apply the Machine Learning techniques: Random Forest, SupportVector Machine and Gradient Boosting to a real collection database in order to identify therecover clients (Collection Score) and to compare the accuracy and interpretation of these modelswith the classical logistic regression methodology. The main contribution of this work is relatedto the comparison of the techniques and if they are suitable for this application, considering itsmain characteristics, pros and cons.

Key-words:Collection score.Credit cycle. Logistic regression. Gradient boosting. Random forest.Support vector machine. Machine learning.

Page 7: Técnicas de Machine Learning aplicadas na recuperação de ...

LISTA DE FIGURAS

Figura 1 – Ciclo de Crédito . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16Figura 2 – Ciclo de Collection Score . . . . . . . . . . . . . . . . . . . . . . . . . . . 17Figura 3 – Desenvolvimento Collection Score . . . . . . . . . . . . . . . . . . . . . . 18Figura 4 – Curva Logística . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20Figura 5 – Método Stepwise . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21Figura 6 – Ensemble . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23Figura 7 – Hiperplano ótimo separando os dados com máxima margem . . . . . . . . 26Figura 8 – Teste de K-S - Avaliação de qualidade de ajuste . . . . . . . . . . . . . . . 31Figura 9 – Teste de K-S - Avaliação de difenrença entre amostras . . . . . . . . . . . . 32Figura 10 – Exemplo de curva ROC . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33Figura 11 – Ordenação de escore - Ponto a Ponto . . . . . . . . . . . . . . . . . . . . . 34Figura 12 – Distribuição de registros e evento por safra . . . . . . . . . . . . . . . . . . 37Figura 13 – Exemplo do relatório para avaliação de categorias . . . . . . . . . . . . . 38Figura 14 – Estabilidade das amostras . . . . . . . . . . . . . . . . . . . . . . . . . . . 39Figura 15 – Regressão Logística - Resultado das simulações . . . . . . . . . . . . . . . 41Figura 16 – Gradient Boosting - Resultado das simulações . . . . . . . . . . . . . . . 42Figura 17 – Random Forest- Resultado das simulações . . . . . . . . . . . . . . . . . . 44Figura 18 – Support Vector Machine - Resultado das simulações . . . . . . . . . . . . . 45Figura 19 – Variáveis - Regressão Logística . . . . . . . . . . . . . . . . . . . . . . . . 46Figura 20 – Métricas - Regressão Logística . . . . . . . . . . . . . . . . . . . . . . . . 47Figura 21 – Variáveis - Gradient Boosting . . . . . . . . . . . . . . . . . . . . . . . . . 49Figura 22 – Métricas - Gradient Boosting x Regressão Logística . . . . . . . . . . . . . 50Figura 23 – Ponto a Ponto - Comparação entre Regressão Logística e Gradient Boosting 51Figura 24 – Variáveis - Random Forest . . . . . . . . . . . . . . . . . . . . . . . . . . . 53Figura 25 – Métricas - Random Forest x Regressão Logística . . . . . . . . . . . . . . . 54Figura 26 – Ponto a Ponto - Comparação entre Regressão Logística e Random Forest . . 55Figura 27 – Variáveis - Support Vector Machine . . . . . . . . . . . . . . . . . . . . . . 57Figura 28 – Métricas - Support Vector Machine x Regressão Logística . . . . . . . . . . 58Figura 29 – Ponto a Ponto - Comparação entre Regressão Logística e Support Vector

Machine . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59Figura 30 – Ponto a Ponto - Comparação das metodologias . . . . . . . . . . . . . . . 61

Page 8: Técnicas de Machine Learning aplicadas na recuperação de ...

LISTA DE TABELAS

Tabela 1 – Valores referenciais de K-S para acurácia . . . . . . . . . . . . . . . . . . . 32Tabela 2 – Matriz de confusão . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32Tabela 3 – Ordenação de escore - Pontos de Corte . . . . . . . . . . . . . . . . . . . . 34Tabela 4 – Valores referenciais de IV . . . . . . . . . . . . . . . . . . . . . . . . . . . 35Tabela 5 – Valores referenciais de PSI . . . . . . . . . . . . . . . . . . . . . . . . . . 36Tabela 6 – Estabilidade - Regressão Logística . . . . . . . . . . . . . . . . . . . . . . 47Tabela 7 – Pontos de corte - Regressão Logística . . . . . . . . . . . . . . . . . . . . 48Tabela 8 – Estabilidade - Gradient Boosting x Regressão Logística . . . . . . . . . . . 50Tabela 9 – Simulação - Pontos de Corte - Comparação entre Regressão Logística e

Gradient Boosting . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51Tabela 10 – Simulação Financeira - Ponto de corte 40% - Regressão Logística x Gradient

Boosting . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52Tabela 11 – Estabilidade - Random Forest x Regressão Logística . . . . . . . . . . . . . 54Tabela 12 – Simulação - Pontos de Corte - Comparação entre Regressão Logística e

Random Forest . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55Tabela 13 – Simulação Financeira - Ponto de corte 40% - Regressão Logística x Random

Forest . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55Tabela 14 – Estabilidade - Support Vector Machine x Regressão Logística . . . . . . . . 58Tabela 15 – Simulação - Pontos de Corte - Comparação entre Regressão Logística e

Support Vector Machine . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59Tabela 16 – Simulação Financeira - Ponto de corte 40% - Regressão Logística x Support

Vector Machine . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60Tabela 17 – Simulação Financeira - Comparação das metodologias . . . . . . . . . . . 61

Page 9: Técnicas de Machine Learning aplicadas na recuperação de ...

LISTA DE ABREVIATURAS E SIGLAS

DEV Base de Desenvolvimento ou treinamento

K-S Teste de Kolmogorov-Smirnov

PSI Population Stability index - Índice de estabilidade populacional.

OOS Out-Of-Sample Amostra de Teste, fora do treinamento.

OOT Out-Of-Time Amostra fora do Tempo, amostra de meses que não participa-ram do treinamento, normalmente é um período após o desenvolvimento.

OOV Out-Of-Validation Amostra de Validação, fora do treinamento.

WOE Weight of Evidence Peso de evidência

AUROC Area under Receiver operating characteristic Área da curva ROC.

ML Machine Learning.

SVM Support Vector Machine.

RL Regressão Logística.

RF Random Forest.

ODDS Razão de chances.

Page 10: Técnicas de Machine Learning aplicadas na recuperação de ...

SUMÁRIO

1 INTRODUÇÃO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11

2 REVISÃO DA LITERATURA . . . . . . . . . . . . . . . . . . . . . . . . 13

3 REVISÃO TEÓRICA . . . . . . . . . . . . . . . . . . . . . . . . . . . . 163.1 Ciclo de Crédito . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 163.2 Collection Score . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 173.3 Regressão . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 193.3.1 Regressão Logística . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 193.4 Ensemble . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 223.4.1 Gradient Boosting . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 233.4.2 Random Forest . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 253.5 Support Vector Machine . . . . . . . . . . . . . . . . . . . . . . . . . . . 263.5.1 SVMs Lineares . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 273.5.2 SVMs Não Lineares . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 293.6 Métricas de Validação . . . . . . . . . . . . . . . . . . . . . . . . . . . . 303.6.1 Teste de Kolmogorov-Smirnov . . . . . . . . . . . . . . . . . . . . . . . . 303.6.2 Curva AUROC . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 313.6.3 Coeficiente GINI . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 333.6.4 Análise de ordenação de score . . . . . . . . . . . . . . . . . . . . . . . . 333.6.5 Valor da informação (IV) e Peso de evidência (WOE). . . . . . . . . . . . . 343.6.6 Índice de estabilidade populacional (PSI) . . . . . . . . . . . . . . . . . . . 35

4 METODOLOGIA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 374.0.1 Avalição dos dados fornecidos . . . . . . . . . . . . . . . . . . . . . . . . 374.0.2 Tratamento de dados – Categorização . . . . . . . . . . . . . . . . . . . . 384.0.3 Amostragem de dados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 384.1 Metodologia Regressão Logística . . . . . . . . . . . . . . . . . . . . . . . 394.2 Metodologia Gradient Boosting . . . . . . . . . . . . . . . . . . . . . . . . 414.3 Metodologia Randon Forest . . . . . . . . . . . . . . . . . . . . . . . . . 434.4 Metodologia Support Vector Machine . . . . . . . . . . . . . . . . . . . . 45

5 RESULTADOS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 465.1 Metodologia Regressão Logística . . . . . . . . . . . . . . . . . . . . . . . 465.2 Metodologia Gradient Boosting . . . . . . . . . . . . . . . . . . . . . . . . 495.3 Metodologia Random Forest . . . . . . . . . . . . . . . . . . . . . . . . . 53

Page 11: Técnicas de Machine Learning aplicadas na recuperação de ...

5.4 Metodologia Support Vector Machine . . . . . . . . . . . . . . . . . . . . 575.5 Avaliação de Resultados . . . . . . . . . . . . . . . . . . . . . . . . . . . 60

6 CONCLUSÃO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62

REFERÊNCIAS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63

APÊNDICE A – MÉTRICAS . . . . . . . . . . . . . . . . . . . . . . . 66

APÊNDICE B – MODELOS DESENVOLVIDOS . . . . . . . . . . . . 68

Page 12: Técnicas de Machine Learning aplicadas na recuperação de ...

11

1 INTRODUÇÃO

A necessidade de conhecer o cliente sempre foi um diferencial para o mercado e nestesúltimos anos vivenciamos um crescimento exponencial de informações e técnicas que promovema avaliação de risco dos clientes. O processo de descobrimento de informações também conhecidopor Data Mining, pode ser aplicado em todo o ciclo de crédito do cliente, desde a prospecção atéa recuperação de uma dívida.

A motivação para a aplicação das técnicas de Machine Learning pode ser explicada pelanecessidade de conhecer o cliente através de informações comportamentais como hábito depagamento, dados cadastrais e informações de consumo, determinando o risco (probabilidade ouclassificação) de aquele cliente ser adimplente ou inadimplente, recuperado ou não recuperado.

A evolução tecnológica tanto de hardware como de software também é motivo paraa aplicação de técnicas mais sofisticadas, pois devido à alta complexidade e volumetria dainformações, novas técnicas de exploração são necessárias para a extração de conhecimento, porexemplo, de dados transacionais e dados web.

A diferenciação e classificação correta dos clientes é um diferencial competitivo. Em-presas que possuem melhores processos de classificação, conseguem maximizar seus lucros e,com isto, ofertar melhores preços. Sendo assim, o uso de técnicas mais sofisticadas tornou-se umdiferencial competitivo.

A estabilidade em momentos de crise pode gerar perdas menores que a esperada e,conforme observado, o aumento de índices de desemprego IBGE (2016) nos últimos anos,a necessidade de uma melhor na governança de riscos se tornou uma ferramenta de grandeimportância.

Diante destas motivações e necessidades, modelos de previsão mais robustos e assertivosde Credit Score, Behavior Score e Collection Score estão entre os assuntos mais discutidos nosúltimos anos. Esses modelos auxiliam na classificação entre bons e maus clientes em diversossegmentos como na concessão de crédito, manutenção de crédito e até nos processos de cobrança.

Altman e Saunders (1997) destacou o uso de regressão linear e análise de discriminantecomo as mais dominantes nas décadas de 70 e 90 para o desenvolvimento desses modelos. Hande Henley (1997) fazem referência a vários métodos para desenvolver modelos de classificaçãoe, de acordo, com Wang et al (2005) diversas pesquisas têm identificado que a utilização deoutras técnicas de Machine Learning na avaliação do risco de crédito pode apresentar resultadoscompetitivos com os métodos tradicionais como a Regressão Logística.

Nesse contexto, as empresas estão investindo cada vez mais em métodos de Machine

Learning para que possam extrair o máximo de informações e terem processos mais assertivos e

Page 13: Técnicas de Machine Learning aplicadas na recuperação de ...

Capítulo 1. Introdução 12

rentáveis, no entanto, esses modelos possuem ainda alguma desconfiança no ambiente financeiro.

Diante desse cenário, o objetivo desse trabalho é aplicar diferentes técnicas de Machine

Learning como Random Forest, Support Vector Machine e Gradient Boosting a fim de identificaros clientes mais propensos a quitar suas dívidas (Collection Score) no mercado brasileiro ecomparar a acurácia e interpretação desses modelos com a metodologia tradicional de RegressãoLogística.

A principal contribuição desse trabalho está relacionada com a aplicação de metodologiasatuais de Machine Learning em um banco de dados real brasileiro de cobrança, pois verificou-seque a recuperação de crédito gera retornos financeiros bastante positivos devido as ações quepodem ser tomadas como, por exemplo, uma melhor abordagem em canais de cobrança. Noentanto, ainda é uma ação pouco explorada, pois os agentes bancários trabalham mais focadosna prevenção da inadimplência. Além disso, esse trabalho contribui com a verificação de quaismetodologias são promissoras tanto na parte preditiva, quanto na parte de interpretação dosresultados em um ambiente corporativo.

A presente dissertação está organizada em 6 capítulos. Seguido à introdução apresentadaneste capítulo inicial, o capítulo dois traz uma revisão de literatura sobre os principais estudosrelacionados aos modelos de Collection Score e as técnicas de Machine Learning. No capítulotrês, a revisão teórica com todo o insumo necessário para entender e aplicar as metodologiasapresentadas. No capítulo quatro, a base de dados e as definições utilizadas para a construção dosmodelos. Os resultados são expostos no capítulo cinco. Por fim, no capítulo seis são apresentadasas conclusões e sugestões para estudos futuros.

Page 14: Técnicas de Machine Learning aplicadas na recuperação de ...

13

2 REVISÃO DA LITERATURA

Os modelos estatísticos de Collection Score são desenvolvidos com uma variável de-pendente, que neste trabalho é a marcação dos clientes que honraram ou não suas dívidas evariáveis independentes relacionadas as características e comportamentos passados dos clientes.A metodologia utilizada é igualmente conhecida uma técnica de classificação, na qual tambémé utilizada para o desenvolvimento de modelos de predição como Credit Score e Behavior

Score. Devido a esse fato, buscou-se na literatura todas as abordagens e técnicas utilizadas paraclassificar os clientes independente do seu ciclo de crédito.

A história do Credit Score começou com a publicação de 1941 de Durand (1941) no qualestudou a distinção entre bons e maus empréstimos por 37 firmas. Altman e Saunders (1997)revisaram 20 anos de história de Credit Score e observaram que entre as décadas de 70 e 90as técnicas estatísticas de classificação que dominavam eram a Regressão Logística e AnáliseDiscriminante. No entanto, essas técnicas não são utilizadas somente para crédito, mas paraclassificar diversos segmentos. Altman (1968) utilizou técnicas de classificação para preverfalência de empresas, Martin (1977) usou Regressão Logística para prever falhas bancárias eWest (1985) utilizou para calcular a probabilidade de um banco se tornar problemático.

Apesar da Regressão Logística ser amplamente utilizada como técnica de classificação ese tornar um método clássico para prever probabilidades, os critérios que precisam ser assumidoscomo, por exemplo, a não multicolinearidade, fizeram com que pesquisadores começassem a seinteressar por outras metodologias e, diante nesse cenário, surgiu o interesse de aplicar outrastécnicas de Machine Learning para resolução de problemas e compará-los com o poder preditivoda técnica de Regressão Logística.

Tam e Kiang (1992) estudaram o uso de redes neurais em um banco de dados de bancosque faliram no Texas nos anos de 1985-1987 e compararam com as técnicas de RegressãoLogística, KNN (Vizinho mais próximo) e árvore de decisão, quanto ao poder preditivo a técnicade redes neutrais teve resultados melhores, mas não foi possível estudar a contribuição dasvariáveis de entrada no modelo final.

Baesens et al. (2003) estudou a performance de acurácia dos algoritmos de classificaçãoRegressão Logística, KNN, Redes Neurais, árvore de decisão e Support Vector Machine em 8bancos de dados de Credit Score e concluiu que os modelos clássicos têm performance menorquando comparado com outros modelos de Machine Learning.

Twala (2009) investigou o comportamento de 5 classificadores como Redes Neurais,árvores de decisão, Naive Bayes, KNN e Regressão Logística em 5 bancos de dados diferentes afim de comparar o poder preditivo quando há ruído nos dados.

O método de Support Vector Machine (SVM) sugerido por Cortes e Vapnik (1995) é

Page 15: Técnicas de Machine Learning aplicadas na recuperação de ...

Capítulo 2. Revisão da literatura 14

uma das técnicas de Machine Learning que Bellotti e Crook (2013) compararam a performancecom mais 4 métodos contra as técnicas de Regressão Logística e Análise Discriminante paraCredit Score e encontraram que SVM foi mais sucedido em classificar clientes que entraram ounão em atraso em cartão de crédito. No entanto, os dados de estudo eram de apenas 3 meses eassim não podendo concluir se a técnica tem bom poder preditivo em períodos mais distantes,por isso, sugeriram estudo sobre a performance dos modelos ao longo do tempo a fim de avaliara robustez dos métodos.

Doumpos e Zopounidis (2007) explorou o uso de Regressão Logística, Análise Discrimi-nante, Árvores de Regressão e SVM combinados no desenvolvimento de modelos para risco decrédito e observou que a combinação de técnicas é mais eficiente do que a utilização de técnicasindividuais.

Apesar da comparação de muitos métodos de classificação e artigos sobre o assunto,Kruppa et al (2013) aplicou os métodos de Machine Learning, usando Random Forest e KNN porserem computacionalmente rápidos, simples de implantar em uma base de dados de pagamentosde empréstimos e ainda sim o método Random Forest obteve uma acurácia maior quandocomparado com a Regressão Logística afinada.

De acordo com Tollenaar et al. (2013), como o método clássico não consegue manipularautomaticamente a não linearidade e os ruídos dos dados, esse acaba perdendo poder preditivoquando comparado a outras técnicas de classificação de Machine Learning.

No entanto, além da acurácia, a compreensão do modelo é de extrema importância nosdomínios de concessão de crédito, pois a negação de crédito muitas vezes precisa ser justificadapara clientes e órgãos públicos, e como as técnicas mais conhecidas atualmente de Machine

Learning são conhecidas como “Black-Box”, essas acabam sendo vistas com suspeita e ceticismode acordo com Khandani et al.(2010).

Diante desse cenário, Chen e Cheng (2013) aplicou modelos híbridos de ML em proble-mas de classificação de rating de crédito com a expertise dos autores para a tomada de decisão decrédito para que assim houvesse maior compressão dos modelos encontrados e estes superaramos modelos estudados.

A metodologia de Random Forest encontrada em Breiman (2001) é uma das técnicas deML também conhecida como Decision Forest e de acordo com Abellan e Mantas (2014) é umadas técnicas de mais rápida execução e fácil interpretação.

Dentro do mesmo âmbito de Decision Forest, pode ser encontrada também a metodologiade Gradient Boosting estudada por Friedman (2002), na qual possui, de acordo com Florez-Lopezet al. (2015) maior grau de dificuldade de compressão a medida que as partições aumentam.

A interpretação e acurácia são inversamente proporcionais, pois tanto maior a compressãodos modelos e das variáveis de entrada menor é a precisão de acordo com Chen e Cheng (2013),por isso Florez-Lopez et al. (2015) testaram a proposta de aplicar ao conjunto de dados de risco

Page 16: Técnicas de Machine Learning aplicadas na recuperação de ...

Capítulo 2. Revisão da literatura 15

de crédito alemão do repositório UCI as metodologias usuais como a Regressão Logística, SVMe Redes Neurais e os métodos conjuntos de Random Forest e Gradient Boosting contra um novomodelo, no qual tentou balancear previsão e compreensão.

Os resultados revelaram que os métodos de Random Forest e Gradient Boosting supe-raram todos os modelos testaram em termos de taxa de precisão. No entanto, o novo métodoapresentou melhor resultado em termos de número de regras, número dos recursos e se mostramaté melhor em precisão do que o modelo tradicional como Regressão Logística.

Na literatura brasileira foi observado o uso de Análise de Sobrevivência e RegressãoLogística para o desenvolvimento dos modelos de Collection Score e ambas as técnicas não sediferenciaram em discriminação, mas em termos de estratégia a técnica de Análise de Sobrevi-vência obteve resultados melhores de acordo com Machado (2016).

Além disso, Souza (2000) observou o ganho da utilização dos modelos de Collection

Score (pouco explorado na época) e concluiu que com o desenvolvimento das técnicas estatísticas,as instituições avançariam no uso desses modelos para um melhor gerenciamento de crédito.

Diante desse cenário e diferente do que já foi abordado em outros estudos, essa disserta-ção propõe o desenvolvimento de um modelo de Collection Score, pouco explorado nos estudosreferenciados, com a aplicação das técnicas de: Regressão Logística, Support Vector Machine,Random Forest e Gradient Boosting. Após o desenvolvimento observando a particularidade decada técnica, serão avaliadas e comparadas a acurácia, a compressão das técnicas e seu impactopara monitoramento e implantação.

Os principais conceitos teóricos e premissas utilizados na construção desse modelo sãoabordados no próximo capítulo.

Page 17: Técnicas de Machine Learning aplicadas na recuperação de ...

16

3 REVISÃO TEÓRICA

Nesse capítulo será descrito o que é o ciclo de cobrança e em qual fase do ciclo de créditoestá inserido, o porquê e quando utilizar o modelo de Collection Score.

Será descrito também as técnicas utilizadas no processo de desenvolvimento do modelo,tais como Gradient Boosting, Random Forest, Support Vector Machine e Regressão Logística,bem como as medidas de desempenho e comparação entre as metodologias como K-S, ROC eanálise de ordenação de escore.

3.1 Ciclo de Crédito

A expressão crédito ao consumidor pode ser entendida como uma forma de comércio,no qual uma pessoa física obtém dinheiro, bens ou serviços e compromete-se a pagar por issofuturamente acrescendo ao valor original um prêmio (juros) (SANTOS, 2000).

O risco do crédito pode ser definido como a probabilidade de perda de um empréstimofinanceiro e, por isso, as empresas utilizam métodos subjetivos e/ou quantitativos para obter umadecisão mais confiável dessa perda. Devido a esse fato, surge o ciclo de crédito, o qual buscamedir o risco dos clientes em fases de relacionamento.

O modelo de prospecção é a primeira fase do ciclo de crédito, a qual as empresas buscamo perfil adequado dos clientes para ofertar determinado produto. A segunda fase é a aplicaçãodo Credit Score para os novos solicitantes de crédito e a terceira fase é a aplicação do Behavior

Score para os já clientes, a fim de estimar o risco através do comportamento passado de crédito efazer uma manutenção de conta mais rentável.

A última fase e, estudada nessa dissertação, é a fase de cobrança. A qual será detalhadano item abaixo todo o processo de desenvolvimento do modelo para recuperação de dívidas.

Figura 1 – Ciclo de Crédito

Fonte: Elaboração própria

Page 18: Técnicas de Machine Learning aplicadas na recuperação de ...

Capítulo 3. Revisão Teórica 17

3.2 Collection Score

Collecion Score é um grupo de modelos de predição que tem como objetivo classificaros clientes inadimplentes em termos de quitação de dívidas, ou seja, classificar os clientesentre a menor e maior probabilidade de recuperação de dívidas, tendo como seu principalobjetivo a recuperação financeira e a redução de custos operacionais com o processo de cobrança.Considerando o ciclo de crédito (Figura 1), os modelos de Collection Score são a última fase dociclo, uma vez que o cliente já passou pela prospecção, concessão do crédito e manutenção dacarteira.

Por se tratar da última fase do ciclo de crédito, e considerando que a instituição possuabons modelos de prospecção e admissão, espera-se que a parcela de clientes que se torneinadimplentes seja baixa. No entanto, após os clientes se tornarem inadimplentes o modelo deCollection Score, segundo Sicsú (2010), é utilizado como instrumento para orientar as estratégiasde cobrança e o seu uso não só melhora o relacionamento com o cliente como reduz os custosde cobrança e a previsão de perdas. O processo de Collection Score, pode ser subdividido emalgumas classes de modelos, no qual pode citar como principais, os descritos na Figura 2:

Figura 2 – Ciclo de Collection Score

Fonte: Elaboração própria

• Cobrança Preventiva (Early Collection) : Modelo utilizado para identificar potenciaisclientes que podem entrar em atraso. É uma ferramenta, na qual a empresa pode enviarlembretes de aviso de vencimento para os clientes de maior risco, ou até mesmo avaliar ascaracterísticas do crédito tomado e propor novos produtos para evitar a inadimplência.

Page 19: Técnicas de Machine Learning aplicadas na recuperação de ...

Capítulo 3. Revisão Teórica 18

• Modelo de Alto Cura (Self Cure) : São modelos para identificar o pagamento espontâneode uma dívida, normalmente até 15 dias de atraso. O objetivo desta ferramenta é evitar oatrito com clientes adimplentes, mas que esqueceram de pagar suas dívidas e que com umlembrete honraram o débito. Esta é uma importante ferramenta para a redução de custoscom cobrança.

• Modelo de Cobrança (Collection Score) : São os principais modelos de cobrança, nosquais são utilizados para identificar as chances de o cliente quitar suas dívidas e tambémpara melhor adequar a régua e severidade de cobrança. Normalmente são aplicados entre15 e 180 dias de atraso.

• Modelo De Write-OFF (Recovery Score): São modelos que já são aplicados para os clientesque já possuem 100% de suas dívidas provisionadas. O objetivo é identificar clientes queestariam dispostos, normalmente com a aplicação de um desconto na dívida, de quitar seudébito.

• Modelos de melhor momento de contato (Best Time to call) : São modelos de suporte,para identificar o melhor tipo de contato, por exemplo: e-mail, telefone, carta, ou o melhorhorário para contato. Podem ser utilizados em todo o ciclo de cobrança.

• Modelos de renegociação: São modelos para prever as chances de um cliente aceitar umarenegociação da dívida ou de previsão de quebra de contrato de renegociação.

• Cessão de Carteira : São modelos para precificação de carteiras em dívidas que auxiliamno processo de cessão. Como esta ferramenta é possível determinar o percentual derecuperação da carteira e seu valor de venda.

Para esta dissertação será desenvolvido um modelo de Colection Score, por se tratar declientes com atrasos curtos e médios.

Para o desenvolvimento do Collection Score faz-se necessário variáveis de comporta-mento passado dos clientes, conhecidas como variáveis independentes, nas quais são modeladasa fim de classificar os clientes em termos de quitação de suas dívidas (variável dependente).

Figura 3 – Desenvolvimento Collection Score

Fonte: Elaboração própria

Page 20: Técnicas de Machine Learning aplicadas na recuperação de ...

Capítulo 3. Revisão Teórica 19

3.3 Regressão

O aprendizado pelo método de regressão se fundamenta na previsão de Yi a partir doconhecimento de xi. A análise de regressão pode ser descrita com algumas técnicas, por exemplo,logística e linear, utilizadas para estimar as relações entre as variáveis. Segundo Casella e Berger(2002), quando refere-se a regressão que é linear é o mesmo que dizer que aproximadamente aexpectância condicional de Y , dado X = x, é uma função linear de x. Resumidamente,

E(Yi|xi) = α +βxi (1)

Para uma amostra de n indivíduos, os pares de (xi,yi) para i = 1,2,3...n, satisfaz aseguinte equação:

Yi = α +βxi + ei (2)

no qual ei é o erro aleatório da variável Yi que não pôde ser explicada pelo comportamento davariável xi.

As diferenças entre os valores estimados e reais dos parâmetros α e β pode ser minimi-zada, minimizando os erros aleatórios e, para o caso da regressão linear, utiliza-se o método dosmínimos quadrados.

No entanto, a regressão linear simples não é a melhor técnica para quando a variáveldependente (Yi) é uma variável dicotômica (quando assume os valores de sucesso ou fracasso emum evento), para resolver esse problema a técnica estatística utilizada é a Regressão Logística,que tem como objetivo modelar a relação logística da variável resposta dicotômica com as demaisvariáveis explicativas.

Como o objetivo dessa dissertação é classificar os clientes entre os que quitam suasdívidas ou não, será utilizado a técnica de Regressão Logística para obter essa classificação,pois é o método atualmente mais utilizado no mercado financeiro, possuindo bastante robustez,estabilidade de informações e capacidade de interpretação dos parâmetros ajustados.

3.3.1 Regressão Logística

Como dito anteriormente, para estimação de eventos de classificação binária, no qualassume o valor 1 para sucesso e 0 caso contrário, o método mais apropriado dentro das técnicasde regressão é a Regressão Logística.

Para analisar π(x), na qual é uma função de distribuição de probabilidade quando x variaem uma reta real, tomam-se o vetor xt = (x1,x2, ...,xn) e Y uma variável dependente binária.Portanto,

Pr(Y = 1|x) = π(x) (3)

na qual é a probabilidade de sucesso dado o vetor de variáveis independentes.

Page 21: Técnicas de Machine Learning aplicadas na recuperação de ...

Capítulo 3. Revisão Teórica 20

No entanto, como π(x) pode variar fora dos valores de zero e um, é necessário a transfor-mação logística, pois a representação simples considerando todos os valores de x não é adequadojá que seria um exemplo de regressão linear simples.

Devido a isso, a transformação logística de forma linear, conforme Sicsú (2010), édescrita por:

Z = ln[

π(x)1−π(x)

]= β0 +β1x1 + ...+βnxn (4)

a qual é equivalente a,

π(x) =ez

1+ ez (5)

A aplicação do logaritmo natural da razão de chances é conhecido como logit nosmodelos de Regressão Logística e permite analisar a variável dependente binária de melhorforma.

A relação entre π(x) e a função logit Z pode ser vista na figura abaixo:

Figura 4 – Curva Logística

Fonte: Baseado em Sicsú (2010)

A estimação dos parâmetros da regressão logística não pode ser feita por mínimosquadrados devido a variável dependente ser binária, devido a isso, utiliza-se a estimação demáxima verossimilhança. A probabilidade para quando yi = 1 é igual a Pr(yi = 1|xi) = π(xi)

e para yi = 0 tem-se Pr(yi = 1|xi) = 1−π(xi), com isso a maneira equivalente de expressar acontribuição de cada indivíduo na função de verossimilhança é dada por:

Li = π(xi)yi[1−π(xi)]

(1−yi), (6)

para os valores de yi = 1 ou 0 para todo i variando de (1,..,n).

Como as observações são independentes, a função de verossimilhança pode ser descritacomo:

L =B

∏b=1

π(xi)yi[1−π(xi)]

(1−yi) (7)

Para encontrar o ponto máximo da função de verossimilhança, é necessário o uso demétodos iterativos como, por exemplo, Newton-Raphson o qual gera inicialmente valores

Page 22: Técnicas de Machine Learning aplicadas na recuperação de ...

Capítulo 3. Revisão Teórica 21

arbitrários como modelo inicial e avaliando os erros de previsão gera-se uma sequência desoluções até convergirem para a solução que maximiza a função.

Pode ser utilizado um método de seleção de variáveis para o qual definirá a fórmula finalde escoragem. Esse método é necessário porque a inclusão de muitas variáveis no modelo podenão contribuir para uma melhora de discriminação significante. O método mais utilizado e, usadonessa dissertação, é o algoritmo de Stepwise.

O método é feito de forma interativa, adicionando e excluindo variáveis a partir de umcritério de seleção, nesse caso um teste F, conforme Alves (2013).

Figura 5 – Método Stepwise

Fonte: Baseado em Alves (2013)

Além disso, nem todas as variáveis estudadas são utilizadas no modelo final de regressão,pois uma das etapas de desenvolvimento do modelo se faz necessário o estudo da correlação devariáveis para não ocasionar o problema de multicolinearidade. Nessa dissertação, a medida deassociação utilizada entre duas variáveis numa escala categórica foi o coeficiente de Cramer.

V =

√χ2/n

min(k−1,r−1), (8)

no qual k indica o número de colunas e r o número de linhas e χ2 é derivado do teste qui-quadradode Pearson, mais detalhes ver (CRAMÉR, 1946).

Page 23: Técnicas de Machine Learning aplicadas na recuperação de ...

Capítulo 3. Revisão Teórica 22

A correlação de Cramer varia entre 0 a 1, no qual para valores de V próximos a zero hápouca associação entre as variáveis testadas, enquanto que para valores próximos a 1 há fortecorrelação entre as variáveis e por isso foram excluídas da análise.

A análise dos coeficientes do modelo é bastante simples, já que os coeficientes indicam avariação da probabilidade de ocorrência de um evento, conforme varia uma unidade das variáveisindependentes. Quando maior for o valor do coeficiente, maior é o poder de predição da variávelindependente sobre a probabilidade de ocorrência do evento.

Uma maneira usual de interpretar os coeficientes do modelo logístico é utilizar a razãode chances também conhecido como Odds Ratio. Essa razão é uma medida relativa de efeito decomparação entre os eventos de sucesso e fracasso.

ODDS =π(1)/[1−π(1)]π(0)/[1−π(0)]

(9)

Se a ODDS apresentar um valor igual a 1, a variável estudada em questão não apresentadiferença entre sucesso e fracasso, para valores < 1 há indício de mais fracasso que sucesso, casocontrário, há mais indício de sucesso que fracasso.

Apesar da base do modelo logístico ser bastante teórica, os parâmetros geram bomentendimento do fenômeno estudado e pode ser utilizado variáveis categóricas e contínuas naestimação, facilitando ainda mais a interpretação dos coeficientes. Além disso, fornece bomajuste com menos parâmetros que outros modelos lineares, fazendo assim, com que a RegressãoLogística seja tão utilizada no mercado financeiro.

3.4 Ensemble

O aprendizado pelo método de ensemble, consiste em combinações de modelos maissimples e de baixo poder preditivo, para resultar em um modelo mais forte com maior acurácia.Dentro da classe de modelos Ensemble há duas técnicas comumente conhecidas como Bagging eBoosting.

Na metodologia Bagging, proposta por Breiman (2001), os classificadores são treinadosseparadamente e re-amostrados com reposição diversas vezes e em seguida agregados atravésde algum método de combinação como, por exemplo, a média de votos. Dentro da classe demétodos Bagging a técnica mais conhecida e, explorada nessa dissertação, é a Random Forest.

Igualmente a metodologia Bagging, o método Boosting, também é treinado por amostrasindividuais, no entanto o método de combinação não é a média dos votos, mas uma ponderaçãodo desempenho de cada modelo. Dentro da classe de modelos Boosting, é comumente conhecidoe, explorado nessa dissetação, o método de Gradient Boosting.

O diagrama abaixo apresenta as principais características entre estas duas técnicas:

Page 24: Técnicas de Machine Learning aplicadas na recuperação de ...

Capítulo 3. Revisão Teórica 23

Figura 6 – Ensemble

Baseado em GROVER (2017)

Pode-se avaliar no diagrama que a principal diferença entre os conceitos de Bagging eBoosting está ligada ao seu funcionamento, no qual no processo de Bagging o treinamento édado pela combinação de modelos independentes o que pode generalizar o treinamento. Já noprocesso de Boosting, o treinamento é dado por uma combinação dos modelos, normalmentegerada por uma aplicação de um fator entre cada iteração, minimizando assim as chances degeneralização (super ajuste).

3.4.1 Gradient Boosting

O método Gradient Boosting, é uma generalização do método de Adaboost propostopor Freund et al. (1996), utilizado para a resolução de problemas de classificação e regressão.Este consiste em uma série de combinações de modelos aditivos (modelos fracos), estimadositerativamente resultando em um modelo forte. Usualmente o método de Gradient Boosting

se utiliza de modelos de árvore de decisão, porém outros tipos de modelos, como a RegressãoLogística podem ser utilizados.

Considerando a utilização de árvores de decisão para o ajuste do Gradient Boosting, oobjetivo de cada árvore de decisão ajustada é minimizar a função de perda, ou seja, minimizaro gradiente da função objetivo do modelo corrente, mas para isso podemos ter funções deperda com vantagens e desvantagens para cada tipo de problema, pode-se citar como as 3principais funções de perda : 1) Mínimos quadrados; 2) Perda de Huber; e 3) Perda Absoluta;Neste trabalho, como será explorada uma resposta binária a função de perda mais indicada é os

Page 25: Técnicas de Machine Learning aplicadas na recuperação de ...

Capítulo 3. Revisão Teórica 24

mínimos quadrados dada por:

Perda = MSE = ∑(yi− ypi )

2 (10)

onde, yi = ith variável resposta, ypi = ith predito, L(yi,y

pi é a função de perda.

Com as iterações do algoritmo, o objetivo é que a função de perda seja minimizada parazero. Utilizando a função de gradiente descendente para a previsão, é possivel estimar os valoresque satisfazem a função de perda mínima, conforme:

ypi = yp

i +α ∗δ ∑(yi− ypi )/δyp

i (11)

tornando-seyp

i = ypi −α ∗2∗∑(yi− yp

i ) (12)

onde α é a taxa de aprendizagem e ∑(yi− ypi ) é a soma dos resíduos.

O parâmetro α comum entre os processos de Machine Learning é a taxa de aprendizagemdo algoritmo. Responsável por aplicar um coeficiente de redução nos estimadores de cadaiteração, reduzindo assim a generalização do modelo e evitando um possível super ajuste.

Definidas as principais funções do algoritmo de Gradient Boosting (funções de perdae gradiente descendente), pode-se descrever o passo a passo do funcionamento do algoritmo,conforme Friedman (2002).

1. Definição do número de iterações m = 1 até M.

2. Definição da função perda inicial

f0(x) = argminn

∑i=1

(L(yi,α))

3. Minimização dos resíduos

rim =−[

∂L(yi,F(xi)∂F(xi)

]F(x)=Fm−1(x)

para i = 1, ...,n

4. Ajuste da função anterior com os resíduos encontrados até a iteração M.

Fm(x) = Fm−1(x)+αmrm(x)

Definidas as funções e o passo a passo do algoritmo, um fator importante para a aplicaçãodo Gradient Boosting é a escolha dos hiperparâmetros, dentre dos quais pode-se destacar :

1. Número de iterações : Um número elevado de iterações pode levar a minimização sucessivados resíduos e ajustar inclusive os erros aleatórios. Devido a esse fato, a minimização dogradiente resulta em super ajuste. Para a identificação do número ideal de iterações, énecessário avaliar a performance do modelo em diferentes amostras fora do treinamento.

Page 26: Técnicas de Machine Learning aplicadas na recuperação de ...

Capítulo 3. Revisão Teórica 25

2. Taxa de Aprendizagem: Taxa de aprendizagem do algoritmo. É o % α que será utilizadopara a redução na estimativa dos coeficientes. É responsável por reduzir as chances desuper ajuste no aprendizado.

3. Profundidade da árvore : Número de folhas que cada árvore poderá ter. Profundidadesmuito elevadas podem gerar super ajuste.

4. Número mínimo de indivíduos por nó: Um alto número pode subestimar o ajuste, gerandoum baixo ajuste e um baixo pode gerar um super ajuste.

O processo de ajuste de modelos de Gradient Boosting, deve considerar o estresse desteshiperparâmetros, para a busca dos melhores valores que se ajustam a amostra de dados emestudo. Para a amostragem dos dados de treinamento, é recomendável a utilização de amostrasde desenvolvimento, teste e validação e mais uma amostra adicional fora do tempo. Para otreinamento as técnicas de amostragem mais utilizadas são: 1) Simples, no qual o algoritmo étreinado com uma amostra de 60% e validado e testado com duas amostras de 20%. 2) Métodok-fold (validação cruzada) que consiste dividir a base de treinamento em k partes iguais onde omodelo será ajustado para cada k parte e avaliado seu desempenho nas demais.

3.4.2 Random Forest

A técnica de Random Forest, proposta por Breiman (2001), é a mais disseminada dentrodo processo de modelos Ensemble utilizando o método Bagging, pois é uma técnica disponívelem vários pacotes e de performance muitas vezes próxima aos modelos de Boosting.

A ideia principal do Random Forest é reduzir a correlação de árvores de decisão dométodo Bagging, sem aumentar muito a variância, através da seleção aleatória das variáveis deentrada, pois para cada árvore de decisão gerada independente distribuída, a média esperada de B

árvores de decisão é a mesma esperada para qualquer uma delas e, portanto, somente reduzindoa variância (FRIEDMAN; HASTIE; TIBSHIRANI, 2001).

ρσ2 +

1−ρ

2 (13)

Algoritmo Random Forest:

1. Para b = 1 até B

i) Amostra bootstrap Zde tamanho N a partir da base de treinamento.

ii) Selecione m variáveis aleatoriamente a partir de p variáveis.

iii) Selecione a melhor variável de acordo com seu poder de discriminação da variávelde interesse.

Page 27: Técnicas de Machine Learning aplicadas na recuperação de ...

Capítulo 3. Revisão Teórica 26

iv) Divida o nó a partir de dois nós filhos.

1. Reporte o ensemble de árvores

Para fazer a previsão em um novo ponto x utilizando regressão:

f̂ Br f (x) =

1B

B

∑b=1

Tb(x) (14)

3.5 Support Vector Machine

Support Vector Machine (SVM) é um algoritmo desenvolvido por Cortes e Vapnik (1995),com o intuito de resolver problemas de classificação de padrões. O algoritmo é fundamentadoem um problema de otimização matemática e embasado na teoria de aprendizagem estatística,buscando obter um equilíbrio entre minimizar o excesso de ajuste na amostra de treinamentoe aumentar a capacidade de generalização dos classificadores, pois quanto mais complexo foro hiperplano de decisões dessas funções no espaço de entrada dos dados, maior será o riscoestrutural (CHERKASSKY; MA, 2004).

Considerando amostras de treinamento de diferentes classes linearmente separáveis, afunção de decisão mais adequada é aquela para qual a distância entre os conjuntos é maximizada,por isso, a função de decisão em SVM é ótima.

Um hiperplano com margem máxima é considerado ótimo se consegue separar umconjunto de dados e ainda maximizar a distância entre os vetores, como pode ser observado naFigura 7 abaixo:

Figura 7 – Hiperplano ótimo separando os dados com máxima margem

Fonte: Adaptado de ABE (2005)

Assume-se que os dados do domínio em que está ocorrendo o aprendizado são geradosde forma independente e identicamente distribuídos e o erro esperado de um classificador f paraos dados de teste pode ser observado na Equação 15 abaixo:

R(α) =∫ 1

2|y− f (x,α)|dPr(x,y) (15)

Page 28: Técnicas de Machine Learning aplicadas na recuperação de ...

Capítulo 3. Revisão Teórica 27

no qual, 12 |y− f (x,α) é uma função de custo da previsão de f (x) e para os casos de classificação,

estudado nessa dissertação, tem-se o retorno de 0 quando x é classificado corretamente e 1, casocontrário.

A distribuição de probabilidade Pr(x,y) é desconhecida dos dados de treinamentosretirados (LORENA; CARVALHO, 2007), não sendo possível computar essa equação, portantoutiliza-se a média da taxa de erro dos elementos, definido como risco empírico, dado abaixo:

Remp(α) =∫ 1

2D

D

∑i=1|yi− f (xi,α)| (16)

No entanto, a minimização apenas do risco empírico não garante uma boa capacidadede generalização, sendo assim necessário um classificador f∗ tal que R( f∗) = min f∈F , onde Fé o conjunto de funções f possíveis. Para isso, a teoria de aprendizado estatístico considera acomplexidade da classe de funções que o algoritmo de aprendizado é capaz de obter e provêdiversos limites no risco esperado de uma função de classificação.

Portanto, um limite fornecido pela TAE relaciona-se ao risco esperado de uma função aoseu risco empírico a um termo de complexidade, dado por:

R(α) = Remp( f )+

√h[log(

2Dh)+1]− log(

θ

4), (17)

no qual, h denota a dimensão Vapnik-Chervonenkis (VC), mais detalhes ver (CORTES;VAPNIK, 1995).

Através da Inequação 17 é possível afirmar a importância de se controlar a capacidadedo conjunto de funções f do qual o classificador é extraído, conforme observado em Lorena eCarvalho (2003). Pois, o risco esperado pode ser minimizado pela escolha adequada por parte doalgoritmo de aprendizado, de um classificador F que minimize o risco empírico e que pertença auma classe de funções F com baixa dimensão VC h, conforme Vapnik (2013).

3.5.1 SVMs Lineares

A formulação matemática, baseada em ABE (2005), e implementada nos algoritmosde SVM é dada por um conjunto de treinamento xi com (i = 1,2...,D) em um problema queconsiste em duas classes linearmente separáveis w1 e w2, no qual cada amostra associa-se yi = 1quando xi ∈ w1 e yi =−1 quando xi ∈ w2. Em termos gerais,

D(x) =D

∑i=1

wixi +b (18)

Page 29: Técnicas de Machine Learning aplicadas na recuperação de ...

Capítulo 3. Revisão Teórica 28

equivalente, em termos de produto interno:

D(x) = wT x+b (19)

onde w é um vetor d-dimensional (pesos) e b um termo independente.

Suponha que os exemplos de treinamento são linearmente separáveis, isto é, satisfazemas seguintes restrições:

xi.w+b≥ 1 para yi = 1 (20)

xi.w+b≤−1 para yi =−1 (21)

Combinando as igualdades, pode-se obter:

yi(xi.w+b)−1≥ 0, i = 1,2, ...,D (22)

Considerando exemplos, nos quais se dá a igualdade na Equação 22, esses são pontossobre o hiperplano xi.w+b = 1 com normal w e distância perpendicular a origem de |1−b|

||w|| e para

o caso de xi.w+b =−1 com normal w e distância perpendicular a origem de |−1−b|||w|| .

Assim, a largura da margem possui valor 2||w|| e para maximizar os dois hiperplanos que

geram essa margem, minimiza-se ||w||2, gerando um problema de otimização quadrática sujeitoas restrições definidas como:

minw,b =12||w||2 (23)

A inclusão das restrições no problema de minimização pode ser resolvida por meio datécnica de multiplicadores de Lagrange, pois sem a mesma, a minimização seria muito trabalhosadado que w forma um produto escalar, visto na Equação 19.

A formulação lagrangeana é dada pela introdução de αi,(i = 1,2...,D) um para cadauma das restrições definidas na Equação 23 e subtraindo o resultado da função objetivo definida,obtendo:

L(α,w,β ) =12||w||2−

D

∑i=1

αi[yi(xi.w+b)−1] (24)

É necessário minimizar a Equação 24 com relação a w e β e com o resultado restantemaximizar com relação a α ≥ 0, conhecido como um problema de otimização dual.

Page 30: Técnicas de Machine Learning aplicadas na recuperação de ...

Capítulo 3. Revisão Teórica 29

Em um ponto ótimo, as seguintes equações de ponto de cela são:

∂L∂b

= 0 e∂L∂w

= 0 (25)

Gerando respectivamente,

D

∑i=1

αiyi = 0 e w =D

∑i=1

αiyixi = 0 (26)

Substituindo esses resultados na formulação lagrangeana, maximiza-se:

maxα W (α) =D

∑i=1

αi−12

D

∑i=1

αiα jyiy j(xi · x j)

su jeito a αi ≥= 0, i = 1,2, ...DD

∑i=1

αiyi = 0

(27)

Para a resolução do problema de maximização, utiliza-se o método gradiente descentever (LORENA; CARVALHO, 2007).

Pode-se mostrar que SVM apresenta vantagens com respeito a classificadores convencio-nais, especialmente quando o número de amostras de treinamento é pequeno e a dimensionalidadedos dados é grande, devido ao fato de que os classificadores convencionais não têm mecanismospara maximizar a margem (distância entre os dois hiperplanos extremos). A maximização damargem permite aumentar a capacidade de generalização do classificador, conforme ABE(2005).

3.5.2 SVMs Não Lineares

Apesar da eficiência do algoritmo de SVM em separar linearmente os dados de trei-namento, em problemas reais dificilmente é possível separar os dados de treinamento por umhiperplano e, por isso, surge a técnica de SVM não linear.

Uma das maneiras de solucionar esses casos é mapear os dados em uma maior dimensão,conforme Lorena e Carvalho (2007), ou seja, em uma dimensão que em, por exemplo, ℜ2 sejanão linear, enquanto que em ℜ3 seja linear, ou seja, se redimensiona o espaço de característicaspara podermos utilizar um SVM linear. Para isso, utiliza-se as funções Kernel pela simplicidadeno cálculo e capacidade em gerar espaços dimensionais e essas funções podem ser polinomiais,gaussiano e sigmoidal, ver (CHAPELLE et al., 2002).

Page 31: Técnicas de Machine Learning aplicadas na recuperação de ...

Capítulo 3. Revisão Teórica 30

3.6 Métricas de Validação

Diversos métodos e métricas podem ser utilizados para avaliar a acurácia, qualidadee estabilidade de modelos desenvolvidos. Estes indicadores são importantes para qualificar omodelo, sendo para a avaliação de sua estabilidade em comparação com diferentes amostras(desenvolvimento, teste e fora do tempo) ou para comparar modelos que classifica melhor opúblico em análise.

Nos processos de ajuste de modelos binários, que é o estudo de caso desta dissertação,as métricas comumente utilizadas são:

1. Teste de Kolmogorov-Smirnov

2. Curva AUROC

3. Coeficiente de Gini

4. Análise de ordenação de score

5. Valor da informação (IV) e Peso de evidência (WOE)

6. Índice de estabilidade populacional ( PSI)

Detalha-se, abaixo, cada uma das métricas de avaliação:

3.6.1 Teste de Kolmogorov-Smirnov

O teste de Kolmogorov–Smirnov é um teste não paramétrico, com o objetivo de comparara distância entre duas distribuições acumuladas. Ele pode ser utilizado para a comparação daseparação das distribuições de um evento binário, no caso deste trabalho clientes recuperados =0 e clientes não recuperados = 1, sendo cada uma das informações uma distribuição acumulada(FDA), ordenadas pela probabilidade ou score. Nesta aplicação, quanto maior for o resultado(indicação de maior diferença entre as distribuições), melhor está a acurácia do modelo, poisa separação dos eventos é maior. Outra possibilidade de aplicação do teste de K-S é para acomparação de distribuições em diferentes bases ou amostras, na qual a distribuição pode sera probabilidade de recuperação (probabilidade do modelo) na base de desenvolvimento e nabase de teste. Nesta aplicação, quanto menor for o resultado do teste é um indicativo que asdistribuições são similares e, neste caso, não ocorreu super ajuste ou a distribuição continuaaderente ao observado no público de desenvolvimento. A estatística de Kolmogorov–Smirnovpode ser descrita por por :

Dn,m = Max|F1,n(x)−F2,m(x)|, (28)

Page 32: Técnicas de Machine Learning aplicadas na recuperação de ...

Capítulo 3. Revisão Teórica 31

Onde Max é a maior distância entre as distribuições F1 e F2; e F1 e F2 são as funções dedistribuição acumuladas.

Na simulação abaixo, foi aplicado o teste de K-S para uma amostra de dados, com oobjetivo de avaliar a acurácia do modelo em observação. No caso, o teste de K-S está avaliando aseparação de duas distribuições (Recuperados = 0 e não recuperados = 1). Para o cálculo do testede K-S, ambas as distribuições de recuperados e não recuperados foram acumuladas, por faixasde escore (modelo que está sendo avaliado) buscando a maior diferença entre as distribuições,conforme a Figura 8.

Figura 8 – Teste de K-S - Avaliação de qualidade de ajuste

Fonte: Elaboração própria

O ponto de maior distância entre as distribuições é de 53 pontos, portanto o resultadodo teste de K-S para esta simulação é de 53%, o que indica que o modelo possui uma ótimaseparação entre recuperados e não recuperados. O gráfico apresentado na Figura 8 apresenta adistribuição das curvas acumuladas.

Em uma segunda simulação, o teste de K-S foi aplicado para avaliar a diferença entreduas amostras de dados (desenvolvimento e teste), com o objetivo de identificar se o ajuste domodelo sofreu super ajuste ou não ou se o modelo é aderente para outras amostras. Para o cálculodo teste de K-S, ambas as distribuições de escore das diferentes amostras foram acumuladas,por faixas de escore (modelo que está sendo avaliado), buscando a maior diferença entre asdistribuições, conforme a Figura 9.

O ponto de maior distância entre as distribuições é de 3 pontos, portanto o resultadodo teste de K-S para esta simulação é de 3%, o que indica que as distribuições de score sãosimilares e que o modelo é aderente a base de teste. O gráfico apresentado na Figura 9 apresentaa distribuição das curvas acumuladas.

3.6.2 Curva AUROC

A curva ROC, segundo Fawcett (2006), é uma técnica de visualização, organização eseleção de classificadores com base em seu desempenho e nos últimos anos tem crescido seu uso

Page 33: Técnicas de Machine Learning aplicadas na recuperação de ...

Capítulo 3. Revisão Teórica 32

Figura 9 – Teste de K-S - Avaliação de difenrença entre amostras

Fonte: Elaboração própria

Tabela 1 – Valores referenciais de K-S para acurácia

Valor de KS Credit/Collection scoring Behavioral scoringMenor que 20% Baixo Baixo

20% a 25% Baixo/aceitável Baixo25% a 30% Bom Baixo30% a 50% Muito Bom Aceitável50% a 60% Excelente Bom60% a 70% Valores Poucos Usuais Muito Bom

Maior que 70% Excelente valores pouco usuaisFonte: Baseado em Sicsú (2010)

nos algoritmos de Machine Learning devido as métricas tradicionais de acurácia não serem tãoricas em modelos de classificação.

Considera-se a distinção entre a classes atuais e a classes preditas em quatro possíveisresultados:

Tabela 2 – Matriz de confusão

Valor Previsto

Valor ObservadoPositivos Negativos

Positivos VP - Verdadeiro Positivo FP - Falso PositivoNegativos FN - Falso Negativo VN - Verdadeiro Negativo

Fonte: Elaboração própria

A sensitividade é a probabilidade de decidir se o evento em questão está presente quandode fato está presente, enquanto que a especificidade é a probabilidade de decidir se o evento emquestão não ocorre quando, de fato, não ocorre. Com isso, pode-se representar os falsos positivoscomo (1-especificidade).

A partir disso, é possível ter um teste que que seja ao mesmo tempo altamente sensívele altamente específico, pois um valor de corte fixa um par sensibilidade/especificidade. Estespares podem ser representados como valores de coordenadas ”y”e”x” dando origem ao gráfico

Page 34: Técnicas de Machine Learning aplicadas na recuperação de ...

Capítulo 3. Revisão Teórica 33

designado por curva ROC.

Figura 10 – Exemplo de curva ROC

Fonte: Baseado em Sicsú (2010)

3.6.3 Coeficiente GINI

Como a área sobre a curva ROC varia de 0,5 a 1, é usual a utilização, segundo Thomas(2017) o coeficiente de GINI, cuja a variação é de 0 a 1, que é dado por duas vezes a área entre acurva ROC e a reta diagonal.

3.6.4 Análise de ordenação de score

Além das métricas matemáticas citadas como K-S e AUROC, uma outra prática paraa avaliação de acurácia de modelos e comparação entre duas diferentes equações é a análisede ordenação de escore e avaliação de pontos de corte. O processo consiste em uma análisenumérica e gráfica da qualidade da ordenação do modelo. Para sua construção são realizados osseguintes passos:

1. Ordenação da amostra de dados pela probabilidade ou escore, considerando a ordenaçãodo melhor para o pior, neste estudo dos indivíduos mais propensos a quitar suas dívidaspara os menos propensos.

2. Cálculo do percentual acumulado da amostra até aquele ponto e as métricas de: % doevento, % dos indivíduos bons acumulados e % dos indivíduos maus da base.

3. Construção de gráfico de dispersão, no qual: eixo x é o % de recuperação acumulado e oeixo y o % da amostra.

A Tabela 3 apresenta um exemplo de avaliação da métrica de ordenação de escore,conforme observa-se, considerando os 40% indivíduos melhores classificados, temos para oModelo 1 – 54% de não recuperação e 49% de não recuperação para o Modelo 2, quandoobservado os percentuais de acúmulo por evento tem-se para o Modelo 1 – 68% de todos

Page 35: Técnicas de Machine Learning aplicadas na recuperação de ...

Capítulo 3. Revisão Teórica 34

indivíduos recuperados contra 80% do Modelo 2, o que indica que a ordenação do Modelo 2é bastante superior ao Modelo 1. A Figura 11 apresenta o gráfico de ordenação, ponto a pontocomparando os modelos.

Tabela 3 – Ordenação de escore - Pontos de Corte

% Não Recuperado % Não Recuperado Acumulado % Recuperado AcumuladoPonto de Corte

Modelo 01 Modelo 02 Modelo 01 Modelo 02 Modelo 01 Modelo 021% 5% 4% 0% 0% 7% 7%5% 13% 12% 1% 1% 19% 19%10% 24% 22% 4% 3% 31% 31%20% 38% 35% 11% 10% 48% 48%30% 48% 43% 20% 18% 60% 60%40% 54% 49% 30% 25% 68% 80%50% 59% 53% 41% 30% 77% 82%60% 63% 57% 52% 47% 84% 85%70% 66% 60% 64% 58% 89% 88%80% 69% 62% 76% 68% 94% 93%90% 71% 65% 88% 81% 98% 96%95% 72% 69% 95% 90% 99% 98%99% 73% 71% 100% 97% 100% 99%

100% 73% 73% 100% 100% 100% 100%Fonte: Elaboração própria

Figura 11 – Ordenação de escore - Ponto a Ponto

Fonte: Elaboração própria

3.6.5 Valor da informação (IV) e Peso de evidência (WOE).

As métricas de valor da informação e peso de evidências, são amplamente utilizadas pelomercado para avaliar o poder de discriminação de variáveis categorizadas, conforme (SICSÚ,2010). Com a aplicação destas métricas é possível comparar a capacidade de separação de

Page 36: Técnicas de Machine Learning aplicadas na recuperação de ...

Capítulo 3. Revisão Teórica 35

cada categoria (peso de evidência) e a capacidade total de discriminação da variável (Valor dainformação). A fórmula para o cálculo do peso de evidência é dada por :

WOE = ln(%evento = 0/%evento = 1) (29)

A fórmula para o cálculo do valor da informação é dada por :

IV =IV

∑IV=1

((%evento = 0−%evento = 1)∗WOE) (30)

Foi convencionada uma tabela com valores de informação para qualificar a qualidade dediscriminação de cada variável sendo :

Tabela 4 – Valores referenciais de IV

Valor da Informação (IV) Poder de discriminação<0,02 Sem discriminação

0,02 a 0,10 Baixo poder0,10 a 0,30 Médio poder0,30 a 0,50 Alto poder

Acima de 0,50 Valor Muito Alto (possibilidade de variável futura)Fonte: Elaboração própria

Para casos onde existe uma alta oferta de variáveis para o ajuste dos modelos, é umaprática a utilização do valor de informação IV para selecionar variáveis (exclusão de variáveiscom baixo poder discriminatório), porém as variáveis com baixo IV podem ser utilizadascombinadas com outras quando não há a oferta de variáveis com alto poder de discriminação.

3.6.6 Índice de estabilidade populacional (PSI)

A estabilidade populacional é utilizada para verificar a distribuição da população entreas variáveis categóricas da amostra de desenvolvimento e monitoramento e, por fim, o modelofinal.

PSI = (ri−mi)∗ ln(

ri

mi

), (31)

no qual ri é a proporção de indivíduos no desenvolvimento e mi é a proporção na amostra demonitoramento. Para mais detalhes ver (SICSÚ, 2010).

Page 37: Técnicas de Machine Learning aplicadas na recuperação de ...

Capítulo 3. Revisão Teórica 36

Tabela 5 – Valores referenciais de PSI

PSI Alteração<0,1 Não houve alteração

0,1 a 0,25 Possível alteraçãoAcima de 0,25 Há alteração de perfil

Fonte: Baseado em Sicsú (2010)

Page 38: Técnicas de Machine Learning aplicadas na recuperação de ...

37

4 METODOLOGIA

Para o desenvolvimento desta dissertação, foi fornecida pela Serasa Experian umaamostra de dados para ser utilizada exclusivamente para os testes de metodologia. A amostrafornecida é referente a uma base de Collection Score, no qual o objetivo é a predição dos clientesmais propensos a quitar seus débitos em até 180 dias da data de observação, considerandoclientes com atrasos de curto e médio prazos. As informações da base de dados são protegidas enão possuem identificação (clientes).

4.0.1 Avalição dos dados fornecidos

A base fornecida para o estudo contém 147.264 registros distribuídos em 12 safras dedezembro/2015 a novembro/2016, sendo o período de dezembro/2015 a setembro/2016 paratreinamento, e de outubro e novembro de 2016 para teste fora do tempo. A base possui 101variáveis preditoras divididas em: 2 variáveis cadastrais, 65 variáveis de histórico de restriçõesativas, comportamento, regularização e tipos de restrição, 34 variáveis de comportamentohistórico e tipos de consulta ao crédito e 3 variáveis de identificação.

As safras e índices de recuperação possuem estabilidade ao longo das safras conformepode-se observar na Figura 12. Em média, cerca de 12.200 registros por safra com uma nãorecuperação de em média 73,2%.

Figura 12 – Distribuição de registros e evento por safra

Fonte: Elaboração própria

Page 39: Técnicas de Machine Learning aplicadas na recuperação de ...

Capítulo 4. Metodologia 38

4.0.2 Tratamento de dados – Categorização

Todas as variáveis fornecidas foram categorizadas, para que no momento do ajustepossamos contar com a opção de trabalhar com a variável contínua ou categorizada. O processode categorização aplicado consiste na separação da identificação de valores nulos em umaclasse separada e na divisão da variável contínua em classes, determinadas pelo algoritmo deárvore de decisão. Após esta categorização, cada variável foi avaliada para garantir que suacategorização seja monotônica e foram realizados agrupamentos para adequação ao sentidode negócio. Para facilitar a visualização das categorizações, foi desenvolvido um relatórioReportVariveis, contendo indicadores como ODDS, WOE, IV e PSI por categoria e safra.

Figura 13 – Exemplo do relatório para avaliação de categorias

Fonte: Elaboração própria

4.0.3 Amostragem de dados

Para o desenvolvimento do estudo foi aplicada uma amostra aleatória de dados no qual:

1. Das Safras de Dezembro/2015 a setembro/2015:

a) 60% foi marcado como desenvolvimento

b) 20% foi marcado como amostra de teste

c) 20% foi marcado como fora da amostra

2. As safras de outubro e Novembro/2016 foram marcadas como amostras fora do tempo.

Page 40: Técnicas de Machine Learning aplicadas na recuperação de ...

Capítulo 4. Metodologia 39

Para garantir a avaliação das metodologias e não possuir viés de processo de amostragem,todos os ajustes serão realizados utilizamos as mesmas marcações de amostra. Para metodologiascomo Regressão Logística e Random Forest que não oferecem suporte para o uso de amostra deteste ela será considerada como uma segunda amostra fora do tempo. Para as metodologias deGradient Boosting e Randon Forest a amostra de desenvolvimento também será balanceada em50% para cada evento.

Pode-se verificar na Figura 14 que as amostras permanecem com as mesmas característi-cas sem evidências de instabilidade e viés amostral.

Figura 14 – Estabilidade das amostras

Fonte: Elaboração própria

4.1 Metodologia Regressão Logística

Para o ajuste do modelo de Regressão Logística os seguintes passos foram realizados:

1. Preparação da base de dados:

a) Utilização das amostras padrão do estudo.

b) Para a base de treinamento foi utilizada a proporção real do evento.

c) Categorização das variáveis: Como descrito no item 4.0.2 (tratamento de dados -categorização). Para o ajuste da Regressão Logística optou-se somente pela utili-zação de variáveis categorizadas, pois a metodologia exige uma alocação para osregistros nulos e para essa técnica de modelagem é considerado uma boa prática acategorização para um melhor controle das classes que estão sendo pontuadas nomodelo.

Page 41: Técnicas de Machine Learning aplicadas na recuperação de ...

Capítulo 4. Metodologia 40

2. Ajuste Inicial / Seleção de variáveis

Para o ajuste da Regressão Logística, foi utilizado um processo de seleção Stepwise para aseleção do vetor de variáveis candidatas. Os parâmetros de entrada e saída de variáveisforam indicados a 5% de significância. Após a execução desta seleção, das 86 variáveiscandidatas, 48 foram selecionadas pelo método de Stepwise.

3. Refinamento do modelo

Com o vetor de variáveis selecionado foi iniciado o ajuste do modelo, que consiste naavaliação da significância de cada categoria (p-valor) e a interpretação de negócio paracada um dos parâmetros. Em caso de a categoria da variável não apresentar significânciaaceitável (p-valores superiores a 5%), ou parâmetro ajustado invertido em relação ainterpretação de negócio, a categorização é reavaliada, buscando uma nova configuraçãopara o ajuste (alocação da categoria com categoria mais próxima, ou remoção da variável).A utilização de variáveis correlacionadas, para o processo de ajuste de uma RegressãoLogística pode gerar problemas na estimativa dos parâmetros, portando é uma práticano processo de ajuste, avaliar a correlação entre variáveis e selecionar somente as nãocorrelatas. Como neste ajuste, somente variáveis categorizadas estão sendo utilizadas, amedida de correlação utilizada foi a correlação de Cramer (CRAMÉR, 1946). Para estadissertação, considerou-se somente as variáveis que possuíram uma correlação de Cramerinferior a 0,45.

Para o treinamento do modelo os seguintes passos foram realizados:

a) Ajuste do modelo com as primeiras 10 variáveis selecionadas pelo processo deStepwise.

b) Avaliação de correlação de Cramer e remoção de variáveis correlatas.

c) Avaliação de significância e interpretação de negócio.

Foram ajustados 4 ciclos de ajuste, considerando em cada um deles a adição das próximas10 variáveis selecionadas pelo Stepwise e reaplicando os passos descritos acima. Em cadaum dos ciclos, novos modelos foram gerados avaliando a melhor alocação das categoriase ajustes de significância, totalizando até a versão finalista 42 ajustes. Para assegurar aqualidade do modelo, após finalizado o ajuste, foi realizado uma avaliação de métricas deacurácia (K-S e AUROC) e estabilidade do modelo e variáveis por amostras e safras. Nãoforam evidenciadas instabilidades e neste caso uma correção do ajuste não foi necessária.A Figura 15 abaixo, apresenta os resultados de K-S para cada um dos ciclos realizadosaté o modelo final. O modelo selecionado é o do ciclo 04, não necessariamente o melhormodelo foi o selecionado, pois após os tratamentos de variáveis (remoção de correlação,significância e interpretação) o modelo pode perder um pouco de discriminação.

Page 42: Técnicas de Machine Learning aplicadas na recuperação de ...

Capítulo 4. Metodologia 41

Figura 15 – Regressão Logística - Resultado das simulações

Fonte: Elaboração própria

4.2 Metodologia Gradient Boosting

Para o ajuste do modelo de Gradient Boosting os seguintes passos foram realizados:

1. Preparação da base de dados:

a) Utilização das amostras padrão do estudo.

b) Para a base de treinamento foi utilizada a amostra balanceada em 50% para cadaevento. Gerando uma base com 19.639 registros para cada evento (recuperados e nãorecuperados).

c) Tratamento de variáveis:

i. Correção de nulos: Foi aplicado uma nova marcação de nulos. Como as variáveispossuem codificação própria para os valores nulos (-1,-2,-3 e outros), eles foramconvertidos para nulos, para que o algoritmo de Gradient Boosting considere osregistros em uma classe isolada.

ii. Categorização das variáveis: Como descrito no item 4.0.2 (tratamento de dados -categorização) as variáveis foram categorizadas.

2. Ajuste Inicial / Seleção de variáveis

O primeiro passo é a execução do treinamento de Gradient Boosting considerando todo ovetor de variáveis (contínuo e categorizado) para identificar o potencial do ajuste, iniciandoo processo de seleção de variáveis e estresse dos super parâmetros. Nesta fase foi realizadoum ajuste considerando os parâmetros abaixo:

• Proporção de Treino: 0,5

• Número de Iterações: 100

• Taxa de aprendizagem : 0,1

• Número mínimo de registros nó : 20

Page 43: Técnicas de Machine Learning aplicadas na recuperação de ...

Capítulo 4. Metodologia 42

Após a execução desta primeira seleção, das 186 variáveis candidatas, 92 foram seleciona-das, ou seja, possuem pelo menos uma regra que foi utilizada no algoritmo.

3. Refinamento do modelo

Com o vetor de variáveis selecionado e as mesmas parametrizações, foram realizadosajustes considerando as 20, 30 e 40 variáveis com maior importância para o algoritmo, como objetivo de simplificar a complexidade do algoritmo reduzindo o número de variáveispreditoras. O vetor de variáveis que apresentou a melhor classificação e com o menornúmero de variáveis foi considerando as 20 variáveis mais importantes.

O estrese dos super parâmetros foi iniciado alterando as proporções de treinamento, taxa deaprendizagem, número de iterações, profundidade e número de indivíduos por nó. Por fim,foram realizados 10 desenvolvimentos para a escolha do modelo final. A Figura 16 abaixoapresenta o gráfico com as métricas de K-S para cada amostra em cada um dos testes. Omodelo que gerou um melhor resultado na amostra fora do tempo, com a menor diferençaem comparação com a amostra de desenvolvimento foi considerado a melhor simulação,que no caso foi a simulação 06. O modelo final possui as seguintes parametrizações:

• Número de variáveis: TOP 20

• Proporção de Treino: 0,5

• Número de Iterações: 100

• Taxa de aprendizagem : 0,06

• Número mínimo de registros nó : 20

Figura 16 – Gradient Boosting - Resultado das simulações

Fonte: Elaboração própria

Para assegurar a qualidade do modelo, após finalizado o ajuste, foi realizado uma avaliaçãode métricas de acurácia (K-S e AUROC) e estabilidade do modelo por amostras e safras.

Page 44: Técnicas de Machine Learning aplicadas na recuperação de ...

Capítulo 4. Metodologia 43

4.3 Metodologia Randon Forest

Para o ajuste do modelo de randon forest os seguintes passos foram realizados:

1. Preparação da base de dados :

a) Utilização das amostras padrão do estudo.

b) Para a base de treinamento foi utilizada a amostra balanceada em 50% para cadaevento. Gerando uma base com 19.639 registros para cada evento (recuperados e nãorecuperados).

c) Tratamento de variáveis:

i. Correção de nulos: Foi aplicado uma nova marcação de nulos. Como as variáveispossuem codificação própria para os valores nulos (-1,-2,-3 e outros), eles foramconvertidos para nulos, para que o algoritmo de Random Forest considere osregistros em uma classe isolada.

ii. Categorização das variáveis: Como descrito no item 4.0.2 (tratamento de dados -categorização) as variáveis foram categorizadas.

2. Ajuste Inicial / Seleção de variáveis

O primeiro passo foi a execução do treinamento de Random Forest considerando todoo vetor de variáveis (contínuo e categorizado) para identificação do potencial de ajuste,iniciando o processo de seleção de variáveis e estresse dos super parâmetros. Nesta fase,foram realizados 4 ajustes sendo:

• Parâmetros Iniciais:

– Proporção de Treino: 0,7

– Proporção de Treino: 0,7

– Número de Iterações: 100

– Número de Variáveis para teste: 10

– Alpha (P-valor): 0,10

– Profundidade: 50

– Número mínimo de registros folha: 10

• Ajuste 1: Busca do número de iterações ideal, observando que com 30 iterações nãoexistia mais redução de resíduos considerável.

• Ajustes 2, 3 e 4, alterou-se os parâmetros de: Iterações: 30; número mínimo deregistros por folha para 50, e o número de variáveis para teste para 5. Com osresultados do Ajuste 4, foram removidas as variáveis que não possuem importância.

Page 45: Técnicas de Machine Learning aplicadas na recuperação de ...

Capítulo 4. Metodologia 44

3. Refinamento do modelo

Selecionado o vetor de variáveis, iniciou-se o teste de estresse dos super parâmetros,alterando as proporções de treinamento, número de variáveis para os testes, nível dep-valor, número de iterações, profundidade e número de indivíduos por nó. Por fim, foramrealizados 15 desenvolvimentos para a escolha do modelo final. A Figura 17 abaixoapresenta o gráfico com as métricas de K-S para cada amostra em cada um dos testes, ocritério para seleção do melhor modelo foi o que gerou um melhor resultado na amostrafora do tempo e que possui estabilidade (simulação 11). A simulação 7 foi forçada para umsuper ajuste para demonstração da importância de se avaliar corretamente os parâmetros,pois nem sempre o melhor modelo na amostra de desenvolvimento é o melhor modelopara a produção.

Figura 17 – Random Forest- Resultado das simulações

Fonte: Elaboração própria

A simulação 11 foi a selecionada como ajuste final do processo de Random Forest e osseguintes parâmetros foram utilizados:

• Parâmetros Finais:

– Variáveis Utilizadas: 25

– Proporção de Treino: 0,6

– Número de Iterações: 40

– Número de Variáveis para teste: 5

– Alpha (P-valor) : 0,10

– Profundidade: 50

– Número mínimo de registros folha: 10

Para assegurar a qualidade do modelo, após finalizado o ajuste foi realizado uma avaliaçãode métricas de acurácia (K-S e AUROC) e estabilidade do modelo por amostras e safras.

Page 46: Técnicas de Machine Learning aplicadas na recuperação de ...

Capítulo 4. Metodologia 45

4.4 Metodologia Support Vector Machine

Para o ajuste do modelo de Support Vector Machine os seguintes passos foram realizados:

1. Preparação da base de dados:

a) Utilização das amostras padrão do estudo.

b) Para a base de treinamento foi utilizada a proporção real do evento.

c) Tratamento de variáveis:

i. Categorização das variáveis: Como descrito no item 4.0.2 (tratamento de dados -categorização). Para o ajuste do SVM somente variáveis categorizadas foramutilizadas, pois a metodologia exige uma alocação para os registros nulos.

2. Ajuste Inicial / Seleção de variáveis

Para o ajuste do SVM, foi utilizado um processo de seleção Stepwise para a seleção dovetor de variáveis candidatas para o treinamento. Os parâmetros de entrada e saída devariáveis foram indicados a 5% de significância. Após a execução desta seleção, das 86variáveis candidatas, 29 foram selecionadas pelo método de Stepwise.

3. Refinamento do modelo

Com o vetor de variáveis selecionado foi iniciado o estresse do parâmetro de iteraçõesutilizando a função linear. Foram realizados 3 testes considerando o vetor de variáveisselecionado pelo Stepwise, mais um teste considerando todas as 86 variáveis para avaliar adiferença de acurácia. Conforme a Figura 18 abaixo, a simulação 3 que considera o vetorde variáveis selecionado com 29 variáveis, função linear e 20 iterações apresentou a melhoracurácia com a menor complexidade. A acurácia obtida em utilizar o vetor completo de196 variáveis apesar de ser ligeiramente maior não justifica sua complexidade.

Figura 18 – Support Vector Machine - Resultado das simulações

Fonte: Elaboração própria

Para assegurar a qualidade do modelo, após finalizado o ajuste foi realizado uma avaliaçãode métricas de acurácia (K-S e AUROC) e estabilidade do modelo por amostras e safras.

Page 47: Técnicas de Machine Learning aplicadas na recuperação de ...

46

5 RESULTADOS

Com base no conjunto de dados fornecido, foram desenvolvidos 4 modelos preditivosutilizando as metodologias de : Regressão Logística, Gradient Boosting, Random Forest eSupport Vector Machine, conforme descritos no capitulo 4 – Metodologia. Nesta sessão serãodescritos os principais resultados de cada um dos ajustes e uma comparação com a RegressãoLogística.

5.1 Metodologia Regressão Logística

Para o ajuste do conjunto de dados fornecido, o processo de modelagem com a técnicade Regressão Logística teve um esforço de desenvolvimento de 24 horas, considerando todos ostestes e refinamentos realizados para a seleção do modelo final.

O modelo ajustado possui 16 variáveis, divididas em 4 grupos de informação (Figura19), possuindo boa distribuição, equilibrando assim diferentes características para a classificaçãodo indivíduo.

Figura 19 – Variáveis - Regressão Logística

Fonte: Elaboração própria

Avaliando os principais indicadores de acurácia utilizados pelo mercado, observa-se queo modelo ajustado possui bons resultados quando observado as amostras de treinamento, teste,validação e fora do tempo, mantendo esta característica quando observado mês a mês. Obser-vando a amostra de desenvolvimento, encontrou-se um K-S de 40,4, contra 40,2 na validação e38,2 no período fora do tempo, evidenciando a não ocorrência de super-ajuste. A estabilidade doescore também foi avaliada considerando as amostras disponíveis, também não evidenciandoproblemas de instabilidade. Quando avaliado os indicadores de PSI o maior valor encontrado foide 1% e de K-S de 5,15%, conforme Figura 20 e Tabela 06.

Page 48: Técnicas de Machine Learning aplicadas na recuperação de ...

Capítulo 5. Resultados 47

Figura 20 – Métricas - Regressão Logística

Fonte: Elaboração própria

Tabela 6 – Estabilidade - Regressão Logística

Regressão LogisticaEstabilidade

PSI K-SDEV 0,00% 0,00%OOS 0,00% 0,71%OOT 1,40% 4,50%OOV 0,00% 0,23%

201512 1,20% 5,09%201601 1,10% 4,87%201602 0,40% 3,49%201603 0,20% 2,69%201604 0,10% 0,87%201605 0,10% 0,80%201606 0,40% 2,69%201607 1,00% 4,49%201608 1,10% 5,04%201609 1,20% 5,15%201610 1,30% 4,67%201611 1,40% 4,41%

Fonte: Elaboração própria

Page 49: Técnicas de Machine Learning aplicadas na recuperação de ...

Capítulo 5. Resultados 48

Avaliando o poder de ordenação do escore, a Tabela 7 apresenta as simulações consi-derando 14 opções de pontos de corte, indicando a taxa de não recuperação e percentuais derecuperados e não recuperados para o corte em comparação com a população total. Por exemplo,considerando uma ação de cobrança para os 40% indivíduos melhores classificados da base dedesenvolvimento, observa-se uma taxa de não recuperação de 54%, e teríamos coberto 70% detodas as recuperações da população contra 30% das não recuperações e respectivamente para aamostra fora do tempo temos (57%,31%,68%). Ação que resulta em uma melhor distribuiçãoda carteira de cobrança, maximizando a recuperação e os custos com a operação (ação emindivíduos mais propensos a quitar seus débitos).

Tabela 7 – Pontos de corte - Regressão Logística

Desenvolvimento Fora do Tempo% Não % Não Recuperados % Recuperados % Não % Não Recuperados % RecuperadosPonto de Corte

Recuperados Acumulado Acumulado Recuperados Acumulado Acumulado1% 5% 0% 7% 8% 0% 7%5% 13% 1% 19% 16% 1% 19%

10% 24% 4% 31% 27% 4% 31%20% 38% 11% 48% 41% 12% 48%30% 48% 20% 60% 50% 21% 59%40% 54% 30% 70% 57% 31% 68%50% 59% 41% 77% 61% 42% 76%60% 63% 52% 84% 65% 53% 83%70% 66% 64% 89% 68% 65% 89%80% 69% 76% 94% 70% 76% 93%90% 71% 88% 98% 72% 89% 98%95% 72% 95% 99% 73% 95% 99%99% 73% 100% 100% 74% 100% 100%100% 73% 100% 100% 74% 100% 100%

Fonte: Elaboração própria

Uma das principais características deste método é a capacidade de interpretação dosparâmetros, permitindo assim uma avaliação detalhada da pontuação, e assim identificar asvariáveis ou classes que bonificam (clientes que recuperam suas dívidas) ou penalizam (clientesque não recuperam suas dívidas). É um método que possui um esforço de desenvolvimentoconsiderável, pois exige do analista a interpretação dos parâmetros, tratamento e construçãode iterações entre variáveis para buscar o melhor resultado. Possui implementação de baixacomplexidade, pois se trata da construção de uma única equação. São modelos que tem umtempo de vida alto, em alguns casos mantendo sua estabilidade mesmo com 4 ou 5 anos de uso.

Atualmente é o método mais utilizado no mercado de Credit Score e Collection Score,devido a possibilidade e facilidade de interpretação e sua ótima estabilidade ao longo do tempo.Para carteiras ou processos auditados por um órgão regulador, o método de Regressão Logísticaacaba sendo o mais aceito devido a estas características, que proporcionam um melhor controlee rastreabilidade do modelo.

Page 50: Técnicas de Machine Learning aplicadas na recuperação de ...

Capítulo 5. Resultados 49

5.2 Metodologia Gradient Boosting

Para o ajuste do conjunto de dados fornecido o processo de Gradient Boosting teve umesforço de desenvolvimento de 3 horas, considerando todos os testes e refinamentos realizadospara a seleção do modelo final. No total foram ajustados 11 modelos, sendo 1 para pré-seleçãode variáveis e 10 para o refinamento.

O modelo ajustado possui 20 variáveis, divididas em 4 grupos de informação (Figura 21)e que possuem uma concentração de 50% de variáveis de restrições financeiras.

Figura 21 – Variáveis - Gradient Boosting

Fonte: Elaboração própria

Avaliando os indicadores de acurácia observa-se que a amostra de desenvolvimentoobteve um K-S de 43,1, contra 42,6 na validação e 40,7 no período fora do tempo, evidenciando anão ocorrência de super-ajuste. Quando avaliado os indicadores de estabilidade para distribuiçãodo escore, observou-se o PSI máximo de 0,90% e um K-S de 3,77%, indicando que a distribuiçãoé estável.

Comparando os resultados de acurácia, o modelo ajustado pelo processo de Gradient

Boosting foi superior ao modelo de Regressão Logística em todas as amostras e safras, com umamédia de ganho de 2 pontos percentuais de K-S e 1,7 pontos percentuais de AUROC. O modelode Gradient boosting também se mostrou mais estável em comparação com o modelo logístico.A Figura 22 e Tabela 8 apresentam os resultados comparativos entre as duas metodologias.

Page 51: Técnicas de Machine Learning aplicadas na recuperação de ...

Capítulo 5. Resultados 50

Figura 22 – Métricas - Gradient Boosting x Regressão Logística

Fonte: Elaboração própria

Tabela 8 – Estabilidade - Gradient Boosting x Regressão Logística

Regressão Logística Gradient BoostingEstabilidade

PSI K-S PSI K-SDEV 0,00% 0,00% 0,00% 0,00%OOS 0,00% 0,71% 0,00% 0,56%OOT 1,40% 4,50% 0,80% 3,46%OOV 0,00% 0,23% 0,00% 0,41%

201512 1,20% 5,09% 0,50% 2,51%201601 1,10% 4,87% 0,50% 3,26%201602 0,40% 3,49% 0,20% 1,76%201603 0,20% 2,69% 0,30% 2,32%201604 0,10% 0,87% 0,10% 1,33%201605 0,10% 0,80% 0,20% 1,52%201606 0,40% 2,69% 0,10% 1,89%201607 1,00% 4,49% 0,50% 3,61%201608 1,10% 5,04% 0,80% 3,90%201609 1,20% 5,15% 0,80% 3,09%201610 1,30% 4,67% 0,90% 3,77%201611 1,40% 4,41% 0,80% 3,14%

Fonte: Elaboração própria

Avaliou-se o poder de ordenação do escore, considerando 14 opções de pontos de corte(Tabela 9) e quando comparado a ordenação dos 2 modelos no mesmo ponto de corte (40%dos melhores) observou-se que o ajuste de Gradient Boosting possui uma melhor ordenação deescore, obtendo a redução de 1 ponto percentual da taxa de não recuperação. Observando os grá-ficos de ordenação de escore (Figura 23), ponto a ponto, verificou-se que o modelo de Gradient

Page 52: Técnicas de Machine Learning aplicadas na recuperação de ...

Capítulo 5. Resultados 51

boosting possui ganhos considerando uma ordenação de até 80% dos melhores indivíduos, apóseste percentual a ordenação dos modelos é igual.

Tabela 9 – Simulação - Pontos de Corte - Comparação entre Regressão Logística e GradientBoosting

Desenvolvimento Fora do tempo% Não Recuperados % Não Recuperados % Recuperados % Não Recuperados % Não Recuperados % Recuperados

Acumulado Acumulado Acumulado AcumuladoRegressão Gradient Regressão Gradient Regressão Gradient Regressão Gradient Regressão Gradient Regressão Gradient

Ponto de Corte

Logística Boosting Logística Boosting Logística Boosting Logística Boosting Logística Boosting Logística Boosting1% 5% 4% 0% 0% 7% 7% 8% 7% 0% 0% 7% 7%5% 13% 11% 1% 1% 19% 20% 16% 15% 1% 1% 19% 20%

10% 24% 21% 4% 3% 31% 32% 27% 24% 4% 4% 31% 32%20% 38% 36% 11% 10% 48% 50% 41% 40% 12% 11% 48% 49%30% 48% 46% 20% 19% 60% 62% 50% 49% 21% 20% 59% 61%40% 54% 53% 30% 30% 70% 72% 57% 56% 31% 31% 68% 70%50% 59% 58% 41% 40% 77% 80% 61% 61% 42% 42% 76% 77%60% 63% 62% 52% 52% 84% 86% 65% 64% 53% 53% 83% 84%70% 66% 65% 64% 63% 89% 91% 68% 67% 65% 65% 89% 89%80% 69% 68% 76% 76% 94% 95% 70% 70% 76% 76% 93% 94%90% 71% 71% 88% 88% 98% 99% 72% 72% 89% 88% 98% 98%95% 72% 72% 95% 95% 99% 100% 73% 73% 95% 95% 99% 99%99% 73% 73% 100% 100% 100% 100% 74% 74% 100% 100% 100% 100%100% 73% 73% 100% 100% 100% 100% 74% 74% 100% 100% 100% 100%

Fonte: Elaboração própria

Figura 23 – Ponto a Ponto - Comparação entre Regressão Logística e Gradient Boosting

Fonte: Elaboração própria

Aplicou-se hipoteticamente um cálculo financeiro, dados não fornecidos, para avaliara diferença financeira entre as metodologias e observou-se um ganho financeiro considerávelem todas as simulações (ponto de corte a 40%), por exemplo, considerando um valor médio dedívidas de R$4.000 em uma carteira com 10.000 em cobrança, o ganho de ordenação gerado pelomodelo de Gradient Boosting seria de cerca de R$500.000 para amostra de desenvolvimento ede R$390.000 para a amostra fora do tempo.

Page 53: Técnicas de Machine Learning aplicadas na recuperação de ...

Capítulo 5. Resultados 52

Tabela 10 – Simulação Financeira - Ponto de corte 40% - Regressão Logística x GradientBoosting

AmostraSimulação % Não Recuperados Valores

Número de Valor Médio Regressão Gradient Recuperação RecuperaçãoGanho

Clientes da Dívida Logística Boosting Regressão Logística Gradient Boosting

Desenvolvimento

100

R$ 4,000 54% 53%

R$ 183,416 R$ 188,470 R$ 5,05410,000 R$ 18,341,561 R$ 18,847,001 R$ 505,440

500,000 R$ 917,078,052 R$ 942,350,037 R$ 25,271,9851,000,000 R$ 1,834,156,104 R$ 1,884,700,073 R$ 50,543,969

Fora do Tempo

100

R$ 4,000 57% 56%

R$ 172,846 R$ 176,746 R$ 3,90010,000 R$ 17,284,626 R$ 17,674,600 R$ 389,974

500,000 R$ 864,231,295 R$ 883,730,004 R$ 19,498,7091,000,000 R$ 1,728,462,590 R$ 1,767,460,008 R$ 38,997,418

Fonte: Elaboração própria

Uma das principais características deste método foi a capacidade de combinar variáveis,através das múltiplas iterações que realizadas para minimizar o resíduo do ajuste (processode Boosting). Devido a esta característica, diferente da regressão logística, não foi possívelinterpretar parâmetro a parâmetro e rastrear o motivo da pontuação do escore, premissa queórgãos reguladores ainda não aceitam, porém para uma carteira de cobrança (Collection Score)existe uma maior flexibilidade para está interpretação, permitindo assim a aplicação desta técnica.Os 2 pontos de atenção principais observados para esta metodologia podem ser resumidos:

1. Controle de super ajuste: Por se tratar de um algoritmo de múltiplas iterações, foramnecessários controles de validação mais rigorosos (múltiplas amostras de teste) paraassegurar a qualidade do ajuste.

2. Ambiente de implantação: Diferente da Regressão Logística, no qual o esforço de implanta-ção é relativamente baixo (desenvolvimento de uma equação), o Gradient Boosting possuiinúmeras linhas de código, devido as múltiplas iterações. Nesta dissertação, por exemplo,obteve-se 81.000 linhas de código e por isto necessitando de um ambiente automatizadopara a implantação do modelo.

Page 54: Técnicas de Machine Learning aplicadas na recuperação de ...

Capítulo 5. Resultados 53

5.3 Metodologia Random Forest

Para o ajuste do conjunto de dados fornecido o processo de Random Forest teve umesforço de desenvolvimento de 4 horas, considerando todos os testes e refinamentos realizadospara a seleção do modelo final. No total foram ajustados 19 modelos, sendo 4 para pré-seleçãode variáveis e 15 para o refinamento.

O modelo ajustado possui 39 variáveis, divididas em 4 grupos de informação (Figura 24)e possuem uma concentração de 61% de variáveis de restrições financeiras.

Figura 24 – Variáveis - Random Forest

Fonte: Elaboração própria

Avaliando os indicadores de acurácia observou-se que a amostra de desenvolvimentoobteve um K-S de 40,6, contra 39,7 na validação e 38,7 no período fora do tempo, evidenciando anão ocorrência de super ajuste. Quando avaliado os indicadores de estabilidade para distribuiçãodo escore, observamos o PSI máximo de 2,70% e um K-S de 5,81%, indicando que a distribuiçãoé estável.

Comparando os resultados de acurácia, o modelo ajustado pelo processo de Random

Forest foi superior ao modelo de Regressão Logística somente para algumas amostras e em médiaseu resultado foi igual ou inferior ao método tradicional. Com uma média de perda de 0,3 pontospercentuais de K-S e 0,3 pontos percentuais de AUROC. O modelo de Random Forest tambémapresentou ser mais instável. A Figura 25 e Tabela 11 apresentam os resultados comparativosentre as duas metodologias.

Avaliando o poder de ordenação do escore a Tabela 12 apresenta as simulações conside-rando 14 opções de pontos de corte. Quando comparado a ordenação dos modelos no mesmoponto de corte (40% dos melhores), observou-se que o ajuste de Random Forest possui a mesmaordenação que o método de Regressão. Observando os gráficos de ordenação de escore (Figura26), ponto a ponto, verificou-se que o modelo de Random Forest não possui ganhos em relação aRegressão Logística e em alguns momentos obteve ordenação inferior.

Page 55: Técnicas de Machine Learning aplicadas na recuperação de ...

Capítulo 5. Resultados 54

Figura 25 – Métricas - Random Forest x Regressão Logística

Fonte: Elaboração própria

Tabela 11 – Estabilidade - Random Forest x Regressão Logística

Regressão Logística Random ForestEstabilidade

PSI K-S PSI K-SDEV 0.00% 0.00% 0.00% 0.00%OOS 0,00% 0,71% 0,00% 0,42%OOT 1,40% 4,50% 2,50% 5,21%OOV 0,00% 0,23% 0,00% 0,42%

201512 1,20% 5,09% 2,80% 5,52%201601 1,10% 4,87% 2,30% 5,12%201602 0,40% 3,49% 1,30% 3,78%201603 0,20% 2,69% 1,00% 3,13%201604 0,10% 0,87% 0,10% 1,43%201605 0,10% 0,80% 0,20% 1,57%201606 0,40% 2,69% 0,70% 3,17%201607 1,00% 4,49% 1,50% 5,39%201608 1,10% 5,04% 2,30% 5,75%201609 1,20% 5,15% 2,30% 5,81%201610 1,30% 4,67% 2,60% 5,48%201611 1,40% 4,41% 2,70% 4,94%

Fonte: Elaboração própria

Page 56: Técnicas de Machine Learning aplicadas na recuperação de ...

Capítulo 5. Resultados 55

Tabela 12 – Simulação - Pontos de Corte - Comparação entre Regressão Logística e RandomForest

Desenvolvimento Fora do tempo% Não Recuperados % Não Recuperados % Recuperados % Não Recuperados % Não Recuperados % Recuperados

Acumulado Acumulado Acumulado AcumuladoRegressão Random Regressão Random Regressão Random Regressão Random Regressão Random Regressão Random

Ponto de Corte

Logística Forest Logística Forest Logística Forest Logística Forest Logística Forest Logística Forest1% 5% 6% 0% 0% 7% 7% 8% 9% 0% 0% 7% 7%5% 13% 14% 1% 1% 19% 19% 16% 18% 1% 1% 19% 19%

10% 24% 25% 4% 4% 31% 31% 27% 28% 4% 4% 31% 30%20% 38% 39% 11% 11% 48% 48% 41% 41% 12% 11% 48% 47%30% 48% 47% 20% 20% 60% 60% 50% 50% 21% 20% 59% 59%40% 54% 54% 30% 30% 70% 70% 57% 57% 31% 31% 68% 68%50% 59% 59% 41% 41% 77% 77% 61% 62% 42% 43% 76% 75%60% 63% 63% 52% 52% 84% 84% 65% 65% 53% 53% 83% 82%70% 66% 66% 64% 64% 89% 90% 68% 68% 65% 65% 89% 89%80% 69% 69% 76% 76% 94% 94% 70% 70% 76% 76% 93% 93%90% 71% 71% 88% 88% 98% 98% 72% 72% 89% 89% 98% 97%95% 72% 72% 95% 95% 99% 99% 73% 73% 95% 95% 99% 99%99% 73% 73% 100% 100% 100% 100% 74% 74% 100% 100% 100% 100%100% 73% 73% 100% 100% 100% 100% 74% 74% 100% 100% 100% 100%

Fonte: Elaboração própria

Figura 26 – Ponto a Ponto - Comparação entre Regressão Logística e Random Forest

Fonte: Elaboração própria

Aplicou-se o mesmo cálculo financeiro utilizado anteriormente, para avaliar a diferençafinanceira entre as duas metodologias e observou-se que o processo de Random Forest somentegerou ganhos para a amostra de desenvolvimento (Tabela 13).

Tabela 13 – Simulação Financeira - Ponto de corte 40% - Regressão Logística x Random Forest

AmostraSimulação % De Não Recuperados Valores

Número de Valor Médio Regressão Random Recuperação RecuperaçãoGanho

Clientes da Dívida Logística Forest Regressão Logística Random Forest

Desenvolvimento

100

R$ 4,000 54% 54%

R$ 183,416 R$ 183,487 R$ 7110,000 R$ 18,341,561 R$ 18,348,697 R$ 7,136

500,000 R$ 917,078,052 R$ 917,434,870 R$ 356,8181,000,000 R$ 1,834,156,104 R$ 1,834,869,740 R$ 713,636

Fora do Tempo

100

R$ 4,000 57% 57%

R$ 172,846 R$ 172,788 -R$ 5810,000 R$ 17,284,626 R$ 17,278,845 -R$ 5,781

500,000 R$ 864,231,295 R$ 863,942,261 -R$ 289,0341,000,000 R$ 1,728,462,590 R$ 1,727,884,522 -R$ 578,069

Fonte: Elaboração própria

Uma das principais características deste método foi a capacidade de combinar variáveis

Page 57: Técnicas de Machine Learning aplicadas na recuperação de ...

Capítulo 5. Resultados 56

através das múltiplas iterações que foram realizadas, no entanto não é possível interpretar osparâmetros das variáveis. Para o estudo de caso desta dissertação, este método não apresentouresultados superiores ao do método de Regressão Logística, e em até algumas amostras obteveum resultado inferior. Durante o ajuste, a sensibilidade do método para super ajuste foi muitoalta, conforme descrito no Capítulo 4. As características de recalibração, cuidados com superajuste e complexidade de implementação seguiram os mesmos moldes do método de Gradient

Boosting.

Page 58: Técnicas de Machine Learning aplicadas na recuperação de ...

Capítulo 5. Resultados 57

5.4 Metodologia Support Vector Machine

Para o ajuste do conjunto de dados fornecido o processo de Support Vector Machine

houve um esforço de desenvolvimento de 2 horas, considerando todos os testes e refinamentosrealizados para a seleção do modelo final. No total foram ajustados 5 modelos, sendo 1 parapré-seleção de variáveis e 4 para o refinamento. O modelo ajustado possui 29 variáveis, divididasem 4 grupos de informação (Figura 27) e possui uma boa distribuição entre tipos, equilibrandoassim diferentes características para a classificação do indivíduo.

Figura 27 – Variáveis - Support Vector Machine

Fonte: Elaboração própria

Avaliando os indicadores de acurácia observou-se que a amostra de desenvolvimentoobteve um K-S de 41,7, contra 41,2 na validação e 40,5 no período fora do tempo, evidenciando anão ocorrência de super ajuste. Quando avaliado os indicadores de estabilidade para distribuiçãodo escore, observou-se o PSI máximo de 1,10% e um K-S de 3,41%, indicando que a distribuiçãoé estável.

Comparando os resultados de acurácia, o modelo ajustado pelo processo de Support

Vector Machine foi superior ao modelo de Regressão Logística em todas as amostras e safras ,com uma média de ganho de 1.25 pontos percentuais de K-S e 0.3 pontos percentuais de AUROC.A Figura 28 e Tabela 14 apresentam os resultados comparativos entre as duas metodologias.

Page 59: Técnicas de Machine Learning aplicadas na recuperação de ...

Capítulo 5. Resultados 58

Figura 28 – Métricas - Support Vector Machine x Regressão Logística

Fonte: Elaboração própria

Tabela 14 – Estabilidade - Support Vector Machine x Regressão Logística

Regressão Logística Support Vector MachineEstabilidade

PSI K-S PSI K-SDEV 0,00% 0,00% 0,00% 0,00%OOS 0,00% 0,71% 0,00% 0,67%OOT 1,40% 4,50% 1,10% 3,23%OOV 0,00% 0,23% 0,00% 0,49%

201512 1,20% 5,09% 0,70% 3,87%201601 1,10% 4,87% 0,90% 3,55%201602 0,40% 3,49% 0,30% 2,01%201603 0,20% 2,69% 0,10% 2,11%201604 0,10% 0,87% 0,00% 0,64%201605 0,10% 0,80% 0,20% 1,01%201606 0,40% 2,69% 0,30% 2,02%201607 1,00% 4,49% 0,50% 3,07%201608 1,10% 5,04% 0,50% 3,40%201609 1,20% 5,15% 0,50% 3,55%201610 1,30% 4,67% 1,00% 3,41%201611 1,40% 4,41% 1,00% 3,35%

Fonte: Elaboração própria

Avaliando o poder de ordenação do escore a Tabela 15 apresenta as simulações conside-rando 14 opções de pontos de corte. Quando comparou-se a ordenação dos modelos no mesmoponto de corte (40% dos melhores), observou-se que o ajuste do Support Vector Machine possuiuma melhor ordenação de escore, obtendo a redução de 0,6 ponto percentual da taxa de não

Page 60: Técnicas de Machine Learning aplicadas na recuperação de ...

Capítulo 5. Resultados 59

recuperação para a amostra de desenvolvimento e de 1 ponto percentual para a amostra fora dotempo. Observando os gráficos de ordenação de escore (Figura 29), ponto a ponto, verificou-seque o modelo de Support Vector Machine possui ganhos considerando uma ordenação de até70% dos melhores indivíduos, após este percentual a ordenação dos modelos são iguais.

Tabela 15 – Simulação - Pontos de Corte - Comparação entre Regressão Logística e SupportVector Machine

Desenvolvimento Fora do tempo%Não Recuperados % Não Recuperados % Recuperados % Não Recuperados %Não Recuperados Acumulado % Recuperados

Acumulado Acumulado Acumulado AcumuladoRegressão Support Regressão Support Regressão Support Regressão Support Regressão Support Regressão SupportLogística Vector Logística Vector Logística Vector Logística Vector Logística Vector Logística Vector

Ponto de Corte

Machine Machine Machine Machine Machine Machine1% 5% 6% 0% 0% 7% 7% 8% 6% 0% 0% 7% 7%5% 13% 15% 1% 1% 19% 19% 16% 18% 1% 1% 19% 19%

10% 24% 27% 4% 4% 31% 30% 27% 28% 4% 4% 31% 30%20% 38% 38% 11% 11% 48% 49% 41% 40% 12% 11% 48% 48%30% 48% 47% 20% 20% 60% 61% 50% 49% 21% 20% 59% 61%40% 54% 54% 30% 30% 70% 71% 57% 56% 31% 31% 68% 70%50% 59% 59% 41% 41% 77% 78% 61% 61% 42% 41% 76% 77%60% 63% 63% 52% 52% 84% 85% 65% 64% 53% 53% 83% 84%70% 66% 66% 64% 64% 89% 89% 68% 67% 65% 64% 89% 89%80% 69% 69% 76% 76% 94% 93% 70% 70% 76% 76% 93% 93%90% 71% 71% 88% 89% 98% 97% 72% 72% 89% 89% 98% 97%95% 72% 72% 95% 95% 99% 99% 73% 73% 95% 95% 99% 99%99% 73% 73% 100% 100% 100% 100% 74% 74% 100% 100% 100% 100%100% 73% 73% 100% 100% 100% 100% 74% 74% 100% 100% 100% 100%

Fonte: Elaboração própria

Figura 29 – Ponto a Ponto - Comparação entre Regressão Logística e Support Vector Machine

Fonte: Elaboração própria

Aplicou-se hipoteticamente um cálculo financeiro, dados não fornecidos, para avaliara diferença financeira entre as metodologias, observa-se um ganho financeiro considerável emtodas as simulações (ponto de corte a 40%), por exemplo, considerando um valor médio dedívidas de R$4.000 em uma carteira com 10.000 em cobrança, o ganho de ordenação gerado pelomodelo de Support Vector Machine seria de cerca de R$250.000 para amostra de desenvolvimentoe de R$410.000 para a amostra fora do tempo.

Uma das principais características deste método foi o processo de otimização matemáticaaplicado, o algoritmo busca otimizar a função explorada (linear) de maneira que sua posiçãono plano maximize a separação entre recuperados e não recuperados. Possui fácil implemen-tação e ajuste, pois se trata de uma única equação. Sua principal desvantagem é o alto custocomputacional para a otmização de funções não lineares.

Page 61: Técnicas de Machine Learning aplicadas na recuperação de ...

Capítulo 5. Resultados 60

Tabela 16 – Simulação Financeira - Ponto de corte 40% - Regressão Logística x Support VectorMachine

AmostraSimulação % De Não Recuperados Valores

Número de Valor Médio Regressão Support Recuperação RecuperaçãoGanho

Clientes da Dívida Logística Vector Machine Regressão Logística Support Vector Machine

Desenvolvimento

100

R$ 4,000 54% 54%

R$ 183,416 R$ 185,942 R$ 2,52610,000 R$ 18,341,561 R$ 18,594,183 R$ 252,622

500,000 R$ 917,078,052 R$ 929,709,153 R$ 12,631,1011,000,000 R$ 1,834,156,104 R$ 1,859,418,306 R$ 25,262,202

Fora do Tempo

100

R$ 4,000 57% 56%

R$ 172,846 R$ 176,942 R$ 4,09610,000 R$ 17,284,626 R$ 17,694,182 R$ 409,556

500,000 R$ 864,231,295 R$ 884,709,093 R$ 20,477,7971,000,000 R$ 1,728,462,590 R$ 1,769,418,185 R$ 40,955,595

Fonte: Elaboração própria

5.5 Avaliação de Resultados

Com base nos resultados avaliou-se o comportamento de cada método em comparaçãocom o método de Regressão Logística que é o mais difundido no mercado. Comparando todos osmétodos entre si (Figura 30), observou-se que o método de Gradient Boosting possui a melhorclassificação, seguido pelo método de Support Vector Machine, e somente o método de Random

forest que não apresentou resultados melhores que a Regressão. Observando a área de aprovaçãoentre 40% e 60% da base, é possível avaliar a diferença de classificação entre os métodos.

Avaliando uma simulação financeira, observou-se o mesmo comportamento entre osmétodos, com exceção do método de Support Vector Machine que possui uma pequena vantagemsobre o Gradient Boosting na amostra fora do tempo.

Com base nos resultados de acurácia e financeiros, pode-se afirmar que a utilização demétodos como Gradient Boosting e Support Vector Machine para Collection Score é válidae traz benefícios para o processo, porém é necessário avaliar questões de infraestrutura deimplementação dos modelos. No caso o Gradient Boosting necessita de um ambiente preparado,devido ao alto número de regras e o Support Vector Machine possui uma complexidade baixa,similar a uma implantação do método de Regressão Logística.

Critérios de interpretação de parâmetros, exigidos para alguns casos por órgãos regula-dores, são aplicáveis somente para a Regressão Logística. Novos processos de monitoramentodeveram ser criados para que novas técnicas possam ser utilizadas, no entanto como ciclo decobrança é mais flexível esses algoritmos de Machine Learning podem ser a porta de entrada.

Page 62: Técnicas de Machine Learning aplicadas na recuperação de ...

Capítulo 5. Resultados 61

Figura 30 – Ponto a Ponto - Comparação das metodologias

Fonte: Elaboração própria

Tabela 17 – Simulação Financeira - Comparação das metodologias

AmostraSimulação % De Não Recuperados Ganho em Relação a Regressão Logística

Número de Valor Médio Regressão Gradient Random Support Gradient Random SupportClientes da Dívida Logística Boosting Forest Vector Machine Boosting Forest Vector Machine

Desenvolvimento

100

R$ 4.000 54,1% 52,9% 54,1% 53,5%

R$ 5.054 R$ 71 R$ 2.52610.000 R$ 505.440 R$ 7.136 R$ 252.622

500.000 R$ 25.271,985 R$ 356.818 R$ 12.631,1011.000.000 R$ 50.543.969 R$ 713,636 R$ 25.262,202

Fora do Tempo

100

R$ 4.000 56,8% 55,8% 56,8% 55,8%

R$ 3.900 -R$57,80 R$ 4.09610.000 R$ 389,974 -R$5.780 R$ 409,556

500.000 R$ 19,498,709 -R$ 28,9034 R$ 20,477,7971.000.000 R$ 38.997,418 -R$ 578,06 R$ 40.955,595

Fonte: Elaboração própria

Page 63: Técnicas de Machine Learning aplicadas na recuperação de ...

62

6 CONCLUSÃO

O objetivo principal desse estudo foi o desenvolvimento de um modelo de recuperação dedívidas (Collection Score) pois seu uso impacta diretamente nos resultados das empresas (reservade provisão e perdas), além da reduzir de custos operacionais com o processo de cobrança, noentanto, ainda é pouco explorado em trabalhos acadêmicos e profissionais já que o modelo deCredit Score é o principal modelo do ciclo de crédito.

Para o desenvolvimento do modelo de Collection Score foram estudadas quatro técnicasde classificação como Regressão Logística, Random Forest, Gradient Boosting e Support Vector

Machine, a Regressão Logística foi utilizada como a técnica de comparação, técnica maistradicional no mercado financeiro, já que possui linearidade, alta capacidade de interpretaçãodos parâmetros e estabilidade ao longo do tempo, sendo muitas vezes necessário a recalibraçãoanos mais tarde.

Os modelos foram ajustados seguindo as práticas de mercado como tratamento, seleçãoe ajuste de variáveis e as variáveis que mais possuem relação com a taxa de recuperação entretodos os modelos foram as restrições financeiras, restrições regularizadas e cadastrais.

Os resultados mostraram que o modelo de Gradient Boosting possui poder preditivomaior que Regressão Logística devido a capacidade de combinar variáveis através das múltiplasiterações que são realizadas, mas faz necessário maior atenção em validação para não haverrisco de super ajuste e um ambiente de implantação mais complexo devido ao número de regrasgeradas pela técnica, o que impede a capacidade de interpretação da pontuação.

O mesmo resultado foi encontrado com a técnica de Support Vector Machine, o qualpossui maior poder preditivo, quando comparado com a Regressão Logística, devido ao fato douso de otimização matemática para encontrar a melhor classificação dos clientes, mas que possuiuma maior capacidade computacional para gerar os resultados.

Por fim, pode-se concluir que a utilização de outras técnicas de Machine Learning emprocessos de predição para Collection Score pode gerar um poder de predição maior quandocomparado a Regressão Logística, e seu esforço para o desenvolvimento é consideravelmentemenor do que o processo de regressão. Sua desvantagem esta na capacidade de interpretação dosparâmetros e implementação do algoritmo.

Em estudos futuros, sugere-se a utilização da técnica de Support Vector Machine - NãoLinear, não explorada nesse estudo devido ao fato do alto custo computacional, mas que podemelhorar ainda mais o poder preditivo já que possui maior capacidade de otimização matemática.Também sugere-se a utilização da variação do algoritmo de Gradient Boosting, denominadaExtreme Gradient Boosting – XGBOOST que considera além do estresse de parâmetros oprocesso de regularização (LASSO).

Page 64: Técnicas de Machine Learning aplicadas na recuperação de ...

63

REFERÊNCIAS

ABE, S. Support vector machines for pattern classification. [S.l.]: Springer, 2005. v. 2. Citado 3vezes nas páginas 26, 27 e 29.

ABELLÁN, J.; MANTAS, C. J. Improving experimental studies about ensembles of classifiersfor bankruptcy prediction and credit scoring. Expert Systems with Applications, Elsevier, v. 41,n. 8, p. 3825–3830, 2014. Citado na página 14.

ALTMAN, E. I. Financial ratios, discriminant analysis and the prediction of corporatebankruptcy. The journal of finance, Wiley Online Library, v. 23, n. 4, p. 589–609, 1968. Citadona página 13.

ALTMAN, E. I.; SAUNDERS, A. Credit risk measurement: Developments over the last 20 years.Journal of banking & finance, Elsevier, v. 21, n. 11-12, p. 1721–1742, 1997. Citado 2 vezes naspáginas 11 e 13.

ALVES, M. F.; LOTUFO, A. D. P.; LOPES, M. L. M. Seleção de variáveis stepwise aplicadasem redes neurais artificiais para previsão de demanda de cargas elétricas. Proceeding Series ofthe Brazilian Society of Computational and Applied Mathematics, v. 1, n. 1, 2013. Citado napágina 21.

BAESENS, B. et al. Benchmarking state-of-the-art classification algorithms for credit scoring.Journal of the operational research society, Springer, v. 54, n. 6, p. 627–635, 2003. Citado napágina 13.

BELLOTTI, T.; CROOK, J. Forecasting and stress testing credit card default using dynamicmodels. International Journal of Forecasting, Elsevier, v. 29, n. 4, p. 563–574, 2013. Citado napágina 14.

BREIMAN, L. Random forests. Machine learning, Springer, v. 45, n. 1, p. 5–32, 2001. Citado 3vezes nas páginas 14, 22 e 25.

CASELLA, G.; BERGER, R. L. Statistical inference. [S.l.]: Duxbury Pacific Grove, CA, 2002.v. 2. Citado na página 19.

CHAPELLE, O. et al. Choosing multiple parameters for support vector machines. Machinelearning, Springer, v. 46, n. 1-3, p. 131–159, 2002. Citado na página 29.

CHEN, Y.-S.; CHENG, C.-H. Hybrid models based on rough set classifiers for setting creditrating decision rules in the global banking industry. Knowledge-Based Systems, Elsevier, v. 39, p.224–239, 2013. Citado na página 14.

CHERKASSKY, V.; MA, Y. Practical selection of svm parameters and noise estimation for svmregression. Neural networks, Elsevier, v. 17, n. 1, p. 113–126, 2004. Citado na página 26.

CORTES, C.; VAPNIK, V. Support-vector networks. Machine learning, Springer, v. 20, n. 3, p.273–297, 1995. Citado 3 vezes nas páginas 13, 26 e 27.

CRAMÉR, H. A contribution to the theory of statistical estimation. Scandinavian ActuarialJournal, Taylor & Francis, v. 1946, n. 1, p. 85–94, 1946. Citado 2 vezes nas páginas 21 e 40.

Page 65: Técnicas de Machine Learning aplicadas na recuperação de ...

Referências 64

DOUMPOS, M.; ZOPOUNIDIS, C. Model combination for credit risk assessment: A stackedgeneralization approach. Annals of Operations Research, Springer, v. 151, n. 1, p. 289–306,2007. Citado na página 14.

DURAND, D. et al. Risk elements in consumer instalment financing. NBER Books, NationalBureau of Economic Research, Inc, 1941. Citado na página 13.

FAWCETT, T. An introduction to roc analysis. Pattern recognition letters, Elsevier, v. 27, n. 8, p.861–874, 2006. Citado na página 31.

FLOREZ-LOPEZ, R.; RAMON-JERONIMO, J. M. Enhancing accuracy and interpretability ofensemble strategies in credit risk assessment. a correlated-adjusted decision forest proposal.Expert Systems with Applications, Elsevier, v. 42, n. 13, p. 5737–5753, 2015. Citado na página14.

FREUND, Y.; SCHAPIRE, R. E. et al. Experiments with a new boosting algorithm. In: BARI,ITALY. Icml. [S.l.], 1996. v. 96, p. 148–156. Citado na página 23.

FRIEDMAN, J.; HASTIE, T.; TIBSHIRANI, R. The elements of statistical learning. [S.l.]:Springer series in statistics New York, 2001. v. 1. Citado na página 25.

FRIEDMAN, J. H. Stochastic gradient boosting. Computational Statistics & Data Analysis,Elsevier, v. 38, n. 4, p. 367–378, 2002. Citado 2 vezes nas páginas 14 e 24.

GROVER, P. Gradient Boosting from scratch. 12017. Disponível em: <https://medium.com/mlreview/gradient-boosting-from-scratch-1e317ae4587d>. Citado na página 23.

HAND, D. J.; HENLEY, W. E. Statistical classification methods in consumer credit scoring: areview. Journal of the Royal Statistical Society: Series A (Statistics in Society), Wiley OnlineLibrary, v. 160, n. 3, p. 523–541, 1997. Citado na página 11.

IBGE, I. P. M. d. e. Disponível em:< disponível em:http://www.sidra.ibge.gov.br/bda/pesquisas/pme/default. asp? o= 21&i= p>. Acessoem, v. 10, n. 02, 2016. Citado na página 11.

KHANDANI, A. E.; KIM, A. J.; LO, A. W. Consumer credit-risk models via machine-learningalgorithms. Journal of Banking & Finance, Elsevier, v. 34, n. 11, p. 2767–2787, 2010. Citadona página 14.

KRUPPA, J. et al. Consumer credit risk: Individual probability estimates using machine learning.Expert Systems with Applications, Elsevier, v. 40, n. 13, p. 5125–5131, 2013. Citado na página14.

LORENA, A. C.; CARVALHO, A. C. de. Uma introdução às support vector machines. Revistade Informática Teórica e Aplicada, v. 14, n. 2, p. 43–67, 2007. Citado 2 vezes nas páginas 27e 29.

MACHADO, A. R. Collection scoring via regressão logística e modelo de riscos proporcionaisde cox. 2016. Citado na página 15.

MARTIN, D. Early warning of bank failure: A logit regression approach. Journal of banking &finance, Elsevier, v. 1, n. 3, p. 249–276, 1977. Citado na página 13.

Page 66: Técnicas de Machine Learning aplicadas na recuperação de ...

Referências 65

SANTOS, J. O. d. Análise de crédito: empresas e pessoas físicas; abordagem teórico–praticacom foco em: técnicas de julgamento, credit scoring, linhas de crédito, garantias e estratégiaspara diversificação de riscos. São Paulo: Atlas, 2000. Citado na página 16.

SICSÚ, A. L. Credit Scoring: desenvolvimento, implantação, acompanhamento. [S.l.]: Blucher,2010. Citado 7 vezes nas páginas 17, 20, 32, 33, 34, 35 e 36.

SOUZA, R. B. d. O modelo de collection scoring como ferramenta para a gestão estratégica dorisco de crédito. Tese (Doutorado), 2000. Citado na página 15.

TAM, K. Y.; KIANG, M. Y. Managerial applications of neural networks: the case of bank failurepredictions. Management science, INFORMS, v. 38, n. 7, p. 926–947, 1992. Citado na página13.

THOMAS, L.; CROOK, J.; EDELMAN, D. Credit scoring and its applications. [S.l.]: Siam,2017. v. 2. Citado na página 33.

TOLLENAAR, N.; HEIJDEN, P. Van der. Which method predicts recidivism best?: acomparison of statistical, machine learning and data mining predictive models. Journal of theRoyal Statistical Society: Series A (Statistics in Society), Wiley Online Library, v. 176, n. 2, p.565–584, 2013. Citado na página 14.

TWALA, B. Combining classifiers for credit risk prediction. Journal of Systems Science andSystems Engineering, Springer, v. 18, n. 3, p. 292–311, 2009. Citado na página 13.

VAPNIK, V. The nature of statistical learning theory. [S.l.]: Springer science & business media,2013. Citado na página 27.

WANG, L. Support vector machines: theory and applications. [S.l.]: Springer Science &Business Media, 2005. v. 177. Citado na página 11.

WEST, M.; HARRISON, P. J.; MIGON, H. S. Dynamic generalized linear models and bayesianforecasting. Journal of the American Statistical Association, Taylor & Francis, v. 80, n. 389, p.73–83, 1985. Citado na página 13.

Page 67: Técnicas de Machine Learning aplicadas na recuperação de ...

66

APÊNDICE A – MÉTRICAS

Modelo AmostraMétricas

KS GINI AUROC % Não Recuperação

Regressão Logística

Desenvolvimento 40,4% 53,8% 76,9% 73,0%Teste 41,2% 54,2% 77,1% 73,0%Validação 38,2% 51,5% 75,7% 74,0%Fora do Tempo 40,2% 54,3% 77,1% 73,0%201512 36,2% 47,9% 74,0% 74,0%201601 40,8% 52,6% 76,3% 74,0%201602 39,3% 52,4% 76,2% 73,0%201603 41,2% 53,9% 77,0% 74,0%201604 41,5% 55,1% 77,6% 74,0%201605 40,8% 54,8% 77,4% 74,0%201606 41,9% 55,4% 77,7% 72,0%201607 43,2% 57,0% 78,5% 72,0%201608 41,6% 55,6% 77,8% 72,0%201609 41,5% 55,1% 77,5% 73,0%201610 38,7% 51,8% 75,9% 73,0%201611 38,0% 51,2% 75,6% 75,0%

Modelo AmostraMétricas

KS GINI AUROC % Não Recuperação

Gradient Boosting

Desenvolvimento 43,0% 58,2% 79,1% 73,0%Teste 42,3% 56,9% 78,4% 73,0%Validação 40,7% 54,1% 77,0% 74,0%Fora do Tempo 42,7% 57,2% 78,6% 73,0%201512 38,6% 52,9% 76,4% 74,0%201601 42,6% 56,7% 78,4% 74,0%201602 41,2% 56,2% 78,1% 73,0%201603 42,4% 56,6% 78,3% 74,0%201604 43,8% 58,8% 79,4% 74,0%201605 43,8% 58,7% 79,4% 74,0%201606 44,3% 58,9% 79,4% 72,0%201607 45,3% 60,4% 80,2% 72,0%201608 44,3% 59,7% 79,8% 72,0%201609 44,4% 58,7% 79,3% 73,0%201610 40,9% 54,0% 77,0% 73,0%201611 40,8% 54,1% 77,0% 75,0%

Page 68: Técnicas de Machine Learning aplicadas na recuperação de ...

APÊNDICE A. Métricas 67

Modelo AmostraMétricas

KS GINI AUROC % Não Recuperação

Random Forest

Desenvolvimento 40,7% 54,0% 77,0% 73,0%Teste 40,0% 53,2% 76,6% 73,0%Validação 38,8% 50,7% 75,3% 74,0%Fora do Tempo 39,1% 52,4% 76,2% 73,0%201512 35,9% 48,2% 74,1% 74,0%201601 39,7% 52,5% 76,3% 74,0%201602 38,2% 50,9% 75,5% 73,0%201603 40,2% 52,3% 76,2% 74,0%201604 40,5% 53,6% 76,8% 74,0%201605 40,1% 53,7% 76,9% 74,0%201606 42,4% 55,3% 77,6% 72,0%201607 42,1% 56,2% 78,1% 72,0%201608 42,0% 56,6% 78,3% 72,0%201609 43,3% 56,0% 78,0% 73,0%201610 38,9% 50,8% 75,4% 73,0%201611 39,3% 50,6% 75,3% 75,0%

Modelo AmostraMétricas

KS GINI AUROC % Não Recuperação

Support Vector Machine

Desenvolvimento 41,7% 54,4% 77,2% 73,0%Teste 41,8% 54,9% 77,5% 73,0%Validação 40,5% 53,1% 76,5% 74,0%Fora do Tempo 41,3% 54,2% 77,1% 73,0%201512 38,0% 48,1% 74,1% 74,0%201601 41,7% 52,7% 76,4% 74,0%201602 39,7% 52,3% 76,2% 73,0%201603 42,2% 54,6% 77,3% 74,0%201604 41,8% 55,4% 77,7% 74,0%201605 42,1% 55,6% 77,8% 74,0%201606 43,2% 55,0% 77,5% 72,0%201607 44,1% 57,8% 78,9% 72,0%201608 43,4% 57,3% 78,7% 72,0%201609 42,5% 55,7% 77,9% 73,0%201610 40,3% 52,8% 76,4% 73,0%201611 40,8% 53,3% 76,7% 75,0%

Page 69: Técnicas de Machine Learning aplicadas na recuperação de ...

68

APÊNDICE B – MODELOS DESENVOLVIDOS

Gradient Boosting MachineVariável Tipo Qtd. Regras Importância - Desenvolvimento Importância - Validação

VCoNivelRestr Restrição Financeira 23 1 1UF Cadastral 111 0,6620319896 0,7566959761VPerMaxRestrAti Restrição Financeira 61 0,3901961422 0,3270319677C_VTxPgtoRestr Restrição Regularizada 18 0,3825062183 0,3146884867VTxPgtoRestrOrigSFN Restrição Regularizada 48 0,3497093479 0,2771134041VTxPgtoRestrInc2A Restrição Regularizada 30 0,3359811102 0,3034459918VQtVezesSemRestr Restrição Financeira 22 0,3209598489 0,2852130673VTpUltRestrSemTELECOMInc Restrição Financeira 59 0,3135695095 0,3075276459VQtRestrSemTELECOMInc180dRes Restrição Financeira 5 0,3080828955 0,3474446958VTpPri_ConsCRDSTS_5a Registro de Passagem 46 0,2948544117 0,1551011773VQtRestrInc180dRes Restrição Regularizada 3 0,2864022406 0,2827782266VTpPri_ConsSTS_5a Registro de Passagem 54 0,2706986406 0,117987926VTxPgtoRestrInc1A Restrição Financeira 22 0,2703605346 0,2544255721VTpMed_ConsSTS_720d Registro de Passagem 50 0,2568869966 0,1150322327VPerTotSemRestr2 Restrição Financeira 44 0,2531409552 0,169017222C_VCoNivelRestr Restrição Financeira 5 0,2493762739 0,2553333563VQtRestrOrigOUTAti Restrição Financeira 21 0,2451510457 0,1106142229VPerQtMaxRestrAti Restrição Financeira 38 0,2217005423 0,157513264VQtRestrResU6m030DPI Restrição Regularizada 6 0,2184305122 0,1896420621VQtRestrInc1ARes Restrição Regularizada 7 0,1955281378 0,1879485323

Page 70: Técnicas de Machine Learning aplicadas na recuperação de ...

APÊNDICE B. Modelos desenvolvidos 69

Random ForestVariável Tipo Qtd. Regras Gini - Desenvolvimento Gini - Validação

VCoNivelRestr Restrição Financeira 112 0,010992 0,00707C_VPerMaxRestrAti Restrição Financeira 85 0,00903 0,00637C_VTxPgtoSerasaInc180d Restrição Financeira 79 0,005392 0,00349C_VQtRestrInc180dRes Restrição Regularizada 66 0,005537 0,00346C_VQtRestrSemTELECOMInc180dRes Restrição Regularizada 66 0,004227 0,00322VTxPgtoRestr Restrição Regularizada 291 0,004678 0,0032UF Cadastral 149 0,005178 0,00299C_VQtRestrSemTELECOMInc90dRes Restrição Financeira 83 0,004208 0,00296VTxPgtoRestrInc2A Restrição Financeira 246 0,003469 0,00268C_VTxPgtoRestrInc3A Restrição Regularizada 127 0,003379 0,00233VTxPgtoRestrInc3A Restrição Financeira 240 0,002604 0,00181VPerQtMaxRestrAti Restrição Financeira 162 0,002964 0,00177C_VTxPgtoRestr Restrição Regularizada 144 0,002264 0,00157C_VTpUltRestrSemTELECOMInc Restrição Financeira 102 0,001713 0,00144VQtRestrAti Restrição Regularizada 117 0,000908 0,00119VTpUltRestrSemTELECOMInc Restrição Financeira 310 0,002319 0,00108C_VQtRestrAtiAtraso180d Restrição Financeira 62 0,001462 0,00101VQtRestrAtiAtraso90d Restrição Financeira 96 0,001567 0,00092C_VPerMaxSerasaAti Restrição Financeira 59 0,00145 0,00091VQtCredoresAti Restrição Financeira 114 0,000956 0,00079C_VQtRestrAtiAtraso60d Restrição Financeira 112 0,00151 0,00078VTxPgtoSerasaInc2A Restrição Financeira 199 0,001231 0,00077C_VQtRestrSemTELECOMInc60d Restrição Financeira 73 0,001116 0,00064C_VTxPgtoSerasa Restrição Regularizada 102 0,001086 0,00058VQtRestrSemTELECOMInc1ARes Restrição Regularizada 105 0,0006 0,00039C_VPerTotComRestr2 Restrição Financeira 112 0,00069 0,00037VQtRestrResU6m030DPI Restrição Regularizada 109 0,000714 0,00035C_VTxPgtoRestrOrigSFNInc2A Restrição Regularizada 153 0,000845 0,00033C_VTxPgtoRestrInc1A Restrição Regularizada 68 0,000536 0,00023VQtRestrInc180dRes Restrição Financeira 61 0,000353 0,0002VQtRestrSemTELECOMInc30d Restrição Financeira 42 0,000135 0,00017VQtRestrSemTELECOMInc3ARes Restrição Regularizada 110 0,000578 0,00014VQtRestrInc90dRes Restrição Regularizada 40 0,000193 0,00011VTpUltRestrInc Restrição Financeira 167 0,000748 0,00009VTxPgtoRestrInc180d Restrição Financeira 246 0,004215 0,00004VQtRestrSemTELECOMRes60d Restrição Regularizada 53 0,000126 -0,00001VTxPgtoSerasaInc180d Restrição Financeira 207 0,002624 -0,00048VPerMaxSerasaAti Restrição Financeira 586 0,006214 -0,0006VPerMaxRestrAti Restrição Financeira 448 0,00443 -0,00101

Page 71: Técnicas de Machine Learning aplicadas na recuperação de ...

APÊNDICE B. Modelos desenvolvidos 70

Regressão LogísticaVariável Tipo Categoria Estimado Erro Padrão Wald P-ValorIntercept Intercepto -0,4416 0,0667 43,792 <0001

VCoNivelRestr Restrição Financeira

3 0,7228 0,0466 2,408,188 <00015 0,3757 0,0344 1,195,588 <0001Ref 011 -0,3987 0,0308 1,671,115 <0001

VQtRestrSemTELECOMInc180dRes Restrição Regularizada99 03 0,1055 0,0294 128,477 0,00035 0,653 0,0451 2,097,699 <0001

UF Cadastral

1 0,3654 0,0441 68,571 <00012 0,1945 0,0532 133,477 0,00033 0,0995 0,0397 6,275 0,0122Ref 06 -0,6251 0,0396 2,489,912 <0001

VQtVezesSemRestr Restrição Financeira

99 05 0,0728 0,0261 77,782 0,00538 0,2497 0,0325 590,032 <000110 0,3621 0,0426 721,909 <0001

VTpPri_ConsSTS_5a Registro de Passagem

2 -0,3007 0,0362 689,259 <0001Ref 06 0,1965 0,0247 631,751 <00017 0,266 0,029 843,385 <0001

VTpUltRestrSemTELECOMInc Restrição Financeira

2 0,555 0,0478 1,348,469 <00013 0,243 0,0404 361,617 <0001Ref 06 -0,2694 0,0362 553,342 <00019 -0,4906 0,0404 1,474,113 <0001

VNuAnos_ConsSEG_5a Registro de Passagem

2 -0,2399 0,0335 51,301 <0001Ref 04 0,167 0,0461 131,391 0,00035 0,306 0,0487 395,193 <0001

VQtRestrOrigOUTAti Restrição Financeira3 -0,4583 0,028 2,683,586 <0001Ref 0

VQtRestrOrigTELResU6m Restrição RegularizadaRef 03 0,1792 0,0414 186,949 <00014 0,1914 0,0451 180,203 <0001

VTpMed_ConsSTS_720d Registro de Passagem2 -0,291 0,0462 395,969 <0001Ref 05 0,0808 0,0208 150,471 0,0001

VTpUlt_ConsFIN_5a Registro de PassagemRef 02 -0,1614 0,0427 143,075 0,00023 -0,195 0,0209 869,134 <0001

VTxPgtoRestr Restrição Regularizada

2 -0,64 0,0377 2,885,121 <00013 -0,3537 0,0374 892,181 <0001Ref 07 0,3802 0,0289 172,843 <000110 0,5831 0,04 2,129,543 <0001

VQtRestrResAtraso365d Restrição Regularizada4 -0,3598 0,0231 2,417,107 <0001Ref 0

IDADE Cadastral2 -0,1668 0,0346 232,889 <0001Ref 07 0,0894 0,0202 195,712 <0001

VQtRestrOrigBCO Registro de PassagemRef 03 -0,1859 0,0235 628,113 <00016 -0,2541 0,0285 79,725 <0001

VQt_ConsBCO_90d Registro de Passagem3 0,1481 0,0293 256,395 <0001Ref 0

Page 72: Técnicas de Machine Learning aplicadas na recuperação de ...

APÊNDICE B. Modelos desenvolvidos 71

Support Vector Machine

Variável Tipo Categoria Estimado

Constante 0,0807576986

VCoNivelRestr Restrição Financeira

3 0,91809859215 -0,2773544219 -0,097265971

11 -0,29767322999 -0,245804972

VQtRestrSemTELECOMInc180dRes Restrição Financeira

3 -0,1852142064 -0,0643290595 0,4264664619

99 -0,176923197

UF Cadastral

AC -0,014695908AL 0,041647543AM -0,034397332AP 0,0551235851BA -0,049815366CE 0,1712166538DF 0,0448789814ES 0,1514772424GO 0,0256996394MA 0,016860873MG 0,0482904731MS 0,0681241599MT 0,0652481774PA -0,01024986PB 0,0551212118PE -0,175792989PI 0,1386785031PR 0,0146864363RJ 0,0357614008RN -0,152361075RO 0,0070940462RR -0,057950688RS 0,0952848691SC 0,0542130379SE 0,0718102635SP -0,528539252TO 0,0839667527

Page 73: Técnicas de Machine Learning aplicadas na recuperação de ...

APÊNDICE B. Modelos desenvolvidos 72

VQtVezesSemRestr Restrição Financeira

2 -0,0560907263 -0,0975172345 -0,0432337468 0,0640004153

10 0,201094648999 -0,068253359

VNuAnos_ConsSEG_5a Registro de Passagem

2 -0,133757014 0,03115695885 0,1557281105

99 -0,05312806

VQtRestrAtiAtraso60d Restrição Financeira2 0,40330641275 -0,243210968

99 -0,160095445

VTxPgtoRestrOrigSFN Restrição Regularizada

2 -0,1263793333 -0,0429884726 0,06624586647 0,0578498786

99 0,0452720603

VTpPri_ConsSTS_5a Registro de Passagem

2 -0,1011635046 0,0484439857 0,07514460638 -0,02873416

99 0,0063090727

VQtRestrSemTELECOMInc90dRes Restrição Financeira3 -0,0422895694 0,2652327427

99 -0,222943174

VPerTotComRestr2 Restrição Financeira

-1 -0,0560907262 0,0994235813 0,0164506513

99 -0,059783507

VQtRestrOrigOUTAti Restrição Financeira3 -0,064012763

99 0,0640127631

VQtCredoresAti Restrição Financeira2 -0,2221372824 0,0422486449

99 0,1798886372

VQtPdRec_ConsSTS_P10dU30d Registro de Passagem2 -0,072569699

99 0,0725696987

Page 74: Técnicas de Machine Learning aplicadas na recuperação de ...

APÊNDICE B. Modelos desenvolvidos 73

VQtRestrAtiAtraso365d Restrição Financeira3 -0,077235544

99 0,0772355444

VQtRestrOrigTELResU6m Restrição Financeira3 0,03788508294 0,0485073871

99 -0,08639247

VTpUltRestrSemTELECOMInc Restrição Financeira

2 0,28748011553 0,05250113716 -0,1143758889 -0,09120614

99 -0,134399224

VTxPgtoRestrInc1A Restrição Regularizada2 -0,0881822085 0,0887623757

99 -0,000580168

VPerTotSemRestr2 Restrição Regularizada

-1 -0,0560907265 -0,013790796 0,02612748687 0,09148348638 -0,036019715

99 -0,011709743

VTpMed_ConsSTS_720d Registro de Passagem2 -0,0728826385 0,0529127892

99 0,0199698487

VTpUlt_ConsFIN_5a Registro de Passagem

-2 0,0002262684-1 0,05958551922 -0,0458010563 -0,0503682654 -0,0083804665 0,03367209316 0,0110659054

VTpPri_ConsCTC_5a Registro de Passagem

-2 0,0002262684-1 0,01285797022 -0,0528819363 -0,0397898724 -0,0124640896 0,04007532517 0,0519763332

VQtRestrRes030d Restrição Regularizada3 0,0557779192

99 -0,055777919

Page 75: Técnicas de Machine Learning aplicadas na recuperação de ...

APÊNDICE B. Modelos desenvolvidos 74

VQt_ConsCHQSTS_5a Registro de Passagem3 -0,032955544 0,09554028975 -0,062584749

VTpUltRestrInc Restrição Financeira2 -0,105403739

99 0,1054037387

VQtRestrAtiAtraso720d Restrição Financeira3 -0,043724532

99 0,0437245323

VQtSerasaInc1ARes Restrição Regularizada

2 0,00806618674 -0,0868280987 0,1424434613

99 -0,06368155

VQtRestrResAtraso365d Restrição Regularizada4 -0,016201488

99 0,0162014877

VPerMaxRestrAti Restrição Regularizada

2 0,18657936534 0,05134760058 -0,152742005

99 -0,085184961

VQtRestrResNaoDispU60d Restrição Regularizada3 0,0774177162

99 -0,077417716