modelo de previsão de inadimplência: empregando a regressão ...
-
Upload
nguyenthuan -
Category
Documents
-
view
231 -
download
5
Transcript of modelo de previsão de inadimplência: empregando a regressão ...
FUNDAÇÃO UNIVERSIDADE FEDERAL DE RONDÔNIA - UNIR
CAMPUS DE JI-PARANÁ
DEPARTAMENTO DE MATEMÁTICA E ESTATÍSTICA
DHAIANY BUENO GOMES
MODELO DE PREVISÃO DE INADIMPLÊNCIA: EMPREGANDO A
REGRESSÃO LOGÍSTICA
Ji-Paraná Rondônia – Brasil
2014
DHAIANY BUENO GOMES
MODELO DE PREVISÃO DE INADIMPLÊNCIA: EMPREGANDO A
REGRESSÃO LOGÍSTICA
Trabalho de Conclusão de Cursoapresentadoà Fundação Universidade Federal de Rondônia – Campus de Ji- Paraná, como parte das exigências do Curso de Graduação em Estatística, para obtenção do título de Estatístico.
Orientador: Nerio Aparecido Cardoso
Ji-Paraná
Rondônia – Brasil 2014
Gomes, Dhaiany Bueno
G633m
2014
Modelo de previsão de inadimplência: empregando a regressão
logística / Dhaiany Bueno Gomes; orientador, Nerio Aparecido
Cardoso. -- Ji-Paraná, 2014
35 f. : 30 cm
Trabalho de conclusão do curso de Estatística. – Universidade
Federal de Rondônia, 2014
Inclui referências
1.Análise estatística. 2. Estatística matemática . I. Cardoso, Nerio
Aparecido. II. Universidade Federal de Rondônia. III. Titulo
CDU 519
Bibliotecária: Marlene da Silva Modesto Deguchi CRB 11/ 601
UNIVERSIDADE FEDERAL DE RONDÔNIA CAMPUS DE JI-PARANÁ
DEPARTAMENTO DE MATEMÁTICA E ESTATÍSTICA
TÍTULO:MODELO DE PREVISÃO DE INADIMPLÊNCIA:
EMPREGANDO A REGRESSÃO LOGÍSTICA
AUTORA:DHAIANY BUENO GOMES
O presente Trabalho de Conclusão de Curso foi defendido como parte dos
requisitos para obtenção do título de Bacharel em Estatística e aprovado pelo
Departamento de Matemática e Estatística, Fundação Universidade Federal de
Rondônia, Campus de Ji- Paraná, no dia 12 de dezembro de 2014.
_____________________________________ Prof.Me. Nerio Aparecido Cardoso
Universidade Federal de Rondônia
_____________________________________ Prof.GrBruno Soares de Castro
Universidade Federal de Rondônia
_____________________________________ Prof. Gr Érica Vieira Nogueira
Universidade Federal de Rondônia
Ji-Paraná, 12 de Dezembro de 2014.
AGRADECIMENTOS
A Deus em primeiro lugar, de quem creio proceder todo o conhecimento e
sabedoria.
A minha mãe, Maria Tereza Bueno, meu irmão Samuel Victor Bueno, minha prima
Bruna Cristiane e minha tia que acompanharam de perto minha caminhada até o fim
do curso.
Aos meus avós João Bueno (Im Memoriam) e Leopoldina Silva Bueno (Im
Memoriam), que foram meus maiores incentivadores nos estudos.
Aos colegas de curso, que tiveram paciência e companheirismo em me ajudar nos
momentos em que precisei deles.
As minhas amigas Erica Vieira, Luana Lúcia que me incentivaram a fazer o Trabalho
de Conclusão do Curso.
As minhas amigas Angélica, Vânia e Joelma que me suportaram nos momentos de
estresse e me fizeram rir no caminho para faculdade.
As minhas amigas Jéssica S. de Abreu, Daiane Gonçalves e Karina Fiuza pela
amizade e palavras de incentivo.
Ao meu pai, e minha irmãs pelo apoio e palavras de incentivo.
Aos meus professores do curso pelo conhecimento transmitido.
Ao professor Dilson Henrique Ramos Evangelista que foi meu orientador no inicio
deste trabalho.
Ao professor Nerio Aparecido Cardoso que também me orientou neste trabalho.
RESUMO
O presente Trabalho tem por objetivo auxiliar a tomada de decisão
relacionada à concessão de crédito através dos conhecimentos que aborda uma
análise de regressão logística, suprimindo o risco que a empresa tem ao conceder
crédito. A maioria das empresas adotam a subjetividade, frequentemente por meio
de gestores que não conseguem descrever os processos para a tomada de decisão,
embora consigam apontar os fatores que influenciam as decisões. Desta forma, este
trabalho será realizado por meio de uma pesquisa quantitativa. A amostra é
composta de 150 clientes no cadastro da empresa A que trabalha no ramo de venda
de peças de moto, formada por 08 lojas, sendo 01 em Presidente Médici – RO,01
em Ji- Paraná – RO, 01 em Ariquemes – RO, 01 em Porto Velho – RO, 01 em
Guajará – Mirim – RO, 01 em Cacoal – RO, 01 em Cuiabá- MT e 01 em Rio Branco
– AC.Os principais resultados obtidos mostram que apenas três variáveis
independentes se apresentaram significativas e puderam ser inseridas no modelo,
foram elas idade (51 a 78 anos), tipo de ocupação autônomo e tipo de ocupação
outros. O poder preditivo do modelo foi de 75,3%. O estudo remete à necessidade
de ampliação do banco de dados da empresa, um controle mais rígido referente ao
preenchimento dos dados cadastrais e a inserção de mais características do cliente,
a fim de identificar as variáveis que mais influenciam a inadimplência.
Palavras-chave:Regressão Logística. Inadimplência. Clientes.Modelo de Previsão.
ABSTRACT
The present work aims to help the decision making process related the
granting of credit through knowledge that addresses a logistic regression analysis,
removing the risk that the company has to grant credit. Most companies adopts
subjectivity, frequently by means of managers who fail to describe the processes for
decision-making, although able to point out the factors that influence decisions. Thus,
this work will be carried by means of a quantitative research. The sample is
composed of 150 clients in the registration of the enterprise A who works in the
motorcycle parts sales branch, consisting of 08 stores, including 01 in Presidente
Medici - RO, 01 in Ji-Paraná - RO, 01 in Porto Velho - RO, 01 in Porto Velho - RO,
01 in Guajará - Mirim - RO, 01 in Cacoal - RO, 01 in Cuiabá-MT and 01 in Rio Branco
- AC.The main results show that only three independent variables presented
significant and could be included in the model, they were age (51-78 years), type of
autonomousoccupation and other type of occupation.The predictive power of the
model was 75.3%.The study remits to need for expanding the enterprise database,
stricter control regarding the filling in of cadastral data and the insertion of more
customer characteristics in order to identify the variables that most influence the
default.
Keywords: Logistic Regression. Default.Clients.Prediction model.
LISTA DE FIGURAS
Figura 1: Curva em S - A curva da Regressão Logística descreve a relação existente
entre à probabilidade associada à ocorrência de determinado evento e um conjunto
de variáveis dependentes.......................................................................................... 20
Figura 2. Passos para a análise logística no SPSS. ................................................. 35
Figura 3. Seleção da variável dependente ............................................................... 36
Figura 4. Classificação das covariáveis categóricas . .............................................. 36
Figura 5. Caixa de diálogo Salvar ............................................................................. 37
Figura 6. Caixa de diálogo Opões. ........................................................................... 37
LISTA DE TABELAS
Tabela 1: Elementos de ajuste do modelo ........................................................................ 19
Tabela 2: Variáveis Identificadas no sistema de Cadastro da empresa A, para a
construção do modelo. Presidente Médici, Out 2013 ...................................................... 24
Tabela 3: Criação de variáveis Dummies para as variáveis Independentes.
Presidente Médici, Out 2013 ................................................................................................ 24
Tabela 4: Estatística de Wald com os dados da empresa A. Presidente Médici, Out
2013. ........................................................................................................................................ 26
Tabela 5: Estatística de Pseudos – R – Quadrado realizada com os dados da
empresa A. Presidente Médici, Out 2013. ......................................................................... 26
Tabela 6: Resultados do teste de Hosmer e Lemeshow obtidos com os dados da
empresa A. Presidente Médici, Out 2013 . ........................................................................ 27
Tabela 7: Resultado do teste Qui – Quadrado para o teste de Hosmer e Lemeshow
obtido com os dados da empresa A. Presidente Médici, Out 2013 ............................... 28
Tabela 8: Matriz de Classificação Original do Modelo. Presidente Médici, Out 2013 28
Tabela 9: Matriz de Classificação Realizada do Modelo. Presidente Médici, Out 2013
.................................................................................................................................................. 28
Tabela 10: Coeficientes das variáveis independentes e Estatística de
Wald.Presidente Médici, Out 2013 ..................................................................................... 29
SUMÁRIO
1. INTRODUÇÃO ............................................................................................................................. 10
1.1 OBJETIVOS ............................................................................................................................ 12
1.1.1 OBJETIVO GERAL .................................................................................................................. 12
1.1.2 OBJETIVO ESPECÍFICO ........................................................................................................ 12
1.2 JUSTIFICATIVA ........................................................................................................................... 12
2. REVISÃO BIBLIOGRÁFICA ........................................................................................................ 13
2.1 INCLUSÃO DE TODAS AS VARIÁVEIS DEPENDENTES NO MODELO PARA QUE
SE OBTENHA MAIOR ESTABILIDADE ..................................................................................... 14
2.2 O VALOR ESPERADO DO ERRO DEVE SER ZERO ...................................................... 14
2.3 INEXISTÊNCIA DEAUTOCORRELAÇÃO ENTRE OS ERROS ...................................... 14
2.4 INEXISTÊNCIA DE CORRELAÇÃO ENTRE OS ERROS E AS VARIÁVEIS
INDEPENDENTES ......................................................................................................................... 15
2.5 AUSÊNCIA DE MULTICOLINEARIDADE PERFEITA ENTRE AS VARIÁVEIS
INDEPENDENTES. ........................................................................................................................ 15
3. METODOLOGIA ............................................................................................................................ 23
4. RESULTADOS E DISCUSSÃO .................................................................................................. 26
5. CONCLUSÃO ................................................................................................................................. 31
CONSIDERAÇÕES FINAIS ............................................................................................................. 32
REFERÊNCIAS .................................................................................................................................. 33
APÊNDICE ...................................................................................................................................... 35
10
1. INTRODUÇÃO
De acordo com Eifert (2003), inadimplência consiste no não pagamento até a
data de vencimento de um compromisso financeiro com outrem, quando feita
negociação de prazos entre as partes, para aquisição de bem durável ou não
durável, ou prestação de serviços, devidamente executados.
No Brasil a taxa de inadimplência do comércio varejista avançou 6,65% em
fevereiro de 2013, na comparação com o mesmo mês do ano anterior, segundo
informou a Confederação Nacional de Dirigentes Lojistas (CNDL) em conjunto com o
Serviço de Proteção ao Crédito (SPC Brasil).
De acordo com Roque Pellizaro Junior, presidente da CNDL, o aumento do
atraso no pagamento de contas é consequência das medidas de estímulo ao
consumo somado à falta de planejamento do consumidor.
Com vista a diminuir a taxa de inadimplência às empresas realizam a análise
de crédito. Segundo Schrickel (1995, p.27) a análise de crédito tem como objetivo, "a
habilidade de fazer uma decisão de crédito, dentro de um cenário de incertezas e
constantes mutações e informações incompletas". A análise de crédito, segundo o
autor, é a identificação dos riscos, a evidenciação de conclusões quanto à
capacidade de pagamento do tomador e recomendações relativas à melhor
estruturação e tipo de concessão do limite.
Segundo Santos (2000,p.29), o processo de análise e concessão de crédito
recorre ao uso de duas técnicas: a técnica subjetiva, baseada no julgamento
humano e a técnica objetiva ou estatística, baseada em conhecimentos estatísticos.
Na maioria das empresas, mas especificamente no mercado de crédito
concedido à pessoa física, a correta decisão é essencial para a sobrevivência de
empresas comercias que utilizam o crédito como impulsionador de vendas. A
avaliação de crédito é feita com base em uma variedade de informações observadas
no cadastro do cliente e consulta ao Serviço de Proteção ao Crédito (S.P.C). Os
gerentes analisam essas informações de maneira subjetiva e muitas vezes não
11
conseguem explicar os processos de tomada de decisões, embora consigam
apontar os fatores que influenciam as decisões (MENDES FILHO, 1996).
Para Silva(2003), os métodos estatísticos multivariados tem sido
considerados ferramentas bastante poderosas na administração do risco de
inadimplência existente na concessão de crédito. Sendo assim, esse estudo mostra-
se de extrema relevância para a análise de concessão de crédito, tendo como
vantagem um padrão mantido nas decisões e maior agilidade no processo.
As informações são coletadas por meio de um questionário estruturado, com
perguntas claras e objetivas para garantir a uniformidade e a padronização dos
resultados.
A pesquisa qualitativa, visa entender e interpretar comportamentos, atitudes e
motivações que influenciam ou determinam a escolha de produtos e marcas. Ela é
utilizada tanto para aprofundar conhecimentos que já tenham sido quantificados,
quanto para montar uma base de conhecimentos para posteriormente testá-los
quantitativamente.
A pesquisa quantitativatem como objetivo identificar a presença e medir a
frequência e intensidade de comportamentos, atitudes e motivações de um
determinado publicoalvo.
Opresente trabalho será realizado por meio de uma pesquisa quantitativa,
pois os dados serão ainda quantificados, para se conhecer o comportamento dos
adimplentes e inadimplentes. A finalidade de um modelo matemático somado a um
risco é reconhecer com um determinado grau de confiabilidade um comportamento
padrão dos inadimplentes diante da concessão de crédito. Para construção de um
modelo matemático é preciso observar os pressupostos para identificar qual método
estatístico é mais eficiente para descrever os dados gerados pela empresa de forma
a aumentar o poder de predição (SILVA, 2003).
O modelo matemático que descreve a inadimplência, assim que construído,
permitirá a classificação de um novo aspirante a crédito em um dos grupos,
“provável adimplente“ ou “provável inadimplente” com um determinado nível de
confiabilidade.
Por isso, o objetivo deste trabalho é encontrar um modelo matemático que
determine, com um determinado grau de confiabilidade, as variáveis que influênciam
o comportamento padrão dos inadimplentes. Pretende-se com isso, auxiliar a
tomada de decisão do analista minimizando possíveis erros.
12
1.1 OBJETIVOS
1.1.1 OBJETIVO GERAL
É propor um modelo matemático para auxiliar a tomada de decisão da
concessão de crédito, que é feita na empresa em estudo de forma subjetiva,
baseada no julgamento humano.
1.1.2 OBJETIVO ESPECÍFICO
É utilizar a regressão logística na identificação de variáveis que permitam
evidenciar o comportamento de clientes inadimplentes de uma determinada
empresa, a partir de informações cadastrais fornecidas pela mesma.
1.2 JUSTIFICATIVA
A concessão de crédito é uma forma de empréstimo que muitas empresas
fornecem aos seus clientes, o retorno dos recursos emprestados é fator
determinante para novas concessões e, até mesmo para a sobrevivência do próprio
negócio. Saber se um cliente provavelmente honrará com seus compromissos é
indispensável na hora de tomar uma decisão com vistas a concessão de crédito.
Os modelos de previsão quantitativos são muito utilizados para auxiliar a
análise de crédito, tendo como vantagens maior rapidez nas solicitações de crédito,
padrão mantido nas decisões e um menor número de pessoas necessárias para
esta atividade.
Para a construção do modelo de previsão será utilizada o método estatístico
multivariado de regressão logística.
13
2. REVISÃO BIBLIOGRÁFICA
A análise multivariada, pode ser definida como o conjunto de métodos que
permitem a análise simultânea de dados para um ou mais conjuntos de fatores, e
que considera o comportamento de mais de duas variáveis analisadas
simultaneamente(Corrar et al ,2007).
De acordo com Corraretal (2007), a regressão logística surgiu por volta dos
anos 60, um dos primeiros estudos que mais contribuíram para conferir a
notoriedade a esse recurso da estatística multivariada foi o famoso Estudo do
Coração(Framingham Heart Study), realizado com a colaboração da Universidade
de Boston, na cidade de Framingham, em Massachusetts. Os modelos logísticos
foram criados para atender a necessidade de modelos que explicassem melhor
dados qualitativos.
As variáveis qualitativas são variáveis que não possuem valores quantitativos,
sendo definidas por categorias ou classificações. Podem ser classificadas em
variáveis nominais (sexo, estado civil, etc) e variáveis ordinais (escolaridade, etc).A
variável dependente sofre influencia de variáveis quantitativas e qualitativas. As
variáveis quantitativas são facilmente mensuradas em alguma escala o que não
ocorre com as variáveis qualitativas, uma vez que essas indicam a presença ou a
ausência de uma qualidade ou atributo(Corraret al ,2007).
SegundoCorraret al (2007), com a análise de regressão logística o
pesquisador consegue contornar certas restrições encontradas em modelos
multivariados, com destaque para a homogeneidade de variância e a normalidade
na distribuição dos erros. Ainda assim, é necessário observar os seguintes
requisitos: a inclusão de todas as variáveis dependentes no modelo para que se
obtenha maior estabilidade; o valor esperado do erro deve ser zero; inexistência de
autocorrelação entre os erros; inexistência de correlação entre os erros e as
14
variáveis independentes e ausência de multicolinearidade perfeita entre as variáveis
independentes. A seguir será descrito os pressupostos que devem ser verificados.
2.1 INCLUSÃO DE TODAS AS VARIÁVEIS DEPENDENTES NO
MODELO PARA QUE SE OBTENHA MAIOR ESTABILIDADE
Em modelos de regressão múltipla é necessário determinar um
subconjunto de variáveis independentes que melhor explique a variável
resposta, isto é, dentre todas as variáveis explicativas disponíveis devemos
encontrar um subconjunto de variáveis importantes para o modelo. Para
isto, utiliza-se uma técnica denominada de seleção de variáveis, onde se
utiliza todos os modelos possíveis de variáveis dependentes, e
considerando critérios de avaliação seleciona-se o melhor deles.
2.2 O VALOR ESPERADO DO ERRO DEVE SER ZERO
A não observação desse pressuposto compromete a consistência da
estimativa do erro. O valor esperado do erro ser igual a zero significa que
os fatores não incluídos no modelo (que compõem o termo do erro), não
afetam de maneira sistemática o valor médio da variável dependente.
Segundo Kennedy (2009, p. 109), “o erro pode ter uma média diferente de
zero devido a presença de erros de mensuração sistematicamente
positivos ou negativos no calculo da variável dependente”.
2.3INEXISTÊNCIA DEAUTOCORRELAÇÃO ENTRE OS ERROS
O modelo de regressão pressupõe que a correlação entre os
resíduos, ao longo do espectro das variáveis independentes, é zero;
sendo assim o efeito de uma observação de dada variável X é nulo sobre
as observações seguintes; portanto, não há causalidade entre os resíduos
e a variável X, e, por consequência, a variável Y só sofre influencias da
própria variável X considerada e não dos efeitos de X1 sobre X2 e desta
15
sobre Y.Em outras palavras, os resíduos são independentes entre si e só
se observa o efeito de X sobre Y, ou seja, não existe autocorrelação
residual. A ausência de autocorrelação serial pode ser identificada através
de gráficos ou testes estatísticos, como DURBIN – WATSON e
BREUSCH – GODFREY.
2.4 INEXISTÊNCIA DE CORRELAÇÃO ENTRE OS ERROS E AS
VARIÁVEIS INDEPENDENTES
Para que esse pressuposto seja atendido é necessário que todas
as variáveis teoricamente importantes, sejam incorporadas no modelo
matemático. Pois, se uma variável X1 esta correlacionada com outra
variável explicativa, e esta última não for incorporada no modelo, as
estimativas serão viesadas. Segundo Lewis – Beck (1980) a uma certa
dificuldade em satisfazer esse pressuposto em desenhos de pesquisa não
experimentais .
2.5AUSÊNCIA DE MULTICOLINEARIDADE PERFEITA ENTRE AS
VARIÁVEIS INDEPENDENTES.
Segundo Gujarati(2000,p.318), o termo multicolinearidade foi
cunhado por Ragnar Frish em 1934. Originalmente, significa a existência
de uma “perfeita” ou “exata“ relação linear entre algumas ou todas as
variáveis explicativas de um modelo de regressão. A situação ideal para
todo o pesquisador seria ter diversas variáveis independentes
correlacionadas com a variável dependente, mas com pouca correlação
entre elas próprias. O diagnostico de multicolinearidade pode ser feito
observando-se modelos que apresentem coeficientes de determinação
(R²) altos e coeficientes de regressão (angular e linear) não significativos,
ou seja, Sig maior que α. Ou, ainda por meio de testes estatísticos, como
o FARRAR e GLAUBER e FIV (Fator de Inflação da Variância).
16
De acordo com Corraretal (2007), a técnica de regressão logística
se destaca, pela possibilidade de contornar certas restrições encontradas
em outros modelos multivariados. Entretanto, o modelo de regressão
logística é sensível à colinearidade entre as variáveis (HAIR et al., 2005).
Por isso, Corraretal (2007) indica o uso do método stepwise como uma
das ações corretivas para o problema de multicolinearidade, na escolha
das variáveis que irão compor o modelo considerado.
Hosmer e Lemeshow (1989) mostraram que a utilização do método de
regressão logística é adequada em muitas situações, porque permite que se analise
o efeito de uma ou mais varáveis dependentes (categóricas ou métricas) sobre uma
variável resposta dicotômica, representando a presença (1) ou ausência (0) de uma
característica. A regressão logística tem por finalidade encontrar um modelo
explicativo para o comportamento da probabilidade de sucesso, em termos das
variáveis dependentes. Dessa forma, a regressão logística é especificamente
apresentada para prever a probabilidade entre um intervalo de 0 a 1 de um evento
ocorrer.Dessa forma, um método para quantificar esses atributos é construir
variáveis artificiais que assumam valores de 1 ou 0 ( indicando ausência e presença
de um atributo) que são conhecidas pela literatura de variáveis dummy. O par (0,1)
pode ser transformado em qualquer outro par por uma equação linear tal que:
Z= a+bD (b ≠ 0 ) (1)
Onde:
a e b são constantes e D= 1ou 0.
Quando D=1 tem-se:
Z=a+b;
e quando D=0 tem-se:
Z = a
Assim, o par (0,1) se torna (a,a+b). Observa-se que a atribuição de valores é
arbitraria, exigindo cuidado na hora da interpretação dos resultados.
O valor esperado das variáveis dependentes passa por um processo de
transformação logística em que são transformadas numa razão de probabilidades e
posteriormente em uma variável de base logarítmica. A regressão múltipla emprega
17
o método de mínimos quadrados, que minimiza a soma das diferenças quadradas
entre os valores reais e previstos da variável dependente. Entretanto, devido à
natureza não linear dessa transformação, utiliza-se o método de máxima
verossimilhança, no lugar do método de mínimos quadrados utilizado na regressão
linear, para estimar os coeficientes (HAIR et al., 2005 ).
Portanto, a regressão logística maximiza a probabilidade de que um evento
ocorra, ao invés de minimizar os desvios quadrados (mínimos quadrados).
No modelo de regressão logística, com apenas uma variável independente X:
E(Yi) = π x =
eβ0+β1
1+eβ0+β1 (2)
Onde:
π (x) = probabilidade de a variável resposta ser igual a 1 dado que X=x.
A definição de π (x) mostrada na equação deriva de uma transformação de
variáveis denominada transformação logit da probabilidade π (x). O principal objetivo
dessa transformação é permitir que a equação de regressão logística g(x) tenha
características lineares e, assim permita que valores entre −∞ e +∞ sejam
assumidos pela variável dependente. A equação 3 mostra como é feita a
transformaçãologit:
g(x) = ln π(x)
1-π(x) = β
0+β
1x (3)
Onde:
π(X)
1-π(x)é comumente chamada de Odds;
β0 + β1x é denominada como a equaçãorespostalogit;
-∞<g(x) <+∞para todo x tal que-∞< x <+∞.
De uma forma geral, o método da máxima verossimilhança tem como função
retornar valores para os parâmetros desconhecidos β0 e β1 de forma a maximizar a
probabilidade de se obter a sequência observada de dados.
A primeira etapa para a aplicação do método consiste na definição e
modelagem da equação de verossimilhança, que expressa a probabilidade de
obtenção da sequência observada como equação dos parâmetros β0e β1. Como a
18
variável resposta Y assume somente os valores 0 ou 1, a equação apresentada
anteriormente fornece a probabilidade condicional de Y ser igual a 1 dado x, ou seja,
P(Y=1/x). Da mesma maneira, tem-se que 1- 𝜋(𝑥) representa a probabilidade
condicional de Y ser igual a 0 dado x, P(Y= 0/x).
ζ x =π(xi)yi [1-π(xi)]
1-yi (4)
Sendo: π xi = f (β0, β
1)
Como as observações 𝑌𝑖 são todas independentes, tem-se que a equação de
verossimilhança τ β para uma amostra de tamanho n é dada por:
τ β = π(xi)yin
i=1 (1-π(xi)) 1-yi (5)
Com baseno método da máxima verossimilhança, as estimativas para β0 e β
1
são obtidas de forma a maximizar a expressão acima, porém, por facilidades
matemáticas, o mais usual é a utilização do logaritmo dessa equação, definido
como:
L β =ln τ(β) = {yi
ni=1 ln π xi +(1-y
i)ln[1-π(x
i)]} (6)
Para que seja possível determinar os valores de β que maximizam L(β) é
necessário derivar a equação em relação à β0 e β
1 e igualar à expressão resultante
a zero. As equações obtidas dessa forma, conhecidas como expressões de
verossimilhança, são as seguintes:
[yi
ni=1 -π(xi)]=0 (7)
xini=1 [y
i-π(xi)]=0 (8)
No caso dos modelos de regressão logística, as expressões 7 e 8 são não
lineares em β0
e β1
, sendo necessária a utilização de métodos de resolução
19
iterativos para obter suas soluções, tais como o método de mínimos quadrados
ponderado apresentado por McCullagh e Nelder (1989).
O método iterativo de mínimos quadrados ponderados é um algoritmo
numérico de resolução utilizado no contexto de Modelos Lineares Generalizados,
esse método trabalha com uma aproximação de segunda ordem da equação log-
verossimilhança (fórmula de Taylor), com desenvolvimento em torno duma
estimativa do vetor β.
De acordo com Hairet al. (2005), a regressão logística se assemelha em
muitos pontos à regressão múltipla, mas se difere basicamente no sentido de prever
a probabilidade de um evento ocorrer.
Tabela 1: Elementos de ajuste do modelo
Correspondência de elementos primários de ajuste do modelo
Regressão múltipla Regressão logística
Soma total de quadrados -2LL do modelo base
Soma de quadrado do erro -2LL do modelo proposto
Soma de quadrados da regressão Diferença de–LL* para modelos base e
proposto
Teste F de ajuste de modelo Teste de qui – quadrado da diferença -
2LL
Coeficiente de determinação (R²) Medidas pseudo R²
Fonte: Hairet al (p. 288, 2005).
Observa-se na Tabela 1 que os métodos básicos para testar o ajuste geral do
modelo são comparáveis, com as diferenças surgindo dos métodos de estimação
nas duas técnicas.
20
Os valores de probabilidade podem ser qualquer valor entre 0 e 1, mas o
valor previsto deve ser limitado, de modo a recair no intervalo de 0 a 1. Para definir
uma relação delimitada por 0 e 1, a regressão logística usa uma relação assumida
entre as variáveis independentes e dependente que lembra uma curva em forma de
S ( Hair et al, 2005), conforme é observado na Figura 1.
Figura 1:Curva em S - A curva da Regressão Logística descreve a relação existente entre à probabilidade associada à ocorrência de determinado evento e um conjunto de variáveis
dependentes. Fonte: Hair et al. (2005, p. 284).
O modelo de regressão logística é obtido pelo procedimento de comparação
da probabilidade de um evento ocorrer com a probabilidade de não ocorrer. De
acordo com Hairet al. (2005), esta razão pode ser expressa segundo a Equação 9.
Prob evento ocorrer
Prob evento não ocorrer = eβ0+β1X1+…+βnXn (9)
Os coeficientes estimados (β0, β1, ..., βn) são medidas das variações na
proporção das probabilidades, chamada de razão de desigualdade. São expressos
em logaritmos, necessitando serem transformados para facilitar a interpretação. Um
coeficiente positivo revela que a variável observada aumenta a probabilidade de
21
ocorrência do evento, enquanto que um valor negativo diminui a probabilidade
prevista.
Hairetal (2005) apresenta as seguintes medidas de avaliação do modelo
logístico:
Log LikelihoodValue (-2LL) – trata-se de um indicador que mede o
ajuste da estimação do modelo com o valor -2 vezes o logaritmo do
valor da verossimilhança, chamado de -2LL. O valor mínimo para -2LL
é 0, o que corresponde a um ajuste perfeito, assim quanto menor o
valor de -2LL, melhor o ajuste do modelo;
Pseudos-R-Quadrado – são coeficientes que cumprem um papel
semelhante ao Coeficiente de Determinação da Regressão Múltipla. O
valor R² logit varia de 0 a 1, a medida que o modelo proposto aumenta
o ajuste, o -2LL diminui. O valor pseudo – quadrado R² possui duas
outras medidas semelhantes. A medida R² de Cox e Snell e a medida
de Negelkerke. A medida R² de Cox e Snell opera do mesmo modo,
com valores maiores indicando maior ajuste do modelo. Entretanto,
esta medida é limitada no sentido de que não pode atingir o valor
máximo de 1, de forma que Nalgelkerke propôs uma modificação que
tinha o domínio de 0 a 1. As duas medidas adicionais são interpretadas
como refletindo a quantia de variação explicada pelo modelo logístico,
com 1 indicando ajuste perfeito. O pseudo R² para um modelo logit
(R²logit) pode ser calculado com a equação:
Rlogit2
=- 2LLnulo- ( - 2LLmodelo)
- 2LLnulo
(10)
Teste Hosmer e Lemeshow – é um teste Qui – quadrado(𝜒2) que
consiste em dividir o número de observações em cerca de dez classes
e, em seguida, comparar as frequências preditas com as observadas
para verificar se existem diferenças significativas entre as
classificações realizadas pelo modelo e a realidade observada. Espera-
se que uma convergência de indicações dessas medidas forneça o
suporte necessário ao pesquisadorpara a avaliação geral do modelo;
Teste Wald – sua finalidade é aferir o grau de significância de cada
coeficiente da equação logística, inclusive a constante, mais
22
precisamente, verificar se cada parâmetro estimado é
significativamente diferente de zero. Se o coeficiente logístico é
estatisticamente significante, podemos interpretá-lo em termos de
como o mesmo impacta a probabilidade estimada e consequentemente
a previsão de pertinência a grupo. A estatística Wald segue uma
distribuição Qui-quadrado e quando a variável dependente tem um
único grau de liberdade pode ser calculada elevando-se ao quadrado a
razão entre o coeficiente que esta sendo testado e o respectivo erro-
padrão, conforme a equação:
Wald = (b/S.E)2 (11)
Onde:
b = coeficiente de uma variável independente incluída no modelo
S.E = erro – padrão (standard error).
De acordo com Corraretal (2007), comparada com outras técnicas de
dependência, a regressão logística acolhe com mais facilidade variáveis categóricas.
Segundo Corrar et al (2007) a regressão logística se caracteriza como uma
técnica estatística que permite estimar a probabilidade de ocorrência de determinado
evento em face de um conjunto de variáveis independentes, pois trabalha com uma
escala de resultados que vai de 0 a 1 e tende a ser mais útil e a apresentar
resultados mais confiáveis, tendo em vista que o referido modelo é mais flexível
quanto às suposições iniciais.
Para a construção de um modelo que melhor represente as observações, é
necessário a avaliação de variáveis que devem ser inserida ou retirada do modelo
para evitar problemas de multicolinearidade. Para a seleção inicial das variáveis
independentes que devem compor o modelo, pode-se utilizar o método stepwise, a
qual seleciona a melhor combinação destas variáveis para compor o modelo ideal.
Corraretal(2007) indica o método stepwise como uma das ações corretivas para os
efeitos de multicolinearidade. O procedimento de avaliação das variáveis
dependentes desconsidera variáveis que apresentem sinais de multicolinearidade,
optando por manter no modelo apenas aquelas de maior significância estatística
(SELAU, 2011).
23
3. METODOLOGIA
Por confidencialidade a empresa que participou deste trabalho será
renomeada de empresa A. O ramo de atividade da empresa A é a distribuição no
atacado e no varejo de peças de motos em oficinas. A empresa foi fundada no ano
de 1994 e em 2014 é um grupo formado por 08 unidades, sendo 01 em Presidente
Médici – RO,01 em Ji- Paraná – RO, 01 em Ariquemes – RO, 01 em Porto Velho –
RO, 01 em Guajará – Mirim – RO, 01 em Cacoal – RO, 01 em Cuiabá- MT e 01 em
Rio Branco – AC.
A empresa conta com o setor de análise de crédito localizada na matriz, em
Presidente Médici – RO, responsável pela a análise do candidato à cliente através
do comprovante de renda, de residência, referencias comerciais, consultas ao
Serviço de Proteção ao Crédito (S.P.C)
A primeira etapa realizada no trabalho foi determinar o tamanho da amostra.
Como sugere Hairet al. (2005), para cada variável independente são necessárias 20
observações no mínimo.A amostra contém as pessoas constantes no Cadastro da
Empresa A, formada pelos cadastros preenchidos de forma correta, sem dados
faltantes, sendo mantido total sigilo das informações.
O período de coleta de dados durou aproximadamente dois meses,
encerrando-se no mês de novembro de 2013, na cidade de Presidente Médici - RO.
Durante esse período foram coletados dados de 150 pessoas.Estas
informações estavam disponíveis no sistema de informações interno da empresa
através de um programa chamado MCIMulticontrole Integrado, especifico para esse
fim.
A empresa adota como critério para caracterizar um cliente inadimplente o
atraso a 30 dias no pagamento de suas operações.
As análises de dados foram realizadas pelo software SPSS®Statistics 20.
No presente caso foi atribuído o valor 1para representar o estado de
inadimplência e 0 para o de adimplência.
24
Para a identificação inicial das variáveis independentes, tomou- se por base
estudos realizados anteriormente sobre o assunto e nas informações disponíveis no
sistema de cadastro da empresa. As variáveis pré-selecionadas estão na Tabela 2.
Tabela 2: Variáveis Identificadas no sistema de Cadastro da empresa A, para a construção do
modelo. Presidente Médici, Out 2013
Variáveis Descrição
Gênero Feminino ou Masculino
Idade Idade do Cliente em Anos
Estado civil Casado, Solteiro, Divorciado, Viúvo e Outros
Tipo de ocupação Assalariado, Autônomo, Funcionário Publico,
Outros
Tipo de Residência Própria, Alugada, Funcional, Com Parentes
Renda mensal Valor da Renda (R$)
Fonte: Dados do cadastro da empresa A.
Para incluir asvariáveis Estado Civil, Tipo de Ocupação, Tipo de Residência e
Idade na análise, foi necessário categorizá-las. O resultado dessa recodificação está
contido na Tabela 3.
Tabela 3: Criação de variáveis Dummies para as variáveis Independentes. Presidente Médici, Out 2013
Variáveis independentes Variáveis Dummy
Estado Civil
Solteiro ESTSOL
Casado ESTCASA
Divorciado ESTDIVO
Viúvo ESTVIU
Outros ESTOUTR
Tipo de Ocupação
Assalariado TOASSA
Autônomo TOAUTO
Funcionário Publico TOFUNC
Aposentado TOAPOS
Outros TOOUTR
25
Tipo De Residência
Própria TRPROP
Alugada TRALUG
Funcional TRFUNC
Com Parentes
Idade
21 a 30 anos
31 a 40 anos
41 a 50 anos
51 a 78 anos
TRPAREN
IDADE1
IDADE2
IDADE3
IDADE4
Fonte: Dados do cadastro da empresa A.
A variável idade foi dividida em 4 faixas: 21 a 30 anos(IDADE1), 31 a 40 anos
(IDADE2), 41 a 50 anos (IDADE3) e 51 a 78 anos (IDADE4).
As variáveis independentes foram transformadas, com o auxilio do software
SPSS, em variáveis dummy (0 ou 1). Com esse método evitam-se a presença da
não linearidade das características das variáveis no cálculo da análise multivariada.
Após copilados os dados e testada sua consistência, deve ser verificado à
qualidade de preenchimento e a presença de observações faltantes (missing),
eliminando os dados inconsistentes ou atípicos.
26
4. RESULTADOS E DISCUSSÃO
Os resultados obtidos com os dados cadastrais da empresa A, na cidade de
Presidente Médici – RO, no ano de 2013, por meio da regressão logística e suas
devidas interpretações, serão apresentados a seguir com o auxílio de tabelas.
A amostra utlilizada na construção do modelo contem 150 cadastros de
clientes. Para a seleção das variáveis foi utilizado o método stepwise.
Para avaliar a qualidade de um modelo logístico, utiliza-se as medidas de
avaliação. O primeiro passo é avaliar a significância da constante incluída no
modelo, por meio da Estatística de Wald:
Tabela 4:Estatística de Waldcom os dados da empresa A. Presidente Médici, Out 2013.
B S.E.
(erro padão) Wald Diferenciação Significância
Constante -0,461 0,168 7,571 1 0,006
Fonte: Dados do software SPSS
Observa-se da tabela 4 que o coeficiente da constante incluida no modelo é -
0,461, o S.E. (erro padrão) é de 0,168, o valor Wald é de 7,571,o grau de liberdade
igual a 1 e significância igual a 0,006.
A estatística Wald, avalia a significância da constante incluida no modelo,
esta mesma estatística será utlizada para avaliar também a significância dos
coeficientes de cada variável independente. A constante deste modelo é significativa
ao nível de significância de 0,05.
Os valores apurados para as medidas que representam o ajuste geral do
modelo, podem ser verificados na Tabela 5.
Tabela 5: Estatística de Pseudos – R –Quadradorealizada com os dados da empresa A. Presidente
Médici, Out 2013.
- 2 Log Likelihood Cox & Snell R Square Nagelkerke R Square
152,372 0,268 0,365
Fonte: Dados do software SPSS
27
Os valores verificados para as medidas de avaliação da capacidade preditiva
do modelo logístico Log Likelihood (-2LL) = 152,372, Cox- Snell R2= 0,268 e
Nagelkerke R2= 0,365.
Através deles podemos concluir que o modelo explica 26,8% e 36,5%,
respectivamente, das variações registradas na variável dependente.
Corrar et al (2007), sugere que os pesquisadores usem essas estatisticas
apenas como uma medida aproximada do poder preditivo, não conferindo muita
importancia a cada um deles isoladamente.
O teste de Hosmer e Lemeshow avalia as diferenças entre as classificações
observadas e as previstas pelo modelo. Se as diferenças forem significativas o grau
de acurácia do modelo não é bom.
Tabela 6: Resultados do teste de Hosmer e Lemeshowobtidos com os dados da empresa A.
Presidente Médici, Out 2013 .
Grupo
Situação do Cliente: Adimplente
Situação do Cliente: Inadimplente
Total
Observado Esperado Observado Esperado
1 15 14,047 0 0,953 15
2 13 13,442 2 1,558 16
3 12 13,643 4 2,357 15
4 12 11,986 3 3,014 15
5 11 10,364 4 4,636 15
6 9 8,691 6 6,309 15
7 8 7,150 7 7,850 15
8 3 5,727 12 9,273 15
9 7 4,241 8 10,759 15
10 2 2,709 12 11,291 14
Fonte: Dados do software SPSS.
Na tabela 6 verifica-se os resultados do Teste de Hosmer e Lemeshow, onde
dividiu-se o número de observações em dez classes e em seguida comparou-se as
frequencias preditas com as observadas para verificar se existiam diferenças
significativas entre as classificações realizadas pelo modelo e a realidade
observada.
28
A tabela 7 apresenta os resultados finais do teste:
Tabela 7: Resultado do teste Qui – Quadrado para o teste de Hosmer e Lemeshow obtido com os
dados da empresa A. Presidente Médici, Out 2013
Qui- Quadrado Diferenciação Significância
2,388 6 0,881
Fonte: Dados do software SPSS.
O valor encontrado do Qui – Quadrado foi 2,388, com grau de liberdade igual
a 6 e significância igual a 0,881.
O teste de Hosmer e Lemeshow trata-se de um teste Qui – Quadrado, o
cálculo nos leva a uma estatística 2,388 e um nível de significância de 0,881. Ao
nível de 0,05 de significância não rejeita-se a hipotése de que os valores preditos
não são significativamente diferentes dos observados. Portanto, o modelo pode ser
utilizado para estimar a probabilidade de um determinado cliente se tornar
inadimplente em função das variáveis independentes.
A matriz de classificação do modelo proposto, contendo a comparação entre a
classificação original e a classificação realizada, das observações da amostra, está
contida nas tabelas 8 e 9.
Tabela 8: Matriz de Classificação Original do Modelo. Presidente Médici, Out 2013
Observado
Previsão do Modelo (Classificação Original)
Adimplente Inadimplente Nível de Acerto%
Adimplente
93 0 100
Inadimplente
57 0 0
Média da Acurácia
62
Fonte: Dados do software SPSS.
Tabela 9: Matriz de Classificação Realizada do Modelo. Presidente Médici, Out 2013
Observado
Previsão do Modelo (Classificação Realizada)
Adimplente Inadimplente Nível de Acerto%
Adimplente
73 20 78,5
Inadimplente
17 40 70,2
Média da Acurácia
75,3
29
Fonte: Dados do software SPSS.
A matriz de classicação do modelo original indica um percentual de a certo de
62%, e a matriz de classificação do modelo realizada indica um percentual de acerto
de 75,3%.
Comparando-se as tabelas, observa-se um aumento no percentual de
acertos, após a inclusão das variáveis independentes no modelo.
A tabela 10 apresenta os coeficientes das variáveis do modelo, bem como as
estatísticas de Wald e os valores de probabilidade do teste Wald.
Tabela 10: Coeficientes das variáveis independentes e Estatística de Wald.Presidente Médici, Out
2013
VARIÁVEIS Coeficientes Estatística de
Wald SIGNIFICÂNCIA
SEXM -0, 132 0,041 0,839
ESTSOL -21, 816 0 1
ESTCASA -21, 655 0 1
ESTDIVO -21, 898 0 1
ESTVIU -44, 563 0 0,999
IDADE2 0, 722 1,753 0,186
IDADE3 0, 522 0,638 0,424
IDADE4 1, 645 4,173 0, 041
TOAPOS 17, 793 0 1
TOFUNP -0, 475 0,154 0,695
TOAUTO -1, 738 7,093 0,008
TOOUTR -2, 971 27,010 0,000
TRPROP 1, 668 1,718 0,190
TRALUG 1, 125 0,645 0,422
TRPAREN 1, 917 1,729 0,188
RE 0 0,602 0,438
Fonte: Dados do software SPSS.
A estatística de Wald sugere que nem todas as variáveis poderão ser
utilizadas no modelo. Apenas três variáveis se mostraram significativas, a um nível
de significância de 0,05, TOAUTO, TOOUTR e IDADE4.
Os coeficientes da variável TOAUTO E TOOUTR são negativos, isso significa
que uma variação positiva em tais variáveis contribui para diminuir a probabilidade
de um cliente se tornar inadimplente. A variável IDADE4, pelo contrário, possui sinal
30
positivo, indicando que uma variação positiva nessa variável concorre para aumentar
a probabilidade de o cliente se tornar inadimplente.
De acordo com os coeficientes encontrados, o modelo logístico é apresentado
na equação :
P(Y=1) = 1
1+exp(1,645 IDADE4- 1,738TOAUTO-2,971 TOOUTR
31
5.CONCLUSÃO
O objetivo deste trabalho foi melhorar a previsão do risco de concessão de
crédito, através da regressão logística. A utilização dos modelos de previsão de risco
de credito deve ajudar o analista na tomada de decisão, associando a análise
subjetiva à informação obtida com o modelo de previsão de risco de crédito, no
intuito de aumentar os acertos na decisão, diminuindo assim o número de clientes
classificados incorretamente.
Os resultados dos testes para avaliação da capacidade preditiva do modelo
logístico proposto, Qui- Quadrado, Cox- Snell R², Nagelkerke R², Teste de Hosmer e
Lemeshow e a matriz de classificação com um poder preditivo de 75,3%, indicam
que o modelo permitirá a identificaçãodas variáveis que impactam a inadimplência
na empresa estudada.
As variáveis que mostraram-se significativas ao nível de 0,05 de confiança
foramapenasidade (51 a 78 anos), tipo de ocupação autônomo e tipo de ocupação
outros.
De acordo com a analista da empresa em estudo, as características dos
clientes que mais influenciam sua tomada de decisão de concessão de crédito são
exatamente a idade, e o tipo de ocupação deste.
32
CONSIDERAÇÕES FINAIS
Algumas dificuldades foram encontradas para a realização da pesquisa, a
pequena quantidade de variáveis disponíveis na base de dados pode acarretar a
exclusão de aspectos importantes na concessão de credito e também em relação
aos cadastros preenchidos, os quais em sua maioria possuíam dados faltantes,
sendo assim não podendo ser aproveitados para a pesquisa.
33
REFERÊNCIAS
DIÁRIO, COMÉRCIO, INDÚSTRIA & SERVIÇOS. Inadimplência do comércio sobe
6,6% em fevereiro na pesquisa CNDL. Disponível em:
<http://www.dci.com.br/financas/inadimplencia-do-comercio-sobe-6,6-em-fevereiro-
na-pesquisa-cndl-id337519.html>. Acesso em: 20 de jul. 2013.
CORRAR, L. J.; PAULO, E.; DIAS FILHO, J. M. Análise multivariada: para cursos de
administração, ciências contábeis e economia. São Paulo: Atlas, 2007.
EIFERT, D. S. Análise Quantitativa na Concessão de Crédito versus inadimplência:
um estudo empírico. Porto Alegre: UFRGS, 2003. Dissertação (Mestrado em
Administração), Programa de Pós-Graduação em Administração, Universidade
Federal do Rio Grande do Sul, 2003.
HAIR, J. F., ANDERSON, R. E., TATHAM, R. L. e BLACK, W. C. Análise
Multivariada deDados.5. ed.Porto Alegre: Bookman, 2005.
HOSMER, D.W.; LEMESHOW, S. Applied Logistic Regression. New York: John
Wiley & Sons, 1989.
KENNEDY, Peter (2002). “Sinning in the Basement: What Are the Rules? The Ten
Commandments of Applied Econometrics,”Journal of Economic Surveys, Wiley
Blackwell, vol. 16: 569-589.
LEWIS-BECK, Michael (1980). Applied Regression: an introduction.Series
Quantitative Applications in the Social Sciences.SAGE University Paper.
MCCULLAGH, P. E NELDER, J. A. (1989).Generalized Linear Models,2nd. Edition.
Chapman and Hall, London.
34
MENDESFILHO, E.F., CARVALHO, A.C.P.L.F.; MATIAS, A.B. Utilização de redes
neurais artificiais na análise de risco de crédito a pessoas físicas. In:III Simpósio
Brasileiro de Redes Neurais, Recife.Ancis 1996.
REBELO, E; VALLE, P.O. O uso de regressoresdummy na especificaçãode modelos
com parâmetros Variáveis. Revista de Estatística, 3ºquadrimestre de 2002, pp.17-40.
SCHRICKEL, K. W.. Análise de crédito: concessão e gerência de empréstimos. 2º
Ed., São Paulo: Atlas, 1995.
SELAU, L.P.R.; RIBEIRO, J.L.D. Systematic approach to construct credit risk
forecast models.PesquisaOperacional, v.31,p.117,2011.
SANTOS,J.O. Análise de Crédito: Empresa, Pessoas Física, Agronegócios
ePecuária. 3. Ed. São Paulo: Atlas, 2009.
35
APÊNDICE
Para realizar a análise de regressão logística no software SPSS Statistics20,
om os dados do sistema de cadastro de clientes da empresa A, vamos até a opção
Analisar → Regressão → Logística Binária.
Figura 2. Passos para a análise logística no SPSS.
O próximo passo é a identificação da variável dependente, que nesse caso é
a condição do cliente (adimplente ou inadimplente) e das variáveis
independentesque formarão o modelo, conforme a figura baixo:
36
Figura 3. Seleção da variável dependente
Selecionada a variável dependente, transferem-se as demais para o campo
das covariáveis, para isso seleciona-se a opção categórico, conforme a figura
abaixo.
Figura 4. Classificação das covariáveiscategóricas .
Realizada a classificação das covariáveis, seleciona-se a opção continuar.
A seguir temos a opção Salvar, clicando sobre ela aparecerá a seguinte caixa
de diálogo:
37
Figura 5. Caixa de diálogo Salvar
Nessa guia pode-se salvar as estatísticas de interesse, para este trabalho
foram salvas as probabilidades previstas para o modelo.
Logo após vamos até as Opções, e selecionamos Diagramas de
Classificação, Qualidade do ajuste de Hosmer- Lemeshow, CI para exp(B) e
marcamos as saídas que queremos, conforme a figura abaixo:
Figura 6. Caixa de diálogo Opões.
A partir deste quadro obtém –se os resultados de interesse.
Para esta análise as opções de interesse são diagramas de classificação,
qualidade do ajuste de Hosmer – Lemeshow e o CI para exp (B).O teste Hosmer –
Lemeshow tem como objetivo verificar se existem diferenças significativas entre os
38
valores preditos e os observados. O CI para exp (B) é o intervalo de confiança de
cada coeficiente estimado, no presente trabalho é de 95%.O limite de classificação
sugere um ponto de corte para a classificação dos indivíduos em um determinado
grupo, o limite utilizado neste trabalho é de 0,5.A probabilidade por Etapa traz os
critérios para inclusão ou exclusão de variáveis no modelo e ao lado o número de
iterações que o software devera realizar.
A opção Inicialização não foi usada neste trabalho, ela serve como uma
alternativa para as estimativas paramétricas quando os pressupostos desses
métodos estão em dúvida (como no caso dos modelos de regressão com resíduos
heteroscedásticos aptos para pequenas amostras).